
Сейчас в мире сложилась такая ситуация, что практически каждый хочет изучить науку о данных (aka дата-сайенс или data science в оригинале). И для этого много причин – это достаточно интересная работа, с неплохой зарплатой и возможностью работать в комфортных условиях, например, даже из кровати в своем доме. Так что давай рассмотрим 7 обязательных навыков дата-сайентиста.
Подпишись на группу Вконтакте и Телеграм-канал. Там еще больше полезного контента для программистов.
А на YouTube-канале ты найдешь обучающие видео по программированию. Подписывайся!
Маст-хэв скиллы для дата-сайентиста
Сегодня мы рассмотрим семь критически важных навыков которыми должен обладать каждый дата-сайентист. Вот полный список:
- Креативность и критическое мышление
- Математика и статистика
- Программирование
- Анализ данных и визуализация
- Машинное и глубокое обучение
- Базы данных
- Образование
Креативность и критическое мышление
В повседневной работе задачи для дата-сайетитста очень часто слабо определены, особенно на старте проекта. Для того, чтобы приносить пользу специалист также должен обладать достаточно обширными знаниями в конкретной предметной области.
Например, как ты будешь разрабатывать модель для анализа кредитного риска, если ничего об этом не знаешь? И даже если ты будешь делать всё правильно и следовать лучшим практикам в дата-сайенс, вряд ли ты сможешь добиться желаемого результата. Как следствие, твоя модель будет работать не оптимально, и ты не будешь знать, что с этим делать.
Вот в таком случае тебе и пригодится креативность и критическое мышление. Дата сайентист должен уметь обрабатывать огромное количество информации в короткий промежуток времени. Имея команду креативных людей, появляется возможность создавать решения о которых никто раньше и не мог и подумать.
Критическое мышление же поможет тебе копать глубже и всегда задавать правильные вопросы, чтобы выявлять возможные предрассудки и заблуждения.
Математика и статистика
То, как много математики тебе будет попадаться в ежедневной работе зависит от конкретной позиции. Чаще всего в дата-сайенс ты будешь сталкиваться в этими четырьмя разделами математики:

Это определенно не те темы, которые можно выучить за неделю, особенно учитывая, что весь этот список входит в университетскую программу технических специальностей.
Но это совсем не означает, что теперь тебе придется провести весь следующий год занимаясь глубоким изучением этих предметов, а вот основы знать необходимо. Для джуниор уровня будет достаточно понимания, как применять эти темы на практике в дата сайенс и интуиции. А вот если ты претендуешь на высокоуровневую позицию исследователя данных, то эти предметы должны быть твоей второй натурой.
У тебя в любом случае будет как минимум несколько лет для роста от джуна до синьора, поэтому тебе должно хватить времени, чтобы изучить эти темы более глубоко. И одна из самых приятных особенностей – ты можешь обучиться всему этому самостоятельно и бесплатно, но на английском. Вот ссылки на хорошие открытые онлайн курсы:
Программирование
Ни математика, ни статистика, ни критическое мышление не помогут тебе, если ты не знаешь, как выражать свои мысли с помощью языка программирования. Давай посмотрим, какие языки чаще всего применяются в анализе данных:

Если в двух словах, то Python и R – лидеры индустрии. При этом SQL используется чаще, чем R, но это связано с другой причиной, которую мы обсудим чуть позже в этой статье.
Если ты только начинаешь изучать программирование, то у меня для тебя отличные новости – и Python, и R достаточно легки в изучении. В то же время, если ты до этого изучал какой-либо императивный язык (например, C# или Java), то переучиться с них тоже не составит большого труда.
В конце концов, Python разрабатывался для обучения основам программирования детей, так что это не должно составить большой сложности для такого хорошо образованного человека как ты, не так ли?
Анализ данных и визуализация
Для того чтобы эффективным дата-сайентистом, необходимо иметь отличные навыки в анализе данных и визуализации. Основная цель твоей работы – рассказать историю, и никто не захочет читать её, если она неполная и плохо представленная.
К счастью, существует огромное количество готовых для использования пакетов для анализа и визуализации данных как для Python, так и для R. Наиболее популярный пакет для анализа для Python – pandas, а для R – dplyr.
Когда дело доходит до визуализации, то большинство сходится во мнении, что R здесь выигрывает — визуализация выглядит лучше, особенно если используются настройки по умолчанию. Наиболее популярная для этого библиотека – ggplot2. Здесь можно найти несколько обучающих уроков по работе с ней.
Таким образом, хорошее знание анализа и визуализации данных – жизненно необходимо. И для этого недостаточно просто уметь писать код, необходимо уметь задавать правильные вопросы. Как раз здесь и пригодятся критическое мышление и креативность.
Машинное обучение
Ну а теперь самое время для наиболее хайповой темы. Машинное обучение получило невероятно широкое распространение в последние годы. При этом сама концепция появилась достаточно давно, примерно в 1950 году, но популярность приобрела недавно, из-за увеличения вычислительной мощности компьютеров, которые стали доступны повсеместно.
Как результат, большинство компаний включили машинное обучение в свои ключевые сервисы. Оно применяется от элементарной классификации цветов до автономных систем управления автомобилями.
Применение машинного обучения безгранично, поэтому невозможно создать универсальный способ обучения, который подходил бы и для бизнеса, и для разработчиков. Но вот начать учебу с базовых основ точно никому не повредит. Здесь можно найти несколько статей, которые рассказывают о машинном обучении на языке программирования R.
К сожалению, изучить машинное обучение по нескольким статьям или даже книгам невозможно. Это огромная и быстро развивающаяся область знаний, которая требует много сил, времени и энергии на изучение.
Базы данных
Скорее всего ты не будешь работать с CSV или Excel файлами постоянно. Вместо этого данные будут храниться в базах данных. Существует множество различных вендоров баз данных, например Microsoft, IBM или Oracle, но все они имеют кое-что общее – это SQL.
Этот язык используется для хранения, получения и манипуляции данными в базах данных. Синтаксис SQL может немного отличаться в зависимости от конкретного вендора, но эти различия достаточно небольшие, этому переучится с одного на другой у тебя не должно занять много времени, если вдруг ты решишь это сделать.
Ты можешь применять SQL как для простого получения данных, так и для сложных вычислений. Например, если ты предпочитаешь использовать для реализации логики языки программирования, то можешь с помощью SQL просто выгрузить данные в память, а все вычисления выполнять с помощью Python или R. Или же ты можешь реализовывать большинство операций непосредственно с помощью SQL, если тебе это больше нравится.
Второй подход более применим, если тебе важна скорость работы, но кроме того, в целом это считается плохим решением загружать лишние данные, которые тебе не нужны.
Изучение основ баз данных не должно отнять у тебя слишком много времени. С точки зрения Python и R, существуют несколько готовых для использования библиотек, которые позволяют подключаться к любой базе данных, будь то собственный сервер или облако. Обычно, эти библиотеки хорошо задокументированы, поэтому и подключение не должно вызывать сложностей.
Таким образом, изучив основы SQL ты научишься делать тяжелые вычисления в базе данных, и получать в свой Python или R код только нужные подготовленные данные.
Образование
Меньше 30% дата-сайентистов имеют диплом бакалавра и ниже, при этом около 20% имеют докторскую степень, основываясь на исследовании 2018 года. Короче говоря, наиболее распространенным и ожидаемым уровнем является диплом магистра.
На этой схеме увидеть общее соотношение уровня образования и должностей:

Это вовсе не означает, что ты совсем не сможешь получить работу дата-сайентиста без высшего образования, но это возможно только при двух условиях:
- HR не выкинет твое резюме сразу при первичном ознакомлении с ним, просто потому что у тебя недостаточный уровень образования и это не соответствует требованиям (поэтому имеет смысл обращаться в небольшие компании, хотя бы потому что у них иногда просто нет должного HR отдела)
- Если ты покажешь уровень знаний, которые окажется лучше всех остальных, кто также претендует на эту вакансию
Да, образование – это полезная вещь для дата-сайентиста, однако, какое образование? Давай посмотрим на эту схему:

Как можешь видеть, большинство дата-сайенститов имеют опыт и образование в области компьютерных наук, бизнеса или математики и статистики. Ожидается, что количество аналитиков данных с официальным образованием в области дата-сайенс будет расти по мере того, как все больше университетов будет предлагать эту специальность.
Итоги по теме: 7 обязательных навыков дата-сайентиста
Ну вот, теперь ты знаешь все 7 необходимых навыков, которые будут жизненно важны, если ты хочешь стать data scientist. Основная идея заключается в том, что знания даже основ всех семи навыков будет достаточно, чтобы получить работу в области data science на начальном уровне. И только годы опыта работы с большими данными, и самообразование помогут тебе подняться по карьерной лестнице, но у тебя будет время на то, чтобы углубиться в изучении конкретных областей.
Оригинал: 7 Must-Have Skills to Get a Job as a Data Scientist
Советую прочитать предыдущую статью — Поговорим о странностях питона.
А также подписывайтесь на группу ВКонтакте, Telegram, Инстаграм и YouTube-канал. Там еще больше полезного и интересного для программистов.