WebForMyself представляет новый видеокурс

Обработка и анализ данных на Python

+ основы Python с полного нуля

Технические основы анализа и визуализации данных

Основы языка Python с полного нуля

Подойдет для новичков и Python-кодеров с опытом

Включает «must-have» библиотеки Pandas и Matplotlib


Для кого создавался курс

Python-кодеры с опытом

Курс будет интересен в первую очередь тем программистам, которые желают продолжить изучение языка программирования Python.

А также желающих изучить популярные библиотеки для этого языка Pandas и Matplotlib, которые предназначены для обработки, первичного анализа и визуализации данных.

Начинающие программисты

Курс рассчитан также на начинающих программистов.

Если вы полный новичок, то, вероятнее всего, сможете успешно изучить этот курс.

В этом случае вам необходимо начать изучение с бонусной части, где изучаются основы языка Python с полного нуля, включая синтаксис языка, типы данных, переменные, операторы и т.п.

Практикующие аналитики данных

Курс будет особенно полезен действующим аналитикам данных в любом крупном и среднем бизнесе. Особенно – в сфере диджитал и IT.

Аналитики-практики, которые не хотят тратить много времени и усилий на изучение сложных языков программирования, по достоинству оценят курс.

Посмотрите видеообзор
и узнайте подробности




Купить курс

Какие возможности вы получаете

Возможность изучить с нуля один из наиболее востребованных на сегодняшний день языков программирования - Python.

Возможность изучить не только теорию языка, но и одновременно закрепить теорию на практике, благодаря большому количеству домашних заданий для самостоятельной проработки.

Возможность научиться писать консольные программы.

Возможность изучить наиболее популярные на сегодняшний день библиотеки для обработки, анализа и визуализации данных: Pandas и Matplotlib.

Возможность узнать, как быстро и просто обрабатывать файлы больших объемов (вплоть до нескольких гигабайт и даже десятков гигабайт данных) и различных форматов.

Что такое анализ данных

Анализ данных — это обработка и преобразование большого количества неструктурированных или неорганизованных данных с целью генерирования ключевой информации об этих данных, которые могли бы помочь в принятии обоснованных решений.

Анализ данных можно свести к последовательному выполнению определенных действий. Конечно, в зависимости от направления и сферы деятельности, алгоритм может изменяться — но в основном, процесс следующий:

Сбор — название этапа говорит само за себя. Тут собираются данные.

Подготовка — чаще всего, данные собираются из разных источников, в разном виде и формате. Для дальнейшей работы и анализа их нужно подготовить, привести к единому виду, очистить от лишнего. Именно этим и занимаются на этапе подготовки.

Исследование и визуализация — этап изучения данных, с целью выявить закономерности, связи, зависимости, аномалии. И визуализация как раз помогает обнаружить подобные зависимости и связи.

Построение гипотез — после изучения на предыдущем этапе данных со всех сторон, выдвигаются гипотезы. Например, в магазине больше всего продаж совершается по выходным с 12:00 до 14:00 и по будним дням с 20:00 до 22:00. Соответственно, на эти часы можно сделать специальные предложения — чтобы повысить средний чек покупки и увеличить прибыль.

Проверка гипотез — на этом этапе проверяется выдвинутая гипотеза.

Вышеупомянутый алгоритм, конечно, очень упрощен. Каждый этап может включать в себя еще несколько этапов. Но основной смысл раскрыт.

Почему именно Python так популярен
при анализе данных?

Существуют различные инструменты для анализа данных: Python, Microsoft Excel, Tableau, SaS и т.д. Поговорим именно об анализе данных на Python. А если более конкретно — то как это делается с библиотекой Python, которая называется Pandas.

Data Science-специалистам для работы необходим простой, но в тоже время, функциональный язык. Многие опытные аналитики делают выбор в пользу Python. В рассматриваемой сфере он имеет множество сильных сторон.

Высокая продуктивность разработки

У Python простой синтаксис. Это позволяет писать код быстрее, чем на других языках программирования (например, Java или C). При этом, код на Python получается читабельным и легко интерпретируемым.

Низкий порог входа для изучения

Анализом данных обычно занимаются те, кто участвуют в управлении бизнесом — предприниматели, аналитики, экономисты и т.п. Когда возникает потребность изучения языка программирования, остается мало времени на решение важных задач. Поэтому отказываются от Java, C и подобных — так как их изучение занимает много времени.

«Интерактивность» языка

У Питона есть встроенный интерпретатор, позволяющий кодить на ходу. То есть, аналитики могут проверять многочисленные гипотезы в интерактивном режиме. Работая с другими языками программирования, добиться аналогичного результата сложнее.

Интегрированные возможности для оптимизации кода

Встроенный интерпретатор пригодится специалистам, работающим с Big Data. Кроме анализа данных, приходится часто улучшать алгоритмы их обработки. И так как Python предлагает неявную и динамическую типизацию данных, сходу определить оптимизацию не получится — это можно сделать только в процессе исполнения кода.

Динамичное развитие языка

Java и C++ сильно отстают по скорости развития от Python. Последний больше открыт для комьюнити: любой разработчик может предлагать свои идеи, которые впоследствии могут быть добавлены в обновление. Благодаря этому с каждой новой версией производительность языка повышается, а синтаксис совершенствуется.

Библиотека Pandas

Pandas — библиотека с открытым исходным кодом для Python. Она построена поверх более низкоуровневого пакета NumPy и используется для обработки и анализа данных.

Уэс Мак-Кинни приступил к созданию Pandas в 2008 году, нуждаясь в быстром и гибком инструменте для количественного анализа финансовой информации. Сейчас эта высокоуровневая библиотека для анализа данных на Python считается одной из наиболее динамично развивающихся.

Она позволяет строить сводные таблицы, выделять колонки, использовать фильтры, выполнять группировку по параметрам, запускать функции (сложение, нахождение медианы, среднего, минимального, максимального значений), объединять таблицы и многое другое. В Pandas можно создавать и многомерные таблицы.

Библиотека позволяет решить практически любую задачу, которая может возникнуть при работе с данными. При этом Pandas позволяет работать с огромными массивами данных разного формата — и работать достаточно быстро. Вот лишь некоторые из возможностей библиотеки:

1

Умеет работать с разными источниками данных: файлы Excel, текстовые файлы табличных данных (csv, txt), табличные данные веб-страниц, данные в формате JSON, данные из СУБД и даже из буфера обмена.

2

Позволяет очень быстро работать с файлами больших объемов. Файлы на десятки и сотни мегабайт или даже гигабайты данных — для библиотеки не проблема.

3

Позволяет просто и быстро объединять данные из нескольких источников в единый массив для дальнейшей обработки.

4

Умеет не только читать различные форматы, но и преобразовывать данные, сохраняя их в файлы различных форматов.

5

Предоставляет возможности по группировке данных, накладыванию различных фильтров, построению сводных таблиц и многое другое.

Структура и продолжительность

Курс состоит из 4-х частей

Часть 1

Окружение и основы Jupyter Notebook

Часть 2

Структура данных Series

Часть 3

Структура данных DataFrame

Часть 4

Практика работы с Pandas

+ Бонус

Основы Python

Краткое содержание

1

Первая часть курса посвящена настройке и работе с окружением. Поскольку Pandas – это библиотека на Python, соответственно, потребуется установить Python на компьютер, если его еще нет. Также потребуется сама библиотека Pandas. И здесь будут рассмотрены два варианта: установка виртуального окружения и необходимых библиотек с нуля и установка дистрибутива Anaconda, который включает весь необходимый набор библиотек.

2

Со второй части курса начнется изучение непосредственно библиотеки Pandas. Здесь будет рассмотрена одна из структур данных библиотеки Pandas – Series.

3

В третьей части курса будет изучаться ключевая структура данных – DataFrame. DataFrame представляет данные в табличном виде, что очень удобно для анализа данных. Здесь будут рассмотрены темы чтения и записи данных, обработки данных, группировка и сортировка, различные варианты объединения табличных данных и т.д.

4

Последняя часть будет исключительно практической и здесь будет показана обработка достаточно больших объемов данных на сотни тысяч и даже миллионы строк. Также в последней части курса будет затронута тема визуализации данных и работа с библиотекой Matplotlib.

Уроки курса

Часть 1

Окружение и основы Jupyter Notebook

Первая часть курса посвящена настройке и работе с окружением. Поскольку Pandas – это библиотека на Python, соответственно, потребуется установить Python на компьютер, если его еще нет.

Также потребуется сама библиотека Pandas. И здесь будут рассмотрены два варианта: установка виртуального окружения и необходимых библиотек с нуля и установка дистрибутива Anaconda, который включает весь необходимый набор библиотек.

Также для работы потребуется редактор. Можно выбрать любой привычный, но в среде Python-аналитиков одним из наиболее популярных вариантов является использованием Jupyter Notebook. Jupyter Notebook – это веб-оболочка для IPython, который в свою очередь является интерактивной оболочкой для Python.

Использование Jupyter Notebook имеет ряд преимуществ по сравнению с обычными редакторами кода или IDE. Во-первых, писать код в Jupyter Notebook можно в специальных ячейках кода и при этом можно выполнять каждую из ячеек в отдельности.

Во-вторых, Jupyter Notebook позволяет экспортировать результаты работы в обычный файл HTML, что позволит продемонстрировать как код, так и результат его исполнения на любой машине без необходимости устанавливать Python и любое другое специальное ПО.

Также в Jupyter Notebook можно использовать дополнительные возможности IPython, например, т.н. магические команды, позволяющие сократить написание кода.

Хронометраж: 2 часа 8 минут

Урок 1. Введение. Установка Python (15:45)
В первом уроке курса рассмотрены организационные моменты, структура и содержание курса. Из урока вы узнаете об основных источниках документации, о библиотеке Pandas, а также необходимых программах для дальнейшей работы. Также в уроке будет показана установка Python для дальнейшей работы.
Урок 2. Установка виртуального окружения (13:38)
Одним из вариантов дальнейшей работы будет установка окружения, точнее, виртуального окружения. При работе с проектом рекомендуется устанавливать необходимые библиотеки не глобально, а в специально установленное виртуальное окружение. Это позволит для разных проектов использовать разные версии библиотек при необходимости и избежать возможного конфликта версий. В уроке будет показана установка виртуального окружения, а также установка библиотеки Pandas и Jupyter Notebook.
Урок 3. Установка дистрибутива Anaconda (12:27)
Вторым вариантом дальнейшей работы будет установка дистрибутива Anaconda, который предлагает весь необходимый для работы набор библиотек. В уроке будет показана установка Anaconda, а также начало работы с ней.
Урок 4. Язык разметки Markdown (29:33)
Одно из преимуществ работы с Jupyter Notebook заключается в возможности использования языка разметки Markdown для комментирования вашей работы. Вместо простых комментариев на Python мы можем использовать всю мощь языка разметки, что позволит сопроводить код заголовками, списками, акцентированными выделениями ключевых моментов, ссылками на внешние ресурсы и даже изображениями и видео. В данном уроке будут рассмотрены основы языка разметки Markdown.
Урок 5. Горячие клавиши в Jupyter Notebook (29:33)
При работе в Jupyter Notebook можно использовать курсор и меню редактора. Но можно использовать целый набор горячих клавиш для упрощения и ускорения работы. Из урока вы узнаете о наиболее полезных для работы горячих клавишах Jupyter Notebook.
Урок 6. Волшебные команды Jupyter Notebook (24:12)
Поскольку Jupyter Notebook является веб-оболочкой IPython, он поддерживает его волшебные команды, некоторые из которых и будут рассмотрены в данном уроке. Например, если вам нужно измерить время выполнения того или иного кода, вам не нужно писать для этого соответствующий код на Python, достаточно запустить соответствующую магическую команду и Jupyter покажет результат.

Часть 2

Структура данных Series

Со второй части курса начнется изучение непосредственно библиотеки Pandas. И из шести уроков данной части вы узнаете об одной из структур данных библиотеки Pandas – Series (серии). Pandas работает с табличными данными, а таблицы, как известно, состоят из строк и столбцов. Серия – это, по сути, столбец табличных данных.

В уроках данной части будет показано создание серий, работа со значениями серий, накладывание фильтров на серии, которые позволят отбирать значения по различным условиям, использование атрибутов и методов, которые Pandas предлагает для работы с типом Series и т.д.

Хронометраж: 1 час 41 минута

Урок 1. Series. Constructor (17:51)
Первый урок будет посвящен знакомству с типом Series. Из урока вы узнаете, как создать серию в Pandas, используя метод конструктора, а также узнаете о том, что такое значения и индексы в Pandas.
Урок 2. Series. Работа со значениями (26:29)
Структура данных Series в Pandas похожа на массивы, однако, имеет некоторые отличия при работе со значениями. Об этих отличиях и будет рассказано в предлагаемом уроке.
Урок 3. Фильтрация данных Series (17:10)
Одной из наиболее мощных возможностей, предлагаемых библиотекой Pandas, является возможность накладывания фильтров, проще говоря, возможность применения условий для выборки нужных значений. Эта возможность напоминает условия языка запросов SQL. И в дальнейшем мы еще не раз в этом убедимся при работе с другой структурой данных – DataFrame.
Урок 4. Атрибуты и методы Series. Часть 1 (16:02)
В следующих уроках вы познакомитесь с небольшой долей атрибутов и методов, которые предлагает Pandas как для работы с сериями, так и для работы с датафреймами. На самом деле таких атрибутов и методов сотни. Все их рассмотреть невозможно, да собственно в этом и нет смысла, но на протяжении курса будут рассмотрены те, которые используются наиболее часто и действительно пригодятся вам в работе.
Урок 5. Атрибуты и методы Series. Часть 2 (14:44)
В следующих уроках вы познакомитесь с небольшой долей атрибутов и методов, которые предлагает Pandas как для работы с сериями, так и для работы с датафреймами. На самом деле таких атрибутов и методов сотни. Все их рассмотреть невозможно, да собственно в этом и нет смысла, но на протяжении курса будут рассмотрены те, которые используются наиболее часто и действительно пригодятся вам в работе.
Урок 6. Домашнее задание (09:40)
На протяжении курса вам будет предложено много домашних заданий для закрепления пройденного материала. В последнем уроке второй части курса вы найдете первое домашнее задание и, конечно же, вариант его решения, который вы сможете сравнить со своим решением.

Часть 3

Структура данных DataFrame

В этой части будет изучаться ключевая структура данных в Pandas – это DataFrame.

Объект DataFrame можно представить в виде таблицы и на самом деле это действительно табличная структура данных. Если Series – это столбец, то DataFrame – это совокупность объектов Series, т.е. некоторое множество столбцов.

Поскольку DataFrame – это табличная структура данных, то неудивительно, что именно DataFrame является ключевой структурой данных Pandas, ведь таблицы, как ничто иное, прекрасно подходят для представления анализируемых данных.

В таблицах легко представить большие массивы данных, которые будут некоторым образом упорядочены и визуально понятны для восприятия. В уроках данной части курса вы найдете как теорию, так и много практики.

Здесь будут рассмотрены такие темы, как чтение данных из различных источников в DataFrame, первичный анализ данных в полученном датафрейме, обработка и фильтрация данных, применение встроенных и пользовательских функций к данным, работа со значениями, работа с типами данных, группировка и сортировка данных, объединение нескольких датафреймов, запись обработанных данных в различные типы файлов и т.д.

Хронометраж: 9 часов 27 минут

Урок 1. DataFrame. Constructor (15:17)
Первый урок будет посвящен знакомству с типом DataFrame. Из урока вы узнаете, как создать датафрейм в Pandas, используя метод конструктора.
Урок 2. DataFrame. Чтение данных (22:14)
В предыдущем уроке был показан вариант создания датафрейма с помощью конструктора. Однако, на практике мы чаще всего не создаем датафрейм с наполнением данных вручную, а получаем датафрейм с данными из внешнего источника, чаще всего из файлов CSV или Excel. В результате можно быстро получить датафрейм с огромными массивами данных для дальнейшей работы. В уроке будут показаны способы чтения данных и получения датафрейма из внешнего источника данных.
Урок 3. Получение информации о DataFrame (17:21)
После получения данных из внешнего источника в DataFrame необходимо провести первичный анализ полученных данных, ведь получить можно миллионы строк данных, которые вы видите впервые. В частности, при первичном анализе можно узнать общее число строк и столбцов, наименование столбцов, количество непустых и пустых значений в каждом из столбцов, тип данных столбца и т.п. Все эти данные можно получить очень быстро. Как это сделать – вы узнаете из данного урока.
Урок 4. Опции и настройки DataFrame (26:16)
Используя Jupyter Notebook, мы используем его настройки для работы с датафреймами, которые имеют некоторые ограничения. Например, при распечатке датафрейма Jupyter показывает не весь датафрейм, а лишь некоторую его часть, заданную в настройках часть его строк. При необходимости можно изменить эти настройки. Из урока вы узнаете о некоторых настройках, которые могут пригодиться в дальнейшей работе.
Урок 5. Атрибуты loc и iloc (18:19)
Одними из полезных атрибутов для выборки строк и значений из датафреймов являются атрибуты loc и iloс. С помощью этих атрибутов можно получить доступ к нужной строке или набору строк. В уроке вы найдете различные варианты применения указанных атрибутов.
Урок 6. Домашнее задание (08:58)
В данном уроке будет предложено домашнее задание для закрепления пройденного материала, а также вариант решения этого задания, который вы можете сравнить со своим решением.
Урок 7. Добавление и удаление колонок (20:34)
При работе с датафреймами одной из частых операций является удаление и добавление колонок. Не все колонки с данными, полученные из внешнего источника, нам нужны, и их можно удалить, освободив тем самым память. Также часто требуется добавить какую-либо колонку, например, вычисляемую колонку, значения которой могут быть получены на основе значений других колонок. Из урока вы узнаете, как добавлять и удалять столбцы из датафрейма.
Урок 8. Переименование колонок (14:58)
Получая данные из внешнего источника в датафрейм, мы получаем также и названия столбцов, которые не всегда удобны в работе. Из урока вы узнаете, как можно переименовать колонки датафрейма.
Урок 9. Работа с NaN (20:50)
Когда в датафрейм приходит пустое значение, Pandas заменяет его на NaN (Not a number). Это специальное значение, которое желательно каким-либо образом обработать и здесь возможны различные варианты. Например, можно заменить NaN на какое-либо значение по умолчанию или же просто удалить строку с отсутствующими значениями. В уроке вы найдете примеры работы с отсутствующими значениями в DataFrame.
Урок 10. Работа с Excel. Запись в файлы (24:50)
До текущего урока данные в датафреймы получались из файлов CSV. Однако, Pandas умеет работать и с другими источниками данных, например, с файлами Excel. Из урока вы узнаете, как получать данные из Excel, и как записывать данные в файлы различных форматов.
Урок 11. Домашнее задание (14:52)
В данном уроке будет предложено домашнее задание для закрепления пройденного материала, а также вариант решения этого задания, который вы можете сравнить со своим решением.
Урок 12. Методы для работы со строками (33:51)
Значительная доля данных в датафреймах может быть представлена в виде всевозможных строк. При этом часто может потребовать осуществить поиск каких-то конкретных строк или же поиск строк по маске. Может потребовать проделать какие-либо операции над строками. Все это можно проделать с помощью десятков методов для работы со строками, которые предлагает Pandas.
Урок 13. Метод apply (29:06)
В данном уроке будет рассмотрена одна из наиболее мощных возможностей в Pandas – применение функций с помощью метода apply. В уроке вы найдете различные варианты использования метода apply и применения встроенных и собственных функция для обработки данных.
Урок 14. Группировка методом groupby (21:48)
При работе с датафреймами на практике очень часто используется возможность группировки данных. Благодаря этой возможности мы можем отобрать данные, которые относятся только к какому-то конкретному объекту, и применить к этим данным агрегирующие функции, позволяющие получить какую-либо статистическую информацию.
Урок 15. Домашнее задание (06:13)
В данном уроке будет предложено домашнее задание для закрепления пройденного материала, а также вариант решения этого задания, который вы можете сравнить со своим решением.
Урок 16. Группировка с фильтрацией (33:55)
В данном уроке будет продолжена тема группировки данных и будет показана возможность наложения фильтров на сгруппированные данные. С помощью наложенных фильтров можно получать не все группы данных, а только группы, удовлетворяющие условиям фильтра.
Урок 17. Сортировка (20:07)
В предлагаемом уроке вы найдете варианты сортировки данных датафрейма. Это может быть сортировка в прямом или обратном порядке, сортировка по отдельному столбцу или даже по нескольким колонкам данных.
Урок 18. Объединение датафреймов. Метод concat (12:16)
На практике часто приходится работать не с одним источником данных, а сразу с несколькими. Например, мы можем получить для обработки годовую выгрузку данных с разбивкой по месяцам, т.е. 12 отдельных файлов с данными. Обрабатывать каждый из файлов в отдельности при этом – не вариант. Нужно свести все файлы в один датафрейм и Pandas позволяет проделать эту операцию буквально в несколько строк кода и минуту времени.
Урок 19. Домашнее задание (10:35)
В данном уроке будет предложено домашнее задание для закрепления пройденного материала, а также вариант решения этого задания, который вы можете сравнить со своим решением.
Урок 20. Сводные таблицы (32:16)
Для тех, кто работал с анализом данных в Excel, может быть известен термин сводные таблицы. Сводные таблицы позволяют обобщить некоторые данные. Pandas также предлагает возможность создания сводных таблиц и в данном уроке вы познакомитесь с этой возможностью.
Урок 21. Домашнее задание - 1 (09:27)
В данных уроках будет предложено домашнее задание для закрепления пройденного материала, а также вариант решения этого задания, который вы можете сравнить со своим решением.
Урок 22. Домашнее задание - 2 (16:13)
В данных уроках будет предложено домашнее задание для закрепления пройденного материала, а также вариант решения этого задания, который вы можете сравнить со своим решением.
Урок 23. Объединение таблиц с merge и join (36:51)
В одном из предыдущих уроков была рассмотрена тема объединения датафреймов с помощью метода concat. Это простое объединение абсолютно всех данных, которое похоже на операцию UNION в SQL. Часто необходимо производить соединение данных на основе определенных значений в этих данных. Такая возможность также есть в Pandas и похожа она на операцию JOIN в SQL.
Урок 24. Домашнее задание (06:53)
В данном уроке будет предложено домашнее задание для закрепления пройденного материала, а также вариант решения этого задания, который вы можете сравнить со своим решением.
Урок 25. Типы данных в Pandas (30:50)
В этом уроке будут рассмотрены основные типы данных, которыми оперирует Pandas. Это достаточно важная тема, которая связана с оптимизацией работы с датафреймами, а также с оптимизацией использования памяти при работе с датафреймами.
Урок 26. Тип данных Category (39:31)
В предлагаемом уроке вы познакомитесь с интересным типом данных Category, благодаря которому можно значительно сократить объем датафрейма в памяти, а также значительно ускорить обработку данных. Использование этого типа особенно актуально на больших объемах данных.
Урок 27. Тип данных Datetime (23:17)
Еще одним типом данных, с которым нередко приходится работать, является тип данных Datetime. Преобразуя данные в этот тип, становится возможным использовать методы и атрибуты для работы с датой и временем. Например, можно получить из даты только число или месяц, можно получить день недели и т.д.

Часть 4

Практика работы с Pandas

Последняя часть курса фактически будет исключительно практической. В этой части будут взяты файлы больших объемов, они будут обработаны и проанализированы. Как результат анализа, будут даны ответы на классические вопросы для тех или иных задач.

Например, при анализе продаж магазина будут даны ответы на такие вопросы, как:

  • Какой месяц лучший для продаж, а в каком месяце продажи были самыми низкими?
  • В какой день недели продажи лучше, а в какой хуже? При этом изначально в данных нет дня недели, а есть только дата и время.
  • В какие часы продажи наиболее высокие?
  • В какие часы больше всего сделано покупок?
  • В каком городе сделаны наибольшие продажи, а в каком – наименьшие, и почему?

Хронометраж: 3 часа 45 минут

Урок 1. Библиотека Matplotlib. Часть 1 (08:58)
Работая с данными часто необходимо не просто обработать данные и показать табличный результат, но и визуализировать этот результат графиком или диаграммой. Во многих случаях один взгляд на диаграмму сразу даст ответ на очевидные вопросы. В то же время простой взгляд на таблицу не сразу может дать такие ответы. В предлагаемой паре уроков вы познакомитесь с библиотекой Matplotlib, которая позволит построить необходимую диаграмму и настроить ее под заданные требования.
Урок 2. Библиотека Matplotlib. Часть 2 (29:50)
Работая с данными часто необходимо не просто обработать данные и показать табличный результат, но и визуализировать этот результат графиком или диаграммой. Во многих случаях один взгляд на диаграмму сразу даст ответ на очевидные вопросы. В то же время простой взгляд на таблицу не сразу может дать такие ответы. В предлагаемой паре уроков вы познакомитесь с библиотекой Matplotlib, которая позволит построить необходимую диаграмму и настроить ее под заданные требования.
Урок 3. Задание 1-1. Чтение файлов в датафрейм (12:58)
В качестве первого задания у нас будет годовая отчетность продаж магазина в разных городах с разбивкой по месяцам. Соответственно, у нас будет 12 однотипных файлов, каждый из которых содержит сведения по продажам за определенный месяц. При этом каждый из файлов содержит десятки тысяч строк данных и в сумме у нас будет почти 200 тысяч строк данных. Задачей текущего урока будет объединение имеющихся 12 файлов в единый датафрейм данных.
Урок 4. Задание 1-2. Удаление пустых значений (06:38)
При работе с любыми данными важно произвести первичный анализ и обработать пропуски в данных, заменив эти пропуски дефолтными значениями или же удалив строки с пустыми значениями. В предлагаемом уроке будут найдены и удалены строки с пустыми значениями.
Урок 5. Задание 1-3. Конвертирование типов (10:25)
Следующим этапом обработки данных является опциональное конвертирование типов данных. В нашем случае этот этап обязателен, поскольку в дальнейшем потребуется создание вычисляемых полей на основе существующих значений, для которых потребуются математические вычисления.
Урок 6. Задание 1-4. Добавляем колонку Total (04:51)
В полученном датафрейме имеются колонки цены товара и количества единиц проданного товара. Для того, чтобы в дальнейшем агрегировать корректное значение суммы продаж, необходимо получить произведение цены товара и его количества. Результат при этом нужно сохранить в отдельную колонку. Эта операция и будет проделана в данном уроке.
Урок 7. Задание 1-5. Добавляем колонку Month (07:14)
Для ответа на вопрос относительно лучшего и худшего месяцев для продаж, очевидно, нужно иметь колонку месяца в общем датафрейме. Такой колонки нет, но есть столбец с датой и временем покупки, из которого и можно получить месяц. В этом уроке будет реализована поставленная задача.
Урок 8. Задание 1-6. Определяем лучший месяц продаж (30:19)
В предыдущем уроке была добавлена колонка месяца и теперь можно попытаться дать ответ на вопрос о лучшем и худшем месяце для продаж. Сделать это просто – достаточно сгруппировать данные по месяцам и агрегировать суммы продаж по колонке Total. Это и будет сделано в данном уроке.
Урок 9. Задание 1-7. Определяем лучшие часы продаж (23:00)
Еще один вопрос, на который можно дать ответ при анализе подобных данных, это вопрос о лучших часах для продаж. При этом можно дать ответ о наибольших количествах продаж в определенные часы и наибольших суммах продаж в определенные часы. Эти данные могут на самом деле отличаться.
Урок 10. Задание 1-8. Определяем лучшие дни продаж (07:59)
Следующий вопрос, на который будет дан ответ в предлагаемом уроке, - определение лучшего дня недели для продаж и, соответственно, худшего дня недели.
Урок 11. Задание 1-9. Определяем город наибольших продаж (16:47)
Последним вопросом для данного набора данных будет вопрос о городе, который сделал лучшие продажи за год. Как и в предыдущих случаях, ответ будет сопровождаться не только табличным выводом, но и будет произведена визуализация данных в виде диаграммы.
Урок 12. Задание 2-1. Объединение файлов данных (19:13)
Второе практическое задание предполагает набор данных из более чем сотни файлов и почти 2 миллионов строк. Задачей текущего урока будет объединение всех этих файлов в единый датафрейм и экспорт полученных данных в единый файл для дальнейшей работы.
Урок 13. Задание 2-2. Получение всех имен по годам (24:25)
Массив данных в данном практическом задании представляет собой мужские и женские имена в США в период с 1880 по 2019 года. Задачей текущего урока будет получение диаграммы имен за указанный период, на которой будут представлены 2 линии: количество мужских и женских имен по годам.
Урок 14. Задание 2-3. Определяем ТОП 10 имен (09:47)
Еще одной практической задачей может быть ответ на вопрос ТОП 10 женских и ТОП 10 мужских имен за весь период имеющейся выборки. В этом уроке будет показано решение озвученной задачи.
Урок 15. Пакет Qgrid (13:07)
В последнем уроке курса будет показана установка пакета Qgrid, который сделает работу с датафреймами проще и удобнее.

Бонусный курс

по сути, полноценный отдельный курс

Основы Python

48

уроков

15

часов

Бонусный курс
Изучение Python

Количество уроков: 48
Продолжительность: более 15 часов

Первая часть курса посвящена исключительно изучению Python. При этом материал подойдет для абсолютных новичков в программировании, поскольку все термины и понятия объясняются простым и понятным языком.

Если же у вас есть опыт изучения любого другого языка программирования, тогда это будет большим плюсом и понять Python будет куда проще. Если же вы знакомы с PHP, тогда совсем замечательно, поскольку для более простого понимания Python в курсе сделано множество сравнений и аналогий с PHP.

Изучение построено от простого к сложному и соответственно, курс будет начат с таких базовых вещей для любого языка программирования, как: синтаксис языка, типы данных, переменные, операторы и т.п. Кроме изучения теории в первой части вы найдете и много практики.

Получив основы и перейдя к более продвинутым темам, уже начиная с 15-го урока и буквально в конце каждого следующего урока будет даваться домашнее задание, решение которого будет показано в следующем уроке. Домашних заданий и практики будет достаточно много, что позволит разбавить теорию практикой и закрепить изучаемый материал на практике.

Урок 1. Введение

Урок 1. Введение

В первом уроке курса рассмотрены организационные моменты, структура и содержание курса. Из урока вы узнаете об основных источниках документации, о языке Python, его актуальности и популярности.

Урок 2. Установка Python

Урок 2. Установка Python

В этом уроке будет показана установка Python. Процесс этот предельно прост и ничем не отличается от установки любой другой программы для вашей операционной системы. Все, что нужно сделать, это скачать дистрибутив с официального сайта, запустить его на установку и… все. Никаких настроек и конфигураций, вся установка занимает буквально несколько минут. После установки Python готов к использованию.

Урок 3. Установка редактора PyCharm

Урок 3. Установка редактора PyCharm

Для того, чтобы изучать программирование и писать код, необходим важный инструмент, без которого не обойтись – редактор кода. Собственно, для этих целей подойдет любой современный редактор кода с подсветкой синтаксиса для Python. В уроке показана установка среды разработки PyCharm, которая предназначена специально для программирования на Python. Эта IDE будет использоваться на протяжении всего курса.

Урок 4. Синтаксис Python

Урок 4. Синтаксис Python

Начиная с этого видео будет изучаться непосредственно Python и из этого урока вы узнаете о синтаксисе языка. В уроке будет показано, как разделяются команды друг от друга, из урока вы узнаете о таких понятиях, как логически и физически строки, также будет рассказано о важности отступов в Python.

Урок 5. Числа. Арифметические операторы

Урок 5. Числа. Арифметические операторы

Как и любой другой язык программирования, Python оперирует различными типами данных. Из этого урока вы узнаете о нескольких простых типах: Integer и Float, к которым относятся числа. Также в уроке будет показана работа с арифметическими операторами, многие из которых известны всем со школы и позволяют выполнять математические операции над числами.

Урок 6. Переменные

Урок 6. Переменные

В основе любого языка программирования лежит понятие переменной. Именно благодаря переменным мы можем хранить в памяти компьютера данные и получать их из памяти. Из этого урока вы узнаете, как создаются переменные в Python.

Урок 7. Булев тип данных

Урок 7. Булев тип данных

В этом видео вы познакомитесь с еще одним типом данных – булев тип. Этот тип предлагает два константных значения: True и False. Булев тип используется чаще всего в операциях сравнения, например, сравнения двух значений и, в зависимости от результата сравнения, будет получена либо Истина (True), либо Ложь (False).

Урок 8. Строки

Урок 8. Строки

Этот урок продолжит знакомство с типами данных в Python, и здесь вы узнаете об еще одном типе данных – строка.

Урок 9. Операции со строками

Урок 9. Операции со строками

Как и в случае с числами, со строками можно выполнять некоторые операции. Например, одной из частых операций является складывание или конкатенация строк. Для этой операции используется оператор плюс. В случае с числами этот оператор прибавит одно число к другому. В случае же со строками – он объединит две строки в одну, склеив их. Из этого видео вы узнаете о типовых операциях со строками в Python.

Урок 10. Методы строк

Урок 10. Методы строк

Как и любой другой язык программирования, Python предлагает ряд методов (функций) для работы со строками. Используя эти методы, можно производить ряд полезных операций над строками, что вы и увидите в данном уроке.

Урок 11. Форматирование строк

Урок 11. Форматирование строк

Важной темой при работе со строками является тема их форматирования. И здесь Python предлагает самые разные варианты для этой операции. Используя форматирование строки, в нее можно подставить различные динамичные данные, например, значение переменной или результат вычисления.

Урок 12. Оператор IF

Урок 12. Оператор IF

Условный оператор IF является одним из ключевых операторов в Python, без которого невозможно написать сколь-нибудь сложную программу. Благодаря этому оператору можно выполнять те или иные действия в зависимости от выполнения или невыполнения проверяемого условия.

Урок 13. Циклы For и While

Урок 13. Циклы For и While

Из этого видео вы узнаете о том, что такое циклы и для чего они используются в программировании. Python предлагает два вида циклов: цикл For и цикл While. Используя циклы, можно выполнить некие действия определенное количество раз или же пройтись по итерируемому объекту, или произвести другие нужные операции.

Урок 14. Списки

Урок 14. Списки

В одном из предыдущих уроков было рассказано о переменных, в которых можно хранить некоторые значения. При этом в одной переменной можно хранить только одно значение. Но в любой серьезной программе одномоментно может быть сотни различных значений и создавать под каждое значение свою переменную – не рационально. Для этого Python предлагает такой тип данных, как список, который позволяет хранить самые разные значения. Из этого урока вы узнаете о списках в Python.

Урок 15. Д/з. Вывод таблиц умножения

Урок 15. Д/з. Вывод таблиц умножения

В данном курсе будет не только теория, но и много практики. В этом уроке вы найдете решение домашнего задания, которое предлагает написать программу для вывода таблицы умножения. Это уже достаточно сложное для начинающего программиста домашнее задание, которое позволит закрепить сразу несколько предыдущих тем.

Урок 16. Методы для работы со списками

Урок 16. Методы для работы со списками

В одном из предыдущих уроков вы могли узнать о новом типе данных в Python – списках. В этом уроке вы найдете методы для работы со списками. Благодаря предлагаемым Питоном функциям, над списками можно проделывать самые разные операции: добавлять или удалять элементы, сортировать список или переворачивать его и т.д.

Урок 17. Изменяемые и неизменяемые объекты

Урок 17. Изменяемые и неизменяемые объекты

В Python есть два типа объектов: изменяемые и неизменяемые. Оба этих типа предполагают различные операции, которые можно производить над ними. При этом есть некоторые нюансы при работе с данными объектами, о которых вы узнаете из этого урока.

Урок 18. Домашнее задание

Урок 18. Домашнее задание

В этом видео вы найдете сразу четыре задачи, которые будут предложены в качестве домашнего задания. Данные задачи позволят закрепить сразу несколько пройденных тем.

Урок 19. Решение домашнего задания

Урок 19. Решение домашнего задания

В данном уроке вы увидите решения четырех задач, которые вы получили в качестве домашнего задания в предыдущем уроке.

Урок 20. Кортежи

Урок 20. Решение домашнего задания

Этот урок познакомит вас с еще одним типом данных – кортежи. Кортежи очень похожи на списки и, по сути, кортеж – это неизменяемый список. В конце урока будет дано домашнее задание.

Урок 21. Решение домашнего задания

Урок 21. Решение домашнего задания

В данном уроке вы увидите решение домашнего задания, полученного в предыдущем уроке.

Урок 22. Множества

Урок 22. Множества

В этом уроке вы узнаете об еще одном типе данных в Python – множество. Этот тип данных, как и списки или кортежи, также позволяет хранить более одного значения.

Урок 23. Словари

Урок 23. Словари

В этом уроке будет показан еще один тип данных в Python, позволяющих хранить множество значений, – словарь. Словарь похож на JSON-объект и позволяет хранить данные парами в формате ключ: значение.

Урок 24. Методы словаря

Урок 24. Методы словаря

Данный урок продолжит тему словарей в Python и в уроке будут показаны некоторые методы для работы со словарями.

Урок 25. Игра Угадай число

Урок 25. Игра Угадай число

Данный урок будет исключительно практическим и в нем будет показано написание игровой программы Угадай число. Суть игры состоит в том, что программа загадывает число в определенном диапазоне и предлагает игроку отгадать его за наименьшее количество попыток.

Урок 26. Пользовательские функции. Часть 1

Урок 26. Пользовательские функции. Часть 1

Следующие три урока посвящены такой важной и достаточно сложной для начинающих программистов теме, как пользовательские функции. Кроме встроенных функций, Python предоставляет программистам возможность создавать свои собственные функции, которые будут выполнять определенную задачу. Эти функции можно вызывать сколь угодно много раз, избегая тем самым дублирования кода, делая код более лаконичным и поддерживаемым.

Урок 27. Пользовательские функции. Часть 2

Урок 27. Пользовательские функции. Часть 2

Следующие три урока посвящены такой важной и достаточно сложной для начинающих программистов теме, как пользовательские функции. Кроме встроенных функций, Python предоставляет программистам возможность создавать свои собственные функции, которые будут выполнять определенную задачу. Эти функции можно вызывать сколь угодно много раз, избегая тем самым дублирования кода, делая код более лаконичным и поддерживаемым.

Урок 28. Пользовательские функции. Часть 3

Урок 28. Пользовательские функции. Часть 3

Следующие три урока посвящены такой важной и достаточно сложной для начинающих программистов теме, как пользовательские функции. Кроме встроенных функций, Python предоставляет программистам возможность создавать свои собственные функции, которые будут выполнять определенную задачу. Эти функции можно вызывать сколь угодно много раз, избегая тем самым дублирования кода, делая код более лаконичным и поддерживаемым.

Урок 29. Решение домашнего задания

Урок 29. Решение домашнего задания

В этом уроке будет показано решение трех задач из домашнего задания, данного в предыдущем уроке. Задачи призваны закрепить тему пользовательских функций в Python.

Урок 30. Модули в Python

Урок 30. Модули в Python

Из этого урока вы узнаете о такой полезной вещи в Python, как модули. По сути, модулем можно назвать любой файл с кодом на Python. Этот файл можно подключить к любому другому файлу путем импорта. При этом импортировать можно как собственные модули, так и модули из стандартной библиотеки.

Урок 31. Модуль Datetime

Урок 31. Модуль Datetime

Одной из часто используемых возможностей в ваших программах является работа с датой и временем. Для этого Python предлагает специальный модуль Datetime, использование которого вы и увидите в этом видео.

Урок 32. Решение домашнего задания

Урок 32. Решение домашнего задания

В этом видео будет показан вариант решения очередного домашнего задания, согласно которому необходимо было построить дерево файлов и папок указанного каталога.

Урок 33. Работа с файлами

Урок 33. Работа с файлами

Кроме работы непосредственно с данными, на практике нередко необходима работа с различными файлами, например, текстовыми документами. Python предлагает ряд функций для работы с файлами, благодаря которым можно читать файлы, создавать или удалять их. Из этого урока вы узнаете, как можно работать с файлами в Python.

Урок 34. Парсинг

Урок 34. Парсинг

Данный урок будет, опять-таки, практическим и из него вы узнаете, как можно организовать парсинг веб-ресурса, получить необходимую информацию и сохранить ее в файл. В ходе урока вы узнаете о таком инструменте, как PIP и репозитории PyPI.

Урок 35. Ошибки и исключения

Урок 35. Ошибки и исключения

Еще одним интересным типом данных в Python являются исключения. Их задача – сообщить программисту об ошибках при выполнении программы, о неких исключительных ситуациях. При этом может так статься, что такие ошибки вполне допустимы и завешать программу при этом не следует, но следует обработать исключение и продолжить выполнение программы или сообщить пользователю о проблеме. Об исключениях и будет рассказано в данном уроке.

Урок 36. Основы ООП. Класс и объект

Урок 36. Основы ООП. Класс и объект

Среди прочих методологий программирования Python также поддерживает и объектно-ориентированное программирование (ООП). Объектно-ориентированный подход достаточно сложен для начинающих программистов, но в Python ООП реализовано на самом деле не так уж и сложно. В этом уроке будут показаны основы ООП, в частности, будут рассмотрены понятия класса и объекта.

Урок 37. Конструктор класса

Урок 37. Конструктор класса

Одним из ключевых методов создаваемых классов является конструктор класса. Благодаря конструктору, при создании объекта можно выполнить некоторый код автоматически, что очень полезно во многих случаях. Из урока вы узнаете о конструкторе класса в Python.

Урок 38. Инкапсуляция

Урок 38. Инкапсуляция

Одним из основных механизмов ООП является инкапсуляция, которая позволяет ограничить доступ к методам и свойствам объекта. Инкапсуляция в Python имеет некоторые нюансы и фактически существует на уровне соглашений. Из этого урока вы узнаете подробнее о данном механизме ООП.

Урок 39. Класс парсинга

Урок 39. Класс парсинга

В данном уроке вас снова ждет практика и здесь будет взят готовый код из урока по парсингу сайта, и на основе данного кода будет показано написание класса для парсинга. Это позволит закрепить пройденный материал по теме ООП.

Урок 40. Наследование

Урок 40. Наследование

Разрабатывая большое и разветвленное приложение, вы сможете наблюдать преимущества ООП, благодаря механизму наследования. Данный механизм предполагает наследование дочерним классом всех атрибутов наследуемого, родительского класса. Подробнее эта тема рассмотрена в данном видео.

Урок 41. Полиморфизм

Урок 41. Полиморфизм

С механизмом наследования связан еще один механизм ООП – полиморфизм. Данный механизм подразумевает различное поведение одного и того же метода в разных классах, полиморфизм предлагает возможность переопределения методов.

Урок 42. Декораторы

Урок 42. Декораторы

Данный урок посвящен теме декораторов в Python. Декораторы – это некоторые обертки для функций, которые позволяют изменить поведение функции, не изменяя ее код.

Урок 43. Lambda-функции

Урок 43. Lambda-функции

В этом видео вы найдете продолжение темы пользовательских функций и познакомитесь с так называемыми анонимными функциями, которые можно создавать при помощи инструкции Lambda. В ряде случаев использование анонимных функций может быть весьма полезным.

Урок 44. Регулярные выражения

Урок 44. Регулярные выражения

Как и во многих других языках программирования, в Python есть модуль для работы с регулярными выражениями. Регулярные выражения – это формальный язык поиска в тексте. Используя регулярные выражения, над текстом можно производить фактически абсолютно любые действия, связанные с поиском и заменой подстрок.

Урок 45. Модуль SQLite. Часть 1

Урок 45. Модуль SQLite. Часть 1

Следующие три урока посвящены работе с данными и хранению данных. Данные можно хранить в обычных текстовых файлах, что было показано в теме парсинга. Однако, такой вариант подойдет далеко не всегда и, если речь идет о более-менее серьезном проекте, для хранения данных используются базы данных. В следующих нескольких уроках вы узнаете о модуле SQLite в Python, который позволяет работать с одной из простейших СУБД SQLite.

Урок 46. Модуль SQLite. Часть 2

Урок 46. Модуль SQLite. Часть 2

Следующие три урока посвящены работе с данными и хранению данных. Данные можно хранить в обычных текстовых файлах, что было показано в теме парсинга. Однако, такой вариант подойдет далеко не всегда и, если речь идет о более-менее серьезном проекте, для хранения данных используются базы данных. В следующих нескольких уроках вы узнаете о модуле SQLite в Python, который позволяет работать с одной из простейших СУБД SQLite.

Урок 47. Модуль SQLite. Часть 3

Урок 47. Модуль SQLite. Часть 3

Следующие три урока посвящены работе с данными и хранению данных. Данные можно хранить в обычных текстовых файлах, что было показано в теме парсинга. Однако, такой вариант подойдет далеко не всегда и, если речь идет о более-менее серьезном проекте, для хранения данных используются базы данных. В следующих нескольких уроках вы узнаете о модуле SQLite в Python, который позволяет работать с одной из простейших СУБД SQLite.

Урок 48. Модуль ZipFile

Урок 48. Модуль ZipFile

Последний урок первой части курса будет практическим и в нем будет показано написание программы для архивации каталогов и их содержимого.

Автор курса

Андрей Кудлай

Постоянный автор обучающих материалов и технический директор WebForMySelf

Более 13 лет проработал веб-разработчиком и модератором интернет-магазинов и веб-порталов, поэтому знает всю «кухню» сайтостроения изнутри

В совершенстве владеет: PHP, Laravel, Yii2, CakePHP, JavaScript, jQuery, AJAX, SQL, MySQL, Pyton, HTML5, CSS3, Bootstrap, WordPress, OpenCart…

Является автором популярных видеокурсов от издательства WebForMySelf.com

Педагог по образованию и состоянию души, благодаря чему умеет объяснять так, что становится понятно даже новичку

Многочисленные отзывы благодарных учеников об Андрее можно прочитать здесь.



Цена курса



Мгновенное скачивание

7 970 руб.

100% безусловный возврат денежных средств по первому требованию в течение 90 дней с момента покупки гарантирован!

Сколько зарабатывают
аналитики данных

Аналитики данных востребованы в любом крупном и среднем бизнесе — особенно в тех проектах, которые относятся к диджитал и IT (финтех-банки, диджитал-агентства, продуктовые компании, которые налаживают онлайн-систему продаж, консалтинговые проекты).

Среди вакансий есть представители бизнеса практически всех сфер: от медицины до тяжелой промышленности.

Средняя зарплата аналитика данных около 130 000 рублей. На нее вполне может рассчитывать хороший специалист с опытом. Стажеры и Junior-спецы получают от 60 000 рублей.

Наши гарантии

Мы на 100% уверены в качестве нашего продукта, поэтому даем максимальные гарантии:

Гарантия №1

Безусловная гарантия возврата

Мы гарантируем вам полный безусловный возврат стоимости курса, если по каким-либо причинам вы посчитаете, что он оказался вам бесполезным.

Для этого просто напишите в нашу службу поддержки. Деньги вы сможете получить обратно любым удобным вам способом по первому же требованию.

Срок действия гарантии возврата средств – 90 дней.

Гарантия №2

Гарантия качества и актуальности

Все уроки — авторские, актуальные, подробные и тщательно подготовлены лично автором видеокурса: профессиональным веб-разработчиком Андреем Кудлаем.

Мощный бонусный видеокурс поможет изучить с нуля один из наиболее популярных на сегодняшний день языков программирования - Python. При этом сможете сразу закрепите теорию на практике, благодаря большому количеству домашних заданий для самостоятельной проработки.

Также курс дает возможность изучить наиболее популярные на сегодняшний день библиотеки для обработки, анализа и визуализации данных для языка Python: Pandas и Matplotlib.

Гарантия №3

Гарантия получения курса

Этот видеокурс предоставляется только в электронном виде – это значит, что ссылка на скачивание на ваш жесткий диск будет доступна сразу же после оплаты.

Скачивание займет от нескольких минут до нескольких десятков минут (в зависимости от скорости вашего интернет-провайдера).

Вам не придется ждать доставки диска по почте – вы сможете скачать курс без ограничений на максимальной скорости и тотчас же приступить к просмотру видеоуроков.

Часто задаваемые вопросы

  • А что, если в процессе изучения я пойму, что это не моё?

    Webformyself гарантирует вам полный возврат стоимости курса в течение 90 дней по первому требованию, если вы по каким-либо причинам вы посчитаете, что курс оказался вам бесполезным.

    Этого времени более чем достаточно, чтобы сделать обоснованные выводы. Все денежные риски мы полностью берем на себя.

  • Подойдет ли мне это, ведь я не знаком с Python?

    Да, подойдет. Курс рассчитан также на начинающих программистов. Если вы полный новичок, то, вероятнее всего, сможете успешно изучить этот курс.

    Только вам необходимо начать изучение с бонусной части, где изучаются основы языка Python с полного нуля, включая синтаксис языка, типы данных, переменные, операторы и т.п.

  • Почему анализ данных на Python?

    Python – один из наиболее популярных языков программирования для анализа данных. Во многом это обусловлено тем, что он является достаточно простым и одновременно очень мощным средством, позволяющим решать широкий круг задач.

    Кроме того, для анализа данных на Python имеется достаточно много открытых библиотек, существенно упрощающих и облегчающих любую, даже самую сложную задачу по анализу данных.

    Одной из таких библиотек является Pandas, которая предназначена для обработки и первичного анализа данных. Именно изучение библиотеки Pandas и работа с ней будут положены в основу данного курса.

  • Почему мы изучаем Pandas?

    Фактически Pandas – это основное решение, и своего рода стандарт, для обработки и анализа данных на Python.

    Если посмотреть вакансии по запросу «Аналитик данных Python», то практически в каждой вакансии будет отмечено как обязательное требование знание библиотеки Pandas.

    Библиотека Pandas позволяет строить сводные таблицы, выделять колонки, использовать фильтры, выполнять группировку по параметрам, запускать функции (сложение, нахождение медианы, среднего, минимального, максимального значений), объединять таблицы и многое другое. В Pandas можно создавать и многомерные таблицы.

  • Что умеет Pandas? Расскажите подробнее о возможностях библиотеки…

    Pandas позволит решить практически любую задачу, которая может возникнуть при работе с данными.

    При этом Pandas позволяет работать с огромными массивами данных разного формата и работать достаточно быстро.

    Вот лишь некоторые из возможностей библиотеки:

    1. Pandas умеет работать с разными источниками данных: файлы Excel, текстовые файлы табличных данных (csv, txt), табличные данные веб-страниц, данные в формате JSON, данные из СУБД и даже из буфера обмена.

    2. Pandas позволяет очень быстро работать с файлами больших объемов. Файлы на десятки и сотни мегабайт или даже гигабайты данных – для библиотеки не проблема.

    3. Pandas позволяет просто и быстро объединять данные из нескольких источников в единый массив данных для дальнейшей обработки.

    4. Эта библиотека умеет преобразовывать данные, сохраняя их в файлы различных форматов, что очень удобно и экономит время.

    5. Pandas предоставляет возможности по группировке данных, накладыванию различных фильтров на данные, построению сводных таблиц и многое другое.

    Еще больше подробностей о типовых задачах, которые Вы сможете решать с Pandas после изучения курса и практики, вы найдете в разделе ответов на частые вопросы внизу лендинга.

  • Можете привести примеры типовых задач, которые я смогу решать после изучения курса и практики?

    Представим себе следующую задачу. У нас есть годовая выгрузка данных интернет-магазина с продажами по всей стране или даже миру. Данные предоставляются в виде 12 файлов Excel с показателями продаж за каждый месяц. Каждый из файлов включает в себя десятки тысяч строк, т.е. в сумме это будут миллионы строк.

    Нам необходимо свести эти файлы воедино, обработать при этом возможные проблемные строки и ячейки данных, к примеру, это могут быть пропущенные данные в строках и ячейках. После этого нужно проанализировать полученные данные и ответить на типичные вопросы:

    • Какой месяц лучший для продаж, а в каком месяце продажи были самыми низкими?
    • В какой день недели продажи лучше, а в какой хуже? При этом изначально в данных нет дня недели, а есть только дата и время.
    • В какие часы продажи наиболее высокие? В какие часы больше всего сделано покупок?
    • В каком городе сделаны наибольшие продажи, а в каком – наименьшие, и почему?

    Это классическая задача по обработке данных и их анализу. На самом деле на многие вопросы можно попробовать дать ответы и без Pandas, работая с данными непосредственно в файлах Excel. Вот только такая работа займет часы времени (если не дни).

    Одна только задача по сведению месячных файлов в единый массив данных отнимет порядочно времени. С Pandas же эта задача решается в несколько строк кода и пару минут времени.

    Кроме того, Pandas позволяет не только работать с данными и предоставлять обработанные итоговые табличные данные, но и позволяет визуализировать результат в виде графиков и диаграмм. Также для этого можно использовать популярную библиотеку Matplotlib, которая также будет рассмотрена в курсе.

  • Как решается вопрос визуализации данных?

    Pandas позволяет не только работать с данными, но и визуализировать результат в виде графиков и диаграмм.

    В заключительной четвертой (практической) части курса будет затронута тема визуализации данных и работа с библиотекой Matplotlib, которая предоставляет практически неограниченные возможности по визуализации обработанных данных.

    Получаемые изображения могут быть использованы в качестве иллюстраций в публикациях, наглядных презентациях и других аналитических материалах.

  • Можно ли смотреть данный видеокурс на OS X (Mac OS)?

    Да. Видео курс можно изучать как в Windows, так и в OS X (Mac OS).

  • Какие минимальные знания требуются для изучения курса?

    Для прохождения курса не нужны никакие специальные знания и навыки, кроме уверенной работы с ПК. Очень желательно, но не обязательно, знание хотя бы основ программирования на Python или любом другом языке. Это существенно ускорит процесс обучения.

  • На какой период рассчитано изучение?

    В среднем курс рассчитан на 2 месяца изучения. Кто-то усвоит быстрее, кто-то – медленнее, но в среднем можете ориентироваться на эти сроки.

    Если вы уже программируете на Python, то, вероятно, сможете изучить курс и за 1 месяц.

    А если вы новичок, то этот срок может растянуться и на 2-3 месяца, в зависимости от вашей нагрузки и способностей.

  • Ограничено ли количество устройств, на которых я могу изучать курс?

    Нет, не ограничено. Вы можете запускать курс на любом компьютере без ограничений.

  • Я не из России, могу ли я купить ваш курс?

    Вы можете приобрести наш курс из любой точки мира, если найдете для себя доступный способ оплаты.

    В любом случае, вы сможете обратиться в нашу службу поддержки для решения персональной проблемы.

  • Какие виды оплаты вы принимаете?

    JustClick — возможность оплаты следующими способами: Visa, MasterCard, электронные деньги (Вебмани, Киви, Яндекс-деньги), интернет-банкинг, терминалы и салоны связи (Евросеть, Связной, Яндекс-деньги), платежные системы (RBKMoney), денежные переводы (Банковский перевод, Альфа-клик, Промсвязьбанк, Контакт, Лидер).

    PayPal — международная система оплаты PayPal.

  • Остались еще вопросы? Напишите нам!

    Если у вас остались сомнения и вопросы, напишите нам в службу поддержки. Мы всегда рады помочь :)


Купить курс