Анализ данных — это обработка и преобразование большого количества неструктурированных или неорганизованных данных с целью генерирования ключевой информации об этих данных, которые могли бы помочь в принятии обоснованных решений.
Анализ данных можно свести к последовательному выполнению определенных действий. Конечно, в зависимости от направления и сферы деятельности, алгоритм может изменяться — но в основном, процесс следующий:
Сбор — название этапа говорит само за себя. Тут собираются данные.
Подготовка — чаще всего, данные собираются из разных источников, в разном виде и формате. Для дальнейшей работы и анализа их нужно подготовить, привести к единому виду, очистить от лишнего. Именно этим и занимаются на этапе подготовки.
Исследование и визуализация — этап изучения данных, с целью выявить закономерности, связи, зависимости, аномалии. И визуализация как раз помогает обнаружить подобные зависимости и связи.
Построение гипотез — после изучения на предыдущем этапе данных со всех сторон, выдвигаются гипотезы. Например, в магазине больше всего продаж совершается по выходным с 12:00 до 14:00 и по будним дням с 20:00 до 22:00. Соответственно, на эти часы можно сделать специальные предложения — чтобы повысить средний чек покупки и увеличить прибыль.
Проверка гипотез — на этом этапе проверяется выдвинутая гипотеза.
Вышеупомянутый алгоритм, конечно, очень упрощен. Каждый этап может включать в себя еще несколько этапов. Но основной смысл раскрыт.