**Разведочный анализ данных (англ. exploratory data analysis, EDA)** — анализ основных свойств данных, нахождение в них общих закономерностей, распределений и аномалий, построение начальных моделей, зачастую с использованием инструментов визуализации.

Пример: https://www.kaggle.com/code/emstrakhov/lesson-1-eda-with-pandas 

# CRISP-DM/Data Understanding

## Собрать исходные данные (Collect initial data)

Запросить доступ к данным из списка ресурсов проекта и осуществить их выгрузку (если это возможно). 
Если необходимо, непосредственно загрузить данные в анализирующие инструменты.

N.B.: В случае нескольких источников данных, их интеграция выносится в отдельную задачу на данном или более поздних этапах.

### Отчет о выгрузке данных (Initial data collection report)
Список полученных наборов данных вместе с описанием доступа к ним и возможными проблемами при осуществлении этого доступа.
Подробное описание всех возникших проблем и способов их решения (для использования этой информации в будущем).

## Описать данные (Describe data)
Исследовать основные или "поверхностные" свойства собранных данных и описать результаты.

### Отчет по описанию данных (Data description report)
Описание собранных данных, включающее: формат данных, количество данных, например, число
объектов и признаков в каждой таблице, сущности в каждом признаке и все другие найденные 
поверхностные характеристики данных. Удовлетворяют ли собранные данные каким-то 
характерным требованиям?



## Исследовать данные (Explore data)
Эта задача связана с вопросами анализа данных, которые решаются с помощью запросов, визуализации и отчетности.
Она включает в себя выяснение распределения ключевых признаков, например, поиск целевого признака задачи предсказания;отношения между парами или малым числом признаков;
результаты простого агрегирования;свойства больших групп населения;простой статистический анализ.

Это ознакомление может быть обращено конкретно к цели самого анализа данных;также оно может добавлять или уточнять информацию о данных и их качестве.
Также ознакомление заключается в передаче данных для преобразования и для других этапов подготовки, необходимых для дальнейшего анализа.

### Отчет об ознакомлении с данными (Data exploration report)
Опишите результаты этой задачи, включая информацию о первых замечаниях и гипотезах, а также о их возможном влиянии на оставшуюся часть проекта.
Если это уместно, включите диаграммы и графики, которые показывают свойства данных или описывают те части данных, которые будут интересны для дальнейшего рассмотрения.

# CRISP-DM/Data Preparation

Фаза подготовки данных содержит все действия построения датасета (данных, которые будут использоваться при моделировании) из начальных сырых данных.
Задачи подготовки данных, вероятно, будут выполняться не один раз, в не определенном заранее порядке. Эти задачи включают в себя структурирование, запись и
выбор атрибутов, а также преобразование и очистку данных для моделирования.

## Отобрать данные (Select data)
Выбор данных для анализа. Критерий выбора включает релевантность для целей анализа данных,
качество и технические ограничения, такие как объем данных или тип данных. Выбор данных 
включает как выбор признаков (столбцов), так и выбор объектов (строчек) в таблице.

### Правила включения/исключения (Rationale for inclusion/exclusion)
Перечислить данные, которые должны быть включены/исключены и по каким причинам.


## Очистить данные (Clean data)
Привести качество данных в соответсвтвие с выбранным аналитическим подходом.
Этого можно добиться различными подходами, например: выборым достаточно качественного поднабора данных,
введением значения по умолчанию, оцениванием пропусков в данных с помощью моделирования и другими.

### Отчет о чистке данных (Data cleaning report)
Список решений и предпринятых мер по улучшению качества данных 
(оценка качества данных проводилась в одноименной задаче фазы "Понимание данных").
Список проверенных трансформаций данных, сделанных в целях улучшения качества.

## Сделать производные данные (Construct data)
Эта задача включает операции по конструктивной подготовке данных, такие как порождение новых признаков и новых записей, а также простое преобразование значений признаков.

### Порождение признаков (Derived attributes)
Порождение признаков заключается в создании признаков с помощью уже существующего набора одного и более признаков из одной записи.
Например, площадь равна длине, умноженной на ширину.

### Созданные записи (Generated records)
Опишите создание новых записей.
Например, создайте новые записи для клиентов, которые не делали покупок последний год.
Не было смысла иметь эти записи в исходных данных, но для модели покупатели, имеющие нулевое число покупок, могут иметь значение.


## Объединить данные (Integrate data)
Это методы посредством которых информация комбинируется из множества таблиц или протоколов для создания новых протоколов или оценок.

### Слияние данных (Merged data)
Слияние таблиц данных - это объединение двух и более таблиц, которые содержат различную информацию об одних и тех же объектах.
Например, торговая сеть имеет таблицу с общей характеристикой каждого магазина (напр. торговая площадь, тип магазина), другую таблицу с обобщенными данными продаж (напр. общий доход, процентное изменение продаж за год) и прочие с различной информацией (напр. демографические характеристики покупателей). Эти таблицы могут быть объединены вместе в новую таблицу с одной записью для каждого магазина и комбинированными атрибутами из исходных таблиц.

Слияние данных также покрывает агрегацию. Агрегация относится к операции, где новые значения вычисляются из суммирования информации из множества записей или таблиц. К примеру, преобразование таблицы с данными покупок потребителя, где каждая запись соответствует одной покупке, в новую таблицу, где каждому потребителю уже соответствует одна запись с общими характеристиками по всем его покупкам (напр. их общее количество, средняя стоимость и т.д.).    


## Привести данные в нужный формат (Format data)
Преобразование данных в первыю очередь носят синтаксические изменения, которые не меняют значение данных. Они необходимы для требований 
инструментов моделирования.

### Переформатированные данные (Reformatted data)
Некоторые инструменты моделирования устанавливают требования на порядок атрибутов. К примеру, первое поле - уникальный индентификатор для каждой записи в таблице с данными, или последнее поле - результат, который должна предсказать модель.

Может быть важным изменение порядка записей в наборе данных. Обычная ситуация, когда записи имеют изначальный определенный порядок, но для алгоритма моделирования необходимо, чтобы порядок был случайным. Например, при работе с нейронными сетями, как правило, случайный порядок является лучшим для работы, поэтому некоторые инструменты делают это автоматически без вмешательства пользователя.

Кроме того, есть чисто синтаксические изменения, чтобы удовлетворить требованиям специфичной модели. К примеру, удаление ненужных знаков препинания в текстовых полях, обрезание длинных слов до некоторого максимального заданного количества символов.  