# Разведочный анализ данных (РАД)

## Exploratory data analysis (EDA)

__Разведочный анализ данных (англ. exploratory data analysis, EDA)__ — анализ основных свойств данных, нахождение в них общих закономерностей, распределений и аномалий, построение начальных моделей, зачастую с использованием инструментов визуализации.

#### Цели разведочного анализа данных

1. Понимание структуры и характеристик набора данных (обзор размера набора данных, типов переменных, наличия пропущенных значений, дубликатов и других важных аспектов)
2. Выявление аномалий и выбросов
3. Идентификация связей и корреляций между переменными (используя статистические меры EDA позволяет идентифицировать взаимосвязи между переменными, что помогает понять, как одни факторы влияют на другие)
4. Подготовка данных для дальнейших этапов анализа (чистим данные от шума, заполняем пропущенные значения, проводим масштабирование или преобразования переменных, чтобы обеспечить их качественную и интерпретируемую структуру)

## Инструменты и методы разведочного анализа данных (EDA)

### A. Визуализация данных

Визуализация данных позволяет нам увидеть и понять паттерны, тренды и взаимосвязи в данных через графику и диаграммы.


#### 1. Гистограммы и диаграммы рассеяния

__Гистограмма__ – это графическое представление распределения данных по различным интервалам. Она позволяет нам оценить, как часто значения попадают в определенные диапазоны и какие у нас имеются пики или провалы в данных.

__Диаграмма рассеяния__ – это график, в котором каждая точка представляет собой отдельное наблюдение и показывает взаимосвязь между двумя переменными. Это может помочь нам определить, есть ли какая-либо зависимость или корреляция между ними.


#### 2. Ящик с усами (box plot)

__Ящик с усами__ – это визуализация статистических характеристик распределения данных, таких как медиана, квартили и выбросы. Он помогает нам быстро оценить разброс и симметрию данных, а также выявить потенциальные аномалии.

![image.png](attachment:bb853c50-3853-42d8-a062-16973e4cae52.png)

__Медиана__ меньше подвержена влиянию выбросов, поэтому в центре отображается именно она, а не среднеарифметическое.

__Верхний квартиль__ – это значение, выше которого только 25% оценок.

**Нижний квартиль** – это значение, ниже которого только 25% оценок.

**Межквартильный размах (МКР)** – это разница между 75% и 25% квартилем. Внутри этого диапазона лежит 50% наблюдений. Если диапазон узкий (как в случае с осьминогами), значит члены подгруппы единогласны в своих оценках. Если широкий – значит однородного мнения нет (как у цыплят).

**Выбросы** – это нетипичные наблюдения. Что именно считать нетипичным? Зависит от контекста, но можно прибегнуть к следующем расчетам:

Выбросы – это значения за пределами:

25% перцентили минус 1.5 х МКР

75% перцентили плюс 1.5 х МКР

![image.png](attachment:67678a17-47c1-4ee6-a8a2-afbace59cc8f.png)

![image.png](attachment:cbdb9eb0-f678-46d5-8483-dbcd93e40f38.png)

#### 3. Тепловые карты (heatmap)

__Тепловая карта__ – это графическое представление матрицы данных, где цветовая шкала показывает степень взаимосвязи между переменными. Это помогает выявить паттерны и зависимости в больших наборах данных.

### B. Сводные статистики и меры центральной тенденции

Сводные статистики и меры центральной тенденции позволяют нам получить обобщенное представление о распределении данных и основных характеристиках. Это ключевые числовые метрики, которые помогают нам понять типичные и наиболее значимые значения в наборе данных.

__Среднее (Mean)__: Это сумма всех значений, разделенная на количество значений. Оно представляет общую "среднюю" величину данных.

__Медиана (Median)__: Это среднее значение двух средних значений, если количество значений четное, или среднее значение самого центрального числа, если количество значений нечетное. Медиана предоставляет более устойчивую меру центральной тенденции в присутствии выбросов.

__Мода (Mode)__: Это значение, которое встречается наиболее часто в наборе данных. Мода может быть полезна для определения наиболее типичного значения.

### C. Корреляционный анализ

Корреляционный анализ помогает нам понять, какие переменные взаимосвязаны между собой и насколько сильна эта связь. Коэффициент корреляции измеряет степень линейной зависимости между двумя переменными.

__Положительная корреляция__: Если одна переменная увеличивается, другая также увеличивается. Коэффициент корреляции находится в диапазоне от 0 до 1.

__Отрицательная корреляция__: Если одна переменная увеличивается, другая уменьшается. Коэффициент корреляции находится в диапазоне от 0 до -1.

__Нулевая корреляция__: Отсутствие линейной зависимости между переменными. Коэффициент корреляции близок к 0.

### E. Преобразование данных (например, нормализация или стандартизация)

Преобразование данных – это процесс изменения шкалы или распределения переменных, чтобы сделать их более подходящими для анализа или моделирования. Это важный этап EDA, который помогает сгладить различия между переменными и создать более устойчивые и интерпретируемые данные.

__Нормализация (Normalization)__: Этот метод масштабирует значения переменных так, чтобы они находились в диапазоне от 0 до 1. Это особенно полезно, когда у нас есть переменные с разными единицами измерения и масштабами.

__Стандартизация (Standardization)__: Этот метод преобразует значения переменных так, чтобы их среднее было равно 0, а стандартное отклонение – 1. Он делает распределение более "стандартным" и симметричным.

## Шаги разведочного анализа данных

1. Загрузка и первичный осмотр данных
2. Обработка пропущенных значений
3. Анализ распределения переменных
4. Исследование корреляций между переменными
5. Выявление выбросов и аномалий
6. Изучение категориальных переменных
7. Визуализация результатов EDA


Разведочный анализ данных является неотъемлемой частью успешного анализа данных и позволяет сделать первые выводы, идентифицировать интересные тренды и подготовить данные для последующих этапов работы. При проведении EDA важно не только использовать технические методы, но и иметь интуитивное понимание данных и их контекста.