EDA (Exploratory data analysis) - разведовательный анализ данных

### <font color='yellow'>Жизненный цикл модели машинного обучения</font>

0. ПОСТАНОВКА ПРОБЛЕМЫ
1. СБОР ДАННЫХ
2. ОЧИСТКА ДАННЫХ
3. РАЗВЕДЫВАТЕЛЬНЫЙ АНАЛИЗ ДАННЫХ 
4. ЭТАП МОДЕЛИРОВАНИЯ И ВЫВОДА МОДЕЛИ В ПРОДАКШЕН 

![image.png](attachment:image.png)

### <font color='yellow'>Алгоритм и методы EDA</font>

<font color='3499ff'>МЕТОД FEATURE ENGINEERING (ПРОЕКТИРОВАНИЕ ПРИЗНАКОВ)</font></br>
Это процесс создания новых признаков для повышения качества прогнозной модели. Для генерации новых признаков мы можем использовать внешние источники данных или конструировать признаки из имеющихся признаков в наборе данных. </br>
Цель этого метода — создать новые, более сильные признаки для обучения модели. Изучать проектирование признаков мы будем далее — в модулях, посвящённых проектированию признаков.

<font color='3499ff'>МЕТОД FEATURE SELECTION (ОТБОР ПРИЗНАКОВ)</font></br>
Это процесс выбора признаков из общего набора данных признаков, больше всего влияющих на качество модели. Проверить это помогают различные статистические тесты значимости, которые мы подробно будем изучать далее в модулях про разведывательный анализ данных.

<font color='3499ff'>МЕТОД КОДИРОВАНИЯ ПРИЗНАКОВ</font></br>
Чаще всего в кодировании нуждаются категориальные признаки. Вы с ними познакомились в PYTHON-11. Базовые приемы работы с данными в Pandas Юнит 5. Тип данных Category. Они представлены обычно в строковом формате, а большинство алгоритмов машинного обучения требуют численного формата. 




### база вин
- <font color='red'>country</font> — страна-производитель вина.
- <font color='red'>description</font> — подробное описание.
- <font color='red'>designation</font> — название виноградника, где выращивают виноград для вина.
- <font color='red'>points</font> — баллы, которыми WineEnthusiast оценил вино по шкале от 1 до 100.
- <font color='red'>price</font> — стоимость бутылки вина.
- <font color='red'>province</font> — провинция или штат.
- <font color='red'>region_1</font> — винодельческий район в провинции или штате (например Напа).
- <font color='red'>region_2</font> — конкретный регион. Иногда в пределах винодельческой зоны указываются более конкретные регионы (например Резерфорд в долине Напа), но это значение может быть пустым.
- <font color='red'>taster_name</font> — имя сомелье.
- <font color='red'>taster_twitter_handle</font> — твиттер сомелье.
- <font color='red'>title</font> — название вина, которое часто содержит год и другую подробную информацию.
- <font color='red'>variety</font> — сорт винограда, из которого изготовлено вино (например Пино Нуар).
- <font color='red'>winery</font> — винодельня, которая производила вино.

### <font color='yellow'>инструменты автоматической визуализации и представления датасета</font>

- d-tale https://github.com/man-group/dtale 
- ydata-profiling https://github.com/ydataai/ydata-profiling 
- sweetviz https://github.com/fbdesignpro/sweetviz 


In [None]:
%pip install -U ydata-profiling
%pip install ipywidgets

In [None]:
%pip install sweetviz

In [None]:
%pip install dtale

# <font color='pink'>Описательная статистика</font>

### <font color='yellow'>Меры центральной тенденции в Python</font>

Когда вы описываете и вычисляете характеристики одной переменной, вы выполняете <font color='3499ff'>одномерный анализ</font>. </br>
Когда вы анализируете пару переменных и больше, то вы делаете <font color='3499ff'>многомерный анализ</font>. Целью такого анализа является нахождение связей между признаками. 

К одномерному анализу вы можете отнести вычисление максимальных и минимальных значений какого-либо признака, вычисление средних значений, часто встречающихся значений и размаха. 

Вычисление среднего также относится к одномерному анализу. Но что значит среднее? Чтобы ответить на этот вопрос, нам необходимо знать, что такое мера центральной тенденции.

<font color='3499ff'>Мера центральной тенденции</font> — это число, которое описывает так называемое «среднее» признака. Мера центральной тенденции может рассчитываться по-разному в зависимости от типа признака или от его распределения.

Далее мы рассмотрим наиболее популярные меры центральной тенденции, используемые в машинном обучении: среднее арифметическое, медиана, мода. Для расчёта этих описательных статистик в Python мы будем пользоваться библиотекой statistics. Она предоставляет готовые функции для вычисления математической статистики для числовых данных.

In [None]:
%pip install statistics

<font color='3499ff'>Среднее арифметическое</font> — сумма всех элементов, поделённая на количество элементов в числовом ряду или признаке (Series).

<font color='3499ff'>Медиана</font> — средний элемент распределения. Для расчёта медианы должно выполняться одно условие: числовой ряд должен быть предварительно отсортирован. Только так мы сможем корректно рассчитать средний элемент. Признак может быть отсортирован как по возрастанию, так и по убыванию. 

<font color='3499ff'>Мода</font> — самое часто встречающееся значение в числовом или нечисловом ряду данных.

![image.png](attachment:image.png)

Мы рассмотрели самые основные и часто используемые в машинном обучении меры центральной тенденции. Также к мерам центральной тенденции относятся:

- среднее геометрическое;
- среднее гармоническое;
- средневзвешенное и другие.

Их также можно вычислить с помощью библиотеки statistics, но они реже используются для описания распределения в машинном обучении.

### <font color='yellow'>Корреляция</font>

<font color='3499ff'>Корреляция</font> — статистическая связь двух и более переменных. При изменении значения одной из переменных происходит закономерное изменение другой или других величин. 

Мерой связи величин, мерой корреляции является <font color='3499ff'>коэффициент корреляции</font>. Он может принимать значение от -1 до +1.

<font color='3499ff'>Отрицательная корреляция</font>, коэффициент корреляции < 0 говорит об обратной связи между переменными. При обратной связи увеличение одной из величин ведёт к закономерному уменьшению другой (других) величин. 

<font color='3499ff'>Положительная корреляция</font>, коэффициент корреляции > 0 говорит о прямой связи между переменными. При прямой связи увеличение одной из величин ведёт к закономерному увеличению другой (других) величин. 

<font color='3499ff'>Коэффициент корреляции = 0</font> говорит о том, что переменные независимы друг от друга, по крайней мере линейно, но это вовсе не значит, что между ними нет какой-то более сложной взаимосвязи. Это достаточно редкое явление, которое может встретиться на конкретном наборе данных.

Понимание корреляции приводит нас к понятию <font color='3499ff'>мультиколлинеарности</font> — такой сильной зависимости переменных друг от друга, что она затрудняет анализ и оценку будущей модели машинного обучения. 

Для расчёта коэффициента корреляции применим функцию df.corr() библиотеки pandas.

Матрица корреляции — таблица, заголовками и строками которой являются названия признаков в датасете. На пересечении строк и столбцов находится значение коэффициента корреляции этих двух признаков.

Данная матрица имеет значение 1 по главной диагонали, так как единица означает корреляцию признака с самим собой. Матрица является симметричной. 

Рост числа утонувших с популярностью фильмов роби уильямса и тп.) correlation does not imply causation. Этот случай называется ложной корреляцией.

#### <font color='yellow'>КОРРЕЛЯЦИЯ ПИРСОНА</font>

Коэффициент корреляции Пирсона используется для вычисления линейной взаимосвязи между признаками. </br> Линейная взаимосвязь — вид связи между признаками, в котором изменение одного признака x1 всегда приводит к изменению другого признака x2 на величину, пропорциональную изменению x1, в соответствии с правилом: x2 = ax1+b (уравнение прямой), где a и b — некоторые коэффициенты.

![image.png](attachment:image.png)

##### <font color='yellow'>НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ</font>

С точки зрения визуализации нормальное (гауссово) распределение представляет собой распределение признака в виде колокола.

Нормальность распределения признака можно определить визуально, построив гистограмму распределения непрерывного признака или так называемый q-q plot.

Если признак является совокупностью очень редких событий, например аварии на дорогах, то распределение признака нормальным не будет.

<font color='3499ff'>Ранговая корреляция</font> — это вид корреляции, отражающий отношения переменных, упорядоченных по возрастанию их значения. </br>
<font color='3499ff'>Ранги</font> — это порядковые номера единиц совокупности в упорядоченном (ранжированном) ряду. </br>
Если проранжировать совокупность по двум признакам, связь между которыми изучается, то полное совпадение рангов означает максимально тесную <font color='3499ff'>прямую связь</font>, а полная противоположность рангов — максимально тесную <font color='3499ff'>обратную связь</font>.

#### <font color='yellow'>КОРРЕЛЯЦИЯ СПИРМЕНА</font>

Коэффициент корреляции Спирмена используется для вычисления взаимосвязей между категориальными переменными.

Так же, как и коэффициент Пирсона, коэффициент Спирмена распределён [-1; 1] с такой же интерпретацией силы связи, рассмотренной нами в предыдущих юнитах.

#### <font color='yellow'>КОРРЕЛЯЦИЯ КЕНДАЛЛА</font>

Так же, как и корреляция Спирмена, корреляция Кендала предусмотрена для нахождения взаимосвязей между категориальными переменными. Для расчёта коэффициента корреляции Кендалла необходимо передать в изученный нами метод df.corr() аргумент method = 'kendall'. 

Корреляции Спирмена и Кендалла очень похожи. Чтобы понять их различия, необходимо глубокое погружение в их математическую природу. Однако в среднем корреляция Кендала выдаёт меньшие значения коэффициента корреляции, чем корреляция Спирмена. 

Корреляция Кендалла более устойчива к ошибкам и выбросам в данных. Это значит, что её можно применить до очистки данных, чтобы выявить взаимосвязи заранее. Применение в этом случае корреляции Спирмена, как и корреляции Пирсона, не вызовет ошибки, но, скорее всего, некорректность расчёта приведёт к неверным выводам.

#### <font color='yellow'>КОРРЕЛЯЦИЯ МЭТЬЮСА</font>

Бинарные признаки являются подгруппой категориальных. Мы по-прежнему можем использовать методы ранговых корреляций для расчёта связи между переменными. 

корреляция Мэтьюса — мера силы связи между бинарными переменными.

В df.corr() нет расчёта для корреляции Мэтьюса, но мы можем воспользоваться библиотекой scikit-learn и её функцией matthews_corrcoef() для расчёта коэффициента корреляции Мэтьюса.

In [None]:
%pip install scikit-learn

датасет параметров фигур девушек месяца журнала «Плейбой»

- BMI — индекс массы тела (ИМТ)
- year — год размещения модели в журнале
- month — месяц размещения
- waist — обхват талии модели
- hips — обхват бёдер модели
- height — рост модели
- weight — вес модели
- waist/hip — соотношение обхвата талии и бёдер

#### <font color='yellow'>ТЕПЛОВАЯ МАТРИЦА КОРРЕЛЯЦИЙ</font>

Для построения тепловой матрицы корреляций мы воспользуемся методом sns.heatmap() библиотеки seaborn. 

Метод принимает на вход двумерный массив данных под аргументом data. Это может быть матрица корреляций, полученная методом df.corr(), матрица пропущенных значений, полученная методом df.isnull(), набор данных и многое другое. 

![image.png](attachment:image.png)

#### <font color='yellow'>SCATTERPLOT</font>

Иногда нам необходимо рассмотреть связь между признаками как распределение. Матрица корреляции может показать нам только силу связи и её направление (плюс/минус). Чтобы рассмотреть распределение и характер связи, существует точечная диаграмма рассеивания. это такая диаграмма, в которой каждое значение, которое принимает признак в датасете, отражено точкой.

![image.png](attachment:image.png)

Подобная диаграмма помогает установить характер и силу связи признаков. Присвоив каждой оси переменную, мы можем определить наличие связи между переменными. Сила связи (коэффициент корреляции) зависит от того, насколько плотно расположены точки на диаграмме. Например, на рисунке слева точки расположены более плотно, чем справа. Это означает большую силу связи. 

Диаграмма рассеивания в данных — удобный инструмент анализа, но, к сожалению, только для пары признаков. Тепловая матрица корреляций удобна для анализа всего датасета, но показывает только силу и направления корреляции (плюс/минус), а информации о распределении признаков мы не получаем. 

#### <font color='yellow'>ГРАФИК ПОПАРНЫХ ОТНОШЕНИЙ PAIRPLOT</font>

sns.pairplot(data)

Результатом выполнения функции будет такой график:

![image.png](attachment:image.png)