# Разведочный анализ данных (exploratory data analysis, EDA)

Задачи, которые ставятся перед аналитиками, достаточно разнообразны. Однако всё начинается с данных. 

В этом курсе мы не будем касаться бизнес-составляющей анализа данных, но при этом нужно понимать, что данные не берутся "из воздуха". Как и задачи, связанные с ними. В книге [Билла Фрэнкса](https://play.google.com/store/books/details/%D0%91_%D0%A4%D1%80%D1%8D%D0%BD%D0%BA%D1%81_%D0%A0%D0%B5%D0%B2%D0%BE%D0%BB%D1%8E%D1%86%D0%B8%D1%8F_%D0%B2_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D1%82%D0%B8%D0%BA%D0%B5_%D0%9A%D0%B0%D0%BA_%D0%B2_%D1%8D%D0%BF%D0%BE%D1%85%D1%83_Big_Dat?id=yPvkDQAAQBAJ) об операционной аналитике автор акцентирует внимание на том, что непродуманные инвестиции в сбор и хранение данных по принципу "а вдруг потом пригодятся" зачастую себя не оправдывают. Только после того, как поставлена определённая цель, можно начинать процесс сбора (или, возможно, покупки) и анализа данных.

К сожалению, на практике данные в "сыром" виде обычно малопригодны для анализа. Процесс подготовки и очистки данных (препроцессинг, англ. data preparation, pre-processing, data cleaning) может быть **весьма трудоёмким** и по времени занимать больше, чем собственно построение и валидация моделей на основе данных. Выделим некоторые составляющие этого процесса:

- data specification (понимание данных)
- data editing (редактирование данных, исправление ошибок --- ручное, автоматическое или их комбинация)
- работа с пропущенными значениями
- нормализация
- feature extraction and selection (создание и отбор признаков)

В результате получаем данные в удобном для анализа формате, как правило, табличном. Таблица (или датафрейм) имеет структуру "объекты-признаки": строки соответствуют отдельным сущностям (объектам, примерам, экземплярам), а столбцы --- атрибутам этих сущностей (признакам).

## Экосистема Python. Библиотека NumPy

Python --- высокоуровневый язык программирования общего назначения. На сегодня это наиболее востребованный язык программирования в Data Science и Machine Learning. Однако "чистый" Python имеет ряд недостатков, главным образом, связанных со временем выполнения кода. Традиционные структуры данных, такие как списки и кортежи, а также циклы for и while работают "медленно", и в случае анализа больших данных это становится проблемой. 

Библиотека NumPy предназначена для работы с многомерными массивами (arrays) и разработана таким образом, чтобы время выполнения операций с большими данными было **существенно меньше** (иногда в сотни или даже тысячи раз), чем при использовании "чистого" Python. Библиотека содержит большое количество быстрых и высокоуровневых операций с одно-, дву- и многомерными массивами (тензорами), а также ряд функций векторной и матричной алгебры. На базе массивов NumPy работают все библиотеки более высокого уровня в экосистеме Python (Pandas, Matplotlib, Scikit-Learn, библиотеки глубокого обучения Tensorflow, PyTorch и многие другие), что делает изучение идеологии массивов NumPy и возможностей этой библиотеки безусловным "must have" для аналитика.

## Библиотека Pandas

Pandas --- библиотека Python, основное предназначение которой --- загрузка, препроцессинг и разведочный анализ данных. Разведочный анализ предшествует непосредственно построению предсказательных моделей машинного обучения и призван помочь исследователю лучше понять особенности датасета, взаимосвязи (корреляции) между признаками, а также сделать первые простые выводы на основе данных. Однако "просто" --- не значит "плохо". Эти (на первый взгляд) примитивные выводы дают ориентиры (baselines) для последующих более сложных моделей, а может оказаться и так, что именно найденные на этапе разведочного анализа закономерности помогут достичь желаемой цели без погружения в сложные модели машинного обучения.

## Визуализация. Библиотеки Matplotlib и Seaborn

Важная составляющая разведочного анализа --- визуализация данных. Качественные графики и диаграммы помогают увидеть больше, чем скучные и однообразные таблицы. Библиотека Pandas имеет встроенные средства визуализации на основе графики Matplotlib. Сама по себе библиотека Matplotlib предоставляет множество низкоуровневых графических инструментов, так что исследователь может контролировать буквально всё --- от цвета точек до шрифтов на осях координат. Библиотека Seaborn содержит больше высокоуровневых возможностей и призвана в какой-то степени "упростить жизнь" пользователям Matplotlib, автоматизируя многие рутинные вещи. Обычно встроенная графика Pandas, библиотеки Matplotlib и Seaborn используются совместно, что мы и продемонстрируем в дальнейшем.

In [None]:
# Импорт нужных библиотек
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt
import seaborn as sns
sns.set(); # более красивый внешний вид графиков по умолчанию

## Загрузка данных

Данные, прошедшие предварительную подготовку и обработку, обычно имеют табличный формат и хранятся в виде CSV-файлов (а также TSV, XLS, XLSX etc.). В этом случае стоит использовать метод [read_csv](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html). Также данные могут подтягиваться непосредственно из табличных баз данных, и для этих целей Pandas имеет метод [read_sql](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_sql.html). В других случаях могут пригодиться [read_json](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_json.html) и [прочие методы](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html).

В ходе этого курса мы рассмотрим работу не только с традиционными табличными данными, но также с текстом и изображениями.

Метод [read_csv](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html) имеет множество настраиваемых параметров. Наиболее существенные из них: имя файла (или URL), тип разделителя ячеек (по умолчанию --- запятая), наличие строки заголовка (указывается её номер; по умолчанию имена признаков считываются из первой строки файла), наличие колонки с индексами (идентификаторами) строк (также указывается номер; по умолчанию --- отсутствует). С остальными параметрами рекомендуем ознакомиться в документации.

In [None]:
df = pd.read_csv('../input/cardio_train.csv', sep=';')

## Первый взгляд на данные

In [None]:
# Метод head(n) предназначен для просмотра первых n строк таблицы (по умолчанию n=5)
# Аналогично метод tail(n) возвращает последние n строк
df.head()

In [None]:
# Если признаков (столбцов) слишком много, полезно будет транспонировать вывод
df.head(10).T

In [None]:
# Метод info() позволяет вывести общую информацию о датасете
# Мы можем узнать тип каждого признака, а также есть ли в данных пропуски
df.info()

In [None]:
# Метод describe() позволяет собрать некоторую статистику по каждому числовому признаку
# Для более удобного прочтения полученную таблицу можно транспонировать
df.describe().T

Обратим внимание, что некоторые из признаков бинарные (smoke, alco, active, cardio), поэтому стандартные описательные статистики --- среднее, стандартное отклонение, медиана, квартили --- для них не имеют смысла. В этом случае полезнее будет обычный подсчёт значений. Например, так мы можем узнать, сколько пациентов с выявленными сердечно-сосудистыми заболеваниями (ССЗ) имеется в выборке.

In [None]:
df['cardio'].value_counts()

Мы видим, что здоровых и больных у нас примерно равное количество, т. е. классы 0 и 1 сбалансированы (о проблеме несбалансированных классов мы будем говорить позже).

In [None]:
# Параметр normalize позволяет узнать процентное соотношение
df['cardio'].value_counts(normalize=True)

## Исследуем отдельные признаки ("фичи")

Посмотрим на распределение значений роста пациентов. Теория утверждает, что рост --- величина, обычно имеющая нормальное распределение.

In [None]:
df['height'].hist();

График по умолчанию оказался малоинформативным. Попробуем улучшить ситуацию, добавив параметр bins.

In [None]:
df['height'].hist(bins=20);

Как и ожидалось, имеем нечто похожее на гистограмму распределения Пуассона. Однако на картнике не видны выбросы (outliers) --- точки, "выбивающиеся" из общей картины. Поэтому иногда полезнее применить boxplot ("ящик с усиками").

In [None]:
sns.boxplot(df['height']);

Ширина "ящика" равна интерквартильному размаху (разность между третьим $Q_3$ и первым $Q_1$ квартилями). Вертикальная линия внутри ящика показывает медиану (второй квартиль). "Усики" ограничивают точки, попадающие в интервал $[Q_1-1.5*IQR; Q_3+1.5*IQR]$, где $IQR$ --- интерквартильный размах. Наконец, отдельные точки на графике соответствуют выбросам --- нетипичным для данной выборки значениям. Как видим, их оказалось довольно много.

## Исследуем признаки совместно

Например, исследователя может интересовать вопрос: каков средний возраст здоровых и больных пациентов? Признак age имеет неудобную для интерпретации единицу измерения --- дни, поэтому преобразуем его в количество лет. 

In [None]:
# Обратите внимание - мы применяем здесь метод, а не функцию round. Это значительно ускоряет вычисления
# Операция "деления столбца на число" работает интуитивно понятно - 
# каждый элемент делится на это число. Магия NumPy в действии!
df['age'] = (df['age'] / 365).round()

### GROUP BY
Внимание: здесь мы знакомимся с одной очень полезной операцией --- группировкой. Метод groupby работает аналогично операции GROUP BY в языке SQL и позволяет группировать данные по одному или нескольким атрибутам, вычисляя затем агрегированные показатели в каждой группе.

In [None]:
# Синтаксис предельно прост, лаконичен и интуитивно понятен
df.groupby('cardio')['age'].mean()

Как показывают вычисления, средний возраст людей с ССЗ чуть выше, чем у здоровых. Эти вычисления можно также визуализировать с помощью встроенной графики Pandas.

In [None]:
df.groupby('cardio')['age'].mean().plot(kind='bar') 
plt.ylabel('Age') # добавляем подпись на оси Оу
plt.show();

### countplot
Теперь попробуем посмотреть, как распределено количество здоровых и больных пациентов по возрастным группам. Здесь нам поможет график countplot библиотеки Seaborn.

In [None]:
plt.figure(figsize=(15, 8)) # увеличим размер картинки
sns.countplot(y='age', hue='cardio', data=df);

Важное наблюдение --- начиная с 55 лет количество больных пациентов превышает количество здоровых.

### Scatter plot
Полезным типом графика для исследования пар числовых признаков является диаграмма рассеяния (scatter plot). Рассмотрим возраст и рост пациентов.

In [None]:
plt.scatter(df['age'], df['height']);

Здесь становится ясно, что наши выбросы в данных --- это просто ошибки ввода. Если, конечно, мы не проводили исследование среди лиллипутов :)

Для изучения совместного распределения двух числовых признаков полезным может оказаться jointplot библиотеки Seaborn:

In [None]:
sns.jointplot(x='height', y='weight', data=df);

Ошибки и аномалии в данных чётко видны и на этом графике. Также можно заключить, что без учёта выбросов рост и вес имеют распределения, близкие к нормальному.

### Сводные таблицы

Для исследования трёх и более признаков полезным инструментов являются сводные таблицы (pivot tables). Этот инструмент хорошо знаком продвинутым пользователям электронных таблиц Excel, Google Spreadsheets. Рассмотрим, как с помощью сводной таблицы ответить на вопросы: 
- верно ли, что с возрастом люди становятся более склонны к употреблению алкоголя;
- верно ли, что среди курящих процент ССЗ больше.

In [None]:
# values - признаки, по которым вычисляются значения функции aggfunc
# index - признаки, по которым выполняется группировка
df.pivot_table(values=['age', 'cardio'], index=['smoke', 'alco'], aggfunc='mean')

Как видим, ответы на оба вопроса отрицательные. Склонность к алкоголю, похоже, не коррелирует с возрастом, а процент ССЗ оказался выше среди некурящих.

Чтобы понять, как связаны употребление алкоголя и курение, посмотрим на кросс-таблицу (таблицу сопряжённости):

In [None]:
pd.crosstab(df['smoke'], df['alco'])

Пока можно только сказать, что непьющих и некурящих пациентов существенно больше, чем всех остальных. Для обоснованных выводов о взаимосвязи следует обратиться к численным расчётам.

## Выборка данных по условию. Способы индексирования в Pandas

Иногда нам нужно провести вычисления не на всей обучающей выборке, а на некоторой её части. Для этого нужно знать и понимать способы доступа к ячейкам в датафреймах.

Начнём с исследования одного признака "в себе". Для примера возьмём рост.

In [None]:
h = df['height'] # сохраним всю колонку "рост" в отдельную переменную для экспериментов
type(h) # посмотрим тип 

Таким образом, видим, что таблица (датафрейм, DataFrame) представляет собой набор именованных столбцов (рядов, Series). Доступ к столбцам осуществляется по ключу --- названию столбца, как в словарях Python. Технически можно представлять себе датафрейм как словарь столбцов.

А как же насчёт строк?

In [None]:
first_patient = df[0]

Oops! Мы получили ошибку: KeyError означает, что нет столбца с именем "0". То есть обратиться к строке через обычный индекс мы не можем. Для этого нам будет нужен "неявный" индекс (implicit loc, iloc).

In [None]:
first_patient = df.iloc[0]
print(first_patient)

И опять мы видим, что технически строка датафрейма представляет собой словарь. Ключами словаря являются имена столбцов, значениями --- значения признаков для данной строки.

Чтобы узнать, например, возраст первого пациента (не запоминая его в отдельную переменную), нужно применить явное индексирование (loc):

In [None]:
print(df.loc[0, 'age'])

Вернёмся теперь к переменной h. Напомню, в ней мы сохранили все значения из столбца "рост". Рост указан в сантиметрах. Переведём в метры.

In [None]:
h_meters = h / 100 # предельно просто!
h_meters[:10] # в отдельных столбцах уже можно применять "обычные" срезы, как в списках

Выше на нескольких диаграммах мы видели, что среди значений роста присутствуют ошибки. Давайте посмотрим, сколько пациентов имеют рост ниже 125 см. Внимание, вопрос --- как решить эту задачу в классическом стиле?

In [None]:
%%timeit
lilliputs = 0
for value in h:
    if value < 125:
        lilliputs = lilliputs + 1

А теперь решим ту же задачу в NumPy-стиле:

In [None]:
%%timeit
h[h < 125].shape[0]

Итак, второй способ оказался быстрее приблизительно в 5 раз на наборе данных из 70000 значений (относительно небольшом). С ростом длины вектора циклы становятся в сотни и тысячи раз медленнее, чем векторизованные операции NumPy.

Итак, выборку из массива значений можно выполнять по условному индексу. Похожим образом это работает и для отбора строк в датафрейме.

In [None]:
# Вычислим средний возраст людей, склонных к курению
df[df['smoke'] == 1]['age'].mean()

In [None]:
# Условие может быть составным
df[(df['smoke'] == 1) & (df['cardio'] == 1)]['age'].mean()

## Фильтрация датафрейма. Удаление строк и столбцов

Для удаления строк и столбцов в датафрейме используется метод drop. Рассмотрим удаление по ключам и по условию.

In [None]:
# Удалим целевой признак cardio
dummy_df = df.drop('cardio', axis=1)
dummy_df.head()

In [None]:
# Удалим первые 100 пациентов
dummy_df = df.drop(np.arange(100), axis=0)
dummy_df.head()

In [None]:
# Удалим всех пацентов с ростом ниже 125 см, а также выше 200 см
dummy_df = df.drop(df[(df['height'] < 125) | (df['height'] > 200)].index)
dummy_df.shape[0] / df.shape[0]

Как видим, процент выбросов небольшой --- оставшаяся выборка составляет 99.9 % исходной.

## Добавление новых признаков

In [None]:
df['height_cm'] = df['height'] / 100
df.head()

## Перекодировка значений признаков
Наш датасет содержит только числовые значения, однако часто среди признаков есть категориальные, и в этом случае на этапе предобработки нужно применить один из видов кодирования. Простейший тип кодирования --- замена одних значений другими (label encoding). В данном случае нам придётся (исключительно с целью продемонстрировать работу метода) применить обратную операцию. Например, перекодируем признак "уровень холестерина" по принципу:
- 1 --- "low"
- 2 --- "normal"
- 3 --- "high"

In [None]:
new_values = {1:'low', 2:'normal', 3:'high'} # обычный словарь Python
df['dummy_cholesterol'] = df['cholesterol'].map(new_values)
df.head()

Перекодируем целевой признак cardio в логический (True/False).

In [None]:
df['cardio'] = df['cardio'].astype(bool)
df.head()

# Задания для самостоятельной работы

1. Определите количество мужчин и женщин среди испытуемых. Обратите внимание, что способ кодирования переменной gender мы не знаем. Воспользуемся медицинским фактом, а именно: мужчины в среднем выше женщин.

2. Верно ли, что мужчины более склонны к употреблению алкоголя, чем женщины?

3. Каково различие между процентами курящих мужчин и женщин?

4. Какова разница между средними значениями возраста для курящих и некурящих?

5. Создайте новый признак --- BMI (body mass index, индекс массы тела). Для этого разделите вес в килограммах на квадрат роста в метрах. Считается, что нормальные значения ИМТ составляют от 18.5 до 25. Выберите верные утверждения:

    (a) Средний ИМТ находится в диапазоне нормальных значений ИМТ.

    (b) ИМТ для женщин в среднем выше, чем для мужчин.

    (c) У здоровых людей в среднем более высокий ИМТ, чем у людей с ССЗ.

    (d) Для здоровых непьющих мужчин ИМТ ближе к норме, чем для здоровых непьющих женщин

6. Удалите пациентов, у которых диастолическое давление выше систолического. Какой процент от общего количества пациентов они составляли?

7. На сайте Европейского общества кардиологов представлена шкала [SCORE](https://www.escardio.org/static_file/Escardio/Subspecialty/EACPR/Documents/score-charts.pdf). Она используется для расчёта риска смерти от сердечно-сосудистых заболеваний в ближайшие 10 лет. 

    Рассмотрим верхний правый прямоугольник, который показывает подмножество курящих мужчин в возрасте от 60 до 65 лет (значения по вертикальной оси на рисунке представляют верхнюю границу).

    Мы видим значение 9 в левом нижнем углу прямоугольника и 47 в правом верхнем углу. Это означает, что для людей этой возрастной группы с систолическим давлением менее 120 и низким уровнем холестерина риск сердечно-сосудистых заболеваний оценивается примерно в 5 раз ниже, чем для людей с давлением в интервале [160, 180] и высоким уровнем холестерина.

    Вычислите аналогичное соотношение для наших данных.

8. Визуализируйте распределение уровня холестерина для различных возрастных категорий.

9. Как распределена переменная BMI? Есть ли выбросы 

10. Как соотносятся ИМТ и наличие ССЗ? Придумайте подходящую визуализацию.


1. Определите количество мужчин и женщин среди испытуемых. Обратите внимание, что способ кодирования переменной gender мы не знаем. Воспользуемся медицинским фактом, а именно: мужчины в среднем выше женщин. Так как мужчины в среднем выше женщин, то тогда получаем что в столбце гендер 2-мужчины, 1- женщины.

In [None]:
df.groupby('gender')['height'].mean()

2.Верно ли, что мужчины более склонны к употреблению алкоголя, чем женщины? Да , верно. Сумма склонных к алкоголю у мужчин больше, чем у женщин.

In [None]:
df.pivot_table(values=['alco'], index=[ 'gender'], aggfunc='sum')

3. Каково различие между процентами курящих мужчин и женщин? У мужчин около 0,218 курит, у женщин этот показатель намного меньше.

In [None]:
df.groupby('gender')['smoke'].value_counts(normalize=True)

4.Какова разница между средними значениями возраста для курящих и некурящих?

In [None]:
df[df['smoke'] == 1]['age'].mean()-df[df['smoke'] == 0]['age'].mean()

5. Создайте новый признак --- BMI (body mass index, индекс массы тела). Для этого разделите вес в килограммах на квадрат роста в метрах. Считается, что нормальные значения ИМТ составляют от 18.5 до 25. Выберите верные утверждения:

(a) Средний ИМТ находится в диапазоне нормальных значений ИМТ.

(b) ИМТ для женщин в среднем выше, чем для мужчин.

(c) У здоровых людей в среднем более высокий ИМТ, чем у людей с ССЗ.

(d) Для здоровых непьющих мужчин ИМТ ближе к норме, чем для здоровых непьющих женщин

In [None]:
h = df['height'] # сохраним всю колонку "рост" в отдельную переменную для экспериментов
type(h) # посмотрим тип 
h_meters = h / 100 # предельно просто!
w = df['weight']
q=(w/(h_meters*h_meters))
df['bmi'] = q
print(df['bmi'].mean())#Средний ИМТ находится в диапазоне нормальных значений ИМТ.
print(df[df['gender'] ==2 ]['bmi'].mean())#ИМТ мужчины
print(df[df['gender'] ==1]['bmi'].mean())#ИМТ женщины
print(df[(df['cardio'] == 0) ]['bmi'].mean())#здоровые
print(df[(df['cardio'] == 1) ]['bmi'].mean())#не здоровые
print(df[(df['gender'] == 1 )&(df['cardio'] == 0)&(df['alco'] == 0)]['bmi'].mean())#женщины
print(df[(df['gender'] == 2)&(df['cardio'] == 0)&(df['alco'] == 0)]['bmi'].mean())#мужчины

Второе и четвертое утверждение верное.

6. Удалите пациентов, у которых диастолическое давление выше систолического. Какой процент от общего количества пациентов они составляли?

In [None]:
dummy_df = df.drop(df[(df['ap_hi'] > df['ap_lo'])].index)
dummy_df.shape[0] / df.shape[0]

Как видим, процент выбросов большой - оставшаяся выборка составляет 1.7 % исходной.

7. На сайте Европейского общества кардиологов представлена шкала SCORE. Она используется для расчёта риска смерти от сердечно-сосудистых заболеваний в ближайшие 10 лет.

Рассмотрим верхний правый прямоугольник, который показывает подмножество курящих мужчин в возрасте от 60 до 65 лет (значения по вертикальной оси на рисунке представляют верхнюю границу).

Мы видим значение 9 в левом нижнем углу прямоугольника и 47 в правом верхнем углу. Это означает, что для людей этой возрастной группы с систолическим давлением менее 120 и низким уровнем холестерина риск сердечно-сосудистых заболеваний оценивается примерно в 5 раз ниже, чем для людей с давлением в интервале [160, 180] и высоким уровнем холестерина.

Вычислите аналогичное соотношение для наших данных.

8. Визуализируйте распределение уровня холестерина для различных возрастных категорий.

In [None]:
plt.figure(figsize=(15, 8)) # увеличим размер картинки
sns.countplot(y='age', hue='cholesterol', data=df);

9. Как распределена переменная BMI? Есть ли выбросы .
Имеем нечто похожее на гистограмму распределения Пуассона. Однако на картнике не видны выбросы .

In [None]:
df['bmi'].hist(bins=60);

In [None]:
sns.boxplot(df['bmi']);

Отдельные точки на графике соответствуют выбросам -нетипичным для данной выборки значениям. Как видим, их оказалось довольно много.

10. Как соотносятся ИМТ и наличие ССЗ? Придумайте подходящую визуализацию.

In [None]:
df.groupby('cardio')['bmi'].mean().plot(kind='bar') 
plt.ylabel('bmi') 
plt.show();

In [None]:
df.pivot_table(values=['bmi'], index=['age','cardio'], aggfunc='mean')