# Домашнее задание 2

Данное домашнее задание будет посвящено работе с основными методами библиотек `pandas` и `matplotlib`.

Баллы за блок/задание указаны в квадратных скобках.

[Форма для отзывов и пожеланий](https://forms.gle/pHrr9icXxKopHh6S6)

Импортируем библиотеки:

In [6]:
from sklearn import datasets
import pandas as pd
import numpy as np

Для данной работы мы воспользуемся одним из "игрушечных" датасетов из библиотеки `sklearn`, содержащий в себе информацию о 442 пациентах с диабетом. 

Доступ к датасетам из `sklearn` можно осуществлять через встроенные функции, скачивать внешние файлы не требуется. 

Загрузим датасет и прочитаем его описание:

In [None]:
diabetes = datasets.load_diabetes()
print(diabetes.DESCR)

Заметим, что это не оригинальный датасет, исходные признаки уже были обработаны:
```
Each of these 10 feature variables have been mean centered and scaled by
the standard deviation times the square root of `n_samples`
```

Для текущего задания нам это не подходит, в связи с чем скачаем исходные данные. Найти их можно, пройдя по ссылке, указанной в описание под графой `Source URL`. Однако, для удобства, ниже расположена ячейка, скачивающая файл через автоматически (можно через `wget`, но он не всегда работает из юпитера).

In [None]:
import requests # если библиотека отсутствует, установите через pip install

url = 'https://www4.stat.ncsu.edu/~boos/var.select/diabetes.tab.txt'

response = requests.get(url)
if response.status_code == 200:
    with open('diabetes.tab.txt', 'wb') as file:
        file.write(response.content)
    print("You downloaded diabetes :)")
else:
    print("Diabetes was NOT loaded, please do it manually")


In [57]:
# Укажите путь до файла тут
filepath = "diabetes.tab.txt"
df = pd.read_table(filepath)

Теперь мы можем приступать непосредственно к практике.

### [2] Блок 1. Смотрим и подправляем датасет.

Выведите первые и последние пять строчек датасета:

In [None]:
### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ твой код

Наблюдаем, что некоторые признаки имеют условное название `s#`. Переименуйте эти столбцы в соответсвии с выведенным выше описанием датасета (tc, ldl, ...)

In [70]:
### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ твой код

Выведите тип данных каждой колонки:

In [None]:
### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ твой код

Выведите информацию о датасете, используя `df.info()`. Убедитесь, что отсутствуют `NaN` значения. Посчитайте количество `NaN` значений вручную, используя функции `.isna()` и `.sum()`.

In [None]:
### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ твой код

В переменной `sex` указываются закодированные нотации для гендера: 1 и 2.\
В описании к датасету не указываются, какие гендеры под кем подразумеваются.\
Для условности, будем подразумевать, что 1 - female, 2 - male.

Давайте переименуем их соответствующим образом. В столбец `sex` замените значения `1` на `female`, `2` на `male`.

In [None]:
### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ твой код

### [2] Блок 2. Простые статистики.

Посчитайте количество мужчин и женщин в датасете.

In [None]:
### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ твой код

Дайте ответы на следующие вопросы:

* Сколько человек имеют BMI выше 30?

* Сколько мужчин имеют BMI выше 30?

* Посчитайте средний BMI для каждого пола, используя метод `groupby()`.

* Сколько женщин старше 60 имеют артериальное давление выше среднего а.д. всех женщин?



In [None]:
### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ твой код

### Блок 3. Построение графиков.

__[1]__ Отобразите на графике распределение BMI для мужчин и женщин отдельно. Пока что можно не импортировать `matplotlib`, если воспользоваться встроенным в `pandas` методом `hist`. Графики следует делать читабельными и опрятными: например, распределения BMI по гендерам будут накладываться друг на друга, поэтому сделайте их полупрозрачными (найдите в документации, какой параметр за это отвечает). Также добавьте легенду.

In [None]:
### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ твой код

Глядя на получившиеся распределения, можно ли утверждать, что между ними есть эмпирические различия? Если да, то какие? Как бы это можно было бы проверить статистически?

Ваш ответ:

__[1]__ Теперь, используя библиотеку `Matplotlib`, постройте `scatterplot`, отображающий зависимость артериального давления от BMI. На нём выделите тех людей, чей уровень глюкозы превышает медиану по датасету (например, отдельным цветом точек и/или жирным контуром).\
Не забудьте добавить:
* Легенду
* Название графика
* Подписи осей
* Сетку (grid)

In [None]:
### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ твой код

__[1]__ Используя метод `plt.subplots` постройте гистограммы для всех 10-ти признаков из датасета (таргетную колонку `Y` включать не нужно):

In [None]:
### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ твой код

Разбейте переменную `Age` на бины, например, с помощью `pd.cut`. Результатом должен стать новый категориальный признак (столбец в датафрейме), отражающий различные возрастные группы (например, 18-30, 31-40, 41-50, etc.). Убедитесь, что включили все возрасты (в новом столбце не должно быть NaN'ов).

In [None]:
# У вас должны быть как и список с границами бинов, так и названия для бинов
bins = ...
labels = ...
df['Age_Group'] = pd.cut(...)

__[1]__ Создайте `violinplot`, показывающее распределение уровня глюкозы для полученных выше возрастных групп. 

In [None]:
### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ твой код

Есть ли заметные отличия в полученных распределениях?

Ваш ответ:

### [2] Блок 4. Матрица корреляций.

Заполните пропуски и получите изображение матрицы корреляции.

Для этого:
* Посчитайте матрицу корреляций
* Создайте heatmap при помощи функции `plt.imshow()`
* Задайте отметки оси (ticks) и подписи к ним
* Добавьте значения корреляции в каждую ячейку

Если не понимаете, каким примерно должен получиться итоговым результат, пролистайте ниже до ячейки с вызовом функции из `seaborn`.


In [None]:
# Посчитайте матрицу корреляций
correlation_matrix = ...

# Создайте heatmap при помощи функции `plt.imshow()`
plt.figure(...) 
plt.imshow(...) 
plt.colorbar()

# Задайте отметки оси (ticks) и подписи к ним
# Для создания отметок осей воспользуйтесь np.arange
# Отметок столько же, сколько столбцов в датасете
ticks = np.arange(...)
# Задайте подписи на оси x. Для этого воспользуйтесь полученными выше отметками
plt.xticks(..., rotation=45, ha='right') # Подписи повернем на 45 градусов для читаемости
# Аналогично для оси y
plt.yticks(...)

# Добавьте значения корреляции в каждую ячейку
# Для этого нужно проитерироваться по всем ячейкам матрицы, что можно сделать двумя циклами
for i in range(...):
    for j in range(...):
        # Текст внутри ячейки - значение из матрицы корреляции
        text = f"{correlation_matrix.iloc[i, j]:.2f}"
        # Вставьте позицию текста и сам текст
        plt.text(..., ha='center', va='center', color='black')

plt.title("Матрица корреляций")
plt.tight_layout() 
plt.show()

Запустите ячейку ниже (предварительно установив `seaborn`, если требуется), и убедитесь, что результате выше всецелом соответствуют тому, что наблюдаете ниже (главное общая структура и значения, цвета/размер шрифта и подобное совпадать не обязаны)

In [None]:
import seaborn as sns

plt.figure(figsize=(10,8))
sns.heatmap(correlation_matrix, square=True, annot=True, linewidths=0.25)
plt.title("Матрица корреляций")
plt.show()

Определите, какие признаки имеют ощутимую корреляцию. Логично ли то, что вы наблюдаете, и почему?

Ваш ответ: