In [None]:
%pip install -q otter-grader

In [None]:
# Initialize Otter
import otter
grader = otter.Notebook()

# Домашнее задание 1. Разведочный анализ данных

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats

### Задание 1. Разведочный анализ данных

Цель задания — проверить, насколько уверенно вы владеете инструментами Pandas и Seaborn. Вам предстоит ответить на ряд вопросов по данным.

**1.1.** Откройте файл `data.csv` и запишите данные из него в переменную `data`. Определите количество строк и столбцов.

In [None]:
data = ...

shape = ...
print(f"{shape = }")

data.head()

**1.2.** Проверьте, есть ли в данных пропущенные значения, и при наличии удалите их.

In [None]:
missing_values_per_column = ...
missing_values_per_column

**1.3.** Найдите нормированное распределение значений в столбце `smoking`.

In [None]:
smoking_distribution = ...
smoking_distribution

**1.4.** Запишите в переменную `smokers_over_40` подвыборку данных с курящими людьми старше 40 лет (`>`).

In [None]:
smokers_over_40 = ...
smokers_over_40

**1.5.** Найдите 5 признаков, наиболее скоррелированных с признаком `Cholesterol`.

In [None]:
# fmt: off
cholesterol_top_correlated = ...
cholesterol_top_correlated
# fmt: on

Постройте тепловую карту корреляций по первым 10 признакам.

In [None]:
...

**1.6.** Постройте гистограмму распределения признака `Gtp` с разделением по признаку `smoking`.

In [None]:
...

Будем честны, гистограмма выглядит не очень. Постарайтесь исправить ситуацию.

In [None]:
...

**1.7.** Сгруппируйте данные по признаку `smoking` и определите:
- размер каждой группы (`group_size`)
- средний возраст людей в группе (`avg_age`)
- стандартное отклонение возраста в каждой группе (`std_age`).

Округлите дробные числа до одного знака после запятой.

_Points:_ 2

In [None]:
# fmt: off
grouped = ...
grouped
# fmt: on

In [None]:
grader.check("Task1")

### Задание 2. Feature engineering

Полезный навык при работе с данными — **умение создавать новые признаки на основе существующих** (иногда они оказываются даже более информативными, чем исходные).

Представим задачу: нужно предсказать, отменит ли клиент бронирование отеля. У нас есть два признака — дата бронирования и дата заезда. Оба, конечно, важны. Например, по дате заезда можно понять, приходится ли бронирование на туристический сезон.

А еще можно посчитать разность между ними, то есть количество дней до заезда. В исходных данных такого признака нет, но часто он может оказаться куда полезнее самих дат. Процесс генерации подобных признаков называется _feature engineering_. Давайте посмотрим, как это работает на практике.

В нашем датасете есть признаки `height(cm)` и `weight(kg)`. С их помощью можно рассчитать индекс массы тела (Body Mass Index, BMI):

$$
\text{BMI} = \frac{\text{weight (kg)}}{\text{height}^2\text{ (m)}}.
$$

In [None]:
data["BMI"] = ...

Работать с численным BMI тоже не всегда удобно. Давайте теперь разобьем его на категории: ниже 18.5 — `Underweight`, от 18.5 до 25 — `Healthy`, от 25 до 30 — `Overweight`, и выше 30 — `Obesity`.

**Подсказка:** используйте функцию `pd.cut(...)`.

In [None]:

data["BMI_category"] = ...


Теперь постройте `boxplot`, который покажет распределение признака `systolic` для разных категорий `BMI_category`.

In [None]:
...

Далее постройте `violinplot`, показывающий распределение признака `triglyceride` для разных категорий `BMI_category` с разделением по признаку `smoking`.

In [None]:
...

Сделайте выводы о том, как распределены изученные признаки у людей с различным индексом массы тела. Согласуются ли полученные наблюдения с ожиданиями?

_Points:_ 2

In [None]:
grader.check("Task2")

### Задание 3. Ковариация и корреляция

В рамках нашего курса от вас часто будет требоваться реализовать некоторый функционал без использования готовых решений. Лучший способ разобраться в том, как что-то устроено, — создать его с нуля. Начнем прямо сейчас: прежде чем считать ковариацию и корреляцию между признаками, вам нужно написать их на NumPy.

<span style="color:red">Предупреждение: использование `np.cov`, `np.corrcoef` и других подобных функций строго запрещено!</span>


Реализуйте функцию `cov`, которая рассчитывает ковариацию двух выборок $X=\{x_1,\ldots,x_n\}$ и $Y=\{y_1,\ldots,y_n\}$ по формуле

$$
\mathrm{cov}(X,Y)=\frac{1}{n-1}\sum_{i=1}^n (x_i-\bar x)(y_i-\bar y),
$$

где $\bar x$ и $\bar y$ — выборочные средние $X$ и $Y$ соответственно.

In [None]:
def cov(x1: np.ndarray, x2: np.ndarray) -> np.ndarray:
    assert x1.ndim == x2.ndim == 1
    assert x1.size == x2.size

    ...

Рассчитайте ковариацию между признаками `height(cm)` и `weight(kg)`.

In [None]:
cov_height_weight = ...
cov_height_weight

Теперь посмотрим на ковариацию признаков `height(cm)` и `waist(cm)`.

In [None]:
cov_height_waist = ...
cov_height_waist

Можем ли мы сравнить две ковариации между собой?

Напомним, что для расчета корреляции нам необходимо разделить ковариацию на стандартные отклонения величин:

$$
\mathrm{corr}(X,Y)=\frac{1}{n-1}\sum_{i=1}^n \frac{(x_i-\bar x)(y_i-\bar y)}{s_X s_Y}.
$$

Постарайтесь ответить на вопрос, зачем это необходимо. Какой масштаб имеет корреляция?

_Points:_ 2

In [None]:
def corr(x1: np.ndarray, x2: np.ndarray) -> np.ndarray:
    ...

In [None]:
corr_height_weight = ...
corr_height_weight

In [None]:
corr_height_waist = ...
corr_height_waist

In [None]:
grader.check("Task3")

### Задание 4. Критерий $ \chi^2 $

Ознакомьтесь с [документацией](https://pandas.pydata.org/docs/reference/api/pandas.crosstab.html) `pd.crosstab` и постройте таблицу сопряженности для признаков `dental caries` и `smoking`. На ее основе проведите χ²-тест независимости, чтобы проверить гипотезу о связи между курением и кариесом, и сделайте вывод по результатам проверки.

**Подсказка:** воспользуйтесь функцией `scipy.stats.chi2_contingency`.

In [None]:
observed = ...
observed

In [None]:
chi2_contingency_result = ...
chi2_contingency_result

Сделайте вывод о наличии или отсутствии взаимосвязи между признаками `dental caries` и `smoking` на основе результатов $\chi^2$-теста.

_Points:_ 2

In [None]:
# `True` или `False`
task_4_reject_h0 = ...

In [None]:
grader.check("Task4")

### Задание 5. t-критерий Стьюдента

В данном задании вам предстоит с помощью самописного t-теста проверить, отличается ли у курящих людей уровень гемоглобина.

Для начала постройте гистограммы распределения уровня гемоглобина в двух группах.

In [None]:
...

Мы помним, что согласно центральной предельной теореме (ЦПТ) выборочное среднее

$$
\bar{X} \;\to\; \mathcal{N}\!\left(\mu, \, \frac{\sigma^2}{n}\right),
$$

где $\mu$ — математическое ожидание исходного распределения, а $\sigma^2$ — его дисперсия.

Предположим, у нас есть две выборки $ A = \{a_1, a_2, \ldots, a_n\} $ и $ B = \{b_1, b_2, \ldots, b_m\} $. Мы хотим проверить, имеют ли их генеральные совокупности одинаковое среднее:

$$
H_0: \mu_A = \mu_B, \quad H_1: \mu_A \neq \mu_B.
$$

Для этого рассмотрим разность выборочных средних $ \bar{A} - \bar{B} $. Она имеет распределение, близкое к нормальному, с параметрами

$$
\mu_A - \mu_B, \quad \frac{\sigma_A^2}{n} + \frac{\sigma_B^2}{m}.
$$

Если $ H_0 $ верна, статистика должна иметь вид:

$$
t = \frac{\bar{A} - \bar{B}}{\sqrt{\tfrac{s_A^2}{n} + \tfrac{s_B^2}{m}}},
$$

где $s_A^2$ и $s_B^2$ — выборочные дисперсии.

In [None]:
# Создайте маску, где значение `True` соответствует людям, которые курят.
mask = ...

# Запишите в переменную `A` значения уровня гемоглобина для некурящих людей.
A = ...
n = ...

# Запишите в переменную `B` значения уровня гемоглобина для курящих людей.
B = ...
m = ...

Корень из дисперсии выборочного среднего часто называют стандартной ошибкой (Standard Error, SE) среднего, поэтому для удобства далее будем обозначать саму дисперсию как `sem_*_squared`.

In [None]:
sem_A_squared = ...
sem_B_squared = ...

Теперь мы готовы рассчитать статистику.

In [None]:
statistic = ...

Поскольку мы используем выборочные дисперсии для оценки дисперсий генеральной совокупности, для расчета вероятности получить такую статистику при верности $ H_0 $ (то есть для оценки $ p $-value) используем t-распределение Стьюдента.

Число степеней свободы оценим по формуле Уэлча–Саттертуэйта:

$$
\nu = 
\frac{\left(\tfrac{s_A^2}{n} + \tfrac{s_B^2}{m}\right)^2}{
\dfrac{\left(\tfrac{s_A^2}{n}\right)^2}{n-1} + \dfrac{\left(\tfrac{s_B^2}{m}\right)^2}{m-1}}.
$$

In [None]:
df = ...

Наконец, мы можем рассчитать $p$-value. Для этого воспользуйтесь функцией `stats.t.cdf(...)` из библиотеки SciPy и не забудьте, что мы проводим двусторонний тест.

In [None]:
pvalue = ...

In [None]:
print(f"{statistic = :.3f}, {pvalue = :.3f}, {df = :.3f}")

Теперь сравните результат работы своего теста с `scipy.stats.ttest_ind`.

In [None]:
ttest_int_result = ...
print(ttest_int_result)

Сделайте выводы о влиянии курения на уровень гемоглобина.


_Points:_ 2

In [None]:
# `True` или `False`
task_5_reject_H0 = ...

In [None]:
grader.check("Task5")

## Submission

Make sure you have run all cells in your notebook in order before running the cell below, so that all images/graphs appear in the output. The cell below will generate a zip file for you to submit. **Please save before exporting!**

In [None]:
# Save your notebook first, then run this cell to export your submission.
grader.export(pdf=False, run_tests=True)