# <a href="https://thetahat.ru/courses/ph-ds-2024-aut">Phystech@DataScience</a>
## Семинар 10 (Часть 2)

**Правила, <font color="red">прочитайте внимательно</font>:**

* Выполненную работу нужно отправить телеграм-боту `@miptstats_pds_bot`. Для начала работы с ботом каждый раз отправляйте `/start`. **Работы, присланные иным способом, не принимаются.**
* Дедлайн см. в боте. После дедлайна работы не принимаются кроме случаев наличия уважительной причины.
* Прислать нужно ноутбук в формате `ipynb`.
* Выполнять задание необходимо полностью самостоятельно. **При обнаружении списывания все участники списывания будут сдавать устный зачет.**
* Решения, размещенные на каких-либо интернет-ресурсах, не принимаются. Кроме того, публикация решения в открытом доступе может быть приравнена к предоставлении возможности списать.
* Для выполнения задания используйте этот ноутбук в качестве основы, ничего не удаляя из него. Можно добавлять необходимое количество ячеек.
* Комментарии к решению пишите в markdown-ячейках.
* Выполнение задания (ход решения, выводы и пр.) должно быть осуществлено на русском языке.
* Если код будет не понятен проверяющему, оценка может быть снижена.
* Никакой код из данного задания при проверке запускаться не будет. *Если код студента не выполнен, недописан и т.д., то он не оценивается.*
* **Код из рассказанных на занятиях ноутбуков можно использовать без ограничений.**

**Правила оформления теоретических задач:**

* Решения необходимо прислать одним из следующих способов:
  * фотографией в правильной ориентации, где все четко видно, а почерк разборчив,
    * отправив ее как файл боту вместе с ноутбуком *или*
    * вставив ее в ноутбук посредством `Edit -> Insert Image` (<font color="red">фото, вставленные ссылкой, не принимаются</font>);
  * в виде $\LaTeX$ в markdown-ячейках.
* Решения не проверяются, если какое-то требование не выполнено. Особенно внимательно все проверьте в случае выбора второго пункта (вставки фото в ноутбук). <font color="red"><b>Неправильно вставленные фотографии могут не передаться при отправке.</b></font> Для проверки попробуйте переместить `ipynb` в другую папку и открыть его там.
* В решениях поясняйте, чем вы пользуетесь, хотя бы кратко. Например, если пользуетесь независимостью, то достаточно подписи вида "*X и Y незав.*"
* Решение, в котором есть только ответ, и отсутствуют вычисления, оценивается в 0 баллов.


In [None]:
# Bot check

# HW_ID: phds_sem10
# Бот проверит этот ID и предупредит, если случайно сдать что-то не то.

# Status: final
# Перед отправкой в финальном решении удали "not" в строчке выше.
# Так бот проверит, что ты отправляешь финальную версию, а не промежуточную.
# Никакие значения в этой ячейке не влияют на факт сдачи работы.

In [None]:
import numpy as np
import pandas as pd
import scipy.stats as sps
from statsmodels.sandbox.stats.multicomp import multipletests
from copy import deepcopy

import matplotlib.pyplot as plt
%matplotlib inline

import seaborn as sns
sns.set(font_scale=1.3, palette='Set2')

## Реализации непараметрических критериев в Python

### Критерий Смирнова <font color="red">(независимые выборки)</font>

$X_1, ..., X_n$ и $Y_1, ..., Y_m$ &mdash; независимые выборки, имеющие непрерывные функции распределения $F$ и $G$ соответственно.

$\mathsf{H}_0\colon F = G$

$\mathsf{H}_1\colon F \not= G$

Альтернатива двусторонняя, б*о*льшие значения статистики являются более экстремальными.

<a href="https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ks_2samp.html#scipy.stats.ks_2samp">`ks_2samp`</a>`(data1, data2): statistic, pvalue`

* `data1`, `data2` &mdash; две выборки

---

Определим несколько вспомогательных функций для отрисовки графиков

In [None]:
def ecdf(sample):
    """
    Вычисляет точки по X и по Y для построения ЭФР по выборке sample.
    Учитываются как горизонтальные, так и вертикальные линии.
    """

    # дублируем выборку и добавляем значения слева и справа
    x = deepcopy(list(sample)*2 + [sample.min()-0.5, sample.max()+0.5])
    # каждое значение два раза
    y = deepcopy(list(np.linspace(0, 1, len(sample)+1)) * 2)

    return np.sort(x), np.sort(y)


def max_diff(x1, x2, y1, y2):
    """ Вычисляет, где достигается максимальная разница между двумя ЭФР. """

    # объединим наборы и отсортируем по иксу
    x_all, y_all = np.hstack([x1, x2]), np.hstack([y1, y2])
    order = np.argsort(x_all)
    x_all, y_all = x_all[order], y_all[order]

    # найдем индекс наибольшейарзницы по Y между соседними
    i = np.argmax(np.abs(y_all[1:] - y_all[:-1]))

    # точка наибольшей разности и значения  в ней
    return (x_all[i+1] + x_all[i]) / 2, y_all[i], y_all[i+1]

In [None]:
def apply_smirnov(distr1, distr2, size1=100, size2=100):
    """
    Генерирует выборки из заданных распределений,
    строит графики теоретических и эмпирических функций распределения,
    применяет критерий Смирнова.

    distr1, distr2 -- распределения для генерации выборок
    size1, size2 -- размеры выборок
    """

    # генерируем выборки
    sample_1 = distr1.rvs(size=size1)
    sample_2 = distr2.rvs(size=size2)

    # определяем границы графика
    x_min = min(distr1.ppf(0.01), distr2.ppf(0.01))
    x_max = max(distr1.ppf(0.99), distr2.ppf(0.99))
    grid = np.linspace(x_min, x_max, 200)

    plt.figure(figsize=(16, 5))

    # График истинных функций распределения
    plt.subplot(121)
    plt.plot(grid, distr1.cdf(grid), lw=3)
    plt.plot(grid, distr2.cdf(grid), lw=3)
    plt.title('CDF')

    # График эмпирических функций распределения
    plt.subplot(122)
    x1, y1 = ecdf(sample_1)
    plt.plot(x1, y1, lw=3)
    x2, y2 = ecdf(sample_2)
    plt.plot(x2, y2, lw=3)
    plt.vlines(*max_diff(x1, x2, y1, y2), color='gray')
    plt.title('ECDF')

    # Применяем критерий Смирнова
    print(sps.ks_2samp(sample_1, sample_2))

Сравним нормальные с разными средними

In [None]:
apply_smirnov(sps.norm(loc=0), sps.norm(loc=1))

Сравним нормальные с разными дисперсиями и разными размерами выборок

In [None]:
apply_smirnov(sps.norm(loc=0, scale=1), sps.norm(loc=0, scale=2),
              size1=30, size2=500)

Если увеличить размер выборки

In [None]:
apply_smirnov(sps.norm(loc=0, scale=1), sps.norm(loc=0, scale=2),
              size1=500, size2=500)

Маленькое отклонение при очень больших выборках

In [None]:
apply_smirnov(sps.norm, sps.norm(loc=0.02),
              size1=50000, size2=50000)

Сравним нормальное и Коши

In [None]:
apply_smirnov(sps.norm, sps.cauchy)

Сравним нормальное и Лапласса

In [None]:
apply_smirnov(sps.norm, sps.laplace)

### Критерий ранговых сумм Уилкоксона-Манна-Уитни <font color="red">(независимые выборки)</font>

$X_1, ..., X_n$ и $Y_1, ..., Y_m$ &mdash; независимые выборки, имеющие непрерывные функции распределения $F$ и $G$ соответственно.

------

* **"Критерий Уилкоксона"**

$\mathsf{H}_0\colon F = G$

$\mathsf{H}_1\colon \{F \leqslant G \text{ или } F \geqslant G\}$, причем это не значит, что $\mathsf{H}_1\colon F \not= G$.

Используется нормированная версия статистики $V = S_1 + ... + S_m$ &mdash; сумма рангов наблюдений $Y_j$ по объединенной выборке.

<a href="https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ranksums.html#scipy.stats.ranksums">`ranksums`</a>`(data1, data2): statistic, pvalue`

* `data1`, `data2` &mdash; две выборки.

------

* **"Критерий Манна-Уитни"**

$\mathsf{H}_0\colon F = G$

$\mathsf{H}_1\colon F \leqslant G$ или $\mathsf{H}_1\colon F \geqslant G$ или $\mathsf{H}_1\colon \{F \leqslant G \text{ или } F \geqslant G\}$

Используется статистика $U = \sum\limits_{i=1}^n \sum\limits_{j=1}^m I\{X_i < Y_j\}$, причем $U = V - \frac{m(m+1)}{2}$.

<a href="https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.mannwhitneyu.html#scipy.stats.mannwhitneyu">`mannwhitneyu`</a>`(data1, data2, use_continuity=True, alternative=None): statistic, pvalue`

* `data1`, `data2` &mdash; две выборки;

* `use_continuity` &mdash; использовать ли поправку 0.5 на непрерывность;
* `alternative='less'` &mdash; используется альтернатива $\mathsf{H}_1\colon F \leqslant G$;
* `alternative='greater'` &mdash; используется альтернатива $\mathsf{H}_1\colon F \geqslant G$;
* `alternative='two-sided'` &mdash; используется альтернатива $\mathsf{H}_1\colon \{F \leqslant G \text{ или } F \geqslant G\}$, причем эквивалентен `ranksums`.

---

Примеры

In [None]:
def print_tests(sample_1, sample_2):
    print(sps.ranksums(sample_1, sample_2))
    print('two-sided:', sps.mannwhitneyu(sample_1, sample_2, alternative='two-sided'))
    print('less:     ', sps.mannwhitneyu(sample_1, sample_2, alternative='less'))
    print('greater:  ', sps.mannwhitneyu(sample_1, sample_2, alternative='greater'))

In [None]:
print_tests(sps.norm.rvs(size=100), sps.norm.rvs(size=100))

In [None]:
print_tests(sps.norm.rvs(size=100), sps.norm(loc=1).rvs(size=100))

In [None]:
print_tests(sps.norm.rvs(size=100), sps.norm(loc=1, scale=10).rvs(size=100))

In [None]:
print_tests(sps.cauchy.rvs(size=100), sps.cauchy(loc=1).rvs(size=100))

### Критерий ранговых сумм Уилкоксона <font color="red">(парные выборки)</font>

$X_1, ..., X_n$ и $Y_1, ..., Y_n$ &mdash; связные выборки, имеющие непрерывные функции распределения $F$ и $G$ соответственно.

Предполагается, что $Z_i = Y_i - X_i = \theta + \varepsilon_i$, причем $\varepsilon_i$ независимы одинаково распределены, причем распределение непрерывное симметричное относительно нуля.

Проверяются гипотезы

$\mathsf{H}_0\colon \theta = 0$,

$\mathsf{H}_1\colon \theta \not= 0$.

<a href="https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.wilcoxon.html#scipy.stats.wilcoxon">`wilcoxon`</a>`(x, y=None, zero_method='wilcox'): statistic, pvalue`

* `x`, `y` &mdash; выборки. Если `y=None`, то в `x` разности;
* `zero_method='pratt'` &mdash; нулевые разности остаются (более консервативен);
* `zero_method='wilcox'` &mdash; нулевые разности выкивываются;
* `zero_method='zsplit'` &mdash; нулевые разности распределяются между положительными и отрицательными рангами.

---

Примеры:

In [None]:
sample_1 = sps.norm(loc=0).rvs(size=100)
sample_2 = sample_1 + sps.norm(loc=0, scale=0.5).rvs(size=100)
sps.wilcoxon(sample_1, sample_2)

In [None]:
sample_1 = sps.norm(loc=0).rvs(size=100)
sample_2 = sample_1 + sps.norm(loc=0.5, scale=0.5).rvs(size=100)
sps.wilcoxon(sample_1, sample_2)

In [None]:
sample_1 = sps.norm(loc=0).rvs(size=100)
sample_2 = sample_1 + sps.norm(loc=-0.5, scale=0.5).rvs(size=100)
sps.wilcoxon(sample_1, sample_2)

Времена реакции (Лагутин)

In [None]:
sample_1 = [176, 163, 152, 155, 156, 178, 160, 164, 169, 155, 122, 144]
sample_2 = [168, 215, 172, 200, 191, 197, 183, 174, 176, 155, 115, 163]
print('wilcox:', sps.wilcoxon(sample_1, sample_2))
print('pratt: ', sps.wilcoxon(sample_1, sample_2, zero_method='pratt'))
print('zsplit:', sps.wilcoxon(sample_1, sample_2, zero_method='zsplit'))

## Отток клиентов телекома

Загрузим <a href="https://github.com/Yorko/mlcourse_open/blob/master/data/telecom_churn.csv">данные</a> о клиентах оператора связи, которые содержат некоторую информацию тарифном плане клиента, статистику его использования услуг связи, а также его текущий статус `Churn` &mdash; ушел или нет.

In [None]:
telecom = pd.read_csv('./telecom_churn.csv')
telecom.head()

### Одинаково ли распределено количество минут днем?

In [None]:
plt.figure(figsize=(12, 5))
sns.kdeplot(telecom[telecom['Churn'] == False]['Total day minutes'],
            label='False', lw=3)
sns.kdeplot(telecom[telecom['Churn'] == True]['Total day minutes'],
            label='True', lw=3)
plt.legend(title='Churn')

plt.title('Ядерная оценка плотности при разных фиксированных значениях Churn')
plt.ylabel('Плотность')
plt.xlabel('Признак Total day minutes')

plt.show()

Проверьте гипотезу однородности.

Какой критерий вы бы выбрали? Какую альтернативу стоит использовать?

**Ответ:**

Churn здесь выступает как взаимоисключающий параметр. Мы считаем, что разные люди являются независимыми, поэтому можно применить тест Манна-Уитни. Для альтернативной гипотезы выберем двусторонний подход, поскольку в этом случае уверенности в выборе односторонней нет.

In [None]:
x = telecom[telecom['Churn'] == False]['Total day minutes']
y = telecom[telecom['Churn'] == True]['Total day minutes']

sps.mannwhitneyu(x, y, alternative='two-sided')

Для дальнейшего использования реализуем функцию оценки сдвига и функцию доверительного интервала оценки.

Учтите, что по сравнению с формулами для доверительного интервала, из индексов надо вычесть 1, поскольку используется нумерация с нуля.

In [None]:
def shift(x, y):
    '''Вычисление оценки параметра сдвига из критерия ранговых сумм Уилкоксона'''
    shift = np.median([y[j] - x[i] for i in range(len(x)) for j in range(len(y))])
    return shift

def confidence_interval(x, y, alpha=0.05):
    '''Вычисление границ доверительного интервала параметра сдвига из критерия ранговых сумм Уилкоксона'''
    W = np.sort(np.array([y[j] - x[i] for i in range(len(x)) for j in range(len(y))]))
    k_a = int(len(x) * len(y) / 2 - 1/2 - sps.norm.ppf(1 - alpha) * np.sqrt(len(x) * len(y)*(len(x) + len(y) + 1) / 12))
    left, right = W[k_a + 1], W[len(x) * len(y) - k_a]
    return left, right

Оценим сдвиг

In [None]:
shift(x.values, y.values)

Получите доверительный интервал величины сдвига.

In [None]:
confidence_interval(x.values, y.values)

### Одинаково ли распределено количество минут ночью?

In [None]:
plt.figure(figsize=(12, 5))
sns.kdeplot(telecom[telecom['Churn'] == False]['Total night minutes'],
            label='False', lw=3)
sns.kdeplot(telecom[telecom['Churn'] == True]['Total night minutes'],
            label='True', lw=3)
plt.xlabel('Признак Total day minutes')
plt.legend(title='Churn')

plt.title('Ядерная оценка плотности для разных значений Churn')
plt.ylabel('Плотность')

plt.show()

Проверьте с помощью критерия.

**Замечание:** Здесь распределение False, по-видимому, "меньше" распределения True, поэтому для альтернативной гипотезы выберем вариант "less".

In [None]:
x = telecom[telecom['Churn'] == False]['Total night minutes']
y = telecom[telecom['Churn'] == True]['Total night minutes']

sps.mannwhitneyu(x, y, alternative='less')

Получим оценку сдвига.

In [None]:
shift(x.values, y.values)

Получим доверительный интервал.

In [None]:
confidence_interval(x.values, y.values)

Что вы можете сказать о проверке критерием, об оценке сдвига и о её доверительном интервале?

**Ответ:**

Здесь p-value меньше 0.05, но не настолько мало, чтобы говорить с полной уверенностью. Сдвиг оказался незначительным, и левая граница доверительного интервала почти касается нуля.

В целом, можно сказать, что распределения различаются, но довольно неуверенно.

Распределения по графику похожи на нормальные, проверьте эту гипотезу. При прохождении критерия проверьте параметрическим критерием однородность выборок. Нужно ли использовать что-то ещё при проверке?

In [None]:
# Тест колмогорова - Смирнова

print(sps.kstest(x, 'norm'))
print(sps.kstest(y, 'norm'))

**Вывод:**

Не очень...

In [None]:
print(sps.shapiro(x))
print(sps.shapiro(y))

Хорошо.

Поверим Шапиро.

Проверим t-testом на равенство среднего.

In [None]:
sps.ttest_ind(x, y)

Похоже, мы можем отвергнуть гипотезу о равенстве средних значений...

Однако перед t-тестом мы проверяли каждую выборку на нормальность, и каждая из этих проверок имеет собственное p-value. Поэтому здесь необходимо внести поправку на p-value.

In [None]:
multipletests([0.673305869102478, 0.646812915802002, 0.040466484637911374], method='holm')

С учётом поправки на множественное тестирование, мы не можем отвергнуть нулевую гипотезу и утверждать, что распределения различаются.