# Математическая статистика

Статистику любят спрашивать на собеседованиях и она убедительно выглядит в отчетах.

Также используется "под капотом" многих моделей машинного обучения.

Напрямую со статистикой работают далеко не во всех задачах.

"Существуют три вида лжи: ложь, наглая ложь и статистика" - Марк Твен

In [44]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import scipy.special
import seaborn as sns

# Easy

In [45]:
df = pd.read_csv('train.csv', index_col=0)
df

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...
887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


# Выживаемость всех пассажиров (оценить среднее по isSurvived)

In [46]:
mean = df['Survived'].mean() * 100
std = 10 # Настоящее среднеквадратичное отклонение, но представим, что мы его посчитали из данных
alpha = 0.05
n = 891

mean, std, n, alpha

(38.38383838383838, 10, 891, 0.05)

In [47]:
from scipy.stats import norm

def get_confidence_interval(mean, std, n, alpha):
    h = norm.ppf(1 - alpha / 2) * std / np.sqrt(n)
    return mean - h, mean + h

confidence_interval = get_confidence_interval(mean, std, n, alpha)

confidence_interval

(37.72722574350209, 39.04045102417467)

# Выживаемость женщин

In [48]:
females = len(df.loc[(df['Sex'] == 'female')]) # общее количество женщин
females_surv = len(df.loc[((df['Sex'] == 'female') & (df['Survived'] == 1))]) # количетсво выживших женщин
mean = (females_surv / females) * 100
std = 10 # Настоящее среднеквадратичное отклонение, но представим, что мы его посчитали из данных
alpha = 0.05
n = len(df.loc[(df['Sex'] == 'female')]) # общее кол-во женщин
mean, std, n, alpha

(74.20382165605095, 10, 314, 0.05)

In [49]:
from scipy.stats import norm

def get_confidence_interval(mean, std, n, alpha):
    h = norm.ppf(1 - alpha / 2) * std / np.sqrt(n)
    return mean - h, mean + h

confidence_interval = get_confidence_interval(mean, std, n, alpha)

confidence_interval

(73.09774999070395, 75.30989332139795)

# Выживаемость c каютами 1ого класса

In [50]:
class1 = len(df.loc[(df['Pclass'] == 1)]) # общее количество людей из 1 класса
class1_surv = len(df.loc[((df['Pclass'] == 1) & (df['Survived'] == 1))])
mean = (class1_surv / class1) * 100
std = 10 # Настоящее среднеквадратичное отклонение, но представим, что мы его посчитали из данных
alpha = 0.05
n = 891
mean, std, n, alpha

(62.96296296296296, 10, 891, 0.05)

In [51]:
from scipy.stats import norm

def get_confidence_interval(mean, std, n, alpha):
    h = norm.ppf(1 - alpha / 2) * std / np.sqrt(n)
    return mean - h, mean + h

confidence_interval = get_confidence_interval(mean, std, n, alpha)

confidence_interval

(62.30635032262667, 63.61957560329925)

## Полезные ссылки
- [Первая часть статистики на stepic](https://stepik.org/course/76/)
- [Вторая часть статистики на stepic](https://stepik.org/course/524/)
- [Третья часть статистики на stepic](https://stepik.org/course/2152/syllabus)
- [Книга "Статистика и Котики"](http://info.levandovskiy.info/wp-content/uploads/2018/10/Statistika_i_kotiki.pdf)
- [Книга "Как лгать при помощи статистики"](https://baguzin.ru/wp/wp-content/uploads/2015/09/Дарелл-Хафф.-Как-лгать-при-помощи-статистики.pdf)

# Домашняя работа

Для задач Easy и Normal использовать данные Титаника

## Easy

Оценить с помощью доверительных интервалов:
- выживаемость всех пассажиров (оценить среднее по isSurvived)
- выживаемость женщин
- выживаемость людей с каютами первого класса

Ответить на вопросы:
- какой вариант оценки доверительных интервалов нужно использовать в данной задаче и почему?
- какая из ошибок более критична для данной задачи - I или II рода?

## Normal

- Проверить гипотезу о том, что женщины выживают чаще мужчин с уровнем значимости 0.05
- Проверить гипотезу о том, что дети выживают чаще, чем взрослые

## Hard

Одной из важнейших тем в статистике является множественная проверка гипотез. 

Если нужно много раз проверять гипотезы, то вероятность совершить ошибку первого рода будет расти с каждой новой гипотезой.

[Прочитать подробнее можно здесь](https://ru.wikipedia.org/wiki/%D0%9F%D0%BE%D0%BF%D1%80%D0%B0%D0%B2%D0%BA%D0%B0_%D0%BD%D0%B0_%D0%BC%D0%BD%D0%BE%D0%B6%D0%B5%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D1%83%D1%8E_%D0%BF%D1%80%D0%BE%D0%B2%D0%B5%D1%80%D0%BA%D1%83_%D0%B3%D0%B8%D0%BF%D0%BE%D1%82%D0%B5%D0%B7)

Задача:

Мы отобрали 1000 человек, которые заявляют, что они экстрасенсы. Мы хотим проверить это. Для этого проводится следующий эксперимент. Перед каждым участником выкладывают 10 карт рубашкой вверх и просят угадать цвет карты (красный или черный). На уровне значимости 0.01 мы хотим быть уверены, является ли человек экстрасенсом.

Нужно смоделировать ситуацию двумя способами (предполагаем, что экстрасенсов не существует и решения участников представляют из себя биномиальное распределение):

- без множественной проверки гипотез, выявить количество экстрасенсов
- с множественной проверкой гипотез, используя поправку Бонферрони (правило FWER)

Сколько экстрасенсов получилось поймать в каждом из случаев?
