# Модуль 8 - Статистика

## Урок 1 - Основные понятия статистики

### Лекция

In [None]:
# Меры центральной тенденции

In [None]:
# Мода (mode) – значение измеряемого признака, которое встречается максимально часто. Мод может быть несколько.
import pandas as pd
df.column_1.mode()  # pandas way
from scipy import stats
stats.mode(df.column_1)  # scipy way

In [None]:
# Медиана (median) – значение признака, которое делит упорядоченное множество данных пополам. Берем множество значений признака, сортируем и берем центральное значение.
import pandas as pd
df.column_1.median()  # pandas way
import numpy as np
np.median(df.column_1)  # numpy way

In [None]:
# Среднее (mean, среднее арифметическое) – сумма всех значений измеренного признака, деленная на количество измеренных значений.
import pandas as pd
df.column_1.mean()  # pandas way
import numpy as np
np.mean(df.column_1)  # numpy way

In [None]:
# Когда не стоит использовать среднее значение, а лучше брать моду или медиану:
явная ассиметрия
заметные выбросы
несколько мод

In [None]:
# Меры изменчивости

In [None]:
# Размах (range) – разность между максимальным и минимальным значением из распределения
import numpy as np
np.percentile(df.A, [0, 100])

In [None]:
# Дисперсия (variance) – средний квадрат отклонений индивидуальных значений признака от их средней величины.
import pandas as pd
df.A.var()  # pandas way
import numpy as np
np.var(df.A)  # numpy way

In [None]:
# Среднеквадратическое (стандартное) отклонение – квадратный корень из дисперсии.
# Показывает реальную среднюю разницу каждого значения и среднего в выборке. Дисперсия же отражает квадрат этой разницы.
import pandas as pd
df.A.std()  # pandas way
import numpy as np
np.std(df.A)  # numpy way

In [None]:
std(ddof=0)

In [None]:
# Квантили распределения

In [None]:
# Квантили распределения – значения признака, делящие распределение на некоторое число равных частей.

In [None]:
# Квартили – три точки (значения признака), которые делят упорядоченное множество данных на 4 равных части.

In [None]:
# quantile – метод для поиска определённых перцентилей. Принимает число от 0 до 1, обозначающее перцентиль в виде доли:
0 – 0-ой перцентиль
0.1 – 10-ый перцентиль
0.75 – 75-ый перцентиль (он же 3-ий квартиль)

import pandas as pd
df.quantile(q=0.75)

# Также в q можно передать список всех желаемых перцентилей
df.quantile(q=[0.5, 0.7])

In [None]:
# Боксплот (график)

In [None]:
# Межквартильный размах (IQR) – разница между Q1 и Q3. Чем больше межквартильный размах – тем шире "ящик".
Усы боксплота = 1.5∗IQR (полтора межквартильных расстояния).
Нижний (левый) ус - это Q1 − 1.5∗IQR
Верхний (правый) ус - это Q3 + 1.5∗IQR
Значения, лежащие за усами, обозначаются жирными точками.

In [None]:
import seaborn as sns
sns.boxplot(df.A)

plt.figure(figsize=(16,16))
sns.boxplot(x=x, y=y, data=data)
sns.boxplot(x='Genre', y='JP_Sales', data=Nintendo)

In [None]:
# Однако боксплот может редуцировать информацию из-за того, что распределение может бимодальным или полимодальным. 
# Поэтому лучше на боксплоте отражать ещё и наблюдения из выборки в виде точек.
import seaborn as sns
ax = sns.boxplot(df.A)
ax = sns.swarmplot(df.A)

In [None]:
# Использование библиотеки SciPy
import scipy

## Урок 2 - Проверка гипотез

### Лекция

In [None]:
# Нормальное распределение
Унимодально
Симметрично
Отклонения подчиняются закону

In [None]:
# Стандартизация
# Стандартизация (Z-преобразование) – преобразование, которое позволяет любую шкалу перевести в стандартную Z-шкалу (Z-scores), где среднее значение будет равно нулю, а стандартное отклонение – равняться 1.
# Форма распределения при этом не изменится.

# Таким образом, если мы из каждого наблюдения в нашей выборке отнимем среднее значение и разделим выражение на стандартное отклонение, то получим Z-шкалу, где новое среднее станет равно нулю, а дисперсия – единице.

from scipy.stats import zscore
zscore(df.A)

In [None]:
# Правило "двух" и "трех" сигм

In [None]:
# Пример: Среднее значение равняется 150, а стандартное отклонение равно 8. Какой процент наблюдений превосходит значение, равное 154?
# Для этого нужно сделать Z-преобразование. Как найти интересующее нас Z-значение? Из 154 нужно вычесть среднее значение по нашей выборке и разделить на стандартное отклонение (8). 
# В результате:
(154 - 150) / 8 = 0.5
Далее по Z таблице находим процент

In [None]:
# Z таблица
https://www.ztable.net/
# По вертикали находятся целые и десятичные доли z-значения
# По горизонтали — сотые доли
# Нужный процент находится на пересечении этих элементов z-значения. Например, если у нас получилось z-значение, равное 0.93, то нужный процент будет в строчке 0.9 и столбце 0.03 (.17619)
# Почему мы выбрали именно таблицу с отрицательным знаком, хотя значение положительное? 
# Это связано с тем, что мы ищем именно превосходящие значения. 
# Если бы вопрос стоял в формате "какой процент значений меньше 154", мы бы брали таблицу положительных значений.

In [None]:
# Центральная предельная теорема

In [None]:
# Стандартная ошибка среднего
# Стандартная ошибка среднего (SE) показывает, насколько выборочное среднее отличается от среднего генеральной совокупности. 
# SE при увеличении размера выборки будет стремиться к нулю.

# Если выборка репрезентативна и число наблюдений n ≥ 30, то в качестве стандартного отклонения ГС мы можем использовать стандартное отклонение нашей выборки

import pandas as pd
df.A.sem()

from scipy import stats
stats.sem(df.A)

## Урок 3 - Статистический вывод

### Лекция

In [None]:
# Как считать доверительный интервал в Python:
import numpy as np, scipy.stats as st
import statsmodels.stats.api as sms

a = range(100)

# первый способ
st.t.interval(0.95, len(a)-1, loc=np.mean(a), scale=st.sem(a))

# второй способ
sms.DescrStatsW(a).tconfint_mean()

### Пример

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
%matplotlib inline

In [None]:
# Задаём исходные данные
mu = 100  # среднее значение ГС
sigma = 10  # стандартное отклонение ГС

In [None]:
# Генерирует ГС случайных данных с заданными параметрами
population = np.random.normal(mu, sigma, 10000)  # 10000 - количество данных в ГС
print(population.mean(), population.std(), sep = '\n')  # population.std() - стандартное отклонение

In [None]:
# Как распределилось среднее в ГС
sns.displot(population, kde = True)
# Нормальное распределение

In [None]:
# Задача - оценить среднее значение из ГС, при условии, что мы его не знаем и не можем напрямую вычислить
# Делаем случайную выборку 30 элементов из ГС
sample_size = 30  # количество чисел в выборке
sample = np.random.choice(population, sample_size, False)  # Каждый раз новый набор. False - выборку делать БЕЗ повторений.
sample.mean()

In [None]:
# Оценить в каких диапазонах лежит среднее значение
# При проведении множества экспериментов будет НОРМАЛЬНОЕ распределение
sample_means = []  # список, куда будем добавлять средние значения из цикла
n = 10000 # количество выборок
for i in range(n):
    sample = np.random.choice(population, sample_size, False)
    sample_means.append(sample.mean())
# Из ГС взяли 1000 выборок по 30 чисел

In [None]:
# Как распределились средние значения в выборках
sns.displot(sample_means, kde = True)

In [None]:
# Сравнение средних из ГС и из нашего списка:
print(population.mean(), np.mean(sample_means), sep = '\n')

In [None]:
# Правило трёх сигм ~ 100% от всех значений
# Правило двух сигм ~ 95%  от всех значений  (1.96)

In [None]:
# SE (стандартная ошибка среднего) = сигма ГС / n**0.5 (n - размер выборки)
se = population.std() / sample_size**0.5
# Сравним методы вичисления
print(se, np.std(sample_means), sep='\n')

In [None]:
# Верхняя граница
population.mean() + 1.96 * se

103.67625925751572

In [None]:
# Нижняя граница
population.mean() - 1.96 * se

96.49367834679175

In [None]:
# То-есть в 95% в данном диапазоне будет лежать среднее ГС:
print((population.mean() - 1.96 * se), (population.mean() + 1.96 * se))

In [None]:
# Новая чать практики
# Мы не знаем среднее значение для ГС и стандартное отклонение

# Шаг 1. Создаём новую выборку
sample_real = np.random.choice(population, sample_size, False)
#sample_real.mean() # среднее выборки
#sample_real.std()  # стандартное отклонение выборки

# Шаг 2. Находим доверительные интервалы 95 и 99 %
# Изначально для определения SE необходимо знать стандартное отклонение ГС
# Так, как мы не знаем стандартное отклонение ГС, то ВЗАМЕН него используем стандартное отклонение нашей выборки
se = sample_real.std() / sample_size ** 0.5
# Теперь найдём границы доверительных интервалов
# Выборочное среднее + 1,96*se = верхняя граница для 95%
# Выборочное среднее - 1,96*se = нижняя граница для 95%
# Выборочное среднее + 2,58*se = верхняя граница для 99%
# Выборочное среднее - 2,58*se = нижняя граница для 99%
dov_inter_95_min = sample_real.mean() - 1.96 * se
dov_inter_95_max = sample_real.mean() + 1.96 * se
dov_inter_99_min = sample_real.mean() - 2.58 * se
dov_inter_99_max = sample_real.mean() + 2.58 * se

print('С уверенностью в 95% среднее значение из ГС будет лежать в этих границах:')
print(dov_inter_95_min)
print(dov_inter_95_max)
print('С уверенностью в 99% среднее значение из ГС будет лежать в этих границах:')
print(dov_inter_99_min)
print(dov_inter_99_max)

# Данный интервал представляет собой об-ласть, в которую попадает истинное значение доли в 95 % случаев.
# Другими словами, можно с 95 % надежностью сказать, что истинное значение частоты встречаемости признака в генеральной совокуп-ности будет находиться в пределах 95 % доверительного интервала.

### Проверочный алгоритм

In [None]:
import numpy as np
# Создали ГС из 100000 значений
mu = 153
sigma = 6
population = np.random.normal(mu, sigma, 100000)
population_mean = population.mean()

# Написал алгоритм, который будет проверять попало ли среднее значение ГС в диапазон доверительного интервала
spisok = []  # список, куда будем заносить результаты
sample_size = 30  # размер выборки
for i in range(1000):  # количество циклов
    sample = np.random.choice(population, sample_size, False)  # создали выборку случайную
    sample_mean = sample.mean()  # среднее выборки
    sample_std = sample.std()  # среднее отклонение выборки
    se = sample_std / sample_size ** 0.5  # стандартная ошибка среднего. ВЗАМЕН среднего отклонения ГС приняли среднее отклонение выборки
    int_min = sample_mean - 1.98 * se  # нижняя граница 95%
    int_max = sample_mean + 1.98 * se  # верхняя граница 95%
    if population_mean >= int_min and population_mean <= int_max:
        spisok.append(1)  # если попало в интревал - 1
    else:
        spisok.append(0)  # если не попало в интревал - 0
np.mean(spisok)  # сразу смотрим среднее значение

### Практика

In [None]:
# Рассчитайте 99% доверительный интервал для следующего примера:
sd = 5  # стандартное отклонение выборки
n = 100 # количество чисел в выборке
x_ = 10 # среднее значение выборки
# Решение
se = sd / n**0.5
int_min = x_ - 2.58 * se
int_max = x_ + 2.58 * se
print(int_min, int_max)

8.71 11.29


In [None]:
# Рассчитайте 95% доверительный интервал для следующего примера:
sd = 4  # стандартное отклонение выборки
n = 64 # количество чисел в выборке
x_ = 18.5 # среднее значение выборки
# Решение
se = sd / n**0.5
int_min = x_ - 1.96 * se
int_max = x_ + 1.96 * se
print(int_min, int_max)

17.52 19.48


In [None]:
# В среднем слушатели курса по введению в статистику набирают 115 баллов, однако, в 2015 году средний балл случайно выбранных 144 участников составил 118 со стандартным отклонением равным 9. 
# Рассчитайте p-уровень значимости для проверки нулевой гипотезы о том, что среднее значение баллов в 2015 году равняется 115.


## Урок 4 - Сравнение средних значений (Т-тест)

### Лекция

In [None]:
# Сравнение двух средних
from scipy import stats
stats.ttest_ind(a, b)

In [None]:
# Проверка на нормальность
# Обычно нормальность тестируют с помощью теста Шапиро-Уилка (scipy.stats.shapiro()), однако на больших выборках этот тест слишком рьяно находит отклонения от нормальности!
# Поэтому используйте функцию scipy.stats.normaltest() - она больше адаптирована к большим выборкам:

#работает примерно так
#берём данные нужной нам группы
данные = датафрейм.query("условие_отбирающее_нужную_группу").колонка
#и кладём в функцию
scipy.stats.normaltest(данные)

# H0 - Выборка подчиняется нормальному закону распределения
# H1 - Выборка не подчиняется нормальному распределению
# Установи уровень значимости \alpha=0,05.
Если значение p-value>alpha, тогда принимается гипотеза H0, в противном случае, т.е. если, p-value<alpha, тогда принимается гипотеза H1, т.е. что выборка не подчиняется нормальному закону.

In [None]:
# Также можете сделать это через пакет pingouin - вот этой функцией. Не забудьте выбрать правильный аргумент!
pingouin.normality(data=датафрейм, dv="колонка_с_нужной_переменной", 
                   group="колонка_с_группами", method="normaltest")

## Урок 5 - Сравнение средних значений (дисперсионный анализ)

### Лекция

In [None]:
# На практике количество групп часто превышает две, и с этой ситуацией t-критерий не справляется.
# Научимся проводить дисперсионный анализ, который применяется именно в таких случаях.

In [None]:
# Однофакторный дисперсионный анализ
from scipy import stats
stats.f_oneway(a, b, c) # a, b, c - переменные с данными трёх групп

Первое число — F-значение, второе - p-значение. 
Так как p-значение меньше 0.05 (Вероятность верности Н0 менее 5%), то мы отклоняем нулевую гипотезу и делаем вывод, что среднее хотя бы одной из групп ЗНАЧИМО отличается от средних в других группах.

In [None]:
# Другой вариант:
import statsmodels.formula.api as smf 
model = smf.ols(formula = "зависимая_переменная ~ независимая_переменная)", data = данные).fit() 
anova_lm(model)

Здесь p-value отмечено как PR(>F), остальное связано либо с суммами квадратов, либо со степенями свободы.

In [None]:
# Третий вариант:
import pingouin as pg
pg.anova(data=данные, dv="зависимая_переменная", between="независимая_переменная")

Важный новый элемент - размер эффекта. Он указывает, какой процент всей изменчивости в данных объясняется нашим экспериментальным воздействием.

In [None]:
# Ну и если группы не обладают равной дисперсией, то можно сделать дисперсионный анализ Уэлча:
pg.welch_anova(data=данные, dv="зависимая_переменная", between="независимая_переменная")

In [None]:
# Построение графиков
# Требования к графикам такие же, как и для t-критерия:
Указать название графика
Подписать оси
Указывать меру изменчивости данных (напр. доверительные интервалы, либо сразу использовать боксплот/скрипку)

In [None]:
sns.boxplot(x = 'dose', y = 'len', data = teeth)
plt.title('Длина зубов морской свинки в зависимости от дозы')
plt.xlabel('Доза препарата')
plt.ylabel('Длина зубов')

In [None]:
sns.violinplot(x = 'dose', y = 'len', data = teeth)
plt.title('Длина зубов морской свинки в зависимости от дозы')
plt.xlabel('Доза препарата')
plt.ylabel('Длина зубов')

In [None]:
sns.pointplot(x = 'dose', y = 'len', data = teeth, capsize = .2)
plt.title('Длина зубов морской свинки в зависимости от дозы')
plt.xlabel('Доза препарата')
plt.ylabel('Длина зубов')

In [None]:
# Построение графиков

In [None]:
# Боксплот
sns.boxplot(x="button", y="likes", data=post_likes, palette=["r", "g", "b"])
#palette=["r", "g", "b"] - задаёт цвета

In [None]:
# Cкрипичный график
sns.violinplot(x="button", y="likes", data=post_likes, palette=["r", "g", "b"])
# Показывает форму распределения

In [None]:
# Три способа посчитать однофакторный ANOVA:

In [None]:
# через scipy

# 3 группы данных. Нарезали на куски
red = post_likes.query("button == 'red'").likes
green = post_likes.query("button == 'green'").likes
blue = post_likes.query("button == 'blue'").likes

import scipy.stats as ss
ss.f_oneway(red, green, blue)
# F_onewayResult(statistic=85.99631112614011, pvalue=3.4370045810218544e-30)
# 85.9 - F-statistick
# 3.43e-30 - p value

# Межгрупповая дисперсия в 86 раз больше, чем внтутригрупповая
# p-value меньше 0.05 - Гипотеза 0 не подтвердилась. Разница между группами есть!

In [None]:
# Через statsmodels
import scipy.stats as ss
import statsmodels.api as sm
model = smf.ols(formula = "likes ~ C(button)", data = post_likes).fit()
anova_lm(model)
# "likes ~ C(button)"  # likes - данные, по которым будем смотреть похожесть. button - колонка из которой разделение берём
# df - степень свободы
# F статистика
# PR(>F) - p-value

In [None]:
# Через pingouin
import pingouin as pg
pg.anova(data=post_likes, dv="likes", between="button")

In [None]:
#средние с доверительными интервалами
import matplotlib.pyplot as plt
import seaborn as sns
sns.pointplot(x="button", y="likes", data=post_likes)

In [None]:
# Тестируем нормальность:

In [None]:
#через scipy

# Плохо реагирует на выборки большого размера
import scipy.stats as ss
print(ss.shapiro(red))
# pvalue>0.05 - распределение данных от нормальности не отличается

In [None]:
#другой вариант
import scipy.stats as ss
print(ss.normaltest(red))

In [None]:
#через pingouin

pg.normality(data=post_likes, dv="likes", group="button", method="normaltest")

In [None]:
# Через qqplot
import statsmodels.api as sm
sm.qqplot(blue, line="r")
# Точки должны лежать на одной линии

In [None]:
# Через qqplot pg
import pingouin as pg
pg.qqplot(blue)

In [None]:
# Тестируем различие в дисперсиях:

In [None]:
# Проверить гомогенность дисперсии при помощи теста Левена
ss.levene(red, green, blue)

In [None]:
#через pingouin
pg.homoscedasticity(data=post_likes, dv="likes", group="button")
# equal_var = False - дисперсии во всех группах разные
# В таком случае делать поправку через коэффициент Уэлча

In [None]:
# anova Уэлча в pingouin
# Поправка на различия дисперсий
pg.welch_anova(data=post_likes, dv="likes", between="button")

In [None]:
# Критерий Тьюки

In [None]:
# Критерий Тьюки в Python:
from statsmodels.stats.multicomp import (pairwise_tukeyhsd,
                                         MultiComparison)

print(pairwise_tukeyhsd(столбец_с_данными, столбец_с_обозначениями_групп))

# или

MultiComp = MultiComparison(столбец_с_данными, столбец_с_обозначениями_групп)

print(MultiComp.tukeyhsd().summary())

group1 и group2 — названия групп, которые сравниваются в рамках теста
meandiff — разница между значением 2 группы и значением 1 группы
p-adj — скорректированный порог значимости
lower и upper — нижняя и верхняя границы доверительного интервала различий в средних
reject — отвергается нулевая гипотеза или нет

In [None]:
# Похожий результат будет, если мы используем функцию из pingouin:
pg.pairwise_tukey(data=данные, dv="зависимая_переменная", between="независимая_переменная")


In [None]:
# Если наши группы имеют разную дисперсию, то применяется критерий Геймса-Хоувелла:
pg.pairwise_gameshowell(data=данные, dv="зависимая_переменная", between="независимая_переменная")


In [None]:
# Множественные сравнения

In [None]:
# Найти количество комбинаций
# биномиальный коэффициент
from scipy.special import comb
comb(10, 2)

In [None]:
# p-value ошибки 1 рода
# чем больше комбинаций, тем больше вероятность
1 - 0.95**45

In [None]:
#попарные сравнения без поправки
pg.pairwise_ttests(data=post_likes, dv="likes", between="button")

In [None]:
#с поправкой Бонферрони
pg.pairwise_ttests(data=post_likes, dv="likes", between="button", padjust="bonf")

In [None]:
#с поправкой Холма - Бонферрони
pg.pairwise_ttests(data=post_likes, dv="likes", between="button", padjust="holm")

In [None]:
#тьюки

pg.pairwise_tukey(data=post_likes, dv="likes", between="button")

In [None]:
#геймс-хоувелл

pg.pairwise_gameshowell(data=post_likes, dv="likes", between="button")

## Урок 6 - Корреляция и регрессия

### Лекция

In [None]:
# Корреляция не применяется в лоб!

In [None]:
# Матрица корреляций
df.corr()

In [None]:
Классификация коэффициентов корреляции по силе.
сильная	r > 0,70
средняя	0,50 < r < 0,69
умеренная	0,30 < r < 0,49
слабая	0,20 < r < 0,29
очень слабая	r < 0,19

In [None]:
Классификация коэффициентов корреляции по значимости.
Высокозначимая корреляция	r соответствует уровню статистической значимости p ≤ 0,01
Значимая корреляция	r соответствует уровню статистической значимости p ≤ 0,05
Незначимая корреляция	r не достигает уровня статистической значимости p>0,1

In [None]:
# Помимо сравнения двух и более групп хорошего аналитика часто интересуют взаимосвязи между двумя величинами — их значимость и сила.
# Для этих целей научимся пользоваться корреляционным и регрессионным анализом.

In [None]:
# Понятие корреляции
# Коэффициент корреляции в своём статистическом смысле обозначает силу и характер взаимосвязи между двумя количественными переменными.
# Взаимосвязь может быть положительной (когда одна переменная растёт, другая тоже растёт), либо отрицательной (когда одна переменная растёт, другая уменьшается), либо отсутствовать.

In [None]:
# Проверка гипотез
# H 0 – коэффициент корреляции равен нулю
# H_1H 1– коэффициент корреляции не равен нулю
#Значимость рассчитывается с использованием t-распределения с количеством степеней свободы df = N - 2

In [None]:
# Условия применения:

Связь линейна и монотонна (нарастает или убывает в одном направлении, не меняя его)
Отсутствуют выбросы
Переменные нормально распределены

# В случае нарушения этих допущений могут быть полезны коэффициенты корреляции Спирмена и Кэндалла, которые вместо реальных значений анализируют их ранги. 

In [None]:
import numpy as np
import scipy.stats as st
import pandas as pd

# через numpy (только Пирсона, без p-значений)
np.corrcoef(x, y)  # y опционален, можно дать массив с несколькими колонками, функция строит матрицу корреляций

# через scipy (даёт значение коэффициента корреляции и p-значение)
st.pearsonr(x, y) 
st.spearmanr(x, y)
st.kendalltau(x, y) 

# через pandas (сравнение pandas Series)
df.corr()
df.corr(method='spearman')
df.corr(method='kendall')

In [None]:
# Функцию np.corrcoef() имеет смысл использовать только в том случае, если у вас несколько переменных и вы хотите увидеть попарные корреляции каждой из них.
# На выходе тогда будет корреляционная матрица, по левой диагонали которой будут единицы (так как там переменная коррелируется сама с собой):

In [None]:
# Как визуализировать корреляцию
# График корреляции называется диаграммой рассеяния (scatterplot). В Python его можно нарисовать следующим образом:
sns.set(style='whitegrid', rc={'figure.figsize' : (10,5)}) 

sns.scatterplot(x = 'sepal_length', y = 'sepal_width', data = iris)
plt.title('Взаимосвязь измерений чашелистников ирисов')
plt.xlabel('Длина чашелистника')
plt.ylabel('Ширина чашелистника')

In [None]:
# Регрессия с одной независимой переменной


In [None]:
# Условия применения
Связь линейна и монотонна 
Остатки распределены нормальным образом
Нет выбросов 
Дисперсия ЗП однородна на всех уровнях НП (гомоскедастичность)

In [None]:
from scipy import stats
import statsmodels.api as sm

# через scipy (только одномерная)
stats.linregress(x, y)

# через statsmodels (один из вариантов)
# Y = одномерный массив с ЗП, X - массив с НП

X = sm.add_constant(X)  # добавить константу, чтобы был свободный член
model = sm.OLS(Y, X)  # говорим модели, что у нас ЗП, а что НП
results = model.fit()  # строим регрессионную прямую
print(results.summary())  # смотрим результат

In [None]:
Нас в первую очередь интересует та часть вывода, которая обведена:

const – это свободный член (b_0, в других моделях может выглядеть как Intercept
Ниже располагается НП
Значения, связанные с b_0 интерпретировать не нужно, нас интересует именно угол наклона
coef – значение коэффициента, отрицательные значения означают отрицательную взаимосвязь, положительные - положительную
std err – стандартная ошибка
t – t-критерий
P > |t| – p-значение
Последним идёт 95%-ый доверительный интервал
Для интерпретации результатов достаточно coef и P > |t|.

In [None]:
# Как визуализировать регрессию
# График фактически идентичен тому, который строится при обычной корреляции, но в случае линейной регрессии принято ещё рисовать соответствующую прямую.
sns.set(style='whitegrid', rc={'figure.figsize' : (10,5)}) 
sns.regplot(x = 'sepal_length', y = 'sepal_width', data = iris)
plt.title('Взаимосвязь измерений чашелистников ирисов')
plt.xlabel('Длина чашелистника')
plt.ylabel('Ширина чашелистника')

In [None]:
# Посмотрели графику
sns.scatterplot(x = 'sepal_length', y = 'sepal_width', data = iris)
# Посмотрели точное значение корреляции
np.corrcoef(x, y)
# Посмотрели разные корреляции со знаением p-value
# Если p-value меньше 0.05 - корреляция статически значимая!

# Смотреть обоими тестами!

# Парамеетрический тест
st.pearsonr(x, y) 

# НЕпарамеетрический тест
st.spearmanr(x, y)

## Урок 7 - Множественный регрессионный анализ

### Лекция

In [None]:
# В работе аналитика часто возникает задача предсказания значения зависимой переменной по значениям сразу нескольких независимых. 
# Для этого научимся проводить множественный регрессионный анализ, а также затронем тему логистической регрессии и кластерного анализа.

In [None]:
# Предсказание значений

In [None]:
# на примере statsmodels
# X - массив со значениями НП, model - построенная регрессионная модель

model.predict(X)

In [None]:
# Регрессия в Python

In [None]:
import statsmodels.api as sm
import statsmodels.formula.api as smf 

# способ первый
# Y = одномерный массив с ЗП, X - массив со всеми нужными нам НП

X = sm.add_constant(X)  # добавить константу, чтобы был свободный член
model = sm.OLS(Y, X)  # говорим модели, что у нас ЗП, а что НП
results = model.fit()  # строим регрессионную прямую
print(results.summary())  # смотрим результат

# способ второй, потенциально более удобный

results = smf.ols('Y ~ X1 + X2 + ... + Xn', data).fit()
print(results.summary())

In [None]:
Важный момент в интерпретации результатов: каждый из коэффициентов угла наклона показывает  взаимосвязь между НП и ЗП, если бы уровень остальных НП был бы нулевой. 
Это же иногда называют статистическим контролем: включая в модель несколько НП, мы можем раздельно оценить эффект каждой из них.

In [None]:
# Как нарисовать

In [None]:
Визуализация результатов множественной регрессии обычно крайне затруднительна ввиду большого потенциального числа переменных (максимум, что мы можем нарисовать — это три измерения). 
Но корреляции между всеми переменными датасета (вместе с их распределениями) можно нарисовать, например, вот так:

In [None]:
import seaborn as sns
sns.pairplot(data, kind = 'reg')

In [None]:
Впрочем, если какие-то из НП имеют номинативный характер, то их можно изобразить и на двумерном графике. 
Например, раскрасив данные по группам с помощью аргумента hue, встречающегося в некоторых функциях Seaborn:

In [None]:
g = sns.lmplot(x = 'sepal_length', y = 'sepal_width', data = iris, hue = 'species')
g._legend.set_title('Виды ирисов')
plt.title('Взаимосвязь измерений чашелистников ирисов')
plt.xlabel('Длина чашелистника')
plt.ylabel('Ширина чашелистника')

In [None]:
# Логистическая регрессия

In [None]:
import statsmodels.api as sm
import statsmodels.formula.api as smf 

# способ первый
# Y = одномерный массив с ЗП, X - массив со всеми нужными нам НП

X = sm.add_constant(X)  # добавить константу, чтобы был свободный член
model = sm.Logit(Y, X)  # говорим модели, что у нас ЗП, а что НП
results = model.fit()  # строим регрессионную прямую
print(results.summary())  # смотрим результат

# способ второй, потенциально более удобный
results = smf.logit('Y ~ X1 + X2 + ... + Xn', data).fit()
print(results.summary())

In [None]:
# Мультиномиальную логистическую регрессию:

In [None]:
import statsmodels.api as sm
import statsmodels.formula.api as smf 

# способ первый
# Y = одномерный массив с ЗП, X - массив со всеми нужными нам НП

X = sm.add_constant(X)  # добавить константу, чтобы был свободный член
model = sm.MNLogit(Y, X)  # говорим модели, что у нас ЗП, а что НП
results = model.fit()  # строим регрессионную прямую
print(results.summary())  # смотрим результат

# способ второй, потенциально более удобный
results = smf.mnlogit('Y ~ X1 + X2 + ... + Xn', data).fit()
print(results.summary())

In [None]:
# Кластеризация

In [None]:
from sklearn.cluster import AgglomerativeClustering
clustering = AgglomerativeClustering().fit(X)

In [None]:
# One-Hot Encoding
# линейная регрессия в python не справляется с категориальными переменными (типом object в pandas), поэтому давайте применим функцию под названием pd.get_dummies().
# Она создаёт т.н. фиктивные переменные на основе изначальных категорий, представленные в виде 0 и 1.
df_dummy = pd.get_dummies(data=cars[[список_столбцов_типа_object]], drop_first = True)
# object - unit8