## Урок 6

### Взаимосвязь величин. Параметрические и непараметрические показатели корреляции.  Корреляционный анализ

__Корреляция__ — математический показатель, по которому можно судить, есть ли статистическая взаимосвязь между двумя и более случайными величинами.

__Коэффициент корреляции__ принимает значения из отрезка $[-1, 1]$.

Если коэффициент корреляции близок к 1, то между величинами наблюдается прямая связь: увеличение одной величины сопровождается  увеличением другой, а уменьшение одной — уменьшением другой.

Если же коэффициент корреляции близок к -1, то между величинами есть обратная корреляционная связь: увеличение одной величины сопровождается  уменьшением другой и наоборот.

Коэффициент корреляции, равный 0, говорит о том, что между величинами нет связи, то есть величины изменяются независимо друг от друга.

__Пример 1__

Посчитаем корреляцию роста с весом хоккеистов из рассмотренного ранее датасета. Это можно сделать с помощью метода `.corr`, который есть у объектов `DataFrame`.

In [1]:
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt

In [2]:
df = pd.read_csv('hockey_players.csv', encoding='cp1251', parse_dates=['birth'])
df = df.drop_duplicates(['name', 'birth'])

In [3]:
df[['height', 'weight']].corr()

Unnamed: 0,height,weight
height,1.0,0.693731
weight,0.693731,1.0


В результате получается матрица корреляций. Мы видим, что корреляция роста и веса достаточно высока. Можно сделать вывод, что, как правило, чем выше рост хоккеиста, тем больше его вес.

Рассмотрим также корреляцию этих признаков с возрастом хоккеистов:

In [4]:
df[['height', 'weight', 'age']].corr()

Unnamed: 0,height,weight,age
height,1.0,0.693731,-0.077862
weight,0.693731,1.0,0.090665
age,-0.077862,0.090665,1.0


Видно, что корреляция возраста достаточно низка как с ростом, так и с весом спортсменов.

### Взаимосвязь величин

Если две величины коррелируют, это может свидетельствовать о наличии _статистической связи_ между ними. Однако, говорить о ней мы можем только для величин из одной выборки. Корреляция величин в одной выборке не гарантирует того, что подобная связь встретится и в другой выборке и должна будет иметь такую же природу. 

Высокая корреляция между величинами не может быть интерпретирована как наличие причинно-следственной связи между ними.

Например, если рассмотреть данные о пожарах в городе, можно увидеть, что между материальными потерями, вызванными пожаром, и количеством пожарных, которые принимали участие в его тушении, есть сильная корреляция. При этом ложным будет вывод о том, что большое количество пожарных, присутствующих на пожаре, приводит к увеличению ущерба от него. 

Высокая корреляция двух величин может свидетельствовать о том, что у них есть _общая причина_, несмотря на то, что прямого взаимодействия между двумя коррелирующими величинами нет. 

Например, наступление зимы может быть причиной и  роста заболеваемости простудой, и повышения расходов на отопление. Эти две величины (число заболевших и расходы на отопление) имеют высокую корреляцию между собой, хотя они друг на друга напрямую не влияют.

Напротив, отсутствие корреляции между двумя величинами еще не говорит о том, что между показателями нет связи. 
Вполне возможно, что между признаками есть нелинейная зависимость, которую не может уловить коэффициент корреляции.

__Пример 2__

Посчитаем корреляцию между ростом и BMI (_Body Mass Index_, т.е. _Индекс массы тела_). BMI равен весу, разделённому на квадрат роста.

$$BMI = \dfrac{weight}{height^2}.$$

In [9]:
df[['height', 'weight', 'bmi']].corr()

Unnamed: 0,height,weight,bmi
height,1.0,0.693731,-0.067106
weight,0.693731,1.0,0.670663
bmi,-0.067106,0.670663,1.0


Как мы видим, коэффициент корреляции не улавливает зависимость между ростом и BMI, поскольку зависимость между ними не линейная, а квадратичная.

### Показатели корреляции

__Ковариация__ — мера линейной зависимости случайных величин. Её формула похожа на формулу дисперсии (variance). 

Формула ковариации случайных величин $X$ и $Y$:

$$\operatorname{cov}(X, Y) = M\left( (X - M(X)) (Y - M(Y)) \right).$$

Эту формулу можно раскрыть и упростить до

$$\operatorname{cov}(X, Y) = M(XY) - M(X) \: M(Y).$$

__Пример 3__

Посчитаем ковариацию между ростом и весом хоккеистов. Для начала сделаем это "в лоб" с помощью первой формулы.

In [10]:
X = df['height']
Y = df['weight']

MX = X.mean()
MY = Y.mean()

cov = ((X - MX) * (Y - MY)).mean()
cov

26.70753599210207

То же самое с помощью второй формулы:

In [11]:
cov = (X * Y).mean() - MX * MY
cov

26.70753599210002

Значения почти совпадают, хотя, не совсем. Это обусловлено тем, что приведённые выше формулы задают одну и ту же _характеристику случайной величины_, однако, в случае выборочного оценивания не совсем равны.

Наконец, посчитаем ковариацию с помощью готовой функции `numpy.cov`:

In [14]:
X.var()

29.894963668771

In [15]:
Y.var()

49.60799565913306

In [13]:
cov = np.cov(X, Y)
cov

array([[29.89496367, 26.71564639],
       [26.71564639, 49.60799566]])

Эта функция возвращает не значение ковариации, а т.н. __матрицу ковариаций__. В ней по диагонали стоят вариации (т.е. дисперсии) каждой из выборок, а вне диагонали - попарные ковариации.

Отметим, что значение ковариации массивов `X` и `Y` теперь уже заметно отличаются от посчитанных выше. Это связано с тем, что, как и для дисперсии и среднего квадратического отклонения, оценка ковариации, следующая из формул выше, является смещённой. Несмещённую оценку можно посчитать с помощью первой формулы, если в знаменатель подставить не `n`, а `n - 1`. 

Вторая формула для вычисления несмещённой оценки ковариации так просто не модифицируется.

In [16]:
cov = ((X - MX) * (Y - MY)).sum() / (X.shape[0] - 1)
cov

26.715646388698516

Значение ковариации случайных величин сильно зависит от уровня разброса каждой из величин. Например, если в предыдущем примере домножить одну из выборок на какую-то константу, коэффициент ковариации также увеличится:

In [17]:
np.cov(X * 10, Y)

array([[2989.49636688,  267.15646389],
       [ 267.15646389,   49.60799566]])

Поэтому в качестве числовой характеристики зависимости случайных величин лучше использовать __коэффициент корреляции Пирсона__:

$$r_{XY} = \dfrac{\operatorname{cov}(X, Y)}{\sigma_X \cdot \sigma_Y}.$$

Здесь $\sigma_X$, $\sigma_Y$ — среднее квадратическое отклонение. Этот коэффициент и используется по умолчанию в методе `.corr`, который мы использовали ранее.

__Пример 4__

Посчитаем коэффициент корреляции для выборок из предыдущего примера. Для вычисления средних квадратических отклонений воспользуемся методом `.std`, который по умолчанию вычисляет несмещённую оценку.

In [21]:
corr = cov / (X.std() * Y.std())
corr

0.6937305679663021

Коэффициент корреляции Пирсона считается по умолчанию с помощью метода `.corr` объектов `pandas.DataFrame`, с помощью которого мы вычисляли корреляцию ранее:

In [22]:
df[['height', 'weight']].corr()

Unnamed: 0,height,weight
height,1.0,0.693731
weight,0.693731,1.0


In [24]:
help(pd.DataFrame.corr)

Help on function corr in module pandas.core.frame:

corr(self, method='pearson', min_periods=1)
    Compute pairwise correlation of columns, excluding NA/null values.
    
    Parameters
    ----------
    method : {'pearson', 'kendall', 'spearman'} or callable
        * pearson : standard correlation coefficient
        * kendall : Kendall Tau correlation coefficient
        * spearman : Spearman rank correlation
        * callable: callable with input two 1d ndarrays
            and returning a float
            .. versionadded:: 0.24.0
    
    min_periods : int, optional
        Minimum number of observations required per pair of columns
        to have a valid result. Currently only available for pearson
        and spearman correlation
    
    Returns
    -------
    y : DataFrame
    
    See Also
    --------
    DataFrame.corrwith
    Series.corr
    
    Examples
    --------
    >>> histogram_intersection = lambda a, b: np.minimum(a, b
    ... ).sum().round(decimals=1)
    

Ту же самую матрицу корреляций можно получить с помощью функции `numpy.corrcoef`.

In [23]:
np.corrcoef(X, Y)

array([[1.        , 0.69373057],
       [0.69373057, 1.        ]])

### Корреляционный анализ

__Корреляционный анализ__ — метод обработки статистических данных, с помощью которого измеряется теснота связи между двумя или более переменными.

Плюсы:
* Прост в интерпретации

Минусы:
* Опасность неверно интерпретировать взаимосвязь величин
* Находит лишь линейную взаимосвязь

## Упражнения

__Задача 1__

Даны значения величины заработной платы заемщиков банка (`salary`) и значения их поведенческого кредитного скоринга (`scoring`):
```
salary = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110]
scoring = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]
```
1. Найдите ковариацию этих двух величин: сначала без использования специальных функций, а затем с помощью функции `numpy.cov`. Полученные значения должны быть равны.
2. Найдите коэффициент корреляции Пирсона: с помощью ковариации и средних квадратических отклонений двух признаков, а затем с помощью специальных функций из библиотек `numpy` и `pandas`.

__Задача 2__

Измерены значения IQ выборки студентов, обучающихся в местных технических вузах:
```
131, 125, 115, 122, 131, 115, 107, 99, 125, 111
```
Известно, что в генеральной совокупности IQ распределен нормально. Найдите доверительный интервал для математического ожидания с надежностью 0.95.

__Задача 3__

Известно, что рост футболистов в сборной распределен нормально с известной дисперсией 25. На выборке объёма 27 выборочное среднее составило 174.2. Найдите доверительный интервал для математического ожидания с надежностью 0.95.

__Задача 4__

Выберите тему для проектной работы по курсу Теории вероятностей и математической статистики и напишите ее в комментарии к Практическому заданию.

### Проектная работа

* Для себя (для портфолио)
* Темы:
    1. Описательная статистика
    2. Предиктивная аналитика
* Данные: можно взять imdb.com. Можно взять:
    1. С kaggle
    2. Из bigquery
* Сроки: 1 неделя после 8 занятия

Примеры тем:
* Проверить гипотезу: Комедийные фильмы, снятые до 1990 года, в среднем имеют более высокую оценку, чем комедийные фильмы снятые позже.
* Статистическое сопоставление цены биткоина с курсами фиатных активов (USD,EUR,RUR), ценами на нефть, драг металлы или с ценами других криптовалют по отношению к биткоину. (Это не по imdb, но это допускается, если хотите.)
* Исследование статистической связи между бюджетом фильма и полученной прибылью
* Анализ по Странам по данным imdb.com: По странам расчитать основные статистические показатели: Мода, медиана, квартили, дисперсию. Проверить, работает ли нормальное распределение и Паретто. Проверить есть ли зависимость бюджетов, рейтингов, жанров от страны выпуска фильмов. Посмотреть поведение стран во времени. Сделать прогноз на 2020 год: какие страны с какой вероятностью выпустят определенное количество фильмов с определенным бюджетом определенного жанра.

Это просто темы для референса, советую всё же не брать прямо такие, а придумать что-нибудь своё. Но в таком духе.