### Что такое ковариация, чем она отличается от корреляции. В чем плюсы и минусы каждой из этих математических мер. 

### 1. Ковариация

Ковариация (корреляционный момент, ковариационный момент) в теории вероятностей и математической статистике это мера линейной зависимости двух случайных величин. Когда есть X и Y - две случайные величины, определённые на одном и том же вероятностном пространстве, то их ковариация определяется следующим образом:

$$ cov(X, Y) = M((X - M(X))(Y - M(T))) $$

где $М$ - это оператор математического ожидания 

Применительно к анализу данных это определение для расчета ковариации выборки можно переформулировать следующим образом:

$covariance(x,y)= sum((x_n - x_{mean})(y_n - y_{mean}))/(N-1)$

Где 

$x_n$ = значение признака X по конкретному наблюдению , 

$x_{mean}$ = среднее по массиву признаков X, 

$y_n$ = значение признака Y по конкретному наблюдению , 

$y_{mean}$ = среднее по массиву признаков Y, 

$N$ = количество наблюдений.

#### Продемонстрируем ковариацию на примере, для чего сгенерируем учебную выборку.
Пусть это будут якобы наблюдения о показах рекламных роликов и продажах какого-то товара, где и те и другие данные мы генерируем случайным образом. 

In [2]:
import os
import pandas as pd
import numpy as np
# установим seed для воспроизводимости результатов 
np.random.seed(0)
df = pd.DataFrame(np.random.randint(low= 0, high= 20, size= (50, 2)), 
                  columns= ['Показы рекламных роликов', 'Продано изделий'])
df.head(3)

Unnamed: 0,Показы рекламных роликов,Продано изделий
0,12,15
1,0,3
2,3,7


#### Сделаем расчет ковариации для пары признаков выборки в соответствии с приведенной выше формулой

In [130]:
def covariance(feature_x, feature_y):
    cov = 0
    for i in range(len(feature_x)):
        a = (feature_x[i] - feature_x.mean())
        b = (feature_y[i] - feature_y.mean())
        c  = a * b
        cov += c
    covariance_xy = cov/(len(feature_x) - 1)
    return covariance_xy 
    
covariance(df['Показы рекламных роликов'], df['Продано изделий'])

8.944489795918367

Сделаем проверку правильности написания функции, используя стандартную 

In [131]:
df[['Показы рекламных роликов', 'Продано изделий']].cov()

Unnamed: 0,Показы рекламных роликов,Продано изделий
Показы рекламных роликов,33.446531,8.94449
Продано изделий,8.94449,41.626122


Результат совпадает.

#### Перечислим и продемонстрируем несколько основных свойств ковариации.

#### Ковариация случайной величины с самой собой есть ее дисперсия

Дисперсия (variance, 
$s^2$
) - это мера того, насколько данные отличаются от среднего значения. Дисперсию можно представить в виде следующей формулы:

$s^2 = sum((x_n - x_{mean})^2) / (N-1)$

Где 

$x_n$ = значение признака X по конкретному наблюдению, 

$x_{mean}$ = среднее по массиву признаков X, 

$N$ = количество наблюдений.

#### Cделаем расчет дисперсии для показателя 'Показы рекламных роликов' 

In [132]:
def variance(feature_x):
    var = []
    for i in range(len(feature_x)):
        v = (feature_x[i] - feature_x.mean())**2        
        var.append(v)
    variance_x = sum(var)/(len(df['Показы рекламных роликов']) - 1) 
    return variance_x

variance(df['Показы рекламных роликов'])

33.44653061224489

In [176]:
covariance(df['Показы рекламных роликов'], df['Показы рекламных роликов'])

33.44653061224489

Cделаем проверку полученного значения, используя стандартную функцию

In [133]:
df['Показы рекламных роликов'].var()
# результат совпадает

33.44653061224489

#### Ковариация симметрична

In [134]:
display(covariance(df['Показы рекламных роликов'], df['Продано изделий']))
covariance(df['Продано изделий'], df['Показы рекламных роликов'])

8.944489795918367

8.944489795918367

#### Если случайные X, Y независимы, то ковариация равна 0

In [47]:
np.random.seed(0)
df_1a = pd.DataFrame(np.random.randint(low= 0, high= 20, size= (1000, 3)), 
                  columns= ['Показы рекламных роликов', 'Продано изделий', 'Шум'])

df_2 = df_1a.copy()
df_2['Продано изделий'] = df_2['Показы рекламных роликов']*df_2['Шум']
display(df_1a['Показы рекламных роликов'].cov(df_1['Продано изделий']))
display(df_2['Показы рекламных роликов'].cov(df_2['Продано изделий']))
print 'наблюдаем, что там, где есть зависимость, показатель существенно вырос'

0.9625945945945955

317.74187987987966

наблюдаем, что там, где есть зависимость, показатель существенно вырос


#### Одноременно мы можем маблюдать, что изменение масштаба переменных влияет на значение величины ковариации. 
Кроме того, отрицательное значение является индикатором отрицательных отношений, тогда как положительное значение представляет собой положительные отношения. 
А когда значение равно нулю, это указывает на отсутствие связи. 
В дополнение к этому, когда все наблюдения одной и той же переменной совпадают, ковариация тоже будет равна нулю. Давайте убедимся в этом на практике

In [48]:
np.random.seed(0)
df_1 = pd.DataFrame(np.random.randint(low= 0, high= 20, size= (1000, 2)), 
                  columns= ['Показы рекламных роликов', 'Продано изделий'])
df_3 = df_1.copy()
df_4 = df_1.copy()
df_5 = df_1.copy()

df_3 = df_3 * 5
df_4['Продано изделий'] = df_3['Показы рекламных роликов']*(-5)
df_5['Продано изделий'] = df_3['Показы рекламных роликов']*0
display(df_1.cov())
display(df_3.cov())
display(df_4.cov())
df_5.cov()

Unnamed: 0,Показы рекламных роликов,Продано изделий
Показы рекламных роликов,33.830349,0.814763
Продано изделий,0.814763,34.275892


Unnamed: 0,Показы рекламных роликов,Продано изделий
Показы рекламных роликов,845.758734,20.369069
Продано изделий,20.369069,856.897297


Unnamed: 0,Показы рекламных роликов,Продано изделий
Показы рекламных роликов,33.830349,-845.758734
Продано изделий,-845.758734,21143.968343


Unnamed: 0,Показы рекламных роликов,Продано изделий
Показы рекламных роликов,33.830349,0.0
Продано изделий,0.0,0.0


Высказанные выше предположения подтверждены. Еще, отсюда можно сделать вывод, что ковариация может принимать любое значение в диапазоне от -∞ до + ∞.

#### Смысл ковариации в том, что она измеряет синхронность отклонений признаков от их средних  значений (математических ожиданий). То есть, если наблюдение индивидуального признака $x_n$ отклоняется от среднего $x_{mean}$ в большую сторону, то следует ожидать, что значение индивидуального признака $y_n$ также отклоняется от среднего $y_{mean}$ в большую сторону.

#### Плюсы и минусы ковариации 

Если ковариация отлична от нуля, то величины $X$ и $Y$ зависимы. Чтобы судить о наличии зависимости согласно любому из определений независимости, требуется знать совместное распределение пары $X$ и $Y$. Но найти совместное распределение часто бывает сложнее, чем посчитать математическое ожидание произведения $X$ и $Y$. Если математическое ожидание произведения $X$ и $Y$ и не будет равняться произведению их математических ожиданий, мы скажем, что $X$ и $Y$ зависимы, не находя их совместного распределения. В этом плюс ковариации. 

Однако только по абсолютному значению ковариации нельзя судить о том, насколько сильно величины взаимосвязаны, так как её масштаб, как мы увидели выше, зависит от их дисперсий. Это можно отнести к ее недостаткам. 

Масштаб можно отнормировать, поделив значение ковариации на произведение среднеквадратических отклонений (квадратных корней из дисперсий). При этом получается так называемый коэффициент корреляции Пирсона, который всегда находится в интервале от −1 до 1, к которому мы сейчас и перейдем.



### 1. Корреляция

В общем смысле корреляция = это зависимость между случайными величинами, при которой изменение одной величины неизбежно приводит к изменению математического ожидания другой.
Корреляционная связь является неполной зависимостью, то есть она проявляется не в каждом отдельном случае, а только в средних величинах при достаточно большом количестве случаев.
Корреляционный анализ состоит в определении степени связи между двумя случайными величинами $X$ и $Y$. В качестве меры такой связи используется коэффициент корреляции. Коэффициент корреляции оценивается по выборке объема $n$ связанных пар наблюдений ($x_i, y_i$) из совместной генеральной совокупности $X$ и $Y$. Существует несколько типов коэффициентов корреляции, применение которых зависит от измерения (способа шкалирования) величин $X$ и $Y$.
Для оценки степени взаимосвязи величин $X$ и $Y$, измеренных в количественных шкалах, используется коэффициент линейной корреляции (коэффициент Пирсона), предполагающий, что выборки $X$ и $Y$ распределены по нормальному закону. 

#### коэффициент корреляции Пирсона

Формула коэффициента корреляции Пирсона выглядит следующим образом:

$r(x,y)= sum(x_n - x_mean)(y_n - y_mean)/((N-1)SD_xSD_y)$

Где 

$x_n$ = значение признака $Х$ для конкретного объекта 

$x_{mean}$ = среднее значение признака $Х$

$SD_x$ = стандартное отклонение по признаку $X$. 

$N$ = количество наблюдений.

Среднеквадратическое отклонение‭ $(‬SD‭)$ ‬-‭ ‬это показатель рассеяния значений во множестве данных относительно их математического ожидания.‭ ‬Символом среднеквадратического отклонения является‭ ‬σ‭(‬сигма‭)‬.‭ ‬Можно также сказать,‭ ‬что это показатель изменчивости или дисперсии в этом множестве данных.

$SD = \sqrt( \sum((x_n - x_{mean})^2)/(N-1) )$ 


Для демонстрации напишем функцию для расчета коэффициента корреляции Пирсона для пары признаков и рассчитаем коэффициент корреляции ранее созданной выборки.

In [49]:
from math import sqrt

def SD(feature):
    cor = 0
    for i in range(len(feature)):
        a = (feature[i] - feature.mean())**2
        cor += a
    return sqrt(cor / (len(feature) - 1))

def correlation(feature_x, feature_y):
    cor = 0
    for i in range(len(feature_x)):
        a = (feature_x[i] - feature_x.mean())
        b = (feature_y[i] - feature_y.mean())
        c  = a * b
        cor += c
    correlation_xy  = cor/((len(feature_x) - 1)*SD(feature_x)*SD(feature_y))
    return correlation_xy

Сделаем проверку полученного значения, используя стандартную функцию и убедимся, что результат совпадает

In [52]:
display(correlation(df_1['Показы рекламных роликов'], df_1['Продано изделий']))
df_1[['Показы рекламных роликов', 'Продано изделий']].corr()

0.023926741009954473

Unnamed: 0,Показы рекламных роликов,Продано изделий
Показы рекламных роликов,1.0,0.023927
Продано изделий,0.023927,1.0


а теперь исследуем свойства корреляции 

In [54]:
np.random.seed(0)
df_10 = pd.DataFrame(np.random.randint(low= 0, high= 20, size= (1000, 3)), 
                  columns= ['Показы рекламных роликов', 'Продано изделий', 'Шум'])
df_20 = df_10.copy()
df_30 = df_10.copy()
df_40 = df_10.copy()

df_20['Продано изделий'] = df_20['Показы рекламных роликов']*df_20['Шум'] 
df_30 = df_30 * 5
df_40['Продано изделий'] = df_40['Показы рекламных роликов']*(-5)

display(df_10['Показы рекламных роликов'].corr(df_10['Продано изделий']))
print 'Наблюдаем низкую корреляцию, что естетственно, поскольку признаки сгенерированы случайным образом. Низкий коэффициент корреляции (менее + - 0,10) означает, что связь между переменными слаба или вовсе отсутствует. Высокий коэффициент корреляции (ближе к +1 или 1) показывает, что зависимая переменная обычно изменяется при изменении независимой.'
display(df_20['Показы рекламных роликов'].corr(df_20['Продано изделий']))
print 'Наблюдаем высокую корреляцию, что тоже естетственно, поскольку признаки имеют линейную\
            зависимость хотя и зашумлены'
display(df_30['Показы рекламных роликов'].corr(df_30['Продано изделий']))
print 'Корреляция устойчива к изменению масштаба - при увеличении значений в 5 раз\
                    коэффициент не изменился'
display(df_40['Показы рекламных роликов'].corr(df_40['Продано изделий']))
print 'Направление изменения зависимой переменной определяется знаком коэффициента корреляции. Если значение коэффициента положительно, то зависимая переменная изменится в том же направлении, что и независимая; если же его значение отрицательно, то зависимая переменная будет двигаться в направлении, противоположном изменению независимой.'

0.029431314456805024

Наблюдаем низкую корреляцию, что естетственно, поскольку признаки сгенерированы случайным образом. Низкий коэффициент корреляции (менее + - 0,10) означает, что связь между переменными слаба или вовсе отсутствует. Высокий коэффициент корреляции (ближе к +1 или 1) показывает, что зависимая переменная обычно изменяется при изменении независимой.


0.6509051261737478

Наблюдаем высокую корреляцию, что тоже естетственно, поскольку признаки имеют линейную            зависимость хотя и зашумлены


0.029431314456805014

Корреляция устойчива к изменению масштаба - при увеличении значений в 5 раз                    коэффициент не изменился


-1.0

Направление изменения зависимой переменной определяется знаком коэффициента корреляции. Если значение коэффициента положительно, то зависимая переменная изменится в том же направлении, что и независимая; если же его значение отрицательно, то зависимая переменная будет двигаться в направлении, противоположном изменению независимой.


Корреляционный анализ имеет два основных назначения: определение прогностических возможностей признаков и характера взаимосвязи пар признаков. 

Мы подробно разобрали коэффициент корреляции Пирсона, который есть мера силы линейной взаимосвязи. Коэффициент корреляции Пирсона работает только для линейных корреляций. Для распределений,отличных от нормального, коэффициент корреляции Пирсона перестаёт быть эффективной оценкой, и еще он не устойчив к выбросам.

#### коэффициент корреляции Спирмена.

К выбросам устойчив коэффициент корреляции Спирмена. Коэффициент корреляции Спирмена - это мера именно монотонной связи между двумя случайнами величинами. Он равен коэффициенту корреляции Пирсона между рангами наблюдений и определяется как

$r_s = 1 - 6 * \sum (rg(x_i) - rg(y_i) / (n^3 - n)$

где rg - ранг 

Сымитируем выброс, и посмотрим, как ведет себя коэффициент корреляции Спирмена.

In [107]:
np.random.seed(0)
df_1_s = pd.DataFrame(np.random.randint(low= 0, high= 20, size= (1000, 2)), 
                  columns= ['Показы рекламных роликов', 'Продано изделий'])
df_2_s = df_1_s.copy()
df_2_s.loc[0][1] = 900        
display(df_1_s.head(1))
display(df_2_s.head(1))
print 'здесь мы сымитировали выброс'
display(df_1_s.corr( method='pearson'))
display(df_2_s.corr( method='pearson'))
print 'коэффициент корреляции Пирсона на выборке с выбросом существенно искажен'
display(df_1_s.corr( method='spearman'))
display(df_2_s.corr( method='spearman'))
print 'а здесь такого искажения нет, хотя точность несколько упала'

Unnamed: 0,Показы рекламных роликов,Продано изделий
0,12,15


Unnamed: 0,Показы рекламных роликов,Продано изделий
0,12,900


здесь мы сымитировали выброс


Unnamed: 0,Показы рекламных роликов,Продано изделий
Показы рекламных роликов,1.0,0.023927
Продано изделий,0.023927,1.0


Unnamed: 0,Показы рекламных роликов,Продано изделий
Показы рекламных роликов,1.0,0.017799
Продано изделий,0.017799,1.0


коэффициент корреляции Пирсона на выборке с выбросом существенно искажен


Unnamed: 0,Показы рекламных роликов,Продано изделий
Показы рекламных роликов,1.0,0.024485
Продано изделий,0.024485,1.0


Unnamed: 0,Показы рекламных роликов,Продано изделий
Показы рекламных роликов,1.0,0.024856
Продано изделий,0.024856,1.0


а здесь такого искажения нет, хотя точность несколько упала


Видим, что коэффициент корреляции Спирмена чуть менее точен, но действительно устойчив к выбросам.

Для проверки значимости коэффициентов корреляции Спирмена и Пирсона используется критерий Стьюдента. 

До сих пор мы имели дело с вещественными признаками. Теперь же рассмотрим категориальные. Мерой качества для бинарной классификации является корреляция Мэтьюса.

#### корреляция Мэтьюса

Корреляция Мэтьюса - это мера силы взаимосвязи бинарных переменных. Она может быть использована, если размеры классов сильно различаются. Принимает значение на интервале [-1, 1]. Значение 1 соответствует идеальному предсказанию, 0 — ситуации случайного предсказания, -1 — полностью противоположному предсказанию. В литературе так же известна как $\phi$–коэффициент. 

реализуем вычисление коэффициента корреляции Мэтьюса сразу ввиде кода а потом проверим ее стандартной функцией из библиотеки sklearn

In [100]:
np.random.seed(0)
df_1_m = pd.DataFrame(np.random.randint(low= 0, high= 2, size= (1000, 2)), 
                  columns= ['Предсказал/не предсказал покупку', 'Купил/не купил товар'])

def CM(feature_x, feature_y):
    true_positive = 0
    true_negative = 0
    false_positive = 0
    false_negative = 0
    for i in range(len(feature_x)):
        if feature_x[i] == 1 and feature_x[i] == feature_y[i]:
            true_positive += 1
        if feature_x[i] == 0 and feature_x[i] == feature_y[i]:
            true_negative += 1
        if feature_x[i] == 1 and feature_x[i] != feature_y[i]:
            false_positive += 1
        if feature_x[i] == 0 and feature_x[i] != feature_y[i]:
            false_negative += 1
    corr_m = (true_positive*true_negative-false_positive*false_negative)/sqrt((true_positive+false_negative)*
                                              (true_positive+false_positive)*
                                              (true_negative+false_positive)*
                                              (true_negative+false_negative))
    return corr_m

In [102]:
CM(df_1_m['Предсказал/не предсказал покупку'], df_1_m['Купил/не купил товар'])

0.025821688647364865

In [103]:
from sklearn.metrics import matthews_corrcoef

np.random.seed(0)
df_1_m = pd.DataFrame(np.random.randint(low= 0, high= 2, size= (1000, 2)), 
                  columns= ['Предсказал/не предсказал покупку', 'Купил/не купил товар'])

display(matthews_corrcoef(df_1_m['Предсказал/не предсказал покупку'], df_1_m['Купил/не купил товар']))

0.025821688647364865

как мы видим, результаты идентичны. функция реализована верно.

если же мы имеем дело не просто с бинарными признаками, а в целом с категориальными, то тогда для исследования меры силы взаимосвязи между двумя категориальными переменными используют коэффициент Крамера

#### коэффициент Крамера

Коэффициент Крамера - это мера связи двух номинальных переменных на основе критерия хи-квадрат. 
Критерий $\chi^2$ - статистический критерий для проверки гипотезы $H_0$, что наблюдаемая случайная величина подчиняется некому теоретическому закону распределения. 

Коэффициент Крамера применяется к таблицам сопряженности произвольной размерности. Принимает значения из интервала [0; 1]. При отсутствии статистической связи между переменными значение коэффициента равно 0; при полной связи (когда значение одной переменной полностью определяется значением второй переменной) достигает 1. 

Его формула

$ \phi_c(X_1^n, X_2^n ) = \sqrt(\chi^2(X_1^n, X_2^n )/n(min(K_1,K_2)-1)$

возьмем готовый код, и проверим вычисления по ранее сгенерированной выборке

In [105]:
import scipy.stats as ss
import pandas as pd
import numpy as np
def cramers_corrected_stat(x,y):

    """ calculate Cramers V statistic for categorial-categorial association.
        uses correction from Bergsma and Wicher, 
        Journal of the Korean Statistical Society 42 (2013): 323-328
    """
    result=-1
    if len(x.value_counts())==1 :
        print("First variable is constant")
    elif len(y.value_counts())==1:
        print("Second variable is constant")
    else:   
        conf_matrix=pd.crosstab(x, y)

        if conf_matrix.shape[0]==2:
            correct=False
        else:
            correct=True

        chi2 = ss.chi2_contingency(conf_matrix, correction=correct)[0]

        n = sum(conf_matrix.sum())
        phi2 = chi2/n
        r,k = conf_matrix.shape
        phi2corr = max(0, phi2 - ((k-1)*(r-1))/(n-1))    
        rcorr = r - ((r-1)**2)/(n-1)
        kcorr = k - ((k-1)**2)/(n-1)
        result=np.sqrt(phi2corr / min( (kcorr-1), (rcorr-1)))
    return round(result,6)

In [106]:
np.random.seed(0)
df_1_c = pd.DataFrame(np.random.randint(low= 0, high= 2, size= (1000, 2)), 
                  columns= ['Предсказал/не предсказал покупку', 'Купил/не купил товар'])
cramers_corrected_stat(df_1_c['Предсказал/не предсказал покупку'], df_1_c['Купил/не купил товар'],)

0.025822

как и должно быть в этом случае, результат аналогичен предыдущему

#### Ограничения корреляционного анализа

1. Применение возможно при наличии достаточного количества наблюдений. Считается, что число наблюдений должно не менее, чем в 5-6 раз превышать число признаков (также встречается рекомендация использовать пропорцию не менее, чем в 10 раз, тогда в действие вступает закон больших чисел, который обеспечивает взаимопогашение случайных колебаний).
2. Необходимо, чтобы значения признаков подчинялась многомерному нормальному распределению. В случае, если объём выборки недостаточен для проведения формального тестирования на нормальность распределения, то закон распределения определяется визуально на основе корреляционного поля. Если в расположении точек на этом поле наблюдается линейная тенденция, то можно предположить, что совокупность исходных данных подчиняется нормальному закону распределения.
3. Выборка должна быть качественно однородной.
4. Сам по себе факт корреляционной зависимости не даёт основания утверждать, что одна из переменных предшествует или является причиной изменений, или то, что переменные вообще причинно связаны между собой, а не наблюдается действие третьего фактора. 