# Статистика

## Из предыдущего урока

In [16]:
def dot(v, w):
    return sum(v_i * w_i for v_i, w_i in zip(v, w))

In [17]:
def sum_of_squares(v):
    return dot(v, v)

## Показатели вариации

Показатели вариации отражают меру изменчивости данных.
Самый простой показатель - размах, разница между минимальным и максимальным значением в наборе данных.

In [2]:
def data_range(x):
    return max(x) - min(x)

Более точным показателем вариации является дисперсия (сумма квадратов отклонений от среднего)

In [18]:
def de_mean(x):  # вектор отклонений от среднего
    x_bar = sum(x) / len(x)
    return [x_i - x_bar for x_i in x]


a = [1, 2, 3]
de_mean_a = de_mean(a)
print(de_mean_a)
print(sum(de_mean_a) / len(de_mean_a))  # среднее - 0


def variance(x):  # дисперсия
    n = len(x)
    deviations = de_mean(x)
    return sum_of_squares(deviations) / (n-1) 


print(variance(a))

[-1.0, 0.0, 1.0]
0.0
1.0


### Стандартное отклонение

Поскольку дисперсия оперирует единицами измерения в виде "квадрат переменной", то такие значение трудно интерпретировать, вместо этого чаще используется стандартное отклонение

In [20]:
import math


def standard_devation(x):
    return math.sqrt(variance(x))

### Квантиль

Обобщением медианы является квантиль - значение, меньше которого расположен определенный процент данных. (Медиана - это значение меньше которого расположены 50% данных)

In [13]:
def quantile(x, p):
    p_index = int(p*len(x))
    return sorted(x)[p_index]


print(quantile([1, 2, 3], 0.5))

2


### Интерквартиль

Размах и стандартное отклонение так же чувствительны к выбросам, как и среднее. Надежной альтернативой является вычисление интерквартильного размаха или разности между значением, соответствующим 75%, и значением соответствующим 25%  данных. Этот показатель позволяет простым образом исключить влияние небольшого числа выбросов.

In [15]:
def interquartile_range(x):
    return quantile(x, 0.75) - quantile(x, 0.25)

## Корреляция

### Ковариация
Ковариация является парным аналогом дисперсии. В отличии от дисперсии, которая измеряет отклонение одной переменной от её среднего, ковариация измеряет совместное отклонение двух переменных от своих средних. Большая положительная ковариация говорит о том, что при больших y, х старается принимать большие значения, и наоборот. Большая отрицательная ковариация говорит об обратном. Ковариация близкая к нулю, говорит о том, что такой связи нет. НО у ковариации сложно определить где она становится "большой"

In [19]:
def covariance(x, y):
    n = len(x)
    return dot(de_mean(x), de_mean(y)) / (n-1)

Корреляция, в которой ковариация распределяется между стандартными отклонениями обеих переменных.

Корреляция является безразмерной величиной , которая находится в интервале между -1 и 1, где -1 - это идеальная антикорелляция, а 1 идеальная корреляция. 0 - корреляции нет.

In [22]:
def correlation(x, y):
    stdev_x = standard_devation(x)
    stdev_y = standard_devation(y)
    if stdev_x > 0 and stdev_y > 0:
        return covariance(x, y) / stdev_x / stdev_y
    else:
        return 0

## Парадокс Симпсона

Нередко при анализе данных вызывает удивление парадокс Симпсона, при котором корреляции могут быть обманчивыми, если игнорируются спутывающие переменные.
Спутывающая переменная - внешняя переменная статистической модели, которая коррелирует как с зависимой, так и с независимой переменной. Её игнорирование приводит к смещению оценки модели.