### Задача 1

Даны значения величины заработной платы заемщиков банка (salary) и значения их поведенческого кредитного скоринга (scoring):

salary = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110]

scoring = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]

Используя только встроенные питоновские функции и структуры данных (т.е. без библиотек numpy, pandas и др.) найдите:

ковариацию (смещённую и несмещённую) этих двух величин,

коэффициент корреляции Пирсона,

коэффициент корреляции Кендалла.

Можно затем посчитать те же значения с использованием библиотек, чтобы проверить себя.

In [56]:
import numpy as np
import pandas as pd
from itertools import combinations

salary = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110] 
scoring = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]

__Ковариация(смещенная), или корреляционный момент:__$$cov_{XY} = M[(X - M(X))(Y - M(Y))] = M(XY) - M(X)M(Y)$$

In [57]:
XY=0
X=0
Y=0
n = len(salary)
for i in range(n):
    XY = XY+salary[i]*scoring[i]
    X = X+salary[i]
    Y = Y+scoring[i]
X_avg = X/n
Y_avg = Y/n
cov = XY/n - X_avg*Y_avg

print(f'Ковариация смещенная:{cov}')
np.cov(salary,scoring,ddof=0)

Ковариация смещенная:9157.839999999997


array([[ 3494.64,  9157.84],
       [ 9157.84, 30468.89]])

__Для несмещенной оценки ковариации:__
$$\sigma_{xy} = \dfrac{1}{n - 1} \displaystyle\sum_{i = 1}^n (x_i - \overline{x}) \cdot (y_i - \overline{y})$$

In [67]:
summ = 0
for i in range(n):
    summ = summ + (salary[i]-X_avg)*(scoring[i]-Y_avg)
cov = 1/(n-1)*summ

print(f'Ковариация несмещенная:{cov}')
np.cov(salary,scoring,ddof=1)

Ковариация несмещенная:10175.377777777776


array([[ 3882.93333333, 10175.37777778],
       [10175.37777778, 33854.32222222]])

__Коэффициент корреляции Пирсона:__
$$r_{XY} = \dfrac{\sigma_{XY}}{\sigma_X \cdot \sigma_Y}.$$

Здесь $\sigma_X$, $\sigma_Y$ — среднее квадратическое отклонение.


In [59]:
# средние квадратические отклонения
summ_X = 0
summ_Y = 0
for i in range(n):
    summ_X = summ_X + (salary[i]-X_avg)**2
    summ_Y = summ_Y + (scoring[i]-Y_avg)**2
std_x = (1/(n)*summ_X) ** 0.5
std_y = (1/(n)*summ_Y) ** 0.5

print(f'std_x: {std_x}')
print(f'std_y: {std_y}')

std_x: 59.115480206118605
std_y: 174.55340157098058


In [60]:
corr_pirson = cov/(std_x*std_y)
print(f'corr_pirson={corr_pirson}\n')
print(f'Numpy:\n{np.corrcoef(salary, scoring)}')

corr_pirson=0.8874900920739158

Numpy:
[[1.         0.88749009]
 [0.88749009 1.        ]]


__Коэффициент корреляции Кендалла__<br><br>
Пусть $P$ — число всех согласованных комбинаций из двух пар, а $Q$ — число всех несогласованных комбинаций двух пар. 

Коэффициент корреляции Кендалла:
$$\tau = \dfrac{P - Q}{P + Q}$$

_Замечание_. Такое определение коэффициента Кендалла возможно только если выборки $X$ и $Y$ не имеют повторов.<br>
Две пары $(x_i, y_i)$ и $(x_j, y_j)$ называются __согласованными__, если $x_i < x_j$ и $y_i < y_j$, или наоборот $x_i > x_j$ и $y_i > y_j$. В противном случае они называются __несогласованными__.

In [61]:
def is_concordant(pair1: tuple, pair2: tuple) -> bool:
    """Являются ли две пары согласованными.
    """
    
    return (pair1[0] - pair2[0]) * (pair1[1] - pair2[1]) > 0

In [62]:
list(zip(salary, scoring))

[(35, 401),
 (45, 574),
 (190, 874),
 (200, 919),
 (40, 459),
 (70, 739),
 (54, 653),
 (150, 902),
 (120, 746),
 (110, 832)]

In [63]:
P = 0
Q = 0

for pair1, pair2 in combinations(zip(salary, scoring), r=2):
    if is_concordant(pair1, pair2):
        P += 1
    else:
        Q += 1
    print(pair1,pair2)
P, Q

(35, 401) (45, 574)
(35, 401) (190, 874)
(35, 401) (200, 919)
(35, 401) (40, 459)
(35, 401) (70, 739)
(35, 401) (54, 653)
(35, 401) (150, 902)
(35, 401) (120, 746)
(35, 401) (110, 832)
(45, 574) (190, 874)
(45, 574) (200, 919)
(45, 574) (40, 459)
(45, 574) (70, 739)
(45, 574) (54, 653)
(45, 574) (150, 902)
(45, 574) (120, 746)
(45, 574) (110, 832)
(190, 874) (200, 919)
(190, 874) (40, 459)
(190, 874) (70, 739)
(190, 874) (54, 653)
(190, 874) (150, 902)
(190, 874) (120, 746)
(190, 874) (110, 832)
(200, 919) (40, 459)
(200, 919) (70, 739)
(200, 919) (54, 653)
(200, 919) (150, 902)
(200, 919) (120, 746)
(200, 919) (110, 832)
(40, 459) (70, 739)
(40, 459) (54, 653)
(40, 459) (150, 902)
(40, 459) (120, 746)
(40, 459) (110, 832)
(70, 739) (54, 653)
(70, 739) (150, 902)
(70, 739) (120, 746)
(70, 739) (110, 832)
(54, 653) (150, 902)
(54, 653) (120, 746)
(54, 653) (110, 832)
(150, 902) (120, 746)
(150, 902) (110, 832)
(120, 746) (110, 832)


(43, 2)

In [64]:
corr_kendall = (P-Q)/(P+Q)
print(f'Коэф-т корреляции Кендалла: {corr_kendall}\n')
print(f"Pandas: \n{pd.DataFrame({'x': salary, 'y': scoring}).corr(method='kendall')}")


Коэф-т корреляции Кендалла: 0.9111111111111111

Pandas: 
          x         y
x  1.000000  0.911111
y  0.911111  1.000000


### Задача 2

Измерены значения IQ выборки студентов, обучающихся в местных технических вузах:

131, 125, 115, 122, 131, 115, 107, 99, 125, 111

Известно, что в генеральной совокупности IQ распределен нормально. Найдите доверительный интервал для математического ожидания с надежностью 0.99.

In [65]:
IQ = [131, 125, 115, 122, 131, 115, 107, 99, 125, 111]
n = len(IQ)

#найдем среднее по выборке и среднее квадратическое отклонение
mean = sum(IQ)/n
summ= 0
for i in range(0,n):
    summ = summ + (IQ[i]-mean)**2
std_iq = (1/(n-1)*summ)**0.5
print(n, mean, std_iq)

# Поскольку дисперсия нам неизвестна,будем использовать  t-распределение и t-статистику Стьюдента:
p=0.95
alpha = 1 - p
t = stats.t.ppf(1 - alpha / 2, df=n - 1)
t

10 118.1 10.54566788359614


2.2621571627409915

__Доверительный интервал для параметра $a$:__
$$
P \left(
    \overline{X} - t_{1 - \alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}}
    \leq a \leq 
    \overline{X} + t_{1 - \alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}}
\right) = p.
$$

In [66]:
# Доверительный интервал:
(mean - t * std_iq / np.sqrt(n), mean + t * std_iq / np.sqrt(n))

(110.55608365158724, 125.64391634841274)

### Задача 3

Выберите тему для проектной работы по курсу Теории вероятностей и математической статистики и напишите ее в комментарии к Практическому заданию.

Анализ средней продолжительности фильмов в зависимости от жанра

Какие методы?
* Статистические характеристики: выборочные среднее и дисперсия, медиана, квартили (занятие 3)
* Визуализация: гистограммы, боксплоты (занятие 3)
* Проверка статистических гипотез о математическом ожидании и дисперсии, P-значения (занятие 5)
* Корреляционный анализ, проверка на значимость корреляции (занятие 6)
* Проверка на нормальность (занятие 6)
* Дисперсионный анализ (занятия 7 и 8). Позволяет анализировать влияние категориальной переменной на количественную. Пример: влияет ли город проживания на зарплату?
* Линейная регрессия, регрессионный анализ (занятие 7). Показывают характер зависимости количественной переменной от одной или нескольких других переменных. Также можно оценить вклад каждой переменной в эту зависимость. Пример: модель зависимости цены на квартиру от её площади и расстояния от центра.
* Факторный анализ (занятие 8). Позволяет проанализировать уровень линейной зависимости в данных и, в случае её наличия, преобразовать данные и избавиться от лишней информации. 
* Логистическая регрессия (занятие 8). Модель зависимости бинарной (т.е. имеющей лишь 2 значения) переменной от одной или нескольких количественных переменных. 
