### Задача 1

Даны значения величины заработной платы заемщиков банка (salary) и значения их поведенческого кредитного скоринга (scoring):

salary = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110]
scoring = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]

Используя только встроенные питоновские функции и структуры данных (т.е. без библиотек numpy, pandas и др.) найдите:
1. ковариацию (смещённую и несмещённую) этих двух величин,
2. коэффициент корреляции Пирсона,
3. коэффициент корреляции Кендалла.

### Решение

In [2]:
import numpy as np
import pandas as pd
from scipy import stats
from matplotlib import pyplot as plt

In [2]:
salary = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110] 
scoring = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]

Ковариация рассчитывается по формуле$$cov_{XY} = M[(X - M(X))(Y - M(Y))] = M(XY) - M(X)M(Y)=\overline{X \cdot Y} - \overline{X} \cdot \overline{Y}$$


In [20]:
XY=0
X=0
Y=0
n = len(salary)
for i in range(0,n):
    XY = XY+salary[i]*scoring[i]
    X = X+salary[i]
    Y = Y+scoring[i]
X_avg = X/n
Y_avg = Y/n
cov = XY/n - X_avg*Y_avg

print(f'ковариация смещенная:{cov}')
np.cov(salary,scoring,ddof=0)

ковариация смещенная:9157.839999999997


array([[ 3494.64,  9157.84],
       [ 9157.84, 30468.89]])

Несмещённую оценку можно посчитать следующим образом:
$$\sigma_{xy} = \dfrac{1}{n - 1} \displaystyle\sum_{i = 1}^n (x_i - \overline{x}) \cdot (y_i - \overline{y})$$

In [19]:
sum_ = 0
for i in range(0,n):
   sum_ = sum_ + (salary[i]-X_avg)*(scoring[i]-Y_avg)
cov_ = 1/(n-1)*sum_

print(f'ковариация несмещенная:{cov_}')
np.cov(salary,scoring,ddof=1)

ковариация несмещенная:10175.377777777776


array([[ 3882.93333333, 10175.37777778],
       [10175.37777778, 33854.32222222]])

__коэффициент корреляции Пирсона__:
$$r_{XY} = \dfrac{\sigma_{XY}}{\sigma_X \cdot \sigma_Y}.$$

Здесь $\sigma_X$, $\sigma_Y$ — среднее квадратическое отклонение.


средние квадратические отклонения можнонайти из формулы расчета дисперсии

$$\sigma^2 = \dfrac{1}{m} \displaystyle\sum_{i = 1}^m \left( x_i - \overline{x} \right)^2$$

In [25]:
sum_X = 0
sum_Y = 0
for i in range(0,n):
    sum_X = sum_X + (salary[i]-X_avg)**2
    sum_Y = sum_Y + (scoring[i]-Y_avg)**2
Dx = 1/(n)*sum_X
Dy = 1/(n)*sum_Y
scale_X = Dx**0.5
scale_Y = Dy**0.5
print(Dx, scale_X)
print(Dy, scale_Y)

3494.6400000000003 59.115480206118605
30468.89000000001 174.55340157098058


In [29]:
r = cov/(scale_X*scale_Y)
print('r=',r)
print('ниже проверка через Numpy:')
np.corrcoef(salary, scoring)

r= 0.8874900920739158
ниже проверка через Numpy:


array([[1.        , 0.88749009],
       [0.88749009, 1.        ]])

__коэффициент корреляции Кендалла__<br><br>
Пусть $P$ — число всех согласованных комбинаций из двух пар, а $Q$ — число всех несогласованных комбинаций двух пар. __Коэффициент корреляции Кендалла__:
$$\tau = \dfrac{P - Q}{P + Q}$$

_Замечание_. Такое определение коэффициента Кендалла возможно только если выборки $X$ и $Y$ не имеют повторов.<br>
Две пары $(x_i, y_i)$ и $(x_j, y_j)$ называются __согласованными__, если $x_i < x_j$ и $y_i < y_j$, или наоборот $x_i > x_j$ и $y_i > y_j$. В противном случае они называются __несогласованными__.

In [34]:
def is_concordant(pair1: tuple, pair2: tuple) -> bool:
    """Являются ли две пары согласованными.
    """
    
    return (pair1[0] - pair2[0]) * (pair1[1] - pair2[1]) > 0

In [35]:
from itertools import combinations

In [36]:
list(zip(salary, scoring))

[(35, 401),
 (45, 574),
 (190, 874),
 (200, 919),
 (40, 459),
 (70, 739),
 (54, 653),
 (150, 902),
 (120, 746),
 (110, 832)]

In [39]:
P = 0
Q = 0

for pair1, pair2 in combinations(zip(salary, scoring), r=2):
    if is_concordant(pair1, pair2):
        P += 1
    else:
        Q += 1
    print(pair1,pair2)
P, Q

(35, 401) (45, 574)
(35, 401) (190, 874)
(35, 401) (200, 919)
(35, 401) (40, 459)
(35, 401) (70, 739)
(35, 401) (54, 653)
(35, 401) (150, 902)
(35, 401) (120, 746)
(35, 401) (110, 832)
(45, 574) (190, 874)
(45, 574) (200, 919)
(45, 574) (40, 459)
(45, 574) (70, 739)
(45, 574) (54, 653)
(45, 574) (150, 902)
(45, 574) (120, 746)
(45, 574) (110, 832)
(190, 874) (200, 919)
(190, 874) (40, 459)
(190, 874) (70, 739)
(190, 874) (54, 653)
(190, 874) (150, 902)
(190, 874) (120, 746)
(190, 874) (110, 832)
(200, 919) (40, 459)
(200, 919) (70, 739)
(200, 919) (54, 653)
(200, 919) (150, 902)
(200, 919) (120, 746)
(200, 919) (110, 832)
(40, 459) (70, 739)
(40, 459) (54, 653)
(40, 459) (150, 902)
(40, 459) (120, 746)
(40, 459) (110, 832)
(70, 739) (54, 653)
(70, 739) (150, 902)
(70, 739) (120, 746)
(70, 739) (110, 832)
(54, 653) (150, 902)
(54, 653) (120, 746)
(54, 653) (110, 832)
(150, 902) (120, 746)
(150, 902) (110, 832)
(120, 746) (110, 832)


(43, 2)

In [43]:
tau = (P-Q)/(P+Q)
print('коэф-т корреляции Кендалла',tau)
print('ниже проверим расчет через Pandas:')
pd.DataFrame({'x': salary, 'y': scoring}).corr(method='kendall')

коэф-т корреляции Кендалла 0.9111111111111111
ниже проверим расчет через Pandas:


Unnamed: 0,x,y
x,1.0,0.911111
y,0.911111,1.0


### Задача 2

Измерены значения IQ выборки студентов, обучающихся в местных технических вузах:

131, 125, 115, 122, 131, 115, 107, 99, 125, 111

Известно, что в генеральной совокупности IQ распределен нормально. Найдите доверительный интервал для математического ожидания с надежностью 0.95.

### Решение

In [59]:
IQ = [131, 125, 115, 122, 131, 115, 107, 99, 125, 111]
n = len(IQ)

#найдем среднее по выборке и среднее квадратическое отклонение
mean = sum(IQ)/n
sum_=0
for i in range(0,n):
    sum_ = sum_ + (IQ[i]-mean)**2
scale_ = (1/(n-1)*sum_)**0.5
print(n, mean, scale_)

# Поскольку дисперсия нам неизвестна,будем использовать  t-распределение и t-статистику Стьюдента:
p=0.95
alpha = 1 - p
t = stats.t.ppf(1 - alpha / 2, df=n - 1)
t

10 118.1 10.54566788359614


2.2621571627409915

доверительный интервал для параметра $a$:
$$
P \left(
    \overline{X} - t_{1 - \alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}}
    \leq a \leq 
    \overline{X} + t_{1 - \alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}}
\right) = p.
$$

In [60]:
# Итак, доверительный интервал:
(mean - t * scale_ / np.sqrt(n), mean + t * scale_ / np.sqrt(n))

(110.55608365158724, 125.64391634841274)

### Задача 3

Известно, что рост футболистов в сборной распределён нормально с известной дисперсией 25. На выборке объёма 27 выборочное среднее составило 174.2. Найдите доверительный интервал для математического ожидания с надёжностью 0.95.
### Решение

Если рассматриваемая случайная величина имеет нормальное распределение, то доверительный интервал для математического ожидания можно построить с помощью квантилей стандартного распределения (если дисперсия известна)<br>
$$T(X) = \dfrac{\overline{X} - a}{\sigma / \sqrt{n}},$$
где $\sigma$ — известный параметр среднего квадратического отклонения. Статистика $T$ имеет стандартное распределение. Допустим, нас интересует симметричный доверительный интервал с уровнем доверия $p = 1 - \alpha$. Тогда доверительный интервал для $T$ можно получить с помощью соответствующих квантилей:
$$P(- t_{1 - \alpha / 2} \leq T \leq t_{1 - \alpha / 2}) = p.$$

Преобразуем выражения в скобках и получим доверительный интервал для параметра $a$:
$$
P \left(
    \overline{X} - t_{1 - \alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}}
    \leq a \leq 
    \overline{X} + t_{1 - \alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}}
\right) = p.
$$

In [6]:
n=27
D = 25
scale = 5
mean = 174.2
p=0.95

alpha = 1 - p

t = stats.norm.ppf(1 - alpha/2)
t



1.959963984540054

In [7]:
# Итак, доверительный интервал:
(mean - t * scale / np.sqrt(n), mean + t * scale / np.sqrt(n))

(172.3140237765397, 176.08597622346028)