In [1]:
from itertools import combinations
import numpy as np
from scipy import stats

__Задача 1__

Даны значения величины заработной платы заемщиков банка (`salary`) и значения их поведенческого кредитного скоринга (`scoring`):
```
salary = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110]
scoring = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]
```
Используя только встроенные питоновские функции и структуры данных (т.е. без библиотек `numpy`, `pandas` и др.) найдите:
1. ковариацию (смещённую и несмещённую) этих двух величин,
2. коэффициент корреляции Пирсона,
3. коэффициент корреляции Кендалла.

Можно затем посчитать те же значения с использованием библиотек, чтобы проверить себя.

In [2]:
salary = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110]
scoring = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]

In [3]:
def razn(lst):
    m = sum(lst)/len(lst)
    return [x-m for x in lst]

In [4]:
res = [a * b for a, b in zip(razn(salary), razn(scoring))]
res

[20510.96,
 7664.759999999999,
 14539.26,
 20617.260000000002,
 15405.26,
 -913.7400000000009,
 2697.059999999999,
 9336.06,
 671.4600000000003,
 1050.0599999999995]

In [5]:
#смещенная ковариация
cov = sum(res)/len(res)
cov

9157.84

In [6]:
#несмещенная ковариация
cov = sum(res)/(len(res)-1)
cov

10175.377777777778

In [7]:
def sigma(lst):
    """
    Функция подсчета несмещенного средне-квадратического отклонения
    """
    m = sum(lst)/len(lst)
    x_sum_kvadr = sum([(x-m)**2 for x in lst])
    return (x_sum_kvadr / (len(lst) - 1))**0.5

In [8]:
#коэффициент корреляции Пирсона:
r = cov / (sigma(salary) * sigma(scoring))
r

0.8874900920739162

In [9]:
def is_concordant(pair1: tuple, pair2: tuple) -> bool:
    """
    Являются ли две пары согласованными.
    """
    
    return (pair1[0] - pair2[0]) * (pair1[1] - pair2[1]) > 0

In [10]:
P = 0
Q = 0

for pair1, pair2 in combinations(zip(salary, scoring), r=2):
    if is_concordant(pair1, pair2):
        P += 1
    else:
        Q += 1
        
P, Q

(43, 2)

In [11]:
#коэффициент корреляции Кендалла
tau = (P - Q) / (P + Q)
tau

0.9111111111111111

__Задача 2__

Измерены значения IQ выборки студентов, обучающихся в местных технических вузах:
```
131, 125, 115, 122, 131, 115, 107, 99, 125, 111
```
Известно, что в генеральной совокупности IQ распределен нормально. Найдите доверительный интервал для математического ожидания с надежностью 0.99.

In [12]:
samples = np.array([131, 125, 115, 122, 131, 115, 107, 99, 125, 111])
p = 0.99
alpha = 1 - p

In [13]:
n = len(samples)
std = samples.std(ddof=1)
x_mean = samples.mean()
n, x_mean, std 

(10, 118.1, 10.54566788359614)

In [14]:
t = stats.t.ppf(1 - alpha / 2, df=n - 1)
t

3.2498355440153697

Найдем доверительный интервал по формуле:
$$
P \left(
    \overline{X} - t_{1 - \alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}}
    \leq a \leq 
    \overline{X} + t_{1 - \alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}}
\right) = p.
$$

In [15]:
#Доверительный интервал:
(x_mean - t * std / n**0.5, x_mean + t * std / n**0.5)

(107.26234119629228, 128.9376588037077)

__Задача 3__

Известно, что рост футболистов в сборной распределён нормально с известной дисперсией 25. На выборке объёма 27 выборочное среднее составило 174.2. Найдите доверительный интервал для математического ожидания с надёжностью 0.95.

In [16]:
sdt = 25
n = 27
m = 174.2
p = 0.95
alpha = 1 - p
sigma = sdt**0.5

In [17]:
t = stats.norm.ppf(1 - alpha / 2)
t

1.959963984540054

Найдем доверительный интервал по формуле:
$$
P \left(
    \overline{X} - t_{1 - \alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}}
    \leq a \leq 
    \overline{X} + t_{1 - \alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}}
\right) = p.
$$

In [18]:
(m - t * sigma/n**0.5, m + t * sigma/n**0.5)

(172.3140237765397, 176.08597622346028)