In [69]:
import numpy as np
import pandas as pd
from scipy import stats
from itertools import combinations

In [70]:
def is_concordant(pair1: tuple, pair2: tuple) -> bool:
    """Являются ли две пары согласованными.
    """
    
    return (pair1[0] - pair2[0]) * (pair1[1] - pair2[1]) > 0

In [73]:
def corr_ken(data1, data2):
    P = 0
    Q = 0

    for pair1, pair2 in combinations(zip(data1, data2), r=2):
        if is_concordant(pair1, pair2):
            P += 1
        else:
            Q += 1

    return (P - Q) / (P + Q)

# ДЗ №6 Гладышев В.В.

## Задание №1

Даны значения величины заработной платы заемщиков банка (`salary`) и значения их поведенческого кредитного скоринга (`scoring`):
```
salary = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110]
scoring = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]
```
Используя только встроенные питоновские функции и структуры данных (т.е. без библиотек `numpy`, `pandas` и др.) найдите:
1. ковариацию (смещённую и несмещённую) этих двух величин,
2. коэффициент корреляции Пирсона,
3. коэффициент корреляции Кендалла.

Можно затем посчитать те же значения с использованием библиотек, чтобы проверить себя.

1. ковариация (несмещённая)

In [60]:
salary = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110]
scoring = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]

In [61]:
def covar(data_1, data_2, bias = True):
    sl_m = sum(data_1)/len(data_1)
    sc_m = sum(data_2)/len(data_2)
    
    if bias:
        bs = 1
    else:
        bs = 0
    
    return sum((sl_i - sl_m)*(sc_i - sc_m) for sl_i, sc_i in zip(salary, scoring)) / (len(salary) - bs)

In [62]:
covar(salary, scoring)

10175.377777777778

In [63]:
np_salary = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
np_scoring = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

np.cov(np_salary, np_scoring)

array([[ 3882.93333333, 10175.37777778],
       [10175.37777778, 33854.32222222]])

2. ковариация (смещённая)

In [64]:
covar(salary, scoring, False)

9157.84

In [65]:
np.cov(np_salary, np_scoring, bias = True)

array([[ 3494.64,  9157.84],
       [ 9157.84, 30468.89]])

3. коэффициент корреляции Пирсона

In [66]:
def stdd(data, bias = True):
    
    if bias:
        bs = 1
    else:
        bs = 0
    
    return (sum((el-(sum(data)/len(data)))**2 for el in data)/(len(data)-bs))**0.5

In [67]:
covar(salary, scoring)/(stdd(salary)*stdd(scoring))

0.8874900920739162

In [68]:
np.corrcoef(np_salary, np_scoring)

array([[1.        , 0.88749009],
       [0.88749009, 1.        ]])

4. коэффициент корреляции Кендалла

In [74]:
corr_ken(salary, scoring)

0.9111111111111111

In [83]:
df = pd.DataFrame()
df["salary"] = salary
df["scoring"] = scoring

df.corr(method='kendall')

Unnamed: 0,salary,scoring
salary,1.0,0.911111
scoring,0.911111,1.0


## Задание №2

Измерены значения IQ выборки студентов, обучающихся в местных технических вузах:
```
131, 125, 115, 122, 131, 115, 107, 99, 125, 111
```
Известно, что в генеральной совокупности IQ распределен нормально. Найдите доверительный интервал для математического ожидания с надежностью 0.99. Найдите доверительный интервал для математического ожидания с надежностью 0.95.

In [5]:
iq = np.array([131, 125, 115, 122, 131, 115, 107, 99, 125, 111])

In [7]:
n = iq.shape[0]

mean = iq.mean()
std = iq.std(ddof=1)

n, mean, std

(10, 118.1, 10.54566788359614)

In [9]:
alpha = 0.01

sa = stats.t.ppf(1 - alpha / 2, df=n - 1)
sb = stats.t.ppf(alpha / 2, df=n - 1)
sb, sa

(-3.24983554401537, 3.2498355440153697)

In [10]:
(mean - sa * std / np.sqrt(n), mean + sa * std / np.sqrt(n))

(107.26234119629228, 128.9376588037077)

In [11]:
alpha = 0.05

sa = stats.t.ppf(1 - alpha / 2, df=n - 1)
sb = stats.t.ppf(alpha / 2, df=n - 1)
sb, sa

(-2.262157162740992, 2.2621571627409915)

In [12]:
(mean - sa * std / np.sqrt(n), mean + sa * std / np.sqrt(n))

(110.55608365158724, 125.64391634841274)

## Задание №3

Известно, что рост футболистов в сборной распределён нормально с известной дисперсией 25. На выборке объёма 27 выборочное среднее составило 174.2. Найдите доверительный интервал для математического ожидания с надёжностью 0.95.

In [13]:
alpha = 0.05

s2 = stats.norm.ppf(1 - alpha / 2)
s2

1.959963984540054

In [14]:
n = 27
d = 25
std = d**0.5
mean = 174.2

(mean - s2 * std / np.sqrt(n), mean + s2 * std / np.sqrt(n))

(172.3140237765397, 176.08597622346028)

## Задание №4

Выберите тему для проектной работы по курсу Теории вероятностей и математической статистики и напишите ее в комментарии к Практическому заданию.

Проанализирую взаимосвязь признаков в датасете из Kaggle соревнования: Forest types сlassification based on information about the area
https://github.com/VitalyGladyshev/Math_Ess/blob/master/%D0%93%D0%BB%D0%B0%D0%B4%D1%8B%D1%88%D0%B5%D0%B2%20Forests%20%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82.ipynb