## Взаимосвязь величин. Показатели корреляции. Корреляционный анализ. Проверка на нормальность

#### Задача 1

Даны значения величины заработной платы заемщиков банка (salary) и значения их поведенческого кредитного скоринга (scoring):

salary = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110]

scoring = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]

Используя только встроенные питоновские функции и структуры данных (т.е. без библиотек numpy, pandas и др.) найдите:
1. ковариацию этих двух величин,
2. коэффициент корреляции Пирсона.

Можно затем посчитать те же значения с использованием библиотек, чтобы проверить себя.

In [2]:
from scipy import stats
import numpy as np

In [9]:
salary = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
scoring = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

#### 1. Ковариация

In [11]:
X_mean = sum(salary) / n
Y_mean = sum(scoring) / m
X_mean, Y_mean

(101.4, 709.9)

In [12]:
def cov(X, Y, ddof):
    return ((X - X_mean) * (Y - Y_mean)).sum() / (X.shape[0] - ddof)

In [14]:
print(f'Смещённая ковариация: {cov(salary, scoring, ddof=0)}')
print(f'Несмещённая ковариация: {cov(salary, scoring, ddof=1)}')

Смещённая ковариация: 9157.84
Несмещённая ковариация: 10175.37777777778


#### 2. Коэффициент корреляции Пирсона

In [24]:
def std(X, ddof=0):
    MX = sum(X) / len(X)
    summa = sum([(i - MX)**2 for i in X])
    
    return (summa / (len(X) - ddof))**(1/2)

In [25]:
def corr(X, Y):   
    return cov(X, Y, ddof=0) / (std(X) * std(Y))

In [27]:
corr = corr(salary,  scoring)

In [28]:
print(f'Расчетный коэффициент корреляции Пирсона:{corr}')

Расчетный коэффициент корреляции Пирсона:0.8874900920739162


#### Задача 2

Проведите тест на значимость коэффициента корреляции Пирсона, найденного в предыдущей задаче. Что для этого нужно знать:
* Нулевая гипотеза: реальный коэффициент корреляции равен 0. Альтернативная гипотеза двухсторонняя.
* Статистика: t = r * sqrt(n - 2) / sqrt(1 - r ** 2), где r - коэффициент корреляции Пирсона, посчитанный по выборке.
* В предположении верности нулевой гипотезы эта статистика имеет распределение Стьюдента с параметром df = n - 2.

In [35]:
t = corr * ((n - 2) ** 0.5) /((1 - corr ** 2) ** 0.5)
t

5.447168150485575

In [42]:
alpha = [0.1, 0.05, 0.01][2]

t1 = stats.t.ppf(alpha / 2, df=n - 2)
t2 = stats.t.ppf(1 - alpha / 2, df=n - 2)

t1, t2

(-3.3553873313333966, 3.3553873313333957)

In [46]:
if t1<=t<=t2:
    print('Гипотеза верна')
else: 
    print('Гипотеза неверна')

Гипотеза неверна


#### Задача 3

Измерены значения IQ выборки студентов, обучающихся в местных технических вузах:

131, 125, 115, 122, 131, 115, 107, 99, 125, 111

Известно, что в генеральной совокупности IQ распределен нормально. Найдите доверительный интервал для математического ожидания с надежностью 0.95.

In [87]:
iq = np.array([131, 125, 115, 122, 131, 115, 107, 99, 125, 111])
p = 0.95

In [83]:
X_mean = iq.mean()
print(f'Выборочное среднее: {X_mean}')

Выборочное среднее: 118.1


In [84]:
n =  iq.shape[0]
print(f'Объем выборки: {n}')

Объем выборки: 10


In [86]:
std = iq.std(ddof=1)
print(f'Выборочное смещенное среднеквадратичное отклонение:{std}')

Выборочное смещенное среднеквадратичное отклонение:10.54566788359614


In [88]:
alpha = 1 - p

t1 = stats.t.ppf(alpha / 2, df=n - 1)
t2 = stats.t.ppf(1 - alpha / 2, df=n - 1)

t1, t2

(-2.2621571627409915, 2.2621571627409915)

In [92]:
P = (X_mean + t1 * std / np.sqrt(n), X_mean + t2 * std / np.sqrt(n))

In [93]:
print(f'Доверительный интервал для математического ожидания с надежностью 0.95: {P}')

Доверительный интервал для математического ожидания с надежностью 0.95: (110.55608365158724, 125.64391634841274)


#### Задача 4

Выберите тему для проектной работы по курсу Теории вероятностей и математической статистики и напишите ее в комментарии к Практическому заданию.

#### С темой пока не определился