# Author: Стурейко Игорь
## Project: Geekbrains.MatStat
## Lesson 06 - Взаимосвязь величин. Показатели корреляции. Корреляционный анализ. Проверка на нормальность
## Date: 2020-07-08

In [17]:
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt

## 1. Даны значения величины заработной платы заемщиков банка (`salary`) и значения их поведенческого кредитного скоринга (`scoring`):
```
salary = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110]
scoring = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]
```
Используя только встроенные питоновские функции и структуры данных (т.е. без библиотек `numpy`, `pandas` и др.) найдите:
1. ковариацию (смещённую и несмещённую) этих двух величин,
2. коэффициент корреляции Пирсона.

Можно затем посчитать те же значения с использованием библиотек, чтобы проверить себя.

In [18]:
salary = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
scoring = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])
M_sal = salary.mean()
M_score = scoring.mean()

cov_unbiased = ((salary - M_sal) * (scoring - M_score)).sum() / (salary.shape[0] - 1) # несмещенная ковариация
cov_biased = ((salary - M_sal) * (scoring - M_score)).sum() / (salary.shape[0]) # смещенная ковариация
cov_np = np.cov(salary, scoring, ddof=1) # матрица ковариаций
corr = cov_unbiased / (salary.std(ddof=1) * scoring.std(ddof=1)) # коэффициент корреляции Пирсона

print(f'Смещенная совариация {cov_biased}')
print(f'Несмещенная ковариация {cov_unbiased}')
print(f'Несмещенная ковариация (библиотека) {cov_np[0, 1]}')
print(f'Коэффициент корреляции Пирсона {corr}')
print(f'Коэффициент корреляции Пирсона (библиотека) {np.corrcoef(salary, scoring)[0, 1]}')

Смещенная совариация 9157.84
Несмещенная ковариация 10175.37777777778
Несмещенная ковариация (библиотека) 10175.377777777776
Коэффициент корреляции Пирсона 0.8874900920739164
Коэффициент корреляции Пирсона (библиотека) 0.8874900920739162


## 2. Проведите тест на значимость коэффициента корреляции Пирсона, найденного в предыдущей задаче. 
Что для этого нужно знать:
* Нулевая гипотеза: реальный коэффициент корреляции равен 0. Альтернативная гипотеза двухсторонняя.
* Статистика: `t = r * sqrt(n - 2) / sqrt(1 - r ** 2)`, где `r` - коэффициент корреляции Пирсона, посчитанный по выборке.
* В предположении верности нулевой гипотезы эта статистика имеет распределение Стьюдента с параметром `df = n - 2`.

In [24]:
from scipy import stats

In [42]:
n = salary.shape[0]
t = corr * np.sqrt(n - 2) / np.sqrt(1 - corr ** 2)
a = 0.05
print(t, t1, t2)
t1 = stats.t.ppf(a / 2, df = n - 1)
t2 = stats.t.ppf(1 - a / 2, df = n - 1)
if t < t1 or t > t2:
    print('Значение статистики попадает в критическую область. Нулевая гипотеза отвергается')
else:
    print('Значение статистики не попадает в критическую область. Нулевая гипотеза принимается')

p_left = stats.t.cdf(t, df = n - 2)
p_right = 1 - stats.t.cdf(t, df=n - 2)

p_val = 2 * min(p_left, p_right)
print(f'р-значение: {p_val}')

5.447168150485581 -2.262157162740992 2.2621571627409915
Значение статистики попадает в критическую область. Нулевая гипотеза отвергается
р-значение: 0.0006107546587257318


## 3. Измерены значения IQ выборки студентов, обучающихся в местных технических вузах:
```
131, 125, 115, 122, 131, 115, 107, 99, 125, 111
```
Известно, что в генеральной совокупности IQ распределен нормально. Найдите доверительный интервал для математического ожидания с надежностью 0.95.

In [51]:
Stud_iq = np.array([131, 125, 115, 122, 131, 115, 107, 99, 125, 111])
n = Stud_iq.shape[0]
p = 0.95
a = 1-p

t1 = stats.norm.ppf(a/2)
t2 = stats.norm.ppf(1 - a/2)

s1 = (Stud_iq.mean() + t1 * Stud_iq.std() / np.sqrt(n))
s2 = (Stud_iq.mean() + t2 * Stud_iq.std() / np.sqrt(n))
print(f'Выборочное среднее: {Stud_iq.mean()}')
print(f'Доверительный интервал c надежностью {p}: {s1, s2}')

Выборочное среднее: 118.1
Доверительный интервал c надежностью 0.95: (111.89926122656924, 124.30073877343075)


## 4. Выберите тему для проектной работы по курсу Теории вероятностей и математической статистики и напишите ее в комментарии к Практическому заданию.

Проект оценки финансовой устойчивости компании на основании ряда обезличенных показателей.

Данные https://www.kaggle.com/shebrahimi/financial-distress?select=Financial+Distress.csv