In [1]:
import numpy as np
import pandas as pd
from scipy import stats

__Задача 1__

Даны значения величины заработной платы заемщиков банка (`salary`) и значения их поведенческого кредитного скоринга (`scoring`):
```
salary = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110]
scoring = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]
```
1. Найдите ковариацию этих двух величин: сначала без использования специальных функций, а затем с помощью функции `numpy.cov`. Полученные значения должны быть равны.
2. Найдите коэффициент корреляции Пирсона: с помощью ковариации и средних квадратических отклонений двух признаков, а затем с помощью специальных функций из библиотек `numpy` и `pandas`.



In [4]:
salary = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])

In [5]:
scoring = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

Ручной расчет ковариации

In [12]:
def covariance(array_1, array_2):
    MX = array_1.mean()
    MY = array_2.mean()
    return ((array_1 - MX)*(array_2 - MY)).sum()/(len(array_1)-1)
        

In [13]:
covariance(salary, scoring)

10175.37777777778

Ковариация с использованием стандартной функции

In [11]:
np.cov(salary, scoring)

array([[ 3882.93333333, 10175.37777778],
       [10175.37777778, 33854.32222222]])

**Коэффициент Пирсона**

$$r_{XY} = \dfrac{\sigma_{XY}}{\sigma_X \cdot \sigma_Y}$$

In [36]:
cov = covariance(salary, scoring)

считаем среднеквадратическое отклонение для выборки

In [69]:
def sigma_calc(array):
    mean = array.mean()
    n = array.size - 1
    total = 0
    for elem in array:
        total += (elem - mean)**2
    return np.sqrt(total/n)

проверка при помощи станлартной функции

In [70]:
salary.std(ddof = 1)

62.31318747531162

расчеты

In [71]:
sigma_salary = sigma_calc(salary)
sigma_salary

62.31318747531162

In [72]:
sigma_scoring = sigma_calc(scoring)
sigma_scoring

183.99544076477068

расчет коэффициента Пирсона

In [74]:
pirson = (cov)/(sigma_salary * sigma_scoring)
pirson

0.8874900920739164

При помощи стандартных функций

In [35]:
np.corrcoef(salary, scoring)

array([[1.        , 0.88749009],
       [0.88749009, 1.        ]])

Величины находятся достаточно близко .

__Задача 2__

Измерены значения IQ выборки студентов, обучающихся в местных технических вузах:
```
131, 125, 115, 122, 131, 115, 107, 99, 125, 111
```
Известно, что в генеральной совокупности IQ распределен нормально. Найдите доверительный интервал для математического ожидания с надежностью 0.95.



In [14]:
iq_list = np.array([131, 125, 115, 122, 131, 115, 107, 99, 125, 111])

In [15]:
alpha = 1-0.95

In [18]:
n = iq_list.shape[0]

Т.к. дисперсии или среднеквадратичного отклонения нет в условии, имеет смысл попробовать использовать критерий Стьюдента

считаем квантили для заданной вероятности

In [20]:
t1 = stats.t.ppf(alpha / 2, df=n - 1)
t2 = stats.t.ppf(1 - alpha / 2, df=n - 1)

t1, t2

(-2.2621571627409915, 2.2621571627409915)

In [23]:
mean = iq_list.mean()
std = iq_list.std(ddof=1)
mean, std

(118.1, 10.54566788359614)

Считаем доверительный интервал для рассчитаных значений квантилей и статистических показателей

In [24]:
(mean + t1 * std / np.sqrt(n), mean + t2 * std / np.sqrt(n))

(110.55608365158724, 125.64391634841274)

__Задача 3__

Известно, что рост футболистов в сборной распределен нормально с известной дисперсией 25. На выборке объёма 27 выборочное среднее составило 174.2. Найдите доверительный интервал для математического ожидания с надежностью 0.95.



In [76]:
var = 25
n = 27
mean = 174.2
alpha = 1 - 0.95
scale = np.sqrt(var)

Т.к. параметры нам известны, можно использовать z критерий для нормального распределения

Рассчитываем квантили при помощи стандартных функций.  

In [84]:
t1 = stats.norm.ppf(alpha/2)
t2 = stats.norm.ppf(1 - alpha/2)
t1, t2

(-1.959963984540054, 1.959963984540054)

Определяем доверительный интервал.

In [85]:
(mean + t1 * scale / np.sqrt(n), mean + t2 * scale / np.sqrt(n))

(172.3140237765397, 176.08597622346028)