### Задача 1
Даны значения величины заработной платы заемщиков банка (salary) и значения их поведенческого кредитного скоринга (scoring):

salary = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110]

scoring = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]

1. Найдите ковариацию этих двух величин: сначала без использования специальных функций, а затем с помощью функции numpy.cov. Полученные значения должны быть равны.
2. Найдите коэффициент корреляции Пирсона: с помощью ковариации и средних квадратических отклонений двух признаков, а затем с помощью специальных функций из библиотек numpy и pandas.

In [1]:
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt

In [2]:
df = pd.DataFrame({'salary':[35, 45, 190, 200, 40, 70, 54, 150, 120, 110], 
                   'scoring':[401, 574, 874, 919, 459, 739, 653, 902, 746, 832]})

Посчитаем ковариацию по формуле:

$$\operatorname{cov}(X, Y) = M\left( (X - M(X)) (Y - M(Y)) \right).$$

In [3]:
X = df['salary']
Y = df['scoring']

M_salary = np.mean(X)
M_scoring = np.mean(Y)

covariance = sum((X - M_salary) * (Y - M_scoring)) / (len(X) - 1)
covariance

10175.377777777778

In [4]:
cov = np.cov(X, Y)
cov

array([[ 3882.93333333, 10175.37777778],
       [10175.37777778, 33854.32222222]])

Теперь найдем коэффициент корреляции Пирсона по формуле:

$$r_{XY} = \dfrac{\operatorname{cov}(X, Y)}{\sigma_X \cdot \sigma_Y}.$$

In [5]:
salary_std = X.std()
scoring_std = Y.std()

corr = covariance / (salary_std * scoring_std)
corr

0.8874900920739162

In [6]:
np.corrcoef(X, Y)

array([[1.        , 0.88749009],
       [0.88749009, 1.        ]])

In [7]:
df[['salary', 'scoring']].corr()

Unnamed: 0,salary,scoring
salary,1.0,0.88749
scoring,0.88749,1.0


### Задача 2
Измерены значения IQ выборки студентов, обучающихся в местных технических вузах:

131, 125, 115, 122, 131, 115, 107, 99, 125, 111

Известно, что в генеральной совокупности IQ распределен нормально. Найдите доверительный интервал для математического ожидания с надежностью 0.95.

In [8]:
X = np.array([131, 125, 115, 122, 131, 115, 107, 99, 125, 111])
n = len(X)
alpha = 0.05
m = X.mean()
s = X.std(ddof=1)

По условию задачи нам не дано среднее квадратическое отклонение, поэтому будем использовать для получения доверительно интервала Квантили распределения Стьюдента. Значение $t$ возьмем из [таблицы](https://ru.wikipedia.org/wiki/%D0%9A%D0%B2%D0%B0%D0%BD%D1%82%D0%B8%D0%BB%D0%B8_%D1%80%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D1%8F_%D0%A1%D1%82%D1%8C%D1%8E%D0%B4%D0%B5%D0%BD%D1%82%D0%B0) квантилей t-распределения.

In [9]:
t = 2.2622

Найдем доверительный интервал:

In [10]:
(m - t * s / np.sqrt(n), m + t * s / np.sqrt(n))

(110.55594079648245, 125.64405920351754)

### Задача 3
Известно, что рост футболистов в сборной распределен нормально с известной дисперсией 25. На выборке объёма 27 выборочное среднее составило 174.2. Найдите доверительный интервал для математического ожидания с надежностью 0.95.

In [13]:
n = 27
m = 174.2
D = 25
s = np.sqrt(D)

Так как по условию нам дана дисперсия и мы смогли рассчитать среднее квадратическое отклонение, для постоения доверительного интервала воспользуемся правилом двух сигм.

In [14]:
(m - 2 * s, m + 2 * s)

(164.2, 184.2)