In [1]:
import numpy as np
import pandas as pd
from scipy import stats

### Задача 1
Даны значения величины заработной платы заемщиков банка (salary) и значения их поведенческого кредитного скоринга (scoring):

salary = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110]

scoring = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]

1. Найдите ковариацию этих двух величин: сначала без использования специальных функций, а затем с помощью функции numpy.cov. Полученные значения должны быть равны.
2. Найдите коэффициент корреляции Пирсона: с помощью ковариации и средних квадратических отклонений двух признаков, а затем с помощью специальных функций из библиотек numpy и pandas.

Найдем ковариацию двух величин по формуле $\operatorname{cov}(X, Y) = M\left( (X - M(X)) (Y - M(Y)) \right).$

In [2]:
salary = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
scoring = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

salary_mean = salary.mean()
scoring_mean = scoring.mean()

cov = ((salary - salary_mean) * (scoring - scoring_mean)).mean()
cov

9157.84

Теперь посчитаем оценку ковариации с помощью функции numpy.

In [3]:
np.cov(salary, scoring, ddof=0)

array([[ 3494.64,  9157.84],
       [ 9157.84, 30468.89]])

В матрице значение 9157.84 является оценкой ковариации.

Теперь найдем коэффициент корреляции Пирсона $r_{XY} = \dfrac{\operatorname{cov}(X, Y)}{\sigma_X \cdot \sigma_Y}.$

In [4]:
corr = cov / (salary.std() * scoring.std())
corr

0.8874900920739162

Теперь посчитаем тот же коэффициент, но уже с помощью функции numpy.

In [5]:
np.corrcoef(salary, scoring)

array([[1.        , 0.88749009],
       [0.88749009, 1.        ]])

Теперь посчитаем коэффициент корреляции Пирсона с помощью pandas.

In [6]:
d = {'salary': salary, 'scoring': scoring}
df = pd.DataFrame(d)
df[['salary', 'scoring']].corr()

Unnamed: 0,salary,scoring
salary,1.0,0.88749
scoring,0.88749,1.0


Значение коэффициента корреляции Пирсона, посчитанный вручную, совпадает с посчитанным с помощью функции numpy или pandas.

### Задача 2
Измерены значения IQ выборки студентов, обучающихся в местных технических вузах:

131, 125, 115, 122, 131, 115, 107, 99, 125, 111

Известно, что в генеральной совокупности IQ распределен нормально. Найдите доверительный интервал для математического ожидания с надежностью 0.95.

Т.к. у нас неизвестна дисперсия, то воспользуемся формулой доверительного интервала, выведенной из t-статистики Стьюдента
$$
P \left( 
    \overline{X} - t_{1 - \alpha/2, \: n - 1} \cdot \dfrac{\sigma_X}{\sqrt{n}} 
    \leq a \leq
    \overline{X} + t_{1 - \alpha/2, \: n - 1} \cdot \dfrac{\sigma_X}{\sqrt{n}} 
\right) = p.
$$
Вычислим из нашей выборки необходимые нам значения.

In [7]:
samples = np.array([131, 125, 115, 122, 131, 115, 107, 99, 125, 111])
p = 0.95
alpha = 1 - p
n = samples.shape[0]
mean = samples.mean()
std = samples.std(ddof=1)
n, mean, std

(10, 118.1, 10.54566788359614)

Найдем квантиль $t_{1 - \alpha/2, \: n - 1}$ с помощью scipy.

In [8]:
t = stats.t.ppf(1 - alpha / 2, df = n - 1)
t

2.2621571627409915

Теперь посчитаем доверительный интервал.

In [9]:
(mean - t * std / np.sqrt(n), mean + t * std / np.sqrt(n))

(110.55608365158724, 125.64391634841274)

### Задача 3
Известно, что рост футболистов в сборной распределён нормально с известной дисперсией 25. На выборке объёма 27 выборочное среднее составило 174.2. Найдите доверительный интервал для математического ожидания с надёжностью 0.95.

Т.к. дисперсия нам известна, то воспользуемся следующим доверительным интервалом:
$$
P \left(
    \overline{X} - t_{1 - \alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}}
    \leq a \leq 
    \overline{X} + t_{1 - \alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}}
\right) = p.
$$

Запишем известные нам параметры и найдем неизвестные.

In [10]:
n = 27
d = 25
mean = 174.2
p = 0.95
alpha = 1 - p
std = np.sqrt(d)
alpha, std

(0.050000000000000044, 5.0)

Найдем квантиль $t_{1 - \alpha/2}$ с помощью scipy.

In [11]:
t = stats.t.ppf(1 - alpha / 2, df = n)
t

2.0518305164802833

Найдем доверительный интервал.

In [12]:
(mean - t * std / np.sqrt(n), mean + t * std / np.sqrt(n))

(172.22562516496436, 176.17437483503562)