### Теория вероятностей и математическая статистика
##### Домашнее задание к уроку 6

<b>Задача 1</b>

Даны значения величины заработной платы заемщиков банка (salary) и значения их поведенческого кредитного скоринга (scoring):

salary = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110]
scoring = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]

1. Найдите ковариацию этих двух величин: сначала без использования специальных функций, а затем с помощью функции numpy.cov. Полученные значения должны быть равны.
2. Найдите коэффициент корреляции Пирсона: с помощью ковариации и средних квадратических отклонений двух признаков, а затем с помощью специальных функций из библиотек numpy и pandas.

In [9]:
import numpy as np
import pandas as pd

salary = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
scoring = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

# 1. Считаем ковариацию вручную
m_salary = salary.mean()
m_scoring = scoring.mean()

cov = ((salary - m_salary) * (scoring - m_scoring)).sum() / (salary.shape[0] - 1)
cov

10175.37777777778

In [4]:
# Считаем ковариацию при помощи встроенной функции
np.cov(salary, scoring)[0, 1]

10175.377777777778

In [6]:
# 2. Коэфициент корреляции Пирсона, считаем вручную
pirson_corr = cov / (salary.std(ddof = 1) * scoring.std(ddof = 1))
pirson_corr

0.8874900920739164

In [13]:
# Коэфициент корреляции Пирсона, считаем при помощи встроенных функций
data = {'salary': salary, 'scoring': scoring}
df = pd.DataFrame(data)
# Функция .corr() из библиотеки pandas
df[['salary', 'scoring']].corr()

Unnamed: 0,salary,scoring
salary,1.0,0.88749
scoring,0.88749,1.0


In [14]:
# Функция np.corrcoef() из библиотеки numpy
np.corrcoef(salary, scoring)

array([[1.        , 0.88749009],
       [0.88749009, 1.        ]])

<b>Задача 2</b>

Измерены значения IQ выборки студентов, обучающихся в местных технических вузах:

131, 125, 115, 122, 131, 115, 107, 99, 125, 111

Известно, что в генеральной совокупности IQ распределен нормально. Найдите доверительный интервал для математического ожидания с надежностью 0.95.

Нам неизвестны ни СКО, ни дисперсия генеральной совокупности, поэтому будем использовать t-статистику и распределение Стьюдента.

$$P \left( \overline{X} + t_{\alpha / 2, \: n - 1} \cdot \dfrac{\sigma_X}{\sqrt{n}} \leq \mu \leq \overline{X} + t_{1 - \alpha / 2, \: n - 1} \cdot \dfrac{\sigma_X}{\sqrt{n}} \right) = p$$

In [20]:
from scipy import stats
import math as m

# Входные данные
iq = np.array([131, 125, 115, 122, 131, 115, 107, 99, 125, 111])
n = iq.shape[0]
p = 0.95
alpha = 1 - p
ave_iq = iq.mean()

# Считаем квантили
t1 = stats.t.ppf(alpha / 2, df = n - 1)
t2 = stats.t.ppf(1 - alpha / 2, df = n - 1)

# Считаем оценку СКО - выборочное среднее квадратическое отклонение
sigma_x = iq.std(ddof = 1)

# Левая и правая границы доверительного интервала математического ожидания:
left_p = ave_iq + t1 * sigma_x / m.sqrt(n)  
right_p = ave_iq + t2 * sigma_x / m.sqrt(n)

print (f'Доверительный интервал математического ожидания: ({left_p:.4f}; {right_p:.4f})')

Доверительный интервал математического ожидания: (110.5561; 125.6439)


<b>Задача 3</b>

Известно, что рост футболистов в сборной распределен нормально с известной дисперсией 25. На выборке объёма 27 выборочное среднее составило 174.2. Найдите доверительный интервал для математического ожидания с надежностью 0.95.

Нам известна дисперсия, а также то, что данные распределены нормально. Поэтому будем использовать Z-статистику.

$$P \left( \overline{X} + t_{\alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}} \leq \mu \leq \overline{X} + t_{1 - \alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}} \right) = p$$

In [22]:
# Входные данные
n = 27
p = 0.95
alpha = 1 - p
ave_height = 174.2
sq_sigma = 25

#Вычисляем квантили
t1 = stats.norm.ppf(alpha / 2)     
t2 = stats.norm.ppf(1 - alpha / 2)

# Левая и правая границы доверительного интервала
left_point = ave_height + t1 * m.sqrt(sq_sigma) / m.sqrt(n)  
right_point = ave_height + t2 * m.sqrt(sq_sigma) / m.sqrt(n)

print (f'Доверительный интервал для математического ожидания: ({left_point:.4f}; {right_point:.4f})')

Доверительный интервал для математического ожидания: (172.3140; 176.0860)
