In [1]:
import numpy as np
import pandas as pd

### Задача 1
Даны значения величины заработной платы заемщиков банка (salary) и значения их поведенческого кредитного скоринга (scoring):

salary = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110]

scoring = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]

1. Найдите ковариацию этих двух величин: сначала без использования специальных функций, а затем с помощью функции numpy.cov. Полученные значения должны быть равны.
2. Найдите коэффициент корреляции Пирсона: с помощью ковариации и средних квадратических отклонений двух признаков, а затем с помощью специальных функций из библиотек numpy и pandas.

In [2]:
def cov(X, Y, ddof=1):
    X_mean = X.mean()
    Y_mean = Y.mean()
    return ((X - X_mean) * (Y - Y_mean)).sum() / (X.shape[0] - ddof)
def std(X, ddof=1):
    X_mean = X.mean()
    return np.sqrt(((X - X_mean)**2).sum() / (X.shape[0] - ddof))

def corr(X,Y):
    return cov(X, Y) / (std(X) * std(Y))

In [3]:
salary = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
scoring = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

In [4]:
print(f'Расчетная ковариация: {cov(salary, scoring):26f}')
print(f'Ковариация с использованием np.cov: {np.cov(salary, scoring)[0,1]:10f}')

Расчетная ковариация:               10175.377778
Ковариация с использованием np.cov: 10175.377778


In [6]:
print(f'Расчетный коэффициент корреляции Пирсона: {corr(salary,  scoring):28f}')
print(f'Коэффициент корреляции Пирсона с использованием np.corrcoef: {corr(salary,  scoring):9f}')
d = {'salary': salary, 'scoring': scoring}
df = pd.DataFrame(data = d)
df_corr = df.corr()['scoring'][0]
print(f'Коэффициент корреляции Пирсона с использованием df.corr(): {df_corr:11f}')

Расчетный коэффициент корреляции Пирсона:                     0.887490
Коэффициент корреляции Пирсона с использованием np.corrcoef:  0.887490
Коэффициент корреляции Пирсона с использованием df.corr():    0.887490


#### Задача 2

Измерены значения IQ выборки студентов, обучающихся в местных технических вузах:

131, 125, 115, 122, 131, 115, 107, 99, 125, 111

Известно, что в генеральной совокупности IQ распределен нормально. Найдите доверительный интервал для математического ожидания с надежностью 0.95.

#### Решение:
Т.к. параметры генеральной совокупности неизвестны, кроме того, что распределение нормальное, то будем использовать распределение Стюдента для нахождения доверительного интервала по формуле: $$
P \left( 
\overline{X} - t_{1 - \alpha/2, \: n - 1} \cdot \dfrac{S}{\sqrt{n}} 
\leq M(X) \leq
\overline{X} + t_{1 - \alpha/2, \: n - 1} \cdot \dfrac{S}{\sqrt{n}} 
\right).
$$

In [8]:
from scipy import stats
IQ = np.array([131, 125, 115, 122, 131, 115, 107, 99, 125, 111])
X_mean = IQ.mean()
n =  IQ.shape[0]
t = stats.t.ppf(1-0.025,n-1)
S = std(IQ, ddof=0)
P = [X_mean- t * S / np.sqrt(n), X_mean + t * S / np.sqrt(n)]
print(f'Выборочная средняя: {X_mean}')
print(f'Размер выборки: {n}')
print(f'Распределения Стьюдента {t} для выборки из {n} c надежностью 0.95')
print(f'Выборочное смещенное среднеквадратичное отклонение: {S}')
print(f'Доверительный интервал для математического ожидания с надежностью 0.95: {P}')

Выборочная средняя: 118.1
Размер выборки: 10
Распределения Стьюдента 2.2621571627409915 для выборки из 10 c надежностью 0.95
Выборочное смещенное среднеквадратичное отклонение: 10.004498987955369
Доверительный интервал для математического ожидания с надежностью 0.95: [110.9432125583706, 125.25678744162938]


#### Задача 3

Известно, что рост футболистов в сборной распределен нормально с известной дисперсией 25. На выборке объёма 27 выборочное среднее составило 174.2. Найдите доверительный интервал для математического ожидания с надежностью 0.95.

#### Решение:
Т.к. дисперсия генеральной совокупности известна, распределение нормальное, то будем использовать правило 2 сигм для нахождения доверительно интервала с надежностью 0.95: $$
P \left( 
\overline{X} - 2 \cdot \sigma 
\leq M(X) \leq
\overline{X} + 2 \cdot \sigma
\right).
$$

In [9]:
X_mean = 174.2 # выборочное среднее 
D = 25 # дисперсия
n = 27 # объём выборки
sigma = np.sqrt(D/n) #  среднеквадратичное отклонение
P = [X_mean - 2 * sigma, X_mean + 2 * sigma]
print(f'Доверительный интервал для математического ожидания с надежностью 0.95:{P}')

Доверительный интервал для математического ожидания с надежностью 0.95:[172.27549910270125, 176.12450089729873]


#### Задача 4

Выберите тему для проектной работы по курсу Теории вероятностей и математической статистики и напишите ее в комментарии к Практическому заданию.