In [1]:
from math import sqrt
import numpy as np
import pandas as pd

#### 1. Даны значения величины заработной платы заемщиков банка (zp) и значения их поведенческого кредитного скоринга (ks):
```
zp = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110],
ks = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832].
```
* Найдите ковариацию этих двух величин с помощью элементарных действий, а затем с помощью функции cov из numpy. Полученные значения должны быть равны.
* Найдите коэффициент корреляции Пирсона с помощью ковариации и среднеквадратичных отклонений двух признаков, а затем с использованием функций из библиотек numpy и pandas.

In [2]:
zp = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
ks = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

# считаем вручную

cov = (zp * ks).mean() - zp.mean() * ks.mean() # ковариация
szp = np.std(zp)
sks = np.std(ks)
corr = cov / ( szp * sks ) # коэфициент корреляции

# считаем через numpy

Ncov = np.cov(zp, ks, ddof=0)[0][1] # ковариация
Ncorr = np.corrcoef(zp, ks)[0][1] # коэфициент корреляции

print(f'Ковариация: вручную = {cov:0.5}, через numpy = {Ncov:0.5}')
print(f'Коэфициент корреляции: вручную = {corr:0.5}, через numpy = {Ncorr:0.5}')

# считаем через pandas

df = pd.DataFrame({'zp':zp, 'ks':ks})
PCorr = df.loc[:, ['zp', 'ks']].corr()['zp']['ks']
print(f'Коэфициент корреляции через pandas = {PCorr:0.5}')

Ковариация: вручную = 9157.8, через numpy = 9157.8
Коэфициент корреляции: вручную = 0.88749, через numpy = 0.88749
Коэфициент корреляции через pandas = 0.88749


#### 2. Измерены значения IQ выборки студентов, обучающихся в местных технических вузах:
```
131, 125, 115, 122, 131, 115, 107, 99, 125, 111.
```
Известно, что в генеральной совокупности IQ распределен нормально.
Найдите доверительный интервал для математического ожидания с надежностью 0.95.

In [3]:
iq = [131, 125, 115, 122, 131, 115, 107, 99, 125, 111]

n = len(iq) # n независимых измерений
m = np.mean(iq) # среднее значение выборки
o = np.std(iq, ddof=1) # Выборочное исправленное среднеквадратичное отклонение

# применяем критерий T так как среднеквадратичное значение не известно

T = 2.262 # берем из таблицы Стьюдента для α = 0.05 (т.е. α/2 -> 0.025 и для v = 9 степеней свободы)
pm = T * o / sqrt(n) # вычисляем +/- интервал

print(f'Среднее = {m:0.5}, Среднеквадратичное отклонение = {o:0.5}, интервал = {pm:0.5}')
print(f'Доверительный интервал от {m-pm:0.5} до {m+pm:0.5}')

Среднее = 118.1, Среднеквадратичное отклонение = 10.546, интервал = 7.5434
Доверительный интервал от 110.56 до 125.64


#### 3. Известно, что рост футболистов в сборной распределен нормально с дисперсией генеральной совокупности, равной 25 кв.см. Объем выборки равен 27, среднее выборочное составляет 174.2. Найдите доверительный интервал для математического ожидания с надежностью 0.95.

In [4]:
# применяем критерий Z так как среднеквадратичное значение известно

n = 27 # объем выборки
m = 174.2 # среднее значение выборки
D = 4 # дисперсия
o = sqrt(D) # среднеквадратичное отклонение

Z = 1.96 # берем из таблицы для 0.975 (для a/2)

pm = Z * o/sqrt(n)

print(f'Доверительный интервал от {m-pm:0.5} до {m+pm:0.5}')

Доверительный интервал от 173.45 до 174.95
