In [1]:

import numpy as np
import pandas as pd

from typing import List
from scipy.stats import t, norm

---

#### 1. Даны значения величины заработной платы заемщиков банка (zp) и значения их поведенческого кредитного скоринга (ks): zp = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110], ks = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]. Найдите ковариацию этих двух величин с помощью элементарных действий, а затем с помощью функции cov из numpy полученные значения должны быть равны. Найдите коэффициент корреляции Пирсона с помощью ковариации и среднеквадратичных отклонений двух признаков, а затем с использованием функций из библиотек numpy и pandas.

In [2]:
zp = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110]
ks = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]

In [3]:
def cov(a: List[int], b: List[int]) -> float:
    """
    Ковариация
    """
    if len(a) != len(b):
        raise ValueError()
        
    a_mean = np.mean(a)
    b_mean = np.mean(b)
    
    summa = 0.0
    for i in range(0, len(a)):
        summa += ((a[i] - a_mean) * (b[i] - b_mean))
    
    return summa/(len(a) -1)

In [4]:
def pearson_correlation(a: List[int], b: List[int], ddof: int=1) -> float:
    """
    Коэффициент корреляции Пирсона
    """
    if len(a) != len(b):
        raise ValueError()
        
    a_std = np.std(a, ddof=ddof)
    b_std = np.std(b, ddof=ddof)
    
    return cov(a, b)/(a_std * b_std)

In [5]:
"""
Найдите ковариацию этих двух величин с помощью элементарных действий,
а затем с помощью функции cov из numpy полученные значения должны быть равны
"""
man_cov = cov(zp, ks)

x = np.vstack((zp, ks))
np_cov = np.cov(x)[0][1]

print(f"({man_cov} == {np_cov}) = {(man_cov - np_cov) < .00000000001}")

(10175.377777777778 == 10175.377777777776) = True


In [6]:
"""
Найдите коэффициент корреляции Пирсона с помощью ковариации и среднеквадратичных отклонений двух признаков,
а затем с использованием функций из библиотек numpy и pandas
"""
man_corrcoef = pearson_correlation(zp, ks)

x = np.vstack((zp, ks))
np_corrcoef = np.corrcoef(x)[0][1]

zp_series = pd.Series(zp)
ks_series = pd.Series(ks)
pd_corrcoef = zp_series.corr(ks_series)

print(f"({man_corrcoef} == {np_corrcoef} == {pd_corrcoef}) = {(man_corrcoef - np_corrcoef) < .00000000001 and np_corrcoef == pd_corrcoef}")

(0.8874900920739162 == 0.8874900920739159 == 0.8874900920739159) = True


---

#### 2. Измерены значения IQ выборки студентов, обучающихся в местных технических вузах: 131, 125, 115, 122, 131, 115, 107, 99, 125, 111. Известно, что в генеральной совокупности IQ распределен нормально. Найдите доверительный интервал для математического ожидания с надежностью 0.95.

In [7]:
data = [131, 125, 115, 122, 131, 115, 107, 99, 125, 111]
n = len(data)
reliability = .95

std = np.std(data, ddof=1)
print(f"std={std}")
mu = np.mean(data)
reliability = .95
alpha = (1.0 + reliability)/2.0
print(f"alpha={alpha}")
print(f"ppf={t.ppf(alpha, df=n-1)}")

tmp = t.ppf(alpha, df=n-1)*(std/np.sqrt(n))
p = mu - tmp
m = mu + tmp
(p, m)

std=10.54566788359614
alpha=0.975
ppf=2.2621571627409915


(110.55608365158724, 125.64391634841274)

---

#### 3. Известно, что рост футболистов в сборной распределен нормально с дисперсией генеральной совокупности, равной 25 кв.см. Объем выборки равен 27, среднее выборочное составляет 174.2. Найдите доверительный интервал для математического ожидания с надежностью 0.95.

In [8]:
n = 27
mu = 174.2
variance = 25
reliability = .95

alpha = (1.0 + reliability)/2.0
print(f"alpha={alpha}")
print(f"ppf={norm.ppf(alpha)}")

tmp = norm.ppf(alpha)*(np.sqrt(variance)/np.sqrt(n))
p = mu - tmp
m = mu + tmp
(p, m)

alpha=0.975
ppf=1.959963984540054


(172.3140237765397, 176.08597622346028)