In [1]:
import numpy as np
import pandas as pd
import scipy.stats as stats

#### 1. Даны значения величины заработной платы заемщиков банка (zp) и значения их поведенческого кредитного скоринга (ks):
#### zp = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110],
#### ks = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832].
#### Найдите ковариацию этих двух величин с помощью элементарных действий, а затем с помощью функции cov из numpy
#### Полученные значения должны быть равны.
#### Найдите коэффициент корреляции Пирсона с помощью ковариации и среднеквадратичных отклонений двух признаков,
#### а затем с использованием функций из библиотек numpy и pandas.

In [2]:
zp = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
ks = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

Формула ковариации:

$$cov_{XY} = M[(X - M(X))(Y - M(Y))] = M(XY) - M(X)M(Y)$$

In [3]:
cov1 = (zp * ks).mean() - zp.mean() * ks.mean()
cov2 = np.cov(zp, ks, ddof=0)

In [4]:
cov1

9157.839999999997

In [5]:
cov2

array([[ 3494.64,  9157.84],
       [ 9157.84, 30468.89]])

Формула коэффициент корреляции Писона:

$$r_{XY} = \frac{cov_{XY}}{\sigma_{X}\sigma_{Y}}$$

In [6]:
cor1 = cov1 / (np.std(zp)*np.std(ks))
cor2 = np.corrcoef(zp, ks)

In [7]:
cor1

0.8874900920739158

In [8]:
cor2

array([[1.        , 0.88749009],
       [0.88749009, 1.        ]])

#### 2. Измерены значения IQ выборки студентов, обучающихся в местных технических вузах:
#### 131, 125, 115, 122, 131, 115, 107, 99, 125, 111.
#### Известно, что в генеральной совокупности IQ распределен нормально.
#### Найдите доверительный интервал для математического ожидания с надежностью 0.95.

In [9]:
x = np.array([131, 125, 115, 122, 131, 115, 107, 99, 125, 111])
n = len(x)
p = 0.95
α = 1 - p # уровень значимости(вероятность ошибки 1-го рода)

In [10]:
def t_from_table(confidens, len_array):
    alpha=(1-confidens)
    return stats.t.ppf(1-alpha/2, len_array-1)

print(f'Табличное значение t-критерия для 95%-го доверительного интервала данной выборки: {t_from_table(0.95, len(x)): .3f}')

Табличное значение t-критерия для 95%-го доверительного интервала данной выборки:  2.262


Доверительный интервал, при НЕ известной $\sigma$, можно вычислить по формуле:$$T_{1,2} = \overline{X} \pm t_{\frac{\alpha}{2}} \cdot \frac{\sigma}{\sqrt{n}}$$

In [11]:
def confidens_int(arr, confidens):
    return round(np.mean(x) - t_from_table(confidens,len(x)) * np.std(x, ddof=1) / np.sqrt(len(x)),3), \
           round(np.mean(x) + t_from_table(confidens,len(x)) * np.std(x, ddof=1) / np.sqrt(len(x)),3)

confidens_int(x, 0.95)

(110.556, 125.644)

In [12]:
print('95%-й доверительный интервал для для математического ожидания с надежностью 0.95: [110.556, 125.644].')

95%-й доверительный интервал для для математического ожидания с надежностью 0.95: [110.556, 125.644].


#### 3. Известно, что рост футболистов в сборной распределен нормально с дисперсией генеральной совокупности, равной 25 кв.см. Объем выборки равен 27, среднее выборочное составляет 174.2. Найдите доверительный интервал для математического ожидания

In [13]:
σ = np.sqrt(25)
n = 27
μ = 174.2
α = 0.05 # поскольку в задаче не указано, выбираем сами
Z = stats.norm.ppf(0.975)

Доверительный интервал, при известной $\sigma$, можно вычислить по формуле:$$T_{1,2} = \overline{X} \pm Z_{\frac{\alpha}{2}} \cdot \frac{\sigma}{\sqrt{n}}$$

In [14]:
T1 = μ - Z * σ / np.sqrt(n)
T2 = μ + Z * σ / np.sqrt(n)

In [15]:
print(f'Доверительный интервал для оценки математического ожидания с надежностью 0.95: [{T1:.3f}; {T2:.3f}]')

Доверительный интервал для оценки математического ожидания с надежностью 0.95: [172.314; 176.086]
