In [1]:
import numpy as np
import pandas as pd
from scipy import stats

### Задача 1.

#### Даны значения величины заработной платы заёмщиков банка (zp) и значения их поведенческого кредитного скоринга (ks):
#### zp = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110],
#### ks = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832].
#### Найдите ковариацию этих двух величин с помощью элементарных действий, а затем с помощью функции cov из numpy
#### Полученные значения должны быть равны.
#### Найдите коэффициент корреляции Пирсона с помощью ковариации и среднеквадратичных отклонений двух признаков, а затем с использованием функций из библиотек numpy и pandas.

In [2]:
zp = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110]
ks = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]

In [3]:
m_zp = sum(zp) / len(zp) # математическое ожидание zp (X)
m_ks = sum(ks) / len(ks) # математическое ожидание ks (Y)

m_zp, m_ks

(101.4, 709.9)

In [4]:
# посчитаем ковариацию
# в переменных x и y считаем (X - M(X)) и (Y - M(Y)) из формулы ковариации

In [5]:
x = [i - m_zp for i in zp]
y = [j - m_ks for j in ks]

x, y

([-66.4,
  -56.400000000000006,
  88.6,
  98.6,
  -61.400000000000006,
  -31.400000000000006,
  -47.400000000000006,
  48.599999999999994,
  18.599999999999994,
  8.599999999999994],
 [-308.9,
  -135.89999999999998,
  164.10000000000002,
  209.10000000000002,
  -250.89999999999998,
  29.100000000000023,
  -56.89999999999998,
  192.10000000000002,
  36.10000000000002,
  122.10000000000002])

In [6]:
# найдём несмещённую оценку ковариации по формуле:

cov_1 = round(sum([x_ * y_ for x_, y_ in zip(x, y)]) / (len(zp) - 1), 8)

cov_1

10175.37777778

In [7]:
# найдём несмещённую оценку ковариации при помощи numpy:

cov_np_1 = np.cov(zp, ks, ddof=1)

cov_np_1

array([[ 3882.93333333, 10175.37777778],
       [10175.37777778, 33854.32222222]])

In [8]:
round(cov_np_1[0][1], 8), round(cov_np_1[1][0], 8)

(10175.37777778, 10175.37777778)

In [9]:
# проверим, что значения совпадают

In [10]:
cov_1 == round(cov_np_1[0][1], 8)

True

In [11]:
cov_1 == round(cov_np_1[1][0], 8)

True

In [12]:
# для интереса найдём смещённую ковариацию (по формуле):

cov_0 = round(sum([x_ * y_ for x_, y_ in zip(x, y)]) / len(zp), 8)
cov_0

9157.84

In [13]:
# и в numpy:

cov_np_0 = np.cov(zp, ks, ddof=0)
cov_np_0

array([[ 3494.64,  9157.84],
       [ 9157.84, 30468.89]])

In [14]:
round(cov_np_0[1][0], 8), round(cov_np_0[0][1], 8)

(9157.84, 9157.84)

In [15]:
# сравним значения, убедимся, что они равны

In [16]:
cov_0 == round(cov_np_0[1][0], 8)

True

In [17]:
cov_0 == round(cov_np_0[0][1], 8)

True

In [18]:
# посчитаем среднеквадратичные отклонения zp и ks по формуле:

x_std = round((sum([(i - m_zp) ** 2 for i in zp]) / (len(zp) - 1)) ** 0.5, 8)
y_std = round((sum([(j - m_ks) ** 2 for j in ks]) / (len(ks) - 1)) ** 0.5, 8)

x_std, y_std

(62.31318748, 183.99544076)

In [19]:
# посчитаем среднеквадратичные отклонения zp и ks при помощи numpy:

x_std_np = np.std(zp, ddof=1).round(8)
y_std_np = np.std(ks, ddof=1).round(8)

x_std_np, y_std_np

(62.31318748, 183.99544076)

In [20]:
# убедимся, что значения равны друг другу

In [21]:
x_std == x_std_np

True

In [22]:
y_std == y_std_np

True

In [23]:
# найдём коэффициент корреляции Пирсона по формуле:

Pearson_r = round(cov_1 / (x_std * y_std), 8)

Pearson_r

0.88749009

In [24]:
# найдём коэффициент корреляции Пирсона при помощи numpy:

Pearson_r_np = np.corrcoef(zp, ks)

Pearson_r_np

array([[1.        , 0.88749009],
       [0.88749009, 1.        ]])

In [25]:
round(Pearson_r_np[0][1], 8), round(Pearson_r_np[1][0], 8)

(0.88749009, 0.88749009)

In [26]:
# проверим, равны ли получившиеся значения

In [27]:
Pearson_r == round(Pearson_r_np[0][1], 8)

True

In [28]:
Pearson_r == round(Pearson_r_np[1][0], 8)

True

In [29]:
# найдём коэффициент корреляции Пирсона при помощи pandas:

Pearson_r_pd = pd.concat([pd.DataFrame(zp), pd.DataFrame(ks)], axis=1).corr(method='pearson')

Pearson_r_pd

Unnamed: 0,0,0.1
0,1.0,0.88749
0,0.88749,1.0


In [30]:
round(Pearson_r_pd.iloc[0].iloc[1], 8), round(Pearson_r_pd.iloc[1].iloc[0], 8)

(0.88749009, 0.88749009)

In [31]:
# проверим, соблюдается ли равенство

In [32]:
Pearson_r == round(Pearson_r_pd.iloc[0].iloc[1], 8)

True

In [33]:
Pearson_r == round(Pearson_r_pd.iloc[1].iloc[0], 8)

True

### Задача 2.

#### Измерены значения IQ выборки студентов, обучающихся в местных технических вузах:
#### 131, 125, 115, 122, 131, 115, 107, 99, 125, 111.
#### Известно, что в генеральной совокупности IQ распределён нормально.
#### Найдите доверительный интервал для математического ожидания с надёжностью 0.95.

In [34]:
iq = [131, 125, 115, 122, 131, 115, 107, 99, 125, 111]

iq

[131, 125, 115, 122, 131, 115, 107, 99, 125, 111]

In [35]:
n = len(iq) # объём выборки
p = 0.95 # уровень доверия
alpha = 1 - p # уровень значимости
mean = sum(iq) / n # среднее выборочное

print(f'Размер выборки: {n}\nУровень доверия: {p}\nУровень значимости: {alpha}\nВыборочное среднее: {mean}')

Размер выборки: 10
Уровень доверия: 0.95
Уровень значимости: 0.050000000000000044
Выборочное среднее: 118.1


In [36]:
# считаем квантили:

t1 = stats.t.ppf(alpha / 2, df=n - 1)
t2 = stats.t.ppf(1 - alpha / 2, df=n - 1)

t1, t2

(-2.2621571627409915, 2.2621571627409915)

In [37]:
# найдём доверительный интервал по формуле:

interval = mean + t1 * np.std(iq, ddof=1) / np.sqrt(n), mean + t2 * np.std(iq, ddof=1) / np.sqrt(n)

interval

(110.55608365158724, 125.64391634841274)

In [38]:
# найдём доверительный интервал при помощи stats.t.interval:

stats.t.interval(0.95, len(iq) - 1, loc=np.mean(iq), scale=stats.sem(iq))

(110.55608365158724, 125.64391634841274)

In [39]:
# посчитаем ширину доверительного интервала:

l = interval[0]
u = interval[1]

round((u - l), 8)

15.0878327

### Задача 3.

#### Известно, что рост футболистов в сборной распределён нормально с дисперсией генеральной совокупности, равной 25 кв.см.
#### Объём выборки равен 27, среднее выборочное составляет 174.2.
#### Найдите доверительный интервал для математического ожидания с надёжностью 0.95.

In [40]:
n = 27 # объём выборки
mean = 174.2 # среднее выборочное
p = 0.95 # уровень доверия
alpha = 1 - p # уровень значимости
d = 25 # дисперсия
std = np.sqrt(d) # среднеквадратичное отклонение

print(f'Объём выборки: {n}\nСреднее выборочное: {mean}\nУровень доверия: {p}\nУровень значимости: {alpha}\nДисперсия: {d}\nСреднеквадратичное отклонение: {std}')

Объём выборки: 27
Среднее выборочное: 174.2
Уровень доверия: 0.95
Уровень значимости: 0.050000000000000044
Дисперсия: 25
Среднеквадратичное отклонение: 5.0


In [41]:
# считаем квантили:

t1 = stats.norm.ppf(alpha / 2)
t2 = stats.norm.ppf(1 - alpha / 2)

t1, t2

(-1.959963984540054, 1.959963984540054)

In [42]:
# найдём доверительный интервал по формуле:

interval = mean + t1 * std / np.sqrt(n), mean + t2 * std / np.sqrt(n)

interval

(172.3140237765397, 176.08597622346028)

In [43]:
# найдём доверительный интервал при помощи stats.norm.interval:

stats.norm.interval(0.95, loc=mean, scale=std / np.sqrt(n))

(172.3140237765397, 176.08597622346028)

In [44]:
# посчитаем ширину доверительного интервала:

l = interval[0]
u = interval[1]

round((u - l), 8)

3.77195245

### Задача 4.

#### Проведите тест на значимость коэффициента корреляции Пирсона, найденного в задаче 1. Что для этого нужно знать:
#### * Нулевая гипотеза: реальный коэффициент корреляции равен 0. Альтернативная гипотеза двухсторонняя.
#### * Статистика: t = r * sqrt(n - 2) / sqrt(1 - r ** 2), где r - коэффициент корреляции Пирсона, посчитанный по выборке.
#### * В предположении верности нулевой гипотезы эта статистика имеет распределение Стьюдента с параметром df = n - 2.
#### В качестве ответа запишите 1, если нулевая гипотеза верна, и 0 иначе.

In [45]:
n = len(zp) # объём выборки

print(f'Объём выборки: {n}')

Объём выборки: 10


In [46]:
# посчитаем значение статистики:

t = round(Pearson_r * np.sqrt(n - 2) / np.sqrt(1 - Pearson_r ** 2), 8)

print(f'Значение статистики: {t}')

Значение статистики: 5.44716809


In [47]:
# найдём P-значение:

p_left = stats.t.cdf(t, df=n - 2)
p_right = 1 - stats.t.cdf(t, df=n - 2)

pvalue = round(2 * min(p_left, p_right), 8)

print(f'P-значение: {pvalue}')

P-значение: 0.00061075


In [48]:
# рассчитаем доверительный интервал для коэффициента корреляции Пирсона
# воспользуемся z-преобразованием Фишера:

z = 0.5 * (np.log((1 + Pearson_r) / (1 - Pearson_r)))

z

1.4099809620622528

In [49]:
# посчитаем границы преобразованного 95 % доверительного интервала для коэффициента корреляции Пирсона:

z_left = z - 1.96 / np.sqrt(n - 3) # нижняя граница
z_right = z + 1.96 / np.sqrt(n - 3) # верхняя граница

print(f'Нижняя граница: {z_left}\nВерхняя граница: {z_right}')

Нижняя граница: 0.6691705949641674
Верхняя граница: 2.150791329160338


In [50]:
# считаем 95% доверительный интервал для коэффициента корреляции Пирсона:

l = round((np.exp(z_left) ** 2 - 1) / (np.exp(z_left) ** 2 + 1), 8)
u = round((np.exp(z_right) ** 2 - 1) / (np.exp(z_right) ** 2 + 1), 8)

l, u

(0.58443404, 0.97326794)

In [51]:
print(f'P-значение ({pvalue}) меньше, чем alpha ({round(alpha, 2)}).\n'
      f'Соответственно, гипотезу H0 следует отвергнуть.\n'
      f'Также, исходя из гипотезы H0, реальный коэффициент корреляции Пирсона равен 0.\n'
      f'0 не попадает в 95% доверительный интервал для коэффициента корреляции Пирсона: {l, u}')

P-значение (0.00061075) меньше, чем alpha (0.05).
Соответственно, гипотезу H0 следует отвергнуть.
Также, исходя из гипотезы H0, реальный коэффициент корреляции Пирсона равен 0.
0 не попадает в 95% доверительный интервал для коэффициента корреляции Пирсона: (0.58443404, 0.97326794)


In [52]:
if pvalue > alpha:
      print('Ответ: 1')
else:
      print('Ответ: 0')

Ответ: 0
