### Урок 8. Корреляционный анализ
---
---

1. Даны значения величины заработной платы заемщиков банка (zp) и значения их поведенческого кредитного скоринга (ks):

zp = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110],

ks = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832].

Найдите ковариацию этих двух величин с помощью элементарных действий, а затем с помощью функции cov из numpy

Полученные значения должны быть равны.

Найдите коэффициент корреляции Пирсона с помощью ковариации и среднеквадратичных отклонений двух признаков, а затем с использованием функций из библиотек numpy и pandas.  

---

Вычислим ковариацию с помощью элементарных действий:  

![](images/covariance.png)

Вычислим ковариацию с помощью функции cov из numpy:

In [4]:
import numpy as np

zp = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110]
ks = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]

covariance = np.cov(zp, ks, ddof=0)[0, 1]
print(covariance)


9157.84


Для нахождения коэффициента корреляции Пирсона с помощью ковариации и среднеквадратичных отклонений двух признаков нужно выполнить следующие шаги:

1. Найти среднее значение каждой из величин:  

![](images/1.png)

μzp = (35 + 45 + 190 + 200 + 40 + 70 + 54 + 150 + 120 + 110) / 10 = 101.4

μks = (401 + 574 + 874 + 919 + 459 + 739 + 653 + 902 + 746 + 832) / 10 = 709.9

2. Найти ковариацию между величинами:  

![](images/2.png)

cov(zp, ks) = [(35 - 101.4) * (401 - 709.9) + (45 - 101.4) * (574 - 709.9) + ... + (110 - 101.4) * (832 - 709.9)] / 9

cov(zp, ks) = 9157.84

3. Найти среднеквадратичные отклонения каждой из величин:  


![](images/3.png)

σzp = sqrt[((35 - 101.4)^2 + (45 - 101.4)^2 + ... + (110 - 101.4)^2) / 9]

σzp = 62.26

σks = sqrt[((401 - 709.9)^2 + (574 - 709.9)^2 + ... + (832 - 709.9)^2) / 9]

σks = 183.0

4. Вычислить коэффициент корреляции Пирсона по формуле:  

![](images/4.png)

r = cov(zp, ks) / (σzp * σks)

r = 9157.84 / (62.26 * 183.0)

r = 0.8875

**Таким образом, коэффициент корреляции Пирсона между заработной платой и кредитным скорингом равен приблизительно 0.8875.**

Для нахождения коэффициента корреляции Пирсона с помощью функций библиотек numpy и pandas необходимо выполнить следующие шаги:

In [5]:
# Импортировать библиотеку numpy и pandas:
import numpy as np
import pandas as pd


# Создать два массива numpy с данными:
zp = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
ks = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

# Найти ковариацию двух признаков с помощью функции cov из библиотеки numpy:
covariance = np.cov(zp, ks, ddof=0)[0, 1]

# Найти среднее значение и стандартное отклонение для каждого признака с помощью функций mean и std из библиотеки numpy:
mean_zp = np.mean(zp)
std_zp = np.std(zp, ddof=0)
mean_ks = np.mean(ks)
std_ks = np.std(ks, ddof=0)

# Найти коэффициент корреляции Пирсона с помощью формулы:
pearson = covariance / (std_zp * std_ks)

# Найти коэффициент корреляции Пирсона с помощью функции corrcoef из библиотеки numpy:
pearson_np = np.corrcoef(zp, ks)[0, 1]

# Найти коэффициент корреляции Пирсона с помощью функции corr из библиотеки pandas:
data = pd.DataFrame({'zp': zp, 'ks': ks})
pearson_pd = data.corr().loc['zp', 'ks']

# Вывести значения коэффициента корреляции Пирсона, полученные разными способами:
print("Коэффициент корреляции Пирсона (с помощью ковариации и среднеквадратичных отклонений):", pearson)
print("Коэффициент корреляции Пирсона (с помощью функции corrcoef из numpy):", pearson_np)
print("Коэффициент корреляции Пирсона (с помощью функции corr из pandas):", pearson_pd)


Коэффициент корреляции Пирсона (с помощью ковариации и среднеквадратичных отклонений): 0.8874900920739162
Коэффициент корреляции Пирсона (с помощью функции corrcoef из numpy): 0.8874900920739162
Коэффициент корреляции Пирсона (с помощью функции corr из pandas): 0.8874900920739168


---  
---  

2. Измерены значения IQ выборки студентов,  
обучающихся в местных технических вузах:

131, 125, 115, 122, 131, 115, 107, 99, 125, 111.

Известно, что в генеральной совокупности IQ распределен нормально.

Найдите доверительный интервал для математического ожидания с надежностью 0.95.

---

Для нахождения доверительного интервала для математического ожидания нам нужно знать среднее значение выборки и её стандартное отклонение.

Используем стандартное отклонение выборки в качестве оценки стандартного отклонения генеральной совокупности, так как мы не знаем его истинного значения:

In [6]:
import numpy as np

sample = np.array([131, 125, 115, 122, 131, 115, 107, 99, 125, 111])
n = len(sample)
mean = np.mean(sample)
std_dev = np.std(sample, ddof=1)  # исправленное стандартное отклонение


Здесь **n** - размер выборки, **mean** - среднее значение выборки, **std_dev** - исправленное стандартное отклонение выборки.

Теперь мы можем найти доверительный интервал для математического ожидания при помощи формулы:

In [7]:
import scipy.stats as stats

confidence_level = 0.95
alpha = 1 - confidence_level
t = stats.t.ppf(1 - alpha / 2, df=n-1)  # критическое значение t-статистики

lower = mean - t * std_dev / np.sqrt(n)
upper = mean + t * std_dev / np.sqrt(n)

print("Доверительный интервал: ({:.2f}, {:.2f})".format(lower, upper))


Доверительный интервал: (110.56, 125.64)


Здесь t - критическое значение t-статистики, которое мы находим с помощью функции stats.t.ppf() из библиотеки scipy.stats.

Итак, доверительный интервал для математического ожидания с надежностью 0.95 для данной выборки равен (110.56, 125.64). То есть мы можем утверждать, что с 95% уверенностью истинное значение математического ожидания находится в этом интервале.

---
---

3. Известно, что рост футболистов в сборной распределен нормально с дисперсией генеральной совокупности, равной 25 кв.см. Объем выборки равен 27, среднее выборочное составляет 174.2.  
Найдите доверительный интервал для математического ожидания с надежностью 0.95.

---

Для нахождения доверительного интервала с надежностью 0.95 используется следующая формула:

Доверительный интервал = (x̄ - zα/2 * (σ/√n), x̄ + zα/2 * (σ/√n))

где x̄ - выборочное среднее, σ - стандартное отклонение генеральной совокупности, n - объем выборки, zα/2 - квантиль стандартного нормального распределения уровня α/2.

Подставляя известные значения, получаем:

Доверительный интервал = (174.2 - 1.96 * (sqrt(25)/sqrt(27)), 174.2 + 1.96 * (sqrt(25)/sqrt(27)))

Доверительный интервал = (172.31, 176.09)

Таким образом, с вероятностью 0.95 можно утверждать, что истинное значение математического ожидания роста футболистов лежит в интервале от 172.31 до 176.09 см.

---

Также проверим решение с помощью кода...

In [4]:
from scipy.stats import t
import math

# Заданные параметры
n = 27
mean = 174.2
stddev_population = math.sqrt(25)
alpha = 0.05

# Находим критическое значение t-статистики
df = n - 1
t_critical = t.ppf(1 - alpha/2, df)

# Находим границы доверительного интервала
margin_of_error = t_critical * stddev_population / math.sqrt(n)
lower_bound = mean - margin_of_error
upper_bound = mean + margin_of_error

# Выводим результаты
print(f'Доверительный интервал: [{lower_bound}, {upper_bound}]')


Доверительный интервал: [172.2220658754539, 176.17793412454608]


Таким образом, с вероятностью 95% средний рост футболистов в сборной находится в интервале от 172.22 до 176.18 см.