# Урок 8. Корреляционный анализ

## 1. 

Даны значения величины заработной платы заемщиков банка (zp) и значения их поведенческого кредитного скоринга (ks): zp = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110], ks = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]. Найдите ковариацию этих двух величин с помощью элементарных действий, а затем с помощью функции cov из numpy Полученные значения должны быть равны. Найдите коэффициент корреляции Пирсона с помощью ковариации и среднеквадратичных отклонений двух признаков, а затем с использованием функций из библиотек numpy и pandas.

Найдем ковариацию между заработной платой заемщиков (zp) и их кредитным скорингом (ks).  Ковариация — это мера того, насколько две переменные изменяются вместе. Если мы обозначим средние значения этих переменных как $ \bar{zp} $ и $ \bar{ks} $, то ковариация $ cov(zp, ks) $ может быть рассчитана по формуле:

$$
cov(zp, ks) = \frac{\sum_{i=1}^{n} (zp_i - \bar{zp})(ks_i - \bar{ks})}{n-1}
$$

где $ zp_i $ и $ ks_i $ — отдельные значения заработной платы и кредитного скоринга, а $ n $ — количество наблюдений.

In [1]:
# Значения заработной платы заемщиков и кредитного скоринга
zp = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110]
ks = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]

# Средние значения
mean_zp = sum(zp) / len(zp)
mean_ks = sum(ks) / len(ks)

# Расчет ковариации
cov_zp_ks = sum((zp_i - mean_zp) * (ks_i - mean_ks) for zp_i, ks_i in zip(zp, ks)) / (len(zp) - 1)

print(f"Ковариация между zp и ks: {cov_zp_ks}")

Ковариация между zp и ks: 10175.377777777778


Теперь найдем ковариацию с помощью функции `cov` из библиотеки NumPy:

In [2]:
import numpy as np

# Расчет ковариации с помощью NumPy
cov_matrix = np.cov(zp, ks)

print(f"Матрица ковариации:\n{cov_matrix}")
print(f"Ковариация между zp и ks (из NumPy): {cov_matrix[0, 1]}")

Матрица ковариации:
[[ 3882.93333333 10175.37777778]
 [10175.37777778 33854.32222222]]
Ковариация между zp и ks (из NumPy): 10175.377777777776


В матрице ковариации значение в позиции [0, 1] и [1, 0] является ковариацией между `zp` и `ks`.

Теперь рассчитаем коэффициент корреляции Пирсона. Этот коэффициент показывает степень линейной зависимости между двумя переменными и рассчитывается по формуле:

$$
r_{zp,ks} = \frac{cov(zp, ks)}{s_{zp} \cdot s_{ks}}
$$

где $ s_{zp} $ и $ s_{ks} $ — среднеквадратичные отклонения заработной платы и кредитного скоринга соответственно.

In [3]:
# Среднеквадратичные отклонения
std_zp = (sum((zp_i - mean_zp)**2 for zp_i in zp) / (len(zp) - 1))**0.5
std_ks = (sum((ks_i - mean_ks)**2 for ks_i in ks) / (len(ks) - 1))**0.5

# Коэффициент корреляции Пирсона
r_zp_ks = cov_zp_ks / (std_zp * std_ks)

print(f"Коэффициент корреляции Пирсона: {r_zp_ks}")

Коэффициент корреляции Пирсона: 0.8874900920739163


In [4]:
import pandas as pd

# Создаем DataFrame
data = pd.DataFrame({'zp': zp, 'ks': ks})

# Расчет коэффициента корреляции Пирсона с помощью pandas
correlation_matrix = data.corr()

print(f"Матрица корреляции:\n{correlation_matrix}")
print(f"Коэффициент корреляции Пирсона (из pandas): {correlation_matrix.loc['zp', 'ks']}")

Матрица корреляции:
         zp       ks
zp  1.00000  0.88749
ks  0.88749  1.00000
Коэффициент корреляции Пирсона (из pandas): 0.8874900920739168


## 2.

 Измерены значения IQ выборки студентов, обучающихся в местных технических вузах: 131, 125, 115, 122, 131, 115, 107, 99, 125, 111. Известно, что в генеральной совокупности IQ распределен нормально. Найдите доверительный интервал для математического ожидания с надежностью 0.95.

Для нахождения доверительного интервала для математического ожидания с надежностью 0.95, мы можем использовать следующую формулу:

$$
\bar{X} \pm Z_{\frac{\alpha}{2}} \cdot \frac{\sigma}{\sqrt{n}}
$$

где:
- $ \bar{X} $ — среднее значение выборки,
- $ Z_{\frac{\alpha}{2}} $ — критическое значение нормального распределения (Z-значение) для заданного уровня доверия,
- $ \sigma $ — стандартное отклонение генеральной совокупности,
- $ n $ — размер выборки.

Так как стандартное отклонение генеральной совокупности неизвестно, мы будем использовать стандартное отклонение выборки $ s $ в качестве оценки $ \sigma $, и t-распределение Стьюдента вместо Z-распределения.

Сначала рассчитаем среднее значение выборки $ \bar{X} $ и стандартное отклонение выборки $ s $:


In [5]:
import numpy as np
from scipy import stats

# Значения IQ
iq_values = np.array([131, 125, 115, 122, 131, 115, 107, 99, 125, 111])

# Среднее значение выборки
mean_iq = np.mean(iq_values)

# Несмещенное стандартное отклонение выборки
std_iq = np.std(iq_values, ddof=1)

# Размер выборки
n = len(iq_values)

# Уровень доверия
confidence_level = 0.95

# Критическое значение t-распределения Стьюдента
t_critical = stats.t.ppf((1 + confidence_level) / 2, df=n-1)

# Доверительный интервал
margin_of_error = t_critical * (std_iq / np.sqrt(n))
confidence_interval = (mean_iq - margin_of_error, mean_iq + margin_of_error)

print(f"Среднее значение выборки: {mean_iq}")
print(f"Стандартное отклонение выборки: {std_iq}")
print(f"Доверительный интервал для математического ожидания IQ: {confidence_interval}")

Среднее значение выборки: 118.1
Стандартное отклонение выборки: 10.54566788359614
Доверительный интервал для математического ожидания IQ: (110.55608365121006, 125.64391634878993)


## 3.

 Известно, что рост футболистов в сборной распределен нормально с дисперсией генеральной совокупности, равной 25 кв.см. Объем выборки равен 27, среднее выборочное составляет 174.2. Найдите доверительный интервал для математического ожидания с надежностью 0.95.

Для нахождения доверительного интервала для математического ожидания роста футболистов с надежностью 0.95, мы можем использовать формулу для доверительного интервала при известной дисперсии генеральной совокупности:

$$
\bar{X} \pm Z_{\frac{\alpha}{2}} \cdot \frac{\sigma}{\sqrt{n}}
$$

где:
- $ \bar{X} $ — среднее выборочное,
- $ Z_{\frac{\alpha}{2}} $ — критическое значение нормального распределения (Z-значение) для заданного уровня доверия,
- $ \sigma $ — стандартное отклонение генеральной совокупности,
- $ n $ — размер выборки.

Дисперсия генеральной совокупности ($ \sigma^2 $) равна 25 кв.см, следовательно, стандартное отклонение ($ \sigma $) будет равно корню из дисперсии, то есть 5 см.

Размер выборки ($ n $) равен 27, а среднее выборочное ($ \bar{X} $) составляет 174.2 см.

Уровень доверия 0.95 соответствует значению $ \alpha $ равному 0.05. Для нормального распределения критическое значение $ Z_{\frac{\alpha}{2}} $ при $ \alpha = 0.05 $ примерно равно 1.96.

Теперь мы можем подставить все известные значения в формулу:

$$
174.2 \pm 1.96 \cdot \frac{5}{\sqrt{27}}
$$

Выполним расчеты:

$$
174.2 \pm 1.96 \cdot \frac{5}{\sqrt{27}} \approx 174.2 \pm 1.88
$$

Таким образом, доверительный интервал для математического ожидания роста футболистов с надежностью 0.95 примерно равен:

$$
(172.31, 176.08)
$$


In [6]:
import numpy as np
from scipy.stats import norm

# Известные значения
std_dev = np.sqrt(25)  # Стандартное отклонение генеральной совокупности
n = 27  # Объем выборки
sample_mean = 174.2  # Среднее выборочное
confidence_level = 0.95  # Уровень доверия

# Находим Z-значение для заданного уровня доверия
z_value = norm.ppf((1 + confidence_level) / 2)

# Рассчитываем доверительный интервал
margin_of_error = z_value * (std_dev / np.sqrt(n))
confidence_interval = (sample_mean - margin_of_error, sample_mean + margin_of_error)

print(f"Доверительный интервал: {confidence_interval}")


Доверительный интервал: (172.3140237765397, 176.08597622346028)
