In [22]:
import numpy as np
import pandas as pd
import plotly.express as px
import statsmodels as sm

from scipy.stats import t
from scipy.stats import linregress

# Лабораторная работа №5
## 1 Часть - Задание 1
## Кондрашин Тимофей 211-365 Вариант 2 (11.05.2023)

## Задача и данные

В таблице заданы частоты появлений значений двумерной дискретной случайной величины $(X, Y)$. При уровне значимости $α = 0,05$ найти коэффициент корреляции, проверить его значимость, найти линейные уравнения регрессии $Y$ на $X$ и $X$ на $Y$. Построить корреляционное поле и на этом же графике изобразить обе прямые регрессии.

In [23]:
data = pd.DataFrame({'X': [53.54, 60.55, 55.51, 74.23, 58.67, 65.66, 62.53, 72.53, 75.97, 67.28, 61.72, 64.11, 55.97, 69.78, 69.06, 59.37, 67.58, 70.85, 81.38, 68.32], 'Y': [66.82, 61.58, 63.86, 75.60, 71.80, 57.63, 62.57, 59.18, 62.76, 68.06, 66.91, 77.92, 63.29, 64.01, 72.15, 65.25, 71.57, 47.49, 60.68, 60.51]})
alpha = 0.05

print(f'a: {alpha}\nКоличество элементов в выборке x: {len(data["X"])}\nКоличество элементов в выборке y: {len(data["Y"])}')

a: 0.05
Количество элементов в выборке x: 20
Количество элементов в выборке y: 20


In [24]:
data.T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
X,53.54,60.55,55.51,74.23,58.67,65.66,62.53,72.53,75.97,67.28,61.72,64.11,55.97,69.78,69.06,59.37,67.58,70.85,81.38,68.32
Y,66.82,61.58,63.86,75.6,71.8,57.63,62.57,59.18,62.76,68.06,66.91,77.92,63.29,64.01,72.15,65.25,71.57,47.49,60.68,60.51


## Расчет средних значений

### Выборочное среднее для $X$

$$\overline{X} = \frac{1}{n} \sum_{i=1}^{n} x_i$$

In [25]:
x_mean = data['X'].mean()
print(f'Выборочное среднее для x: {x_mean:.2f}')

Выборочное среднее для x: 65.73


### Выборочное среднее для $Y$

$$\overline{Y} = \frac{1}{n} \sum_{i=1}^{n} y_i$$

In [26]:
y_mean = data['Y'].mean()
print(f'Выборочное среднее для y: {y_mean:.2f}')

Выборочное среднее для y: 64.98


### Выборочное среднее для $X$ и $Y$

$$\overline{XY} = \frac{1}{n} \sum_{i=1}^{n} (x_iy_i)$$

In [27]:
xy_mean = (data['X'] * data['Y']).mean()
print(f'Выборочное среднее для xy: {xy_mean:.2f}')

Выборочное среднее для xy: 4263.77


## Расчет дисперсий и стандартных отклонений

### Выборочная дисперсия для $X$

$$S^2_x = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \overline{X})^2$$

In [28]:
x_var = data['X'].var()
print(f'Выборочная дисперсия для x: {x_var:.2f}')

Выборочная дисперсия для x: 54.15


### Стандартное отклонение для $X$

$$S_x = \sqrt{S^2_x}$$

In [29]:
x_std = data['X'].std()
print(f'Стандартное отклонение для x: {x_std:.2f}')

Стандартное отклонение для x: 7.36


### Выборочная дисперсия для $Y$

$$S^2_y = \frac{1}{n-1} \sum_{i=1}^{n} (y_i - \overline{Y})^2$$

In [30]:
y_var = data['Y'].var()
print(f'Выборочная дисперсия для y: {y_var:.2f}')

Выборочная дисперсия для y: 47.24


### Стандартное отклонение для $Y$

$$S_y = \sqrt{S^2_y}$$

In [31]:
s_std = data['Y'].std()
print(f'Стандартное отклонение для y: {s_std:.2f}')

Стандартное отклонение для y: 6.87


## Расчет коэффициента корреляции

$$r_{XY} = \frac{\sum\limits_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum\limits_{i=1}^{n}(x_i - \bar{x})^2 \sum\limits_{i=1}^{n}(y_i - \bar{y})^2}}$$
где $n$ - количество наблюдений, $x_i$ и $y_i$ - значения случайных величин, $\bar{x}$ и $\bar{y}$ - средние значения.

$$r_{XY} = \frac{\overline{XY} - \overline{X} \cdot \overline{Y}}{S_x \cdot S_y}$$

In [32]:
r_xy = (xy_mean - x_mean * y_mean) / (x_std * s_std)
print(f'Коэффициент корреляции: {r_xy}')

Коэффициент корреляции: -0.1489025089129454


## Расчет параметров $a$ и $b$

### Параметр $a$

$$a = \frac{S_y}{S_x} \cdot r_{XY}$$

In [33]:
a = s_std / x_std * r_xy
print(f'Параметр a: {a:.2f}')

Параметр a: -0.14


### Параметр $b$

$$b = \overline{Y} - a \cdot \overline{X}$$

In [34]:
b = y_mean - a * x_mean
print(f'Параметр b: {b:.2f}')

Параметр b: 74.12


## Проверка гипотезы о значимости коэффициента корреляции

$$H_0: r_{XY} = 0$$
$$H_1: r_{XY} \neq 0$$

### Расчетный критерий Стьюдента

$$t_{XY} = \frac{r_{XY} \sqrt{n - 2}}{\sqrt{1 - r^2_{XY}}}$$

In [35]:
t_value = abs(r_xy) * np.sqrt(len(data['X']) - 2) / np.sqrt(1 - r_xy ** 2)
print(f'Значение критерия: {t_value:.2f}')

Значение критерия: 0.64


### Критическое значение критерия Стьюдента

$$t_{\alpha} = t_{1 - \alpha, n - 2}$$

In [36]:
t_alpha = t.ppf(1 - alpha / 2, len(data['X']) - 2)
print(f'Критическое значение критерия: {t_alpha:.2f}')

Критическое значение критерия: 2.10


### Вывод о значимости коэффициента корреляции

In [37]:
if t_value > t_alpha:
    print('Коэффициент корреляции значимый, гипотеза H0 принимается')
else:
    print('Коэффициент корреляции не значимый')

Коэффициент корреляции не значимый


## Линейные уравнения регрессии

### Линейное уравнение регрессии Y на X

$$Y = aX + b$$

In [38]:
slope_yx, intercept_yx, r_value_yx, p_value_yx, std_err_yx = linregress(data['Y'], data['X'])
print("Линейное уравнение регрессии X на Y: X = {:.2f}Y + {:.2f}".format(slope_yx, intercept_yx))

Линейное уравнение регрессии X на Y: X = -0.17Y + 76.64


In [39]:
fig = px.scatter(data, x='Y', y='X', trendline='ols', title='Корреляционное поле (Линейная регрессия Y на X)')
fig.show()

### Линейное уравнение регрессии X на Y

$$X = aY + b$$

In [40]:
slope_xy, intercept_xy, r_value_xy, p_value_xy, std_err_xy = linregress(data['X'], data['Y'])
print("Линейное уравнение регрессии Y на X: Y = {:.2f}X + {:.2f}".format(slope_xy, intercept_xy))

Линейное уравнение регрессии Y на X: Y = -0.15X + 74.60


In [41]:
px.scatter(data, x='X', y='Y', trendline='ols', title='Корреляционное поле (Линейная регрессия Y на X)')

### Линейная регрессия Y на X и X на Y на одном графике

In [42]:
fig = px.scatter(data, x='X', y='Y', trendline='ols', title='Корреляционное поле (Линейная регрессия Y на X и X на Y)', color_discrete_sequence=['red'])
fig.add_trace(px.scatter(data, x='Y', y='X', trendline='ols', color_discrete_sequence=['blue']).data[1])

fig.update_layout(showlegend=False)
fig.show()