In [2]:
import pandas as pd
import numpy as np
import scipy.stats as stats
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import statsmodels.api as sm

Задание №1. Проведите корреляционный анализ данных из файла 'ex1.csv' по Пирсону

In [3]:
# считывание файла
df1 = pd.read_csv('./data/ex1.csv') 

In [4]:
# КРИТЕРИЙ 1

# проверка, что все элементы - численного типа
if len(df1.select_dtypes(include='number').columns) == len(df1.columns):
    print('Все столбцы числовые')
else:
    print('Есть столбцы с элементами, отличными от числовых')

# построение гистограмм распределения
fig = make_subplots(rows=1, cols=2, 
                        subplot_titles=['X distribution', 'Y distribution'])
fig.add_trace(
    go.Histogram(x=df1['x'], name='x'),
    row=1, col=1
    )

fig.add_trace(
    go.Histogram(x=df1['y'], name='y'),
    row=1, col=2
)

fig.update_layout(
    title='Distribution'
)
fig.show()
# построение "ящика с усами" для изучения выбросов

fig = make_subplots(rows=1, cols=2, 
                        subplot_titles=['X box', 'Y box'])
fig.add_trace(
    go.Box(x=df1['x'], name='x'),
    row=1, col=1
    )

fig.add_trace(
    go.Box(x=df1['y'], name='y'),
    row=1, col=2
)
fig.show()
# построение диаграммы рассеяния
fig = go.Figure(
    data=[
        go.Scatter(
            x=df1['x'],
            y=df1['y'],
            mode='markers'
            )
    ],
    layout={
        'title': 'Scatter plot'
    }
)
fig.show()

# вывод о целесообразности использования корреляции Пирсона с обоснованием на основе предшествующих графиков
print('Гистограммы распределения говорят о том, что данные распределены нормально (несмотря на )'
        + 'небольшую ассиметрию')
print('Ящик с усиками показывает наличие некоторого количества выбросов в данных')
print('Диаграмма рассеивания указывает на то, что точки находятся достаточно плотно')
print('Исходя из вышеизложенного можно говорить о том, что корреляция Пирсона может быть использована')

Все столбцы числовые


Гистограммы распределения говорят о том, что данные распределены нормально (несмотря на )небольшую ассиметрию
Ящик с усиками показывает наличие некоторого количества выбросов в данных
Диаграмма рассеивания указывает на то, что точки находятся достаточно плотно
Исходя из вышеизложенного можно говорить о том, что корреляция Пирсона может быть использована


In [5]:
# КРИТЕРИЙ 2

# расчет коэффициента Пирсона
corr, p_value = stats.pearsonr(df1['x'], df1['y'])

# расчет t-критерия
t_stat = corr/(np.sqrt((1-corr**2)/(len(df1['x'])-2)))
alpha=0.05
t_critical = stats.t.ppf(1 - alpha / 2, df=len(df1['x'])-2)

# вывод о степени корреляции величин и статистической значимости их взаимосвязи 
print('t-критерий рассчитанный: ', t_stat)
print('t-критерий критический: ', t_critical)
if t_stat>t_critical:
    print('Так как t-критерий больше критического значения, нулевая гипотеза отвергается')
elif t_stat<=t_critical:
    print('Так как t-критерий меньше критического значения, нулевая гипотеза принимается')
print('p-value: ', p_value)
print('alpha: ', alpha)
if p_value<alpha:
    print('Так как p-value меньше alpha, то нулевая гипотеза отвергается')
elif p_value>=alpha:
    print('Так как p-value больше alpha, то нулевая гипотеза принимается')

print('Так как нулевая гипотеза гласит, что случайные величины независимы стоит говорить о том, '+
      '\nчто коэффициент корреляции значим для случайных величин. Они зависят друг от друга')

t-критерий рассчитанный:  30.092129139493757
t-критерий критический:  1.9647389829672648
Так как t-критерий больше критического значения, нулевая гипотеза отвергается
p-value:  3.97385905636932e-114
alpha:  0.05
Так как p-value меньше alpha, то нулевая гипотеза отвергается
Так как нулевая гипотеза гласит, что случайные величины независимы стоит говорить о том, 
что коэффициент корреляции значим для случайных величин. Они зависят друг от друга


Задание №2. Проведите корреляционный анализ данных из файла 'ex2.csv' по Спирмену

In [6]:
# считывание файла
df2 = pd.read_csv('./data/ex2.csv') 

In [7]:
# КРИТЕРИЙ 3

# проверка, что все элементы - численного типа
if len(df2.select_dtypes(include='number').columns) == len(df2.columns):
    print('Все столбцы числовые')
else:
    print('Есть столбцы с элементами, отличными от числовых')

# построение гистограмм распределения
fig = make_subplots(rows=1, cols=2, 
                        subplot_titles=['X distribution', 'Y distribution'])
fig.add_trace(
    go.Histogram(x=df2['x'], name='x'),
    row=1, col=1
    )

fig.add_trace(
    go.Histogram(x=df2['y'], name='y'),
    row=1, col=2
)

fig.update_layout(
    title='Distribution'
)
fig.show()

# построение "ящика с усами" для изучения выбросов
fig = make_subplots(rows=1, cols=2, 
                        subplot_titles=['X box', 'Y box'])
fig.add_trace(
    go.Box(x=df2['x'], name='x'),
    row=1, col=1
    )

fig.add_trace(
    go.Box(x=df2['y'], name='y'),
    row=1, col=2
)
fig.show()

# построение диаграммы рассеяния
fig = go.Figure(
    data=[
        go.Scatter(
            x=df2['x'],
            y=df2['y'],
            mode='markers'
            )
    ],
    layout={
        'title': 'Scatter plot'
    }
)
fig.show()

# вывод о целесообразности использования корреляции Спирмена с обоснованием на основе предшествующих графиков
print('Данные не распределены нормально, следовательно, использование корреляции Спирмена вместо'+
      ' корреляции Пирсона оправдано')
print('Количество выбросов в данном датасете значительно')
print('Диаграмма рассеивания указывает на явные выбросы в данных, большинство из них сконцентрированы '+
      'около начала координат')
print('Учитывая данные можно говорить о том, что корреляция Спирмена более применима в данном случае, '+
      'чем корреляция Пирсона')

Все столбцы числовые


Данные не распределены нормально, следовательно, использование корреляции Спирмена вместо корреляции Пирсона оправдано
Количество выбросов в данном датасете значительно
Диаграмма рассеивания указывает на явные выбросы в данных, большинство из них сконцентрированы около начала координат
Учитывая данные можно говорить о том, что корреляция Спирмена более применима в данном случае, чем корреляция Пирсона


In [8]:
# КРИТЕРИЙ 4

# расчет коэффициента Спирмена
corr, p_value = stats.spearmanr(df2['x'], df2['y'])

# расчет t-критерия
t_stat = corr/(np.sqrt((1-corr**2)/(len(df2['x'])-2)))
alpha=0.05
t_critical = stats.t.ppf(1 - alpha / 2, df=len(df2['x'])-2)

# вывод о степени корреляции величин и статистической значимости их взаимосвязи 
print('t-критерий рассчитанный: ', t_stat)
print('t-критерий критический: ', t_critical)
if t_stat>t_critical:
    print('Так как t-критерий больше критического значения, нулевая гипотеза отвергается')
elif t_stat<=t_critical:
    print('Так как t-критерий меньше критического значения, нулевая гипотеза принимается')
print('p-value: ', p_value)
print('alpha: ', alpha)
if p_value<alpha:
    print('Так как p-value меньше alpha, то нулевая гипотеза отвергается')
elif p_value>=alpha:
    print('Так как p-value больше alpha, то нулевая гипотеза принимается')

print('Так как нулевая гипотеза гласит, что случайные величины независимы стоит говорить о том, '+
      '\nчто коэффициент корреляции значим для случайных величин. Они зависят друг от друга')

t-критерий рассчитанный:  17.500235697828852
t-критерий критический:  1.9647389829672648
Так как t-критерий больше критического значения, нулевая гипотеза отвергается
p-value:  8.471901488365329e-54
alpha:  0.05
Так как p-value меньше alpha, то нулевая гипотеза отвергается
Так как нулевая гипотеза гласит, что случайные величины независимы стоит говорить о том, 
что коэффициент корреляции значим для случайных величин. Они зависят друг от друга


Задание №3. Проведите линейный регрессионный анализ данных из файла 'ex3.csv'

In [9]:
# считывание файла
df3 = pd.read_csv('./data/ex3.csv')

In [10]:
# КРИТЕРИЙ 5

# построение диаграммы рассеяния
fig = go.Figure(
    data=[
        go.Scatter(
            x=df3['x'],
            y=df3['y'],
            mode='markers'
            )
    ],
    layout={
        'title': 'Scatter plot'
    }
)
fig.show()
# вывод о целесообразности использования корреляции Пирсона
print('Больших выбросов в данной выборке не обнаружено, что говорит о возможности'+
      ' применения коэффициента корреляции Пирсона')
# расчет коэффициента Пирсона
corr, p_value = stats.pearsonr(df3['x'], df3['y'])
print(corr, p_value)
# тут не указано, нужно ли проверять значимость коэффициента корреляции, но я проверю
alpha=0.05
if p_value < alpha:
    print("Связь статистически значима")
else:
    print("Нельзя отклонить нулевую гипотезу")

Больших выбросов в данной выборке не обнаружено, что говорит о возможности применения коэффициента корреляции Пирсона
-0.9851417834585036 3.1764533567697222e-15
Связь статистически значима


In [11]:
# КРИТЕРИЙ 6
# расчет коэффициентов линейной регрессии
res = stats.linregress(df3['x'], df3['y'])
print(f'X_0 = {round(res.intercept, 3)}; X_1={round(res.slope, 3)}')

# построение диаграммы рассеяния прогнозных и реальных значений на одном графике
y_pred = res.intercept + res.slope*df3['x']
fig = go.Figure(
    data=[
        go.Scatter(
            x=y_pred,
            y=df3['y'],
            mode='markers',
            name='Real value'
            ),
        go.Scatter(
            x=[min(y_pred), max(df3['y'].values)],
            y=[min(y_pred), max(df3['y'].values)],
            mode='lines',
            name='Ideal prediction'
        )
    ],
    layout={
        'title': 'Scatter plot (predict)'
    }
)
fig.show()

X_0 = 5.741; X_1=-2.339


In [12]:
# КРИТЕРИЙ 7

# расчет средней ошибки аппроксимации
mae = abs((df3['y']-y_pred)/df3['y']).sum()/len(df3['y'])*100
print('Средняя ошибка аппроксимации: ', mae)

Средняя ошибка аппроксимации:  35.26380487772689


In [13]:
# КРИТЕРИЙ 8

# расчет F-критерия
SSR = sum((y_pred - np.mean(df3['y']))**2)
SSE = sum((df3['y']-y_pred)**2)

F_statistic=SSR/(SSE/(len(df3['y'])-2))

p_value = 1 - stats.f.cdf(F_statistic, 1, len(df3['y'])-2)
p_value
alpha=0.05

F_critical = stats.f.ppf(1 - alpha, 1, len(df3['y'])-2)
print('F-критерий рассчитанный: ', F_statistic)
print('F-критерий критический: ', F_critical)
if F_statistic>F_critical:
    print('Так как F-критерий больше критического значения, нулевая гипотеза отвергается')
elif F_statistic<=F_critical:
    print('Так как F-критерий меньше критического значения, нулевая гипотеза принимается')
print('p-value: ', p_value)
print('alpha: ', alpha)
if p_value<alpha:
    print('Так как p-value меньше alpha, то нулевая гипотеза отвергается')
elif p_value>=alpha:
    print('Так как p-value больше alpha, то нулевая гипотеза принимается')

# вывод о статистической значимости уравнения в целом
print('Т. к. нулевая гипотеза отвергается, то можно говорить о том, что \n'
      +'коэфициенты регрессии не равны нулю и независимая переменная влияет на результат')

F-критерий рассчитанный:  592.2591378853082
F-критерий критический:  4.413873419170567
Так как F-критерий больше критического значения, нулевая гипотеза отвергается
p-value:  3.219646771412954e-15
alpha:  0.05
Так как p-value меньше alpha, то нулевая гипотеза отвергается
Т. к. нулевая гипотеза отвергается, то можно говорить о том, что 
коэфициенты регрессии не равны нулю и независимая переменная влияет на результат


In [14]:
# КРИТЕРИЙ 9

# расчет стандартных ошибок коэффициентов регрессии и коэффициента корреляции


SE_corr = np.sqrt((1-corr**2)/(len(df3['x'])-2))
print('Стандартная ошибка корреляции: ', SE_corr)
print('Стандартная ошибка X0: ', res.stderr)
print('Стандартная ошибка X1: ', res.intercept_stderr)

# расчет t-критерия коэффициентов регрессии и коэффициента корреляции
alpha=0.05
t_coef_reg = abs(stats.t.ppf(alpha/2, len(df3['x'])-2))
t_real_reg = abs(stats.t.ppf(res.pvalue/2, len(df3['x'])-2))

t_coef_corr = stats.t.ppf(1 - alpha/2, df = len(df3['x'])-2)
t_real_corr= corr*(len(df3['x'])-2)**0.5 / (1-corr**2)**0.5

print('t-критерий рассчитанный (регрессия): ', t_real_reg)
print('t-критерий критический (регрессия): ', t_coef_reg)
if t_real_reg>t_coef_reg:
    print('Так как t-критерий больше критического значения, нулевая гипотеза отвергается')
elif t_real_reg<=t_coef_reg:
    print('Так как t-критерий меньше критического значения, нулевая гипотеза принимается')

print('t-критерий рассчитанный (корреляция): ', t_real_corr)
print('t-критерий критический (корреляция): ', t_coef_corr)
if np.abs(t_real_corr)>t_coef_corr:
    print('Так как t-критерий больше критического значения, нулевая гипотеза отвергается')
elif np.abs(t_real_corr)<=t_coef_corr:
    print('Так как t-критерий меньше критического значения, нулевая гипотеза принимается')

# вывод о статистической значимости коэффициентов регрессии
print('Учитывая тот факт, что нулевая гипотеза о равенстве коэффициентов корреляции и регрессии \n'+
      'была отвергнута можно говорить о том, что коэффициенты статистически значимы')

# запись диапазона коэффицентов регрессии
print(f"X0 (95%): {res.slope:.3f} +/- {t_coef_reg*res.stderr:.3f}")
print(f"X1 (95%): {res.intercept:.3f} +/- {t_coef_reg*res.intercept_stderr:.3f}")

Стандартная ошибка корреляции:  0.04048021909539336
Стандартная ошибка X0:  0.09611685229891045
Стандартная ошибка X1:  0.3755103704947338
t-критерий рассчитанный (регрессия):  24.336374789300606
t-критерий критический (регрессия):  2.10092204024096
Так как t-критерий больше критического значения, нулевая гипотеза отвергается
t-критерий рассчитанный (корреляция):  -24.336374789300795
t-критерий критический (корреляция):  2.10092204024096
Так как t-критерий больше критического значения, нулевая гипотеза отвергается
Учитывая тот факт, что нулевая гипотеза о равенстве коэффициентов корреляции и регрессии 
была отвергнута можно говорить о том, что коэффициенты статистически значимы
X0 (95%): -2.339 +/- 0.202
X1 (95%): 5.741 +/- 0.789


In [15]:
# КРИТЕРИЙ 10

# Дать предсказание в виде интервальной оценки для y при x0 = 6
x0 = 6

y_pred_new = res.intercept + res.slope*x0
sigma = SSE/(len(df3['x'])-2)
SE_y = np.sqrt(sigma * (1/len(df3['x']) + (x0 - np.mean(df3['x'].values))**2 / np.sum((df3['x'].values - np.mean(df3['x'].values))**2)))

print(f'Прогнозное значение составляет: {y_pred_new}')

lower_bound = y_pred_new-(t_coef_reg*SE_y)
upper_bound = y_pred_new+(t_coef_reg*SE_y)
print(f'Можно утверждать, что с 95% вероятностью новое значение будет лежать\nв интервале от {lower_bound} до {upper_bound}')

Прогнозное значение составляет: -8.294051997338602
Можно утверждать, что с 95% вероятностью новое значение будет лежать
в интервале от -9.623416237728831 до -6.964687756948374


Задание №4. Проведите линейный регрессионный анализ данных из файла 'ex4.csv'

In [16]:
# считывание файла
df4 = pd.read_csv('./data/ex4.csv') 

In [17]:
# КРИТЕРИЙ 11

# построение диаграмм рассеяния (x1/y, x2/y, x1/x2)
fig = make_subplots(rows=1, cols=3, 
                        subplot_titles=['x1/y distribution', 'x2/y distribution', 'x1/x2 distribution'])
fig.add_trace(
    go.Scatter(
        x=df4['x1'], 
        y=df4['y'], 
        mode='markers',
        name='x1/y'
    ),
    row=1, col=1
    )

fig.add_trace(
    go.Scatter(
        x=df4['x2'], 
        y=df4['y'],
        mode='markers',
        name='x2/y'
    ),
    row=1, col=2
)

fig.add_trace(
    go.Scatter(
        x=df4['x1'], 
        y=df4['x2'],
        mode='markers',
        name='x1/x2'
    ),
    row=1, col=3
)

fig.update_layout(
    title='Pair distribution'
)
fig.show()
# вывод о корректности использования модели множественной регрессии
print('Делать какие-либо выводы относительно применимости модели многофакторной \n'+
      'дисперсии на основании исключительно диаграмм рассеивания неправильно, \n'+
      'однако можно говорить о том, что между независимыми переменными и наблюдаемой\n'+
      'существует подобие зависимости, тогда как между независимыми переменными данной зависимости\n'+
      'не наблюдается, что является хорошим знаком для применения модели линейной регрессии.\n\n')
# расчет коэффициентов корреляции

alpha = 0.05
r, p_value = stats.pearsonr(df4['x1'], df4['y'])
print(f'Коэффициент корреляции x1/y = {round(r, 3)}, p_value = {round(p_value, 3)}')
if p_value < alpha:
    print("Связь x1/y статистически значима\n")
else:
    print("Нельзя отклонить нулевую гипотезу для x1/y\n")

r, p_value = stats.pearsonr(df4['x2'], df4['y'])
print(f'Коэффициент корреляции x2/y = {round(r, 3)}, p_value = {round(p_value, 3)}')
if p_value < alpha:
    print("Связь x2/y статистически значима\n")
else:
    print("Нельзя отклонить нулевую гипотезу для x2/y\n")

r, p_value = stats.pearsonr(df4['x1'], df4['x2'])
print(f'Коэффициент корреляции x1/x2 = {round(r, 3)}, p_value = {round(p_value, 3)}')
if p_value < alpha:
    print("Связь x1/x2 статистически значима")
else:
    print("Нельзя отклонить нулевую гипотезу для x1/x2")


# вывод о необходимости устранения какого-либо фактора
print('\n\nИсходя из расчетов коэффициентов корреляции можно сделать вывод о том, что у обоих переменных\n'+
      'есть связь с наблюдаемой переменной, а также отсутствует связь друг с другом, что говорит о том,\n'+
      'что применение модели линейной регрессии возможно')

Делать какие-либо выводы относительно применимости модели многофакторной 
дисперсии на основании исключительно диаграмм рассеивания неправильно, 
однако можно говорить о том, что между независимыми переменными и наблюдаемой
существует подобие зависимости, тогда как между независимыми переменными данной зависимости
не наблюдается, что является хорошим знаком для применения модели линейной регрессии.


Коэффициент корреляции x1/y = -0.788, p_value = 0.0
Связь x1/y статистически значима

Коэффициент корреляции x2/y = 0.67, p_value = 0.001
Связь x2/y статистически значима

Коэффициент корреляции x1/x2 = -0.075, p_value = 0.753
Нельзя отклонить нулевую гипотезу для x1/x2


Исходя из расчетов коэффициентов корреляции можно сделать вывод о том, что у обоих переменных
есть связь с наблюдаемой переменной, а также отсутствует связь друг с другом, что говорит о том,
что применение модели линейной регрессии возможно


In [18]:
# КРИТЕРИЙ 12

# расчет стандартных коэффицентов регрессии
x1 = df4['x1'].values
x2 = df4['x2'].values
y = df4['y'].values

x1 = (x1-x1.mean())/(x1.var()**0.5)
x2 = (x2-x2.mean())/(x2.var()**0.5)

y = (y-y.mean())/(y.var()**0.5)
x = [x1, x2]

def reg_m(y, x):
    ones = np.ones(len(x[0]))
    X = sm.add_constant(np.column_stack((x[0], ones)))
    for ele in x[1:]:
        X = sm.add_constant(np.column_stack((ele, X)))
    results = sm.OLS(y, X).fit()
    return results

print(reg_m(y, x).summary())

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.996
Model:                            OLS   Adj. R-squared:                  0.995
Method:                 Least Squares   F-statistic:                     1993.
Date:                Thu, 19 Dec 2024   Prob (F-statistic):           6.90e-21
Time:                        21:14:58   Log-Likelihood:                 26.236
No. Observations:                  20   AIC:                            -46.47
Df Residuals:                      17   BIC:                            -43.48
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
x1             0.6142      0.016     38.747      0.0

In [19]:
# КРИТЕРИЙ 13

# расчет коэффициентов "чистой" регрессии

X = df4[['x1', 'x2']].values
X = np.c_[np.ones(X.shape[0]), X]
linreg = np.linalg.lstsq(X, df4['y'].values, rcond=None)[0]
print('\n\nКоэффициенты регрессии: ')
print('X0: ', linreg[0])
print('X1: ', linreg[1])
print('X2: ', linreg[2])

# построение диаграмм рассеяния прогнозных и реальных значений на одном графике
y_pred = linreg[0]+linreg[1]*df4['x1'].values+linreg[2]*df4['x2'].values

fig = go.Figure(
    data=[
        go.Scatter(
            x=y_pred,
            y=df4['y'].values,
            mode='markers',
            name='y/y_pred'
        ),
        go.Scatter(
            x=[min(y_pred), max(df4['y'].values)],
            y=[min(y_pred), max(df4['y'].values)],
            mode='lines',
            name='Ideal prediction'
        )
    ],
    layout={
        'title': 'Predict distribution'
    }
)

fig.show()



Коэффициенты регрессии: 
X0:  6.722076359546835
X1:  -4.91738479135782
X2:  3.892684581539495


In [20]:
# КРИТЕРИЙ 14

# расчет индекса множественной корреляции
SSE = np.sum((df4['y'].values - y_pred) ** 2)

y_mean = np.mean(df4['y'].values)
SST = np.sum((df4['y'].values - y_mean) ** 2)
R2 = 1 - SSE / SST
print('Коэффициет множественной корреляции: ', R2)

# расчет F-критерия

SSR = np.sum((y_pred - y_mean) ** 2)
F_stat = (SSR / 2) / (SSE / (len(df4['x1']) - 2 - 1))

alpha = 0.05
F_crit = stats.f.ppf(1 - alpha, 2, len(df4['x1']) - 2 - 1)

print('F-критерий рассчетный: ', F_stat)
print('F-критерий критический: ', F_crit)
if F_stat>F_crit:
    print('Модель статистически значима')
else:
    print('Модель статистически незначима')
# вывод о статистической значимости уравнения в целом
print('Согласно F-критерию и высокому значению коэффициента детерминации можно говорить о том, \n'+
      'что модель статистически значима')

Коэффициет множественной корреляции:  0.9957525438616119
F-критерий рассчетный:  1992.697828313726
F-критерий критический:  3.5915305684750827
Модель статистически значима
Согласно F-критерию и высокому значению коэффициента детерминации можно говорить о том, 
что модель статистически значима


In [21]:
# КРИТЕРИЙ 15

# построение 3D-изображения прогнозных и реальных значений на одном графике
fig = go.Figure()

# Точки реальных значений
fig.add_trace(go.Scatter3d(
    x=df4['x1'].values, 
    y=df4['x2'].values, 
    z=df4['y'].values,
    mode='markers',
    name='y_true'
))

# Точки прогнозных значений
fig.add_trace(go.Scatter3d(
    x=df4['x1'].values, 
    y=df4['x2'].values, 
    z=y_pred,
    mode='markers',
    name='y_pred'
))

# Настройки графика
fig.update_layout(
    scene=dict(
        xaxis_title='X1',
        yaxis_title='X2',
        zaxis_title='y / ŷ'
    ),
    title='3D визуализация прогнозных и реальных значений'
)

fig.show()
