In [None]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
import statsmodels.api as sm
import matplotlib.pyplot as plt
from statsmodels.formula.api import ols
import seaborn as sns
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score

**Вариант 13:**
Y=2.3*x+random(4)

Парная регрессия: построить две реализации парной линейной регрессионной модели на базе 2х библиотек Scikit-Learn, StatsModels, сравнить и интерпретировать полученные результаты, входные данные рассчитать согласно варианту в таблице.

In [None]:
np.random.seed(0)
n_samples = 100 # кол-во выборок
X = np.random.rand(n_samples)
Y = 2.3 * X + np.random.randn(n_samples) * 4

# Модель с использованием StatsModels
X_sm = sm.add_constant(X)
model_sm = sm.OLS(Y, X_sm).fit()  # метод наименьших квадратов (Ordinary Least Squares)

print("StatsModels:")
print(model_sm.summary())

In [None]:
# График для модели StatsModels
plt.scatter(X, Y, label='Данные')
plt.plot(X, model_sm.predict(X_sm), color='red', label='Модель (StatsModels)')
plt.xlabel('X')
plt.ylabel('Y')
plt.title('Линейная регрессия: StatsModels')
plt.legend()
plt.show()

In [None]:
# Модель с использованием Scikit-Learn
model_sklearn = LinearRegression().fit(X.reshape(-1, 1), Y.reshape(-1, 1))

print("\nScikit-Learn:")
print("Coef:", model_sklearn.coef_)
print("Intercept:", model_sklearn.intercept_)


In [None]:
# График для модели Scikit-Learn
plt.scatter(X, Y, label='Данные')
plt.plot(X, model_sklearn.predict(X.reshape(-1, 1)), color='green', label='Модель (Scikit-Learn)')
plt.xlabel('X')
plt.ylabel('Y')
plt.title('Линейная регрессия: Scikit-Learn')
plt.legend()
plt.show()

**Вывод:** То есть, результаты моделирования, полученные из обеих библиотек, довольно сходны. Они показывают небольшую взаимосвязь между фактором x1 и зависимой переменной y, но модель не очень хорошо объясняет вариацию в y, что подтверждается низким значением R-квадрата (0,021/2,1%).

Основное различие между этими двумя заключается в том, как они обрабатывают константы. Scikit-learn позволяет пользователю добавлять или не добавлять константу через параметр, в то время как класс OLS Statsmodels имеет функцию, которая добавляет константу в заданный массив. Scikit-learn в основном предназначен для машинного обучения, а Statsmodels — для строгой статистики.

Основные отличия между Scikit-Learn и StatsModels, которые могут повлиять на результаты визуализации, следующие:

1. **Формат данных**:
   - Scikit-Learn ожидает, что входные данные для предикторов (`X`) будут в формате двумерного массива (матрицы), где каждый столбец — это одна переменная. Это требование сохраняется даже если предиктор всего один, поэтому `X` необходимо преобразовать с помощью `.reshape(-1, 1)`.
   - StatsModels более гибок в отношении форматов данных и может работать с DataFrame без необходимости дополнительного преобразования формы массива.

2. **Добавление константы (свободного члена)**:
   - В Scikit-Learn свободный член (intercept) включается автоматически, и пользователю не нужно явно добавлять столбец единиц к данным.
   - В StatsModels для включения свободного члена пользователь должен явно добавить константу к данным с помощью `sm.add_constant(X)`, иначе модель будет построена без свободного члена.

3. **Подход к моделированию**:
   - Scikit-Learn сфокусирован на машинном обучении и предсказательных моделях, предоставляя инструменты для обучения, прогнозирования и оценки моделей с минимумом предоставления статистических данных о модели.
   - StatsModels сфокусирован на статистическом анализе и предоставляет обширный набор инструментов для оценки моделей, включая подробные статистические выходные данные о параметрах модели, тестах и диагностики.
