# Цель занятия
На этом занятии мы рассмотрим реализацию различных алгоритмов линейной регрессии в sklearn.

Библиотека Scikit-learn предоставляет несколько реализаций линейной регрессии. Рассмотрим отличия между ними:

- **LinearRegression:** это стандартная реализация линейной регрессии. Она использует метод наименьших квадратов (МНК), чтобы оценить коэффициенты регрессии. Эта реализация подходит для задач с небольшим количеством признаков, но может быть неэффективной, если признаков много, так как МНК требует обращения матрицы.

- **Lasso:** это регуляризованная версия линейной регрессии, которая использует L1-регуляризацию для уменьшения коэффициентов регрессии. Это позволяет не только уменьшить переобучение, но также выполнить отбор признаков путем установки значений коэффициентов ненужных признаков равными нулю.

- **Ridge:** это регуляризованная версия линейной регрессии, которая использует L2-регуляризацию для уменьшения коэффициентов регрессии. Это позволяет уменьшить переобучение модели и улучшить ее обобщающую способность.

- **ElasticNet:** это регуляризованная версия линейной регрессии, которая сочетает L1- и L2-регуляризацию. Это позволяет улучшить обобщающую способность модели и выполнить отбор признаков, одновременно уменьшая коэффициенты регрессии.

- **SGDRegressor:** это стохастическая реализация линейной регрессии, которая использует градиентный спуск для оценки коэффициентов регрессии. Она может быть эффективной для задач с большим количеством признаков, так как не требует обращения матрицы.

- **HuberRegressor:** это реализация линейной регрессии, которая минимизирует функцию потерь Хьюбера, которая более устойчива к выбросам, чем функция потерь MSE.

- **PassiveAggressiveRegressor:** это реализация линейной регрессии, которая использует алгоритм пассивного агрессивного обучения (PA), который может быть эффективным для обучения на больших объемах данных в режиме онлайн.

- **TheilSenRegressor:** это реализация линейной регрессии, которая использует метод Theil-Sen для оценки коэффициентов регрессии. Он является более устойчивым к выбросам, чем MSE, но может быть менее точным в случае отсутствия выбросов.

Каждая реализация линейной регрессии имеет свои преимущества и недостатки, и выбор подходящей модели зависит от характеристик задачи и данных. Например, если в задаче много признаков, то может быть более эффективно использовать регуляризованные версии линейной регрессии, а если в данных есть выбросы, то можно использовать реализации, более устойчивые к ним.

# Используемые библиотеки

In [7]:
from sklearn import linear_model
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split

from sklearn.metrics import mean_squared_error

In [8]:
"""
load_diabetes - это встроенный датасет в библиотеке Scikit-learn, содержащий информацию о 442 пациентах 
с диабетом, собранную в период с 1984 по 1988 годы в США. Датасет состоит из 11 признаков и одного целевого 
значения.

Каждый признак представляет собой некоторый медицинский показатель, который может быть связан с диабетом. 
Признаки включают возраст пациента, пол, среднее артериальное давление, уровень сывороточного холестерина, 
уровень глюкозы в крови и другие.

Целевое значение представляет собой показатель прогрессирования заболевания диабетом год спустя после начала 
наблюдений, измеряемый в количественных единицах. В датасете целевое значение называется "target".

Набор данных load_diabetes содержит следующие параметры:

age: Возраст пациента.
sex: Пол пациента.
bmi: Индекс массы тела (Body Mass Index) пациента.
bp: Артериальное давление пациента.
s1, s2, s3, s4, s5, s6: 6 различных биохимических показателей крови, измеренных у пациента.
target: Количество прогрессирования диабета, измеряемое по шкале здоровья.
"""

params_names = ["age", "sex", "bmi", "bp", "s1", "s2", "s3", "s4", "s5", "s6"]

# Загрузка набора данных диабета
X, y = load_diabetes(return_X_y=True)

# Разбивка данных на обучающий и тестовый наборы
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

In [9]:
"""
В этом примере мы работаем с набором данных диабета, 
создаем объект модели Lasso с коэффициентом регуляризации alpha равным 0.1, 
обучаем модель на обучающем наборе данных, оцениваем mse модели на тестовом наборе данных, 
выводим оценку mse Lasso регрессии.
"""

# Создание объекта модели Lasso
lasso = linear_model.Lasso(alpha=0.1)

# Обучение модели на обучающем наборе данных
lasso.fit(X_train, y_train)

# Оценка модели на тестовом наборе данных
y_pred = lasso.predict(X_test)

# Оценка модели по метрике mse
mse = mean_squared_error(y_test, y_pred)

# Вывод mse оценки модели
print("Оценка mse Lasso регрессии:", mse)


"""
Коэффициенты модели можно использовать для определения важности признаков. 
Высокие значения коэффициентов указывают на более важные признаки.
"""

# Оценка модели на тестовом наборе данных
score = lasso.score(X_test, y_test)

# Вывод коэффициентов модели
for param_name, coef in zip(params_names, lasso.coef_):
    print(f"{param_name}: {coef}")

Оценка mse Lasso регрессии: 3383.5084900141464
age: -0.0
sex: -164.61625659281296
bmi: 558.3655524091124
bp: 244.76051417965422
s1: -105.69577720946631
s2: -0.0
s3: -219.7690107077367
s4: 0.0
s5: 533.341275685286
s6: 7.383606229419217


In [10]:
"""
Здесь мы создаем объект модели Ridge, обучаем модель на обучающем наборе данных, 
оцениваем ее на тестовом наборе данных, вычисляем метрику MSE и выводим ее оценку. 
Затем мы выводим коэффициенты модели и их важность, используя тот же цикл for, что и для модели Lasso.
"""

# Создание объекта модели Ridge
ridge = linear_model.Ridge(alpha=0.1)

# Обучение модели на обучающем наборе данных
ridge.fit(X_train, y_train)

# Оценка модели на тестовом наборе данных
y_pred = ridge.predict(X_test)

# Оценка модели по метрике mse
mse = mean_squared_error(y_test, y_pred)

# Вывод mse оценки модели
print("Оценка mse Ridge регрессии:", mse)

# Оценка модели на тестовом наборе данных
score = ridge.score(X_test, y_test)

# Вывод коэффициентов модели
for param_name, coef in zip(params_names, ridge.coef_):
    print(f"{param_name}: {coef}")

Оценка mse Ridge регрессии: 3372.6122501751975
age: -18.93029239015494
sex: -205.95750389040967
bmi: 520.8856039771601
bp: 278.43533925964505
s1: -81.87766380450014
s2: -108.9616339354653
s3: -209.97654964833913
s4: 117.75990964121306
s5: 457.61641721160345
s6: 69.0037365871282


In [11]:
"""
Здесь мы создаем объект модели ElasticNet с коэффициентом регуляризации alpha равным 0.1 и коэффициентом 
смешивания L1 и L2 регуляризации l1_ratio равным 0.5. Затем мы обучаем модель на обучающем наборе данных, 
оцениваем mse модели на тестовом наборе данных, выводим оценку mse ElasticNet регрессии и коэффициенты модели, 
которые указывают на важность признаков.
"""

# Создание объекта модели ElasticNet
elastic_net = linear_model.ElasticNet(alpha=0.1, l1_ratio=0.5)

# Обучение модели на обучающем наборе данных
elastic_net.fit(X_train, y_train)

# Оценка модели на тестовом наборе данных
y_pred = elastic_net.predict(X_test)

# Оценка модели по метрике mse
mse = mean_squared_error(y_test, y_pred)

# Вывод mse оценки модели
print("Оценка mse ElasticNet регрессии:", mse)

# Оценка модели на тестовом наборе данных
score = elastic_net.score(X_test, y_test)

# Вывод коэффициентов модели
for param_name, coef in zip(params_names, elastic_net.coef_):
    print(f"{param_name}: {coef}")

Оценка mse ElasticNet регрессии: 4666.423151304215
age: 10.35155390455935
sex: 0.0
bmi: 40.831344827091925
bp: 27.502937600389807
s1: 10.801546452328875
s2: 7.26882202657813
s3: -26.474810755863928
s4: 27.14333968649607
s5: 38.461427329283644
s6: 23.783601854861644


In [12]:
"""
В примере с SGDRegressor мы будем использовать функцию partial_fit(), 
которая позволяет обучать модель по мини-батчам. Это полезно для больших наборов данных, 
которые не могут поместиться в памяти целиком.
"""

# Создание объекта модели SGDRegressor
sgd = linear_model.SGDRegressor(max_iter=1000, tol=1e-3)

# Обучение модели на частях обучающего набора данных
batch_size = 20
n_batches = len(X_train) // batch_size
n_epochs = 10

for epoch in range(n_epochs):
    for i in range(n_batches):
        start = i * batch_size
        end = start + batch_size
        X_batch = X_train[start:end]
        y_batch = y_train[start:end]
        sgd.partial_fit(X_batch, y_batch)

# Оценка модели на тестовом наборе данных
y_pred = sgd.predict(X_test)

# Оценка модели по метрике mse
mse = mean_squared_error(y_test, y_pred)

# Вывод mse оценки модели
print("Оценка mse SGDRegressor:", mse)

# Вывод коэффициентов модели
for param_name, coef in zip(params_names, sgd.coef_):
    print(f"{param_name}: {coef}")

Оценка mse SGDRegressor: 4980.8129495299145
age: 4.29516300087018
sex: 0.7423683448888175
bmi: 13.87934045994235
bp: 8.89014808869358
s1: 3.7574526406159445
s2: 2.877160073156542
s3: -8.999722672940338
s4: 9.107253725202385
s5: 12.291858421535277
s6: 7.791387747699137
