In [1]:
# Подключаем наш гугл диск к блокноту
from google.colab import drive
drive.mount('/content/gdrive/')

Mounted at /content/gdrive/


In [2]:
# Импорт необходимых нам библиотек
import numpy as np
import pandas as pd
import scipy.io as io
from sklearn import metrics
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.preprocessing import StandardScaler, PolynomialFeatures
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression, Lasso, Ridge
import matplotlib.pyplot as plt
import matplotlib.gridspec as gridspec
from sklearn.svm import SVC

https://drive.google.com/file/d/12bIxNr0fHyLABbEoW2jh19Nj5vey90Eg/view?usp=sharing - ссылка на датасет, переместите данный файл в корневую папку своего гугл диска.

In [3]:
path = "/content/gdrive/MyDrive/insurance.csv"

In [4]:
# Загрузка данных
data = pd.read_csv(path)

In [5]:
data.info

In [6]:
non_numeric_columns = data.select_dtypes(exclude=['number']).columns
# выбираем все колонки, у которых тип данных категориальный

In [7]:
non_numeric_columns

Index(['sex', 'smoker', 'region'], dtype='object')

In [8]:
data = pd.get_dummies(data, columns = non_numeric_columns, drop_first=True)
# Используя One-Hot кодирование преобразуем категориальные колонки и меняем их в наших данных

In [9]:
data.info

In [10]:
# Разделение на признаки (X) и целевую переменную (y)
X = data.drop(columns=['charges'])
y = data['charges']

In [11]:
# Разделение на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=234324)

In [12]:
# Создание и обучение модели линейной регрессии
lr_model = LinearRegression()
lr_model.fit(X_train, y_train)

In [13]:
# Предсказания на тестовой выборке
y_pred = lr_model.predict(X_test)

In [14]:
# Оценка производительности модели
rmse = mean_squared_error(y_test, y_pred, squared=False)
mae = mean_absolute_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)



In [15]:
print(f"RMSE: {rmse}")
print(f"MAE: {mae}")
print(f"R2: {r2}")

RMSE: 5441.261753632497
MAE: 4038.2640297720172
R2: 0.8054777855782935


In [16]:
# Стандартизация данных
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [17]:
# Создание и обучение модели линейной регрессии с нормализованными данными
lr_model_scaled = LinearRegression()
lr_model_scaled.fit(X_train_scaled, y_train)

In [18]:
# Предсказания на тестовой выборке с нормализованными данными
y_pred_scaled = lr_model_scaled.predict(X_test_scaled)

In [19]:
# Оценка производительности модели с нормализованными данными
rmse_scaled = mean_squared_error(y_test, y_pred_scaled, squared=False)
mae_scaled = mean_absolute_error(y_test, y_pred_scaled)
r2_scaled = r2_score(y_test, y_pred_scaled)



In [20]:
print(f"RMSE с нормализацией: {rmse_scaled}")
print(f"MAE с нормализацией: {mae_scaled}")
print(f"R2 с нормализацией: {r2_scaled}")

RMSE с нормализацией: 5441.261753632497
MAE с нормализацией: 4038.264029772022
R2 с нормализацией: 0.8054777855782935


In [21]:
# Создание и обучение модели Ridge регрессии
ridge_model = Ridge(alpha=1.0)  # Можно настраивать alpha
ridge_model.fit(X_train_scaled, y_train)

In [22]:
# Предсказания на тестовой выборке для Ridge
y_pred_ridge = ridge_model.predict(X_test_scaled)

In [23]:
# Оценка производительности модели Ridge
rmse_ridge = mean_squared_error(y_test, y_pred_ridge, squared=False)
mae_ridge = mean_absolute_error(y_test, y_pred_ridge)
r2_ridge = r2_score(y_test, y_pred_ridge)



In [24]:
print(f"RMSE для Ridge регрессии: {rmse_ridge}")
print(f"MAE для Ridge регрессии: {mae_ridge}")
print(f"R2 для Ridge регрессии: {r2_ridge}")

RMSE для Ridge регрессии: 5442.325147486299
MAE для Ridge регрессии: 4040.342927223473
R2 для Ridge регрессии: 0.8054017466191417


In [25]:
# Создание и обучение модели Lasso регрессии
lasso_model = Lasso(alpha=1.0)  # Можно настраивать alpha
lasso_model.fit(X_train_scaled, y_train)

In [26]:
# Предсказания на тестовой выборке для Lasso
y_pred_lasso = lasso_model.predict(X_test_scaled)

In [27]:
# Оценка производительности модели Lasso
rmse_lasso = mean_squared_error(y_test, y_pred_lasso, squared=False)
mae_lasso = mean_absolute_error(y_test, y_pred_lasso)
r2_lasso = r2_score(y_test, y_pred_lasso)



In [28]:
print(f"RMSE для Lasso регрессии: {rmse_lasso}")
print(f"MAE для Lasso регрессии: {mae_lasso}")
print(f"R2 для Lasso регрессии: {r2_lasso}")

RMSE для Lasso регрессии: 5441.36113183245
MAE для Lasso регрессии: 4038.4067613287043
R2 для Lasso регрессии: 0.8054706800777951
