Реализация простых моделей линейной регрессии (**LinearRegression**), Lasso регрессии (**Lasso**) и Ridge регрессии (**Ridge**) для прогнозирования зависимой переменной на основе независимой переменной. Он использует различные метрики качества, такие как **среднеквадратичная ошибка (MSE)**, **средняя абсолютная ошибка (MAE)** и **коэффициент детерминации (R2)**, для оценки производительности моделей.

In [None]:
from google.colab import drive          # Импорт библиотеки google.colab. Используется для работы с Google Colaboratory - облачным сервисом и позволяет запускать Python-скрипты в браузере
drive.mount('/content/gdrive/')         # Монтирует диск Google Drive в системе файлов Colab

Drive already mounted at /content/gdrive/; to attempt to forcibly remount, call drive.mount("/content/gdrive/", force_remount=True).


In [None]:
!ls /content/gdrive/                    # Проверяем корневой директории Google Drive

MyDrive


In [None]:
!ls "/content/gdrive/MyDrive/Colab Notebooks/ML/"     # Проверяем содержимое папки "Colab Notebooks/ML" в Google Drive


 bird_small.png     'insurance (1).csv'  'Spam_Classifier (1).ipynb'
 cardio_binary.csv   insurance.csv	  Spam_Classifier.ipynb
 data1.txt	     Lesson-1		  spamTest.mat
 diabetes.csv	     mrt_dbscan.png	 'spamTrain (1).mat'
 ex1data2.txt	     mrt.png		  spamTrain.mat


In [None]:
import numpy as np                                        # Импортирует библиотеку NumPy, которая используется для работы с многомерными массивами и матрицами
import pandas as pd                                       # Импортирует библиотеку Pandas, которая используется для работы с таблицами и временными рядами
import scipy.io as io                                     # Импортирует библиотеку SciPy, которая содержит модуль io, используемый для чтения и записи файлов в различных форматах
from sklearn import metrics                               # Импортирует модуль metrics из библиотеки Scikit-learn, который содержит различные функции для вычисления метрик качества моделей
from sklearn.preprocessing import StandardScaler          # Импортирует класс StandardScaler из модуля preprocessing библиотеки Scikit-learn, который используется для стандартизации данных
from sklearn.model_selection import train_test_split      # мпортирует функцию train_test_split из модуля model_selection библиотеки Scikit-learn, которая используется для разделения данных на обучающую и тестовую выборки
from sklearn.linear_model import LinearRegression, Lasso, Ridge, SGDRegressor, SGDClassifier          # Импортирует классы моделей LinearRegression, Lasso, Ridge, SGDRegressor и SGDClassifier из модуля linear_model библиотеки Scikit-learn

In [None]:
# Считываем данные из файла data1.txt и загружаем их в датафреймы dataX и dataY
dataX = pd.read_csv("/content/gdrive/MyDrive/Colab Notebooks/ML/data1.txt", header=None, usecols=[0], sep=',') #change the path
dataY = pd.read_csv("/content/gdrive/MyDrive/Colab Notebooks/ML/data1.txt", header=None, usecols=[1], sep=',') #change the path
data_X = np.asarray(dataX)
data_Y = np.asarray(dataY)

In [None]:
X_train, X_test, Y_train, Y_test = train_test_split(data_X, data_Y, test_size=0.3,random_state=0)    # Разбиваем данные на обучающую и тестовую выборки в соотношении 70:30
print(X_train[:3], "\n", Y_train[:3])    # Выводим первые 5 элементов обучающей выборки

[[8.8254]
 [5.1077]
 [8.5172]] 
 [[5.1694]
 [2.0576]
 [4.2415]]


In [None]:
from sklearn import metrics

# Функция для вычисления метрик качества модели
def calc_metrics(true, pred):
    mse = metrics.mean_squared_error(true, pred)
    rmse = np.sqrt(mse)
    mae = metrics.mean_absolute_error(true, pred)
    r2=metrics.r2_score(true, pred) #Коэффициент детерминации измеряет долю дисперсии.Фактически, данная мера качества — это нормированная среднеквадратичная ошибка. Если r2 близка к единице, то модель хорошо объясняет данные.

    print("RMSE:  {}\nMAE:   {} \nR2:   {}".format(rmse, mae, r2))      # Выводим значения метрик

# LinearRegression

In [None]:
model_linear = LinearRegression()                      # Инициализируем модель LinearRegression
model_linear.fit(X_train, Y_train)          # Обучаем модель на обучающей выборке
print(model_linear.coef_, model_linear.intercept_)  # Выводим коэффициенты модели и свободный член

[[1.19869775]] [-3.86246206]


In [None]:
y_pred_linear = model_linear.predict(X_test)          # Применяем модель на тестовой выборке
calc_metrics(Y_test, y_pred_linear)                   # Вычисляем метрики качества модели

RMSE:  3.016228473120588
MAE:   2.341654819981191 
R2:   0.592517025321679


# Lasso


In [None]:
model_lasso = Lasso(alpha=0.1)                      # Инициализируем модель Lasso
model_lasso.fit(X_train, Y_train)          # Обучаем модель на обучающей выборке
print(model_lasso.coef_, model_lasso.intercept_)  # Выводим коэффициенты модели и свободный член

[1.1927572] [-3.81259373]


In [None]:
y_pred_lasso = model_lasso.predict(X_test)          # Применяем модель на тестовой выборке
calc_metrics(Y_test, y_pred_lasso)                   # ВЫчисляем метрики качества модели

RMSE:  3.015874210656135
MAE:   2.3416009370977444 
R2:   0.5926127391886244



# Ridge

In [None]:
model_ridge = Ridge(alpha=0.5)                      # Инициализируем модель Ridge
model_ridge.fit(X_train, Y_train)          # Обучаем модель на обучающей выборке
print(model_ridge.coef_, model_ridge.intercept_)  # Выводим коэффициенты модели и свободный член

[[1.19816657]] [-3.85800307]


In [None]:
y_pred_ridge = model_ridge.predict(X_test)          # Применяем модель на тестовой выборке
calc_metrics(Y_test, y_pred_ridge)                   # ВЫчисляем метрики качества модели

RMSE:  3.016191793762734
MAE:   2.341650002020757 
R2:   0.5925269357930527


In [None]:
#добавить Lasso(), Ridge() classifiers. Compare classifiers.
#реализовать МНК