In [1]:
import pandas as pd
import statsmodels.api as sm
import numpy as np
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.tree import DecisionTreeRegressor

Для кращого аналізу моделі регресії дані з файлу internship_train.csv потрібно поділити на дві частини: 80%(train) та 20%(test). Перша частину даних буде використовуватися для побудови моделі регресії. Друга -- для перевірки точності даної моделі.

Так як internship_train.csv складається з рядків і стовбчиків, то потрібно дізнатися скільки рядків займає 80%.
train_len -- це кількість 80% рядків з документа internship_train.csv

In [2]:
result = pd.read_csv('internship_train.csv')
train_len = int(len(result)*0.8)

X_train, y_train -- вибірка для тренування моделі
X_test, y_test -- вибірка для тeстування моделі

In [None]:
data_file = pd.read_csv("internship_train.csv")
X_train = data_file.iloc[:train_len + 1, 0:53].values
y_train = data_file.iloc[: train_len + 1, -1:].values
X_test = data_file.iloc [train_len + 1 : , 0:53].values
y_test = data_file.iloc[train_len + 1:, -1:].values

Було розглянуто лінійні регресії з пакетів sklearn (LinearRegression, Ridge, Lasso) та statsmodels (OLS). Та додатково вирішила розглянути регресію, яка використовує дерево рішень з пакету sklearn.tree (DecisionTreeRegressor).

Перша модель, яка використовується -- LinearRegression з пакету sklearn.


In [6]:
#використовуємо модель на тренувальних даних
model_LR = LinearRegression().fit(X_train, y_train)

#розраховуємо передбачувані для тренувальних даних
y_train_pred = model_LR.predict(X_train)

#розраховуємо коефіцієнт детермінації R^2 для тренувальних даних та серднє квадратичне відхилення RMSE для передбачуваних даних, які розрахувала дана модель  і спражніми даними
r2_train = model_LR.score(X_train, y_train)
rmse_train = np.sqrt(mean_squared_error(y_train, y_train_pred))
print(f'RMSE for train data: {rmse_train}')
print(f'R^2  for train: {r2_train}')

#Використовуємо нашу модель на даних, які не проходили тренування. І анлогічно розраховуємо коефіцієнт детермінації R^2 та серднє квадратичне відхилення RMSE
y_test_pred = model_LR.predict(X_test)
r2_test = model_LR.score(X_test, y_test_pred)
rmse_test = np.sqrt(mean_squared_error(y_test, y_test_pred))
#
print(f'RMSE for test data: {rmse_test}')
print(f'R^2 fo test data: {r2_test}')

RMSE for train data: 28.87553729562131
R^2  for train: 0.0007971217742648307
RMSE for test data: 28.948200951350213
R^2 fo test data: 1.0


З результатів видно, що R^2 дорівнює 1. Це означає, що дана модель точно передбачає тестові дані.

RMSE for train data: 28.87553729562131
R^2  for train: 0.0007971217742648307
RMSE for test data: 28.948200951350213
R^2 fo test data: 1.0

Розглянемо модель Ridge. Це алгоритм регуляризації лінійної регресії зменшує, що коеф. регресії та запобігає перенавчання моделі.
alpha -- параметр, що контролює силу регуляризації регресії.
Як і з моделлю LinearRegression повторюємо аналогічні розрахунки для R^2 та RMSE

In [7]:
model_R = Ridge(alpha=0.01).fit(X_train, y_train)
y_train_pred = model_R.predict(X_train)
r2_train = model_R.score(X_train, y_train)
rmse_train = np.sqrt(mean_squared_error(y_train, y_train_pred))
print(f'RMSE тренувальної вибірки: {rmse_train}')
print(f'R^2 тренувальної вибірки: {r2_train}')

y_test_pred = model_R.predict(X_test)
r2_test = model_R.score(X_test, y_test_pred)
rmse_test = np.sqrt(mean_squared_error(y_test, y_test_pred))

print(f'RMSE тестової вибірки: {rmse_test}')
print(f'R^2 тестової вибірки: {r2_test}')

RMSE тренувальної вибірки: 28.875537295621317
R^2 тренувальної вибірки: 0.0007971217742641645
RMSE тестової вибірки: 28.9482009416222
R^2 тестової вибірки: 1.0


Можна помітити, що коф R^2 та RMSE майже однакові і відрізняються тільки в п'ятому знаку після крапки. Тому можна вважати, що ці дві моделі ідентичні.

Lasso -- також є алгоритмом регуляризації лінійної регресії тільки по їншому параметру ніж Ridge.
alpha -- параметр, що контролює силу регуляризації регресії.
Повторюємо аналогічні розрахунки

In [10]:
model_L = Lasso(alpha=0.1).fit(X_train, y_train)
y_train_pred = model_L.predict(X_train)
r2_train = model_L.score(X_train, y_train)
rmse_train = np.sqrt(mean_squared_error(y_train, y_train_pred))
print(f'RMSE тренувальної вибірки: {rmse_train}')
print(f'R^2 тренувальної вибірки: {r2_train}')

y_test_pred = model_L.predict(X_test)
r2_test = model_L.score(X_test, y_test_pred)
rmse_test = np.sqrt(mean_squared_error(y_test, y_test_pred))
#
print(f'RMSE тестової вибірки: {rmse_test}')
print(f'R^2 тестової вибірки: {r2_test}')

RMSE тренувальної вибірки: 28.878046226957874
R^2 тренувальної вибірки: 0.0006234771907577263
RMSE тестової вибірки: 28.944605776831075
R^2 тестової вибірки: 1.0


Також параметр RMSE відрізняється лише в третьому знаку після крапки, тому цей метод сильних покращень нв цей параметр не вніс.

OLS -- це алгоритм лінійної регресії в пакеті statmodels, що реалізується за допомоги методу найменших квадратів.

In [12]:
X = sm.add_constant(X_train)
model_OLS = sm.OLS(y_train, X_train).fit()

y_train_pred = model_OLS.predict(X_train)

r2_train = model_OLS.rsquared
rmse_train = np.sqrt(mean_squared_error(y_train, y_train_pred))

print(f'RMSE тренувальної вибірки: {rmse_train}')
print(f'R^2 тренувальної вибірки: {r2_train}')

y_test_pred = model_OLS.predict(X_test)

rmse_test = np.sqrt(mean_squared_error(y_test, y_test_pred))
print(f'RMSE тренувальної вибірки: {rmse_test}')

RMSE тренувальної вибірки: 29.126346410053948
R^2 тренувальної вибірки: 0.7460365214209876
RMSE тренувальної вибірки: 29.24198460761056


Фле порівнюючи лінійні регресії з пакета sklearn і даний метод з пакета statmodels, можна зробити висновок, що попередні алгоритми працювали краще, бо RMSE було менше

Останній алгоритм це DecisionTreeRegressor. Він використовує деревоподібну структуру для побудови моделі регресії, яка може передбачати числові значення вихідної змінної.

In [11]:
model_DTR = DecisionTreeRegressor().fit(X_train, y_train)
y_train_pred = model_DTR.predict(X_train)
r2_train = model_DTR.score(X_train, y_train)
rmse_train = np.sqrt(mean_squared_error(y_train, y_train_pred))
print(f'RMSE тренувальної вибірки: {rmse_train}')
print(f'R^2 тренувальної вибірки: {r2_train}')

y_test_pred = model_DTR.predict(X_test)
r2_test = model_DTR.score(X_test, y_test_pred)
rmse_test = np.sqrt(mean_squared_error(y_test, y_test_pred))
#
print(f'RMSE тестової вибірки: {rmse_test}')
print(f'R^2 тестової вибірки: {r2_test}')

RMSE тренувальної вибірки: 1.8501688274686544e-08
R^2 тренувальної вибірки: 1.0
RMSE тестової вибірки: 0.007675642392300156
R^2 тестової вибірки: 1.0


Як можна бачити, що RMSE за допомогою моделі DecisionTreeRegressor зменшився до 0.0077. При умові що R^2 = 1. Тобто дана модель точно передбачає тестові дані.
Тому я вважаю, що краще буде використовувати як модель цей алгоритм регресії.