Задача регрессии заключается в предсказании непрерывной величины (целевой переменной) по определенному набору признаков.

Постановка задачи и данные для обучения: https://www.kaggle.com/competitions/commonlitreadabilityprize/data

scikit-learn (sklearn) — библиотека, предназначенная для машинного обучения:
https://scikit-learn.org/1.5/index.html



In [1]:
import pandas as pd

# считаем в переменную df (DataFrame) данные и выведем первые строки таблицы
df = pd.read_csv('train.csv')
df.head()

Unnamed: 0,id,url_legal,license,excerpt,target,standard_error
0,c12129c31,,,When the young people returned to the ballroom...,-0.340259,0.464009
1,85aa80a4c,,,"All through dinner time, Mrs. Fayre was somewh...",-0.315372,0.480805
2,b69ac6792,,,"As Roger had predicted, the snow departed as q...",-0.580118,0.476676
3,dd1000b26,,,And outside before the palace a great garden w...,-1.054013,0.450007
4,37c1b32fb,,,Once upon a time there were Three Bears who li...,0.247197,0.510845


In [2]:
# извлекаем признаки и векторизуем тексты
from sklearn.feature_extraction.text import CountVectorizer
corpus = df['excerpt'].values
vectorizer = CountVectorizer()
bag = vectorizer.fit_transform(corpus)

new_data = pd.DataFrame(bag.toarray(),columns=vectorizer.get_feature_names_out())
new_data['Target'] = df['target']
new_data.head()

Unnamed: 0,00,000,000th,001,02,03,034,04,049,06,...,½d,ædui,ægidus,æmilius,æneas,æolian,æquians,æschylus,ça,Target
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,-0.340259
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,-0.315372
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,-0.580118
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,-1.054013
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0.247197


In [3]:
# разбиваем данные на две части - для обучения и тестирования
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(new_data.drop(columns=['Target']), new_data.Target, test_size=0.2, random_state=42)

# для тестирования модели оставьте четверть от имеющихся данных
X_train, X_test, y_train, y_test = train_test_split(new_data.drop(columns=['Target']), new_data.Target, test_size=0.25, random_state=42)
#мы оставляем четверть путём test_size=0.25

# выведите по 6 первых строк образованных объектов
print('\t\tTRAIN:')
print("\nX_train:")
print(X_train.head(6))
print("\n y_train:")
print(y_train.head(6))
print('\t\tTEST')
print("\n X_test:")
print(X_test.head(6))
print("\n y_test:")
print(y_test.head(6))

		TRAIN:

X_train:
      00  000  000th  001  02  03  034  04  049  06  ...  µv  ½d  ædui  \
438    0    0      0    0   0   0    0   0    0   0  ...   0   0     0   
2124   0    0      0    0   0   0    0   0    0   0  ...   0   0     0   
1392   0    0      0    0   0   0    0   0    0   0  ...   0   0     0   
2395   0    0      0    0   0   0    0   0    0   0  ...   0   0     0   
166    0    0      0    0   0   0    0   0    0   0  ...   0   0     0   
59     0    0      0    0   0   0    0   0    0   0  ...   0   0     0   

      ægidus  æmilius  æneas  æolian  æquians  æschylus  ça  
438        0        0      0       0        0         0   0  
2124       0        0      0       0        0         0   0  
1392       0        0      0       0        0         0   0  
2395       0        0      0       0        0         0   0  
166        0        0      0       0        0         0   0  
59         0        0      0       0        0         0   0  

[6 rows x 26833 columns]

 

In [4]:
# создаем и обучаем модель линейной регрессии
from sklearn.linear_model import LinearRegression

modelLR = LinearRegression()
modelLR.fit(X_train, y_train)

# прогнозируем значения с помощью модели
y_train_pred = modelLR.predict(X_train)

# спрогнозируйте значения целевой переменной для тестовых объектов
y_test_pred = modelLR.predict(X_test)

In [5]:
import numpy as np
import sklearn

In [6]:
# импортируем методы для оценки качества модели (метрики качества предсказаний)
from sklearn.metrics import root_mean_squared_error, r2_score
rmse_train = root_mean_squared_error(y_train, y_train_pred)
r2_train = r2_score(y_train, y_train_pred)
#-------------------------------------------------------------------------------
# создаем датафрейм и записываем в него результаты оценки
#results = pd.DataFrame(['Linear regression', r2_train, rmse_train]).transpose()
#results.columns = ['Method', 'Determination', 'RMSE']
#results
#-------------------------------------------------------------------------------

# посмотрите, какие еще метрики могут быть использованы для оценки регрессионной модели:
#ОТВЕТ
#Могут быть ещё использованы:

#1. Средняя абсолютная ошибка (Mean Absolute Error — MAE) 
#(показывает среднюю величину отклонения между реальными значениями и предсказанными. 
#Легко интерпретируется в единицах исходной зависимой переменной.)

#2. Коэффициент детерминации (R^2)
#(отражает долю вариации зависимой переменной, объясняемую моделью. Чем ближе к 1, тем лучше качество модели.)

#3. Среднее относительное отклонение (Mean Absolute Percentage Error — MAPE)
#(средняя величина относительной погрешности, выраженная в процентах.)

#4. Квадратный корень средней квадратичной ошибки (RMSLE)
#(оценивает ошибку, уменьшая вес значительных различий между небольшими значениями.)

#5. Максимальная абсолютная ошибка (Maximal Absolute Error — MaxAE)
#(самая большая разница между фактическим и предсказанным значением.)
#-------------------------------------------------------------------------------

from sklearn.metrics import mean_absolute_error, mean_absolute_percentage_error, explained_variance_score, max_error, log_loss, make_scorer

mae_train = mean_absolute_error(y_train, y_train_pred)
mappe_train = mean_absolute_percentage_error(y_train, y_train_pred)
maxae_train = max_error(y_train, y_train_pred)
expl_var_train = explained_variance_score(y_train, y_train_pred)

# Добавляем новые метрики в таблицу результатов
results_train = pd.DataFrame({
    'Method': ['Linear Regression'],
    'RMSE': [rmse_train],
    'R² (Deter.)': [r2_train],
    'MAE': [mae_train],           # Средняя абсолютная ошибка
    'MAPPE (% error)': [mappe_train * 100],   # Среднее относительное отклонение в %
    'MaxAE': [maxae_train],       # Максимальная абсолютная ошибка
    'Exp.Var.': [expl_var_train]  # Объяснённая дисперсия
})

results_train
# https://scikit-learn.org/1.5/api/sklearn.metrics.html
# добавьте новый показатель в итоговую таблицу

Unnamed: 0,Method,RMSE,R² (Deter.),MAE,MAPPE (% error),MaxAE,Exp.Var.
0,Linear Regression,0.164232,0.974894,0.120674,52787270000000.0,0.771948,0.974894


In [7]:
# добавьте в итоговую таблицу те же самые показатели для тестовых данных
from sklearn.metrics import root_mean_squared_error, r2_score, mean_absolute_error, mean_absolute_percentage_error, explained_variance_score, max_error, log_loss, make_scorer
rmse_test = root_mean_squared_error(y_test, y_test_pred)
r2_test = r2_score(y_test, y_test_pred)
mae_test = mean_absolute_error(y_test, y_test_pred)
mappe_test = mean_absolute_percentage_error(y_test, y_test_pred)
maxae_test = max_error(y_test, y_test_pred)
expl_var_test = explained_variance_score(y_test, y_test_pred)

results_test = pd.DataFrame({
    'Method': ['Linear Regression'],
    'RMSE': [rmse_train],
    'R² (Deter.)': [r2_train],
    'MAE': [mae_train],           # Средняя абсолютная ошибка
    'MAPPE (% error)': [mappe_train * 100],   # Среднее относительное отклонение в %
    'MaxAE': [maxae_train],       # Максимальная абсолютная ошибка
    'Exp.Var.': [expl_var_train]  # Объяснённая дисперсия
})

results_test

Unnamed: 0,Method,RMSE,R² (Deter.),MAE,MAPPE (% error),MaxAE,Exp.Var.
0,Linear Regression,0.164232,0.974894,0.120674,52787270000000.0,0.771948,0.974894


In [8]:
# импортируем и обучаем модель по алгоритму Случайный лес.
from sklearn.ensemble import RandomForestRegressor
modelRF = RandomForestRegressor(max_depth=2)
modelRF.fit(X_train, y_train)
y_train_rf_pred = modelRF.predict(X_train)
rf_rmse_train = root_mean_squared_error(y_train, y_train_rf_pred)
rf_r2_train = r2_score(y_train, y_train_rf_pred)
rf_mae_train = mean_absolute_error(y_train, y_train_rf_pred)
rf_mappe_train = mean_absolute_percentage_error(y_train, y_train_rf_pred)
rf_maxae_train = max_error(y_train, y_train_rf_pred)
rf_expl_var_train = explained_variance_score(y_train, y_train_rf_pred)

# добавьте новую запись с результатами оценки текущей модели в конец таблицы.
# кол-во столбцов и показатели - должны быть такие же как настроили на предыдущем этапе

#results.loc[len(results)] = ['Random forest', r2_train, rmse_train]
#results

results_train.loc[len(results_train)] = ['Random forest', rf_rmse_train, rf_r2_train, rf_mae_train, 
                                       rf_mappe_train, rf_maxae_train, rf_expl_var_train]

In [9]:
results_train

Unnamed: 0,Method,RMSE,R² (Deter.),MAE,MAPPE (% error),MaxAE,Exp.Var.
0,Linear Regression,0.164232,0.974894,0.120674,52787270000000.0,0.771948,0.974894
1,Random forest,0.900671,0.244911,0.72443,1132052000000.0,2.716526,0.244912


In [11]:
# добавьте еще 1-2 модели в этот эксперимент
# https://scikit-learn.org/stable/api/index.html

from sklearn.tree import DecisionTreeRegressor
tree_reg = DecisionTreeRegressor(
    criterion="squared_error",  # Критерий расщепления узлов (sse, mse, friedeman_mse)
    splitter="best",            # Способ выбора лучшего расщепления
    max_depth=None,              # Ограничение максимальной глубины дерева
    min_samples_split=2,         # Минимальное количество образцов для дальнейшего деления узла
    min_samples_leaf=1,          # Минимальное количество образцов в листовом узле
    random_state=42             # Фиксируем генератор случайных чисел для повторяемости эксперимента
)

tree_reg.fit(X_train, y_train)
y_train_tree_reg_pred = tree_reg.predict(X_train)
tree_reg_rmse_train = root_mean_squared_error(y_train, y_train_tree_reg_pred)
tree_reg_r2_train = r2_score(y_train, y_train_tree_reg_pred)
tree_reg_mae_train = mean_absolute_error(y_train, y_train_tree_reg_pred)
tree_reg_mappe_train = mean_absolute_percentage_error(y_train, y_train_tree_reg_pred)
tree_reg_maxae_train = max_error(y_train, y_train_tree_reg_pred)
tree_reg_expl_var_train = explained_variance_score(y_train, y_train_tree_reg_pred)

results_train.loc[len(results_train)] = ['Decision Tree Regressor', tree_reg_rmse_train, tree_reg_r2_train, 
                                        tree_reg_mae_train, tree_reg_mappe_train,
                                        tree_reg_maxae_train, tree_reg_expl_var_train]

In [16]:
results_train

Unnamed: 0,Method,RMSE,R² (Deter.),MAE,MAPPE (% error),MaxAE,Exp.Var.
0,Linear Regression,0.164232,0.974894,0.120674,52787270000000.0,0.771948,0.974894
1,Random forest,0.900671,0.244911,0.72443,1132052000000.0,2.716526,0.244912
2,Decision Tree Regressor,0.010861,0.99989,0.000333,0.001826091,0.354036,0.99989


Давайте посмотрим на 3 модели и определим, какая всё-таки лучше.

Сначала посмотрим на метрики:
**RMSE** (показывает среднюю квадратичную ошибку. Чем меньше значение, тем лучше модель.)
Здесь выигрывает **Decision Tree Regressor**

**R²** (показывает, какую долю вариации целевой переменной объясняет модель. Значение ближе к 1 указывает на лучшую модель.)
И вновь выигрывает **Decision Tree Regressor**

**MAE** (показывает среднюю абсолютную ошибку. Чем меньше значение, тем лучше модель.)
И вновь выигрывает **Decision Tree Regressor**

**MAPPE** показывает среднюю абсолютную процентную ошибку.
И вновь выигрывает **Decision Tree Regressor**

**MaxAE** - максимальная аьсолютная ошибка (чем меньше, тем лучше).
И вновь выигрывает **Decision Tree Regressor**

**Exp.Var.** показывает, какую долю дисперсии целевой переменной объясняет модель. Значение ближе к 1 указывает на лучшую модель.
И вновь выигрывает **Decision Tree Regressor**




По всем показаниям выигрывает **Decision Tree Regressor**



Decision Tree Regressor — это модель машинного обучения, которая используется для решения задач регрессии. Она основана на дереве решений, где каждый узел представляет собой условие, а каждый лист — предсказанное значение.

In [None]:
# загрузите новые данные (называется test.csv, но это в контексте kaggle -для проверки моделей участников.
# Для нас это просто новые данные, для которых нужно предсказать значение целевого атрибута.)
# выполните векторизацию текстов и предскажите для них значение признака target с помощью выбранной модели.

In [13]:
new_df = pd.read_csv('test.csv')  
new_df.head()

Unnamed: 0,id,url_legal,license,excerpt
0,c0f722661,,,My hope lay in Jack's promise that he would ke...
1,f0953f0a5,,,Dotty continued to go to Mrs. Gray's every nig...
2,0df072751,,,It was a bright and cheerful scene that greete...
3,04caf4e0c,https://en.wikipedia.org/wiki/Cell_division,CC BY-SA 3.0,Cell division is the process by which a parent...
4,0e63f8bea,https://en.wikipedia.org/wiki/Debugging,CC BY-SA 3.0,Debugging is the process of finding and resolv...


In [15]:
from sklearn.feature_extraction.text import CountVectorizer
corpus = new_df['excerpt'].values
vectorizer = CountVectorizer()
bag = vectorizer.fit_transform(corpus) #векторизация данных

new_data1 = pd.DataFrame(bag.toarray(),columns=vectorizer.get_feature_names_out())
new_data1['Target'] = df['target']
new_data1.head()

Unnamed: 0,1878,1940s,about,account,acorn,active,activities,adam,adjacent,admiral,...,would,written,wrong,yards,yes,yet,you,your,zoe,Target
0,0,0,0,1,0,0,0,0,0,0,...,2,0,1,1,0,0,0,0,0,-0.340259
1,0,0,1,0,1,0,0,0,0,0,...,4,0,1,0,1,0,0,0,0,-0.315372
2,0,0,0,0,0,0,0,0,1,0,...,0,0,0,0,1,1,3,1,1,-0.580118
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,-1.054013
4,1,1,1,0,0,0,0,0,0,1,...,0,1,0,0,0,0,0,0,0,0.247197


In [24]:
tree_reg = DecisionTreeRegressor(
    criterion="squared_error",  # Критерий расщепления узлов (sse, mse, friedeman_mse)
    splitter="best",            # Способ выбора лучшего расщепления
    max_depth=None,              # Ограничение максимальной глубины дерева
    min_samples_split=2,         # Минимальное количество образцов для дальнейшего деления узла
    min_samples_leaf=1,          # Минимальное количество образцов в листовом узле
    random_state=42             # Фиксируем генератор случайных чисел для повторяемости эксперимента
)

tree_reg.fit(X_test, y_test)
y_test_tree_reg_pred = tree_reg.predict(X_test)
tree_reg_rmse_test = root_mean_squared_error(y_test, y_test_tree_reg_pred)
tree_reg_r2_test = r2_score(y_test, y_test_tree_reg_pred)
tree_reg_mae_test = mean_absolute_error(y_test, y_test_tree_reg_pred)
tree_reg_mappe_test = mean_absolute_percentage_error(y_test, y_test_tree_reg_pred)
tree_reg_maxae_test = max_error(y_test, y_test_tree_reg_pred)
tree_reg_expl_var_test = explained_variance_score(y_test, y_test_tree_reg_pred)

results = pd.DataFrame({
    'Method': ['Decision Tree Regressor'],
    'RMSE': [tree_reg_rmse_test],
    'R² (Deter.)': [tree_reg_r2_test],
    'MAE': [tree_reg_mae_test],           # Средняя абсолютная ошибка
    'MAPPE (% error)': [tree_reg_mappe_test * 100],   # Среднее относительное отклонение в %
    'MaxAE': [tree_reg_maxae_test],       # Максимальная абсолютная ошибка
    'Exp.Var.': [tree_reg_expl_var_test]  # Объяснённая дисперсия
})

In [25]:
results

Unnamed: 0,Method,RMSE,R² (Deter.),MAE,MAPPE (% error),MaxAE,Exp.Var.
0,Decision Tree Regressor,0.0,1.0,0.0,0.0,0.0,1.0


Судя по результатам, наша модель либо слишком идеальна, либо, наоборот, ужасна и требует переобучения.
Давайте посмотрим на другую модель, которая дала результаты похуже.

In [28]:
modelRF = RandomForestRegressor(max_depth=2)
modelRF.fit(X_test, y_test)
y_test_rf_pred = modelRF.predict(X_test)
rf_rmse_test = root_mean_squared_error(y_test, y_test_rf_pred)
rf_r2_test = r2_score(y_test, y_test_rf_pred)
rf_mae_test = mean_absolute_error(y_test, y_test_rf_pred)
rf_mappe_test = mean_absolute_percentage_error(y_test, y_test_rf_pred)
rf_maxae_test = max_error(y_test, y_test_rf_pred)
rf_expl_var_test = explained_variance_score(y_test, y_test_rf_pred)

results.loc[len(results)] = ['Random forest', rf_rmse_test, rf_r2_test, rf_mae_test, 
                                       rf_mappe_test, rf_maxae_test, rf_expl_var_test]

results

Unnamed: 0,Method,RMSE,R² (Deter.),MAE,MAPPE (% error),MaxAE,Exp.Var.
0,Decision Tree Regressor,0.0,1.0,0.0,0.0,0.0,1.0
1,Random forest,0.864005,0.287919,0.700642,2.238055,2.771093,0.28792


Значит, действительно, **Decision Tree Regressor** дала нам идеальные результаты (хотя я не верю в идеал)