## 1. Линейная регрессия

In [14]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
from sklearn.model_selection import train_test_split
import pandas as pd

# Загрузка данных
data = pd.read_excel('./data/updated_dataset.xlsx')

# Предобработка данных (повторение предыдущих шагов)
data_cleaned = data.dropna(axis=1, how='all')
numerical_features = data_cleaned.select_dtypes(include=['int64', 'float64'])

# Предположим, что целевой переменной является "Показы"
X = numerical_features.drop('Показы', axis=1)
y = numerical_features['Показы']

# Разделение данных
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Обучение модели линейной регрессии
linear_model = LinearRegression()
linear_model.fit(X_train, y_train)

# Прогнозирование и оценка модели
y_pred_linear = linear_model.predict(X_test)
r2_linear = r2_score(y_test, y_pred_linear)

print(f"Коэффициент детерминации (R^2): {r2_linear}")

Коэффициент детерминации (R^2): 0.9927316474800035


## 2. Градиентный бустинг

In [15]:
from sklearn.ensemble import GradientBoostingRegressor

# Обучение модели градиентного бустинга
gb_model = GradientBoostingRegressor(n_estimators=100, random_state=42)
gb_model.fit(X_train, y_train)

# Прогнозирование и оценка модели
y_pred_gb = gb_model.predict(X_test)
r2_gb = r2_score(y_test, y_pred_gb)

print(f"Коэффициент детерминации (R^2): {r2_gb}")

Коэффициент детерминации (R^2): 0.9897219196000598


## 3. Случайный лес

In [16]:
from sklearn.ensemble import RandomForestRegressor

# Создание и обучение модели случайного леса
rf_model = RandomForestRegressor(n_estimators=100, random_state=42)
rf_model.fit(X_train, y_train)

# Прогнозирование на тестовой выборке
y_pred = rf_model.predict(X_test)
r2_rf = r2_score(y_test, y_pred)

print(f"Коэффициент детерминации (R^2): {r2_rf}")

Коэффициент детерминации (R^2): 0.9797325943701196
