In [4]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error
import time

# Загрузка данных
file_path = "day.csv"  # Укажите правильный путь к файлу
df = pd.read_csv(file_path)

# Удаление технических столбцов
df = df.drop(['instant', 'dteday', 'casual', 'registered'], axis=1)

# Переименование столбцов
column_mapping = {
    'yr': 'year',
    'mnth': 'month',
    'holiday': 'is_holiday',
    'weekday': 'weekday',
    'workingday': 'working_day',
    'weathersit': 'weather_situation',
    'temp': 'temperature',
    'atemp': 'feeling_temperature',
    'hum': 'humidity',
    'windspeed': 'wind_speed',
    'cnt': 'total_rentals'
}
df = df.rename(columns=column_mapping)

# Разделение на признаки и целевую переменную
X = df.drop('total_rentals', axis=1)
y = df['total_rentals']

# Преобразование категориальных признаков
cat_features = ['season', 'month', 'weekday', 'weather_situation']
X[cat_features] = X[cat_features].astype('category')

# One-Hot Encoding
X = pd.get_dummies(X, columns=cat_features, drop_first=True)

# Разделение данных
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

# Создание и обучение модели
start_time = time.time()
model = RandomForestRegressor(
    n_estimators=100,
    max_depth=10,
    random_state=42,
    n_jobs=-1
)
model.fit(X_train, y_train)
train_time = time.time() - start_time

# Предсказание
start_pred = time.time()
y_pred = model.predict(X_test)
pred_time = time.time() - start_pred

# Расчет метрик
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)

# Вывод результатов
print(f"Время обучения: {train_time:.2f} сек")
print(f"MSE: {mse:.2f}")
print(f"MAE: {mae:.2f}")

Время обучения: 0.61 сек
MSE: 537215.25
MAE: 486.52
