Начать с использования регрессии случайного леса в качестве базовой модели. Я выбрал случайный лес, поскольку он относительно прост для понимания, обобщает хорошо и не требует масштабирования данных или большого количества предварительной обработки

In [3]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error
from math import sqrt
import numpy as np

# Загрузим данные
df = pd.read_csv('Yulu.csv')

# Преобразуем 'datetime' в datetime формат и извлечем отдельные признаки
df['datetime'] = pd.to_datetime(df['datetime'])
df['year'] = df['datetime'].dt.year
df['month'] = df['datetime'].dt.month
df['day'] = df['datetime'].dt.day
df['hour'] = df['datetime'].dt.hour

# Теперь можем удалить 'datetime'
df = df.drop(columns=['datetime'])

# Извлечем векторы меток и признаков.
X = df.drop('count', axis=1)
y = df['count']

# Разделим данные на тренировочную и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Обучаем базовую модель
baseline_model = RandomForestRegressor()
baseline_model.fit(X_train,y_train)

# Предсказания модели на тестовом наборе
y_pred = baseline_model.predict(X_test)

# Вычисляем RMSE
rmse_model = sqrt(mean_squared_error(y_test, y_pred))
print("RMSE модели: ", rmse_model)

# Предсказания в виде среднего значения 'count'
# Если мы хотим сравнить результаты модели со средним значением 'count' в качестве константного предсказания, то делаем следующее:
y_mean = np.full(len(y_test), y_train.mean())

# Вычисляем RMSE для среднего значения
rmse_mean = sqrt(mean_squared_error(y_test, y_mean))
print("RMSE константной модели: ", rmse_mean)

RMSE модели:  3.0471543801299705
RMSE константной модели:  181.6781183339868


Данная модель на основе RandomForestRegressor в среднем ошибается примерно на 3 единицы, в то время как константная модель ошибается примерно на 181.68 единицы. Это показывает бОльшую эффективность вышеобученной модели по сравнению с более простым подходом, который всегда предсказывает среднее значение 'count'.

Чтобы понять приемлимость данного значения необходимо узнать максимальное и минимальное значение Count

In [2]:
# Загрузим данные
df = pd.read_csv('Yulu.csv')

# Получим минимальное и максимальное значение
min_count = df['count'].min()
max_count = df['count'].max()

# Выводим минимальное и максимальное значение
print("Минимальное значение count: ", min_count)
print("Максимальное значение count: ", max_count)

Минимальное значение count:  1
Максимальное значение count:  977


3 в 1000 не столь значительна, и поэтому мы можем сказать, что модель обучена хорошо