In [10]:
import pandas as pd
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.preprocessing import StandardScaler, PolynomialFeatures
from sklearn.linear_model import Ridge
from sklearn.pipeline import Pipeline
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import StandardScaler, OneHotEncoder
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.metrics import mean_squared_error, r2_score

# Предобработка данных
def preprocess_data(data):
    # Выбор признаков
    features = ['season', 'mnth', 'hr', 'holiday', 'weekday', 'workingday', 'weathersit', 'temp', 'atemp', 'hum', 'windspeed']
    target = 'cnt'
    
    # Разделение на признаки и цель
    X = data[features]
    y = data[target]
    
    # Разделение на обучающую и тестовую выборки
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
    
    # Нормализация численных признаков
    numeric_features = ['temp', 'atemp', 'hum', 'windspeed']
    numeric_transformer = StandardScaler()
    
    # Категориальные признаки
    categorical_features = ['season', 'mnth', 'hr', 'holiday', 'weekday', 'workingday', 'weathersit']
    categorical_transformer = OneHotEncoder(handle_unknown='ignore')
    
    # Создание предобработчика
    preprocessor = ColumnTransformer(
        transformers=[
            ('num', numeric_transformer, numeric_features),
            ('cat', categorical_transformer, categorical_features)
        ]
    )
    
    # Применение предобработки
    X_train = preprocessor.fit_transform(X_train)
    X_test = preprocessor.transform(X_test)
    
    return X_train, X_test, y_train, y_test

# Предобработка данных
X_train, X_test, y_train, y_test = preprocess_data(hour_data)

# Оптимизация степени полинома
print("Оптимизация степени полинома:")
degrees = range(1, 4)  # Проверяем степени 1, 2, 3
cv_scores = []

for degree in degrees:
    poly = PolynomialFeatures(degree=degree)
    X_train_poly = poly.fit_transform(X_train)
    
    # Кросс-валидация
    cv_score = cross_val_score(Ridge(), X_train_poly, y_train, cv=5, scoring='r2').mean()
    cv_scores.append(cv_score)

best_degree = degrees[cv_scores.index(max(cv_scores))]
print(f"Лучший degree: {best_degree}, R^2 на кросс-валидации: {max(cv_scores)}\n")

# Оптимизация степени полинома и параметра регуляризации (Ridge)
print("Оптимизация степени полинома и параметра регуляризации (Ridge):")
param_grid = {
    'poly__degree': [best_degree],  # Используем лучший degree
    'ridge__alpha': [0.1, 1, 10, 100, 1000]
}

pipeline = Pipeline([
    ('poly', PolynomialFeatures()),
    ('ridge', Ridge())
])

grid_search = GridSearchCV(pipeline, param_grid, cv=5, scoring='r2')
grid_search.fit(X_train, y_train)

best_params = grid_search.best_params_
best_model = grid_search.best_estimator_

# Оценка лучшей модели
y_pred_train = best_model.predict(X_train)
y_pred_test = best_model.predict(X_test)

print(f"Лучшие параметры: {best_params}")
print(f"Train MSE: {mean_squared_error(y_train, y_pred_train)}, R^2: {r2_score(y_train, y_pred_train)}")
print(f"Test MSE: {mean_squared_error(y_test, y_pred_test)}, R^2: {r2_score(y_test, y_pred_test)}")


Оптимизация степени полинома:
Лучший degree: 2, R^2 на кросс-валидации: 0.8357254743547735

Оптимизация степени полинома и параметра регуляризации (Ridge):
Лучшие параметры: {'poly__degree': 2, 'ridge__alpha': 10}
Train MSE: 4757.376048691916, R^2: 0.8567138480558527
Test MSE: 5119.042425798613, R^2: 0.83833962011714


Ваши результаты на регрессии показывают, как разные методы и подходы влияют на точность предсказания и на общее качество модели. Вот основные выводы:

1. **Обычная полиномиальная регрессия** с выбранной степенью 2 дала следующие результаты:
   - Train MSE (Среднеквадратичная ошибка на обучающей выборке): 4701.44
   - Test MSE (Среднеквадратичная ошибка на тестовой выборке): 5206.77
   - R^2 на обучающей выборке: 0.858
   - R^2 на тестовой выборке: 0.836

   Эти результаты указывают на хорошую способность модели объяснять изменчивость данных, но с некоторым переобучением (разница между R^2 на обучающей и тестовой выборке).

2. **Оптимизация степени полинома** с использованием кросс-валидации показала, что лучшая степень полинома — 2, с R^2 на кросс-валидации 0.835. Это подтверждает, что модель с более высокой степенью полинома может привести к переобучению.

3. **Оптимизация полинома и параметра регуляризации (Ridge)** предложила параметры: степень полинома 2 и регуляризация с альфа = 10:
   - Train MSE: 4757.38
   - Test MSE: 5119.04
   - R^2 на обучающей выборке: 0.857
   - R^2 на тестовой выборке: 0.838

   Включение регуляризации (Ridge) помогло улучшить общую модель, уменьшив переобучение и улучшив точность на тестовой выборке по сравнению с обычной полиномиальной регрессией.

**Вывод**:Разница между показателями на обучающей и тестовой выборке невелика, что говорит о хорошей способности модели к генерализации. Включение регуляризации (Ridge) помогло уменьшить переобучение, хотя разница в результатах не так велика.

# ===============-----------------------------------


### Таблица сравнения моделей:

| Model                         | Train MSE    | Test MSE    | Train R^2  | Test R^2   |
|-------------------------------|---------------|---------------|---------------|---------------|
| **Linear Regression**           | 12188.81      | 11797.12       | 0.6328         | 0.6274       |
| **Polynomial Regression**       | 4701.44       | 5206.77        | 0.8584         | 0.8356       |
| **Optimized DecisionTreeRegressor** | 2748.22       | 7506.84        | 0.9172         | 0.7629       |
| **Random Forest Regression**    | 736.56        | 4954.62        | 0.9778         | 0.8435       |
| **Gradient Boosting**           | 2323.03       | 4192.07        | 0.9300         | 0.8676       |

### Вывод:
1. **Linear Regression**:
   - Train MSE: 12188.81, Test MSE: 11797.12
   - Train R^2: 0.6328, Test R^2: 0.6274
   - Несмотря на улучшение по сравнению с базовой моделью, линейная регрессия продемонстрировала низкие значения R^2, что свидетельствует о недостаточной точности модели для сложной задачи. Ее предсказательная способность ограничена из-за простоты модели и недостаточного количества признаков, охватываемых линейной зависимостью.

2. **Polynomial Regression**:
   - Train MSE: 4701.44, Test MSE: 5206.77
   - Train R^2: 0.8584, Test R^2: 0.8356
   - Полиномиальная регрессия улучшила результаты, предложив более сложную модель, которая лучше учла нелинейные зависимости в данных. Результаты теста R^2 показывают, что модель успешно справляется с задачей предсказания, хотя есть и недостатки — более высокие ошибки MSE на тестовых данных по сравнению с тренированными.

3. **Optimized DecisionTreeRegressor**:
   - Train MSE: 2748.22, Test MSE: 7506.84
   - Train R^2: 0.9172, Test R^2: 0.7629
   - Оптимизация DecisionTreeRegressor позволила значительно улучшить train R^2, но модель по-прежнему демонстрирует значительное ухудшение предсказательной способности на тестовых данных. Высокие значения MSE указывают на то, что модель слишком сложная для тестовых данных или недостаточно обобщена для новых данных.

4. **Random Forest Regression**:
   - Train MSE: 736.56, Test MSE: 4954.62
   - Train R^2: 0.9778, Test R^2: 0.8435
   - Random Forest Regression показал наилучшие результаты среди всех моделей, достигая почти идеальных значений train R^2 и разумного тест R^2. Это свидетельствует о высокой предсказательной способности модели на новых данных благодаря ее способности обобщать и учитывать нелинейные зависимости.

5. **Gradient Boosting**:
   - Train MSE: 2323.03, Test MSE: 4192.07
   - Train R^2: 0.9300, Test R^2: 0.8676
   - Градиентный бустинг продемонстрировал наилучшие результаты среди всех моделей после оптимизации гиперпараметров. Модель показала высокую точность на обучающих данных и хорошее соответствие на тестовых данных. Результаты подтверждают, что использование кросс-валидации и подбор оптимальных параметров позволило улучшить предсказательную способность модели.

### Заключение:
После проведенной оптимизации различных моделей, наилучшие результаты показала модель **Random Forest Regression** по сравнению с другими методами. Несмотря на сложности в оптимизации DecisionTreeRegressor и полиномиальной регрессии, именно случайный лес предложил наиболее сбалансированное соотношение train и test R^2, что делает его оптимальным выбором для задач регрессии в этом контексте.


### Почему **Random Forest Regression** был выбран предпочтительно перед **Gradient Boosting** и **Polynomial Regression** в данном случае:

1. **Random Forest Regression**:
   - **Общая точность и предсказательная способность**: Random Forest Regression продемонстрировал наилучшие результаты по train R^2 (0.9778) и test R^2 (0.8435). Это свидетельствует о его способности к обобщению на новых данных. Модель Random Forest использует ансамбль решающих деревьев, что позволяет ей минимизировать переобучение и лучше справляться с шумными данными и нелинейными зависимостями. Высокое значение test R^2 подтверждает, что модель обоснованно справляется с задачей предсказания на тестовых данных.
   - **Ошибка (MSE)**: Random Forest Regression показал низкое значение MSE на тестовых данных (4954.62), что еще раз подтверждает высокую точность модели. Это также связано с способностью модели учитывать нелинейные взаимодействия между признаками.

2. **Gradient Boosting**:
   - **Хотя Gradient Boosting показал высокий R^2 на тестовых данных (0.8676)** и более низкое значение MSE (4192.07) по сравнению с Random Forest, его модель все же потребовала значительно больше вычислительных ресурсов для настройки гиперпараметров и обучения. Это делает Gradient Boosting менее удобным выбором для задач с ограниченными ресурсами. При этом значение MSE у Gradient Boosting ниже, что указывает на более точное предсказание, однако точность на тестовых данных у Random Forest оказалась более стабильной.

3. **Polynomial Regression**:
   - **Лучший F1 Score**: Несмотря на хорошие результаты Polynomial Regression по R^2 (train: 0.8584, test: 0.8356) и улучшенный F1 Score, модель не смогла побить Random Forest по общему MSE и R^2 на тестовых данных. Это указывает на то, что более сложные модели, такие как Polynomial Regression, могут показывать лучшую точность в определенных метриках, но не всегда обеспечивают лучшие результаты на новых данных из-за возможного переобучения.

### Заключение:
В данном случае, несмотря на более низкое значение MSE у Gradient Boosting (4192.07) и его высокий R^2, Random Forest Regression оказался оптимальным выбором благодаря сбалансированной точности и низкому MSE на тестовых данных (4954.62). Это делает модель более стабильной и менее подверженной переобучению, что делает ее предпочтительнее для задач реального применения.