# Прогнозирование заказов такси

**Описание проекта**

Компания «Чётенькое такси» собрала исторические данные о заказах такси в аэропортах. Чтобы привлекать больше водителей в период пиковой нагрузки, нужно спрогнозировать количество заказов такси на следующий час. Постройте модель для такого предсказания.

Значение метрики RMSE на тестовой выборке должно быть не больше 48.

**Описание данных**

Данные лежат в файле `/datasets/taxi.csv`.

Количество заказов находится в столбце `num_orders`.

**План работы**
1. Загрузите данные и выполните их ресемплирование по одному часу.
2. Проанализируйте данные.
3. Обучите разные модели с различными гиперпараметрами. Сделайте тестовую выборку размером 10% от исходных данных.
4. Проверьте данные на тестовой выборке и сделайте выводы.

In [2]:
import pandas as pd
import optuna
import plotly.express as px

from collections import defaultdict
from IPython.display import display

from ydata_profiling import ProfileReport
from fast_ml import eda

from sklearn.model_selection import train_test_split

from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, OneHotEncoder

from sklearn.dummy import DummyRegressor
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from catboost import CatBoostRegressor
from lightgbm import LGBMRegressor

from sklearn.metrics import mean_squared_error

In [3]:
FIG_WIDTH = 10 * 100
FIG_HEIGHT = 5 * 100
RANDOM_SEED = 42

In [4]:
try:
    raw_taxi_orders = pd.read_csv('taxi.csv')
except:
    raw_taxi_orders = pd.read_csv('/datasets/taxi.csv')

## Исследовательский анализ данных

Изучим основные зависимости в данных перед тем, как мы будем использовать их в алгоритмах машинного обучения.

Таблица-резюме:

In [5]:
display(eda.df_info(raw_taxi_orders))

Unnamed: 0,data_type,data_type_grp,num_unique_values,sample_unique_values,num_missing,perc_missing
datetime,object,Categorical,26496,"[2018-03-01 00:00:00, 2018-03-01 00:10:00, 201...",0,0.0
num_orders,int64,Numerical,81,"[9, 14, 28, 20, 32, 21, 7, 5, 17, 12]",0,0.0


Числовые распределения:

In [6]:
display(round(raw_taxi_orders.describe().T, 2))

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
num_orders,26496.0,14.07,9.21,0.0,8.0,13.0,19.0,119.0


И детальный отчет:

In [7]:
ProfileReport(raw_taxi_orders, tsmode=True).to_widgets()

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Summarize dataset: 100%|██████████| 12/12 [00:03<00:00,  3.54it/s, Completed]                    
Generate report structure: 100%|██████████| 1/1 [00:01<00:00,  1.51s/it]
Render widgets:   0%|          | 0/1 [00:00<?, ?it/s]

                                                             

VBox(children=(Tab(children=(Tab(children=(GridBox(children=(VBox(children=(GridspecLayout(children=(HTML(valu…

Выводы

# Подготовка данных для ML

Данные уже достаточно чистые, поэтому обработка будет относительно быстрой:

1. Создадим новые колонки с признаками.
2. Обрежем нулевые значения.

In [8]:
df_taxi_orders = (
    raw_taxi_orders
    .loc[lambda df: df.num_orders > 0]
    .reset_index(drop=True)
    .assign(datetime=lambda df: pd.to_datetime(df.datetime))
    .set_index('datetime')
    .resample('1H').sum()
    .assign(
        hour=lambda df: df.index.hour,
        day_of_week=lambda df: df.index.dayofweek,
        is_weekend=lambda df: df.day_of_week.isin([5, 6]).astype(int),
        day_of_month=lambda df: df.index.day,
        month=lambda df: df.index.month,
        year=lambda df: df.index.year,
        lag_1=lambda df: df.num_orders.shift(1),
        mean_rol_3=lambda df: df.num_orders.rolling(window=3).mean(),
        std_rol_3=lambda df: df.num_orders.rolling(window=3).std()
    )
    .dropna()
)

print('Index is monotonically increasing:', df_taxi_orders.index.is_monotonic_increasing)
display(df_taxi_orders.head())

Index is monotonically increasing: True


Unnamed: 0_level_0,num_orders,hour,day_of_week,is_weekend,day_of_month,month,year,lag_1,mean_rol_3,std_rol_3
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
2018-03-01 02:00:00,71,2,3,0,1,3,2018,85.0,93.333333,27.465129
2018-03-01 03:00:00,66,3,3,0,1,3,2018,71.0,74.0,9.848858
2018-03-01 04:00:00,43,4,3,0,1,3,2018,66.0,60.0,14.933185
2018-03-01 05:00:00,6,5,3,0,1,3,2018,43.0,38.333333,30.270998
2018-03-01 06:00:00,12,6,3,0,1,3,2018,6.0,20.333333,19.857828


Теперь можем посмотреть более детальные графики: возможно, заметим некоторые зависимости в данных.

In [9]:
ProfileReport(df_taxi_orders, tsmode=True).to_widgets()

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Summarize dataset: 100%|██████████| 100/100 [00:14<00:00,  7.07it/s, Completed]                       
Generate report structure: 100%|██████████| 1/1 [00:07<00:00,  7.75s/it]
Render widgets:   0%|          | 0/1 [00:00<?, ?it/s]

                                                             

VBox(children=(Tab(children=(Tab(children=(GridBox(children=(VBox(children=(GridspecLayout(children=(HTML(valu…

Выводы

## Модели ML

Создадим и обучим несколько моделей. Для начала разделим данные на `train` и `test` выборки.

In [14]:
def split_data(df: pd.DataFrame, target_column: str, test_size: float, shuffle=False):
    """
    Split a DataFrame into training and testing datasets.

    This function accepts a DataFrame, the name of the target column, and the proportion of the data 
    to be included in the test split. It returns four DataFrames: the training features, the training target, 
    the testing features, and the testing target. The target datasets are DataFrames with a single column rather 
    than Series objects.

    Parameters
    ----------
    df : pd.DataFrame
        The DataFrame to split. This DataFrame should include both the features and the target.

    target_column : str
        The name of the target column. This column will be separated from the features and returned 
        in the target DataFrames.

    test_size : float
        The proportion of the data to include in the test split. For example, if `test_size` is 0.3, 
        30% of the data will be used for the test split, and the rest will be used for the training split.
        
    shuffle : boolean
        A flag to shuffle (True) or not (False) the data when splitting into train and test.

    Returns
    -------
    list of pd.DataFrame
        A list containing four DataFrames: the training features, the training target, 
        the testing features, and the testing target.
    """
    df_train, df_test = train_test_split(
        df, test_size=test_size, random_state=RANDOM_SEED, shuffle=shuffle
    )
    
    ftr_train = df_train.drop(target_column, axis=1)
    tgt_train = df_train[[target_column]]
    ftr_test = df_test.drop(target_column, axis=1)
    tgt_test = df_test[[target_column]]
    
    return [ftr_train, tgt_train, ftr_test, tgt_test]

In [15]:
dct_splits = defaultdict(dict)

dct_splits['train']['features'], dct_splits['train']['target'], dct_splits['test']['features'], dct_splits['test']['target'] = split_data(df_taxi_orders, 'num_orders', 0.1)