## <center>1. Постановка задачи

<center> <img src=https://storage.googleapis.com/kaggle-competitions/kaggle/3333/media/taxi_meter.png align="right" width="300"/> </center>
    
Вам предстоит решить настоящую задачу машинного обучения, направленную на автоматизацию бизнес процессов. Мы построим модель, которая будет предсказывать общую продолжительность поездки такси в Нью-Йорке. 

Представьте вы заказываете такси из одной точки Нью-Йорка в другую, причем не обязательно конечная точка должна находиться в пределах города. Сколько вы должны будете за нее заплатить? Известно, что стоимость такси в США  рассчитывается на основе фиксированной ставки + тарифная стоимость, величина которой зависит от времени и расстояния. Тарифы варьируются в зависимости от города.

В свою очередь время поездки зависит от множества факторов таких как, откуда и куда вы едете, в какое время суток вы совершаете вашу поездку, погодных условий и так далее. 

Таким образом, если мы разработаем алгоритм, способный определять длительность поездки, мы сможем прогнозировать ее стоимость самым тривиальным образом, например, просто умножая стоимость на заданный тариф. 
Сервисы такси хранят огромные объёмы информации о поездках, включая такие данные как конечная, начальная точка маршрута, дата поездки и ее длительность. Эти данные можно использовать для того, чтобы прогнозировать длительность поездки в автоматическом режиме с привлечением искусственного интеллекта.

**Бизнес-задача:** определить характеристики и с их помощью спрогнозировать длительность поездки такси.

**Техническая задача для вас как для специалиста в Data Science:** построить модель машинного обучения, которая на основе предложенных характеристик клиента будет предсказывать числовой признак - время поездки такси. То есть решить задачу регрессии.

**Основные цели проекта:**
1. Сформировать набор данных на основе нескольких источников информации
2. Спроектировать новые признаки с помощью Feature Engineering и выявить наиболее значимые при построении модели
3. Исследовать предоставленные данные и выявить закономерности
4. Построить несколько моделей и выбрать из них наилучшую по заданной метрике
5. Спроектировать процесс предсказания времени длительности поездки для новых данных

Загрузить свое решение на платформу Kaggle, тем самым поучаствовав в настоящем Data Science соревновании.
Во время выполнения проекта вы отработаете навыки работы с несколькими источниками данных, генерации признаков, разведывательного анализа и визуализации данных, отбора признаков и, конечно же, построения моделей машинного обучения!


## 2. Знакомство с данными, базовый анализ и расширение данных

Начнём наше исследование со знакомства с предоставленными данными. А также подгрузим дополнительные источники данных и расширим наш исходный датасет. 


Заранее импортируем модули, которые нам понадобятся для решения задачи:

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

from scipy import stats
from sklearn import linear_model
from sklearn import preprocessing
from sklearn import model_selection
from sklearn import tree
from sklearn import ensemble
from sklearn import metrics
from sklearn import cluster
from sklearn import feature_selection

Прочитаем наш файл с исходными данными:

In [None]:
taxi_data = pd.read_csv("data/train.csv")
print('Train data shape: {}'.format(taxi_data.shape))
taxi_data.head()

Итак, у нас с вами есть данные о почти 1.5 миллионах поездок и 11 характеристиках, которые описывают каждую из поездок. 

Мы условно разделили признаки нескольких групп. Каждой из групп мы в дальнейшем уделим отдельное внимание.

**Данные о клиенте и таксопарке:**
* id - уникальный идентификатор поездки
* vendor_id - уникальный идентификатор поставщика (таксопарка), связанного с записью поездки

**Временные характеристики:**
* pickup_datetime - дата и время, когда был включен счетчик поездки
* dropoff_datetime - дата и время, когда счетчик был отключен

**Географическая информация:**
* pickup_longitude -  долгота, на которой был включен счетчик
* pickup_latitude - широта, на которой был включен счетчик
* dropoff_longitude - долгота, на которой счетчик был отключен
* dropoff_latitude - широта, на которой счетчик был отключен

**Прочие признаки:**
* passenger_count - количество пассажиров в транспортном средстве (введенное водителем значение)
* store_and_fwd_flag - флаг, который указывает, сохранилась ли запись о поездке в памяти транспортного средства перед отправкой поставщику. Y - хранить и пересылать, N - не хранить и не пересылать поездку.

**Целевой признак:**
* trip_duration - продолжительность поездки в секундах


Для начала мы проведем базовый анализ того, насколько данные готовы к дальнейшей предобработке и анализу. 

### Задание 2.1
Для начала посмотрим на временные рамки, в которых мы работаем с данными.

Переведите признак pickup_datetime в тип данных datetime с форматом год-месяц-день час:минута:секунда (в функции pd.to_datetime() параметр format='%Y-%m-%d %H:%M:%S'). 

Определите временные рамки (без учета времени), за которые представлены данные.

In [None]:
# преобразуем к единому формату времени

taxi_data['pickup_datetime'] = pd.to_datetime(taxi_data['pickup_datetime'], format='%Y-%m-%d %H:%M:%S')

display(taxi_data['pickup_datetime'].sort_values())


### Задание 2.2
Посмотрим на пропуски. 
Сколько пропущенных значений присутствует в данных (суммарно по всем столбцам таблицы)?

In [None]:
taxi_data.isnull().sum()

### Задание 2.3
Посмотрим на статистические характеристики некоторых признаков. 

а) Сколько уникальных таксопарков присутствует в данных?

б) Каково максимальное количество пассажиров?

в) Чему равна средняя и медианная длительность поездки? Ответ приведите в секундах и округлите до целого.

г) Чему равно минимальное и максимальное время поездки (в секундах)?


In [None]:

display(taxi_data['vendor_id'].unique())
# выведем информацию для числовых показателей
display(taxi_data.describe())

# выведем информацию для категориальных признаков
display(taxi_data.describe(include=object))

Займемся расширением исходного набора данных как с помощью внешних источников, так и с помощью манипуляций над имеющимися в данных признаками. 


### Задание 2.4
Реализуйте функцию add_datetime_features(), которая принимает на вход таблицу с данными о поездках (DataFrame) и возвращает ту же таблицу с добавленными в нее 3 столбцами:
* pickup_date - дата включения счетчика - начала поездки (без времени);
* pickup_hour - час дня включения счетчика;
* pickup_day_of_week - порядковый номер дня недели (число), в который был включен счетчик.

а) Сколько поездок было совершено в субботу?

б) Сколько поездок в среднем совершается в день? Ответ округлите до целого

In [None]:
# напишем функцию add_datetime_feature для разделения признака на 3 столбца

def add_datetime_feature(df):
    df['pickup_date'] = df['pickup_datetime'].dt.date
    df['pickup_hour'] = df['pickup_datetime'].dt.hour
    df['pickup_day_of_week'] = df['pickup_datetime'].dt.dayofweek +1
    return df
    
taxi_data = add_datetime_feature(taxi_data)

# выведем ответы на поставленные выше вопросы

display(taxi_data['pickup_day_of_week'].value_counts()[6])
display(round(taxi_data['pickup_date'].value_counts().mean()))

### Задание 2.5
Реализуйте функцию add_holiday_features(), которая принимает на вход две таблицы: 
* таблицу с данными о поездках;
* таблицу с данными о праздничных днях;

и возвращает обновленную таблицу с данными о поездках с добавленным в нее столбцом pickup_holiday - бинарным признаком того, начата ли поездка в праздничный день или нет (1 - да, 0 - нет). 

Чему равна медианная длительность поездки на такси в праздничные дни? Ответ приведите в секундах, округлив до целого.


In [None]:
holiday_data = pd.read_csv('data/holiday_data.csv', sep=';')

# преобразуем дату в данном датасете
#holiday_data['date'] = pd.to_datetime(holiday_data['date'])
#taxi_data['pickup_date'] = pd.to_datetime(taxi_data['pickup_date'])

def add_holiday_features(df, holiday_df):
    holiday_df['date'] = pd.to_datetime(holiday_df['date'])
    df['pickup_date'] = pd.to_datetime(df['pickup_date'])
    df = df.merge(holiday_df, how='left', left_on='pickup_date', right_on='date')
    df['pickup_holiday'] = df['holiday'].fillna(0)
    df['pickup_holiday'] = df['pickup_holiday'].apply(lambda x: 0 if x == 0 else 1)
    df = df.drop(['day', 'date', 'holiday'], axis =1)
    return df

# используем функцию для получения нового признака

taxi_data = add_holiday_features(taxi_data, holiday_data)

# ответим на посталенный вопрос
display(taxi_data.groupby(by = 'pickup_holiday')['trip_duration'].median()[1])

### Задание 2.6
Реализуйте функцию add_osrm_features(), которая принимает на вход две таблицы:
* таблицу с данными о поездках;
* таблицу с данными из OSRM;

и возвращает обновленную таблицу с данными о поездках с добавленными в нее 3 столбцами:
* total_distance;
* total_travel_time;
* number_of_steps.

а) Чему равна разница (в секундах) между медианной длительностью поездки в данных и медианной длительностью поездки, полученной из OSRM? 

В результате объединения таблиц у вас должны были получиться пропуски в столбцах с информацией из OSRM API. Это связано с тем, что для некоторых поездок не удалось выгрузить данные из веб источника. 

б) Сколько пропусков содержится в столбцах с информацией из OSRM API после объединения таблиц?

In [None]:
osrm_data = pd.read_csv('data/osrm_data_train.csv')

# напишем функцию для объединения признаков и удаления лишних
def add_osrm_features(df, osrm_df):
    osrm_df = osrm_df[['id', 'total_distance', 'total_travel_time', 'number_of_steps']]
    df = df.merge(osrm_df, how='left')
    return df

#применим функцию для изменения нашего датасета
taxi_data = add_osrm_features(taxi_data, osrm_data)

# ответ на вопрос А
display(taxi_data['trip_duration'].median()-taxi_data['total_travel_time'].median())

# ответ на вопрос Б
display(taxi_data.iloc[::, -3::].isnull().sum())

In [None]:
def get_haversine_distance(lat1, lng1, lat2, lng2):
    # переводим углы в радианы
    lat1, lng1, lat2, lng2 = map(np.radians, (lat1, lng1, lat2, lng2))
    # радиус земли в километрах
    EARTH_RADIUS = 6371 
    # считаем кратчайшее расстояние h по формуле Хаверсина
    lat_delta = lat2 - lat1
    lng_delta = lng2 - lng1
    d = np.sin(lat_delta * 0.5) ** 2 + np.cos(lat1) * np.cos(lat2) * np.sin(lng_delta * 0.5) ** 2
    h = 2 * EARTH_RADIUS * np.arcsin(np.sqrt(d))
    return h

def get_angle_direction(lat1, lng1, lat2, lng2):
    # переводим углы в радианы
    lat1, lng1, lat2, lng2 = map(np.radians, (lat1, lng1, lat2, lng2))
    # считаем угол направления движения alpha по формуле угла пеленга
    lng_delta_rad = lng2 - lng1
    y = np.sin(lng_delta_rad) * np.cos(lat2)
    x = np.cos(lat1) * np.sin(lat2) - np.sin(lat1) * np.cos(lat2) * np.cos(lng_delta_rad)
    alpha = np.degrees(np.arctan2(y, x))
    return alpha

### Задание 2.7.
Реализуйте функцию add_geographical_features(), которая принимает на вход таблицу с данными о поездках и возвращает обновленную таблицу с добавленными в нее 2 столбцами:
* haversine_distance - расстояние Хаверсина между точкой, в которой был включен счетчик, и точкой, в которой счетчик был выключен;
* direction - направление движения из точки, в которой был включен счетчик, в точку, в которой счетчик был выключен.

Чему равно медианное расстояние Хаверсина поездок (в киллометрах)? Ответ округлите до сотых.


In [None]:
#Создаем функцию для добавления новых географических признаков
def add_geographical_features(df):
    df['haversline_distance'] = get_haversine_distance(   #добавим признаки ростаяния Хаверсина
        df['pickup_latitude'], 
        df['pickup_longitude'],
        df['dropoff_latitude'],
        df['dropoff_longitude'])
    
    df['direction'] = get_angle_direction(   #добавим признаки направления движения
        df['pickup_latitude'],  
        df['pickup_longitude'],
        df['dropoff_latitude'],
        df['dropoff_longitude'])
    return df

# Применим функцию к нашим данным
taxi_data = add_geographical_features(taxi_data)

# Ответ на вопрос
display(taxi_data['haversline_distance'].median())

### Задание 2.8.
Реализуйте функцию add_cluster_features(), которая принимает на вход таблицу с данными о поездках и обученный алгоритм кластеризации. Функция должна возвращать обновленную таблицу с добавленными в нее столбцом geo_cluster - географический кластер, к которому относится поездка.

Сколько поездок содержится в наименьшем по размеру географическом кластере?


In [None]:
# создаем обучающую выборку из географических координат всех точек
coords = np.hstack((taxi_data[['pickup_latitude', 'pickup_longitude']],
                    taxi_data[['dropoff_latitude', 'dropoff_longitude']]))
# обучаем алгоритм кластеризации
kmeans = cluster.KMeans(n_clusters=10, random_state=42)
kmeans.fit(coords)

# Создадим функцию для заполнения еще одного признака по географическим кластерам

def add_cluster_features(df, cluster):
    df['geo_cluster'] = cluster.predict(df[['pickup_latitude', 'pickup_longitude',
                                            'dropoff_latitude', 'dropoff_longitude']].values)
    return df

# Добавим новый признак в наш датасет
taxi_data = add_cluster_features(taxi_data, kmeans)

# Ответ на вопрос
display(taxi_data['geo_cluster'].value_counts().min())

### Задание 2.9.
Реализуйте функцию add_weather_features(), которая принимает на вход две таблицы:
* таблицу с данными о поездках;
* таблицу с данными о погодных условиях на каждый час;

и возвращает обновленную таблицу с данными о поездках с добавленными в нее 5 столбцами:
* temperature - температура;
* visibility - видимость;
* wind speed - средняя скорость ветра;
* precip - количество осадков;
* events - погодные явления.

а) Сколько поездок было совершено в снежную погоду?

В результате объединения у вас должны получиться записи, для которых в столбцах temperature, visibility, wind speed, precip, и events будут пропуски. Это связано с тем, что в таблице с данными о погодных условиях отсутствуют измерения для некоторых моментов времени, в которых включался счетчик поездки. 

б) Сколько процентов от общего количества наблюдений в таблице с данными о поездках занимают пропуски в столбцах с погодными условиями? Ответ приведите с точностью до сотых процента.


In [None]:
weather_data = pd.read_csv('data/weather_data.csv')

# ваш код здесь

def add_weather_features(taxi_data, weather_data):
    # проведем преообразования с таблицей погодных условий
    
    weather_data['time'] = pd.to_datetime(weather_data['time'])
    weather_data['date'] = pd.to_datetime(weather_data['time'].dt.date, format='%Y-%m-%d')
    weather_data['hour'] = weather_data['time'].dt.hour
    weather_data = weather_data[['temperature', 'visibility', 'wind speed', 'precip', 'date', 'hour', 'events']]
    
    #создадим два списка для объединения
    list_l = ['pickup_date', 'pickup_hour']
    list_r = ['date', 'hour']
    
    #Произведем объеденение методом merge
    taxi_data = taxi_data.merge(weather_data, how='left', left_on=list_l, right_on=list_r)
    taxi_data = taxi_data.drop(['date', 'hour'], axis=1)
    return taxi_data

#
taxi_data= add_weather_features(taxi_data, weather_data)
display(taxi_data)

display(taxi_data['events'].value_counts())

display((taxi_data[['temperature', 'visibility', 'wind speed', 'precip']].isnull().sum() * 100) / 1458644)

### Задание 2.10.
Реализуйте функцию fill_null_weather_data(), которая принимает на вход которая принимает на вход таблицу с данными о поездках. Функция должна заполнять пропущенные значения в столбцах.

Пропуски в столбцах с погодными условиями -  temperature, visibility, wind speed, precip заполните медианным значением температуры, влажности, скорости ветра и видимости в зависимости от даты начала поездки. Для этого сгруппируйте данные по столбцу pickup_date и рассчитайте медиану в каждой группе, после чего с помощью комбинации методов transform() и fillna() заполните пропуски. 
Пропуски в столбце events заполните строкой 'None' - символом отсутствия погодных явлений (снега/дождя/тумана). 

Пропуски в столбцах с информацией из OSRM API - total_distance, total_travel_time и number_of_steps заполните медианным значением по столбцам. 

Чему равна медиана в столбце temperature после заполнения пропусков? Ответ округлите до десятых.


In [None]:
# Создадим функцию для заполнения пропусков

def fill_null_weather_data(taxi_data):
    list_1 = ['temperature', 'visibility', 'wind speed', 'precip'] # создадим списко для заполнения необходимых столбцов
    for col in list_1:
        taxi_data[col] = taxi_data[col].fillna(
            taxi_data.groupby('pickup_date')[col].transform('median')
)
    values = { # создадим словарь значений для последующего заполнения медианным значением
        'total_distance': taxi_data['total_distance'].median(),
        'total_travel_time': taxi_data['total_travel_time'].median(),
        'number_of_steps': taxi_data['number_of_steps'].median(),
        
    }
    taxi_data['events'] = taxi_data['events'].fillna('None') # заполним пустые значения None
    taxi_data = taxi_data.fillna(values)
    return taxi_data

# Заполним пропуски в нашем датасете
taxi_data = fill_null_weather_data(taxi_data)

display(taxi_data['temperature'].median())
display(taxi_data.isnull().sum())
        


В завершение первой части найдем очевидные выбросы в целевой переменной - длительности поездки. 

Проще всего найти слишком продолжительные поездки. Давайте условимся, что выбросами будут считаться поездки, длительность которых превышает 24 часа. 

Чуть сложнее с анализом поездок, длительность которых слишком мала. Потому что к ним относятся действительно реальные поездки на короткие расстояния, поездки, которые были отменены через секунду после того как включился счетчик, а также “телепортации” - перемещение на большие расстояния за считанные секунды. 
Условимся, что мы будем считать выбросами только последнюю группу. Как же нам их обнаружить наиболее простым способом?

Можно воспользоваться информацией о кратчайшем расстоянии, которое проезжает такси. Вычислить среднюю скорость автомобиля на кратчайшем пути следующим образом: 
$$avg\_speed= \frac{total\_distance}{1000*trip\_duration}*3600$$
Если мы построим диаграмму рассеяния средней скорости движения автомобилей, мы увидим следующую картину:


In [None]:
avg_speed = taxi_data['total_distance'] / taxi_data['trip_duration'] * 3.6
fig, ax = plt.subplots(figsize=(10, 5))
sns.scatterplot(x=avg_speed.index, y=avg_speed, ax=ax)
ax.set_xlabel('Index')
ax.set_ylabel('Average speed');

Как раз отсюда мы видим, что у нас есть “поездки-телепортации”, для которых средняя скорость более 1000 км/ч. Даже есть такая, средняя скорость которой составляла более 12000 км/ч! 

Давайте условимся, что предельная средняя скорость, которую могут развивать таксисты будет 300 км/ч. 


### Задание 2.11.
Найдите поездки, длительность которых превышает 24 часа. И удалите их из набора данных.

а) Сколько выбросов по признаку длительности поездки вам удалось найти?

Найдите поездки, средняя скорость которых по кратчайшему пути превышает 300 км/ч и удалите их из данных. 

б) Сколько выбросов по признаку скорости вам удалось найти?

In [None]:
df = taxi_data['trip_duration'] >= 86400 # Найдем значения превышающие продолжительность в 24 часа

# удалим данные выбросы
taxi_data.drop(index=taxi_data[df].index, inplace=True)
print(f'Удалено выбросов превышающих поездку в 24 часа: {df.sum(0)}')

df_speed = avg_speed > 300 # Найдем выбросы превышающие скорость в 300 км/ч

# Удалим данные выбросы
taxi_data.drop(index=taxi_data[df_speed].index, inplace=True)
print(f'Удалено выбросов превышающих скорость поездки в 300 км/ч: {df_speed.sum(0)}')

## 3. Разведывательный анализ данных (EDA)

В этой части нашего проекта мы с вами:
* Исследуем сформированный набор данных; 
* Попробуем найти закономерности, позволяющие сформулировать предварительные гипотезы относительно того, какие факторы являются решающими в определении длительности поездки;
* Дополним наш анализ визуализациями, иллюстрирующими; исследование. Постарайтесь оформлять диаграммы с душой, а не «для галочки»: навыки визуализации полученных выводов обязательно пригодятся вам в будущем.


Начинаем с целевого признака. Забегая вперед, скажем, что основной метрикой качества решения поставленной задачи будет RMSLE - Root Mean Squared Log Error, которая вычисляется на основе целевой переменной в логарифмическом масштабе. В таком случае целесообразно сразу логарифмировать признак длительности поездки и рассматривать при анализе логарифм в качестве целевого признака:
$$trip\_duration\_log = log(trip\_duration+1),$$
где под символом log подразумевается натуральный логарифм.


In [None]:
taxi_data['trip_duration_log'] = np.log(taxi_data['trip_duration']+1)

### Задание 3.1.
Постройте гистограмму и коробчатую диаграмму длительности поездок в логарифмическом масштабе (trip_duration_log). 
Исходя из визуализации, сделайте предположение, является ли полученное распределение нормальным? 
Проверьте свою гипотезу с помощью теста Д’Агостино при уровне значимости $\alpha=0.05$. 

а) Чему равен вычисленный p-value? Ответ округлите до сотых.

б) Является ли распределение длительности поездок в логарифмическом масштабе нормальным?

In [None]:
# Cоздадим два графика,  чтобы визуально оценить распределение
fig, axes = plt.subplots(nrows=1, ncols=2, figsize=(15, 4))
histplot = sns.histplot(data=taxi_data, x='trip_duration_log', ax=axes[0])
histplot.set_title('Длительность поездки логорифмированная');
boxplot = sns.boxplot(data=taxi_data, x='trip_duration_log', ax=axes[1])
boxplot.set_title('Длительность поездки логорифмированная Boxplot');

In [None]:
H0 = 'Данные распределены нормально'
Ha = 'Данные не распределены нормально (мы отвергаем H0)'

# устанавливаем уровень значимости 
alpha = 0.05

_, p = stats.normaltest(taxi_data['trip_duration_log'])

print('p=%.3f' % p)

# Интерпретация 

if p > alpha/2:
	print(H0)
else:
	print(Ha)
 
# проверим наше решение через график qqplot
from statsmodels.graphics.gofplots import qqplot
from matplotlib import pyplot
qqplot(taxi_data['trip_duration_log'], line='s')
pyplot.show

*На графике **QQPLOT** видно, что распределение идет не только вдоль линии, а имеет небольшие выбросы, что нам может позволить говорить, о том, что данные имеют отклонения, и распределены не нормально*

### Задание 3.2.
Постройте визуализацию, которая позволит сравнить распределение длительности поездки в логарифмическом масштабе (trip_duration_log) в зависимости от таксопарка (vendor_id). 

Сравните два распределения между собой.

In [None]:
# Создадим 2 переменные в которые занесем данные для 1 таксопарка и для 2

vendor_1 = taxi_data[taxi_data['vendor_id']==1]
vendor_2 = taxi_data[taxi_data['vendor_id']==2]

# Cоздадим два графика,  чтобы визуально оценить распределение


fig, axes = plt.subplots(nrows=2, ncols=2, figsize=(15, 10))
histplot = sns.histplot(data=vendor_1, x='trip_duration_log', ax=axes[0,0]);
histplot.set_title('Длительность поездки логорифмированная для 1 таксопарка');
histplot = sns.histplot(data=vendor_2, x='trip_duration_log', ax=axes[0,1]);
histplot.set_title('Длительность поездки логорифмированная для 2 таксопарка');
boxplot = sns.boxplot(data=vendor_1, x='trip_duration_log', ax=axes[1,0]);
boxplot.set_title('Длительность поездки логорифмированная Boxplot для 1 таксопарка');
boxplot = sns.boxplot(data=vendor_2, x='trip_duration_log', ax=axes[1,1]);
boxplot.set_title('Длительность поездки логорифмированная Boxplot для 2 таксопарка');

### Задание 3.3.
Постройте визуализацию, которая позволит сравнить распределение длительности поездки в логарифмическом масштабе (trip_duration_log) в зависимости от признака отправки сообщения поставщику (store_and_fwd_flag). 

Сравните два распределения между собой.

In [None]:
# Разделим датасет по данным отправления сообщения
message_y = taxi_data[taxi_data['store_and_fwd_flag'] == 'Y']
message_n = taxi_data[taxi_data['store_and_fwd_flag'] == 'N']

# Выведем две гистограмы для наглядной визуализации длительности поездки от отправления сообщения

fig, axes = plt.subplots(nrows=1, ncols=2, figsize=(15, 5))
histplot = sns.histplot(data=message_n, x='trip_duration_log', ax=axes[0]);
histplot.set_title('Log duration для тех кто не отправил сообщение');
histplot = sns.histplot(data=message_y, x='trip_duration_log', ax=axes[1]);
histplot.set_title('Log duration для тех кто отправил сообщение');

*Из представленных гистограм видно что данные распределены примерно одинаково, однако количество клиентов отправивших сообщение гораздо меньше, а также их логорифмированная длительность немного меньше в разрезе всего набора данных*

### Задание 3.4.
Постройте две визуализации:
* Распределение количества поездок в зависимости от часа дня;
* Зависимость медианной длительности поездки от часа дня.

На основе построенных графиков ответьте на следующие вопросы:

а) В какое время суток такси заказывают реже всего?

б) В какое время суток наблюдается пик медианной длительности поездок?

In [None]:
#Создадим переменную с количеством поездок сгрупированную по чаасам
count = taxi_data.groupby('pickup_hour', as_index=False)['id'].count()
#Создадим переменную с медианным значением продолжительнсоти поездки сгрупированную по чаасам
duration = taxi_data.groupby('pickup_hour', as_index=False)['trip_duration'].median()

# Выведем Диаграмму рассеивания показывающую количество поездок в каждый час дня
fig = px.scatter(
    data_frame=count,
    x = 'pickup_hour',
    y = 'id',
    title='Распределение количества поездок в зависимости от часа дня',
    color='pickup_hour',
    height=600,
    width=700
)
fig.update_layout(yaxis_title="Количество клиентов заказавших такси")
fig.update_layout(xaxis_title="Час дня")
fig.show()

# Выведем диаграмму рассеивания показывающую медианную продолжительность поездки от часа дня
fig = px.scatter(
    data_frame=duration,
    x = 'pickup_hour',
    y = 'trip_duration',
    title='Зависимость медианной длительности поездки от часа дня',
    color='pickup_hour',
    height=600,
    width=700
)
fig.update_layout(yaxis_title="Продолжительность в секундах")
fig.update_layout(xaxis_title="Час дня")
fig.show()

### Задание 3.5.
Постройте две визуализации:
* Распределение количества поездок в зависимости от дня недели;
*  Зависимость медианной длительности поездки от дня недели.

На основе построенных графиков ответьте на следующие вопросы:
а) В какой день недели совершается больше всего поездок?
б) В какой день недели медианная длительность поездок наименьшая?


In [None]:
# ваш код здесь
#Создадим переменную с количеством поездок сгрупированную по дням недели
count = taxi_data.groupby('pickup_day_of_week', as_index=False)['id'].count()
#Создадим переменную с медианным значением продолжительнсоти поездки сгрупированную по дням недели
duration = taxi_data.groupby('pickup_day_of_week', as_index=False)['trip_duration'].median()

# Выведем Диаграмму рассеивания показывающую количество поездок в каждый день
fig = px.scatter(
    data_frame=count,
    x = 'pickup_day_of_week',
    y = 'id',
    title='Распределение количества поездок в зависимости от дня недели',
    color='pickup_day_of_week',
    height=600,
    width=700
)
fig.update_layout(yaxis_title="Количество клиентов заказавших такси")
fig.update_layout(xaxis_title="День недели")
fig.show()

# Выведем диаграмму рассеивания показывающую медианную продолжительность поездки от дня недели
fig = px.scatter(
    data_frame=duration,
    x = 'pickup_day_of_week',
    y = 'trip_duration',
    title='Зависимость медианной длительности поездки от дня недели',
    color='pickup_day_of_week',
    height=600,
    width=700
)
fig.update_layout(yaxis_title="Продолжительность в секундах")
fig.update_layout(xaxis_title="День недели")
fig.show()

### Задание 3.6.
Посмотрим на обе временные характеристики одновременно. 

Постройте сводную таблицу, по строкам которой отложены часы (pickup_hour), по столбцам - дни недели (pickup_day_of_week), а в ячейках - медианная длительность поездки (trip_duration). 

Визуализируйте полученную сводную таблицу с помощью тепловой карты (рекомендуемая палитра - coolwarm).

In [None]:
# ваш код здесь
pivot_data = taxi_data.groupby(['pickup_hour', 'pickup_day_of_week'], as_index=False)['trip_duration'].median()
pivot = pivot_data.pivot_table(
    values='trip_duration',
    columns='pickup_day_of_week',
    index='pickup_hour',
)

fig = px.imshow(pivot,
    text_auto=True,
    labels=dict(
    x= 'День недели',
    y= 'Час дня',
    color= 'Медианная длительность'),
    width=700,
    height=1000
)
fig.show()

### Задание 3.7.
Постройте две диаграммы рассеяния (scatter-диаграммы):
* первая должна иллюстрировать географическое расположение точек начала поездок (pickup_longitude, pickup_latitude) 
* вторая должна географическое расположение точек завершения поездок (dropoff_longitude, dropoff_latitude).

Для этого на диаграммах по оси абсцисс отложите широту (longitude), а по оси ординат - долготу (latitude). 
Включите в визуализацию только те точки, которые находятся в пределах Нью-Йорка - добавьте следующие ограничения на границы осей абсцисс и ординат:
 
city_long_border = (-74.03, -73.75)

city_lat_border = (40.63, 40.85)

Добавьте на диаграммы расцветку по десяти географическим кластерам (geo_cluster), которые мы сгенерировали ранее. 

**Рекомендация:** для наглядности уменьшите размер точек на диаграмме рассеяния.  


In [None]:
city_long_border = (-74.03, -73.75)
city_lat_border = (40.63, 40.85)

# Напишем два распределения начала поездки и завершения
fig = px.scatter(
    data_frame=taxi_data,
    x = 'pickup_longitude',
    y = 'pickup_latitude',
    title='Распределение координат начала поездки',
    color='geo_cluster',
    height=600,
    width=700,
    range_x=city_long_border,
    range_y=city_lat_border
)
fig.update_layout(yaxis_title="Долгота")
fig.update_layout(xaxis_title="Широта")
fig.show()

fig = px.scatter(
    data_frame=taxi_data,
    x = 'dropoff_longitude',
    y = 'dropoff_latitude',
    title='Распределение координат конца поездки',
    color='geo_cluster',
    height=600,
    width=700,
    range_x=city_long_border,
    range_y=city_lat_border
)
fig.update_layout(yaxis_title="Долгота")
fig.update_layout(xaxis_title="Широта")
fig.show()

In [None]:
number_step = taxi_data.groupby(['number_of_steps'], as_index=False)['trip_duration'].median()

# Выведем Диаграмму рассеивания показывающую медианную продолжительность
fig = px.scatter(
    data_frame=number_step,
    x = 'number_of_steps',
    y = 'trip_duration',
    title='Распределение средней продолжительности поездки от количества шагов',
    height=600,
    width=700
)
fig.update_layout(yaxis_title="Продолжительность")
fig.update_layout(xaxis_title="Количсетво шагов")
fig.show()

*Из представленного графика, видим логическую закономерность, чем больше маневров совершает таксист тем больше длительность поездки, можно сделать вывод о том, что если поездка длинная, то водителю необходимо сделать больше шагов и обратная закономерность*

## 4. Отбор и преобразование признаков

Перед тем как перейти к построению модели, осталось сделать ещё несколько шагов.
* Следует помнить, что многие алгоритмы машинного обучения не могут обрабатывать категориальные признаки в их обычном виде. Поэтому нам необходимо их закодировать;
* Надо отобрать признаки, которые мы будем использовать для обучения модели;
*  Необходимо масштабировать и трансформировать некоторые признаки для того, чтобы улучшить сходимость моделей, в основе которых лежат численные методы.


In [None]:
print('Shape of data: {}'.format(taxi_data.shape))
print('Columns: {}'.format(taxi_data.columns))

Для удобства работы сделаем копию исходной таблицы с поездками:

In [None]:
train_data = taxi_data.copy()
train_data.head()

### Задание 4.1.
Сразу позаботимся об очевидных неинформативных и избыточных признаках. 

а) Какой из признаков является уникальным для каждой поездки и не несет полезной информации в определении ее продолжительности?

б) Утечка данных (data leak) - это…

в) Подумайте, наличие какого из признаков в обучающем наборе данных создает утечку данных?

г) Исключите выбранные в пунктах а) и в) признаки из исходной таблицы с данными. Сколько столбцов в таблице у вас осталось?


In [None]:
# удалим столбцы 'id', 'dropoff_datetime'
drop_1 = ['id', 'dropoff_datetime']
train_data = train_data.drop(drop_1, axis=1)
train_data.shape

Ранее мы извлекли всю необходимую для нас информацию из даты начала поездки, теперь мы можем избавиться от этих признаков, так как они нам больше не понадобятся:


In [None]:
drop_columns = ['pickup_datetime', 'pickup_date']
train_data = train_data.drop(drop_columns, axis=1)
print('Shape of data:  {}'.format(train_data.shape))

### Задание 4.2.

Закодируйте признак vendor_id в таблице train_data таким образом, чтобы он был равен 0, если идентификатор таксопарка равен 1, и 1 — в противном случае.

Закодируйте признак store_and_fwd_flag в таблице train_data таким образом, чтобы он был равен 0, если флаг выставлен в значение 'N', и 1 — в противном случае.

а) Рассчитайте среднее по закодированному столбцу vendor_id. Ответ приведите с точностью до сотых.

б) Рассчитайте среднее по закодированному столбцу store_and_fwd_flag. Ответ приведите с точностью до тысячных.



In [None]:
# Закодируем признок таксопарка через лямбда функцию
train_data['vendor_id'] = train_data['vendor_id'].apply(lambda x: 0 if x == 1 else 1)

# Закодируем признак отправки сообщения
train_data['store_and_fwd_flag'] = train_data['store_and_fwd_flag'].apply(lambda x: 0 if x == 'N' else 1)

# Ответы на поставленные вопросы
print(round(train_data['vendor_id'].mean(), 2))
print(round(train_data['store_and_fwd_flag'].mean(), 3))

### Задание 4.3.
Создайте таблицу data_onehot из закодированных однократным кодированием признаков pickup_day_of_week, geo_cluster и events в таблице train_data с помощью OneHotEncoder из библиотеки sklearn. Параметр drop выставите в значение 'first', чтобы удалять первый бинарный столбец, тем самым не создавая излишних признаков.

В результате работы OneHotEncoder вы получите безымянный numpy-массив, который нам будет необходимо преобразовать обратно в DataFrame, для более удобной работы в дальнейшем. Чтобы получить имена закодированных столбцов у объекта типа OneHotEncoder есть специальный метод get_feature_names_out(). Он возвращает список новых закодированных имен столбцов в формате <оригинальное имя столбца>_<имя категории>.

Пример использования:

``` python
# Получаем закодированные имена столбцов
column_names = one_hot_encoder.get_feature_names_out()
# Составляем DataFrame из закодированных признаков
data_onehot = pd.DataFrame(data_onehot, columns=column_names)
```

В этом псевдокоде:
* one_hot_encoder - объект класса OneHotEncoder
* data_onehot - numpy-массив, полученный в результате трансформации кодировщиком

В результате выполнения задания у вас должен быть образован DataFrame `data_onehot`, который содержит кодированные категориальные признаки pickup_day_of_week, geo_cluster и events. 


Сколько бинарных столбцов у вас получилось сгенерировать с помощью однократного кодирования?


In [None]:
# Создадим инкодер и применим его для создания массива

ohe_encoder = preprocessing.OneHotEncoder(drop='first')
data_onehot = ohe_encoder.fit_transform(train_data[['pickup_day_of_week', 'geo_cluster', 'events']])
# Получаем закодированные имена столбцов

column_names = ohe_encoder.get_feature_names_out()

# Составляем DataFrame из закодированных признаков
data_onehot = pd.DataFrame(data = data_onehot.toarray(), columns=column_names)
display(data_onehot)


Добавим полученную таблицу с закодированными признаками:

In [None]:
columns_to_change = ['pickup_day_of_week', 'geo_cluster', 'events']
train_data = pd.concat(
    [train_data.reset_index(drop=True).drop(columns_to_change, axis=1), data_onehot], 
    axis=1
)
print('Shape of data: {}'.format(train_data.shape))

Теперь, когда категориальные признаки предобработаны, сформируем матрицу наблюдений X, вектор целевой переменной y и его логарифм y_log. В матрицу наблюдений войдут все столбцы из таблицы с поездками за исключением целевого признака trip_duration и его логарифмированной версии trip_duration_log:


In [None]:
X = train_data.drop(['trip_duration', 'trip_duration_log'], axis=1)
y = train_data['trip_duration']
y_log = train_data['trip_duration_log']

Все наши модели мы будем обучать на логарифмированной версии y_log. 

Выбранный тип валидации - hold-out. Разобьем выборку на обучающую и валидационную в соотношении 67/33:

In [None]:
X_train, X_valid, y_train_log, y_valid_log = model_selection.train_test_split(
    X, y_log, 
    test_size=0.33, 
    random_state=42
)

На данный момент у нас достаточно много признаков: скорее всего, не все из них будут важны. Давайте оставим лишь те, которые сильнее всего связаны с целевой переменной и точно будут вносить вклад в повышение качества модели.


### Задание 4.4.
С помощью SelectKBest отберите 25 признаков, наилучшим образом подходящих для предсказания целевой переменной в логарифмическом масштабе. Отбор реализуйте по обучающей выборке, используя параметр score_func = f_regression.

Укажите признаки, которые вошли в список отобранных


In [None]:
# с помощью SelectKBest отберите 25 наиболее подходящих признаков
from sklearn.feature_selection import SelectKBest, f_regression
selector = SelectKBest(f_regression, k=25) # первым передается статистический метод, и количество нужных признаков
X_train_new = selector.fit_transform(X_train, y_train_log)
X_valid_new = selector.fit_transform(X_valid, y_valid_log)
 
best_features = selector.get_feature_names_out()
print(list(best_features))

Так как мы будем использовать различные модели, в том числе внутри которых заложены численные методы оптимизации, то давайте заранее позаботимся о масштабировании факторов. 


### Задание 4.5.
Нормализуйте предикторы в обучающей и валидационной выборках с помощью MinMaxScaler из библиотеки sklearn. Помните, что обучение нормализатора производится на обучающей выборке, а трансформация на обучающей и валидационной!

Рассчитайте среднее арифметическое для первого предиктора (т. е. для первого столбца матрицы) из валидационной выборки. Ответ округлите до сотых.


In [None]:
# нормализуйте данные с помощью minmaxsxaler
scaler = preprocessing.MinMaxScaler()
# нормализуем
scaler.fit(X_train_new)
#Производим преобразование для каждой из выборок
X_train_scaled = scaler.transform(X_train_new)
X_valid_scaled = scaler.transform(X_valid_new)
print(round(X_valid_scaled[:, 0].mean(),2))

## 5. Решение задачи регрессии: линейная регрессия и деревья решений

Определим метрику, по которой мы будем измерять качество наших моделей. Мы будем следовать канонам исходного соревнования на Kaggle и в качестве метрики использовать RMSLE (Root Mean Squared Log Error), которая вычисляется как:
$$RMSLE = \sqrt{\frac{1}{n}\sum_{i=1}^n(log(y_i+1)-log(\hat{y_i}+1))^2},$$
где:
* $y_i$ - истинная длительность i-ой поездки на такси (trip_duration)
* $\hat{y_i}$- предсказанная моделью длительность i-ой поездки на такси

Заметим, что логарифмирование целевого признака мы уже провели заранее, поэтому нам будет достаточно вычислить метрику RMSE для модели, обученной прогнозировать длительность поездки такси в логарифмическом масштабе:
$$z_i=log(y_i+1),$$
$$RMSLE = \sqrt{\frac{1}{n}\sum_{i=1}^n(z_i-\hat{z_i})^2}=\sqrt{MSE(z_i,\hat{z_i})}$$ 



### Задание 5.1.
Постройте модель линейной регрессии на обучающей выборке (факторы должны быть нормализованы, целевую переменную используйте в логарифмическом масштабе). Все параметры оставьте по умолчанию.

Для полученной модели рассчитайте метрику RMSLE на тренировочной и валидационной выборках. Ответ округлите до сотых.


In [None]:
# Обучим модель линейной регрессии с параметрами по умолчанию
lr_model = linear_model.LinearRegression()
lr_model.fit(X_train_scaled, y_train_log)

# Прогноз на тренировочной выборке
y_train_pred_log = lr_model.predict(X_train_scaled)

# Прогноз на валидационной выборке
y_valid_pred_log = lr_model.predict(X_valid_scaled)

# Обратное преобразование логарифмических прогнозов в исходную шкалу
y_train_pred = np.exp(y_train_pred_log)
y_valid_pred = np.exp(y_valid_pred_log)
#Выводим значения метрики 

print(f'RMSLE train score: {round(np.sqrt(metrics.mean_squared_error(y_train_log, y_train_pred_log)), 2)}')

print(f'RMSLE valid score: {round(np.sqrt(metrics.mean_squared_error(y_valid_log, y_valid_pred_log)), 2)}')
# Вычисление метрики RMSLE на тренировочной и валидационной выборках
rmsle_train = np.sqrt(metrics.mean_squared_error(y_train_log, y_train_pred_log))
rmsle_valid = np.sqrt(metrics.mean_squared_error(y_valid_log, y_valid_pred_log))


### Задание 5.2.
Сгенерируйте полиномиальные признаки 2-ой степени с помощью PolynomialFeatures из библиотеки sklearn. Параметр include_bias выставите в значение False.

Постройте модель полиномиальной регрессии 2-ой степени на обучающей выборке (факторы должны быть нормализованы, целевую переменную используйте в логарифмическом масштабе). Все параметры оставьте по умолчанию.

а) Для полученной модели рассчитайте метрику RMSLE на тренировочной и валидационной выборках. Ответ округлите до сотых.

б) Наблюдаются ли у вашей модели признаки переобучения?


In [None]:
# создаем генератор полиномиальных признаков
poly = preprocessing.PolynomialFeatures(degree=2, include_bias=False)
poly.fit(X_train_scaled)
# генерируем полиномиальный признак для тренировочной выборки
X_train_poly_log = poly.transform(X_train_scaled)
# генерируем полиномиальный признак для тестовой выборки
X_valid_poly_log = poly.transform(X_valid_scaled)


# Обучим линенйную регрессию с полиномиальными признаками
lr_poly = linear_model.LinearRegression()
lr_poly.fit(X_train_poly_log, y_train_log)
y_train_predict_poly = lr_poly.predict(X_train_poly_log)
y_valid_predict_poly = lr_poly.predict(X_valid_poly_log)

print(f'RMSLE train score poly: {round(np.sqrt(metrics.mean_squared_error(y_train_log, y_train_predict_poly)), 2)}')

print(f'RMSLE valid score poly: {round(np.sqrt(metrics.mean_squared_error(y_valid_log, y_valid_predict_poly)), 2)}')

### Задание 5.3.
Постройте модель полиномиальной регрессии 2-ой степени с L2-регуляризацией (регуляризация по Тихонову) на обучающей выборке  (факторы должны быть нормализованы, целевую переменную используйте в логарифмическом масштабе). Коэффициент регуляризации $\alpha$ установите равным 1, остальные параметры оставьте по умолчанию.

Для полученной модели рассчитайте метрику RMSLE на тренировочной и валидационной выборках. Ответ округлите до сотых.


In [None]:
#Создаём объект класса линейной регрессии с L2-регуляризацией
ridge_lr_poly = linear_model.Ridge(alpha=1)
#Обучаем модель
ridge_lr_poly.fit(X_train_poly_log, y_train_log)
#Делаем предсказание для тренировочной выборки
y_train_predict_poly_1 = ridge_lr_poly.predict(X_train_poly_log)
#Делаем предсказание для тестовой выборки
y_valid_predict_poly_1 = ridge_lr_poly.predict(X_valid_poly_log)
#Рассчитываем коэффициент RMSLE для двух выборок
print(f'RMSLE train score poly: {round(np.sqrt(metrics.mean_squared_error(y_train_log, y_train_predict_poly_1)), 2)}')

print(f'RMSLE valid score poly: {round(np.sqrt(metrics.mean_squared_error(y_valid_log, y_valid_predict_poly_1)), 2)}')

### Задание 5.4.
Постройте модель дерева решений (DecisionTreeRegressor) на обучающей выборке (факторы должны быть нормализованы, целевую переменную используйте в логарифмическом масштабе). Все параметры оставьте по умолчанию. 

а) Для полученной модели рассчитайте метрику RMSLE на тренировочной и валидационной выборках. Ответ округлите до сотых.

б) Наблюдаются ли у вашей модели признаки переобучения?


In [None]:
# Создадим объект класса DTR
dtr_model = tree.DecisionTreeRegressor(random_state=42)
dtr_model.fit(X_train_scaled, y_train_log)

# Делаем предсказание
y_train_tree_predict = dtr_model.predict(X_train_scaled)
y_valid_tree_predict = dtr_model.predict(X_valid_scaled)
#Рассчитываем коэффициент RMSLE для двух выборок
print(f'RMSLE train score poly: {round(np.sqrt(metrics.mean_squared_error(y_train_log, y_train_tree_predict)), 2)}')

print(f'RMSLE valid score poly: {round(np.sqrt(metrics.mean_squared_error(y_valid_log, y_valid_tree_predict)), 2)}')

### Задание 5.5.
Переберите все возможные варианты глубины дерева решений в диапазоне от 7 до 20:

max_depths = range(7, 20)

Параметр random_state задайте равным 42.

Постройте линейные графики изменения метрики RMSE на тренировочной и валидационной выборках в зависимости от значения параметра глубины дерева решений. 

а) Найдите оптимальное значение максимальной глубины дерева, для которой будет наблюдаться минимальное значение RMSLE на обучающей выборке, но при этом еще не будет наблюдаться переобучение (валидационная кривая еще не начинает возрастать).

б) Чему равно значение метрик RMSLE на тренировочной и валидационной выборках для дерева решений с выбранной оптимальной глубиной? Ответ округлите до сотых.


In [None]:
# Напишем цикл перебора глубины

max_depths = range(7, 20)
rmsle_train = []
rmsle_valid = []
for i in max_depths:
  dtr=tree.DecisionTreeRegressor(max_depth=i, random_state=42)
  dtr.fit(X_train_scaled, y_train_log)
  y_train_predict_dt=dtr.predict(X_train_scaled)
  y_valid_predict_dt=dtr.predict(X_valid_scaled)
  rmsle_train.append(np.sqrt(metrics.mean_squared_error(y_train_log, y_train_predict_dt)))
  rmsle_valid.append(np.sqrt(metrics.mean_squared_error(y_valid_log, y_valid_predict_dt)))

# Отобразим график для каждой выборки
fig, ax = plt.subplots(figsize=(10, 6))
sns.lineplot(x=max_depths, y=rmsle_train, label='Train')
sns.lineplot(x=max_depths, y=rmsle_valid, label='Valid')
ax.set_ylabel('RMSLE Score')
ax.set_xlabel('max_depth_of_DTR')
ax.set_xticks(max_depths)
ax.grid()

In [None]:
dtr=tree.DecisionTreeRegressor(max_depth=12, random_state=42)
dtr.fit(X_train_scaled, y_train_log)
y_train_predict_dt=dtr.predict(X_train_scaled)
y_valid_predict_dt=dtr.predict(X_valid_scaled)

print('Best RSMLE score on training data {:.2f}'.format(np.sqrt(metrics.mean_squared_error(y_train_log, y_train_predict_dt))))
print('Best RSMLE score on validtion data{:.2f}'.format(np.sqrt(metrics.mean_squared_error(y_valid_log, y_valid_predict_dt))))

## 6. Решение задачи регрессии: ансамблевые методы и построение прогноза

Переходим к тяжелой артиллерии: ансамблевым алгоритмам. 

### Задание 6.1.

Постройте модель случайного леса на обучающей выборке (факторы должны быть нормализованы, целевую переменную используйте в логарифмическом масштабе). В качестве гиперпараметров укажите следующие:
* n_estimators=200,
* max_depth=12,
* criterion='squared_error',
* min_samples_split=20,
* random_state=42

Для полученной модели рассчитайте метрику RMSLE на тренировочной и валидационной выборках. Ответ округлите до сотых.


In [None]:
# Зададим модель случайного леса
rf_model = ensemble.RandomForestRegressor(
    n_estimators=200,
    max_depth=12,
    criterion='squared_error',
    min_samples_split=20,
    random_state=42,
    verbose=True,
    n_jobs=-1
)

# Обучим модель и сделаем предсказания на валидационной и тренеровочной выборке
rf_model.fit(X_train_scaled, y_train_log)
y_rf_train_predict = rf_model.predict(X_train_scaled)
y_rf_valid_predict = rf_model.predict(X_valid_scaled)

print('Best RSMLE score on training data {:.2f}'.format(np.sqrt(metrics.mean_squared_error(y_train_log, y_rf_train_predict))))
print('Best RSMLE score on validtion data{:.2f}'.format(np.sqrt(metrics.mean_squared_error(y_valid_log, y_rf_valid_predict))))

### Задание 6.2.
Постройте модель градиентного бустинга над деревьями решений (GradientBoostingRegressor) на обучающей выборке (факторы должны быть нормализованы, целевую переменную используйте в логарифмическом масштабе). В качестве гиперпараметров укажите следующие:
* learning_rate=0.5,
* n_estimators=100,
* max_depth=6, 
* min_samples_split=30,
* random_state=42

Для полученной модели рассчитайте метрику RMSLE на тренировочной и валидационной выборках. Ответ округлите до сотых.


In [None]:
# ваш код здесь
gbr_model = ensemble.GradientBoostingRegressor(
    learning_rate=0.5,
    n_estimators=100,
    max_depth=6, 
    min_samples_split=30,
    random_state=42,
    verbose=1
)
# Обучим модель и сделаем предсказания на валидационной и тренеровочной выборке
gbr_model.fit(X_train_scaled, y_train_log)
y_gbr_train_predict = gbr_model.predict(X_train_scaled)
y_gbr_valid_predict = gbr_model.predict(X_valid_scaled)

print('Best RSMLE score on training data {:.2f}'.format(np.sqrt(metrics.mean_squared_error(y_train_log, y_gbr_train_predict))))
print('Best RSMLE score on validtion data{:.2f}'.format(np.sqrt(metrics.mean_squared_error(y_valid_log, y_gbr_valid_predict))))

### Задание 6.3.
Какая из построенных вами моделей показала наилучший результат (наименьшее значение RMSLE на валидационной выборке)?
* Линейная регрессия
* Полиномиальная регрессия 2ой степени
* Дерево решений
* Случайный лес
* Градиентный бустинг над деревьями решений


### Задание 6.4.
Постройте столбчатую диаграмму коэффициентов значимости каждого из факторов.

Укажите топ-3 наиболее значимых для предсказания целевого признака - длительности поездки в логарифмическом масштабе - факторов.


In [None]:
# в rgb есть возможность вывести самые важные признаки для модели
plt.rcParams['figure.figsize'] = (10,10)
feat_importances = pd.Series(gbr_model.feature_importances_, index=best_features)
feat_importances.nlargest(10).plot(kind='barh')

### Задание 6.5.
Для лучшей из построенных моделей рассчитайте медианную абсолютную ошибку (MeAE - в sklearn функция median_absolute_error) предсказания длительности поездки такси на валидационной выборке:
$$ MeAE = median(|y_i-\hat{y_i}|)$$

Значение метрики MeAE переведите в минуты и округлите до десятых.


In [None]:
# Переведем нашу метрику RMSLE в более понятную для бизнеса
y_valid = np.exp(y_valid_log)-1
y_valid_pred = np.exp(gbr_model.predict(X_valid_scaled)) - 1

print(f'Best MeAE score {round(metrics.median_absolute_error(y_valid_pred, y_valid)/60, 2)} min')

Финальный шаг - сделать submit -  предсказание для отложенного тестового набора данных. 

Прочитаем тестовые данные и заранее выделим столбец с идентификаторами поездок из тестового набора данных. Он нам еще пригодится:


In [None]:
test_data = pd.read_csv("data/test.csv")
osrm_data_test = pd.read_csv("data/osrm_data_test.csv")
test_id = test_data['id']

Перед созданием прогноза для тестовой выборки необходимо произвести все манипуляции с данными, которые мы производили с тренировочной выборкой, а именно:
* Перевести признак pickup_datetime в формат datetime;
* Добавить новые признаки (временные, географические, погодные и другие факторы);
* Произвести очистку данных от пропусков;
* Произвести кодировку категориальных признаков:
    * Закодировать бинарные признаки;
    * Закодировать номинальные признаки с помощью обученного на тренировочной выборке OneHotEncoder’а;
* Сформировать матрицу наблюдений, оставив в таблице только те признаки, которые были отобраны с помощью SelectKBest;
* Нормализовать данные с помощью обученного на тренировочной выборке MinMaxScaler’а.


In [None]:
test_data['pickup_datetime']=pd.to_datetime(test_data['pickup_datetime'],format='%Y-%m-%d %H:%M:%S')
test_data = add_datetime_feature(test_data)
test_data = add_holiday_features(test_data, holiday_data)
test_data = add_osrm_features(test_data, osrm_data_test)
test_data = add_geographical_features(test_data)
test_data = add_cluster_features(test_data, kmeans)
test_data = add_weather_features(test_data, weather_data)
test_data = fill_null_weather_data(test_data)

test_data['vendor_id'] = test_data['vendor_id'].apply(lambda x: 0 if x == 1 else 1)
test_data['store_and_fwd_flag'] = test_data['store_and_fwd_flag'].apply(lambda x: 0 if x == 'N' else 1)
test_data_onehot = ohe_encoder.fit_transform(test_data[columns_to_change]).toarray()
column_names = ohe_encoder.get_feature_names_out(columns_to_change)
test_data_onehot = pd.DataFrame(test_data_onehot, columns=column_names)

test_data = pd.concat(
    [test_data.reset_index(drop=True).drop(columns_to_change, axis=1), test_data_onehot], 
    axis=1
)
X_test = test_data[best_features]
X_test_scaled = scaler.transform(X_test)
print('Shape of data: {}'.format(X_test.shape))

Только после выполнения всех этих шагов можно сделать предсказание длительности поездки для тестовой выборки. Не забудьте перевести предсказания из логарифмического масштаба в истинный, используя формулу:
$$y_i=exp(z_i)-1$$

После того, как вы сформируете предсказание длительности поездок на тестовой выборке вам необходимо будет создать submission-файл в формате csv, отправить его на платформу Kaggle и посмотреть на результирующее значение метрики RMSLE на тестовой выборке.

Код для создания submission-файла:


In [None]:
# Предскажем значения для тестовой выборки
model = gbr_model
y_test_predict = np.exp(model.predict(X_test_scaled)) - 1
submission = pd.DataFrame({'id': test_id, 'trip_duration': y_test_predict})
submission.to_csv('data/submission_gbr.csv', index=False)

### **В качестве бонуса**

В завершение по ансамблевым мы предлагаем вам попробовать улучшить свое предсказание, воспользовавшись моделью экстремального градиентного бустинга (XGBoost) из библиотеки xgboost.

**XGBoost** - современная модель машинного обучения, которая является продолжением идеи градиентного бустинга Фридмана. У нее есть несколько преимуществ по сравнению с классической моделью градиентного бустинга из библиотеки sklearn: повышенная производительность путем параллелизации процесса обучения, повышенное качество решения за счет усовершенствования алгоритма бустинга, меньшая склонность к переобучению и широкий функционал возможности управления параметрами модели.


Для ее использования необходимо для начала установить пакет xgboost:

In [None]:
#!pip install xgboost

После чего модуль можно импортировать:

In [None]:
import xgboost as xgb

Перед обучением модели необходимо перевести наборы данных в тип данных xgboost.DMatrix:

In [None]:
# Создание матриц наблюдений в формате DMatrix
dtrain = xgb.DMatrix(X_train_scaled, label=y_train_log, feature_names=list(best_features))
dvalid = xgb.DMatrix(X_valid_scaled, label=y_valid_log, feature_names=list(best_features))
dtest = xgb.DMatrix(X_test_scaled, feature_names=list(best_features))

Обучение модели XGBoost происходит с помощью метода train, в который необходимо передать параметры модели, набор данных, количество базовых моделей в ансамбле, а также дополнительные параметры:


In [None]:
# Гиперпараметры модели
xgb_pars = {'min_child_weight': 20, 'eta': 0.1, 'colsample_bytree': 0.9, 
            'max_depth': 6, 'subsample': 0.9, 'lambda': 1, 'nthread': -1, 
            'booster' : 'gbtree', 'eval_metric': 'rmse', 'objective': 'reg:squarederror'
           }
# Тренировочная и валидационная выборка
watchlist = [(dtrain, 'train'), (dvalid, 'valid')]
# Обучаем модель XGBoost
model = xgb.train(
    params=xgb_pars, #гиперпараметры модели
    dtrain=dtrain, #обучающая выборка
    num_boost_round=300, #количество моделей в ансамбле
    evals=watchlist, #выборки, на которых считается матрица
    early_stopping_rounds=20, #раняя остановка
    maximize=False, #смена поиска максимума на минимум
    verbose_eval=10 #шаг, через который происходит отображение метрик
)

Предсказать целевой признак на новых данных можно с помощью метода predict():

In [None]:
#Делаем предсказание на тестовом наборе данных
y_test_predict = np.exp(model.predict(dtest)) - 1
print('Modeling RMSLE %.5f' % model.best_score)

Также как и все модели, основанные на использовании деревьев решений в качестве базовых моделей, XGBoost имеет возможность определения коэффициентов важности факторов. Более того, в библиотеку встроена возможность визуализации важность факторов в виде столбчатой диаграммы. За эту возможность отвечает функция plot_importance():


In [None]:
fig, ax = plt.subplots(figsize = (15,15))
xgb.plot_importance(model, ax = ax, height=0.5)