### Блок теоретических вопросов

**Задание 1**

*Машинное обучение с учителем подразумевает*: 
1. Построение моделей на основе временных рядов.
2. Модель должна решать задачу регрессии и классификации. 
3. Наличие вещественных признаков в имеющихся данных
4. Обучение на прецедентах – объектах и соответствующих им ответам.

**Ответ: 4)** Как и было показано на лекции, Машинное Обучение разделяет задачи на 2 кластера: обучение с учителем и без учителя. Первое старается восстановить зависимость между признаковым описанием объекта и некоторой таргетной переменной, основываясь на некоторой выборке, собранной по истории, в виде прецедентов. Второе же скорее погружает нас в объекты сами по себе и старается установить какие-то связи, основываясь исключительно на самих признаках, не имея никакого явного таргета.

_______________________________________________________

**Задание 2**

*Вещественными признаками и таргетами (ответами) называют такие, которые принимают значения исключительно из некоторого установленного множества: например, 0 или 1*.

1. Нет
2. Нет, только те, различных значений у которых встречается более двух. 
3. Когда как – зависит от особенностей данных.


**Ответ: 1)** Называя признак или ответ вещественным, мы ожидаем, что чем больше данных у нас будет, тем больше различных уникальных значений для наших объектов встретятся в этих признаках или таргетах. Простой пример – признак, описывающий вес человека. При определенной точности замера, практически у всех людей он будет отличаться. А совпадения хоть и будут, но не так часто, как, например, для признака “пол человека”.
___________________________________________________

**Задание 3**

*В выборке не может быть пропущенных значений. А если они и встречаются, нам необходимо удалить все объекты, у которых хотя бы один признак (или ответ) отсутствует*.

1. Не обязательно. Мы можем обрабатывать такие проблемные места. Например, если признак имеет временную структуру, можем заполнять пропуски предыдущими значениями.
2. Не обязательно. Но нужно убедиться, что отсутствующий признак или ответ имеет временную структуру.
3. Да, в машинном обучении, как в некотором синтезе математики и машинного кода, мы ожидаем от объектов и их признаков наличие некоторого числового значения.
4. С признаками – да, с ответами - нет.

**Ответ: 1)** Как было показано на практике, в некоторых колонках наших таблиц может отсутствовать даже более, чем половина значений. Такое часто бывает, ведь сырые данные они на то и сырые. Тем не менее, признак, по нашему экспертному и интуитивному мнению (а так же как результат будущих экспериментов), может нести в себе много полезной информации, и бывает полезно не выбрасывать его вовсе (или не выбрасывать объекты с такими отсутствующими числами), а заполнить пропуски различными методами. О таких способах мы будем говорить позднее.
___________________________________________________

**Задание 4**

*Категориальные признаки часто “декодируют”, чтобы получить некоторый числовой эквивалент текстовому описанию объекта. Например, это можно делать с помощью счетчиков. Где процедура описана наиболее правильно и полно правильно?*

1. Для каждой категории создадим новую колонку: бинарный признак “принадлежит ли объект данной категории?”.
2. Посчитаем, сколько категорий у нас всего есть, а потом сопоставим полученные числа с общим количеством объектов. Появившиеся доли добавим как новый признак. 
3. Необходимо понять, как категории между собой отличаются с точки зрения своего влияния на таргет. Посчитаем какую-то аггрегацию каждой категории поверх нашего таргета: например, его среднее значение для каждой группы объектов (категории). Заменим категории на соответствующие им значения.
4. Нет верного ответа
**Ответ: 3)** В машинном обучении мы пытаемся успешно выявить взаимосвязь между признаками объекта и соответствующими ему ответами. Чтобы построить хорошую модель, нужно, чтобы и сами признаки были хорошими: в действительности имели какое-то влияние на таргет. Поэтому, когда мы видим категориальный признак, нам важна не категория сама по себе, а то, как она связана с таргетной переменной. Кодирование с помощью счетчиков отражает данную идею и является полезным инструментам, если категории правда важны в задаче.

### Практическая часть

**Задание 5**

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

taxiDB = pd.read_csv('taxi_dataset.csv')

In [2]:
taxiDB.head(5)

Unnamed: 0,id,vendor_id,pickup_datetime,dropoff_datetime,passenger_count,pickup_longitude,pickup_latitude,dropoff_longitude,dropoff_latitude,store_and_fwd_flag
0,id2875421,2,2016-03-14 17:24:55,2016-03-14 17:32:30,1,-73.982155,40.767937,-73.96463,40.765602,N
1,id2377394,1,2016-06-12 00:43:35,2016-06-12 00:54:38,1,-73.980415,40.738564,-73.999481,40.731152,N
2,id3858529,2,2016-01-19 11:35:24,2016-01-19 12:10:48,1,-73.979027,40.763939,-74.005333,40.710087,N
3,id3504673,2,2016-04-06 19:32:31,2016-04-06 19:39:40,1,-74.01004,40.719971,-74.012268,40.706718,N
4,id2181028,2,2016-03-26 13:30:55,2016-03-26 13:38:10,1,-73.973053,40.793209,-73.972923,40.78252,N


<dl>
<dt> Описание колонок:
<dd>id - ID поездки </dd>
<dd>vendor_id - ID компании, осуществляющей перевозку </dd>
<dd>pickup_datetime - Таймкод начала поездки</dd>
<dd>dropoff_datetime - Таймкод конца поездки </dd>
<dd>passenger_count - Количество пассажиров </dd>
<dd>pickup_longitude - Долгота точки, в которой началась поездка </dd>
<dd>pickup_latitude - Широта точки, в которой началась поездка </dd>
<dd>dropoff_longitude - Долгота точки, в которой закончилась поездка </dd>
<dd>dropoff_latitude - Широта точки, в которой закончилась поездка </dd>
<dd>store_and_fwd_flag - Yes/No: Была ли информация сохранена в памяти транспортного средства из-за потери соединения с сервером </dd>
</dl>

**Наша целевая переменная - длительность поездки.**

Зная тайм-коды времени начала и конца поездок, можем вычислить обозначенный таргет
Договоримся, что производим вычисления в секундах.
Советуем обратить внимание на  <a href="https://pandas.pydata.org/docs/reference/api/pandas.to_datetime.html">данный способ</a> для перевода строки в datetime тип, с которым удобно работать при вычленении дней/часов...

И <a href="https://pandas.pydata.org/docs/reference/api/pandas.Series.dt.total_seconds.html"> этот </a>для перевода разницы datetime объектов в секунды

Положите таргетную переменнул в столбик с названием trip

In [3]:
### Your code is here

taxiDB['trip_duration'] = (pd.to_datetime(taxiDB['dropoff_datetime']) - \
                           pd.to_datetime(taxiDB['pickup_datetime'])).dt.total_seconds()

taxiDB.head()

Unnamed: 0,id,vendor_id,pickup_datetime,dropoff_datetime,passenger_count,pickup_longitude,pickup_latitude,dropoff_longitude,dropoff_latitude,store_and_fwd_flag,trip_duration
0,id2875421,2,2016-03-14 17:24:55,2016-03-14 17:32:30,1,-73.982155,40.767937,-73.96463,40.765602,N,455.0
1,id2377394,1,2016-06-12 00:43:35,2016-06-12 00:54:38,1,-73.980415,40.738564,-73.999481,40.731152,N,663.0
2,id3858529,2,2016-01-19 11:35:24,2016-01-19 12:10:48,1,-73.979027,40.763939,-74.005333,40.710087,N,2124.0
3,id3504673,2,2016-04-06 19:32:31,2016-04-06 19:39:40,1,-74.01004,40.719971,-74.012268,40.706718,N,429.0
4,id2181028,2,2016-03-26 13:30:55,2016-03-26 13:38:10,1,-73.973053,40.793209,-73.972923,40.78252,N,435.0


Предсказывая таргет для новых объектов в будущем, мы не будем заранее знать **dropoff_datetime**.

Удалим колонку из датасета.

In [4]:
### Your code is here

taxiDB = taxiDB.drop('dropoff_datetime', axis=1)

In [5]:
taxiDB.shape

(1458644, 10)

In [6]:
taxiDB.set_index('id').to_csv('initial_data.csv')


**Будем в будущем строить модель. На каких признаках? Рассмотрим имеющиеся вещественные/бинарные и обсудим, какие простейшие признаки можно вытащить из остальных колонок.**

Во-первых, имеем бинарный признак vendor_id, принимающий значения {1, 2}. Переведем его во множество {0, 1}, так как это просто напросто привычнее.

In [7]:
taxiDB['vendor_id'] = taxiDB['vendor_id'] - 1
taxiDB.head()

Unnamed: 0,id,vendor_id,pickup_datetime,passenger_count,pickup_longitude,pickup_latitude,dropoff_longitude,dropoff_latitude,store_and_fwd_flag,trip_duration
0,id2875421,1,2016-03-14 17:24:55,1,-73.982155,40.767937,-73.96463,40.765602,N,455.0
1,id2377394,0,2016-06-12 00:43:35,1,-73.980415,40.738564,-73.999481,40.731152,N,663.0
2,id3858529,1,2016-01-19 11:35:24,1,-73.979027,40.763939,-74.005333,40.710087,N,2124.0
3,id3504673,1,2016-04-06 19:32:31,1,-74.01004,40.719971,-74.012268,40.706718,N,429.0
4,id2181028,1,2016-03-26 13:30:55,1,-73.973053,40.793209,-73.972923,40.78252,N,435.0


Найдите еще один бинарный признак в данном датасете. Закодируйте и его тоже во множество {0, 1}.

In [8]:
### Your code is here

taxiDB['store_and_fwd_flag'] = taxiDB['store_and_fwd_flag'].apply(lambda x: 0 if x=='N' else 1)

taxiDB.head()

Unnamed: 0,id,vendor_id,pickup_datetime,passenger_count,pickup_longitude,pickup_latitude,dropoff_longitude,dropoff_latitude,store_and_fwd_flag,trip_duration
0,id2875421,1,2016-03-14 17:24:55,1,-73.982155,40.767937,-73.96463,40.765602,0,455.0
1,id2377394,0,2016-06-12 00:43:35,1,-73.980415,40.738564,-73.999481,40.731152,0,663.0
2,id3858529,1,2016-01-19 11:35:24,1,-73.979027,40.763939,-74.005333,40.710087,0,2124.0
3,id3504673,1,2016-04-06 19:32:31,1,-74.01004,40.719971,-74.012268,40.706718,0,429.0
4,id2181028,1,2016-03-26 13:30:55,1,-73.973053,40.793209,-73.972923,40.78252,0,435.0


**Задание 6**

Во-вторых, можем использовать долготу и широту точек старта/завершения поездки, чтобы примерно оценить расстояние между 2 точками.

Сами по себе они, как самостоятельные вещественные признаки, вряд ли способны хорошо объяснять длительность поездки.

Базовая идея состоит в том, чтобы посчитать разность долгот и широт соответственно, то есть:

$$
\delta_{long} = \text{dropoff_longitude} - \text{pickup_longitude}
$$

$$
\delta_{lat} =  \text{dropoff_latitude} - \text{pickup_latitude}
$$

А потом вычислить географическое расстояние между 2 точками по теореме Пифагора:

$$
R = \sqrt{\delta^2_{long} + \delta^2_{lat}}
$$

Мы реализуем данную задумку и вычислим такую вещественную колонку **R**, что, в целом, является хорошим тоном при работе с координатами точек.

Только для начала нужно некоторым образом перевести долготу и широту в километры, обеспечив равенство их мер измерения. Потому что, вообще говоря, *градусная мера* широт и долгот имеет неодинаковую шкалу перевода в километры. Так, если пропустить данную деталь, расстояние **R** будет вычислено неверно, ведь катеты тогда будут иметь разную размерность.

В целом, перевод из долгот и широт в расстояние поездки позволяет нам в будущем проверить зависимость **длительности поездки от километража**, и объяснить ее будет куда проще, чем аналогичную между таргетом и изначальными признаками

<a href="https://www.datafix.com.au/BASHing/2018-11-07.html"> Маленькая статья про перевод разницы градусов долгот/широт в километры</a>

**Начнем переводить каждую долготу в некоторое относительно километровое выражение**

Соберем список из всех широт (как точек старта, так и конца).

In [9]:
allLat  = list(taxiDB['pickup_latitude']) + list(taxiDB['dropoff_latitude'])

Посчитаем медиану:

Это некоторое "Центральное значение" в отсортированном массиве всех значений.

Иными словами, такое число, меньше и больше которого примерно равное количество объктов.

In [10]:
medianLat  = sorted(allLat)[int(len(allLat)/2)]

Теперь, для из каждого значения широты вычтем медианное значение.

Результат переведем в километры.

In [11]:
latMultiplier  = 111.32

taxiDB['pickup_latitude']   = latMultiplier  * (taxiDB['pickup_latitude']   - medianLat)
taxiDB['dropoff_latitude']   = latMultiplier  * (taxiDB['dropoff_latitude']  - medianLat)

In [12]:
taxiDB.head()

Unnamed: 0,id,vendor_id,pickup_datetime,passenger_count,pickup_longitude,pickup_latitude,dropoff_longitude,dropoff_latitude,store_and_fwd_flag,trip_duration
0,id2875421,1,2016-03-14 17:24:55,1,-73.982155,1.516008,-73.96463,1.256121,0,455.0
1,id2377394,0,2016-06-12 00:43:35,1,-73.980415,-1.753813,-73.999481,-2.578912,0,663.0
2,id3858529,1,2016-01-19 11:35:24,1,-73.979027,1.070973,-74.005333,-4.923841,0,2124.0
3,id3504673,1,2016-04-06 19:32:31,1,-74.01004,-3.823568,-74.012268,-5.298809,0,429.0
4,id2181028,1,2016-03-26 13:30:55,1,-73.973053,4.329328,-73.972923,3.139453,0,435.0


Итого, для **latitude** колонок получили следующие выражения:

*На сколько примерно километров севернее или южнее (в зависимости от знака) точка находится относительно средней широты*

In [13]:
allLong = list(taxiDB['pickup_longitude']) + list(taxiDB['dropoff_longitude'])

medianLong  = sorted(allLong)[int(len(allLong)/2)]

longMultiplier = np.cos(medianLat*(np.pi/180.0)) * 111.32

Используя полученную медиану и множитель, на который стоит корректировать все долготы, получите корректные **longitude** признаки по аналогии.

In [14]:
### Your code is here

taxiDB['pickup_longitude']  = longMultiplier * (taxiDB['pickup_longitude']  - medianLong)
taxiDB['dropoff_longitude']  = longMultiplier * (taxiDB['dropoff_longitude'] - medianLong)

taxiDB.head(5)

Unnamed: 0,id,vendor_id,pickup_datetime,passenger_count,pickup_longitude,pickup_latitude,dropoff_longitude,dropoff_latitude,store_and_fwd_flag,trip_duration
0,id2875421,1,2016-03-14 17:24:55,1,-0.110015,1.516008,1.367786,1.256121,0,455.0
1,id2377394,0,2016-06-12 00:43:35,1,0.036672,-1.753813,-1.571088,-2.578912,0,663.0
2,id3858529,1,2016-01-19 11:35:24,1,0.153763,1.070973,-2.064547,-4.923841,0,2124.0
3,id3504673,1,2016-04-06 19:32:31,1,-2.4615,-3.823568,-2.649362,-5.298809,0,429.0
4,id2181028,1,2016-03-26 13:30:55,1,0.657515,4.329328,0.668452,3.139453,0,435.0


Наконец, вычислим географическое расстояние **distance_km**:

In [15]:
### Your code is here

taxiDB['long_diff'] = taxiDB['dropoff_longitude'] - taxiDB['pickup_longitude']
taxiDB['lat_diff'] = taxiDB['dropoff_latitude'] - taxiDB['pickup_latitude']

taxiDB['distance_km'] = (taxiDB['long_diff']**2 + taxiDB['lat_diff']**2)**(1/2)

taxiDB = taxiDB.drop(['long_diff', 'lat_diff'], axis=1)

In [16]:
taxiDB.head()

Unnamed: 0,id,vendor_id,pickup_datetime,passenger_count,pickup_longitude,pickup_latitude,dropoff_longitude,dropoff_latitude,store_and_fwd_flag,trip_duration,distance_km
0,id2875421,1,2016-03-14 17:24:55,1,-0.110015,1.516008,1.367786,1.256121,0,455.0,1.500479
1,id2377394,0,2016-06-12 00:43:35,1,0.036672,-1.753813,-1.571088,-2.578912,0,663.0,1.807119
2,id3858529,1,2016-01-19 11:35:24,1,0.153763,1.070973,-2.064547,-4.923841,0,2124.0,6.39208
3,id3504673,1,2016-04-06 19:32:31,1,-2.4615,-3.823568,-2.649362,-5.298809,0,429.0,1.487155
4,id2181028,1,2016-03-26 13:30:55,1,0.657515,4.329328,0.668452,3.139453,0,435.0,1.189925


Уберем старые признаки!

In [17]:
taxiDB = taxiDB.drop(['pickup_longitude', 'dropoff_longitude',
                      'pickup_latitude', 'dropoff_latitude'], axis=1)

In [18]:
taxiDB.head()

Unnamed: 0,id,vendor_id,pickup_datetime,passenger_count,store_and_fwd_flag,trip_duration,distance_km
0,id2875421,1,2016-03-14 17:24:55,1,0,455.0,1.500479
1,id2377394,0,2016-06-12 00:43:35,1,0,663.0,1.807119
2,id3858529,1,2016-01-19 11:35:24,1,0,2124.0,6.39208
3,id3504673,1,2016-04-06 19:32:31,1,0,429.0,1.487155
4,id2181028,1,2016-03-26 13:30:55,1,0,435.0,1.189925


**Задание 7**

В-третьих, обратим внимание на колонку **passenger_count**.

Какие значения она может принимать?

In [19]:
taxiDB['passenger_count'].value_counts()

1    1033540
2     210318
5      78088
3      59896
6      48333
4      28404
0         60
7          3
9          1
8          1
Name: passenger_count, dtype: int64

Какой это признак, на ваш взгляд: вещественный, категориальный, порядковый? 

С одной стороны, можно воспринимать его как обычный вещественный признак. Ведь само по себе количество пассажиров (без дополнительной обработки) - это некоторое число, которое может принимать большое количество различных значений.

С другой стороны, мы с Вами наверняка знаем, что количество пассажиров от поездки к поездке ограничено. Вряд ли если к нам придут новые данные, мы увидим числа бОльшие, чем у нас в датасете. Тогда рассуждаем следующим образом: раз множество значений признака ограничено, то он категориальный (или, в данном случае, даже порядковый! Ведь у нас могут быть какие-то логичные предположения о том, что количество пассажиров может влиять на модель машины и, соответственно, скорость ее передвижения и скорость поездки!)

Какой подход выбрать лучше заранее наверняка не узнаешь. Нужны эксперименты с данными и моделями. Тем не менее, я предлагаю Вам предположить, что данный признак является категориальным, и попробовать отточить навыки кодировки таких фичей!

Предлагаю Вам реализовать прием с **Mean-target encoding'ом**, как в практическом занятии. Замените колонку **passenger_count** колонкой **category_encoded**.

In [20]:
### Your code is here

taxiDB['passenger_count'] = taxiDB['passenger_count'].map(taxiDB
                                                          .groupby('passenger_count')['trip_duration']
                                                          .mean())
taxiDB = taxiDB.rename(columns={'passenger_count':'category_encoded'})

In [21]:
taxiDB.head()

Unnamed: 0,id,vendor_id,pickup_datetime,category_encoded,store_and_fwd_flag,trip_duration,distance_km
0,id2875421,1,2016-03-14 17:24:55,930.399753,0,455.0,1.500479
1,id2377394,0,2016-06-12 00:43:35,930.399753,0,663.0,1.807119
2,id3858529,1,2016-01-19 11:35:24,930.399753,0,2124.0,6.39208
3,id3504673,1,2016-04-06 19:32:31,930.399753,0,429.0,1.487155
4,id2181028,1,2016-03-26 13:30:55,930.399753,0,435.0,1.189925


**Задание 8**

Кажется, мы достаточно близки с Вами к тому, чтобы получить в итоге табличку, полностью состояющую из чиселок и, казалось бы, осмысленных признаков!

Остались две колонки: **id**, **pickup_datetime**

**id** можно использовать как обычный идентификатор нашего объекта, поэтому поместите данную колонку в качестве индекса нашей таблички:

In [22]:
### Your code is here

taxiDB = taxiDB.set_index('id')

In [23]:
taxiDB.head()

Unnamed: 0_level_0,vendor_id,pickup_datetime,category_encoded,store_and_fwd_flag,trip_duration,distance_km
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
id2875421,1,2016-03-14 17:24:55,930.399753,0,455.0,1.500479
id2377394,0,2016-06-12 00:43:35,930.399753,0,663.0,1.807119
id3858529,1,2016-01-19 11:35:24,930.399753,0,2124.0,6.39208
id3504673,1,2016-04-06 19:32:31,930.399753,0,429.0,1.487155
id2181028,1,2016-03-26 13:30:55,930.399753,0,435.0,1.189925
