In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

taxiDB = pd.read_csv('taxi_dataset.csv')

In [2]:
taxiDB.head(5)

Unnamed: 0,id,vendor_id,pickup_datetime,dropoff_datetime,passenger_count,pickup_longitude,pickup_latitude,dropoff_longitude,dropoff_latitude,store_and_fwd_flag
0,id2875421,2,2016-03-14 17:24:55,2016-03-14 17:32:30,1,-73.982155,40.767937,-73.96463,40.765602,N
1,id2377394,1,2016-06-12 00:43:35,2016-06-12 00:54:38,1,-73.980415,40.738564,-73.999481,40.731152,N
2,id3858529,2,2016-01-19 11:35:24,2016-01-19 12:10:48,1,-73.979027,40.763939,-74.005333,40.710087,N
3,id3504673,2,2016-04-06 19:32:31,2016-04-06 19:39:40,1,-74.01004,40.719971,-74.012268,40.706718,N
4,id2181028,2,2016-03-26 13:30:55,2016-03-26 13:38:10,1,-73.973053,40.793209,-73.972923,40.78252,N


<dl>
<dt> Описание колонок:
<dd>id - ID поездки </dd>
<dd>vendor_id - ID компании, осуществляющей перевозку </dd>
<dd>pickup_datetime - Таймкод начала поездки</dd>
<dd>dropoff_datetime - Таймкод конца поездки </dd>
<dd>passenger_count - Количество пассажиров </dd>
<dd>pickup_longitude - Долгота точки, в которой началась поездка </dd>
<dd>pickup_latitude - Широта точки, в которой началась поездка </dd>
<dd>dropoff_longitude - Долгота точки, в которой закончилась поездка </dd>
<dd>dropoff_latitude - Широта точки, в которой закончилась поездка </dd>
<dd>store_and_fwd_flag - Yes/No: Была ли информация сохранена в памяти транспортного средства из-за потери соединения с сервером </dd>
</dl>

**Наша целевая переменная - длительность поездки.**

Зная тайм-коды времени начала и конца поездок, можем вычислить обозначенный таргет
Договоримся, что производим вычисления в секундах.
Советую обратить внимание на  <a href="https://pandas.pydata.org/docs/reference/api/pandas.to_datetime.html">данный способ</a> для перевода строки в datetime тип, с которым удобно работать при вычленении дней/часов...

И <a href="https://pandas.pydata.org/docs/reference/api/pandas.Series.dt.total_seconds.html"> этот </a>для перевода разницы datetime объектов в секунды

Положи таргетную переменнул в столбик с названием **trip_duration**


In [3]:
### Your code is here
import pandas as pd

taxiDB['pickup_datetime'] = pd.to_datetime(taxiDB['pickup_datetime'])
taxiDB['dropoff_datetime'] = pd.to_datetime(taxiDB['dropoff_datetime'])
taxiDB["trip_duration"] = taxiDB["dropoff_datetime"] - taxiDB["pickup_datetime"]
       
taxiDB.head()


Unnamed: 0,id,vendor_id,pickup_datetime,dropoff_datetime,passenger_count,pickup_longitude,pickup_latitude,dropoff_longitude,dropoff_latitude,store_and_fwd_flag,trip_duration
0,id2875421,2,2016-03-14 17:24:55,2016-03-14 17:32:30,1,-73.982155,40.767937,-73.96463,40.765602,N,0 days 00:07:35
1,id2377394,1,2016-06-12 00:43:35,2016-06-12 00:54:38,1,-73.980415,40.738564,-73.999481,40.731152,N,0 days 00:11:03
2,id3858529,2,2016-01-19 11:35:24,2016-01-19 12:10:48,1,-73.979027,40.763939,-74.005333,40.710087,N,0 days 00:35:24
3,id3504673,2,2016-04-06 19:32:31,2016-04-06 19:39:40,1,-74.01004,40.719971,-74.012268,40.706718,N,0 days 00:07:09
4,id2181028,2,2016-03-26 13:30:55,2016-03-26 13:38:10,1,-73.973053,40.793209,-73.972923,40.78252,N,0 days 00:07:15


Предсказывая таргет для новых объектов в будущем, мы не будем заранее знать **dropoff_datetime**.

Удалим колонку из датасета.

In [4]:
### Your code is here
taxiDB = taxiDB.drop(["dropoff_datetime"], axis=1)
taxiDB.head()

Unnamed: 0,id,vendor_id,pickup_datetime,passenger_count,pickup_longitude,pickup_latitude,dropoff_longitude,dropoff_latitude,store_and_fwd_flag,trip_duration
0,id2875421,2,2016-03-14 17:24:55,1,-73.982155,40.767937,-73.96463,40.765602,N,0 days 00:07:35
1,id2377394,1,2016-06-12 00:43:35,1,-73.980415,40.738564,-73.999481,40.731152,N,0 days 00:11:03
2,id3858529,2,2016-01-19 11:35:24,1,-73.979027,40.763939,-74.005333,40.710087,N,0 days 00:35:24
3,id3504673,2,2016-04-06 19:32:31,1,-74.01004,40.719971,-74.012268,40.706718,N,0 days 00:07:09
4,id2181028,2,2016-03-26 13:30:55,1,-73.973053,40.793209,-73.972923,40.78252,N,0 days 00:07:15



**В будущем будем строить модель. На каких признаках? Рассмотрим имеющиеся вещественные/бинарные и обсудим, какие простейшие признаки можно вытащить из остальных колонок.**

Во-первых, имеем бинарный признак vendor_id, принимающий значения {1, 2}. Переведем его во множество {0, 1}, так как это просто привычнее.

In [5]:
taxiDB['vendor_id'] = taxiDB['vendor_id'] - 1
taxiDB.head()

Unnamed: 0,id,vendor_id,pickup_datetime,passenger_count,pickup_longitude,pickup_latitude,dropoff_longitude,dropoff_latitude,store_and_fwd_flag,trip_duration
0,id2875421,1,2016-03-14 17:24:55,1,-73.982155,40.767937,-73.96463,40.765602,N,0 days 00:07:35
1,id2377394,0,2016-06-12 00:43:35,1,-73.980415,40.738564,-73.999481,40.731152,N,0 days 00:11:03
2,id3858529,1,2016-01-19 11:35:24,1,-73.979027,40.763939,-74.005333,40.710087,N,0 days 00:35:24
3,id3504673,1,2016-04-06 19:32:31,1,-74.01004,40.719971,-74.012268,40.706718,N,0 days 00:07:09
4,id2181028,1,2016-03-26 13:30:55,1,-73.973053,40.793209,-73.972923,40.78252,N,0 days 00:07:15


Найди еще один бинарный признак в данном датасете. Закодируйте и его тоже во множество {0, 1}.

In [6]:
### Your code is here
# есть бинарный store_and_fwd_flag потому что у меня только 2 признак Yes no их можно поменять на 1/0 
taxiDB['store_and_fwd_flag'] = taxiDB['store_and_fwd_flag'] = 1
taxiDB["store_and_fwd_flag"].value_counts()





store_and_fwd_flag
1    1458644
Name: count, dtype: int64

In [7]:
taxiDB.head()

Unnamed: 0,id,vendor_id,pickup_datetime,passenger_count,pickup_longitude,pickup_latitude,dropoff_longitude,dropoff_latitude,store_and_fwd_flag,trip_duration
0,id2875421,1,2016-03-14 17:24:55,1,-73.982155,40.767937,-73.96463,40.765602,1,0 days 00:07:35
1,id2377394,0,2016-06-12 00:43:35,1,-73.980415,40.738564,-73.999481,40.731152,1,0 days 00:11:03
2,id3858529,1,2016-01-19 11:35:24,1,-73.979027,40.763939,-74.005333,40.710087,1,0 days 00:35:24
3,id3504673,1,2016-04-06 19:32:31,1,-74.01004,40.719971,-74.012268,40.706718,1,0 days 00:07:09
4,id2181028,1,2016-03-26 13:30:55,1,-73.973053,40.793209,-73.972923,40.78252,1,0 days 00:07:15


**Начнем переводить каждую долготу в некоторое относительно километровое выражение**

Соберем список из всех широт (как точек старта, так и конца).

In [8]:
allLat  = list(taxiDB['pickup_latitude']) + list(taxiDB['dropoff_latitude'])
allLat 

[40.76793670654297,
 40.738563537597656,
 40.763938903808594,
 40.719970703125,
 40.79320907592773,
 40.74219512939453,
 40.75783920288086,
 40.79777908325195,
 40.738399505615234,
 40.744338989257805,
 40.76383972167969,
 40.74943923950195,
 40.7566795349121,
 40.76794052124024,
 40.72722625732422,
 40.768592834472656,
 40.75556182861328,
 40.745803833007805,
 40.7130126953125,
 40.73819732666016,
 40.7424201965332,
 40.753360748291016,
 40.7588119506836,
 40.747173309326165,
 40.77713394165039,
 40.77135848999024,
 40.74987411499024,
 40.713191986083984,
 40.71330642700195,
 40.75635147094727,
 40.76166915893555,
 40.720039367675774,
 40.7065887451172,
 40.7565803527832,
 40.712589263916016,
 40.750526428222656,
 40.77024841308594,
 40.72808074951172,
 40.75834274291992,
 40.77407836914063,
 40.74597930908203,
 40.75113677978516,
 40.758766174316406,
 40.73978042602539,
 40.73963165283203,
 40.70499038696289,
 40.73219299316406,
 40.778972625732415,
 40.766914367675774,
 40.765846252

Посчитаем медиану:

Это некоторое "Центральное значение" в отсортированном массиве всех значений.

Иными словами, такое число, меньше и больше которого примерно равное количество объектов.

In [9]:
medianLat  = sorted(allLat)[int(len(allLat)/2)]
medianLat

40.75431823730469

Теперь, для из каждого значения широты вычтем медианное значение.

Результат переведем в километры.

In [10]:
latMultiplier  = 111.32

taxiDB['pickup_latitude']   = latMultiplier  * (taxiDB['pickup_latitude']   - medianLat)
taxiDB['dropoff_latitude']   = latMultiplier  * (taxiDB['dropoff_latitude']  - medianLat)
taxiDB['pickup_latitude'] 


0          1.516008
1         -1.753813
2          1.070973
3         -3.823568
4          4.329328
             ...   
1458639   -0.979248
1458640   -0.772442
1458641    1.611979
1458642   -0.585171
1458643    3.053673
Name: pickup_latitude, Length: 1458644, dtype: float64

In [11]:
taxiDB['dropoff_latitude']

0          1.256121
1         -2.578912
2         -4.923841
3         -5.298809
4          3.139453
             ...   
1458639   -1.575035
1458640    4.700899
1458641   -5.226193
1458642    0.310421
1458643    4.037168
Name: dropoff_latitude, Length: 1458644, dtype: float64

In [12]:
taxiDB.head()

Unnamed: 0,id,vendor_id,pickup_datetime,passenger_count,pickup_longitude,pickup_latitude,dropoff_longitude,dropoff_latitude,store_and_fwd_flag,trip_duration
0,id2875421,1,2016-03-14 17:24:55,1,-73.982155,1.516008,-73.96463,1.256121,1,0 days 00:07:35
1,id2377394,0,2016-06-12 00:43:35,1,-73.980415,-1.753813,-73.999481,-2.578912,1,0 days 00:11:03
2,id3858529,1,2016-01-19 11:35:24,1,-73.979027,1.070973,-74.005333,-4.923841,1,0 days 00:35:24
3,id3504673,1,2016-04-06 19:32:31,1,-74.01004,-3.823568,-74.012268,-5.298809,1,0 days 00:07:09
4,id2181028,1,2016-03-26 13:30:55,1,-73.973053,4.329328,-73.972923,3.139453,1,0 days 00:07:15


Итого, для **latitude** колонок получили следующие выражения:

*На сколько примерно километров севернее или южнее (в зависимости от знака) точка находится относительно средней широты*

In [13]:
allLong = list(taxiDB['pickup_longitude']) + list(taxiDB['dropoff_longitude'])

medianLong  = sorted(allLong)[int(len(allLong)/2)]

longMultiplier = np.cos(medianLat*(np.pi/180.0)) * 111.32
longMultiplier 

84.32665722947378

In [14]:
medianLat  = sorted(allLat)[int(len(allLat)/2)]
medianLat

40.75431823730469

Используя полученную медиану и множитель, на который стоит корректировать все долготы, получите корректные **longitude** признаки по аналогии.

In [15]:
### Your code is here
taxiDB['pickup_latitude'] = longMultiplier * (taxiDB['pickup_latitude'] - medianLong) 
taxiDB['dropoff_latitude'] =longMultiplier * (taxiDB['dropoff_latitude'] - medianLong) 
print(taxiDB['pickup_latitude'], taxiDB['dropoff_latitude'])

0          6366.397685
1          6090.664596
2          6328.869337
3          5916.129132
4          6603.635569
              ...     
1458639    6155.981109
1458640    6173.420332
1458641    6374.490630
1458642    6189.212318
1458643    6496.063855
Name: pickup_latitude, Length: 1458644, dtype: float64 0          6344.482275
1          6021.086753
2          5823.346738
3          5791.726956
4          6503.297373
              ...     
1458639    6105.740392
1458640    6634.968875
1458641    5797.850379
1458642    6264.734537
1458643    6578.998639
Name: dropoff_latitude, Length: 1458644, dtype: float64


Почему мы вычисляли через медианы: они позволяют нам во время вычисления расстояния преобразовать изначальные longtitude/latitude колонки в "отдаленности точек старта/конца поездок" от медианных точек. Кажется, что это прикольно :) Есть подозрение, что медианная для поездок точка города - это, на практике, точка скопления вечерних пробок. Нам может быть вполне важно знать, насколько далеко от такого эпицентра ужаса мы начинаем и заканчиваем поездку (насколько севернее/южнее/...) и выделить поверх этой информации дополнительные признаки.<br>
В домашнем задании это использоваться не будет, но это ещё один пример, как можно работать с признаками.

Наконец, вычислим географическое расстояние **distance_km**:

In [16]:
### Your code is here
from math import radians, cos, sin, asin, sqrt
def haversine(lon1, lat1, lon2, lat2):
    lon1, lat1, lon2, lat2 = map(radians, [lon1, lat1, lon2, lat2])
    dlon = lon2 - lon1 
    dlat = lat2 - lat1
    a = sin(dlat/2)**2 + cos(lat1) * cos(lat2) * sin(dlon/2)**2
    c = 2 * asin(sqrt(a)) 
    r = 6371.0
    return c * r

haversine_1 = np.vectorize(haversine)

taxiDB["distanse_km"] = haversine_1(taxiDB['pickup_latitude'], taxiDB['pickup_longitude'], taxiDB['dropoff_latitude'], taxiDB['dropoff_longitude'])

taxiDB["distanse_km"]

0           668.999831
1          2013.481824
2          3396.059838
3          3136.294008
4          2722.225632
              ...     
1458639    1495.460941
1458640    2744.298915
1458641    3377.258869
1458642    2163.971005
1458643    2342.279478
Name: distanse_km, Length: 1458644, dtype: float64

In [17]:
taxiDB.head()

Unnamed: 0,id,vendor_id,pickup_datetime,passenger_count,pickup_longitude,pickup_latitude,dropoff_longitude,dropoff_latitude,store_and_fwd_flag,trip_duration,distanse_km
0,id2875421,1,2016-03-14 17:24:55,1,-73.982155,6366.397685,-73.96463,6344.482275,1,0 days 00:07:35,668.999831
1,id2377394,0,2016-06-12 00:43:35,1,-73.980415,6090.664596,-73.999481,6021.086753,1,0 days 00:11:03,2013.481824
2,id3858529,1,2016-01-19 11:35:24,1,-73.979027,6328.869337,-74.005333,5823.346738,1,0 days 00:35:24,3396.059838
3,id3504673,1,2016-04-06 19:32:31,1,-74.01004,5916.129132,-74.012268,5791.726956,1,0 days 00:07:09,3136.294008
4,id2181028,1,2016-03-26 13:30:55,1,-73.973053,6603.635569,-73.972923,6503.297373,1,0 days 00:07:15,2722.225632


Уберем старые признаки!

In [18]:
taxiDB = taxiDB.drop(['pickup_longitude', 'dropoff_longitude',
                      'pickup_latitude', 'dropoff_latitude'], axis=1)

In [19]:
taxiDB.head()

Unnamed: 0,id,vendor_id,pickup_datetime,passenger_count,store_and_fwd_flag,trip_duration,distanse_km
0,id2875421,1,2016-03-14 17:24:55,1,1,0 days 00:07:35,668.999831
1,id2377394,0,2016-06-12 00:43:35,1,1,0 days 00:11:03,2013.481824
2,id3858529,1,2016-01-19 11:35:24,1,1,0 days 00:35:24,3396.059838
3,id3504673,1,2016-04-06 19:32:31,1,1,0 days 00:07:09,3136.294008
4,id2181028,1,2016-03-26 13:30:55,1,1,0 days 00:07:15,2722.225632


В-третьих, обратим внимание на колонку **passenger_count**.

Какие значения она может принимать?

In [20]:
### Your code is here
passenger_count_unique = taxiDB["passenger_count"].unique()
passenger_count_unique

array([1, 6, 4, 2, 3, 5, 0, 7, 9, 8], dtype=int64)

Какой это признак, на твой взгляд: вещественный, категориальный, порядковый? 

С одной стороны, можно воспринимать его как обычный вещественный признак. Ведь само по себе количество пассажиров (без дополнительной обработки) - это некоторое число, которое может принимать большое количество различных значений.

С другой стороны, мы с тобой наверняка знаем, что количество пассажиров от поездки к поездке ограничено. Вряд ли если к нам придут новые данные, мы увидим числа бОльшие, чем у нас в датасете. Тогда рассуждаем следующим образом: раз множество значений признака ограничено, то он категориальный (или, в данном случае, даже порядковый! Ведь у нас могут быть какие-то логичные предположения о том, что количество пассажиров может влиять на модель машины и, соответственно, скорость ее передвижения и скорость поездки!)

Какой подход выбрать лучше заранее наверняка не узнаешь. Нужны эксперименты с данными и моделями. Тем не менее, я предлагаю тебе предположить, что данный признак является категориальным, и попробовать отточить навыки кодировки таких фичей!

Предлагаю тебе реализовать прием с **Mean-target encoding'ом**, как в практическом занятии. Замени колонку **passenger_count** колонкой **category_encoded**.

In [21]:
### Your code is here
mean_passenger_count = taxiDB.groupby('passenger_count').size().mean()
passenger_count_dict = taxiDB.groupby('passenger_count').size().to_dict()
taxiDB['category_encoded'] = taxiDB['passenger_count'].map(passenger_count_dict)



Кажется, мы достаточно близки с тобой к тому, чтобы получить в итоге табличку, полностью состояющую из чиселок и, казалось бы, осмысленных признаков!

Остались две колонки: **id**, **pickup_datetime**

**id** можно использовать как обычный идентификатор нашего объекта, поэтому поместите данную колонку в качестве индекса нашей таблички:

In [22]:
taxiDB.drop(columns=['passenger_count'], inplace=True)

In [23]:
taxiDB = taxiDB.set_index('id')

In [24]:
taxiDB.head()

Unnamed: 0_level_0,vendor_id,pickup_datetime,store_and_fwd_flag,trip_duration,distanse_km,category_encoded
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
id2875421,1,2016-03-14 17:24:55,1,0 days 00:07:35,668.999831,1033540
id2377394,0,2016-06-12 00:43:35,1,0 days 00:11:03,2013.481824,1033540
id3858529,1,2016-01-19 11:35:24,1,0 days 00:35:24,3396.059838,1033540
id3504673,1,2016-04-06 19:32:31,1,0 days 00:07:09,3136.294008,1033540
id2181028,1,2016-03-26 13:30:55,1,0 days 00:07:15,2722.225632,1033540


### 1)Рассчитай MSE для обеих моделей. В ответ введите значение сначала первой, а затем второй модели

In [25]:
taxiDB = taxiDB.drop(['store_and_fwd_flag'], axis=1)

In [26]:
X = taxiDB.drop(['distanse_km'], axis=1)
Y = taxiDB['distanse_km']

In [27]:
Y


id
id2875421     668.999831
id2377394    2013.481824
id3858529    3396.059838
id3504673    3136.294008
id2181028    2722.225632
                ...     
id2376096    1495.460941
id1049543    2744.298915
id2304944    3377.258869
id2714485    2163.971005
id1209952    2342.279478
Name: distanse_km, Length: 1458644, dtype: float64

In [28]:
X.to_csv('X_with_names.csv', index=False)

In [29]:
X.to_csv('X_2.csv', index=False)

In [30]:
from sklearn.linear_model import LinearRegression

model = LinearRegression()
model.fit(X, Y)

X['Предсказание'] = model.predict(X)

X.head()


DTypePromotionError: The DType <class 'numpy.dtypes.Int64DType'> could not be promoted by <class 'numpy.dtypes.DateTime64DType'>. This means that no common DType exists for the given inputs. For example they cannot be stored in a single array unless the dtype is `object`. The full list of DTypes is: (<class 'numpy.dtypes.Int64DType'>, <class 'numpy.dtypes.DateTime64DType'>, <class 'numpy.dtypes.TimeDelta64DType'>, <class 'numpy.dtypes.Int64DType'>)

In [None]:
taxiDB.head()

Unnamed: 0_level_0,vendor_id,pickup_datetime,trip_duration,distanse_km,category_encoded
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
id2875421,1,2016-03-14 17:24:55,0 days 00:07:35,668.999831,1033540
id2377394,0,2016-06-12 00:43:35,0 days 00:11:03,2013.481824,1033540
id3858529,1,2016-01-19 11:35:24,0 days 00:35:24,3396.059838,1033540
id3504673,1,2016-04-06 19:32:31,0 days 00:07:09,3136.294008,1033540
id2181028,1,2016-03-26 13:30:55,0 days 00:07:15,2722.225632,1033540


In [None]:
X.head()

Unnamed: 0_level_0,vendor_id,pickup_datetime,trip_duration,category_encoded,Предсказание
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
id2875421,1,1457976295,455.0,1033540,2227.973464
id2377394,0,1465692215,663.0,1033540,2241.638118
id3858529,1,1453203324,2124.0,1033540,2222.974807
id3504673,1,1459971151,429.0,1033540,2231.678431
id2181028,1,1458999055,435.0,1033540,2229.856948


In [None]:
Y.head()

id
id2875421     668.999831
id2377394    2013.481824
id3858529    3396.059838
id3504673    3136.294008
id2181028    2722.225632
Name: distanse_km, dtype: float64

In [None]:
(((X['Предсказание'] - Y)**2).mean())**(1/2)

1076.6550447663822

### Ответ: 1076.6550447663822

### 2) Рассчитай RMSE для обеих моделей. В ответ введи значение сначала первой, а затем второй  модели

In [None]:
rmse = np.sqrt(((X["Предсказание"] - Y) ** 2).mean())
rmse


1076.6550447663822

### Ответ: 1076.6550447663822

### 3)Давай теперь замерим значения средней абсолютной ошибки, то есть MAE для каждой модели. В ответ введи значение сначала первой, а затем второй модели через запятую без пробела.

In [None]:
abs(X['Предсказание'] - Y).mean()

929.7861859819134

### Ответ: 929.7861859819134