In [1]:
%matplotlib inline
import pandas as pd
pd.set_option('display.max_rows', 5)
import seaborn as sns
import matplotlib.pylab as plt
plt.rcParams['figure.figsize'] = 7, 4
import warnings
warnings.filterwarnings('ignore')

In [2]:
df = pd.read_csv('./src/trip_data_8.csv', low_memory=False)

In [3]:
df.shape

(1261505, 14)

#### Vamos dropar os atributos desconhecidos: vendor_id e store_and_fwd_flag:

In [4]:
df.drop([' vendor_id', ' store_and_fwd_flag'], 1, inplace=True)

In [5]:
df.shape

(1261505, 12)

In [6]:
df.describe()

Unnamed: 0,rate_code,passenger_count,trip_time_in_secs,trip_distance,pickup_longitude,pickup_latitude,dropoff_longitude,dropoff_latitude
count,1.261505e+06,1.261505e+06,1.261505e+06,1.261505e+06,1.261505e+06,1.261505e+06,1.261503e+06,1.261503e+06
mean,1.036542e+00,1.903010e+00,8.175101e+02,5.500859e+01,-7.320948e+01,4.032947e+01,-7.312580e+01,4.028402e+01
...,...,...,...,...,...,...,...,...
75%,1.000000e+00,2.000000e+00,9.600000e+02,3.190000e+00,-7.396742e+01,4.076625e+01,-7.396512e+01,4.076643e+01
max,2.390000e+02,6.000000e+00,4.293410e+06,1.348017e+07,4.077343e+01,7.400605e+01,4.082298e+01,4.102000e+02


## Data Cleaning

Vamos começar buscando os nulls

In [7]:
pd.set_option('display.max_rows', 15)
df.isnull().sum()

medallion             0
 hack_license         0
 rate_code            0
 pickup_datetime      0
 dropoff_datetime     0
 passenger_count      0
 trip_time_in_secs    0
 trip_distance        0
 pickup_longitude     0
 pickup_latitude      0
 dropoff_longitude    2
 dropoff_latitude     2
dtype: int64

In [8]:
pd.set_option('display.max_rows', 5)

In [9]:
df.ix[df[' dropoff_longitude'].isnull()]

Unnamed: 0,medallion,hack_license,rate_code,pickup_datetime,dropoff_datetime,passenger_count,trip_time_in_secs,trip_distance,pickup_longitude,pickup_latitude,dropoff_longitude,dropoff_latitude
328300,D1747389EAD9EB6EB0B30EE42D3B130D,AACE49C7D80767CFFEC0E513AE886DF0,0,2013-08-28 11:28:50,2013-08-28 11:28:50,0,0,0.0,-73.948677,40.744923,,
1261504,8D7BF8356EF4A676E1D83481A6CBF56F,609448857F72EDAE9BC6ED98970D4A41,1,2013-08-13 11:48:00,2013-08-13 12:12:00,5,1440,2.31,-73.982964,40.77425,,


In [10]:
df = df.ix[df[' dropoff_longitude'].notnull()].reset_index(drop=True)

In [11]:
len(df)

1261503

### Como estamos analisando mobilidade em NY, não faz sentido manter as linhas em que a distância ou o tempo de viagem sejam 0. Sei que para alguns estudos essa informação pode ser útil, mas para o nosso caso em específico, não faz sentido

Temos alguns tempos negativos também, então vamos limpá-los juntos

In [12]:
len(df.ix[df[' trip_time_in_secs']<=0])

5228

São 5228 linhas que não posso fazer muita coisa pois não tenho como inferir o tempo, então vou remover do df para não ter problemas futuros

In [13]:
df = df.ix[df[' trip_time_in_secs']>0].reset_index(drop=True)

Agora farei o mesmo para distâncias <= 0

In [14]:
len(df)

1256275

In [15]:
df = df.ix[df[' trip_distance']>0].reset_index(drop=True)

Voltando ao trip time. Vamos olhar outliers

In [16]:
df[' trip_time_in_secs'].sort_values(ascending=False)

43073     4293410
177598    4293042
           ...   
360137          1
223588          1
Name:  trip_time_in_secs, Length: 1251240, dtype: int64

Nós temos alguns tempos realmente longos e que parecem erros da base. Utilizar a fórmula padrão que diz que um outlier é um valor maior que o 3º quartil + 1.5*IQR não funciona pois temos algumas viagens que se descolam muito da mediana por terem distâncias longas.

In [17]:
import numpy as np

In [18]:
iqr = np.subtract(*np.percentile(df[' trip_time_in_secs'], [75, 25]))

In [19]:
ThirdQuartile = np.percentile(df[' trip_time_in_secs'], 75)

In [20]:
len(df.ix[df[' trip_time_in_secs']>(ThirdQuartile+(1.5*iqr))].sort(columns=' trip_time_in_secs', ascending=True))

AttributeError: 'DataFrame' object has no attribute 'sort'

Vamos remover os outliers aos poucos. Tempos com mais de 5 dígitos são claramente erros, então vamos removê-los

In [None]:
df = df.drop(df[(df[' trip_time_in_secs']>99999)].index).reset_index(drop=True)

#### Vamos começar analisando o rate_code, para ver se todos são válidos, segundo o: http://www.nyc.gov/html/tlc/html/passenger/taxicab_rate.shtml

In [None]:
pd.set_option('display.max_rows', 12)
df[' rate_code'].value_counts()

#### Como pode ser visto acima, alguns valores do rate_code não são válidos. Esses valores são: 200 e 0 . O número de ocorrências é bem pequeno comparado ao tamanho total da amostra de dados. Por este motivo e pela falta de tempo, não criarei uma função que utilizaria o geopy para identificar o ponto de saída e chegada, além da hora para classificar a tarifa corretamente. Neste momento eu vou simplesmente descartar essas linhas

In [None]:
pd.set_option('display.max_rows', 8)

In [None]:
df = df.ix[df[' rate_code'].isin([1,2,3,4,5,6]),:].reset_index(drop=True)

In [None]:
df.shape

In [None]:
print('Mediana: ' + str(df[' trip_distance'].median()) + ' \nMédia: '+ str(df[' trip_distance'].mean()))

Como podemos ver acima a mediana se descola muito da média, que é bem maior, mostrando que nós temos alguns outliers nas distâncias. Por este motivo, vamos olhar um pouco melhor essas grandes distâncias. 

In [None]:
df.sort(columns=' trip_distance', ascending=False).head(8)

Sabemos que Velocidade=Distancia/tempo. A primeira observação acima nos dá uma velocidade de mais de 18k milhas/s. Nova York tem limites de 30mp/h nas ruas e 65mp/h nas estradas. Vamos achar e descartar os veículos que tiveram velocidade média acima de 100mp/h. Essas observações tem grandes chances de terem problemas no tempo, na distância ou em ambos

In [None]:
df.ix[(df[' trip_distance']/(df[' trip_time_in_secs']/3600))>100]

In [None]:
df = df.drop(df[(df[' trip_distance']/(df[' trip_time_in_secs']/3600))>100].index).reset_index(drop=True)

In [None]:
print('Mediana: ' + str(df[' trip_distance'].median()) + ' \nMédia: '+ str(df[' trip_distance'].mean()))

Agora nossa média está bem mais próxima da mediana e faz mais sentido

## Início da Análise

In [None]:
#Função para plottar gráficos de distribuição de forma simplificada. Este modelo de função suporta apenas um filtro por vez.
def print_distribution(ax,dataframe,filter_column,filter_value, column_to_display, title,ylabel, xlabel,legend='', bins=None ):
    sns.distplot(dataframe.ix[df[filter_column]==filter_value,column_to_display],bins, ax=ax)
    ax.set_title(title)
    ax.set_ylabel(ylabel)
    ax.set_xlabel(xlabel)
    if len(legend)>0:
        ax.set_legend(legend)    

In [None]:
plt.rcParams['figure.figsize'] = 12,8
fig, ax = plt.subplots(nrows=2, ncols=3)
z=1
for x in range(2):
    for y in range(3):
        plt.tight_layout()
        print_distribution(ax[x,y], df,' rate_code',z,' trip_distance', 'Rate:#0'+str(z), 'Frequency', 'Distance Range')
        z+=1  

In [None]:
plt.rcParams['figure.figsize'] = 7, 4

Vamos olhar as distâncias médias agora:

In [None]:
for i in range(1,7):
    print('Distância Média com tarifa #' + str(i) +': ' +str(round(df.ix[df[' rate_code']==i, ' trip_distance'].mean(),2))+ ' milhas')

Vemos que as tarifas 2 e 3, que são as tarifas com origem ou destino em aeroportos são as que possuem as maiores distâncias médias, superando inclusive as tarifas 4 e 5 que são referentes a corridas fora da cidade. As tarifas 1 e 3 são usadas normalmente para corridas curtas. A 6 se refere a corridas em grupo.

#### Agora vamos dar uma olhada no tempo médio de viagem

In [None]:
for i in range(1,7):
    print('Tempo médio com tarifa #' + str(i) +': ' +str(round(df.ix[df[' rate_code']==i, ' trip_time_in_secs'].mean()/60,2))+ ' minutos')

Vamos ver agora como é a distribuição de corridas entre as diferentes taxas:

In [None]:
#Vou printar os valores antes do histograma para evidenciar a diferença entre as concentrações
print(df[' rate_code'].value_counts())
plt.hist(df[' rate_code'])
''

#### Aqui fica claro que a rate 1 tem concentração muito mais alta do que as outras

In [None]:
df[' pickup_datetime'].min()

In [None]:
df[' pickup_datetime'].max()

In [None]:
df[' dropoff_datetime'].min()

In [None]:
df[' dropoff_datetime'].max()

Todas as datas de embarque estão em Agosto de 2013, mas temos desembarque em Setembro. Para facilitar a análise, criarei colunas com mês, dia, hora e minuto tanto para embarque como para desembarque

In [None]:
df['pickup_month'] = df[' pickup_datetime'].str.slice(start=5, stop=7)
df['pickup_day'] = df[' pickup_datetime'].str.slice(start=8, stop=10)
df['pickup_hour'] = df[' pickup_datetime'].str.slice(start=11, stop=13)
df['pickup_minute'] = df[' pickup_datetime'].str.slice(start=14, stop=16)

In [None]:
df['dropoff_month'] = df[' dropoff_datetime'].str.slice(start=5, stop=7)
df['dropoff_day'] = df[' dropoff_datetime'].str.slice(start=8, stop=10)
df['dropoff_hour'] = df[' dropoff_datetime'].str.slice(start=11, stop=13)
df['dropoff_minute'] = df[' dropoff_datetime'].str.slice(start=14, stop=16)

In [None]:
df.columns

In [None]:
df['speed_mph'] = df[' trip_distance']/(df[' trip_time_in_secs']/3600)

In [None]:
df.groupby(by=['pickup_day'])[' hack_license'].count().plot(kind='bar', title='Pickups by day in August 2013')

#### Claramente nós temos dias faltantes nos embarques, o que inviabiliza uma análise por dia do mês em Agosto

Mas vamos tentar uma análise por hora

In [None]:
df.groupby(by=['pickup_hour'])[' hack_license'].count().plot(kind='bar', title='Picku ups by hour')

#### Ignorando o dia do mês e considerando apenas a hora, vemos uma curva que indica picos as 9h e às 19h, podendo significar a população indo e voltando do trabalho. Temos uma baixa na demanda, durante a madrugada.

In [None]:
df.ix[df['pickup_day']=='08',:].groupby(by=['pickup_hour'])[' hack_license'].count().plot(kind='bar', title='Quantidade de Embarques no dia de maior movimento')

In [None]:
df.ix[df['pickup_day']=='08',:].groupby(by=['pickup_hour'])[' hack_license'].nunique().plot(kind='bar', title='Quantidade de Taxis com clientes embarcando no dia de maior movimento')

Agora vamos analisar o comportamento da velocidade em cada rate 

In [None]:
df["new_pickup_date"] = pd.to_datetime(df[" pickup_datetime"])

In [None]:
df['weekday'] = df['new_pickup_date'].dt.weekday

FDS = 5,6

In [None]:
plt.plot(df.ix[(df[' rate_code']==1) & (df['weekday'].isin([5,6])), ['pickup_hour', 'speed_mph']].groupby('pickup_hour').mean().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Weekend', color='r')
plt.plot(df.ix[(df[' rate_code']==1) & (~df['weekday'].isin([5,6])), ['pickup_hour', 'speed_mph']].groupby('pickup_hour').mean().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Week day')
plt.legend(['Weekend', 'Week Day'])
plt.title('Rate 1 average speed(mph)')

In [None]:
plt.plot(df.ix[(df[' rate_code']==1) & (df['weekday'].isin([5,6])), ['pickup_hour', 'speed_mph']].groupby('pickup_hour').mean().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Weekend', color='r')
plt.plot(df.ix[(df[' rate_code']==1) & (df['weekday'].isin([0])), ['pickup_hour', 'speed_mph']].groupby('pickup_hour').mean().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Monday')
plt.plot(df.ix[(df[' rate_code']==1) & (df['weekday'].isin([1])), ['pickup_hour', 'speed_mph']].groupby('pickup_hour').mean().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Tuesday')
plt.plot(df.ix[(df[' rate_code']==1) & (df['weekday'].isin([2])), ['pickup_hour', 'speed_mph']].groupby('pickup_hour').mean().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Wednesday')
plt.plot(df.ix[(df[' rate_code']==1) & (df['weekday'].isin([3])), ['pickup_hour', 'speed_mph']].groupby('pickup_hour').mean().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Thursday')
plt.plot(df.ix[(df[' rate_code']==1) & (df['weekday'].isin([4])), ['pickup_hour', 'speed_mph']].groupby('pickup_hour').mean().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Friday')
plt.legend(['Weekend', 'Monday', 'Tuesday', 'Wdnesday', 'Thursday', 'Friday'])
plt.title('Rate 1 average speed(mph)')

In [None]:
plt.plot(df.ix[(df[' rate_code']==1) & (df['weekday'].isin([5,6])), ['pickup_hour', ' hack_license']].groupby('pickup_hour').size().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Weekend', color='r')
plt.plot(df.ix[(df[' rate_code']==1) & (df['weekday'].isin([0])), ['pickup_hour', ' hack_license']].groupby('pickup_hour').size().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Monday')
plt.plot(df.ix[(df[' rate_code']==1) & (df['weekday'].isin([1])), ['pickup_hour', ' hack_license']].groupby('pickup_hour').size().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Tuesday')
plt.plot(df.ix[(df[' rate_code']==1) & (df['weekday'].isin([2])), ['pickup_hour', ' hack_license']].groupby('pickup_hour').size().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Wednesday')
plt.plot(df.ix[(df[' rate_code']==1) & (df['weekday'].isin([3])), ['pickup_hour', ' hack_license']].groupby('pickup_hour').size().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Thursday')
plt.plot(df.ix[(df[' rate_code']==1) & (df['weekday'].isin([4])), ['pickup_hour', ' hack_license']].groupby('pickup_hour').size().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Friday')
plt.legend(['Weekend', 'Monday', 'Tuesday', 'Wdnesday', 'Thursday', 'Friday'])
plt.title('Rate 1 rides per hour')

In [None]:
plt.plot(df.ix[(df[' rate_code']==2) & (df['weekday'].isin([5,6])), ['pickup_hour', 'speed_mph']].groupby('pickup_hour').mean().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Weekend', color='r')
plt.plot(df.ix[(df[' rate_code']==2) & (~df['weekday'].isin([5,6])), ['pickup_hour', 'speed_mph']].groupby('pickup_hour').mean().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Week day')
plt.legend(['Weekend', 'Week Day'])
plt.title('Rate 2 average speed(mph)')

In [None]:
plt.plot(df.ix[(df[' rate_code']==2) & (df['weekday'].isin([5,6])), ['pickup_hour', 'speed_mph']].groupby('pickup_hour').mean().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Weekend', color='r')
plt.plot(df.ix[(df[' rate_code']==2) & (~df['weekday'].isin([0])), ['pickup_hour', 'speed_mph']].groupby('pickup_hour').mean().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Monday')
plt.plot(df.ix[(df[' rate_code']==2) & (~df['weekday'].isin([1])), ['pickup_hour', 'speed_mph']].groupby('pickup_hour').mean().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Tuesday')
plt.plot(df.ix[(df[' rate_code']==2) & (~df['weekday'].isin([2])), ['pickup_hour', 'speed_mph']].groupby('pickup_hour').mean().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Wednesday')
plt.plot(df.ix[(df[' rate_code']==2) & (~df['weekday'].isin([3])), ['pickup_hour', 'speed_mph']].groupby('pickup_hour').mean().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Thursday')
plt.plot(df.ix[(df[' rate_code']==2) & (~df['weekday'].isin([4])), ['pickup_hour', 'speed_mph']].groupby('pickup_hour').mean().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Friday')
plt.legend(['Weekend', 'Monday', 'Tuesday', 'Wdnesday', 'Thursday', 'Friday'])
plt.title('Rate 2 average speed(mph)')

In [None]:
plt.plot(df.ix[(df[' rate_code']==2) & (df['weekday'].isin([5,6])), ['pickup_hour', ' hack_license']].groupby('pickup_hour').size().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Weekend', color='r')
plt.plot(df.ix[(df[' rate_code']==2) & (df['weekday'].isin([0])), ['pickup_hour', ' hack_license']].groupby('pickup_hour').size().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Monday')
plt.plot(df.ix[(df[' rate_code']==2) & (df['weekday'].isin([1])), ['pickup_hour', ' hack_license']].groupby('pickup_hour').size().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Tuesday')
plt.plot(df.ix[(df[' rate_code']==2) & (df['weekday'].isin([2])), ['pickup_hour', ' hack_license']].groupby('pickup_hour').size().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Wednesday')
plt.plot(df.ix[(df[' rate_code']==2) & (df['weekday'].isin([3])), ['pickup_hour', ' hack_license']].groupby('pickup_hour').size().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Thursday')
plt.plot(df.ix[(df[' rate_code']==2) & (df['weekday'].isin([4])), ['pickup_hour', ' hack_license']].groupby('pickup_hour').size().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Friday')
plt.legend(['Weekend', 'Monday', 'Tuesday', 'Wdnesday', 'Thursday', 'Friday'])
plt.title('Rate 2 rides per hour')

In [None]:
plt.plot(df.ix[(df[' rate_code']==3) & (df['weekday'].isin([5,6])), ['pickup_hour', 'speed_mph']].groupby('pickup_hour').mean().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Weekend', color='r')
plt.plot(df.ix[(df[' rate_code']==3) & (~df['weekday'].isin([5,6])), ['pickup_hour', 'speed_mph']].groupby('pickup_hour').mean().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Week day')
plt.legend(['Weekend', 'Week Day'])
plt.title('Rate 3 average speed(mph)')

In [None]:
plt.plot(df.ix[(df[' rate_code']==3) & (df['weekday'].isin([5,6])), ['pickup_hour', ' hack_license']].groupby('pickup_hour').size().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Weekend', color='r')
plt.plot(df.ix[(df[' rate_code']==3) & (df['weekday'].isin([0])), ['pickup_hour', ' hack_license']].groupby('pickup_hour').size().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Monday')
plt.plot(df.ix[(df[' rate_code']==3) & (df['weekday'].isin([1])), ['pickup_hour', ' hack_license']].groupby('pickup_hour').size().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Tuesday')
plt.plot(df.ix[(df[' rate_code']==3) & (df['weekday'].isin([2])), ['pickup_hour', ' hack_license']].groupby('pickup_hour').size().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Wednesday')
plt.plot(df.ix[(df[' rate_code']==3) & (df['weekday'].isin([3])), ['pickup_hour', ' hack_license']].groupby('pickup_hour').size().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Thursday')
plt.plot(df.ix[(df[' rate_code']==3) & (df['weekday'].isin([4])), ['pickup_hour', ' hack_license']].groupby('pickup_hour').size().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Friday')
plt.legend(['Weekend', 'Monday', 'Tuesday', 'Wdnesday', 'Thursday', 'Friday'])
plt.title('Rate 3 rides per hour')

In [None]:
plt.plot(df.ix[(df[' rate_code']==4) & (df['weekday'].isin([5,6])), ['pickup_hour', 'speed_mph']].groupby('pickup_hour').mean().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Weekend', color='r')
plt.plot(df.ix[(df[' rate_code']==4) & (~df['weekday'].isin([5,6])), ['pickup_hour', 'speed_mph']].groupby('pickup_hour').mean().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Week day')
plt.legend(['Weekend', 'Week Day'])
plt.title('Rate 4 average speed(mph)')

In [None]:
plt.plot(df.ix[(df[' rate_code']==4) & (df['weekday'].isin([5,6])), ['pickup_hour', ' hack_license']].groupby('pickup_hour').size().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Weekend', color='r')
plt.plot(df.ix[(df[' rate_code']==4) & (df['weekday'].isin([0])), ['pickup_hour', ' hack_license']].groupby('pickup_hour').size().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Monday')
plt.plot(df.ix[(df[' rate_code']==4) & (df['weekday'].isin([1])), ['pickup_hour', ' hack_license']].groupby('pickup_hour').size().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Tuesday')
plt.plot(df.ix[(df[' rate_code']==4) & (df['weekday'].isin([2])), ['pickup_hour', ' hack_license']].groupby('pickup_hour').size().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Wednesday')
plt.plot(df.ix[(df[' rate_code']==4) & (df['weekday'].isin([3])), ['pickup_hour', ' hack_license']].groupby('pickup_hour').size().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Thursday')
plt.plot(df.ix[(df[' rate_code']==4) & (df['weekday'].isin([4])), ['pickup_hour', ' hack_license']].groupby('pickup_hour').size().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Friday')
plt.legend(['Weekend', 'Monday', 'Tuesday', 'Wdnesday', 'Thursday', 'Friday'])
plt.title('Rate 4 rides per hour')

In [None]:
plt.plot(df.ix[(df[' rate_code']==5) & (df['weekday'].isin([5,6])), ['pickup_hour', 'speed_mph']].groupby('pickup_hour').mean().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Weekend', color='r')
plt.plot(df.ix[(df[' rate_code']==5) & (~df['weekday'].isin([5,6])), ['pickup_hour', 'speed_mph']].groupby('pickup_hour').mean().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Week day')
plt.legend(['Weekend', 'Week Day'])
plt.title('Rate 5 average speed(mph)')

Como vemos nos gráficos, a velocidade durante a semana costuma ser bem menor do que aos finais de semana.

In [None]:
plt.plot(df.ix[(df[' rate_code']==5) & (df['weekday'].isin([5,6])), ['pickup_hour', ' hack_license']].groupby('pickup_hour').size().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Weekend', color='r')
plt.plot(df.ix[(df[' rate_code']==5) & (df['weekday'].isin([0])), ['pickup_hour', ' hack_license']].groupby('pickup_hour').size().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Monday')
plt.plot(df.ix[(df[' rate_code']==5) & (df['weekday'].isin([1])), ['pickup_hour', ' hack_license']].groupby('pickup_hour').size().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Tuesday')
plt.plot(df.ix[(df[' rate_code']==5) & (df['weekday'].isin([2])), ['pickup_hour', ' hack_license']].groupby('pickup_hour').size().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Wednesday')
plt.plot(df.ix[(df[' rate_code']==5) & (df['weekday'].isin([3])), ['pickup_hour', ' hack_license']].groupby('pickup_hour').size().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Thursday')
plt.plot(df.ix[(df[' rate_code']==5) & (df['weekday'].isin([4])), ['pickup_hour', ' hack_license']].groupby('pickup_hour').size().reset_index().sort_values(by='pickup_hour').drop('pickup_hour',1), label='Friday')
plt.legend(['Weekend', 'Monday', 'Tuesday', 'Wdnesday', 'Thursday', 'Friday'])
plt.title('Rate 5 rides per hour')

In [None]:
df.groupby(by=['pickup_hour'])[' hack_license'].count().plot(kind='bar', title='Picku ups by hour')

In [None]:
len(df[' hack_license'].unique())

In [None]:
df.ix[(df['weekday'].isin([5,6])), [' hack_license']].groupby(by=' hack_license').size().sort_values(ascending=False)

In [None]:
df.ix[(~df['weekday'].isin([5,6])), [' hack_license']].groupby(by=' hack_license').size().sort_values(ascending=False)

In [None]:
df.groupby(by=' hack_license').agg({'medallion':'count', ' trip_distance':'mean'}).reset_index().sort_values(by='medallion', ascending=False)

In [None]:
pd.set_option('display.max_rows', 15)

In [None]:
df.groupby(by=' hack_license').agg({'medallion':'count', ' trip_distance':'mean'}).reset_index().sort_values(by='medallion', ascending=False)

In [None]:
df.ix[df[' hack_license']=='7B19DE6D4D54999531BEB27F758F71F6']

In [None]:
df.ix[(df[' pickup_latitude']==0) & (df[' pickup_longitude']!=0)]

In [1]:
import folium

In [79]:
map_ny = folium.Map(location=[40.730610, -73.935242], zoom_start=10.5)
map_ny.save('ny.html')

In [None]:
folium.Marker([45.3288, -121.6625], popup='Mt. Hood Meadows').add_to(map_1)

In [84]:
for i in range (100):
    folium.Marker([df[' pickup_latitude'][i], df[' pickup_longitude'][i]], popup='Pickup point').add_to(map_ny)

In [85]:
map_ny

In [1]:
import osmnx as ox, networkx as nx
from IPython.display import IFrame
ox.config(log_console=True, use_cache=True)

In [2]:
G = ox.graph_from_place('New York, New York, USA', network_type='drive')

In [6]:
graph_map = ox.plot_graph_folium(G, popup_attribute='name', edge_width=2)

In [7]:
filepath = 'data/nyc.html'
graph_map.save(filepath)
IFrame(filepath, width=600, height=500)

In [None]:
ox.plot_route_folium()

In [80]:
state_geo = r'data/lion.json'

In [35]:
df.to_csv('./output/manipulado.csv')

In [21]:
import gmaps

In [22]:
gmaps.configure(api_key="AIzaSyCDOSz_xeAB2-AIWuKEsB8Qt1dqkhqREZE") # Your Google API key

In [23]:
#location = [df[' pickup_latitude'].head(100).values, df[' pickup_longitude'].head(100).values]


In [24]:
location = []

In [25]:
for i in range (0,101):
    #location.append('('+ str(df[' pickup_latitude'][i]) + ' , '+ str(df[' pickup_longitude'][i]) +')')
    coord = tuple([df[' pickup_latitude'][i], df[' pickup_longitude'][i]])
    location.append(coord)

In [29]:
fig = gmaps.figure()
fig.add_layer(gmaps.heatmap_layer(location))
fig

In [27]:
fig

In [28]:
gmaps.__version__

'0.5.0'

In [30]:
import gmaps.datasets

In [31]:
locations = gmaps.datasets.load_dataset("taxi_rides")

In [33]:
fig = gmaps.figure()
fig.add_layer(gmaps.heatmap_layer(locations))
fig

In [82]:
map_ny.choropleth(geo_path=state_geo, data=state_data,
             columns=['State', 'Unemployment'],
             key_on='feature.id',
             fill_color='YlGn', fill_opacity=0.7, line_opacity=0.2,
             legend_name='Unemployment Rate (%)')

'data/lion.json'