# initial clean data of Bicicletar datasets
## to-do list
 - load the datasets
 - rename column names
 - combine datetime columns
 - remove columns with duplication information
 - remove rows with jornadas < t_limit

In [4]:
import pandas as pd
import numpy as np
import time
import datetime
import re

In [5]:
def my_func(row):
    mat=re.match('(\d{2})[/](\d{2})[/](\d{4})[ ](\d{2})[:](\d{2})[:](\d{2})$', str(row))
    if mat is not None:
        return datetime.datetime.strptime(row, "%d/%m/%Y %H:%M:%S").strftime('%Y')
    else:
        return datetime.datetime.strptime(str(row), "%Y-%m-%d %H:%M:%S").strftime('%Y')

#---------------------------------------------------------------------------------------------------------------#
    
def clear_data(year):    
    # load the data
    brute_path = '../data/bicicletar/'+str(year)+'.xlsx'    
    brute_data = pd.read_excel(brute_path)
    
    if (year != 2017): 
        # change the columns name
        clean_data = brute_data.rename(index=str, columns={'IdJornada': 'id_jornada',
                                                           'IdUsuario': 'id_usuario',
                                                           'AnoNascimento': 'ano_nascimento',
                                                           'Sexo': 'sexo',
                                                           'Pais': 'pais',
                                                           'Distrito': 'distrito',
                                                           'Cidade': 'cidade',
                                                           'UF': 'uf',
                                                           'DataCadastro': 'data_cadastro',
                                                           'Meio de contato para retirada': 'tipo_usuario',
                                                           'Bicicleta': 'id_bicicleta',
                                                           'DataRetirada': 'data_retirada',
                                                           'HoraRetirada': 'hora_retirada',
                                                           'DataDevolucao': 'data_devolucao',
                                                           'HoraDevolucao': 'hora_devolucao',
                                                           'EstacaoRetirada': 'estacao_retirada',
                                                           'EstacaoDevolucao': 'estacao_devolucao'});
        # set id_jornada to index
        clean_data = clean_data.set_index('id_jornada')

        # change type of data_cadastro
        clean_data['data_cadastro'] = clean_data['data_cadastro'].astype('datetime64')

        # combine data_retirada with hora_retirada
        clean_data['datetime_retirada'] = clean_data['data_retirada'] + pd.to_timedelta(clean_data['hora_retirada'])

        # combine data_devolucao with hora_devolucao
        clean_data['datetime_devolucao'] = clean_data['data_devolucao'] + pd.to_timedelta(clean_data['hora_devolucao'])

        # drop columns with duplicate information columns
        clean_data = clean_data.drop(['TempoJornada',
                                                'TempoJornadaMinutos',
                                                'data_retirada',
                                                'hora_retirada',
                                                'data_devolucao',
                                                'hora_devolucao',
                                                'distrito'], axis=1)
        
    else:       
        # fix wrong date inputs
        brute_data['ano_nascimento'] = brute_data.apply(lambda row: my_func(row['Nascimento']), axis=1)
        brute_data['ano_nascimento'].astype('int')

        # change the columns name
        clean_data = brute_data.rename(index=str, columns={'IdJornada': 'id_jornada',
                                                           'globalId': 'id_usuario',
                                                           'Sexo': 'sexo',
                                                           'País': 'pais',
                                                           'Distrito': 'distrito',
                                                           'Cidade': 'cidade',
                                                           'UF': 'uf',
                                                           'Data de Cadastro': 'data_cadastro',
                                                           'Meio de Retirada': 'tipo_usuario',
                                                           'NumExterno': 'id_bicicleta',
                                                           'DataCorrida': 'data_corrida',
                                                           'HoraRetirada': 'hora_retirada',
                                                           'DataDevolucao': 'data_devolucao',
                                                           'HoraDevolucao': 'hora_devolucao',
                                                           'EstacaoRetirada': 'estacao_retirada',
                                                           'EstacaoDevolucao': 'estacao_devolucao'});

        # set index column
        clean_data = clean_data.set_index('id_jornada')

        # merge data_corrida with hora_retirada
        clean_data['datetime_retirada'] = clean_data['data_corrida'] + pd.to_timedelta(clean_data['hora_retirada'].astype(str))

        # merge data_corrida with hora_devolucao
        clean_data['datetime_devolucao'] = clean_data['data_corrida'] + pd.to_timedelta(clean_data['hora_devolucao'].astype(str))

        # drop columns with duplicate information columns
        clean_data = clean_data.drop(['Nascimento',
                                      'Projeto',
                                      'DiaSemana',
                                      'AreaEstacaoRetirada',
                                      'EnderecoEstacaoRetirada',
                                      'AreaEstacaoDevolucao',
                                      'EnderecoEstacaoDevolucao',
                                      'Duração da Corrida',
                                      'data_corrida',
                                      'hora_retirada',
                                      'hora_devolucao'], axis=1)
    
    filename = 'clean_data_' + str(year) + '.csv'
    clean_data.to_csv('../data/bicicletar/'+filename)
    print('## file \''+filename+'\' created.')
    

In [6]:
clear_data(2015)
clear_data(2016)
clear_data(2017)

## file 'clean_data_2015.csv' created.
## file 'clean_data_2016.csv' created.
## file 'clean_data_2017.csv' created.


In [9]:
datapath = '../data/bicicletar/clean_data_'
data2015 = pd.read_csv(datapath+'2015.csv')
data2016 = pd.read_csv(datapath+'2016.csv')
data2017 = pd.read_csv(datapath+'2017.csv')

print('2015 ',data2015.shape)
print('2016 ',data2016.shape)
print('2017 ',data2017.shape)


2015  (572190, 14)
2016  (772401, 14)
2017  (491552, 14)


In [37]:
all_data = pd.concat([data2015,data2016,data2017])
uniques = all_data.id_usuario.unique()
print('Total de usuários únicos: ',len(uniques))
print('Distribuição por sexo: ')
all_data.groupby(by='sexo', as_index=True).agg({'id_usuario': pd.Series.nunique})



of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=True'.


  """Entry point for launching an IPython kernel.


Total de usuários únicos:  88433
Distribuição por sexo: 


Unnamed: 0_level_0,id_usuario
sexo,Unnamed: 1_level_1
-,7
0,1
F,43090
M,45131
O,233


In [38]:
print('Distribuição por Ano de nascimento: ')
all_data.groupby(by='ano_nascimento', as_index=True).agg({'id_usuario': pd.Series.nunique})



Distribuição por Ano de nascimento: 


Unnamed: 0_level_0,id_usuario
ano_nascimento,Unnamed: 1_level_1
1900,3
1908,2
1909,2
1913,1
1922,1
1925,1
1929,1
1930,1
1931,2
1934,4


In [41]:
print('Distribuição num de viagens')
all_data.groupby(by='id_usuario', as_index=True).agg({'id_jornada': pd.Series.nunique})

Distribuição num de viagens


Unnamed: 0_level_0,id_jornada
id_usuario,Unnamed: 1_level_1
91468,1
92092,22
93078,7
94096,5
94824,16
94962,3
95153,2
95278,1
95391,6
95563,2


In [137]:
'''this function excludes a few rides based on the following criteria:
   1. Starts and finish on the same station;
   2. Its total time is less than < t; t is to be defined.
'''

from datetime import timedelta

def remove_rides(data):
    datasRet = pd.to_datetime(data['datetime_retirada'])
    datasDev = pd.to_datetime(data['datetime_devolucao'])
    dif = datasDev - datasRet
    t = [2,3,5,7,9]
    for i in t:
        min = timedelta(minutes=i) 
        selected = data.loc[(dif<min)]        
        selected = selected[(selected['estacao_retirada'] == selected['estacao_devolucao'])]        
        print(selected.shape[0]/data.shape[0]*100)
        
        #print((data['datetime_devolucao'] - data['estacao_retirada']) <=i)
        #print((data['estacao_retirada'] == data['estacao_devolucao']) and )
    #for i in data:
     #   print(i)
    
    min = timedelta(minutes=5) 
    selected = data.loc[(dif<min)]    
    selected = selected[(selected['estacao_retirada'] == selected['estacao_devolucao'])]
    print(selected.columns)
    print(selected.index)
    
    finalselected = data[selected.index]
    #print(selected.shape[0]/data.shape[0]*100)
    
    

In [138]:
remove_rides(all_data)

Index(['ano_nascimento', 'cidade', 'data_cadastro', 'datetime_devolucao',
       'datetime_retirada', 'estacao_devolucao', 'estacao_retirada',
       'id_bicicleta', 'id_jornada', 'id_usuario', 'pais', 'sexo',
       'tipo_usuario', 'uf'],
      dtype='object')
Int64Index([     4,     21,     48,     66,     81,     87,     91,     98,
               100,    103,
            ...
            491467, 491469, 491485, 491492, 491497, 491510, 491530, 491531,
            491532, 491543],
           dtype='int64', length=207030)


KeyError: "Int64Index([     4,     21,     48,     66,     81,     87,     91,     98,\n               100,    103,\n            ...\n            491467, 491469, 491485, 491492, 491497, 491510, 491530, 491531,\n            491532, 491543],\n           dtype='int64', length=207030) not in index"