In [1]:
import pandas as pd
import numpy as np
import datetime as dt
import math
import utm

#### Funções auxiliares

In [2]:
#convert to lat long
def getLat(coord,lat_label,lon_label):
    return utm.to_latlon(coord[lat_label],coord[lon_label],23,'K')[0]

def getLon(coord,lat_label,lon_label):
    return utm.to_latlon(coord[lat_label],coord[lon_label],23,'K')[1]

def checkRange(coord,lat_label,lon_label):
    if math.isnan(coord[lat_label]) or coord[lat_label] < 100000 or coord[lat_label] > 999999:
        return True
    if math.isnan(coord[lon_label]) or coord[lon_label] < 0 or coord[lat_label] > 10000000:
        return True
    return False

#### Importando dados originais

In [3]:
od = pd.read_csv('../data/original/OD_2017_v1.csv')

od.head()

Unnamed: 0,ZONA,MUNI_DOM,CO_DOM_X,CO_DOM_Y,ID_DOM,F_DOM,FE_DOM,DOM,CD_ENTRE,DATA,...,MODOPRIN,TIPVG,PAG_VIAG,TP_ESAUTO,VL_EST,PE_BICI,VIA_BICI,TP_ESBICI,DISTANCIA,ID_ORDEM
0,1,36,333743,7394463,10001,1,15.416667,1,1,6092017,...,16.0,3.0,,,,1.0,,,639.13,1
1,1,36,333743,7394463,10001,0,15.416667,1,1,6092017,...,16.0,3.0,,,,1.0,,,639.13,2
2,1,36,333743,7394463,10001,0,15.416667,1,1,6092017,...,1.0,1.0,2.0,,,,,,6651.77,3
3,1,36,333743,7394463,10001,0,15.416667,1,1,6092017,...,1.0,1.0,2.0,,,,,,4243.3,4
4,1,36,333743,7394463,10001,0,15.416667,1,1,6092017,...,12.0,2.0,,,,,,,4557.62,5


#### Convertendo os dados utm para lat/lon

In [4]:
co_o_x = od.apply(lambda x: np.nan if checkRange(x,'CO_O_X','CO_O_Y') else getLat(x,'CO_O_X','CO_O_Y'),axis=1)
co_o_y = od.apply(lambda x: np.nan if checkRange(x,'CO_O_X','CO_O_Y') else getLon(x,'CO_O_X','CO_O_Y'),axis=1)
co_d_x = od.apply(lambda x: np.nan if checkRange(x,'CO_D_X','CO_O_Y') else getLat(x,'CO_D_X','CO_D_Y'),axis=1)
co_d_y = od.apply(lambda x: np.nan if checkRange(x,'CO_D_X','CO_O_Y') else getLon(x,'CO_D_X','CO_D_Y'),axis=1)
co_dom_x = od.apply(lambda x: np.nan if checkRange(x,'CO_DOM_X','CO_DOM_Y') else getLat(x,'CO_DOM_X','CO_DOM_Y'),axis=1)
co_dom_y = od.apply(lambda x: np.nan if checkRange(x,'CO_DOM_X','CO_DOM_Y') else getLon(x,'CO_DOM_X','CO_DOM_Y'),axis=1)
co_tr1_x = od.apply(lambda x: np.nan if checkRange(x,'CO_TR1_X','CO_TR1_Y') else getLat(x,'CO_TR1_X','CO_TR1_Y'),axis=1)
co_tr1_y = od.apply(lambda x: np.nan if checkRange(x,'CO_TR1_X','CO_TR1_Y') else getLon(x,'CO_TR1_X','CO_TR1_Y'),axis=1)
co_tr2_x = od.apply(lambda x: np.nan if checkRange(x,'CO_TR2_X','CO_TR2_Y') else getLat(x,'CO_TR2_X','CO_TR2_Y'),axis=1)
co_tr2_y = od.apply(lambda x: np.nan if checkRange(x,'CO_TR2_X','CO_TR2_Y') else getLon(x,'CO_TR2_X','CO_TR2_Y'),axis=1)
co_t1_x = od.apply(lambda x: np.nan if checkRange(x,'CO_T1_X','CO_T1_Y') else getLat(x,'CO_T1_X','CO_T1_Y'),axis=1)
co_t1_y = od.apply(lambda x: np.nan if checkRange(x,'CO_T1_X','CO_T1_Y') else getLon(x,'CO_T1_X','CO_T1_Y'),axis=1)
co_t2_x = od.apply(lambda x: np.nan if checkRange(x,'CO_T2_X','CO_T2_Y') else getLat(x,'CO_T2_X','CO_T2_Y'),axis=1)
co_t2_y = od.apply(lambda x: np.nan if checkRange(x,'CO_T2_X','CO_T2_Y') else getLon(x,'CO_T2_X','CO_T2_Y'),axis=1)
co_t3_x = od.apply(lambda x: np.nan if checkRange(x,'CO_T3_X','CO_T3_Y') else getLat(x,'CO_T3_X','CO_T3_Y'),axis=1)
co_t3_y = od.apply(lambda x: np.nan if checkRange(x,'CO_T3_X','CO_T3_Y') else getLon(x,'CO_T3_X','CO_T3_Y'),axis=1)
od['CO_O_X'] = co_o_x
od['CO_O_Y'] = co_o_y
od['CO_D_X'] = co_d_x
od['CO_D_Y'] = co_d_y
od['CO_DOM_X'] = co_dom_x
od['CO_DOM_Y'] = co_dom_y
od['CO_TR1_X'] = co_tr1_x
od['CO_TR1_Y'] = co_tr1_y
od['CO_TR2_X'] = co_tr2_x
od['CO_TR2_Y'] = co_tr2_y
od['CO_T1_X'] = co_t1_x
od['CO_T1_Y'] = co_t1_y
od['CO_T2_X'] = co_t2_x
od['CO_T2_Y'] = co_t2_y
od['CO_T3_X'] = co_t3_x
od['CO_T3_Y'] = co_t3_y
od.head()


Unnamed: 0,ZONA,MUNI_DOM,CO_DOM_X,CO_DOM_Y,ID_DOM,F_DOM,FE_DOM,DOM,CD_ENTRE,DATA,...,MODOPRIN,TIPVG,PAG_VIAG,TP_ESAUTO,VL_EST,PE_BICI,VIA_BICI,TP_ESBICI,DISTANCIA,ID_ORDEM
0,1,36,-23.551678,-46.628857,10001,1,15.416667,1,1,6092017,...,16.0,3.0,,,,1.0,,,639.13,1
1,1,36,-23.551678,-46.628857,10001,0,15.416667,1,1,6092017,...,16.0,3.0,,,,1.0,,,639.13,2
2,1,36,-23.551678,-46.628857,10001,0,15.416667,1,1,6092017,...,1.0,1.0,2.0,,,,,,6651.77,3
3,1,36,-23.551678,-46.628857,10001,0,15.416667,1,1,6092017,...,1.0,1.0,2.0,,,,,,4243.3,4
4,1,36,-23.551678,-46.628857,10001,0,15.416667,1,1,6092017,...,12.0,2.0,,,,,,,4557.62,5


#### Deixando apenas as viagens com o modo de transporte principal sendo "a Pé"

In [5]:
od_walk = od.drop(od[od['MODOPRIN'] != 16.0].index, inplace=False)

od_walk.head()
print(len(od_walk))

48285


#### Filtrando de acordo com o motivo da viagem

In [9]:
walk_reasons = { 
    1.0: 'Pequena distância',
    2.0: 'Condução cara',
    3.0: 'Ponto/Estação distante',
    4.0: 'Condução demora para passar',
    5.0: 'Viagem demorada',
    6.0: 'Condução lotada',
    7.0: 'Atividade física',
    8.0: 'Outros motivos'
}

od_walks_filtered = dict()
for code, reason in walk_reasons.items():
    walk = od_walk.drop(od_walk[od_walk['PE_BICI'] != code].index, inplace=False)
    od_walks_filtered[code] = walk


44922
1308
255
316
104
63
924
393
44922


#### Salvando os df

In [7]:
for code, walk in od_walks_filtered.items():
    walk.to_csv(f"../data/walks-by-reason-{int(code)}.csv")