# Trafico Vehicular - ETL

In [1]:
from sqlalchemy import create_engine
import pandas as pd
import numpy as np

xlsx = pd.ExcelFile('/Users/luisa/Documents/IMCO.xlsx')

In [2]:
# Creacion de la tabla Ciudades
# La tabla Ciudades contiene el estado, la ciudad, y el indice de trafico
# de cada una, junto con el identificador de cada ciudad.
# Esta es la tabla principal del nuestra base de datos.

ciudades = pd.read_excel(xlsx, sheet_name=0)

# Cambia los encabezados de la tabla y elige solo las columnas deseadas

cols = ['Estado', 'Ciudad', 'Índice de tráfico zona metropolitana']
ciudades = ciudades.rename(columns=ciudades.loc[0]).loc[1:,cols]

ciudades = ciudades.loc[:,~ciudades.columns.duplicated()] # Elimina los duplcados de columnas

# Para dar un formato común entre las tablas se ordenan las filas
# conforme al nombre de las ciudades y resetea el indice
# para que vaya acorde al nuevo orden de las ciudades

ciudades = ciudades.sort_values(by='Ciudad').reset_index().drop(columns='index')
ciudades.index.name = 'city_id'
ciudades.index += 1
ciudades.reset_index(inplace=True)

rename_ciudades = {
    'Estado':'estado',
    'Ciudad':'ciudad',
    'Índice de tráfico zona metropolitana':'indice_trafico'}

ciudades.rename(columns=rename_ciudades,inplace=True)

ciudades

Unnamed: 0,city_id,estado,ciudad,indice_trafico
0,1,Guerrero,Acapulco,1.416109
1,2,Aguascalientes,Aguascalientes,1.179313
2,3,Campeche,Campeche,1.107076
3,4,Quintana Roo,Cancún,1.195264
4,5,Chihuahua,Ciudad Juárez,1.191847
5,6,Tamaulipas,Ciudad Victoria,1.325517
6,7,Colima,Colima-Villa de Álvarez,1.115251
7,8,Morelos,Cuernavaca,1.279771
8,9,Sinaloa,Culiacán,1.041192
9,10,Durango,Durango,1.113327


In [3]:
# Genera la tabla Inversion
# Esta tabla contiene la información sobre el presupuesto usado en cada
# ciudad del país

inversion = pd.read_excel(xlsx, sheet_name= 3)

# Nuevamente se ordenan las filas por los nombres de las ciudades y se
# genera el identificador de la ciudad de acuerdo a ese nombre
# (Se dropean las columnas no necesarias correspondientes a otros
# identificadores de los estados y la ciudad).

inversion = inversion.sort_values('Ciudad_ICU').drop(columns=['Ciudad_ST','Ciudad_ICU', 'CVE_ciudad'])
inversion = inversion.reset_index().drop(columns='index')
inversion.index.name = 'city_id'
inversion.index += 1
inversion.reset_index(inplace=True)

rename_inversion = {
    'Gasto movilidad': 'gasto_movilidad'
}
inversion.rename(columns=rename_inversion,inplace=True)

inversion

Unnamed: 0,city_id,prop_auto,prop_tp,presup_tp,presup_no_motorizado,presup_auto,gasto_movilidad
0,1,0.096345,0.474834,0.0,0.0,0.93,57602950.0
1,2,0.324928,0.258805,0.0,0.003055,0.44,629206000.0
2,3,0.309571,0.38784,,,,
3,4,0.236555,0.44792,0.048316,0.058994,0.1,76185580.0
4,5,0.431681,0.245877,,,,
5,6,0.370694,0.262781,0.0,0.275579,0.34,93269240.0
6,7,0.21079,0.42723,0.021834,0.070652,0.15,239535800.0
7,8,0.376753,0.303876,,,,
8,9,0.289181,0.299272,,,,
9,10,0.258583,0.377066,0.117823,0.01943,0.67,1079160000.0


In [4]:
# Genera la tabla de la encuesta intercensal del INEGI
# Esta tabla contiene las tablas procesadas por IMCO de la encuesta
# intercensal del INEGI. Se señala las edades y el medio de transporte
# para cada una de las respuestas de la encuesta.

# Lista de valores de las nuevas columnas de las tablas de la encuesta intercensal del INEGI

transporte = ['Au', 'Tp']
edad = ['No PEA', 'PEA']

# Convierte en dataframes las tablas de la encuesta intercensal
# Cambia los encabezados de las columnas
# Y agrega dos columnas sobre la edad y el transporte usado

intercensal = pd.read_excel(xlsx,sheet_name=[5,6,7,8])
for i in range(2):
    for j in range(2):
        sheet = 2*i+j+5
        intercensal[sheet] = intercensal[sheet].rename(columns=intercensal[sheet].iloc[0]).loc[1:]
        intercensal[sheet]['edad'] = edad[j]
        intercensal[sheet]['transporte'] = transporte[i]
        intercensal[sheet].sort_values(by='Zona metropolitana',inplace=True)
        intercensal[sheet] = intercensal[sheet].reset_index().drop(columns='index')

# Concatena los dataframes en una sola tabla intercensal

frames = [e for e in intercensal.values()]
intercensal = pd.concat(frames)

# Transforma la tabla de la encuesta intercensal
# Rellena los valores nulos a 0
# Cambia los nombres de las columnas sobre el lugar

intercensal = intercensal.infer_objects(copy=False).fillna(0)
intercensal = intercensal.drop(columns=['Entidad','Zona metropolitana'])

# Se le da el nombre al indice de las ciudades
# Se genera un nuevo indice que corresponde al identificador
# de la fila de la encuesta

intercensal.index.name = 'city_id'
intercensal.index += 1
intercensal = intercensal.reset_index()

rename_intercensal ={
    'city_id': 'city_id',
    'cve_ent': 'cve_ent', 
    'cve_ZM': 'cve_zm', 
    'Pob_ZM': 'pob_zm', 
    'Pob_traslado_escuela': 'pob_traslado_escuela', 
    'Pob_traslado_trabajo': 'pob_traslado_trabajo', 
    'Prop_esc_Hasta 15 minutos': 'prop_esc_15', 
    'Prop_esc_16 a 30 minutos': 'prop_esc_16_30',
    'Prop_esc_31 minutos a 1 hora': 'prop_esc_31_60',
    'Prop_esc_Más de 1 hora y hasta 2': 'prop_esc_61_120',
    'Prop_esc_Más de 2 horas': 'prop_esc_121',
    'Prop_trab_Hasta 15 minutos': 'prop_trab_15',
    'Prop_trab_16 a 30 minutos': 'prop_trab_16_30',
    'Prop_trab_31 minutos a 1 hora': 'prop_trab_31_60',
    'Prop_trab_Más de 1 hora y hasta 2': 'prop_trab_61_120',
    'Prop_trab_Más de 2 horas': 'prop_trab_121',
    'edad': 'edad',
    'transporte': 'transporte'
    }
intercensal.rename(columns=rename_intercensal,inplace=True)

intercensal

Unnamed: 0,city_id,cve_ent,cve_zm,pob_zm,pob_traslado_escuela,pob_traslado_trabajo,prop_esc_15,prop_esc_16_30,prop_esc_31_60,prop_esc_61_120,prop_esc_121,prop_trab_15,prop_trab_16_30,prop_trab_31_60,prop_trab_61_120,prop_trab_121,edad,transporte
0,1,12,16,886975,12703,4,0.619145,0.293395,0.082500,0.004959,0.000000,0.500000,0.000000,0.500000,0.000000,0.000000,No PEA,Au
1,2,1,1,1044049,57987,387,0.648300,0.317209,0.033732,0.000759,0.000000,0.506460,0.250646,0.206718,0.036176,0.000000,No PEA,Au
2,3,4,58,283025,14419,18,0.530342,0.433803,0.032735,0.003121,0.000000,0.388889,0.111111,0.000000,0.500000,0.000000,No PEA,Au
3,4,23,36,763121,33490,38,0.707226,0.263452,0.029143,0.000179,0.000000,0.000000,0.763158,0.184211,0.052632,0.000000,No PEA,Au
4,5,8,11,1391180,85181,105,0.687630,0.250772,0.045151,0.012702,0.003745,0.000000,0.714286,0.000000,0.285714,0.000000,No PEA,Au
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
123,28,7,10,751183,55308,142062,0.132115,0.436356,0.356748,0.069158,0.005623,0.109142,0.391118,0.376744,0.088870,0.034126,PEA,Tp
124,29,9,13,20892724,1208103,3937719,0.060313,0.283281,0.357744,0.249779,0.048882,0.064162,0.226457,0.332989,0.285405,0.090987,PEA,Tp
125,30,27,40,823213,49381,159846,0.123286,0.452887,0.310140,0.099107,0.014581,0.118808,0.380541,0.384570,0.097413,0.018668,PEA,Tp
126,31,30,47,719591,44783,126795,0.102293,0.420718,0.402273,0.059822,0.014894,0.098647,0.395134,0.394448,0.081549,0.030222,PEA,Tp


In [5]:
# Genera la tabla Ingresos
# La tabla Ingresos contiene los "Ingresos" o costo de oportunidad
# correspondientes a cada grupo de edad.

# Diccionario para cambio de nombre de columnas y elegir columnas de interes

cols = {'Costo de oportunidad  por mes (ENIGH)' : 'ingreso_mensual',
      'Costo de oportunidad promedio por hora' : 'ingreso_avg_hora',
      'Salario mensual para trabajadores de tiempo completo' : 'ingreso_mensual',
      'Sueldo promedio por hora' : 'ingreso_avg_hora'}

ingresos = pd.read_excel(xlsx,sheet_name=1)

# Cambia los nombres de las columnas y genera los identificadores
# conforme a los nombres de las ciudades ordenadas en orden alfabetico.

ingresos = ingresos.rename(columns=ingresos.loc[0]).loc[1:].sort_values(by='Ciudad')
ingresos = ingresos.reset_index().drop(columns='index')
ingresos.index.name = 'city_id'
ingresos = ingresos[cols.keys()]

# Por cada grupo de edad genera una nueva tabla al elegir las columnas correspondientes.
# Se crea una nueva columna, correspondiente al grupo de edad perteneciente y
# se renombran los nombres de las columnas utilizando el diccionario inicial.

ingresosPEA = ingresos[['Salario mensual para trabajadores de tiempo completo', 'Sueldo promedio por hora']].copy()
ingresosPEA['edad'] = 'PEA'
ingresosPEA = ingresosPEA.rename(columns=cols)

ingresosNoPEA = ingresos[['Costo de oportunidad  por mes (ENIGH)','Costo de oportunidad promedio por hora']].copy()
ingresosNoPEA['edad'] = 'No PEA'
ingresosNoPEA = ingresosNoPEA.rename(columns=cols)

# Concatena las tablas para tener los ingresos en una sola tabla
# indicando el grupo de edad perteneciente junto con el identificador de
# la ciudad correspondiente.

ingresos = pd.concat([ingresosPEA,ingresosNoPEA])
ingresos.index += 1
ingresos.reset_index(inplace=True)

ingresos

Unnamed: 0,city_id,ingreso_mensual,ingreso_avg_hora,edad
0,1,5092.8361,28.936569,PEA
1,2,6465.4718,36.735635,PEA
2,3,6275.4644,35.656048,PEA
3,4,7941.5352,45.122359,PEA
4,5,7907.9027,44.931265,PEA
...,...,...,...,...
59,28,1285.058864,11.682353,No PEA
60,29,1532.244474,13.929495,No PEA
61,30,1191.873475,10.835213,No PEA
62,31,1103.73474,10.033952,No PEA


In [6]:
# Genera la tabla VTCdesglose
# Esta tabla contiene los valores correspondientes a los viajes, tiempo
# y costo de cada ciudad, medio de transporte y grupo de edad correspondiente.

# Selección de columnas de interés.

cols = np.r_[0,1,10,16,38:50,51,53,56,59:64]
df = pd.read_excel(xlsx, sheet_name=0)
df = df.iloc[:,cols]

# Listas con los grupos de edad y medios de transporte.

edad = ['No PEA', 'PEA']
transporte = ['Au', 'Tp']

# Agrupa en una lista las columnas que corresponden a cada grupo de edad.

edadcols = []
PEAs = [e for e in df.columns if "PEA" in e]
edadcols.append([e for e in PEAs if "No" in e])
edadcols.append([e for e in PEAs if "No" not in e])

# Creamos una lista vacia para guardar los dataframes por cada medio
# de transporte.

framest = []

# Itera sobre las hojas de calculo de excel transformando la tabla.
# Cada tabla y hoja leida corresponde a un medio de transporte.

for j in range(2):
    df = pd.read_excel(xlsx, sheet_name=j)
    df = df.iloc[:,cols]

    # Crea una lista vacia para guardar los dataframes creados de la hoja leida,
    # cada dataframe corresponde a un grupo de edad distinto.
    frames = []
    for i in range(2):
        # Crea y guarda el dataframe seleccionando las columnas de acuerdo al grupo de edad.

        frames.append(df[['Unnamed: 1']+edadcols[i]].copy().rename(columns=df.iloc[0]).loc[1:])

        # Crea una nueva columna indicando el grupo de edad correspondiente
        frames[i]['edad'] = edad[i]

        # Genera los identificadores de ciudad usando el mismo procedimiento que los otros
        # esquemas o tablas de la base de datos.

        frames[i] = frames[i].sort_values(by='Ciudad').reset_index().drop(columns='index')
        frames[i].index.name = 'city_id'
        frames[i].index += 1
        frames[i] = frames[i].drop(columns='Ciudad')
        frames[i].reset_index(inplace=True)

    # Unimos las tablas las tablas de cada grupo de edad y creamos una nueva columna indicando
    # el medio de transporte usado.

    framest.append(pd.concat(frames,ignore_index=True))
    framest[j]['transporte'] = transporte[j]

# Unimos las tablas por medio de transporte en la tabla final.

vtcdesglose = pd.concat(framest,ignore_index=True)


rename_vtcdesglose = {
    "Viajes totales diarios realizados":"viajes_totales_diarios",
    "Tiempo promedio de traslado a escuela (mins)":"tiempo_avg_escuela",
    "Tiempo promedio de traslado a oficina (mins)":"tiempo_avg_trabajo",
    "Tiempo promedio de traslado total ponderado (mins)":"tiempo_avg_ponderado",
    "Horas totales invertidas en traslados por día":"horas_invertidas_dia",
    "Días al año con traslados sujetos a tráfico":"dias_año_trafico",
    "Horas totales invertidas en traslados por año":"horas_invertidas_año",
    "Horas (persona) totales invertidas en traslados por año exclusivamente en congestión":"horas_persona_congestion",
    "Costo Total de Congestión\n(Costo laboral promedio)":"costo_congestion_avg",
    "Horas (persona) totales invertidas en traslados\nPer Capita":"horas_persona_capita",
    "Costo Total de Congestión\nPer Capita":"costo_congestion_capita"
}
vtcdesglose.rename(columns=rename_vtcdesglose,inplace=True)

vtcdesglose = vtcdesglose.infer_objects()
vtcdesglose

Unnamed: 0,city_id,viajes_totales_diarios,tiempo_avg_escuela,tiempo_avg_trabajo,tiempo_avg_ponderado,horas_invertidas_dia,dias_año_trafico,horas_invertidas_año,horas_persona_congestion,costo_congestion_avg,horas_persona_capita,costo_congestion_capita,edad,transporte
0,1,33038.2,15.403842,26.250000,15.407256,8.483800e+03,185,1.569503e+06,4.611822e+05,2.210590e+06,36.293555,173.966311,No PEA,Au
1,2,151772.4,13.585674,21.996124,13.641433,3.450655e+04,185,6.383712e+06,9.706355e+05,1.272827e+07,16.627874,218.046826,No PEA,Au
2,3,37536.2,15.492059,50.416667,15.535603,9.719125e+03,185,1.798038e+06,1.739063e+05,2.296884e+06,12.045878,159.097076,No PEA,Au
3,4,87172.8,12.559421,30.197368,12.579411,1.827637e+04,185,3.381129e+06,5.523585e+05,9.130231e+06,16.474544,272.316614,No PEA,Au
4,5,221743.6,14.536340,41.785714,14.569888,5.384632e+04,185,9.961570e+06,1.603473e+06,1.649081e+07,18.801127,193.358888,No PEA,Au
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
123,28,513162.0,33.930218,34.570469,34.391055,2.941364e+05,254,7.471064e+07,8.722129e+06,3.099222e+08,44.191767,1570.259666,PEA,Tp
124,29,13379137.2,52.737161,46.247453,47.771065,1.065226e+07,254,2.705674e+09,8.653476e+08,3.566138e+10,168.165093,6930.162513,PEA,Tp
125,30,543990.2,36.177578,35.526022,35.679800,3.234910e+05,254,8.216672e+07,2.004483e+07,7.146593e+08,95.804203,3415.712597,PEA,Tp
126,31,446102.8,35.953710,34.719922,35.041949,2.605385e+05,254,6.617679e+07,1.614344e+07,4.737474e+08,94.088044,2761.119495,PEA,Tp


In [7]:
# Genera la tabla CTponderado
# La tabla contiene el costo y las horas per capita ponderadas respecto a la
# población de cada grupo (edad, transporte).

ctponderado = pd.read_excel(xlsx, sheet_name= 10)

# Selecciona las columnas de interés de la tabla original.

ctponderado = ctponderado[['Ciudad','Costo per cápita ponderado','Horas per cápita ponderadas']]

# Genera los identificadores de ciudad conforme al procedimiento ya mencionado antes.

ctponderado = ctponderado.sort_values(by='Ciudad').reset_index().drop(columns='index')
ctponderado.drop(columns='Ciudad',inplace=True)
ctponderado.index.name = 'city_id'
ctponderado.index += 1
ctponderado.reset_index(inplace=True)

rename_ctponderado = {
    "Costo per cápita ponderado":"costo_per_capita",
    "Horas per cápita ponderadas":"horas_per_capita"
}
ctponderado.rename(columns=rename_ctponderado,inplace=True)

ctponderado

Unnamed: 0,city_id,costo_per_capita,horas_per_capita
0,1,3114.453589,112.976272
1,2,1470.113872,42.078174
2,3,942.793447,28.339966
3,4,2412.772325,55.604399
4,5,2154.357136,50.76929
5,6,1881.106681,53.778907
6,7,900.199202,24.099788
7,8,2322.39742,75.832669
8,9,410.137503,10.409104
9,10,800.676466,24.194293


## MySQL Connection

In [8]:
user = 'root'
pw = 'RootSQL4703_'
host = 'localhost'
db = 'trafico_vehicular'

engine = create_engine(f'mysql+pymysql://{user}:{pw}@{host}/{db}')

In [9]:
ciudades.to_sql('ciudades', engine, if_exists='append', index=False)
inversion.to_sql('inversion', engine, if_exists='append', index=False)
intercensal.to_sql('intercensal', engine, if_exists='append', index=False)
ingresos.to_sql('ingresos', engine, if_exists='append', index=False)
vtcdesglose.to_sql('vtc_desglose', engine, if_exists='append', index=False)
ctponderado.to_sql('ct_ponderado', engine, if_exists='append', index=False)

32