In [1]:
# Data Processing
import os
import numpy  as np
import pandas as pd

# Set Parameters for Pandas
pd.set_option("display.max_columns", None)
pd.options.plotting.backend = "plotly"


# Functions

In [2]:
def read_csv_atus(df_path: pd.DataFrame):
    """This function load a atus csv file correctly. 

    Args:
        df_path (pd.DataFrame): File path of the atus csv.

    Returns:
        _type_: DataFrame of atus file.
    """
    df = pd.read_csv(df_path)
    aux_columns = df.columns
    df = df.iloc[: , :-1].reset_index()
    df.columns = aux_columns

    return df

# Load Data

In [3]:
# Data Path's
path_data_set = "atus_anual_1997_2020/conjunto_de_datos"
path_catalogos = "atus_anual_1997_2020/catalogos"

In [4]:
# Load ID's
tc_dia = read_csv_atus(os.path.join(path_catalogos, "tc_dia.csv"))
tc_edad = read_csv_atus(os.path.join(path_catalogos, "tc_edad.csv"))
tc_entidad = read_csv_atus(os.path.join(path_catalogos, "tc_entidad.csv"))
tc_hora = read_csv_atus(os.path.join(path_catalogos, "tc_hora.csv"))
tc_minuto = read_csv_atus(os.path.join(path_catalogos, "tc_minuto.csv"))
tc_municipio = read_csv_atus(os.path.join(path_catalogos, "tc_municipio.csv"))
tc_periodo_mes = read_csv_atus(os.path.join(path_catalogos, "tc_periodo_mes.csv"))

In [5]:
# Test with a year
#file_test = os.listdir(path_data_set)[10]
#file_test

In [13]:
# Read csv
atus = read_csv_atus(os.path.join(path_data_set, "atus_anual_2020.csv"))

# Data Transformation

In [None]:
# Dict of Catalogs
catalogos_name_dict = {"ID_DIA": tc_dia,
                       "ID_EDAD": tc_edad,
                       "ID_ENTIDAD": tc_entidad,
                       "ID_HORA": tc_hora,
                       "ID_MINUTO": tc_minuto,
                       "MES": tc_periodo_mes
                       }

In [27]:
# Left Join with tc_municipio
atus_transformed = atus.merge(tc_municipio, how = "left", on = ["ID_ENTIDAD", "ID_MUNICIPIO"])

# Left Join with the rest of tables
for id_name in list(catalogos_name_dict.keys()):
    atus_transformed = atus_transformed.merge(catalogos_name_dict[id_name], how = "left", on = id_name)

atus_transformed = atus_transformed.drop(["ID_DIA", "ID_EDAD", "ID_ENTIDAD", "ID_HORA", "ID_MINUTO", "MES", "ID_MUNICIPIO"], axis = 1)
atus_transformed

Unnamed: 0,COBERTURA,ANIO,DIASEMANA,URBANA,SUBURBANA,TIPACCID,AUTOMOVIL,CAMPASAJ,MICROBUS,PASCAMION,OMNIBUS,TRANVIA,CAMIONETA,CAMION,TRACTOR,FERROCARRI,MOTOCICLET,BICICLETA,OTROVEHIC,CAUSAACCI,CAPAROD,SEXO,ALIENTO,CINTURON,CONDMUERTO,CONDHERIDO,PASAMUERTO,PASAHERIDO,PEATMUERTO,PEATHERIDO,CICLMUERTO,CICLHERIDO,OTROMUERTO,OTROHERIDO,NEMUERTO,NEHERIDO,CLASACC,ESTATUS,NOM_MUNICIPIO,DESC_DIA,DESC_EDAD,NOM_ENTIDAD,DESC_HORA,DESC_MINUTO,DESCRIPCION_MES
0,Municipal,2020,Miercoles,Accidente en intersección,Sin accidente en esta zona,Colisión con vehículo automotor,1,1,0,0,0,0,0,0,0,0,0,0,0,Conductor,Pavimentada,Hombre,No,Se ignora,0,0,0,0,0,0,0,0,0,0,0,0,Sólo daños,Cifras Definitivas,Aguascalientes,1,39,Aguascalientes,0,0,Enero
1,Municipal,2020,Miercoles,Accidente en intersección,Sin accidente en esta zona,Colisión con objeto fijo,1,0,0,0,0,0,0,0,0,0,0,0,0,Conductor,Pavimentada,Hombre,Sí,Se ignora,0,0,0,0,0,0,0,0,0,0,0,0,Sólo daños,Cifras Definitivas,Aguascalientes,1,30,Aguascalientes,0,0,Enero
2,Municipal,2020,Miercoles,Accidente en intersección,Sin accidente en esta zona,Colisión con motocicleta,1,0,0,0,0,0,0,0,0,0,1,0,0,Conductor,Pavimentada,Hombre,No,Se ignora,0,0,0,0,0,0,0,0,0,0,0,0,Sólo daños,Cifras Definitivas,Aguascalientes,1,18,Aguascalientes,0,10,Enero
3,Municipal,2020,Miercoles,Accidente en intersección,Sin accidente en esta zona,Colisión con vehículo automotor,2,0,0,0,0,0,0,0,0,0,0,0,0,Conductor,Pavimentada,Hombre,No,Se ignora,0,0,0,0,0,0,0,0,0,0,0,0,Sólo daños,Cifras Definitivas,Aguascalientes,1,34,Aguascalientes,2,0,Enero
4,Municipal,2020,Miercoles,Accidente en intersección,Sin accidente en esta zona,Colisión con vehículo automotor,2,0,0,0,0,0,0,0,0,0,0,0,0,Conductor,Pavimentada,Se fugó,Se ignora,Se ignora,0,0,0,0,0,0,0,0,0,0,0,0,Sólo daños,Cifras Definitivas,Aguascalientes,1,Se ignora por que se fugó,Aguascalientes,2,10,Enero
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
318041,Municipal,2020,Sabado,Accidente en no intersección,Sin accidente en esta zona,Colisión con objeto fijo,1,0,0,0,0,0,0,0,0,0,0,0,0,Conductor,Pavimentada,Se fugó,Se ignora,Se ignora,0,0,0,0,0,0,0,0,0,0,0,0,Sólo daños,Cifras Definitivas,Zacatecas,26,Se ignora por que se fugó,Zacatecas,5,15,Diciembre
318042,Municipal,2020,Sabado,Accidente en no intersección,Sin accidente en esta zona,Colisión con vehículo automotor,1,1,0,0,0,0,0,0,0,0,0,0,0,Conductor,Pavimentada,Mujer,No,Se ignora,0,0,0,0,0,0,0,0,0,0,0,0,Sólo daños,Cifras Definitivas,Zacatecas,26,54,Zacatecas,10,40,Diciembre
318043,Municipal,2020,lunes,Accidente en no intersección,Sin accidente en esta zona,Volcadura,1,0,0,0,0,0,0,0,0,0,0,0,0,Conductor,Pavimentada,Hombre,No,Se ignora,0,0,0,0,0,0,0,0,0,0,0,0,Sólo daños,Cifras Definitivas,Zacatecas,28,21,Zacatecas,17,25,Diciembre
318044,Municipal,2020,lunes,Accidente en no intersección,Sin accidente en esta zona,Colisión con vehículo automotor,1,0,0,0,0,0,1,0,0,0,0,0,0,Conductor,Pavimentada,Hombre,No,Se ignora,0,0,0,0,0,0,0,0,0,0,0,0,Sólo daños,Cifras Definitivas,Zacatecas,28,49,Zacatecas,20,48,Diciembre


In [33]:
# Dict of months
month_dict = {"Enero": "01",
            "Febrero": "02",
            "Marzo": "03",
            "Abril": "04",
            "Mayo": "05",
            "Junio": "06",
            "Julio": "07",
            "Agosto": "08",
            "Septiembre": "09",
            "Octubre": "10",
            "Noviembre": "11",
            "Diciembre": "12",
            }

In [46]:
# Create day and month
day = atus_transformed["DESC_DIA"].apply(lambda x: str(x)).apply(lambda x: "0" + x if len(x) == 1 else x)
month = atus_transformed["DESCRIPCION_MES"].map(month_dict)

In [51]:
# Create FECHA column
atus_transformed["FECHA"] = pd.to_datetime(day + "-" + month + "-" + "2020", format = "%d-%m-%Y")

In [52]:
atus_transformed.head()

Unnamed: 0,COBERTURA,ANIO,DIASEMANA,URBANA,SUBURBANA,TIPACCID,AUTOMOVIL,CAMPASAJ,MICROBUS,PASCAMION,OMNIBUS,TRANVIA,CAMIONETA,CAMION,TRACTOR,FERROCARRI,MOTOCICLET,BICICLETA,OTROVEHIC,CAUSAACCI,CAPAROD,SEXO,ALIENTO,CINTURON,CONDMUERTO,CONDHERIDO,PASAMUERTO,PASAHERIDO,PEATMUERTO,PEATHERIDO,CICLMUERTO,CICLHERIDO,OTROMUERTO,OTROHERIDO,NEMUERTO,NEHERIDO,CLASACC,ESTATUS,NOM_MUNICIPIO,DESC_DIA,DESC_EDAD,NOM_ENTIDAD,DESC_HORA,DESC_MINUTO,DESCRIPCION_MES,FECHA
0,Municipal,2020,Miercoles,Accidente en intersección,Sin accidente en esta zona,Colisión con vehículo automotor,1,1,0,0,0,0,0,0,0,0,0,0,0,Conductor,Pavimentada,Hombre,No,Se ignora,0,0,0,0,0,0,0,0,0,0,0,0,Sólo daños,Cifras Definitivas,Aguascalientes,1,39,Aguascalientes,0,0,Enero,2020-01-01
1,Municipal,2020,Miercoles,Accidente en intersección,Sin accidente en esta zona,Colisión con objeto fijo,1,0,0,0,0,0,0,0,0,0,0,0,0,Conductor,Pavimentada,Hombre,Sí,Se ignora,0,0,0,0,0,0,0,0,0,0,0,0,Sólo daños,Cifras Definitivas,Aguascalientes,1,30,Aguascalientes,0,0,Enero,2020-01-01
2,Municipal,2020,Miercoles,Accidente en intersección,Sin accidente en esta zona,Colisión con motocicleta,1,0,0,0,0,0,0,0,0,0,1,0,0,Conductor,Pavimentada,Hombre,No,Se ignora,0,0,0,0,0,0,0,0,0,0,0,0,Sólo daños,Cifras Definitivas,Aguascalientes,1,18,Aguascalientes,0,10,Enero,2020-01-01
3,Municipal,2020,Miercoles,Accidente en intersección,Sin accidente en esta zona,Colisión con vehículo automotor,2,0,0,0,0,0,0,0,0,0,0,0,0,Conductor,Pavimentada,Hombre,No,Se ignora,0,0,0,0,0,0,0,0,0,0,0,0,Sólo daños,Cifras Definitivas,Aguascalientes,1,34,Aguascalientes,2,0,Enero,2020-01-01
4,Municipal,2020,Miercoles,Accidente en intersección,Sin accidente en esta zona,Colisión con vehículo automotor,2,0,0,0,0,0,0,0,0,0,0,0,0,Conductor,Pavimentada,Se fugó,Se ignora,Se ignora,0,0,0,0,0,0,0,0,0,0,0,0,Sólo daños,Cifras Definitivas,Aguascalientes,1,Se ignora por que se fugó,Aguascalientes,2,10,Enero,2020-01-01


# Exploratory Data Analysis

In [14]:
# Bar Plot
items, counts = np.unique(atus["TIPACCID"], return_counts = True) 
pd.DataFrame({"TIPACCID": items, "Counts": counts}).plot.bar(x = "TIPACCID", y = "Counts")

In [None]:
# Left Join with the rest of tables