# Transformando Datos en Entendimiento: Una Odisea para la Seguridad Vial en Buenos Aires
En el dramático escenario de la realidad argentina, donde anualmente se pierden cerca de 4.000 vidas en trágicos sucesos viales, nos encontramos frente a una misión de suma importancia: convertir datos en conocimiento, desvelar los mensajes implícitos y, sobre todo, contribuir a la reducción de tragedias en las carreteras.

Nos embarcamos en un proceso vital de ETL (Extract, Load, Transform), donde exploraremos dos archivos en formato Excel que guardan testimonio silencioso de eventos trágicos: 'homicidios.xlsx' y 'lesiones.xlsx'. Cada hoja de trabajo, ya sea en homicidios (incidentes y víctimas) o en lesiones (incidentes y víctimas), contiene narrativas que claman por ser descifradas.

Este notebook no es simplemente un conjunto de códigos; es una odisea de descubrimiento, un esfuerzo meticuloso para desentrañar los secretos que se ocultan en los datos en bruto. Nos sumergimos en cada fila, exploramos cada columna y extraemos la esencia que se encuentra en cada celda. La transformación de información cruda en conocimiento actúa como nuestra brújula, guiándonos hacia la comprensión y, lo que es más crucial aún, hacia la acción para mitigar las pérdidas humanas en las carreteras de la Ciudad de Buenos Aires.

En este viaje, no solo buscamos comprender los números y las estadísticas, sino también honrar las vidas perdidas y las historias detrás de cada punto de datos. Nos comprometemos a profundizar más allá de las superficies frías de las cifras para captar la verdadera magnitud del impacto humano de estos incidentes viales.

Nuestra tarea va más allá de la mera análisis de datos; es un llamado a la acción, una invitación a la reflexión y al cambio. Al enfrentarnos a la cruda realidad de las cifras, nos comprometemos a ser agentes de transformación, utilizando la información que reunimos para impulsar medidas concretas que promuevan la seguridad vial y salven vidas en las carreteras de Buenos Aires.

## 1. Importar Librearias

In [1]:
import pandas as pd
import numpy as np

## 2. Cargar datos

In [3]:
# Funcion para cargar el archivo excel
def cargar_archivo(archivo, hojas, engine='openpyxl'):
    try:
        xls_file = pd.ExcelFile(archivo, engine=engine)
        dfs = {}

        for hoja in hojas:
            df = pd.read_excel(xls_file, hoja)
            dfs[hoja] = df
        return dfs 

    except Exception as e:
        print(f"Error al cargar el archivo Excel: {e}")
        return None   

In [5]:
datos_homicidios = cargar_archivo("C:\\Users\\Gary Alexander Bean\\Desktop\\Proyecto-Individual-2-DA\\Datasets\\homicidios.xlsx", ['HECHOS', 'VICTIMAS'])
datos_lesiones = cargar_archivo("C:\\Users\\Gary Alexander Bean\\Desktop\\Proyecto-Individual-2-DA\\Datasets\\lesiones.xlsx", ['HECHOS', 'VICTIMAS'])


# 3. Explorar y limpiar datos

## 3.1 Dataset: Homicidios - Hechos

In [6]:
# Acceder al DataFrame por nombre de hoja, Homicidios - Hechos
h_hechos_df = datos_homicidios['HECHOS']

# Visualiza las primeras filas del DataFrame
print("Original DataFrame: ")
h_hechos_df.head()

Original DataFrame: 


Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,DD,HORA,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,...,Altura,Cruce,Dirección Normalizada,COMUNA,XY (CABA),pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO
0,2016-0001,1,2016-01-01,2016,1,1,04:00:00,4,AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ,AVENIDA,...,,"FERNANDEZ DE LA CRUZ, F., GRAL. AV.","PIEDRA BUENA AV. y FERNANDEZ DE LA CRUZ, F., G...",8,Point (98896.78238426 93532.43437792),-58.47533969,-34.68757022,MOTO-AUTO,MOTO,AUTO
1,2016-0002,1,2016-01-02,2016,1,2,01:15:00,1,AV GRAL PAZ Y AV DE LOS CORRALES,GRAL PAZ,...,,DE LOS CORRALES AV.,"PAZ, GRAL. AV. y DE LOS CORRALES AV.",9,Point (95832.05571093 95505.41641999),-58.50877521,-34.66977709,AUTO-PASAJEROS,AUTO,PASAJEROS
2,2016-0003,1,2016-01-03,2016,1,3,07:00:00,7,AV ENTRE RIOS 2034,AVENIDA,...,2034.0,,ENTRE RIOS AV. 2034,1,Point (106684.29090040 99706.57687843),-58.39040293,-34.63189362,MOTO-AUTO,MOTO,AUTO
3,2016-0004,1,2016-01-10,2016,1,10,00:00:00,0,AV LARRAZABAL Y GRAL VILLEGAS CONRADO,AVENIDA,...,,"VILLEGAS, CONRADO, GRAL.","LARRAZABAL AV. y VILLEGAS, CONRADO, GRAL.",8,Point (99840.65224780 94269.16534422),-58.46503904,-34.68092974,MOTO-SD,MOTO,SD
4,2016-0005,1,2016-01-21,2016,1,21,05:20:00,5,AV SAN JUAN Y PRESIDENTE LUIS SAENZ PEÑA,AVENIDA,...,,"SAENZ PE?A, LUIS, PRES.","SAN JUAN AV. y SAENZ PEÃ‘A, LUIS, PRES.",1,Point (106980.32827929 100752.16915795),-58.38718297,-34.6224663,MOTO-PASAJEROS,MOTO,PASAJEROS


In [7]:
# Obtener informacion general del dataframe 
h_hechos_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 696 entries, 0 to 695
Data columns (total 21 columns):
 #   Column                 Non-Null Count  Dtype         
---  ------                 --------------  -----         
 0   ID                     696 non-null    object        
 1   N_VICTIMAS             696 non-null    int64         
 2   FECHA                  696 non-null    datetime64[ns]
 3   AAAA                   696 non-null    int64         
 4   MM                     696 non-null    int64         
 5   DD                     696 non-null    int64         
 6   HORA                   696 non-null    object        
 7   HH                     696 non-null    object        
 8   LUGAR_DEL_HECHO        696 non-null    object        
 9   TIPO_DE_CALLE          696 non-null    object        
 10  Calle                  695 non-null    object        
 11  Altura                 129 non-null    float64       
 12  Cruce                  525 non-null    object        
 13  Direc

In [8]:
# Esta funcion analiza la presencia de valores 'SD' en cada columna del DataFrame

def analizar_valoresSD(dataframe):
    columnas_con_sd = dataframe.columns
    resultados = []

    for columna in columnas_con_sd:
        cantidad_sd = dataframe[columna].eq('SD').sum()
        porcentaje_sd = (cantidad_sd / len(dataframe)) * 100
        resultados.append({'Columna': columna, 'Cantidad de SD': cantidad_sd, 'Porcentaje de SD': porcentaje_sd})

    resultados_df = pd.DataFrame(resultados)
    resultados_con_sd = resultados_df[resultados_df['Cantidad de SD'] > 0]

    return resultados_con_sd    


In [9]:
resultados_h_hechos = analizar_valoresSD(h_hechos_df)
resultados_h_hechos

Unnamed: 0,Columna,Cantidad de SD,Porcentaje de SD
6,HORA,1,0.143678
7,HH,1,0.143678
8,LUGAR_DEL_HECHO,1,0.143678
19,VICTIMA,9,1.293103
20,ACUSADO,23,3.304598


In [10]:
# Reemplazar 'SD' por NaN en todo el DataFrame
h_hechos_df.replace(['SD', 'sd'], np.nan, inplace=True)

In [11]:
# Iniciamos la preparación de los diccionarios y listas que alimentaran la función 'data_cleaning' 
# Columnas para pasar a minúcula

columns_to_lower = ['TIPO_DE_CALLE', 'VICTIMA', 'ACUSADO']

In [12]:
# Columnas para eliminar

columns_to_drop = ['AAAA', 'MM', 'DD', 'HORA', 'LUGAR_DEL_HECHO','Calle','Altura',
                   'Cruce','Dirección Normalizada','XY (CABA)','PARTICIPANTES']

Decidi simplificar el conjunto de datos eliminando las columnas 'AAAA', 'MM', 'DD' y 'HORA', ya que la información de fecha y hora está contenida en la columna 'FECHA' y 'HH'. Esto ayuda a mantener una estructura más consistente y ahorra espacio.

Además, elimine las columnas relacionadas con la dirección del incidente ('LUGAR_DEL_HECHO', 'Calle', 'Altura', 'Cruce', 'Dirección Normalizada', y 'XY (CABA)'), optando por trabajar con las columnas de latitud y longitud por su mayor intuición y facilidad de representación en mapas.

La columna 'PARTICIPANTES' fue eliminada debido a la redundancia de la información con las columnas 'VICTIMA' y 'ACUSADO', las cuales fueron conservadas.

In [13]:
# Renombrar columnas

rename_dict = {'ID': 'id_siniestro', 'N_VICTIMAS': 'nro_victimas', 'FECHA': 'fecha', 'HH': 'franja_hora',
               'TIPO_DE_CALLE': 'tipo_calle', 'COMUNA': 'comuna', 'pos x': 'longitud', 'pos y': 'latitud',
               'VICTIMA': 'vehiculo_victima', 'ACUSADO': 'vehiculo_acusado'}

In [14]:
# Convertir a entero
columns_to_int = [ 'nro_victimas', 'franja_hora', 'comuna']

# Categorización de columnas
columns_to_categorize = ['franja_hora', 'tipo_calle', 'comuna', 'vehiculo_victima', 'vehiculo_acusado']

Transformar columnas con un conjunto limitado de valores en categorías puede simplificar el análisis exploratorio de datos y mejorar la comprensión de las distribuciones de esos valores.

In [15]:
def data_cleaning(df, drop_duplicates=False, drop_na=False, fill_na=None, convert_to_datetime=None, uppercase_columns=None,
                  lowercase_columns=None, titlecase_columns=None, strip_spaces=True, rename_columns=None, drop_columns=None,
                  categorize_columns=None, replace_values=None, new_columns=None, convert_date_columns=None, 
                  convert_to_int_columns=None, convert_to_float=None, new_columns2=None):
    
    cleaned_df = df.copy()

    # Eliminar duplicados
    if drop_duplicates:
        cleaned_df.drop_duplicates(inplace=True)
        

    # Eliminar filas con valores nulos
    if drop_na:
        cleaned_df.dropna(inplace=True)
        

    # Rellenar valores nulos
    if fill_na:
        cleaned_df.fillna(fill_na, inplace=True)

        
    # Convertir columnas a tipo datetime
    if convert_to_datetime:
        for column in convert_to_datetime:
            cleaned_df[column] = pd.to_datetime(cleaned_df[column], errors='coerce')
            

    # Convertir columnas a mayúsculas
    if uppercase_columns:
        for column in uppercase_columns:
            cleaned_df[column] = cleaned_df[column].str.upper()
            

    # Convertir columnas a minúsculas
    if lowercase_columns:
        for column in lowercase_columns:
            cleaned_df[column] = cleaned_df[column].str.lower()
        

    # Convertir columnas a formato de título
    if titlecase_columns:
        for column in titlecase_columns:
            cleaned_df[column] = cleaned_df[column].str.title()
            
            
    # Tratar columnas con espacios
    if strip_spaces:
        cleaned_df = cleaned_df.applymap(lambda x: x.strip() if isinstance(x, str) else x)
        

    # Renombrar columnas
    if rename_columns:
        cleaned_df.rename(columns=rename_columns, inplace=True)
        
    
    # Eliminar columnas
    if drop_columns:
        cleaned_df.drop(columns=drop_columns, inplace=True)
        
        
    # Categorizar columnas
    if categorize_columns:
        for column in categorize_columns:
            if column in cleaned_df.columns:
                cleaned_df[column] = cleaned_df[column].astype('category')
            else:
                print(f"La columna '{column}' no existe en el DataFrame.")
                

    # Reemplazar valores en columnas
    if replace_values:
        for column, replacements in replace_values.items():
            cleaned_df[column].replace(replacements, inplace=True)
            
    # Agregar nuevas columnas
    if new_columns:
        for column, value in new_columns.items():
            cleaned_df[column] = value
            
    # Agregar nuevas columnas basadas en otras columnas
    if new_columns2:
        for new_column, column_expr in new_columns2.items():
            # Verificar si la expresión es proporcionada
            if column_expr:
                cleaned_df[new_column] = cleaned_df.eval(column_expr)
            else:
                cleaned_df[new_column] = None  # O cualquier valor predeterminado que prefieras
                  
    # Convertir columnas de fecha con formato específico
    if convert_date_columns:
        for column, date_format in convert_date_columns.items():
            cleaned_df[column] = pd.to_datetime(cleaned_df[column], format=date_format, errors='coerce')

    
    # Convertir columnas a tipo de dato entero
    if convert_to_int_columns:
        for column in convert_to_int_columns:
            cleaned_df[column] = pd.to_numeric(cleaned_df[column], errors='coerce').astype('Int64')
    
    
    # Convertir columnas a tipo float
    if convert_to_float:
        for column in convert_to_float:
            cleaned_df[column] = cleaned_df[column].astype(float)
        
            
    return cleaned_df

In [16]:
# Invocamos la función 'data_cleaning' para que haga el proceso de limpieza de los datos 
h_hechos_dfcleaned = data_cleaning(h_hechos_df,
                                    strip_spaces=True, # Eliminar espacios en blanco
                                    lowercase_columns=columns_to_lower, # Convertir a minúsculas                                    
                                    drop_columns=columns_to_drop,  # Eliminar columnas
                                    rename_columns=rename_dict,  # Renombrar columnas
                                    convert_to_int_columns=columns_to_int, #Conversión entero
                                    categorize_columns=columns_to_categorize # Categorizar columnas
)

  cleaned_df = cleaned_df.applymap(lambda x: x.strip() if isinstance(x, str) else x)


In [17]:
# Reemplazar valores

# Definir los registros que deseas reemplazar
registros_a_reemplazar = [
    {'id_siniestro': '2016-0174', 'comuna': 7, 'longitud': -58.369529920, 'latitud': -34.622472560}, # Comunas 0 
    {'id_siniestro': '2016-0151', 'comuna': 10, 'longitud': -58.52756365, 'latitud': -34.62772274}, # Comunas 0 
    {'id_siniestro': '2018-0039', 'comuna': 14, 'longitud': -58.457579360, 'latitud': -34.538957930}, #sin longitud/latitud
    {'id_siniestro': '2020-0026', 'comuna': 14, 'longitud': -58.457579360, 'latitud': -34.538957930}, #sin longitud/latitud  
    {'id_siniestro': '2017-0042', 'comuna': 14, 'longitud': -58.457579360, 'latitud': -34.538957930}, #sin longitud/latitud  
    {'id_siniestro': '2017-0050', 'comuna': 9, 'longitud': -58.481800300, 'latitud': -34.647005340}, #sin longitud/latitud
    {'id_siniestro': '2017-0051', 'comuna': 7, 'longitud': -58.479447760, 'latitud': -34.678121010}, #sin longitud/latitud      
    {'id_siniestro': '2017-0140', 'comuna': 4, 'longitud': -58.380781350, 'latitud': -34.622364700}, #sin longitud/latitud
    {'id_siniestro': '2020-0039', 'comuna': 9, 'longitud': -58.483096200, 'latitud': -34.671405150}, #sin longitud/latitud   
    {'id_siniestro': '2021-0023', 'comuna': 4, 'longitud': -58.364905600, 'latitud': -34.622974220}, #sin longitud/latitud  
    {'id_siniestro': '2016-0052', 'comuna': 13, 'longitud': -58.457579360, 'latitud': -34.538957930}, #sin longitud/latitud   
    {'id_siniestro': '2016-0136', 'comuna': 4, 'longitud': -58.363401550, 'latitud': -34.624371200}, #sin longitud/latitud  
] 

# Iterar sobre los registros y realizar el reemplazo
for registro in registros_a_reemplazar:
    id_siniestro = registro['id_siniestro']
    comuna = registro['comuna']
    longitud = registro['longitud']
    latitud = registro['latitud']

    # Utilizar loc para reemplazar los valores específicos
    h_hechos_dfcleaned.loc[h_hechos_dfcleaned['id_siniestro'] == id_siniestro, 'comuna'] = comuna
    h_hechos_dfcleaned.loc[h_hechos_dfcleaned['id_siniestro'] == id_siniestro, 'longitud'] = longitud
    h_hechos_dfcleaned.loc[h_hechos_dfcleaned['id_siniestro'] == id_siniestro, 'latitud'] = latitud

print("\nCleaned DataFrame:")
h_hechos_dfcleaned.head()


Cleaned DataFrame:


Unnamed: 0,id_siniestro,nro_victimas,fecha,franja_hora,tipo_calle,comuna,longitud,latitud,vehiculo_victima,vehiculo_acusado
0,2016-0001,1,2016-01-01,4,avenida,8,-58.47533969,-34.68757022,moto,auto
1,2016-0002,1,2016-01-02,1,gral paz,9,-58.50877521,-34.66977709,auto,pasajeros
2,2016-0003,1,2016-01-03,7,avenida,1,-58.39040293,-34.63189362,moto,auto
3,2016-0004,1,2016-01-10,0,avenida,8,-58.46503904,-34.68092974,moto,
4,2016-0005,1,2016-01-21,5,avenida,1,-58.38718297,-34.6224663,moto,pasajeros


## 3.2 Dataset: Homicidios -Victimas

In [19]:
# Acceder al DataFrame por nombre de hoja, Homicidios - Víctimas
h_victimas_df = datos_homicidios['VICTIMAS']

# Visualiza las primeras filas del Dataframe
print("Original DataFrame:")
h_victimas_df.head()

Original DataFrame:


Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO
0,2016-0001,2016-01-01,2016,1,1,CONDUCTOR,MOTO,MASCULINO,19,2016-01-01 00:00:00
1,2016-0002,2016-01-02,2016,1,2,CONDUCTOR,AUTO,MASCULINO,70,2016-01-02 00:00:00
2,2016-0003,2016-01-03,2016,1,3,CONDUCTOR,MOTO,MASCULINO,30,2016-01-03 00:00:00
3,2016-0004,2016-01-10,2016,1,10,CONDUCTOR,MOTO,MASCULINO,18,SD
4,2016-0005,2016-01-21,2016,1,21,CONDUCTOR,MOTO,MASCULINO,29,2016-02-01 00:00:00


In [20]:
# Obtener información general del DataFrame
h_victimas_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 717 entries, 0 to 716
Data columns (total 10 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   ID_hecho             717 non-null    object        
 1   FECHA                717 non-null    datetime64[ns]
 2   AAAA                 717 non-null    int64         
 3   MM                   717 non-null    int64         
 4   DD                   717 non-null    int64         
 5   ROL                  717 non-null    object        
 6   VICTIMA              717 non-null    object        
 7   SEXO                 717 non-null    object        
 8   EDAD                 717 non-null    object        
 9   FECHA_FALLECIMIENTO  717 non-null    object        
dtypes: datetime64[ns](1), int64(3), object(6)
memory usage: 56.1+ KB


In [22]:
# Invoca la función 'analizar_valoresSD'
resultados_h_victimas = analizar_valoresSD(h_victimas_df)
resultados_h_victimas

Unnamed: 0,Columna,Cantidad de SD,Porcentaje de SD
5,ROL,11,1.53417
6,VICTIMA,9,1.25523
7,SEXO,6,0.83682
8,EDAD,53,7.391911
9,FECHA_FALLECIMIENTO,68,9.483961


In [23]:
# Reemplazar 'SD' por NaN en todo el DataFrame
h_victimas_df.replace(['SD','sd'], np.nan, inplace=True)

# Iniciamos la preparación de los diccionarios y listas que alimentaran la función 'data_cleaning' 
# Columnas para pasar a minúcula
columns_to_lower = ['SEXO','ROL']

# Columnas para eliminar
columns_to_drop = ['FECHA','AAAA', 'MM', 'DD', 'FECHA_FALLECIMIENTO', 'VICTIMA']

In [24]:
# Renombrar columnas
rename_dict = {'ID_hecho': 'id_siniestro', 'SEXO': 'sexo',
               'EDAD': 'edad', 'ROL': 'rol'}


# Convertir a entero
columns_to_int = ['edad']

# Columnas para ser agregadas
new_columns_dict = {'gravedad': 'fatal'}

# Invocamos la función 'data_cleaning' para que haga el proceso de limpieza de los datos 
h_victimas_dfcleaned = data_cleaning(h_victimas_df,
                                    strip_spaces=True, # Eliminar espacios en blanco
                                    lowercase_columns=columns_to_lower, # Convertir a minúsculas                                    
                                    drop_columns=columns_to_drop,  # Eliminar columnas
                                    rename_columns=rename_dict,  # Renombrar columnas 
                                    convert_to_int_columns=columns_to_int, #Conversión entero
                                    new_columns=new_columns_dict, # Agregar columnas
                                    )

# Categorización de columnas
columns_to_categorize = ['sexo','edad','gravedad','rol']
h_victimas_dfcleaned = data_cleaning(h_victimas_dfcleaned, categorize_columns=columns_to_categorize) 

  cleaned_df = cleaned_df.applymap(lambda x: x.strip() if isinstance(x, str) else x)
  cleaned_df = cleaned_df.applymap(lambda x: x.strip() if isinstance(x, str) else x)


In [25]:
print("\nCleaned DataFrame:")
h_victimas_dfcleaned.head()


Cleaned DataFrame:


Unnamed: 0,id_siniestro,rol,sexo,edad,gravedad
0,2016-0001,conductor,masculino,19,fatal
1,2016-0002,conductor,masculino,70,fatal
2,2016-0003,conductor,masculino,30,fatal
3,2016-0004,conductor,masculino,18,fatal
4,2016-0005,conductor,masculino,29,fatal


## 3.3 Dataset: Lesiones - Hechos

In [26]:
# Acceder al DataFrame por nombre de hoja, Lesiones - Hechos
l_hechos_df = datos_lesiones['HECHOS']

# Visualiza las primeras filas del Dataframe
print("Original DataFrame:")
l_hechos_df.head()

Original DataFrame:


Unnamed: 0,id,n_victimas,aaaa,mm,dd,fecha,hora,franja_hora,direccion_normalizada,comuna,...,latutid,victima,acusado,participantes,moto,auto,transporte_publico,camion,ciclista,gravedad
0,LC-2019-0000179,1,2019,1,1,2019-01-01 00:00:00,09:00:00,9,SD,14,...,-34.559658,CICLISTA,SD,CICLISTA-SD,SD,SD,SD,SD,x,SD
1,LC-2019-0000053,1,2019,1,1,2019-01-01 00:00:00,01:55:00,1,SD,8,...,-34.669125,AUTO,SD,AUTO-SD,SD,x,SD,SD,SD,SD
2,LC-2019-0000063,1,2019,1,1,2019-01-01 00:00:00,02:00:00,2,SD,8,...,-34.677556,SD,SD,SD-SD,SD,SD,SD,SD,SD,SD
3,LC-2019-0000079,1,2019,1,1,2019-01-01 00:00:00,02:30:00,2,SD,7,...,-34.647349,PEATON,SD,PEATON-SD,x,SD,SD,SD,SD,SD
4,LC-2019-0000082,4,2019,1,1,2019-01-01 00:00:00,04:30:00,4,SD,3,...,-34.604579,AUTO,SD,AUTO-SD,SD,SD,x,SD,SD,SD


In [27]:
# Obtener información general del DataFrame
l_hechos_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23785 entries, 0 to 23784
Data columns (total 27 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   id                     23785 non-null  object 
 1   n_victimas             23785 non-null  int64  
 2   aaaa                   23785 non-null  int64  
 3   mm                     23785 non-null  int64  
 4   dd                     23785 non-null  int64  
 5   fecha                  23785 non-null  object 
 6   hora                   23785 non-null  object 
 7   franja_hora            23780 non-null  object 
 8   direccion_normalizada  23732 non-null  object 
 9   comuna                 23616 non-null  object 
 10  tipo_calle             23785 non-null  object 
 11  otra_direccion         23785 non-null  object 
 12  calle                  12867 non-null  object 
 13  altura                 12771 non-null  float64
 14  cruce                  9407 non-null   object 
 15  ge

In [28]:
# Invoca la función 'analizar_valores_sd'
resultados_l_hechos = analizar_valoresSD(l_hechos_df)
resultados_l_hechos

Unnamed: 0,Columna,Cantidad de SD,Porcentaje de SD
6,hora,4,0.016817
8,direccion_normalizada,10815,45.469834
9,comuna,846,3.556864
10,tipo_calle,11045,46.43683
11,otra_direccion,18295,76.918226
15,geocodificacion_CABA,1213,5.099853
16,longitud,1209,5.083036
17,latutid,1209,5.083036
18,victima,10733,45.125079
19,acusado,15288,64.275804


In [29]:
# Reemplazar 'SD' por NaN en todo el DataFrame
l_hechos_df.replace(['SD','sd'], np.nan, inplace=True)

# Iniciamos la preparación de los diccionarios y listas que alimentaran la función 'data_cleaning' 
# Columnas para pasar a minúcula
columns_to_lower = ['tipo_calle', 'victima', 'acusado', 'gravedad']

# Columnas para eliminar
columns_to_drop = ['aaaa','mm', 'dd', 'hora', 'direccion_normalizada', 'otra_direccion', 'calle', 'altura', 'cruce',
                   'participantes', 'geocodificacion_CABA', 'moto', 'auto', 'transporte_publico', 'camion', 'ciclista']

# Reemplazar valores nulos por otros valores
fill_na_dict = {'gravedad': 'leve'}

# Renombrar columnas
rename_dict = {'id': 'id_siniestro', 'n_victimas': 'nro_victimas',
               'latutid': 'latitud', 'victima': 'vehiculo_victima', 'acusado': 'vehiculo_acusado'}

# Confirmo la existencia de valor igual a 0 en nro_victimas
registros_nro_victimas_0 = l_hechos_df[l_hechos_df['n_victimas'] == 0]
registros_nro_victimas_0

Unnamed: 0,id,n_victimas,aaaa,mm,dd,fecha,hora,franja_hora,direccion_normalizada,comuna,...,latutid,victima,acusado,participantes,moto,auto,transporte_publico,camion,ciclista,gravedad
9928,PNA-2019-0005246,0,2019,12,20,2019-12-20 00:00:00,,,27 DE FEBRERO AV. 6300,,...,,,,SD-SD,,,,,,


En el registro correspondiente al incidente, no se encuentran detalles significativos en el conjunto de datos resultante, ya que la mayoría de las columnas tienen valores NaN. No obstante, al revisar el archivo 'lesiones.xlsx' en la hoja de víctimas (que será analizada más adelante), se descubre que se trata de una mujer de 33 años. Por lo tanto, procedo a reemplazar el valor NaN por 1 para indicar la presencia de una víctima en este incidente.

In [30]:
# Reemplazar valores en columnas
values_to_replace = {'comuna': {'No Especificada': np.nan},
                     'nro_victimas': {0: 1}
                    }

# Convertir a flotante
columns_to_float = [ 'latitud', 'longitud']

# Convertir a entero
columns_to_int = [ 'nro_victimas', 'franja_hora', 'comuna']

# Categorización de columnas
columns_to_categorize = ['franja_hora', 'tipo_calle', 'comuna', 'vehiculo_victima', 'vehiculo_acusado', 'gravedad']

In [31]:
# Invocamos la función 'data_cleaning' para que haga el proceso de limpieza de los datos 
l_hechos_dfcleaned = data_cleaning(l_hechos_df,
                                    strip_spaces=True, # Eliminar espacios en blanco
                                    lowercase_columns=columns_to_lower, # Convertir a minúsculas                                    
                                    drop_columns=columns_to_drop,  # Eliminar columnas
                                    fill_na=fill_na_dict, # Rellenar nulos
                                    rename_columns=rename_dict,  # Renombrar columnas                            
                                    replace_values=values_to_replace, # Reemplazar valores                                   
                                    convert_to_float=columns_to_float, # Convertir a float
                                    convert_to_int_columns=columns_to_int, #Conversión entero
                                    categorize_columns=columns_to_categorize # Categorizar columnas
                                   )

print("\nCleaned DataFrame:")
l_hechos_dfcleaned.head()

  cleaned_df = cleaned_df.applymap(lambda x: x.strip() if isinstance(x, str) else x)



Cleaned DataFrame:


Unnamed: 0,id_siniestro,nro_victimas,fecha,franja_hora,comuna,tipo_calle,longitud,latitud,vehiculo_victima,vehiculo_acusado,gravedad
0,LC-2019-0000179,1,2019-01-01 00:00:00,9,14,,-58.408911,-34.559658,ciclista,,leve
1,LC-2019-0000053,1,2019-01-01 00:00:00,1,8,,-58.44351,-34.669125,auto,,leve
2,LC-2019-0000063,1,2019-01-01 00:00:00,2,8,,-58.468335,-34.677556,,,leve
3,LC-2019-0000079,1,2019-01-01 00:00:00,2,7,,-58.437425,-34.647349,peaton,,leve
4,LC-2019-0000082,4,2019-01-01 00:00:00,4,3,,-58.398225,-34.604579,auto,,leve


## Dataset: Lesiones - Victimas

In [32]:
# Acceder al DataFrame por nombre de hoja, Lesiones - Víctimas
l_victimas_df = datos_lesiones['VICTIMAS']

# Visualiza las primeras filas del Dataframe
print("Original DataFrame:")
l_victimas_df.head()

Original DataFrame:


Unnamed: 0,ID hecho,AAA,MM,DD,FECHA,VEHICULO_VICTIMA,SEXO,EDAD_VICTIMA,GRAVEDAD
0,LC-2019-0000053,2019,1,1,2019-01-01,sd,Varon,57,SD
1,LC-2019-0000063,2019,1,1,2019-01-01,sd,SD,SD,SD
2,LC-2019-0000079,2019,1,1,2019-01-01,sd,Varon,SD,SD
3,LC-2019-0000082,2019,1,1,2019-01-01,sd,Varon,45,SD
4,LC-2019-0000082,2019,1,1,2019-01-01,sd,Mujer,45,SD


In [33]:
# Obtener información general del DataFrame
l_victimas_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27605 entries, 0 to 27604
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   ID hecho          27605 non-null  object        
 1   AAA               27605 non-null  int64         
 2   MM                27605 non-null  int64         
 3   DD                27605 non-null  int64         
 4   FECHA             27605 non-null  datetime64[ns]
 5   VEHICULO_VICTIMA  27605 non-null  object        
 6   SEXO              27605 non-null  object        
 7   EDAD_VICTIMA      27605 non-null  object        
 8   GRAVEDAD          27605 non-null  object        
dtypes: datetime64[ns](1), int64(3), object(5)
memory usage: 1.9+ MB


In [34]:
# Invoca la función 'analizar_valoresSD'
resultados_l_victimas = analizar_valoresSD(l_victimas_df)
resultados_l_victimas

Unnamed: 0,Columna,Cantidad de SD,Porcentaje de SD
5,VEHICULO_VICTIMA,4479,16.225321
6,SEXO,1929,6.987865
7,EDAD_VICTIMA,3990,14.453903
8,GRAVEDAD,20722,75.066111


In [36]:
# Reemplazar 'SD' por NaN en todo el DataFrame
l_victimas_df.replace(['SD','sd'], np.nan, inplace=True)

# Iniciamos la preparación de los diccionarios y listas que alimentaran la función 'data_cleaning' 
# Columnas para pasar a minúcula
columns_to_lower = ['SEXO']

# Columnas para eliminar
columns_to_drop = ['FECHA ','AAA', 'MM', 'DD','VEHICULO_VICTIMA','GRAVEDAD']

# Renombrar columnas
rename_dict = {'ID hecho': 'id_siniestro', 'SEXO': 'sexo', 'EDAD_VICTIMA': 'edad'}

# Reemplazar valores en columnas
values_to_replace = {'sexo': {'varon': 'masculino', 'mujer': 'femenino'}}

# Categorización de columnas
columns_to_categorize = ['sexo','edad']

In [37]:
# Columnas para ser agregadas
new_columns_dict = {'rol': ''}

# Invocamos la función 'data_cleaning' para que haga el proceso de limpieza de los datos 
l_victimas_dfcleaned = data_cleaning(l_victimas_df,
                                    strip_spaces=True, # Eliminar espacios en blanco
                                    lowercase_columns=columns_to_lower, # Convertir a minúsculas                                    
                                    drop_columns=columns_to_drop,  # Eliminar columnas
                                    rename_columns=rename_dict,  # Renombrar columnas 
                                    replace_values=values_to_replace, # Reemplazar valores
                                    categorize_columns=columns_to_categorize, # Categorizar columnas
                                    new_columns=new_columns_dict, # Agregar columnas
                                    )

print("\nCleaned DataFrame:")
l_victimas_dfcleaned.head()

  cleaned_df = cleaned_df.applymap(lambda x: x.strip() if isinstance(x, str) else x)



Cleaned DataFrame:


Unnamed: 0,id_siniestro,sexo,edad,rol
0,LC-2019-0000053,masculino,57.0,
1,LC-2019-0000063,,,
2,LC-2019-0000079,masculino,,
3,LC-2019-0000082,masculino,45.0,
4,LC-2019-0000082,femenino,45.0,


## 4. Combinar Datos

In [38]:
# Fusionar DataFrames

merged_df1 = pd.merge(h_hechos_dfcleaned, h_victimas_dfcleaned, left_on='id_siniestro', right_on='id_siniestro', how='inner')
merged_df2 = pd.merge(l_hechos_dfcleaned, l_victimas_dfcleaned, left_on='id_siniestro', right_on='id_siniestro', how='inner')
# Reorganizar columnas merged_df2

reorden = ['id_siniestro', 'nro_victimas', 'fecha', 'franja_hora', 'tipo_calle', 'comuna', 'longitud', 'latitud', 
           'vehiculo_victima', 'vehiculo_acusado', 'rol', 'sexo', 'edad', 'gravedad']

merged_df2 = merged_df2[reorden]
merged_df1.head()

Unnamed: 0,id_siniestro,nro_victimas,fecha,franja_hora,tipo_calle,comuna,longitud,latitud,vehiculo_victima,vehiculo_acusado,rol,sexo,edad,gravedad
0,2016-0001,1,2016-01-01,4,avenida,8,-58.47533969,-34.68757022,moto,auto,conductor,masculino,19,fatal
1,2016-0002,1,2016-01-02,1,gral paz,9,-58.50877521,-34.66977709,auto,pasajeros,conductor,masculino,70,fatal
2,2016-0003,1,2016-01-03,7,avenida,1,-58.39040293,-34.63189362,moto,auto,conductor,masculino,30,fatal
3,2016-0004,1,2016-01-10,0,avenida,8,-58.46503904,-34.68092974,moto,,conductor,masculino,18,fatal
4,2016-0005,1,2016-01-21,5,avenida,1,-58.38718297,-34.6224663,moto,pasajeros,conductor,masculino,29,fatal


In [39]:
merged_df2.head()

Unnamed: 0,id_siniestro,nro_victimas,fecha,franja_hora,tipo_calle,comuna,longitud,latitud,vehiculo_victima,vehiculo_acusado,rol,sexo,edad,gravedad
0,LC-2019-0000179,1,2019-01-01 00:00:00,9,,14,-58.408911,-34.559658,ciclista,,,,,leve
1,LC-2019-0000053,1,2019-01-01 00:00:00,1,,8,-58.44351,-34.669125,auto,,,masculino,57.0,leve
2,LC-2019-0000063,1,2019-01-01 00:00:00,2,,8,-58.468335,-34.677556,,,,,,leve
3,LC-2019-0000079,1,2019-01-01 00:00:00,2,,7,-58.437425,-34.647349,peaton,,,masculino,,leve
4,LC-2019-0000082,4,2019-01-01 00:00:00,4,,3,-58.398225,-34.604579,auto,,,masculino,45.0,leve


## 5. Guardar dalos limpios

In [41]:
# Almacenar los DataFrames finales en un nuevo archivo CSV
merged_df1.to_csv('homicidios_limpio.csv', index=False)
merged_df2.to_csv('lesiones_limpio.csv', index=False)