## ETL ##

Con el propósito de desarrollar estrategias de mitigación de riesgos y disminuir el número de fatalidades, se realizó un análisis exploratorio exhaustivo de los datos disponibles. Para optimizar la organización y legibilidad del código, se implementó una librería de funciones personalizadas que contiene las herramientas necesarias para generar las visualizaciones y realizar los cálculos pertinentes. Esta librería se adjunta al presente documento para su consulta. 

In [1]:
import herramientas as herr
import numpy as np
import pandas as pd
%load_ext autoreload
%autoreload 2
import warnings
warnings.filterwarnings("ignore")
from datetime import datetime

Para el análisis de los datos de homicidios, se procedió a la extracción de la información contenida en la pestaña 'Hechos' del archivo Excel correspondiente. Utilizando la función .head() de la biblioteca Pandas, se visualizaron las primeras filas del conjunto de datos a fin de obtener una visión preliminar de su estructura y contenido. Previo a esta operación, se verificó la correcta instalación de las librerías necesarias para la manipulación de archivos .xlsx en el entorno de Python.

In [2]:
df_hechos= pd.read_excel("homicidios.xlsx", sheet_name='HECHOS')

df_hechos.head(5)

Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,DD,HORA,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,...,Altura,Cruce,Dirección Normalizada,COMUNA,XY (CABA),pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO
0,2016-0001,1,2016-01-01,2016,1,1,04:00:00,4,AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ,AVENIDA,...,,"FERNANDEZ DE LA CRUZ, F., GRAL. AV.","PIEDRA BUENA AV. y FERNANDEZ DE LA CRUZ, F., G...",8,Point (98896.78238426 93532.43437792),-58.47533969,-34.68757022,MOTO-AUTO,MOTO,AUTO
1,2016-0002,1,2016-01-02,2016,1,2,01:15:00,1,AV GRAL PAZ Y AV DE LOS CORRALES,GRAL PAZ,...,,DE LOS CORRALES AV.,"PAZ, GRAL. AV. y DE LOS CORRALES AV.",9,Point (95832.05571093 95505.41641999),-58.50877521,-34.66977709,AUTO-PASAJEROS,AUTO,PASAJEROS
2,2016-0003,1,2016-01-03,2016,1,3,07:00:00,7,AV ENTRE RIOS 2034,AVENIDA,...,2034.0,,ENTRE RIOS AV. 2034,1,Point (106684.29090040 99706.57687843),-58.39040293,-34.63189362,MOTO-AUTO,MOTO,AUTO
3,2016-0004,1,2016-01-10,2016,1,10,00:00:00,0,AV LARRAZABAL Y GRAL VILLEGAS CONRADO,AVENIDA,...,,"VILLEGAS, CONRADO, GRAL.","LARRAZABAL AV. y VILLEGAS, CONRADO, GRAL.",8,Point (99840.65224780 94269.16534422),-58.46503904,-34.68092974,MOTO-SD,MOTO,SD
4,2016-0005,1,2016-01-21,2016,1,21,05:20:00,5,AV SAN JUAN Y PRESIDENTE LUIS SAENZ PEÑA,AVENIDA,...,,"SAENZ PE?A, LUIS, PRES.","SAN JUAN AV. y SAENZ PEÃ‘A, LUIS, PRES.",1,Point (106980.32827929 100752.16915795),-58.38718297,-34.6224663,MOTO-PASAJEROS,MOTO,PASAJEROS


La base de datos empleada en este estudio consta de 696 registros individuales, cada uno de los cuales está descrito por 21 atributos o columnas.

In [3]:
df_hechos.columns

Index(['ID', 'N_VICTIMAS', 'FECHA', 'AAAA', 'MM', 'DD', 'HORA', 'HH',
       'LUGAR_DEL_HECHO', 'TIPO_DE_CALLE', 'Calle', 'Altura', 'Cruce',
       'Dirección Normalizada', 'COMUNA', 'XY (CABA)', 'pos x', 'pos y',
       'PARTICIPANTES', 'VICTIMA', 'ACUSADO'],
      dtype='object')

In [4]:
#verificamos la cantidad total de registros.
df_hechos.shape[0]

696

Procedemos a estandarizar los nombres, ya que mediante el estudio podemos visualizar que algunas columnas se encuentran escritas en minuscula mientras que otras en mayusculas. Reemplazaremos los guines por espacios y renombraremos las columnas.

In [5]:
#Estandarizamos los nombres y colocamos la primera en mayuscula
df_hechos.columns = [x.capitalize() for x in df_hechos.columns]
df_hechos.columns = df_hechos.columns.str.replace('_', ' ')
# Se renombran columnas
df_hechos = df_hechos.rename(columns={'N victimas': 'Cantidad víctimas',
                                                      'Aaaa':'Año',
                                                      'Mm':'Mes',
                                                      'Dd':'Día',
                                                      'Hora':'Hora completa',
                                                      'Hh':'Hora',
                                                      'Victima': 'Víctima'})
df_hechos.columns

Index(['Id', 'Cantidad víctimas', 'Fecha', 'Año', 'Mes', 'Día',
       'Hora completa', 'Hora', 'Lugar del hecho', 'Tipo de calle', 'Calle',
       'Altura', 'Cruce', 'Dirección normalizada', 'Comuna', 'Xy (caba)',
       'Pos x', 'Pos y', 'Participantes', 'Víctima', 'Acusado'],
      dtype='object')

Se identificaron un total de 747 valores faltantes, representando el 5.1% de los datos recopilados. Estas omisiones se localizaron específicamente en las variables 'Altura', 'Cruce', 'Calle' y 'Dirección normalizada'. La detección de estos valores nulos fue realizada mediante la función.

Dado que el 81.5% de los registros carece de información sobre la 'Altura', variable que resulta relevante únicamente cuando el suceso se ubica en un punto específico de la vía pública, se optó por excluir esta dimensión del análisis. La alta frecuencia de incidentes reportados en intersecciones justifica esta decisión, ya que la altura de la calle en estos casos no aporta valor significativo. Es preciso destacar que la información sobre la ubicación geográfica se encuentra debidamente contemplada en las columnas 'Lugar del hecho' y 'Dirección normalizada' .

In [6]:
print(df_hechos.isnull().sum())

Id                         0
Cantidad víctimas          0
Fecha                      0
Año                        0
Mes                        0
Día                        0
Hora completa              0
Hora                       0
Lugar del hecho            0
Tipo de calle              0
Calle                      1
Altura                   567
Cruce                    171
Dirección normalizada      8
Comuna                     0
Xy (caba)                  0
Pos x                      0
Pos y                      0
Participantes              0
Víctima                    0
Acusado                    0
dtype: int64


In [7]:
# Se elimina la columna
df_hechos =df_hechos.drop('Altura', axis=1)
df_hechos.columns

Index(['Id', 'Cantidad víctimas', 'Fecha', 'Año', 'Mes', 'Día',
       'Hora completa', 'Hora', 'Lugar del hecho', 'Tipo de calle', 'Calle',
       'Cruce', 'Dirección normalizada', 'Comuna', 'Xy (caba)', 'Pos x',
       'Pos y', 'Participantes', 'Víctima', 'Acusado'],
      dtype='object')

La variable 'Cruce', presenta una diversidad de 317 categorías únicas y una tasa de datos faltantes del 24.6%. La ausencia de valor en esta variable se asocia a eventos que no tuvieron lugar en un cruce. Su análisis resulta fundamental para comprender la distribución espacial de los hechos, diferenciando aquellos que ocurren en intersecciones de aquellos que se producen en otros puntos de la vía. Esta distinción permitirá evaluar la relación entre la ocurrencia de los hechos y características del entorno vial como el 'Lugar del hecho' y el 'Tipo de calle'.

In [8]:
# valores nulos de cruce en relación con 'Lugar del hecho' y 'Tipo de calle'
df_hechos[df_hechos['Cruce'].isnull()][['Cruce', 'Lugar del hecho', 'Tipo de calle']][:15]

Unnamed: 0,Cruce,Lugar del hecho,Tipo de calle
2,,AV ENTRE RIOS 2034,AVENIDA
9,,AV ENTRE RIOS 1366,AVENIDA
14,,SUIPACHA 156,CALLE
33,,LIMA 1483,CALLE
35,,AUTOPISTA 1 SUR PRESIDENTE ARTURO FRONDIZI KM....,AUTOPISTA
38,,AUTOPISTA LUGONES PK 10000,AUTOPISTA
42,,AV LUIS MARIA CAMPOS 30,AVENIDA
43,,LIMA 1471,CALLE
50,,MAGARIÑOS CERVANTES 3900,CALLE
59,,AV LA PLATA 2384,AVENIDA


Los análisis preliminares revelaron que los datos faltantes correspondían sistemáticamente a eventos ocurridos en puntos de la vía pública distintos a intersecciones. Con base en esta observación, se optó por codificar dicha variable, asignando el valor 'sí' a aquellos eventos registrados en cruces de calles y 'no' a los restantes, a fin de facilitar su inclusión en los modelos subsiguientes.

In [9]:
# Reemplazamos valores nulos y no nulos
df_hechos['Cruce'] = np.where(df_hechos['Cruce'].notnull(), 'SI', 'NO')
# verificamos la columna
df_hechos[['Cruce', 'Lugar del hecho', 'Tipo de calle']]

Unnamed: 0,Cruce,Lugar del hecho,Tipo de calle
0,SI,AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ,AVENIDA
1,SI,AV GRAL PAZ Y AV DE LOS CORRALES,GRAL PAZ
2,NO,AV ENTRE RIOS 2034,AVENIDA
3,SI,AV LARRAZABAL Y GRAL VILLEGAS CONRADO,AVENIDA
4,SI,AV SAN JUAN Y PRESIDENTE LUIS SAENZ PEÑA,AVENIDA
...,...,...,...
691,SI,AV. RIESTRA Y MOM,AVENIDA
692,SI,AU DELLEPIANE Y LACARRA,AUTOPISTA
693,SI,AV. GAONA Y TERRADA,AVENIDA
694,NO,AV. EVA PERON 4071,AVENIDA


No se observan filas duplicadas. Podemos observar que en la columna 'Id' se encuentra el total de registros que son únicos.

In [10]:
print(f"La columna 'Id' cuenta con {len(df_hechos['Id'].unique())} valores únicos.")

La columna 'Id' cuenta con 696 valores únicos.


A continuacion procedemos a comparar las columnas 'Lugar del hecho' y 'Dirección normalizada'.

In [11]:
df_hechos[['Lugar del hecho', 'Dirección normalizada']]

Unnamed: 0,Lugar del hecho,Dirección normalizada
0,AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ,"PIEDRA BUENA AV. y FERNANDEZ DE LA CRUZ, F., G..."
1,AV GRAL PAZ Y AV DE LOS CORRALES,"PAZ, GRAL. AV. y DE LOS CORRALES AV."
2,AV ENTRE RIOS 2034,ENTRE RIOS AV. 2034
3,AV LARRAZABAL Y GRAL VILLEGAS CONRADO,"LARRAZABAL AV. y VILLEGAS, CONRADO, GRAL."
4,AV SAN JUAN Y PRESIDENTE LUIS SAENZ PEÑA,"SAN JUAN AV. y SAENZ PEÃ‘A, LUIS, PRES."
...,...,...
691,AV. RIESTRA Y MOM,RIESTRA AV. y MOM
692,AU DELLEPIANE Y LACARRA,"DELLEPIANE, LUIS, TTE. GRAL. y LACARRA AV."
693,AV. GAONA Y TERRADA,GAONA AV. y TERRADA
694,AV. EVA PERON 4071,"PERON, EVA AV. 4071"


Se ha observado que la columna 'Dirección normalizada' presenta ocho registros nulos. A fin de completar esta información, se propone utilizar los datos contenidos en la columna 'Lugar del hecho'.

In [12]:
#Completamos valores faltantes en 'Dirección normalizada' con los de 'Lugar del hecho'
df_hechos['Dirección normalizada'] = df_hechos['Dirección normalizada'].fillna(df_hechos['Lugar del hecho'])

Se ha optado por la sustitución de la columna 'Lugar del hecho' por 'Dirección normalizada' con el fin de optimizar los procesos de búsqueda y garantizar la precisión de los datos. Esta decisión se fundamenta en dos razones principales: 1) La nueva columna no implica una pérdida de información, ya que la dirección normalizada contiene todos los elementos necesarios para localizar un evento. 2) La implementación de un filtro alfabético en la columna 'Dirección normalizada' facilita la búsqueda de registros específicos, mientras que la columna 'Tipo de calle' permite realizar búsquedas más detalladas por categoría.

In [13]:
#Eliminamos columna 'Lugar del hecho' y se reemplazamos con 'Dirección normalizada' a la cual se le cambia el nombre 
df_hechos = df_hechos.drop(columns=['Lugar del hecho']).rename(columns={'Dirección normalizada': 'Lugar del hecho'})

En el informe presentado, se identifican diversos tipos de variables asociadas a los atributos: fecha, hora y calle. 

In [14]:
#Vemos el tipo de dato en cada columna.
df_hechos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 696 entries, 0 to 695
Data columns (total 19 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   Id                 696 non-null    object        
 1   Cantidad víctimas  696 non-null    int64         
 2   Fecha              696 non-null    datetime64[ns]
 3   Año                696 non-null    int64         
 4   Mes                696 non-null    int64         
 5   Día                696 non-null    int64         
 6   Hora completa      696 non-null    object        
 7   Hora               696 non-null    object        
 8   Tipo de calle      696 non-null    object        
 9   Calle              695 non-null    object        
 10  Cruce              696 non-null    object        
 11  Lugar del hecho    696 non-null    object        
 12  Comuna             696 non-null    int64         
 13  Xy (caba)          696 non-null    object        
 14  Pos x     

Procedemos a analizar la columna "hora completa".

In [15]:
# Cantidad de valores por tipo de dato en la columna 'hora'
df_hechos['Hora completa'].apply(type).value_counts()

Hora completa
<class 'datetime.time'>        608
<class 'str'>                   85
<class 'datetime.datetime'>      3
Name: count, dtype: int64

In [16]:
# Funcion para convertir tiempo
def convertir_tiempo(x):
    if isinstance(x, str):
        try:
            return datetime.strptime(x, "%H:%M:%S").time()
        except ValueError:
            return None
    elif isinstance(x, datetime):
        return x.time()
    return x

# Aplicamos la función a 'Hora completa' 
df_hechos['Hora completa'] = df_hechos['Hora completa'].apply(convertir_tiempo)

# Verificamos que se hayan modificado los valores
print(df_hechos['Hora completa'].apply(type).value_counts())

Hora completa
<class 'datetime.time'>    695
<class 'NoneType'>           1
Name: count, dtype: int64


In [17]:
# Buscar registro que no se modificó:
df_hechos[df_hechos['Hora completa'].isna()]

Unnamed: 0,Id,Cantidad víctimas,Fecha,Año,Mes,Día,Hora completa,Hora,Tipo de calle,Calle,Cruce,Lugar del hecho,Comuna,Xy (caba),Pos x,Pos y,Participantes,Víctima,Acusado
518,2019-0103,1,2019-12-18,2019,12,18,,SD,GRAL PAZ,"PAZ, GRAL. AV.",SI,"PAZ, GRAL. AV. y GRIVEO",11,Point (94643.11254058 103831.57115061),-58.52169422,-34.5947164,MOTO-MOTO,MOTO,MOTO


In [18]:
#Calculamos la hora mas frecuente
hora_frecuente = df_hechos['Hora completa'].mode().iloc[0]
print(f'La hora mas frecuente es: {hora_frecuente}')

#Reemplazamos el valor
df_hechos['Hora completa'].fillna(hora_frecuente, inplace=True)

#Verificamos el tipo de dato
df_hechos['Hora completa'].apply(type).value_counts()

La hora mas frecuente es: 09:00:00


Hora completa
<class 'datetime.time'>    696
Name: count, dtype: int64

Se procedió a modificar el tipo de dato de la columna 'Hora', transformándolo de cadena de caracteres ('str') a un formato numérico o de fecha y hora más apropiado para su análisis.

In [19]:
#Agregamos el valor de la hora moda, en el dato faltante.
df_hechos['Hora'] = df_hechos['Hora'].apply(lambda x: int(hora_frecuente.hour) if x== 'SD' else x)

#Verificamos que se haya modificado 
df_hechos['Hora'].apply(type).value_counts()

Hora
<class 'int'>    696
Name: count, dtype: int64

In [20]:
# Visualizamos
df_hechos[df_hechos['Id']== '2019-0103']

Unnamed: 0,Id,Cantidad víctimas,Fecha,Año,Mes,Día,Hora completa,Hora,Tipo de calle,Calle,Cruce,Lugar del hecho,Comuna,Xy (caba),Pos x,Pos y,Participantes,Víctima,Acusado
518,2019-0103,1,2019-12-18,2019,12,18,09:00:00,9,GRAL PAZ,"PAZ, GRAL. AV.",SI,"PAZ, GRAL. AV. y GRIVEO",11,Point (94643.11254058 103831.57115061),-58.52169422,-34.5947164,MOTO-MOTO,MOTO,MOTO


Se ha observado que la columna 'Calle', categorizada como una variable cualitativa de tipo cadena de caracteres, contiene registros con valores numéricos. Esta situación evidencia la necesidad de realizar un proceso de limpieza y estandarización de los datos, con el objetivo de garantizar la coherencia y confiabilidad de la información contenida en la base de datos. En este sentido, se procederá a revisar de manera exhaustiva aquellos registros en los que la variable 'Calle' presenta un formato numérico.

In [25]:
# Se verifica el tipo de dato
print('Tipos de datos:')
print(df_hechos['Calle'].apply(type).value_counts())
# Se observa el registro con tipo de dato float
print('Registro con tipo float:')
df_hechos[df_hechos['Calle'].apply(lambda x: isinstance(x, float))]

Tipos de datos:
Calle
<class 'str'>    696
Name: count, dtype: int64
Registro con tipo float:


Unnamed: 0,Id,Cantidad víctimas,Fecha,Año,Mes,Día,Hora completa,Hora,Tipo de calle,Calle,Cruce,Lugar del hecho,Comuna,Xy (caba),Pos x,Pos y,Participantes,Víctima,Acusado


Ante la ausencia de datos precisos respecto a la calle en la que ocurrió el suceso, se optó por codificar dicho valor como "SD" (sin dato), con el fin de preservar la integridad del conjunto de datos y continuar con el análisis.

In [26]:
df_hechos['Calle'].fillna('SD', inplace=True)

#Verificamos que se haya realizado el cambio 
df_hechos[df_hechos['Id']== '2016-0151']

Unnamed: 0,Id,Cantidad víctimas,Fecha,Año,Mes,Día,Hora completa,Hora,Tipo de calle,Calle,Cruce,Lugar del hecho,Comuna,Xy (caba),Pos x,Pos y,Participantes,Víctima,Acusado
119,2016-0151,1,2016-11-18,2016,11,18,20:35:00,20,CALLE,Sin Dato,NO,SD,0,Point (. .),.,.,PEATON-SD,PEATON,SD


In [27]:
#Traemos los valores únicos de la columna 'Victima'
df_hechos['Víctima'].unique()

array(['MOTO', 'AUTO', 'PEATON', 'SD', 'CARGAS', 'BICICLETA', 'PASAJEROS',
       'MOVIL', 'OBJETO FIJO', 'PEATON_MOTO'], dtype=object)

Si bien la columna 'Acusado' presenta categorías nominales acorde al diccionario de datos, la columna 'Víctima' exhibe las categorías no documentadas 'OBJETO FIJO' y 'PEATON_MOTO', lo cual constituye una anomalía en la codificación.

In [28]:
#Buscamos los registros 
df_hechos[df_hechos['Víctima'].isin(['OBJETO FIJO', 'PEATON_MOTO'])]

Unnamed: 0,Id,Cantidad víctimas,Fecha,Año,Mes,Día,Hora completa,Hora,Tipo de calle,Calle,Cruce,Lugar del hecho,Comuna,Xy (caba),Pos x,Pos y,Participantes,Víctima,Acusado
230,2017-0108,2,2017-09-02,2017,9,2,04:53:08,4,GRAL PAZ,"PAZ, GRAL. AV.",SI,"PAZ, GRAL. AV. y MACHAIN",12,Point (97098.48468623 109019.96106626),-58.49491054,-34.54795581,AUTO-OBJETO FIJO,OBJETO FIJO,AUTO
583,2020-0063,2,2020-12-05,2020,12,5,07:10:00,7,CALLE,NUEVA YORK,SI,NUEVA YORK y ALTA GRACIA,11,Point (94080.62190808 102083.62453795),-58.52783814,-34.61047001,PEATON_MOTO-MOTO,PEATON_MOTO,MOTO


In [29]:
#Cambiamos el dato de los dos registros por 'OTRO'
df_hechos['Víctima']= df_hechos['Víctima'].replace({'OBJETO FIJO':'OTRO', 'PEATON_MOTO':'OTRO'})

#Verificamos los cambios
df_hechos[df_hechos['Id'].isin(['2017-0108','2020-0063'])]

Unnamed: 0,Id,Cantidad víctimas,Fecha,Año,Mes,Día,Hora completa,Hora,Tipo de calle,Calle,Cruce,Lugar del hecho,Comuna,Xy (caba),Pos x,Pos y,Participantes,Víctima,Acusado
230,2017-0108,2,2017-09-02,2017,9,2,04:53:08,4,GRAL PAZ,"PAZ, GRAL. AV.",SI,"PAZ, GRAL. AV. y MACHAIN",12,Point (97098.48468623 109019.96106626),-58.49491054,-34.54795581,AUTO-OBJETO FIJO,OTRO,AUTO
583,2020-0063,2,2020-12-05,2020,12,5,07:10:00,7,CALLE,NUEVA YORK,SI,NUEVA YORK y ALTA GRACIA,11,Point (94080.62190808 102083.62453795),-58.52783814,-34.61047001,PEATON_MOTO-MOTO,OTRO,MOTO


In [30]:
#valores únicos de la columna 'Acusado'
df_hechos['Acusado'].unique()

array(['AUTO', 'PASAJEROS', 'SD', 'OBJETO FIJO', 'CARGAS', 'MOTO',
       'MULTIPLE', 'OTRO', 'BICICLETA', 'TREN'], dtype=object)

La categoría 'PASAJEROS' asignada a la columna 'Acusado' resulta incongruente con el marco legal establecido. En términos jurídicos, la responsabilidad en los incidentes vehiculares recae, primordialmente, en el conductor, eximiendo a los pasajeros de cualquier culpabilidad.

In [31]:
#Buscams los registros 
df_hechos[df_hechos['Acusado'].isin(['PASAJEROS'])]

Unnamed: 0,Id,Cantidad víctimas,Fecha,Año,Mes,Día,Hora completa,Hora,Tipo de calle,Calle,Cruce,Lugar del hecho,Comuna,Xy (caba),Pos x,Pos y,Participantes,Víctima,Acusado
1,2016-0002,1,2016-01-02,2016,1,2,01:15:00,1,GRAL PAZ,"PAZ, GRAL. AV.",SI,"PAZ, GRAL. AV. y DE LOS CORRALES AV.",9,Point (95832.05571093 95505.41641999),-58.50877521,-34.66977709,AUTO-PASAJEROS,AUTO,PASAJEROS
4,2016-0005,1,2016-01-21,2016,1,21,05:20:00,5,AVENIDA,SAN JUAN AV.,SI,"SAN JUAN AV. y SAENZ PEÃ‘A, LUIS, PRES.",1,Point (106980.32827929 100752.16915795),-58.38718297,-34.62246630,MOTO-PASAJEROS,MOTO,PASAJEROS
13,2016-0019,1,2016-02-17,2016,2,17,09:30:00,9,CALLE,"DE LA TORRE, LISANDRO",SI,"DE LA TORRE, LISANDRO y GARCIA GRANDE DE ZEQUE...",9,Point (95727.37083199 97179.35560349),-58.50990884,-34.65468721,PEATON-PASAJEROS,PEATON,PASAJEROS
21,2016-0029,1,2016-03-04,2016,3,4,17:30:00,17,AVENIDA,CABILDO AV.,SI,CABILDO AV. y DEHEZA,12,Point (99037.31284333 109733.12041651),-58.47378664,-34.54153077,PEATON-PASAJEROS,PEATON,PASAJEROS
22,2016-0031,1,2016-03-08,2016,3,8,12:30:00,12,GRAL PAZ,"PAZ, GRAL. AV.",SI,"PAZ, GRAL. AV. y ROCA, CNEL. AV.",8,Point (99327.01838497 92326.91130631),-58.47064556,-34.69843756,MOTO-PASAJEROS,MOTO,PASAJEROS
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
663,2021-0065,1,2021-08-06,2021,8,6,08:30:00,8,AVENIDA,SAN JUAN AV.,SI,SAN JUAN AV. y LA PLATA AV.,6,Point (103350.94520286 100251.53397151),-58.42675754,-34.62699730,PEATON-PASAJEROS,PEATON,PASAJEROS
664,2021-0066,1,2021-08-06,2021,8,6,20:00:00,20,AVENIDA,LOPE DE VEGA AV.,SI,"LOPE DE VEGA AV. y PAZ, GRAL. AV.",11,Point (93943.16495967 102026.75338495),-58.52933723,-34.61098186,PEATON-PASAJEROS,PEATON,PASAJEROS
676,2021-0078,1,2021-10-23,2021,10,23,06:35:00,6,AVENIDA,INDEPENDENCIA AV.,SI,INDEPENDENCIA AV. y LA PLATA AV.,6,Point (103255.81315650 100797.78656418),-58.42779702,-34.62207347,MOTO-PASAJEROS,MOTO,PASAJEROS
684,2021-0086,1,2021-11-25,2021,11,25,10:10:00,10,AVENIDA,RIVADAVIA AV.,SI,RIVADAVIA AV. y PUAN,6,Point (101343.57441195 100636.86479169),-58.44864864,-34.62352826,PEATON-PASAJEROS,PEATON,PASAJEROS


En cumplimiento de las recomendaciones emitidas por la OMSV, se procedió a la recategorización de esta clasificación a "TRANSPORTE DE PASAJEROS".

In [32]:
#Cambiamos el dato de los registros por ''TRANSPORTE DE PASAJEROS'
df_hechos['Acusado']= df_hechos['Acusado'].replace({'PASAJEROS':'TRANSPORTE DE PASAJEROS'})

In [33]:
#Verificamos los cambios
print(df_hechos['Acusado'].head(10))

0                       AUTO
1    TRANSPORTE DE PASAJEROS
2                       AUTO
3                         SD
4    TRANSPORTE DE PASAJEROS
5                OBJETO FIJO
6                       AUTO
7                       AUTO
8                     CARGAS
9                       AUTO
Name: Acusado, dtype: object


Los datos geográficos de la CABA pueden ser representados mediante pares ordenados de coordenadas (X,Y), donde posX y posY corresponden a las variables de longitud y latitud, respectivamente

In [34]:
df_hechos[df_hechos['Xy (caba)']== 'Point (. .)']

Unnamed: 0,Id,Cantidad víctimas,Fecha,Año,Mes,Día,Hora completa,Hora,Tipo de calle,Calle,Cruce,Lugar del hecho,Comuna,Xy (caba),Pos x,Pos y,Participantes,Víctima,Acusado
35,2016-0049,1,2016-04-17,2016,4,17,00:00:00,0,AUTOPISTA,AUTOPISTA 1 SUR PRESIDENTE ARTURO FRONDIZI,NO,AUTOPISTA 1 SUR PRESIDENTE ARTURO FRONDIZI,4,Point (. .),-58.37714647568196,-34.63657525428238,SD-SD,SD,SD
38,2016-0052,1,2016-04-20,2016,4,20,20:00:00,20,AUTOPISTA,"LUGONES, LEOPOLDO AV.",NO,AUTOPISTA LUGONES PK 10000,13,Point (. .),.,.,MOTO-SD,MOTO,SD
71,2016-0096,1,2016-07-25,2016,7,25,07:00:00,7,AUTOPISTA,AUTOPISTA DELLEPIANE LUIS TTE. GRAL.,NO,AUTOPISTA DELLEPIANE LUIS TTE. GRAL.,8,Point (. .),-58.47433193007387,-34.66684950051973,MOTO-CARGAS,MOTO,CARGAS
106,2016-0136,1,2016-10-25,2016,10,25,00:00:00,0,AUTOPISTA,AUTOPISTA BUENOS AIRES - LA PLATA,NO,AU BUENOS AIRES - LA PLATA KM. 4,4,Point (. .),.,.,MOTO-CARGAS,MOTO,CARGAS
119,2016-0151,1,2016-11-18,2016,11,18,20:35:00,20,CALLE,Sin Dato,NO,SD,0,Point (. .),.,.,PEATON-SD,PEATON,SD
139,2016-0174,1,2016-12-27,2016,12,27,00:00:00,0,AUTOPISTA,AUTOPISTA 25 DE MAYO,NO,AUTOPISTA 25 DE MAYO,0,Point (. .),.,.,SD-SD,SD,SD
176,2017-0042,1,2017-04-10,2017,4,10,09:00:00,9,GRAL PAZ,"LUGONES, LEOPOLDO AV.",NO,"LUGONES, LEOPOLDO AV.",14,Point (. .),.,.,MOTO-CARGAS,MOTO,CARGAS
180,2017-0050,2,2017-04-28,2017,4,28,11:08:08,11,AUTOPISTA,AUTOPISTA PERITO MORENO,NO,AU PERITO MORENO Y RAMAL ENLACE AU1/AU6,9,Point (. .),.,.,MOTO-CARGAS,MOTO,CARGAS
181,2017-0051,1,2017-05-01,2017,5,1,03:47:47,3,AUTOPISTA,AUTOPISTA DELLEPIANE LUIS TTE. GRAL.,NO,AU DELLEPIANE 2400,7,Point (. .),.,.,AUTO-AUTO,AUTO,AUTO
256,2017-0140,1,2017-11-19,2017,11,19,23:22:17,23,AUTOPISTA,AUTOPISTA 1 SUR PRESIDENTE ARTURO FRONDIZI,NO,AUTOPISTA 1 SUR PRESIDENTE ARTURO FRONDIZI,4,Point (. .),.,.,MOTO-PASAJEROS,MOTO,TRANSPORTE DE PASAJEROS


Ante la ausencia de datos empíricos en los campos correspondientes, se optó por asignar un valor nulo (0) a las variables en cuestión. Esta decisión metodológica resulta necesaria para preservar la integridad del análisis y garantizar la consistencia de los resultados.

In [35]:
df_hechos['Pos x'] = df_hechos['Pos x'].replace('.', 0)
df_hechos['Pos y'] = df_hechos['Pos y'].replace('.', 0)
df_hechos['Xy (caba)'] = df_hechos['Xy (caba)'].replace('Point (. .)', 0)

In [36]:
#Verificamos los cambios, visualizando los registros 180 y 181 de las columnas 'Pos x', 'Pos y' y 'Xy (caba)'
print(df_hechos.loc[[180, 181], ['Pos x', 'Pos y', 'Xy (caba)']])

    Pos x Pos y Xy (caba)
180     0     0         0
181     0     0         0


In [37]:
print(df_hechos.isnull().sum())

Id                   0
Cantidad víctimas    0
Fecha                0
Año                  0
Mes                  0
Día                  0
Hora completa        0
Hora                 0
Tipo de calle        0
Calle                0
Cruce                0
Lugar del hecho      0
Comuna               0
Xy (caba)            0
Pos x                0
Pos y                0
Participantes        0
Víctima              0
Acusado              0
dtype: int64


In [40]:
herr.verificar(df_hechos)

Unnamed: 0,nombre_campo,tipo_datos
0,Id,[<class 'str'>]
1,Cantidad víctimas,[<class 'int'>]
2,Fecha,[<class 'pandas._libs.tslibs.timestamps.Timest...
3,Año,[<class 'int'>]
4,Mes,[<class 'int'>]
5,Día,[<class 'int'>]
6,Hora completa,[<class 'datetime.time'>]
7,Hora,[<class 'int'>]
8,Tipo de calle,[<class 'str'>]
9,Calle,[<class 'str'>]


In [41]:
# Convertimos las columnas específicas de tipo int a tipo str
df_hechos['Xy (caba)'] = df_hechos['Xy (caba)'].astype(str)
df_hechos['Pos x'] = df_hechos['Pos x'].astype(str)
df_hechos['Pos y'] = df_hechos['Pos y'].astype(str)

In [42]:
herr. verificar(df_hechos)

Unnamed: 0,nombre_campo,tipo_datos
0,Id,[<class 'str'>]
1,Cantidad víctimas,[<class 'int'>]
2,Fecha,[<class 'pandas._libs.tslibs.timestamps.Timest...
3,Año,[<class 'int'>]
4,Mes,[<class 'int'>]
5,Día,[<class 'int'>]
6,Hora completa,[<class 'datetime.time'>]
7,Hora,[<class 'int'>]
8,Tipo de calle,[<class 'str'>]
9,Calle,[<class 'str'>]


Procedemos a realizar ala exportacion

In [73]:
# Especificamos la ruta y el nombre del archivo 
ruta = 'df_hechos_transformaciones.xlsx'
# Exportamos el Df retocado a un archivo Excel
print(f'El DataFrame: {ruta} se exporto correctamente')

El DataFrame: df_hechos_transformaciones.xlsx se exporto correctamente


Para el análisis de las víctimas de homicidio, se procedió a extraer los datos de la pestaña homónima del archivo Excel correspondiente. Mediante la función .head(), se visualizaron las primeras filas del conjunto de datos para una inspección inicial de su estructura y contenido.

In [74]:
df_victimas= pd.read_excel("homicidios.xlsx", sheet_name='VICTIMAS')
df_victimas.head(5)

Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO
0,2016-0001,2016-01-01,2016,1,1,CONDUCTOR,MOTO,MASCULINO,19,2016-01-01 00:00:00
1,2016-0002,2016-01-02,2016,1,2,CONDUCTOR,AUTO,MASCULINO,70,2016-01-02 00:00:00
2,2016-0003,2016-01-03,2016,1,3,CONDUCTOR,MOTO,MASCULINO,30,2016-01-03 00:00:00
3,2016-0004,2016-01-10,2016,1,10,CONDUCTOR,MOTO,MASCULINO,18,SD
4,2016-0005,2016-01-21,2016,1,21,CONDUCTOR,MOTO,MASCULINO,29,2016-02-01 00:00:00


Ofrecemos una muestra de los datos generales recopilados en el estudio de campo realizado.

In [75]:
df_victimas.columns

Index(['ID_hecho', 'FECHA', 'AAAA', 'MM', 'DD', 'ROL', 'VICTIMA', 'SEXO',
       'EDAD', 'FECHA_FALLECIMIENTO'],
      dtype='object')

In [76]:
#Cantidad de registros
print('Cantidad de registros:', df_victimas.shape[0])

Cantidad de registros: 717


Como parte del proceso de limpieza y preparación de los datos, se llevó a cabo una estandarización sistemática de los nombres de las columnas.

In [77]:
# colocamos la primera en mayúscula
df_victimas.columns = [x.capitalize() for x in df_victimas.columns]
# Reemplazamos los guiones por espacios
df_victimas.columns = df_victimas.columns.str.replace('_', ' ')
# Se renombran algunas columnas
df_victimas = df_victimas.rename(columns={  'Aaaa':'Año',
                                            'Mm':'Mes',
                                            'Dd':'Día',
                                            
                                            'Victima':'Víctima'})

df_victimas.columns

Index(['Id hecho', 'Fecha', 'Año', 'Mes', 'Día', 'Rol', 'Víctima', 'Sexo',
       'Edad', 'Fecha fallecimiento'],
      dtype='object')

Procedemos a la verificacion de datos nulos. 

In [78]:
print(df_victimas.isnull().sum())

Id hecho               0
Fecha                  0
Año                    0
Mes                    0
Día                    0
Rol                    0
Víctima                0
Sexo                   0
Edad                   0
Fecha fallecimiento    0
dtype: int64


Datos duplicados

In [79]:
df_victimas[df_victimas.duplicated()]

Unnamed: 0,Id hecho,Fecha,Año,Mes,Día,Rol,Víctima,Sexo,Edad,Fecha fallecimiento


Se realizó un análisis para determinar si cada ID era único o si existían duplicados en el conjunto de datos. 

In [80]:
def verificacionDuplicados(df, columna):
    filas_duplicadas= df[df.duplicated(subset=columna, keep=False)]#filtramos las filas duplicadas
    if filas_duplicadas.empty:
        return "No hay duplicados"
   
    filas_duplicadas_EN_ORDEN = filas_duplicadas.sort_values(by=columna)#odenamos las filas duplicadas y comparamos
    return filas_duplicadas_EN_ORDEN

duplicados_id_hecho = verificacionDuplicados(df_victimas, 'Id hecho')#llamamos a la funcion para verificar duplicados
print(duplicados_id_hecho)

      Id hecho      Fecha   Año  Mes  Día                   Rol Víctima  \
29   2016-0041 2016-03-29  2016    3   29             CONDUCTOR    MOTO   
30   2016-0041 2016-03-29  2016    3   29  PASAJERO_ACOMPAÑANTE    MOTO   
98   2016-0126 2016-09-18  2016    9   18             CONDUCTOR    AUTO   
99   2016-0126 2016-09-18  2016    9   18  PASAJERO_ACOMPAÑANTE    AUTO   
163  2017-0026 2017-02-26  2017    2   26  PASAJERO_ACOMPAÑANTE    AUTO   
164  2017-0026 2017-02-26  2017    2   26             CONDUCTOR    AUTO   
173  2017-0035 2017-03-23  2017    3   23             CONDUCTOR    AUTO   
174  2017-0035 2017-03-23  2017    3   23  PASAJERO_ACOMPAÑANTE    AUTO   
175  2017-0035 2017-03-23  2017    3   23  PASAJERO_ACOMPAÑANTE    AUTO   
177  2017-0036 2017-03-29  2017    3   29             CONDUCTOR    MOTO   
176  2017-0036 2017-03-29  2017    3   29  PASAJERO_ACOMPAÑANTE    MOTO   
186  2017-0050 2017-04-28  2017    4   28             CONDUCTOR    MOTO   
187  2017-0050 2017-04-28

In [81]:
#Verificamos el tipo de dato en cada columna.
def verifica_variable(df): 
    dicc = {"nombre_campo": [], "tipo_datos": []}

    for columna in df.columns:
        dicc["nombre_campo"].append(columna)
        dicc["tipo_datos"].append(df[columna].apply(type).unique())
    df_info = pd.DataFrame(dicc)
        
    return df_info

#  Verificamos el tipo de dato
tipo_de_dato = verifica_variable(df_victimas)
print(tipo_de_dato)


          nombre_campo                                         tipo_datos
0             Id hecho                                    [<class 'str'>]
1                Fecha  [<class 'pandas._libs.tslibs.timestamps.Timest...
2                  Año                                    [<class 'int'>]
3                  Mes                                    [<class 'int'>]
4                  Día                                    [<class 'int'>]
5                  Rol                                    [<class 'str'>]
6              Víctima                                    [<class 'str'>]
7                 Sexo                                    [<class 'str'>]
8                 Edad                     [<class 'int'>, <class 'str'>]
9  Fecha fallecimiento       [<class 'datetime.datetime'>, <class 'str'>]


A continuacion vizualizaremos la edad y fechas de fallecimiento.

In [82]:
# Cantidad de valores por tipo de dato en la columna 'Edad'
df_victimas['Edad'].apply(type).value_counts()

Edad
<class 'int'>    664
<class 'str'>     53
Name: count, dtype: int64

In [83]:
# observamos los registros con tipo de dato str
print('Registro con tipo str:')
df_victimas[df_victimas['Edad'].apply(lambda x: isinstance(x, str))]

Registro con tipo str:


Unnamed: 0,Id hecho,Fecha,Año,Mes,Día,Rol,Víctima,Sexo,Edad,Fecha fallecimiento
30,2016-0041,2016-03-29,2016,3,29,PASAJERO_ACOMPAÑANTE,MOTO,MASCULINO,SD,2016-03-30 00:00:00
33,2016-0045,2016-04-11,2016,4,11,CONDUCTOR,MOTO,MASCULINO,SD,SD
35,2016-0048,2016-04-15,2016,4,15,PEATON,PEATON,FEMENINO,SD,SD
36,2016-0049,2016-04-17,2016,4,17,SD,SD,SD,SD,SD
39,2016-0052,2016-04-20,2016,4,20,SD,MOTO,SD,SD,SD
55,2016-0077,2016-06-13,2016,6,13,PEATON,PEATON,FEMENINO,SD,SD
63,2016-0085,2016-06-29,2016,6,29,SD,MOTO,MASCULINO,SD,SD
72,2016-0096,2016-07-25,2016,7,25,CONDUCTOR,MOTO,MASCULINO,SD,SD
89,2016-0115,2016-09-02,2016,9,2,SD,SD,MASCULINO,SD,SD
93,2016-0119,2016-09-04,2016,9,4,PASAJERO_ACOMPAÑANTE,SD,FEMENINO,SD,SD


Se llevará a cabo un análisis descriptivo de la variable 'Edad', estratificado por el sexo de las víctimas. Previo a este análisis, se realizará una imputación de los valores faltantes en la variable 'Sexo' a fin de garantizar la integridad de la base de datos y la precisión de los resultados.

In [84]:
def valor_frecuencia(df, columna):
    #remplazamos 'SD' con NaN en la columna especificada
    df[columna]=df[columna].replace('SD', pd.NA)
    
    #Verificamos el valor más frecuente 
    valor_frecuente= df[columna].mode().iloc[0]
    print('El valor más frecuente de', columna, 'es:', valor_frecuente)

    #modificamos los valores NaN, con el valor más frecuente
    df[columna].fillna(valor_frecuente, inplace=True)


#usamos
sexo_valor_frecuente =valor_frecuencia(df_victimas, 'Sexo')
print(sexo_valor_frecuente)

El valor más frecuente de Sexo es: MASCULINO
None


In [85]:
# Ahora modificamos la columna 'Edad'
def edad_segun_sexo(df):
    #Reemplazamos 'SD' con NaN en la columna 'Edad'.
    df['Edad']= df['Edad'].replace('SD', pd.NA)

    #Agrupamos por genero
    prom_por_genero= df.groupby('Sexo')['Edad'].mean()
    print(f'La edad promedio Femenina es {round(prom_por_genero["FEMENINO"])} y  Masculino es {round(prom_por_genero["MASCULINO"])}')

    #Modificamos los valores NaN en 'Edad', con los valores correspondientes en cada género.
    #vwrificamos fila por fila, si el valor en 'Edad' es NaN, se aplica la función, sino se devuelve el valor original.
    df['Edad']= df.apply(lambda row: prom_por_genero[row['Sexo']] if pd.isna(row['Edad']) else row['Edad'], axis=1)

    #Convertimos el valor ingresado a tipo int
    df['Edad']= df['Edad'].astype(int)


# Llamar a la función 
edad_media_sexo = edad_segun_sexo(df_victimas)
print(edad_media_sexo)

La edad promedio Femenina es 51 y  Masculino es 40
None


In [86]:
#Revisamos que se hayan realizado los cambios 
df_victimas[df_victimas['Id hecho']=='2016-0174']

Unnamed: 0,Id hecho,Fecha,Año,Mes,Día,Rol,Víctima,Sexo,Edad,Fecha fallecimiento
141,2016-0174,2016-12-27,2016,12,27,SD,SD,MASCULINO,39,SD


Podemos observar que en las columnas 'Rol' y 'Víctima', contamos con datos faltantes.

In [87]:
print('La cantidad de registros con SD en la columna Rol, es de:', len(df_victimas[df_victimas['Rol']=='SD']))
print('La cantidad de registros con SD en la columna Víctima, es de:', len(df_victimas[df_victimas['Víctima']=='SD']))

La cantidad de registros con SD en la columna Rol, es de: 11
La cantidad de registros con SD en la columna Víctima, es de: 9


In [88]:
#modificamos la columna Rol
herr.valor_frecuencia(df_victimas, 'Rol')
#Modificamos la columna Víctima
herr.valor_frecuencia(df_victimas, 'Víctima')

El valor más frecuente de Rol es: CONDUCTOR
El valor más frecuente de Víctima es: MOTO


In [89]:
#Revisams, para verificar que se hayan realizado los cambios.
print('La cantidad de registros con SD en la columna Rol, es de:', len(df_victimas[df_victimas['Rol']=='SD']))
print('La cantidad de registros con SD en la columna Víctima, es de:', len(df_victimas[df_victimas['Víctima']=='SD']))

#verificamos con el ej anterior
df_victimas[df_victimas['Id hecho']=='2016-0174']

La cantidad de registros con SD en la columna Rol, es de: 0
La cantidad de registros con SD en la columna Víctima, es de: 0


Unnamed: 0,Id hecho,Fecha,Año,Mes,Día,Rol,Víctima,Sexo,Edad,Fecha fallecimiento
141,2016-0174,2016-12-27,2016,12,27,CONDUCTOR,MOTO,MASCULINO,39,SD


En la columna correspondiente a la fecha de fallecimiento se ha procedido a la unificación del formato de los datos, garantizando así la coherencia y comparabilidad de la información a lo largo de todo el conjunto de registros.

In [90]:
# Contamos el número de registros 'SD' en la columna 'Fecha fallecimiento'
numerosSD = df_victimas[df_victimas['Fecha fallecimiento'] == 'SD'].shape[0]

# Calculamos total de filas en el Df
registros = df_victimas.shape[0]

# Calculamos  porcentaje de registros 'SD'
porcentaje_sd = (numerosSD / registros) * 100

print(f"El porcentaje de registros 'SD' en la columna 'Fecha fallecimiento' es: {porcentaje_sd:.2f}%")

El porcentaje de registros 'SD' en la columna 'Fecha fallecimiento' es: 9.48%


Con el propósito de preservar la integridad de los datos y evitar su pérdida, se optó por asignar a cada registro un valor temporal correspondiente a la fecha exacta en que se produjo el incidente.

In [91]:
# Copiamos la columna 'Fecha' a la columna 'Fecha fallecimiento' donde el valor sea 'SD'
df_victimas.loc[df_victimas['Fecha fallecimiento'] == 'SD', 'Fecha fallecimiento'] = df_victimas['Fecha']

# Verificamos que se hayan completado 
print(df_victimas[df_victimas['Fecha fallecimiento'] == 'SD'])

Empty DataFrame
Columns: [Id hecho, Fecha, Año, Mes, Día, Rol, Víctima, Sexo, Edad, Fecha fallecimiento]
Index: []


Se procedió a eliminar las columnas redundantes, ya que su información estaba contenida en el marco de datos 'df_hechos'.

In [92]:
df_victimas=df_victimas.drop(['Fecha', 'Año', 'Mes', 'Día'], axis=1)
df_victimas.columns

Index(['Id hecho', 'Rol', 'Víctima', 'Sexo', 'Edad', 'Fecha fallecimiento'], dtype='object')

In [93]:
herr.verificar(df_victimas)

Unnamed: 0,nombre_campo,tipo_datos
0,Id hecho,[<class 'str'>]
1,Rol,[<class 'str'>]
2,Víctima,[<class 'str'>]
3,Sexo,[<class 'str'>]
4,Edad,[<class 'int'>]
5,Fecha fallecimiento,"[<class 'datetime.datetime'>, <class 'pandas._..."


In [94]:
print(df_victimas.isnull().sum())


Id hecho               0
Rol                    0
Víctima                0
Sexo                   0
Edad                   0
Fecha fallecimiento    0
dtype: int64


Se ha implementado un sistema de identificación único para cada registro de víctima, al cual denominaremos 'ID de víctima'. Este identificador garantiza la individualización y trazabilidad de cada caso dentro de la base de datos.

In [95]:
# Reiniciamos el índice para asignar una clave única
df_victimas_clave = df_victimas.reset_index(drop=True)

# Verificamos el Df con la nueva clave única
print(df_victimas_clave)

# Asignamos el nombre 'Id victima' a la columna de clave única
df_victimas_clave = df_victimas_clave.rename(columns={'index': 'Id víctima'})

# Verificamos el Df con la nueva columna 'Id victima'
print(df_victimas_clave)

      Id hecho                   Rol Víctima       Sexo  Edad  \
0    2016-0001             CONDUCTOR    MOTO  MASCULINO    19   
1    2016-0002             CONDUCTOR    AUTO  MASCULINO    70   
2    2016-0003             CONDUCTOR    MOTO  MASCULINO    30   
3    2016-0004             CONDUCTOR    MOTO  MASCULINO    18   
4    2016-0005             CONDUCTOR    MOTO  MASCULINO    29   
..         ...                   ...     ...        ...   ...   
712  2021-0092                PEATON  PEATON   FEMENINO    50   
713  2021-0093  PASAJERO_ACOMPAÑANTE    MOTO   FEMENINO    18   
714  2021-0094  PASAJERO_ACOMPAÑANTE    MOTO   FEMENINO    43   
715  2021-0095             CONDUCTOR    MOTO  MASCULINO    27   
716  2021-0096             CONDUCTOR    AUTO  MASCULINO    60   

     Fecha fallecimiento  
0    2016-01-01 00:00:00  
1    2016-01-02 00:00:00  
2    2016-01-03 00:00:00  
3    2016-01-10 00:00:00  
4    2016-02-01 00:00:00  
..                   ...  
712  2021-12-12 00:00:00  
713

In [96]:
# Especificamos la ruta y el nombre del archivo de Excel de destino
ruta_destino = "df_victimas_cambios.xlsx"
# Exportamos a un archivo con los cambios
df_victimas.to_excel(ruta_destino, index=False)
print(f'Se ha exportado correctamente el DataFrame a {ruta_destino}')

Se ha exportado correctamente el DataFrame a df_victimas_cambios.xlsx
