# Procesado ETL de datos de Homicidios en siniestros viales en la Ciudad de Buenos Aires (2016-2021)

#### Homicidios

Esta base de datos contiene registros sobre homicidios en siniestros viales acaecidos en la Ciudad de Buenos Aires durante el periodo 2016-2021, acontinuación se presenta ol procesado ETL de estos datos para poder utilizarlos posteriormente en el análisis exploratorio de datos.

Fuente de los datos:  https://cdn.buenosaires.gob.ar/datosabiertos/datasets/transporte-y-obras-publicas/victimas-siniestros-viales/homicidios.xlsx






### Librerias utilizadas

In [136]:
import pandas as pd
import warnings

warnings.filterwarnings("ignore")

### Carga de los datos

Primero visualizamos el nombre de las hojas del archivo, para luego utilizar pandas y cargarlas correctamente.

La base de datos `homidicios.xslx` dispone de 4 hojas de interes, una llamada `HECHOS`,otra llamada `VICTIMAS` que son tablas y las demas correspondena a el diccionario de datos de cada una, por lo tanto, se procedera a cargar estas tablas y realizar una exploración individual. 


In [137]:
hechos = pd.read_excel("./data/homicidios.xlsx", sheet_name="HECHOS")
victimas = pd.read_excel("./data/homicidios.xlsx", sheet_name="VICTIMAS")

### Procesamiento de la tabla `hechos`

In [138]:
hechos

Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,DD,HORA,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,...,Altura,Cruce,Dirección Normalizada,COMUNA,XY (CABA),pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO
0,2016-0001,1,2016-01-01,2016,1,1,04:00:00,4,AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ,AVENIDA,...,,"FERNANDEZ DE LA CRUZ, F., GRAL. AV.","PIEDRA BUENA AV. y FERNANDEZ DE LA CRUZ, F., G...",8,Point (98896.78238426 93532.43437792),-58.47533969,-34.68757022,MOTO-AUTO,MOTO,AUTO
1,2016-0002,1,2016-01-02,2016,1,2,01:15:00,1,AV GRAL PAZ Y AV DE LOS CORRALES,GRAL PAZ,...,,DE LOS CORRALES AV.,"PAZ, GRAL. AV. y DE LOS CORRALES AV.",9,Point (95832.05571093 95505.41641999),-58.50877521,-34.66977709,AUTO-PASAJEROS,AUTO,PASAJEROS
2,2016-0003,1,2016-01-03,2016,1,3,07:00:00,7,AV ENTRE RIOS 2034,AVENIDA,...,2034.0,,ENTRE RIOS AV. 2034,1,Point (106684.29090040 99706.57687843),-58.39040293,-34.63189362,MOTO-AUTO,MOTO,AUTO
3,2016-0004,1,2016-01-10,2016,1,10,00:00:00,0,AV LARRAZABAL Y GRAL VILLEGAS CONRADO,AVENIDA,...,,"VILLEGAS, CONRADO, GRAL.","LARRAZABAL AV. y VILLEGAS, CONRADO, GRAL.",8,Point (99840.65224780 94269.16534422),-58.46503904,-34.68092974,MOTO-SD,MOTO,SD
4,2016-0005,1,2016-01-21,2016,1,21,05:20:00,5,AV SAN JUAN Y PRESIDENTE LUIS SAENZ PEÑA,AVENIDA,...,,"SAENZ PE?A, LUIS, PRES.","SAN JUAN AV. y SAENZ PEÃ‘A, LUIS, PRES.",1,Point (106980.32827929 100752.16915795),-58.38718297,-34.62246630,MOTO-PASAJEROS,MOTO,PASAJEROS
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
691,2021-0093,1,2021-12-13,2021,12,13,17:10:00,17,AV. RIESTRA Y MOM,AVENIDA,...,,MOM,RIESTRA AV. y MOM,7,Point (102728.60090138 98186.24929177),-58.43353773,-34.64561636,MOTO-AUTO,MOTO,AUTO
692,2021-0094,1,2021-12-20,2021,12,20,01:10:00,1,AU DELLEPIANE Y LACARRA,AUTOPISTA,...,,LACARRA AV.,"DELLEPIANE, LUIS, TTE. GRAL. y LACARRA AV.",9,Point (99624.29795829 97569.69801131),-58.46739825,-34.65117757,MOTO-AUTO,MOTO,AUTO
693,2021-0095,1,2021-12-30,2021,12,30,00:43:00,0,AV. GAONA Y TERRADA,AVENIDA,...,,TERRADA,GAONA AV. y TERRADA,11,Point (99116.45492358 101045.23284826),-58.47293407,-34.61984745,MOTO-CARGAS,MOTO,CARGAS
694,2021-0096,1,2021-12-15,2021,12,15,10:30:00,10,AV. EVA PERON 4071,AVENIDA,...,4071.0,,"PERON, EVA AV. 4071",9,Point (99324.54463985 97676.26932409),-58.47066794,-34.65021673,AUTO-CARGAS,AUTO,CARGAS


In [139]:
hechos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 696 entries, 0 to 695
Data columns (total 21 columns):
 #   Column                 Non-Null Count  Dtype         
---  ------                 --------------  -----         
 0   ID                     696 non-null    object        
 1   N_VICTIMAS             696 non-null    int64         
 2   FECHA                  696 non-null    datetime64[ns]
 3   AAAA                   696 non-null    int64         
 4   MM                     696 non-null    int64         
 5   DD                     696 non-null    int64         
 6   HORA                   696 non-null    object        
 7   HH                     696 non-null    object        
 8   LUGAR_DEL_HECHO        696 non-null    object        
 9   TIPO_DE_CALLE          696 non-null    object        
 10  Calle                  695 non-null    object        
 11  Altura                 129 non-null    float64       
 12  Cruce                  525 non-null    object        
 13  Direc

### Reporte Preliminar

La tabla `hechos` contiene un total de 696 entradas, distribuidas en 21 columnas. A continuación, se presenta un análisis preliminar de cada variable:

1. **ID**: Todos los registros están completos (696 no nulos), deberia contener un identificador único para cada hecho.

2. **N_VICTIMAS**: Con 696 valores no nulos, esta variable numérica podría ser utilizada para analizar la distribución del número de víctimas por incidente, permitiendo identificar tendencias o patrones en la gravedad de los mismos.

3. **FECHA**: También completa para todos los registros, proporciona una marca temporal precisa de cada incidente. Esta variable es fundamental para análisis temporales, permitiendo explorar patrones estacionales, mensuales o diarios.

4. **AAAA**, **MM**, **DD**: Estas columnas desglosan la fecha del incidente en año, mes y día, respectivamente, facilitando análisis específicos por periodos de tiempo. La completitud de estos campos asegura una base sólida para dicho análisis.

5. **HORA**, **HH**: Al igual que con la fecha, estas variables permiten un análisis detallado del momento del día en que ocurren los incidentes. La variable `HORA` parece contener la hora en formato objeto, mientras que `HH` podría ser una representación específica o un desglose adicional de la misma.

6. **LUGAR_DEL_HECHO**, **TIPO_DE_CALLE**, **Calle**: Estas variables aportan información detallada sobre la ubicación de los incidentes. La casi total completitud de 'Calle' (695 no nulos) y la totalidad en 'LUGAR_DEL_HECHO' y 'TIPO_DE_CALLE' sugieren un buen fundamento para análisis geográficos.

7. **Altura**: Con solo 129 registros no nulos, esta variable presenta un alto grado de valores faltantes, lo que requiere una evaluación cuidadosa para su uso en análisis detallados de localización.

8. **Cruce**: Con 525 valores no nulos, esta variable complementa la información de ubicación, aunque también presenta un número significativo de entradas faltantes. Podría requerir técnicas de imputación o un análisis específico para las entradas completas.

9. **Dirección Normalizada**: Con 688 valores no nulos, ofrece una versión estandarizada de las direcciones de los incidentes, lo que puede ser útil para unificar y comparar datos de localización.

10. **COMUNA**: Completa para todos los registros, esta variable numérica puede facilitar el análisis por regiones específicas dentro de la jurisdicción de los incidentes.

11. **XY (CABA)**, **pos x**, **pos y**: Estas variables, completas en todos los registros, proporcionan coordenadas específicas para análisis geoespaciales detallados, permitiendo visualizaciones y estudios de concentración de incidentes.

12. **PARTICIPANTES**, **VICTIMA**, **ACUSADO**: Con información completa en todas estas columnas, ofrecen un contexto detallado sobre los involucrados en cada incidente, abriendo posibilidades para análisis demográficos y de relaciones entre participantes.


Ahora, con este conocimiento de las variables que contiene la tabla `hechos`, se procederá a realizar un análisis individual y grupal de las mismas para verificar su integridad, valores nulos, duplicados y se comprobara la necesidad de realizar transformaciones 


### ID


In [140]:
# Verificamos ID duplicados

hechos["ID"].duplicated().sum()

0

Cada hecho tiene un identificador único, 

### N_VICTIMAS

In [141]:
# Verificamos valores únicos

hechos['N_VICTIMAS'].unique()

array([1, 2, 3], dtype=int64)

### FECHA

In [142]:
print(hechos['FECHA'].head())
print(hechos['FECHA'].describe())
print(hechos['FECHA'].dtype)

0   2016-01-01
1   2016-01-02
2   2016-01-03
3   2016-01-10
4   2016-01-21
Name: FECHA, dtype: datetime64[ns]
count                              696
mean     2018-09-14 05:12:24.827586048
min                2016-01-01 00:00:00
25%                2017-04-02 12:00:00
50%                2018-07-12 12:00:00
75%                2020-01-04 06:00:00
max                2021-12-30 00:00:00
Name: FECHA, dtype: object
datetime64[ns]


El formato de fecha identificado es "yyyy-mm-dd" y el tipo de dato es datetime64[ns] con un rango de 2016 a 2021, no se encuentra ninguna inconsistencia en esta variable, por lo que no se realizaran transformaciones. 

### AAAA, MM, DD, HORA, HH


In [143]:
hechos['HORA']

0      04:00:00
1      01:15:00
2      07:00:00
3      00:00:00
4      05:20:00
         ...   
691    17:10:00
692    01:10:00
693    00:43:00
694    10:30:00
695    06:10:00
Name: HORA, Length: 696, dtype: object

In [144]:
print(hechos['AAAA'].unique())
print(hechos['MM'].unique())
print(hechos['DD'].unique())
print(hechos['HORA'].unique())
print(hechos['HH'].unique())

[2016 2017 2018 2019 2020 2021]
[ 1  2  3  4  5  6  7  8  9 10 11 12]
[ 1  2  3 10 21 24 29  8 14 15 17 28  4 12 13 19 23 30 31 11 20 22 25 26
 16 18 27  7  9  5  6]
[datetime.time(4, 0) datetime.time(1, 15) datetime.time(7, 0)
 datetime.time(0, 0) datetime.time(5, 20) datetime.time(18, 30)
 datetime.time(19, 10) datetime.time(15, 20) datetime.time(1, 20)
 datetime.time(11, 30) datetime.time(5, 14) datetime.time(22, 0)
 datetime.time(16, 54) datetime.time(9, 30) datetime.time(16, 0)
 datetime.time(23, 35) datetime.time(6, 0) datetime.time(4, 50)
 datetime.time(7, 30) datetime.time(9, 35) datetime.time(10, 0)
 datetime.time(17, 30) datetime.time(12, 30) datetime.time(0, 15)
 datetime.time(11, 0) datetime.time(8, 6) datetime.time(1, 50)
 datetime.time(18, 15) datetime.time(19, 40) datetime.time(10, 25)
 datetime.time(5, 30) datetime.time(17, 40) datetime.time(9, 50)
 datetime.time(20, 0) datetime.time(21, 0) datetime.time(20, 30)
 datetime.time(4, 45) datetime.time(14, 0) datetime.time(1

`AAAA` contiene el rango de años 2016-2021, `MM` contiene el rango de meses 1-12, `DD` contiene el rango de días 1-31.

Por otra parte, la variable `HORA` contiene registros que no estan en formato 'hh:mm:ss' datetime, se han detectado datos sin definir 'SD', y registros que no estan en el tipo de dato datetime, por lo que se procedera a realizar una transformación de esta variable.
`HH`  contiene el rango de horas 0-23, se observan registros sin definir 'SD'.



In [145]:
from datetime import datetime, time

# Corrección de la función para normalizar la columna HORA


def normalizar_hora(hora):
    if isinstance(hora, str):  # Si el valor es una cadena, convertir a datetime.time
        try:
            hora_dt = datetime.strptime(hora, '%H:%M:%S')
            return hora_dt.strftime('%H:%M')
        except ValueError:
            try:
                # Manejar formato sin segundos
                hora_dt = datetime.strptime(hora, '%H:%M')
                return hora_dt.strftime('%H:%M')
            except ValueError:
                # Devolver como está si no coincide con los formatos esperados
                return hora
    elif isinstance(hora, time):  # Si ya es un objeto datetime.time, convertir a cadena
        return hora.strftime('%H:%M')

    # si es formato datetime.datetime, convertir a NA
    elif isinstance(hora, datetime):
        return pd.NA
    else:
        # Manejar otros tipos no esperados, devolver como está
        return hora


# Aplicar la función de normalización a la columna HORA
hechos['HORA'] = hechos['HORA'].apply(normalizar_hora)

# Tratar 'HH' como nulo para valores 'SD'
hechos['HORA'] = hechos['HORA'].replace('SD', pd.NA)
hechos['HH'] = hechos['HH'].replace('SD', pd.NA)


# convertir a datetime.time la columna HORA

hechos['HORA'] = pd.to_datetime(
    hechos['HORA'], format='%H:%M', errors='coerce').dt.time

# Eliminar valores nulos para la columna HORA y HH
hechos = hechos.dropna(subset=['HORA', 'HH'])

In [146]:
# Revision final

print(hechos['HORA'].unique())
print(hechos['HH'].unique())

print(hechos['HORA'].isnull().sum())
print(hechos['HH'].isnull().sum())

[datetime.time(4, 0) datetime.time(1, 15) datetime.time(7, 0)
 datetime.time(0, 0) datetime.time(5, 20) datetime.time(18, 30)
 datetime.time(19, 10) datetime.time(15, 20) datetime.time(1, 20)
 datetime.time(11, 30) datetime.time(5, 14) datetime.time(22, 0)
 datetime.time(16, 54) datetime.time(9, 30) datetime.time(16, 0)
 datetime.time(23, 35) datetime.time(6, 0) datetime.time(4, 50)
 datetime.time(7, 30) datetime.time(9, 35) datetime.time(10, 0)
 datetime.time(17, 30) datetime.time(12, 30) datetime.time(0, 15)
 datetime.time(11, 0) datetime.time(8, 6) datetime.time(1, 50)
 datetime.time(18, 15) datetime.time(19, 40) datetime.time(10, 25)
 datetime.time(5, 30) datetime.time(17, 40) datetime.time(9, 50)
 datetime.time(20, 0) datetime.time(21, 0) datetime.time(20, 30)
 datetime.time(4, 45) datetime.time(14, 0) datetime.time(16, 30)
 datetime.time(18, 11) datetime.time(14, 40) datetime.time(17, 0)
 datetime.time(3, 30) datetime.time(15, 0) datetime.time(6, 40)
 datetime.time(23, 13) dateti

# LUGAR_DEL_HECHO, TIPO_DE_CALLE, Calle


In [147]:
hechos[['LUGAR_DEL_HECHO', "TIPO_DE_CALLE", "Calle"]]

Unnamed: 0,LUGAR_DEL_HECHO,TIPO_DE_CALLE,Calle
0,AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ,AVENIDA,PIEDRA BUENA AV.
1,AV GRAL PAZ Y AV DE LOS CORRALES,GRAL PAZ,"PAZ, GRAL. AV."
2,AV ENTRE RIOS 2034,AVENIDA,ENTRE RIOS AV.
3,AV LARRAZABAL Y GRAL VILLEGAS CONRADO,AVENIDA,LARRAZABAL AV.
4,AV SAN JUAN Y PRESIDENTE LUIS SAENZ PEÑA,AVENIDA,SAN JUAN AV.
...,...,...,...
691,AV. RIESTRA Y MOM,AVENIDA,RIESTRA AV.
692,AU DELLEPIANE Y LACARRA,AUTOPISTA,"DELLEPIANE, LUIS, TTE. GRAL."
693,AV. GAONA Y TERRADA,AVENIDA,GAONA AV.
694,AV. EVA PERON 4071,AVENIDA,"PERON, EVA AV."


In [148]:
print(hechos['LUGAR_DEL_HECHO'].unique())

['AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ'
 'AV GRAL PAZ  Y AV DE LOS CORRALES' 'AV ENTRE RIOS 2034'
 'AV LARRAZABAL Y GRAL VILLEGAS CONRADO'
 'AV SAN JUAN Y PRESIDENTE LUIS SAENZ PEÑA '
 'AV 27 DE FEBRERO Y AV ESCALADA' 'NOGOYA Y JOAQUIN V. GONZALES'
 'AV GENERAL PAZ Y AV DE LOS CORRALES'
 'AV BELGRANO Y BERNARDO DE IRIGOYEN' 'AV ENTRE RIOS 1366'
 'AV SCALABRINI ORTIZ Y VERA'
 'AV REGIMIENTO DE PATRICIOS Y QUINQUELA MARTIN BENITO'
 'MARIANO ACOSTA Y ANA MARIA JANER'
 'LISANDRO DE LA TORRE Y SEVERO GARCIA GRANDE DE ZEQUEIRA ' 'SUIPACHA 156'
 'AV DIRECTORIO Y CURAPALIGUE' 'AV 9 DE JULIO Y ADOLFO ALSINA'
 'AV GRAL PAZ Y AV 27 DE FEBRERO' 'HOLMBERG Y VEDIA'
 'CURAPALIGUE Y AVELINO DIAZ' 'VIAMONTE Y AV 9 DE JULIO'
 'AV CABILDO Y DEHEZA' 'AV GRAL PAZ Y AV CNEL ROCA'
 'AV AMANCIO ALCORTA Y BONAVENA' 'AV CORRIENTES Y AV CALLAO'
 'HERRERA Y ARISTOBULO DEL VALLE' 'AV. EVA PERON Y QUIRNO'
 'AV GRAL PAZ COLECTORA Y ZUVIRIA' 'BARTOLOME MITRE Y AV PUEYRREDON'
 'AV DIRECTORIO Y RIVERA INDARTE'
 'D

In [149]:


print(hechos['TIPO_DE_CALLE'].unique())

['AVENIDA' 'GRAL PAZ' 'CALLE' 'AUTOPISTA']


In [150]:
print(hechos['Calle'].unique())

['PIEDRA BUENA AV.' 'PAZ, GRAL. AV.' 'ENTRE RIOS AV.' 'LARRAZABAL AV.'
 'SAN JUAN AV.' '27 DE FEBRERO AV.' 'NOGOYA' 'BELGRANO AV.'
 'SCALABRINI ORTIZ, RAUL AV.' 'REGIMIENTO DE PATRICIOS AV.'
 'ACOSTA, MARIANO' 'DE LA TORRE, LISANDRO' 'SUIPACHA' 'DIRECTORIO AV.'
 '9 DE JULIO AV.' 'HOLMBERG' 'CURAPALIGUE AV.' 'VIAMONTE' 'CABILDO AV.'
 'ALCORTA, AMANCIO AV.' 'CORRIENTES AV.' 'HERRERA' 'LAFUENTE AV.'
 'MITRE, BARTOLOME' 'DELLEPIANE, LUIS, TTE. GRAL.'
 'MORENO, JOSE MARIA AV.' 'LIMA'
 'AUTOPISTA 1 SUR PRESIDENTE ARTURO FRONDIZI' 'GORDILLO, TIMOTEO'
 'LUGONES, LEOPOLDO AV.' 'TRIUNVIRATO AV.'
 'AUTOPISTA DELLEPIANE LUIS TTE. GRAL.' 'CASTILLA, RAMON, MARISCAL'
 'CAMPOS, LUIS M. AV.' 'CIUDADELA' 'JUSTO, JUAN B. AV.' 'GAONA AV.'
 'FIGUEROA ALCORTA, PRES. AV.' 'MAGARI?OS CERVANTES, A.' 'SAN MARTIN AV.'
 'PERON, JUAN DOMINGO, TTE. GENERAL' 'DEL LIBERTADOR AV.'
 'LARRALDE, CRISOLOGO AV.' 'LA PLATA AV.' 'ALBERDI, JUAN BAUTISTA AV.'
 'PELLEGRINI, CARLOS' 'RABANAL, FRANCISCO, INTENDENTE AV.' 'OLIVERA 

In [151]:
# Verificación de valores nulos

# Buscar registros igual a 'SD'

print(hechos[hechos['LUGAR_DEL_HECHO'] == 'SD'])
print(hechos[hechos['TIPO_DE_CALLE'] == 'SD'])
print(hechos[hechos['Calle'] == 'SD'])

# Verificar datos Na

print(hechos['LUGAR_DEL_HECHO'].isnull().sum())
print(hechos['TIPO_DE_CALLE'].isnull().sum())
print(hechos['Calle'].isnull().sum())

            ID  N_VICTIMAS      FECHA  AAAA  MM  DD      HORA  HH  \
119  2016-0151           1 2016-11-18  2016  11  18  20:35:00  20   

    LUGAR_DEL_HECHO TIPO_DE_CALLE  ... Altura  Cruce Dirección Normalizada  \
119              SD         CALLE  ...    NaN    NaN                   NaN   

    COMUNA    XY (CABA) pos x pos y PARTICIPANTES VICTIMA ACUSADO  
119      0  Point (. .)     .     .     PEATON-SD  PEATON      SD  

[1 rows x 21 columns]
Empty DataFrame
Columns: [ID, N_VICTIMAS, FECHA, AAAA, MM, DD, HORA, HH, LUGAR_DEL_HECHO, TIPO_DE_CALLE, Calle, Altura, Cruce, Dirección Normalizada, COMUNA, XY (CABA), pos x, pos y, PARTICIPANTES, VICTIMA, ACUSADO]
Index: []

[0 rows x 21 columns]
Empty DataFrame
Columns: [ID, N_VICTIMAS, FECHA, AAAA, MM, DD, HORA, HH, LUGAR_DEL_HECHO, TIPO_DE_CALLE, Calle, Altura, Cruce, Dirección Normalizada, COMUNA, XY (CABA), pos x, pos y, PARTICIPANTES, VICTIMA, ACUSADO]
Index: []

[0 rows x 21 columns]
0
0
1


Las variables `LUGAR_DEL_HECHO`, `TIPO_DE_CALLE` y `Calle` contienen información sobre la ubicación de los incidentes y se encuentran acorde a la descripción, se detecto un valor 'SD' que se debera tratar.

In [152]:
hechos['LUGAR_DEL_HECHO'].replace('SD', pd.NA, inplace=True)
hechos.dropna(subset=['LUGAR_DEL_HECHO'], inplace=True)

# Altura, Cruce

In [153]:
print(hechos['Altura'].unique())
print(hechos['Altura'].isnull().sum())
print(hechos['Cruce'].unique())
print(hechos['Cruce'].isnull().sum())

[   nan  2034.  1366.   156.  1483.    30.  1471.  3900.  2384.  1410.
  4233.  3500.   984.  4895. 15200.   900.  5645.   300.  4500.  3319.
  3055.  7121.  1429.  2651.  2699.  2186.  5940.  4900.  2950.  3696.
   133.  1930.   390.   901.  2639.  2114.  5400.  2135.  5750.  1211.
   611.  3555.  6350.   365.  5249.   937.  1019.  2800.  2320.  6950.
  1571.   879.  2300.  2430. 11050.  2215.  3400.  2968.  1513.   150.
 14800.  5321. 11200.   550.  7013.  1893.  1974.  1400.  5172.  4650.
 16080.  4100.  5402.  5638.  6326.  3444.  3050.   665.   650.  1700.
  1548.  2976.   305.  4706.  5600.  2874.  1788.  4300.  2428.  6700.
  5455.  2250.   466.  2860.   770.  1279.  1339.  2551.  1550.   614.
  5437.  1100.  1845.  1118.  3800.  1675.  1623. 10900.  4000.  5958.
 14723.  5783.  2269.  2723.  2906.  5071.  3428.  2730.  2152.  1169.
  3112.  1359.  3655.  4071.   709.]
564
['FERNANDEZ DE LA CRUZ, F., GRAL. AV.' 'DE LOS CORRALES AV.' nan
 'VILLEGAS, CONRADO, GRAL.' 'SAENZ PE?A, L

In [154]:
print(hechos[['Altura', 'Dirección Normalizada']][hechos['Altura'].isnull()])
print(hechos[['Cruce', 'Dirección Normalizada']][hechos['Cruce'].isnull()])
# Mostrar registro con altura nula
print(hechos['Dirección Normalizada'][0], hechos['Altura'][1])

# Mostrar registro con altura

print(hechos['Dirección Normalizada'][2], hechos['Altura'][2])

# Mostrar registro con Cruce nulo
print(hechos['Dirección Normalizada'][2], hechos['Cruce'][2])

# Mostrar registro con Cruce

print(hechos['Dirección Normalizada'][0], hechos['Cruce'][0])

     Altura                              Dirección Normalizada
0       NaN  PIEDRA BUENA AV. y FERNANDEZ DE LA CRUZ, F., G...
1       NaN               PAZ, GRAL. AV. y DE LOS CORRALES AV.
3       NaN          LARRAZABAL AV. y VILLEGAS, CONRADO, GRAL.
4       NaN            SAN JUAN AV. y SAENZ PEÃ‘A, LUIS, PRES.
5       NaN                   27 DE FEBRERO AV. y ESCALADA AV.
..      ...                                                ...
689     NaN                           BAIGORRIA y HUGO, VICTOR
690     NaN                     RIVADAVIA AV. y PUEYRREDON AV.
691     NaN                                  RIESTRA AV. y MOM
692     NaN         DELLEPIANE, LUIS, TTE. GRAL. y LACARRA AV.
693     NaN                                GAONA AV. y TERRADA

[564 rows x 2 columns]
    Cruce                       Dirección Normalizada
2     NaN                         ENTRE RIOS AV. 2034
9     NaN                         ENTRE RIOS AV. 1366
14    NaN                                SUIPACHA 156
33  

Contiene 564 valores nulos, debido a que estas variables estan condicionada con la variable `Dirección Normalizada`, algunas direcciones no contienen altura he aqui el motivo de los valores nulos, por lo que no se realizaran transformaciones.

# Dirección Normalizada

In [155]:
hechos['Dirección Normalizada']

0      PIEDRA BUENA AV. y FERNANDEZ DE LA CRUZ, F., G...
1                   PAZ, GRAL. AV. y DE LOS CORRALES AV.
2                                    ENTRE RIOS AV. 2034
3              LARRAZABAL AV. y VILLEGAS, CONRADO, GRAL.
4                SAN JUAN AV. y SAENZ PEÃ‘A, LUIS, PRES.
                             ...                        
691                                    RIESTRA AV. y MOM
692           DELLEPIANE, LUIS, TTE. GRAL. y LACARRA AV.
693                                  GAONA AV. y TERRADA
694                                  PERON, EVA AV. 4071
695                              PADRE CARLOS MUGICA 709
Name: Dirección Normalizada, Length: 691, dtype: object

In [156]:
hechos['Dirección Normalizada'].isnull().sum()

7

In [157]:
hechos[hechos['Dirección Normalizada'].isnull()]

Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,DD,HORA,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,...,Altura,Cruce,Dirección Normalizada,COMUNA,XY (CABA),pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO
38,2016-0052,1,2016-04-20,2016,4,20,20:00:00,20,AUTOPISTA LUGONES PK 10000,AUTOPISTA,...,,,,13,Point (. .),.,.,MOTO-SD,MOTO,SD
106,2016-0136,1,2016-10-25,2016,10,25,00:00:00,0,AU BUENOS AIRES - LA PLATA KM. 4,AUTOPISTA,...,,,,4,Point (. .),.,.,MOTO-CARGAS,MOTO,CARGAS
180,2017-0050,2,2017-04-28,2017,4,28,11:08:00,11,AU PERITO MORENO Y RAMAL ENLACE AU1/AU6,AUTOPISTA,...,,,,9,Point (. .),.,.,MOTO-CARGAS,MOTO,CARGAS
181,2017-0051,1,2017-05-01,2017,5,1,03:47:00,3,AU DELLEPIANE 2400,AUTOPISTA,...,,,,7,Point (. .),.,.,AUTO-AUTO,AUTO,AUTO
313,2018-0039,1,2018-04-21,2018,4,21,22:15:00,22,AUTOPISTA LUGONES KM 4.7,AUTOPISTA,...,,,,14,Point (. .),.,.,PEATON-AUTO,PEATON,AUTO
546,2020-0026,1,2020-05-17,2020,5,17,06:40:00,6,"LUGONES, LEOPOLDO AV. KM 6,1",AUTOPISTA,...,,,,14,Point (. .),.,.,MOTO-OBJETO FIJO,MOTO,OBJETO FIJO
621,2021-0023,1,2021-03-01,2021,3,1,09:20:00,9,"AU BUENOS AIRES LA PLATA KM 4,5",AUTOPISTA,...,,,,4,Point (. .),.,.,MOTO-CARGAS,MOTO,CARGAS


In [158]:
hechos[hechos['Dirección Normalizada'] == 'SD']

Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,DD,HORA,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,...,Altura,Cruce,Dirección Normalizada,COMUNA,XY (CABA),pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO


In [159]:
# Eliminar registros con Dirección Normalizada nula

hechos.dropna(subset=['Dirección Normalizada'], inplace=True)

# COMUNA

In [160]:
print(hechos['COMUNA'].unique())

[ 8  9  1 11 15  4  7 12  3 13 14 10  6  2  5  0]


Hay registros que no estan en el rango de 1-15 (0) 

In [161]:
hechos[hechos['COMUNA'] == 0]

Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,DD,HORA,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,...,Altura,Cruce,Dirección Normalizada,COMUNA,XY (CABA),pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO
139,2016-0174,1,2016-12-27,2016,12,27,00:00:00,0,AUTOPISTA 25 DE MAYO,AUTOPISTA,...,,,AUTOPISTA 25 DE MAYO,0,Point (. .),.,.,SD-SD,SD,SD


Se identifico un registro con valor 0, se eliminara este registro.

In [162]:
hechos['COMUNA'].replace(0, pd.NA, inplace=True)

hechos.dropna(subset=['COMUNA'], inplace=True)

# XY (CABA), pos x, pos y


In [163]:
print(hechos['XY (CABA)'].unique())
print(hechos['pos x'].unique())
print(hechos['pos y'].unique())
print(hechos['XY (CABA)'].dtype)
print(hechos['pos x'].dtype)
print(hechos['pos y'].dtype)

['Point (98896.78238426 93532.43437792)'
 'Point (95832.05571093 95505.41641999)'
 'Point (106684.29090040 99706.57687843)'
 'Point (99840.65224780 94269.16534422)'
 'Point (106980.32827929 100752.16915795)'
 'Point (101721.59002217 93844.25656649)'
 'Point (96545.87592078 102330.67262199)'
 'Point (107595.35084333 101797.50052813)'
 'Point (106616.41069662 100496.44662323)'
 'Point (102357.43746828 103343.52002839)'
 'Point (108661.59115206 98481.75445555)'
 'Point (101228.61094416 96623.72136186)'
 'Point (95727.37083199 97179.35560349)'
 'Point (107684.31807562 102519.17333314)'
 'Point (101074.94198885 99848.19369046)'
 'Point (107507.39502374 102046.08333077)'
 'Point (100077.95205948 91571.23307293)'
 'Point (97350.75566590 109083.19420265)'
 'Point (101679.82794245 98973.02976850)'
 'Point (107457.87314266 103212.28518029)'
 'Point (99037.31284333 109733.12041651)'
 'Point (99327.01838497 92326.91130631)'
 'Point (105230.98315750 97613.97258373)'
 'Point (106513.41423248 102752.

Hay registros sin coordenadas asignada, se eliminaran estos registros.

In [164]:
con1 = (hechos['XY (CABA)'] == 'Point (. .)')
con2 = (hechos['pos x'] == '.') | (hechos['pos y'] == '.')
hechos[con1 | con2]

Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,DD,HORA,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,...,Altura,Cruce,Dirección Normalizada,COMUNA,XY (CABA),pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO
35,2016-0049,1,2016-04-17,2016,4,17,00:00:00,0,AUTOPISTA 1 SUR PRESIDENTE ARTURO FRONDIZI KM....,AUTOPISTA,...,,,AUTOPISTA 1 SUR PRESIDENTE ARTURO FRONDIZI,4,Point (. .),-58.37714647568196,-34.63657525428238,SD-SD,SD,SD
71,2016-0096,1,2016-07-25,2016,7,25,07:00:00,7,"AUTOPISTA DELLEPIANE LUIS TTE. GRAL. KM. 2,3",AUTOPISTA,...,,,AUTOPISTA DELLEPIANE LUIS TTE. GRAL.,8,Point (. .),-58.47433193007387,-34.66684950051973,MOTO-CARGAS,MOTO,CARGAS
176,2017-0042,1,2017-04-10,2017,4,10,09:00:00,9,AV. LEOPOLDO LUGONES PKM 6900,GRAL PAZ,...,,,"LUGONES, LEOPOLDO AV.",14,Point (. .),.,.,MOTO-CARGAS,MOTO,CARGAS
256,2017-0140,1,2017-11-19,2017,11,19,23:22:00,23,AU ARTURO FRONDIZI PKM 3100,AUTOPISTA,...,,,AUTOPISTA 1 SUR PRESIDENTE ARTURO FRONDIZI,4,Point (. .),.,.,MOTO-PASAJEROS,MOTO,PASAJEROS
559,2020-0039,1,2020-09-01,2020,9,1,19:17:00,19,MURGUIONDO 2700,CALLE,...,,,MURGUIONDO,9,Point (. .),.,.,PEATON-CARGAS,PEATON,CARGAS


`XY (CABA)` contiene coordenadas planas en el sistema de referencia de la Ciudad de Buenos Aires, `pos x` y `pos y` contienen coordenadas geograficas en el sistema de referencia WGS84 pero el tipo de dato es Object, debe ser transformado a float luego de realizar la limpieza.

Existen registros de `XY (CABA)` que estan sin especificar, pero en las variables `pos x` y `pos y` si estan registrados, por lo que se procedera a eliminaran solo los registros que no esten registrados en ninguna de las variables.



In [165]:
hechos = hechos[~(con2)]

In [166]:
# convertir a float las columnas pos x y pos y
hechos['pos x'] = hechos['pos x'].astype(float)

hechos['pos y'] = hechos['pos y'].astype(float)

In [167]:
# verificar tipo de datos

print(hechos['pos x'].dtype)
print(hechos['pos y'].dtype)

float64
float64


# PARTICIPANTES, VICTIMA, ACUSADO


In [168]:
print(hechos['PARTICIPANTES'].unique())
print(hechos['VICTIMA'].unique())
print(hechos['ACUSADO'].unique())

['MOTO-AUTO' 'AUTO-PASAJEROS' 'MOTO-SD' 'MOTO-PASAJEROS'
 'MOTO-OBJETO FIJO' 'MOTO-CARGAS' 'PEATON-AUTO' 'PEATON-MOTO'
 'PEATON-PASAJEROS' 'AUTO-AUTO' 'AUTO-OBJETO FIJO' 'PEATON-CARGAS'
 'MOTO-MOTO' 'MULTIPLE' 'SD-SD' 'AUTO-CARGAS' 'AUTO-SD' 'MOTO-MOVIL'
 'CARGAS-CARGAS' 'PEATON-SD' 'BICICLETA-CARGAS' 'SD-CARGAS'
 'BICICLETA-PASAJEROS' 'PASAJEROS-PASAJEROS' 'MOVIL-PASAJEROS'
 'CARGAS-OBJETO FIJO' 'PEATON-BICICLETA' 'SD-AUTO' 'CARGAS-AUTO'
 'BICICLETA-AUTO' 'MOTO-BICICLETA' 'SD-MOTO' 'MOVIL-CARGAS'
 'PASAJEROS-AUTO' 'AUTO-MOVIL' 'CARGAS-PASAJEROS' 'BICICLETA-TREN'
 'BICICLETA-OTRO' 'MOTO-OTRO' 'PEATON_MOTO-MOTO' 'PASAJEROS-SD']
['MOTO' 'AUTO' 'PEATON' 'SD' 'CARGAS' 'BICICLETA' 'PASAJEROS' 'MOVIL'
 'OBJETO FIJO' 'PEATON_MOTO']
['AUTO' 'PASAJEROS' 'SD' 'OBJETO FIJO' 'CARGAS' 'MOTO' 'MULTIPLE' 'OTRO'
 'BICICLETA' 'TREN']




Se realizara una imputación del valor mas frecuente para las variables `VICTIMA` y `ACUSADO` que contienen valores 'SD', luego con esos datos se creara la columna `PARTICIPANTES` que es la concatenación de `VICTIMA` y `ACUSADO` excepto cuando `ACUSADO` contiene "MULTIPLE".
Se verificara que todos los valores de `PARTICIPANTES` correspondan a los valores de `VICTIMA` y `ACUSADO`.
Se detecto una inconsistencia en la variable `VICTIMA` , contienen registros con el valor 'OBJETO FIJO' o 'PEATON_MOTO' que no estan en el diccionario , por lo que se deben tratar.

In [169]:

# Filtrar registros donde 'VICTIMA' o 'ACUSADO' contienen 'sd' (insensible a mayúsculas/minúsculas)
filtro_contiene_sd = hechos['VICTIMA'].str.contains(
    'sd', case=False) | hechos['ACUSADO'].str.contains('sd', case=False)

# Aplicar el filtro para obtener filas con valores potencialmente inválidos en 'VICTIMA' o 'ACUSADO'
registros_con_sd = hechos.loc[filtro_contiene_sd,
                              ['PARTICIPANTES', 'VICTIMA', 'ACUSADO']]

# Capturar los índices de las filas filtradas para futura referencia
indices_con_sd = registros_con_sd.index.tolist()
print(
    f"Número de registros con 'sd' en 'VICTIMA' o 'ACUSADO': {len(registros_con_sd)}")


# Obtener el valor más frecuente para 'VICTIMA' y 'ACUSADO' en todo el DataFrame
valor_frecuente_victima = hechos['VICTIMA'].mode().iloc[0]
valor_frecuente_acusado = hechos['ACUSADO'].mode().iloc[0]

# Iterar sobre los índices de registros inválidos para imputación
for indice in indices_con_sd:
    # Imputar 'VICTIMA' y 'ACUSADO' con su respectivo valor más frecuente
    hechos.at[indice, 'VICTIMA'] = valor_frecuente_victima
    hechos.at[indice, 'ACUSADO'] = valor_frecuente_acusado

    # Actualizar 'PARTICIPANTES' con los valores imputados de 'VICTIMA' y 'ACUSADO'
    valor_imputado_victima = hechos.at[indice, 'VICTIMA']
    valor_imputado_acusado = hechos.at[indice, 'ACUSADO']
    valor_imputado_participantes = f"{valor_imputado_victima}-{valor_imputado_acusado}"
    hechos.at[indice, 'PARTICIPANTES'] = valor_imputado_participantes

# Verificar las filas actualizadas para asegurar que la imputación fue exitosa
hechos.loc[indices_con_sd, ['PARTICIPANTES', 'VICTIMA', 'ACUSADO']]

Número de registros con 'sd' en 'VICTIMA' o 'ACUSADO': 23


Unnamed: 0,PARTICIPANTES,VICTIMA,ACUSADO
3,MOTO-AUTO,MOTO,AUTO
32,MOTO-AUTO,MOTO,AUTO
35,MOTO-AUTO,MOTO,AUTO
57,MOTO-AUTO,MOTO,AUTO
76,MOTO-AUTO,MOTO,AUTO
83,MOTO-AUTO,MOTO,AUTO
88,MOTO-AUTO,MOTO,AUTO
92,MOTO-AUTO,MOTO,AUTO
105,MOTO-AUTO,MOTO,AUTO
112,MOTO-AUTO,MOTO,AUTO


In [170]:
hechos[(hechos['VICTIMA'] == "OBJETO FIJO") |
       (hechos['VICTIMA'] == "PEATON_MOTO")]

Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,DD,HORA,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,...,Altura,Cruce,Dirección Normalizada,COMUNA,XY (CABA),pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO
230,2017-0108,2,2017-09-02,2017,9,2,04:53:00,4,AV. GRAL. PAZ Y MACHAIN,GRAL PAZ,...,,MACHAIN,"PAZ, GRAL. AV. y MACHAIN",12,Point (97098.48468623 109019.96106626),-58.494911,-34.547956,AUTO-OBJETO FIJO,OBJETO FIJO,AUTO
583,2020-0063,2,2020-12-05,2020,12,5,07:10:00,7,NUEVA YORK Y ALTA GRACIA,CALLE,...,,ALTA GRACIA,NUEVA YORK y ALTA GRACIA,11,Point (94080.62190808 102083.62453795),-58.527838,-34.61047,PEATON_MOTO-MOTO,PEATON_MOTO,MOTO


Se intercambiaran los valores de `VICTIMA` y `ACUSADO` ya que se encuentran invertidos y se borrara el registro con el valor 'PEATON_MOTO'.

In [171]:

# Intercambiar valores de 'VICTIMA' y 'ACUSADO' para registros donde 'VICTIMA' es "OBJETO FIJO"

mask = hechos['VICTIMA'] == "OBJETO FIJO"
hechos.loc[mask, ['VICTIMA', 'ACUSADO']] = hechos.loc[mask, ['ACUSADO', 'VICTIMA']].values

# Eliminar el registro donde 'VICTIMA' es "PEATON_MOTO"
hechos = hechos[hechos['VICTIMA'] != "PEATON_MOTO"]

In [172]:
hechos['PARTICIPANTES_TEORICO'] = hechos['VICTIMA'] + '-' + hechos['ACUSADO']

In [173]:
filtro = hechos['PARTICIPANTES'] != hechos['PARTICIPANTES_TEORICO']

hechos[filtro]

Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,DD,HORA,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,...,Cruce,Dirección Normalizada,COMUNA,XY (CABA),pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO,PARTICIPANTES_TEORICO
31,2016-0044,1,2016-03-31,2016,3,31,19:40:00,19,AV JOSE MARIA MORENO Y BALBASTRO,AVENIDA,...,BALBASTRO,"MORENO, JOSE MARIA AV. y BALBASTRO",7,Point (102857.73817324 99148.76714504),-58.432132,-34.63694,MULTIPLE,MOTO,MULTIPLE,MOTO-MULTIPLE
62,2016-0085,1,2016-06-29,2016,6,29,22:00:00,22,AVDA ITE FRANCISCO RABANAL & AVDA EREZCANO,AVENIDA,...,EREZCANO,"RABANAL, FRANCISCO, INTENDENTE AV. y EREZCANO",4,Point (103621.92252760 96885.28433165),-58.423788,-34.657341,MOTO-MOVIL,MOTO,OTRO,MOTO-OTRO
143,2016-0178,1,2016-12-30,2016,12,30,16:18:00,16,REPUBLICA BOLIVARIANA DE VENEZUELA Y SAAVEDRA,CALLE,...,SAAVEDRA,REPUBLICA BOLIVARIANA DE VENEZUELA y SAAVEDRA,3,Point (105541.07964363 101532.48653010),-58.402882,-34.615441,MULTIPLE,PEATON,MULTIPLE,PEATON-MULTIPLE
146,2017-0007,1,2017-01-11,2017,1,11,17:00:00,17,LIMA Y MEXICO,CALLE,...,MEXICO,LIMA y MEXICO,1,Point (107491.43483173 101547.26343171),-58.381617,-34.615295,MULTIPLE,PEATON,MULTIPLE,PEATON-MULTIPLE
153,2017-0014,1,2017-01-28,2017,1,28,08:27:00,8,AV. DONADO Y ARIAS,AVENIDA,...,ARIAS,DONADO y ARIAS,12,Point (97378.59173196 108741.41437861),-58.49186,-34.550468,MULTIPLE,MOTO,MULTIPLE,MOTO-MULTIPLE
174,2017-0040,1,2017-04-03,2017,4,3,09:40:00,9,CAMINO CIUDAD UNUVERSITARIA Y AV. TTE. GUIRALDES,AVENIDA,...,,"GUIRALDES, INT. 2699",13,Point (102290.82648731 109281.08885461),-58.438342,-34.545604,MULTIPLE,AUTO,MULTIPLE,AUTO-MULTIPLE
225,2017-0101,1,2017-08-23,2017,8,23,10:00:00,10,AV. FCO. LACROZE Y ZAPATA,AVENIDA,...,ZAPATA,"LACROZE, FEDERICO AV. y ZAPATA",13,Point (101644.77699748 106480.78805418),-58.445375,-34.570848,MULTIPLE,PEATON,MULTIPLE,PEATON-MULTIPLE
277,2018-0003,1,2018-01-05,2018,1,5,10:12:00,10,"Pueyrredon, Honorio, Dr. Av. y Galicia",AVENIDA,...,GALICIA,"PUEYRREDON, HONORIO, DR. AV. y GALICIA",15,Point (101348.13972450 102808.02053976),-58.448602,-34.603957,MULTIPLE,PEATON,MULTIPLE,PEATON-MULTIPLE
278,2018-0004,1,2018-01-09,2018,1,9,09:40:00,9,Del Libertador Av. y Manzanares,AVENIDA,...,MANZANARES,DEL LIBERTADOR AV. y MANZANARES,13,Point (100183.96103971 109533.84269558),-58.461295,-34.543328,MULTIPLE,MOTO,MULTIPLE,MOTO-MULTIPLE
333,2018-0059,1,2018-06-08,2018,6,8,06:20:00,6,"Garay, Juan De Av. y Sanchez De Loria",AVENIDA,...,SANCHEZ DE LORIA,"GARAY, JUAN DE AV. y SANCHEZ DE LORIA",5,Point (104724.05358972 99878.51159963),-58.411782,-34.630355,MOTO-MOVIL,MOTO,OTRO,MOTO-OTRO


Cuando `PARTICIPANTES` toma el valor de "MOTO-MOVIL" o "AUTO-MOVIL" se observa una valor de "OTRO" en la variable `ACUSADO` lo cual no es consistente, por lo que se procedera a realizar una transformación.

In [174]:
mask = (hechos['PARTICIPANTES'] == 'MOTO-MOVIL') | (hechos['PARTICIPANTES'] == 'AUTO-MOVIL')
hechos.loc[mask, 'ACUSADO'] = 'MOVIL'


In [175]:
hechos.drop(columns=['PARTICIPANTES_TEORICO'], inplace=True)

### Procesamiento de la tabla `victimas`

In [176]:
victimas

Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO
0,2016-0001,2016-01-01,2016,1,1,CONDUCTOR,MOTO,MASCULINO,19,2016-01-01 00:00:00
1,2016-0002,2016-01-02,2016,1,2,CONDUCTOR,AUTO,MASCULINO,70,2016-01-02 00:00:00
2,2016-0003,2016-01-03,2016,1,3,CONDUCTOR,MOTO,MASCULINO,30,2016-01-03 00:00:00
3,2016-0004,2016-01-10,2016,1,10,CONDUCTOR,MOTO,MASCULINO,18,SD
4,2016-0005,2016-01-21,2016,1,21,CONDUCTOR,MOTO,MASCULINO,29,2016-02-01 00:00:00
...,...,...,...,...,...,...,...,...,...,...
712,2021-0092,2021-12-12,2021,12,12,PEATON,PEATON,FEMENINO,50,2021-12-12 00:00:00
713,2021-0093,2021-12-13,2021,12,13,PASAJERO_ACOMPAÑANTE,MOTO,FEMENINO,18,2021-12-18 00:00:00
714,2021-0094,2021-12-20,2021,12,20,PASAJERO_ACOMPAÑANTE,MOTO,FEMENINO,43,2021-12-20 00:00:00
715,2021-0095,2021-12-30,2021,12,30,CONDUCTOR,MOTO,MASCULINO,27,2022-01-02 00:00:00


In [177]:
victimas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 717 entries, 0 to 716
Data columns (total 10 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   ID_hecho             717 non-null    object        
 1   FECHA                717 non-null    datetime64[ns]
 2   AAAA                 717 non-null    int64         
 3   MM                   717 non-null    int64         
 4   DD                   717 non-null    int64         
 5   ROL                  717 non-null    object        
 6   VICTIMA              717 non-null    object        
 7   SEXO                 717 non-null    object        
 8   EDAD                 717 non-null    object        
 9   FECHA_FALLECIMIENTO  717 non-null    object        
dtypes: datetime64[ns](1), int64(3), object(6)
memory usage: 56.1+ KB


### Reporte Preliminar de la Tabla "Víctimas"

La tabla "Víctimas" consta de 717 entradas y 10 columnas, ofreciendo información detallada sobre cada víctima relacionada con los hechos registrados. A continuación, se presenta un análisis preliminar de cada variable contenida en la tabla:

1. **ID_hecho**: Con 717 registros no nulos, esta columna sirve como identificador único para cada hecho, vinculando potencialmente cada víctima a un incidente específico en la tabla principal de hechos. La integridad completa de esta variable facilita la correlación y el análisis conjunto con otras tablas.

2. **FECHA**: Presenta la fecha del hecho asociado a cada víctima. Al igual que `ID_hecho`, cuenta con 717 valores no nulos, permitiendo análisis temporales detallados y correlaciones con eventos específicos.

3. **AAAA**, **MM**, **DD**: Estas columnas descomponen la fecha del hecho en año, mes y día, respectivamente, lo cual simplifica la realización de análisis por períodos específicos y facilita la identificación de patrones o tendencias temporales.

4. **ROL**: Con 717 valores no nulos, esta columna describe el papel o la relación de la víctima con el hecho. La completitud de los datos en esta variable es clave para entender la dinámica de los incidentes y realizar análisis demográficos o psicosociales.

5. **VICTIMA**: También completa para todos los registros, proporciona el nombre o identificador de la víctima. Esto es crucial para análisis individuales o para identificar posibles víctimas recurrentes en diferentes hechos.

6. **SEXO**: Con 717 registros no nulos, indica el género de cada víctima. Esta variable es fundamental para realizar estudios de género y entender la distribución de los hechos según el sexo de las víctimas.

7. **EDAD**: Esta columna, completa en todos los registros, ofrece la edad de las víctimas en el momento del hecho. La disponibilidad completa de esta información permite realizar análisis demográficos detallados y entender mejor las poblaciones afectadas por los hechos registrados.

8. **FECHA_FALLECIMIENTO**: Aunque se marca como no nula para todos los registros, esta columna podría contener valores indicativos de que no todas las víctimas fallecieron (por ejemplo, fechas de fallecimiento ficticias o indicadores de no aplicabilidad). Es crucial para análisis de mortalidad y puede requerir una inspección más detallada para identificar correctamente los casos de fallecimiento real.



# ID_hecho


In [178]:
# Verificar ID duplicados

victimas['ID_hecho'].duplicated().sum()

21

En este caso, la variable `ID_hecho` se presenta como un identificador único para cada hecho, permitiendo la correlación con la tabla principal de hechos. Se detectan duplicados debido a que hay mas de una victima por hecho, por lo que no se realizaran transformaciones.

# FECHA, AAAA, MM, DD

In [179]:
victimas[['FECHA', 'AAAA', 'MM', 'DD']].dtypes

FECHA    datetime64[ns]
AAAA              int64
MM                int64
DD                int64
dtype: object

In [180]:
victimas['FECHA'].describe()

count                              717
mean     2018-09-09 01:36:24.100418304
min                2016-01-01 00:00:00
25%                2017-04-01 00:00:00
50%                2018-07-07 00:00:00
75%                2019-12-18 00:00:00
max                2021-12-30 00:00:00
Name: FECHA, dtype: object

In [181]:
print(victimas['AAAA'].unique())
print(victimas['MM'].unique())
print(victimas['DD'].unique())

[2016 2017 2018 2019 2020 2021]
[ 1  2  3  4  5  6  7  8  9 10 11 12]
[ 1  2  3 10 21 24 29  8 14 15 17 28  4 12 13 19 23 30 31 11 20 22 25 26
 16 18 27  7  9  5  6]


Las variables presentan consistencia con el diccionario de datos, por lo que no se realizaran transformaciones.

# ROL, VICTIMA

In [182]:
print(victimas['ROL'].unique())
print(victimas['VICTIMA'].unique())

['CONDUCTOR' 'PASAJERO_ACOMPAÑANTE' 'PEATON' 'SD' 'CICLISTA']
['MOTO' 'AUTO' 'PEATON' 'SD' 'CARGAS' 'BICICLETA' 'PASAJEROS' 'MOVIL']


Se detectaron registros con valores no especificados para los dos variables, se procedera a eliminar estos registros.

In [183]:
con1 = (victimas['VICTIMA'] == 'SD')
con2 = (victimas['ROL'] == 'SD')
victimas[con1 | con2]

Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO
36,2016-0049,2016-04-17,2016,4,17,SD,SD,SD,SD,SD
39,2016-0052,2016-04-20,2016,4,20,SD,MOTO,SD,SD,SD
63,2016-0085,2016-06-29,2016,6,29,SD,MOTO,MASCULINO,SD,SD
77,2016-0101,2016-08-07,2016,8,7,SD,SD,MASCULINO,67,SD
89,2016-0115,2016-09-02,2016,9,2,SD,SD,MASCULINO,SD,SD
93,2016-0119,2016-09-04,2016,9,4,PASAJERO_ACOMPAÑANTE,SD,FEMENINO,SD,SD
141,2016-0174,2016-12-27,2016,12,27,SD,SD,SD,SD,SD
167,2017-0029,2017-03-07,2017,3,7,SD,SD,MASCULINO,34,2017-03-07 00:00:00
208,2017-0074,2017-06-04,2017,6,4,SD,SD,MASCULINO,70,2017-06-04 00:00:00
221,2017-0089,2017-07-13,2017,7,13,SD,SD,MASCULINO,23,SD


In [184]:
victimas = victimas[~(con1 | con2)]

#   SEXO, EDAD

In [185]:
print(victimas['SEXO'].unique())
print(victimas['EDAD'].unique())

['MASCULINO' 'FEMENINO' 'SD']
[19 70 30 18 29 22 16 59 65 34 41 50 38 21 52 36 20 54 'SD' 56 24 78 79 26
 57 37 58 23 60 42 53 51 40 87 76 75 35 80 43 45 27 55 49 67 81 25 33 46
 83 39 28 7 48 4 82 32 17 47 61 10 95 73 84 66 85 1 15 13 44 31 62 74 71
 11 86 69 72 12 77 63 92 68 91 64 5 88]


- `SEXO` : Es consistente con el diccionario de datos, contiene datos sin especificar que se deben tratar.
- `EDAD` : Los rangos de edad observados son consistentes, contiene datos sin especificar que se deben tratar.

In [186]:
victimas[victimas['SEXO'] == "SD"]

Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO
108,2016-0136,2016-10-25,2016,10,25,CONDUCTOR,MOTO,SD,SD,SD
121,2016-0151,2016-11-18,2016,11,18,PEATON,PEATON,SD,SD,SD
138,2016-0171,2016-12-25,2016,12,25,CONDUCTOR,MOTO,SD,SD,SD


In [187]:
victimas = victimas[victimas['SEXO'] != "SD"]

In [188]:
victimas[victimas['EDAD'] == "SD"].shape[0] / victimas.shape[0] * 100

6.267806267806268

Al ser 44 datos sin especificar, lo que representa aproximadamente el 6% del total de los registros, se realizara una imputación para no perder tanta información que puede influir en los resultados finales.

In [189]:
# Tomar SD y reemplazar por la moda

victimas['EDAD'] = victimas['EDAD'].replace('SD', pd.NA)

In [190]:
victimas['EDAD'].fillna(victimas['EDAD'].mode().iloc[0], inplace=True)

# FECHA_FALLECIMIENTO

Se especificaran los valores SD como NA, y se transformara el tipo de dato a datetime64[ns].

In [191]:
victimas['FECHA_FALLECIMIENTO'].replace('SD', pd.NA, inplace=True)

In [192]:
victimas['FECHA_FALLECIMIENTO'] = pd.to_datetime(
    victimas['FECHA_FALLECIMIENTO'], errors='coerce')

# Unificación de las tablas y exportación 

Se unificaran las tablas `hechos` y `victimas` mediante la variable `ID`, se mantendran las variables que se consideren relevantes para el análisis exploratorio de datos y se exportara el resultado a un archivo csv.

In [193]:
victimas.drop(columns=['FECHA', 'AAAA', 'MM', 'DD',
              'FECHA_FALLECIMIENTO', 'VICTIMA'], inplace=True)



victimas

Unnamed: 0,ID_hecho,ROL,SEXO,EDAD
0,2016-0001,CONDUCTOR,MASCULINO,19
1,2016-0002,CONDUCTOR,MASCULINO,70
2,2016-0003,CONDUCTOR,MASCULINO,30
3,2016-0004,CONDUCTOR,MASCULINO,18
4,2016-0005,CONDUCTOR,MASCULINO,29
...,...,...,...,...
712,2021-0092,PEATON,FEMENINO,50
713,2021-0093,PASAJERO_ACOMPAÑANTE,FEMENINO,18
714,2021-0094,PASAJERO_ACOMPAÑANTE,FEMENINO,43
715,2021-0095,CONDUCTOR,MASCULINO,27


In [194]:
hechos.drop(columns=['Altura', 'Cruce'], inplace=True)

In [195]:
hechos.query('VICTIMA == "OBJETO FIJO"')

Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,DD,HORA,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,Calle,Dirección Normalizada,COMUNA,XY (CABA),pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO


In [196]:
homicidios = hechos.merge(victimas, left_on='ID', right_on='ID_hecho')

In [197]:
homicidios.drop(columns=['ID_hecho'], inplace=True)

In [198]:
homicidios.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 687 entries, 0 to 686
Data columns (total 22 columns):
 #   Column                 Non-Null Count  Dtype         
---  ------                 --------------  -----         
 0   ID                     687 non-null    object        
 1   N_VICTIMAS             687 non-null    int64         
 2   FECHA                  687 non-null    datetime64[ns]
 3   AAAA                   687 non-null    int64         
 4   MM                     687 non-null    int64         
 5   DD                     687 non-null    int64         
 6   HORA                   687 non-null    object        
 7   HH                     687 non-null    object        
 8   LUGAR_DEL_HECHO        687 non-null    object        
 9   TIPO_DE_CALLE          687 non-null    object        
 10  Calle                  687 non-null    object        
 11  Dirección Normalizada  687 non-null    object        
 12  COMUNA                 687 non-null    object        
 13  XY (C

In [199]:
homicidios

Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,DD,HORA,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,...,COMUNA,XY (CABA),pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO,ROL,SEXO,EDAD
0,2016-0001,1,2016-01-01,2016,1,1,04:00:00,4,AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ,AVENIDA,...,8,Point (98896.78238426 93532.43437792),-58.475340,-34.687570,MOTO-AUTO,MOTO,AUTO,CONDUCTOR,MASCULINO,19
1,2016-0002,1,2016-01-02,2016,1,2,01:15:00,1,AV GRAL PAZ Y AV DE LOS CORRALES,GRAL PAZ,...,9,Point (95832.05571093 95505.41641999),-58.508775,-34.669777,AUTO-PASAJEROS,AUTO,PASAJEROS,CONDUCTOR,MASCULINO,70
2,2016-0003,1,2016-01-03,2016,1,3,07:00:00,7,AV ENTRE RIOS 2034,AVENIDA,...,1,Point (106684.29090040 99706.57687843),-58.390403,-34.631894,MOTO-AUTO,MOTO,AUTO,CONDUCTOR,MASCULINO,30
3,2016-0004,1,2016-01-10,2016,1,10,00:00:00,0,AV LARRAZABAL Y GRAL VILLEGAS CONRADO,AVENIDA,...,8,Point (99840.65224780 94269.16534422),-58.465039,-34.680930,MOTO-AUTO,MOTO,AUTO,CONDUCTOR,MASCULINO,18
4,2016-0005,1,2016-01-21,2016,1,21,05:20:00,5,AV SAN JUAN Y PRESIDENTE LUIS SAENZ PEÑA,AVENIDA,...,1,Point (106980.32827929 100752.16915795),-58.387183,-34.622466,MOTO-PASAJEROS,MOTO,PASAJEROS,CONDUCTOR,MASCULINO,29
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
682,2021-0093,1,2021-12-13,2021,12,13,17:10:00,17,AV. RIESTRA Y MOM,AVENIDA,...,7,Point (102728.60090138 98186.24929177),-58.433538,-34.645616,MOTO-AUTO,MOTO,AUTO,PASAJERO_ACOMPAÑANTE,FEMENINO,18
683,2021-0094,1,2021-12-20,2021,12,20,01:10:00,1,AU DELLEPIANE Y LACARRA,AUTOPISTA,...,9,Point (99624.29795829 97569.69801131),-58.467398,-34.651178,MOTO-AUTO,MOTO,AUTO,PASAJERO_ACOMPAÑANTE,FEMENINO,43
684,2021-0095,1,2021-12-30,2021,12,30,00:43:00,0,AV. GAONA Y TERRADA,AVENIDA,...,11,Point (99116.45492358 101045.23284826),-58.472934,-34.619847,MOTO-CARGAS,MOTO,CARGAS,CONDUCTOR,MASCULINO,27
685,2021-0096,1,2021-12-15,2021,12,15,10:30:00,10,AV. EVA PERON 4071,AVENIDA,...,9,Point (99324.54463985 97676.26932409),-58.470668,-34.650217,AUTO-CARGAS,AUTO,CARGAS,CONDUCTOR,MASCULINO,60


In [200]:

# Renombrar columnas para que an
homicidios.rename(columns={
    "ID": "id_caso",
    "N_VICTIMAS": "num_victimas",
    "FECHA": "fecha",
    "AAAA": "anio",
    "MM": "mes",
    "DD": "dia",
    "HORA": "hora",
    "HH": "hora_exacta",
    "LUGAR_DEL_HECHO": "lugar_hecho",
    "TIPO_DE_CALLE": "tipo_calle",
    "Calle": "nombre_calle",
    "Dirección Normalizada": "direccion_normalizada",
    "COMUNA": "comuna",
    "XY (CABA)": "coordenadas_planas",
    "pos x": "lon",
    "pos y": "lat",
    "PARTICIPANTES": "participantes",
    "VICTIMA": "victima",
    "ACUSADO": "acusado",
    "ROL": "rol_participante",
    "SEXO": "sexo",
    "EDAD": "edad"
}, inplace=True)

# Verificar los cambios
homicidios.head()

Unnamed: 0,id_caso,num_victimas,fecha,anio,mes,dia,hora,hora_exacta,lugar_hecho,tipo_calle,...,comuna,coordenadas_planas,lon,lat,participantes,victima,acusado,rol_participante,sexo,edad
0,2016-0001,1,2016-01-01,2016,1,1,04:00:00,4,AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ,AVENIDA,...,8,Point (98896.78238426 93532.43437792),-58.47534,-34.68757,MOTO-AUTO,MOTO,AUTO,CONDUCTOR,MASCULINO,19
1,2016-0002,1,2016-01-02,2016,1,2,01:15:00,1,AV GRAL PAZ Y AV DE LOS CORRALES,GRAL PAZ,...,9,Point (95832.05571093 95505.41641999),-58.508775,-34.669777,AUTO-PASAJEROS,AUTO,PASAJEROS,CONDUCTOR,MASCULINO,70
2,2016-0003,1,2016-01-03,2016,1,3,07:00:00,7,AV ENTRE RIOS 2034,AVENIDA,...,1,Point (106684.29090040 99706.57687843),-58.390403,-34.631894,MOTO-AUTO,MOTO,AUTO,CONDUCTOR,MASCULINO,30
3,2016-0004,1,2016-01-10,2016,1,10,00:00:00,0,AV LARRAZABAL Y GRAL VILLEGAS CONRADO,AVENIDA,...,8,Point (99840.65224780 94269.16534422),-58.465039,-34.68093,MOTO-AUTO,MOTO,AUTO,CONDUCTOR,MASCULINO,18
4,2016-0005,1,2016-01-21,2016,1,21,05:20:00,5,AV SAN JUAN Y PRESIDENTE LUIS SAENZ PEÑA,AVENIDA,...,1,Point (106980.32827929 100752.16915795),-58.387183,-34.622466,MOTO-PASAJEROS,MOTO,PASAJEROS,CONDUCTOR,MASCULINO,29


In [201]:
homicidios.rol_participante.unique()

array(['CONDUCTOR', 'PASAJERO_ACOMPAÑANTE', 'PEATON', 'CICLISTA'],
      dtype=object)

In [202]:
# Recodificar los valores de la columna tipo_calle 
homicidios['tipo_calle'] = homicidios['tipo_calle'].replace({
    'AVENIDA': 'Avenida',
    'GRAL PAZ': 'General Paz',
    'CALLE': 'Calle',
    'AUTOPISTA': 'Autopista'
})

# Recodificar los valores de la columna rol_participante array(['CONDUCTOR', 'PASAJERO_ACOMPAÑANTE', 'PEATON', 'CICLISTA'],
homicidios['rol_participante'] = homicidios['rol_participante'].replace({
    'CONDUCTOR': 'Conductor',
    'PASAJERO_ACOMPAÑANTE': 'Pasajero Acompañante',
    'PEATON': 'Peatón',
    'CICLISTA': 'Ciclista'
})

# Recodificar los valores de la columna victima

homicidios['victima'] = homicidios['victima'].replace({
    'MOTO': 'Moto',
    'AUTO': 'Automóvil',
    'PEATON': 'Peatón',
    'CARGAS': 'Cargas',
    'BICICLETA': 'Bicicleta',
    'PASAJEROS': 'Pasajeros',
    'MOVIL': 'Móvil'
})
# Recodificar los valores de la columna acusado

homicidios['acusado'] = homicidios['acusado'].replace({
    'AUTO': 'Automóvil',
    'PASAJEROS': 'Pasajeros',
    'OBJETO FIJO': 'Objeto Fijo',
    'CARGAS': 'Cargas',
    'MOTO': 'Moto',
    'MULTIPLE': 'Múltiple',
    'BICICLETA': 'Bicicleta',
    'MOVIL': 'Móvil',
    'TREN': 'Tren',
    'OTRO': 'Otro'
})







In [134]:
homicidios.to_excel("./data/homicidios_clean.xlsx", index=False)