In [1]:
import pandas as pd
import numpy as np  
import re
import googlemaps
from itertools import zip_longest
from dateutil.parser import parse
import geopandas as gpd
from shapely.geometry import Point

# Extracción de Datos

## Abrir y Reconvertir Datos

---

### homicidios.xlsx

In [2]:
content_homicidios= '_src/homicidios.xlsx'

dataset_homicidios_hechos = pd.read_excel(content_homicidios,sheet_name=0)
dataset_homicidios_victimas = pd.read_excel(content_homicidios,sheet_name=2)

In [3]:
dataset_homicidios_hechos.head(1)

Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,DD,HORA,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,...,Altura,Cruce,Dirección Normalizada,COMUNA,XY (CABA),pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO
0,2016-0001,1,2016-01-01,2016,1,1,04:00:00,4,AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ,AVENIDA,...,,"FERNANDEZ DE LA CRUZ, F., GRAL. AV.","PIEDRA BUENA AV. y FERNANDEZ DE LA CRUZ, F., G...",8,Point (98896.78238426 93532.43437792),-58.47533969,-34.68757022,MOTO-AUTO,MOTO,AUTO


---

### lesiones.xlsx

In [4]:
content_lesiones= '_src/lesiones.xlsx'

dataset_lesiones_hechos = pd.read_excel(content_lesiones,sheet_name=0)
dataset_lesiones_victimas = pd.read_excel(content_lesiones,sheet_name=2)

In [5]:
dataset_lesiones_hechos.head(1)

Unnamed: 0,id,n_victimas,aaaa,mm,dd,fecha,hora,franja_hora,direccion_normalizada,comuna,...,latutid,victima,acusado,participantes,moto,auto,transporte_publico,camion,ciclista,gravedad
0,LC-2019-0000179,1,2019,1,1,2019-01-01 00:00:00,09:00:00,9,SD,14,...,-34.559658,CICLISTA,SD,CICLISTA-SD,SD,SD,SD,SD,x,SD


---
---

## Revision de homicidios.xlsx

### Análisis de datos nulos por columnas en la tabla hechos

In [6]:
dataset_homicidios_hechos.isnull().sum()

ID                         0
N_VICTIMAS                 0
FECHA                      0
AAAA                       0
MM                         0
DD                         0
HORA                       0
HH                         0
LUGAR_DEL_HECHO            0
TIPO_DE_CALLE              0
Calle                      1
Altura                   567
Cruce                    171
Dirección Normalizada      8
COMUNA                     0
XY (CABA)                  0
pos x                      0
pos y                      0
PARTICIPANTES              0
VICTIMA                    0
ACUSADO                    0
dtype: int64

- Viendo los nulos, podemos revisar los referidos a ubicacion, luego horario y finalmente participantes, para ver si se pueden reemplazar los datos, eliminar o mantener.
- Para evitar errores, reemplazamos valores `'sd'`, `'Sd'`, `'SD'`, `'sD'` o vacíos por NaN para los análisis siguientes. Cabe aclarar que no es util hacerlo para columnas numéricas.

In [7]:
valores_a_reemplazar = ['sd', 'Sd', 'SD', 'sD', '']

columnas_a_actualizar = ['LUGAR_DEL_HECHO', 'Calle', 'Altura', 'Cruce', 'Dirección Normalizada']
dataset_homicidios_hechos[columnas_a_actualizar] = dataset_homicidios_hechos[columnas_a_actualizar].replace(valores_a_reemplazar, np.nan, regex=True)


In [8]:
filas_con_nan = dataset_homicidios_hechos[dataset_homicidios_hechos[['LUGAR_DEL_HECHO','Calle', 'Altura', 'Cruce', 'Dirección Normalizada']].isnull().all(axis=1)]
filas_con_nan.head(2)

Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,DD,HORA,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,...,Altura,Cruce,Dirección Normalizada,COMUNA,XY (CABA),pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO
119,2016-0151,1,2016-11-18,2016,11,18,20:35:00,20,,CALLE,...,,,,0,Point (. .),.,.,PEATON-SD,PEATON,SD


Según lo obtenido podríamos eliminar la fila 119 ya que no posee ningún dato de importancia en su totalidad

In [9]:
dataset_homicidios_hechos.drop(119, inplace=True)

#### Faltantes en Ubicación

- Por otro lado, las columnas `'Altura'` (567 de 696) y `'Cruce'` (171 de 696) poseen gran cantidad de datos faltantes, por lo que podriamos eliminarlas directamente, pero debemos antes revisar si poseen algún dato que sirva para completar `'Dirección Normalizada'` que solo posee 8 datos faltantes.


In [10]:
columnas_mostrar = ['LUGAR_DEL_HECHO', 'Calle', 'Altura', 'Cruce', 'Dirección Normalizada','XY (CABA)', 'pos x', 'pos y']
filas_con_nan = dataset_homicidios_hechos[dataset_homicidios_hechos['Dirección Normalizada'].isna()]
filas_con_nan[columnas_mostrar].head(len(filas_con_nan))


Unnamed: 0,LUGAR_DEL_HECHO,Calle,Altura,Cruce,Dirección Normalizada,XY (CABA),pos x,pos y
38,AUTOPISTA LUGONES PK 10000,"LUGONES, LEOPOLDO AV.",,,,Point (. .),.,.
106,AU BUENOS AIRES - LA PLATA KM. 4,AUTOPISTA BUENOS AIRES - LA PLATA,,,,Point (. .),.,.
180,AU PERITO MORENO Y RAMAL ENLACE AU1/AU6,AUTOPISTA PERITO MORENO,,,,Point (. .),.,.
181,AU DELLEPIANE 2400,AUTOPISTA DELLEPIANE LUIS TTE. GRAL.,,,,Point (. .),.,.
313,AUTOPISTA LUGONES KM 4.7,"LUGONES, LEOPOLDO AV.",,,,Point (. .),.,.
546,"LUGONES, LEOPOLDO AV. KM 6,1","LUGONES, LEOPOLDO AV.",,,,Point (. .),.,.
621,"AU BUENOS AIRES LA PLATA KM 4,5",AUTOPISTA BUENOS AIRES - LA PLATA,,,,Point (. .),.,.


De aqui podemos inferir que `'Dirección Normalizada'` y `'LUGAR_DEL_HECHO'` son muy similares, por lo que podríamos elegir cual es la mejor y eliminarla junto a `'Altura'`, `'Cruce'` y `'Calle'`. Además tampoco podemos completar direccion normalizada ya que los datos anteriormente nombrados no poseen lo suficiente para hacerlo.

#### Faltantes en Coordenadas

In [11]:
resultados = dataset_homicidios_hechos[dataset_homicidios_hechos['XY (CABA)'].str.contains(r'Point \(. .\)')]
print('La Cantiad de posiciones faltantes en ''XY (CABA)'' son:', len(resultados))
resultados.head(len(resultados))

La Cantiad de posiciones faltantes en XY (CABA) son: 13


Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,DD,HORA,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,...,Altura,Cruce,Dirección Normalizada,COMUNA,XY (CABA),pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO
35,2016-0049,1,2016-04-17,2016,4,17,00:00:00,0,AUTOPISTA 1 SUR PRESIDENTE ARTURO FRONDIZI KM....,AUTOPISTA,...,,,AUTOPISTA 1 SUR PRESIDENTE ARTURO FRONDIZI,4,Point (. .),-58.37714647568196,-34.63657525428238,SD-SD,SD,SD
38,2016-0052,1,2016-04-20,2016,4,20,20:00:00,20,AUTOPISTA LUGONES PK 10000,AUTOPISTA,...,,,,13,Point (. .),.,.,MOTO-SD,MOTO,SD
71,2016-0096,1,2016-07-25,2016,7,25,07:00:00,7,"AUTOPISTA DELLEPIANE LUIS TTE. GRAL. KM. 2,3",AUTOPISTA,...,,,AUTOPISTA DELLEPIANE LUIS TTE. GRAL.,8,Point (. .),-58.47433193007387,-34.66684950051973,MOTO-CARGAS,MOTO,CARGAS
106,2016-0136,1,2016-10-25,2016,10,25,00:00:00,0,AU BUENOS AIRES - LA PLATA KM. 4,AUTOPISTA,...,,,,4,Point (. .),.,.,MOTO-CARGAS,MOTO,CARGAS
139,2016-0174,1,2016-12-27,2016,12,27,00:00:00,0,AUTOPISTA 25 DE MAYO,AUTOPISTA,...,,,AUTOPISTA 25 DE MAYO,0,Point (. .),.,.,SD-SD,SD,SD
176,2017-0042,1,2017-04-10,2017,4,10,09:00:00,9,AV. LEOPOLDO LUGONES PKM 6900,GRAL PAZ,...,,,"LUGONES, LEOPOLDO AV.",14,Point (. .),.,.,MOTO-CARGAS,MOTO,CARGAS
180,2017-0050,2,2017-04-28,2017,4,28,11:08:08,11,AU PERITO MORENO Y RAMAL ENLACE AU1/AU6,AUTOPISTA,...,,,,9,Point (. .),.,.,MOTO-CARGAS,MOTO,CARGAS
181,2017-0051,1,2017-05-01,2017,5,1,03:47:47,3,AU DELLEPIANE 2400,AUTOPISTA,...,,,,7,Point (. .),.,.,AUTO-AUTO,AUTO,AUTO
256,2017-0140,1,2017-11-19,2017,11,19,23:22:17,23,AU ARTURO FRONDIZI PKM 3100,AUTOPISTA,...,,,AUTOPISTA 1 SUR PRESIDENTE ARTURO FRONDIZI,4,Point (. .),.,.,MOTO-PASAJEROS,MOTO,PASAJEROS
313,2018-0039,1,2018-04-21,2018,4,21,22:15:00,22,AUTOPISTA LUGONES KM 4.7,AUTOPISTA,...,,,,14,Point (. .),.,.,PEATON-AUTO,PEATON,AUTO


#### Llenado de coordenadas

- Aqui utilizamos un codigo regex que puede ayudarnos a normalizar las direcciones que pueden aportar datos para llenar las coordendas. 
- Es importante aclarar que dada la variedad de formas en que se escriben las direcciones probablemente este metodo no aporte todo lo que se necesita para hacer bien la corrección, pero es un metodo que puede ampliarse para que funcione para obtener mas informacion en futuras ocaciones.

In [12]:
def normalizar_direccion(direccion):
    if direccion is not None:
        patron = r'^(\w+), (\w+) (av|au)[.] (km)[.]?\s*([0-9,.]+)$'
        match = re.match(patron, direccion, flags=re.IGNORECASE)
        if match:
            print(direccion,'\n')
            apellido = match.group(1)
            nombre = match.group(2)
            tipo_via = match.group(3)
            altura_via = match.group(4)
            resto_direccion = match.group(5)
            direccion_normalizada = f"{tipo_via.capitalize()}. {nombre.capitalize()} {apellido.capitalize()} {altura_via.capitalize()}. {resto_direccion}"
            print(direccion_normalizada,'\n')
            return direccion_normalizada
    return direccion  

dataset_homicidios_hechos['LUGAR_DEL_HECHO'] = dataset_homicidios_hechos['LUGAR_DEL_HECHO'].apply(normalizar_direccion)

LUGONES, LEOPOLDO AV. KM 6,1 

Av. Leopoldo Lugones Km. 6,1 



- Dadas las direcciones, se procede a extraer las coordenadas que faltan para el análisis posterior.

In [13]:
gmaps = googlemaps.Client(key='AIzaSyD6kHGa4C5SqWtsHHtEPyYIQsHYdTVQsfA')

def geocode_and_update(row):
    direccion = row['LUGAR_DEL_HECHO']
    pos_x = row['pos x']
    pos_y = row['pos y']

    if pd.notnull(direccion) and pos_x == '.' and pos_y == '.':
        direccion = str(direccion).lower()
        if direccion not in ['nan', 'sd']:
            geocode_result = gmaps.geocode(direccion)
            if geocode_result:
                latitud = geocode_result[0]['geometry']['location']['lat']
                longitud = geocode_result[0]['geometry']['location']['lng']
                dataset_homicidios_hechos.at[row.name, 'pos x'] = longitud
                dataset_homicidios_hechos.at[row.name, 'pos y'] = latitud

dataset_homicidios_hechos.apply(geocode_and_update, axis=1)

0      None
1      None
2      None
3      None
4      None
       ... 
691    None
692    None
693    None
694    None
695    None
Length: 695, dtype: object

- A continuacion controlamos y revisamos lo obtenido. Aunque `'XY (CABA)'` no es sobre lo que trabajamos, es lo que representa el faltante de coordenadas.

In [14]:
resultados = dataset_homicidios_hechos[dataset_homicidios_hechos['XY (CABA)'].str.contains(r'Point \(. .\)')]
print('La Cantiad de posiciones faltantes en ''XY (CABA)'' son:', len(resultados))
resultados.head(len(resultados))

La Cantiad de posiciones faltantes en XY (CABA) son: 13


Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,DD,HORA,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,...,Altura,Cruce,Dirección Normalizada,COMUNA,XY (CABA),pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO
35,2016-0049,1,2016-04-17,2016,4,17,00:00:00,0,AUTOPISTA 1 SUR PRESIDENTE ARTURO FRONDIZI KM....,AUTOPISTA,...,,,AUTOPISTA 1 SUR PRESIDENTE ARTURO FRONDIZI,4,Point (. .),-58.37714647568196,-34.63657525428238,SD-SD,SD,SD
38,2016-0052,1,2016-04-20,2016,4,20,20:00:00,20,AUTOPISTA LUGONES PK 10000,AUTOPISTA,...,,,,13,Point (. .),-58.438553,-34.548452,MOTO-SD,MOTO,SD
71,2016-0096,1,2016-07-25,2016,7,25,07:00:00,7,"AUTOPISTA DELLEPIANE LUIS TTE. GRAL. KM. 2,3",AUTOPISTA,...,,,AUTOPISTA DELLEPIANE LUIS TTE. GRAL.,8,Point (. .),-58.47433193007387,-34.66684950051973,MOTO-CARGAS,MOTO,CARGAS
106,2016-0136,1,2016-10-25,2016,10,25,00:00:00,0,AU BUENOS AIRES - LA PLATA KM. 4,AUTOPISTA,...,,,,4,Point (. .),-58.180757,-34.760963,MOTO-CARGAS,MOTO,CARGAS
139,2016-0174,1,2016-12-27,2016,12,27,00:00:00,0,AUTOPISTA 25 DE MAYO,AUTOPISTA,...,,,AUTOPISTA 25 DE MAYO,0,Point (. .),-61.998686,-31.433825,SD-SD,SD,SD
176,2017-0042,1,2017-04-10,2017,4,10,09:00:00,9,AV. LEOPOLDO LUGONES PKM 6900,GRAL PAZ,...,,,"LUGONES, LEOPOLDO AV.",14,Point (. .),-58.438553,-34.548452,MOTO-CARGAS,MOTO,CARGAS
180,2017-0050,2,2017-04-28,2017,4,28,11:08:08,11,AU PERITO MORENO Y RAMAL ENLACE AU1/AU6,AUTOPISTA,...,,,,9,Point (. .),-58.492535,-34.640641,MOTO-CARGAS,MOTO,CARGAS
181,2017-0051,1,2017-05-01,2017,5,1,03:47:47,3,AU DELLEPIANE 2400,AUTOPISTA,...,,,,7,Point (. .),-58.475567,-34.669254,AUTO-AUTO,AUTO,AUTO
256,2017-0140,1,2017-11-19,2017,11,19,23:22:17,23,AU ARTURO FRONDIZI PKM 3100,AUTOPISTA,...,,,AUTOPISTA 1 SUR PRESIDENTE ARTURO FRONDIZI,4,Point (. .),-58.376785,-34.637704,MOTO-PASAJEROS,MOTO,PASAJEROS
313,2018-0039,1,2018-04-21,2018,4,21,22:15:00,22,AUTOPISTA LUGONES KM 4.7,AUTOPISTA,...,,,,14,Point (. .),.,.,PEATON-AUTO,PEATON,AUTO


Como se puede ver se han encontrado las nuevas coordenadas mas adelante revisaremos que sean correctas.

---
---

#### Análisis de datos nulos por columnas en la tabla victimas

In [15]:
dataset_homicidios_victimas.head()

Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO
0,2016-0001,2016-01-01,2016,1,1,CONDUCTOR,MOTO,MASCULINO,19,2016-01-01 00:00:00
1,2016-0002,2016-01-02,2016,1,2,CONDUCTOR,AUTO,MASCULINO,70,2016-01-02 00:00:00
2,2016-0003,2016-01-03,2016,1,3,CONDUCTOR,MOTO,MASCULINO,30,2016-01-03 00:00:00
3,2016-0004,2016-01-10,2016,1,10,CONDUCTOR,MOTO,MASCULINO,18,SD
4,2016-0005,2016-01-21,2016,1,21,CONDUCTOR,MOTO,MASCULINO,29,2016-02-01 00:00:00


In [16]:
dataset_homicidios_victimas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 717 entries, 0 to 716
Data columns (total 10 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   ID_hecho             717 non-null    object        
 1   FECHA                717 non-null    datetime64[ns]
 2   AAAA                 717 non-null    int64         
 3   MM                   717 non-null    int64         
 4   DD                   717 non-null    int64         
 5   ROL                  717 non-null    object        
 6   VICTIMA              717 non-null    object        
 7   SEXO                 717 non-null    object        
 8   EDAD                 717 non-null    object        
 9   FECHA_FALLECIMIENTO  717 non-null    object        
dtypes: datetime64[ns](1), int64(3), object(6)
memory usage: 56.1+ KB


In [17]:
dataset_homicidios_victimas.isnull().sum()

ID_hecho               0
FECHA                  0
AAAA                   0
MM                     0
DD                     0
ROL                    0
VICTIMA                0
SEXO                   0
EDAD                   0
FECHA_FALLECIMIENTO    0
dtype: int64

- Ahora podemos cambiar los valores sin_dato por nulo, solo en la columnas que se podrían a conservar. 
- En el caso de EDAD como las demás numéricas, no se puede poner nulo o cero porque alteraría mucho la estadística. 
- Luego volvemos a revisar la tabla.

#### Columna EDAD

In [18]:
dataset_homicidios_victimas.head()

Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO
0,2016-0001,2016-01-01,2016,1,1,CONDUCTOR,MOTO,MASCULINO,19,2016-01-01 00:00:00
1,2016-0002,2016-01-02,2016,1,2,CONDUCTOR,AUTO,MASCULINO,70,2016-01-02 00:00:00
2,2016-0003,2016-01-03,2016,1,3,CONDUCTOR,MOTO,MASCULINO,30,2016-01-03 00:00:00
3,2016-0004,2016-01-10,2016,1,10,CONDUCTOR,MOTO,MASCULINO,18,SD
4,2016-0005,2016-01-21,2016,1,21,CONDUCTOR,MOTO,MASCULINO,29,2016-02-01 00:00:00


In [19]:
cantidad_unicos_edad = dataset_homicidios_victimas['EDAD'].nunique()
print(f"Cantidad de valores únicos en 'EDAD': {cantidad_unicos_edad}")
valores_unicos_edad = dataset_homicidios_victimas['EDAD'].unique()
print(f"Valores únicos en 'EDAD': {valores_unicos_edad}")

Cantidad de valores únicos en 'EDAD': 86
Valores únicos en 'EDAD': [19 70 30 18 29 22 16 59 65 34 41 50 38 21 52 36 20 54 'SD' 56 24 78 79 26
 57 37 58 23 60 42 53 51 40 87 76 75 35 80 43 45 67 27 55 49 81 25 33 46
 83 39 28 7 48 4 82 32 17 47 61 10 95 73 84 66 85 1 15 13 77 44 31 62 74
 71 11 86 69 72 12 63 92 68 91 64 5 88]


In [20]:
conteo_ocurrencias = dataset_homicidios_victimas['EDAD'].str.upper().value_counts()
filas_con_ocurrencias = dataset_homicidios_victimas[dataset_homicidios_victimas['EDAD'].str.upper().isin(['SD', '']).fillna(False)]
print("Conteo de ocurrencias:")
print(conteo_ocurrencias)
print("\nFilas donde aparecen:")
filas_con_ocurrencias.head()

Conteo de ocurrencias:
EDAD
SD    53
Name: count, dtype: int64

Filas donde aparecen:


Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO
30,2016-0041,2016-03-29,2016,3,29,PASAJERO_ACOMPAÑANTE,MOTO,MASCULINO,SD,2016-03-30 00:00:00
33,2016-0045,2016-04-11,2016,4,11,CONDUCTOR,MOTO,MASCULINO,SD,SD
35,2016-0048,2016-04-15,2016,4,15,PEATON,PEATON,FEMENINO,SD,SD
36,2016-0049,2016-04-17,2016,4,17,SD,SD,SD,SD,SD
39,2016-0052,2016-04-20,2016,4,20,SD,MOTO,SD,SD,SD


In [21]:
valores_a_reemplazar = ['sd', 'Sd', 'SD', 'sD', '']
columnas_a_conservar=['EDAD']
dataset_homicidios_victimas[columnas_a_conservar] = dataset_homicidios_victimas[columnas_a_conservar].replace(valores_a_reemplazar, 'SD', regex=True)

In [22]:
print('Cantidad de registros en la tabla: ',len(dataset_homicidios_victimas))
dataset_homicidios_victimas.isnull().sum()


Cantidad de registros en la tabla:  717


ID_hecho               0
FECHA                  0
AAAA                   0
MM                     0
DD                     0
ROL                    0
VICTIMA                0
SEXO                   0
EDAD                   0
FECHA_FALLECIMIENTO    0
dtype: int64

Partiendo de estos datos podemos concluir que la tabla se encuentra bastante completa, por lo que se puede combinar con la de homicidios mas adelante según el id del siniestro (`'ID_hecho'`) . Antes de hacerlo debemos tener en cuenta las columnas que necesitamos para continuar. Sabiendo que las tablas tienen correlacion se conservará `'ID_hecho'`, `'ROL'`, `'VICTIMA'`, `'SEXO'` y `'EDAD'`. Además podríamos crear una columna de rangos etarios para mejor análisis posterior.

#### Creacion de Rangos Etarios

Convertimos edad a entero y llenamos nulos por negativo, para luego reemplazar por SD

In [23]:
dataset_homicidios_victimas['EDAD'] = pd.to_numeric(dataset_homicidios_victimas['EDAD'],errors="coerce")
dataset_homicidios_victimas['EDAD'] = dataset_homicidios_victimas['EDAD'].astype("Int64")
dataset_homicidios_victimas['EDAD'] = dataset_homicidios_victimas['EDAD'].fillna(-1)

In [24]:
rangos = [0, 15, 30, 45, 60, 75, 90, 105]
etiquetas = ['Menos de 15', ' Entre 15 & 30', 'Entre 30 & 45', 'Entre 45 & 60', 'Entre 60 & 75','Entre 75 & 90','Más de 90']
dataset_homicidios_victimas['RANGO_ETARIO'] = pd.cut(dataset_homicidios_victimas['EDAD'], bins=rangos, labels=etiquetas, right=False)
dataset_homicidios_victimas.head()

Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO,RANGO_ETARIO
0,2016-0001,2016-01-01,2016,1,1,CONDUCTOR,MOTO,MASCULINO,19,2016-01-01 00:00:00,Entre 15 & 30
1,2016-0002,2016-01-02,2016,1,2,CONDUCTOR,AUTO,MASCULINO,70,2016-01-02 00:00:00,Entre 60 & 75
2,2016-0003,2016-01-03,2016,1,3,CONDUCTOR,MOTO,MASCULINO,30,2016-01-03 00:00:00,Entre 30 & 45
3,2016-0004,2016-01-10,2016,1,10,CONDUCTOR,MOTO,MASCULINO,18,SD,Entre 15 & 30
4,2016-0005,2016-01-21,2016,1,21,CONDUCTOR,MOTO,MASCULINO,29,2016-02-01 00:00:00,Entre 15 & 30


In [25]:
filas_con_ocurrencias = dataset_homicidios_victimas[dataset_homicidios_victimas['EDAD'] == -1]
print("\nFilas donde 'EDAD' es igual a -1:")
filas_con_ocurrencias.head()


Filas donde 'EDAD' es igual a -1:


Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO,RANGO_ETARIO
30,2016-0041,2016-03-29,2016,3,29,PASAJERO_ACOMPAÑANTE,MOTO,MASCULINO,-1,2016-03-30 00:00:00,
33,2016-0045,2016-04-11,2016,4,11,CONDUCTOR,MOTO,MASCULINO,-1,SD,
35,2016-0048,2016-04-15,2016,4,15,PEATON,PEATON,FEMENINO,-1,SD,
36,2016-0049,2016-04-17,2016,4,17,SD,SD,SD,-1,SD,
39,2016-0052,2016-04-20,2016,4,20,SD,MOTO,SD,-1,SD,


In [26]:
dataset_homicidios_victimas.isnull().sum()

ID_hecho                0
FECHA                   0
AAAA                    0
MM                      0
DD                      0
ROL                     0
VICTIMA                 0
SEXO                    0
EDAD                    0
FECHA_FALLECIMIENTO     0
RANGO_ETARIO           53
dtype: int64

#### Renombramos -1 por SD para trabajar con los datos en EDAD y renombramos los NaN por SD en RANGO_ETARIO

In [27]:
dataset_homicidios_victimas['EDAD'] = dataset_homicidios_victimas['EDAD'].astype(str)
dataset_homicidios_victimas['EDAD'] = dataset_homicidios_victimas['EDAD'].replace('-1', 'SD')
dataset_homicidios_victimas['RANGO_ETARIO'] = dataset_homicidios_victimas['RANGO_ETARIO'].astype(str)
dataset_homicidios_victimas['RANGO_ETARIO'] = dataset_homicidios_victimas['RANGO_ETARIO'].replace(np.nan, 'SD')
valores_unicos_edad = dataset_homicidios_victimas['EDAD'].unique()
print(f"Valores únicos en 'EDAD': {valores_unicos_edad}")

Valores únicos en 'EDAD': ['19' '70' '30' '18' '29' '22' '16' '59' '65' '34' '41' '50' '38' '21'
 '52' '36' '20' '54' 'SD' '56' '24' '78' '79' '26' '57' '37' '58' '23'
 '60' '42' '53' '51' '40' '87' '76' '75' '35' '80' '43' '45' '67' '27'
 '55' '49' '81' '25' '33' '46' '83' '39' '28' '7' '48' '4' '82' '32' '17'
 '47' '61' '10' '95' '73' '84' '66' '85' '1' '15' '13' '77' '44' '31' '62'
 '74' '71' '11' '86' '69' '72' '12' '63' '92' '68' '91' '64' '5' '88']


In [28]:
dataset_homicidios_victimas.head()

Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO,RANGO_ETARIO
0,2016-0001,2016-01-01,2016,1,1,CONDUCTOR,MOTO,MASCULINO,19,2016-01-01 00:00:00,Entre 15 & 30
1,2016-0002,2016-01-02,2016,1,2,CONDUCTOR,AUTO,MASCULINO,70,2016-01-02 00:00:00,Entre 60 & 75
2,2016-0003,2016-01-03,2016,1,3,CONDUCTOR,MOTO,MASCULINO,30,2016-01-03 00:00:00,Entre 30 & 45
3,2016-0004,2016-01-10,2016,1,10,CONDUCTOR,MOTO,MASCULINO,18,SD,Entre 15 & 30
4,2016-0005,2016-01-21,2016,1,21,CONDUCTOR,MOTO,MASCULINO,29,2016-02-01 00:00:00,Entre 15 & 30


---
---

## Revision de lesiones.xlsx

### Análisis de datos nulos por columnas en la tabla hechos

In [29]:
dataset_lesiones_hechos.isnull().sum()

id                           0
n_victimas                   0
aaaa                         0
mm                           0
dd                           0
fecha                        0
hora                         0
franja_hora                  5
direccion_normalizada       53
comuna                     169
tipo_calle                   0
otra_direccion               0
calle                    10918
altura                   11014
cruce                    14378
geocodificacion_CABA        39
longitud                   262
latutid                    262
victima                      0
acusado                      0
participantes                0
moto                        93
auto                        93
transporte_publico          93
camion                      93
ciclista                    93
gravedad                     0
dtype: int64

- Viendo los nulos, podemos revisar los referidos a ubicacion, luego horario y finalmente participantes, para ver si se pueden reemplazar los datos, eliminar o mantener.
- Para evitar errores, reemplazamos valores `'sd'`, `'Sd'`, `'SD'`, `'sD'` o vacíos por NaN para los análisis posteriores.

In [30]:
valores_a_reemplazar = ['sd', 'Sd', 'SD', 'sD', '']
columnas_lesiones_actualizar = ['comuna','calle', 'altura', 'cruce', 'direccion_normalizada']
dataset_lesiones_hechos[columnas_lesiones_actualizar] = dataset_lesiones_hechos[columnas_lesiones_actualizar].replace(valores_a_reemplazar, np.nan, regex=True)


In [31]:
filas_con_nan = dataset_lesiones_hechos[dataset_lesiones_hechos[['comuna','calle', 'altura', 'cruce', 'direccion_normalizada']].isnull().all(axis=1)]
print('Filas con NaN: ',len(filas_con_nan))
filas_con_nan.head(len(filas_con_nan))

Filas con NaN:  795


Unnamed: 0,id,n_victimas,aaaa,mm,dd,fecha,hora,franja_hora,direccion_normalizada,comuna,...,latutid,victima,acusado,participantes,moto,auto,transporte_publico,camion,ciclista,gravedad
567,LC-2019-0053244,1,2019,1,24,2019-01-24 00:00:00,07:00:00,7,,,...,,SD,SD,SD-SD,SD,SD,SD,SD,SD,sd
768,LC-2019-0068660,1,2019,2,1,2019-02-01 00:00:00,17:10:00,17,,,...,,SD,SD,SD-SD,SD,SD,SD,SD,SD,SD
1137,LC-2019-0100420,1,2019,2,15,2019-02-15 00:00:00,18:30:00,18,,,...,,SD,SD,SD-SD,SD,SD,SD,SD,SD,sd
1370,LC-2019-0117095,1,2019,2,23,2019-02-23 00:00:00,19:00:00,19,,,...,,SD,SD,SD-SD,SD,SD,SD,SD,SD,SD
2622,LC-2019-0210339,1,2019,4,4,2019-04-04 00:00:00,19:00:00,19,,,...,,SD,SD,SD-SD,SD,SD,SD,SD,SD,GRAVE
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
23642,LC-2021-0640811,1,2021,12,23,2021-12-23 00:00:00,18:00:00,18,,,...,SD,SD,SD,SD-SD,SD,SD,SD,SD,SD,SD
23663,LC-2021-0641694,1,2021,12,24,2021-12-24 00:00:00,19:40:00,19,,,...,-34.5704677450857,SD,SD,SD-SD,SD,SD,SD,SD,SD,SD
23669,LC-2021-0641851,1,2021,12,25,2021-12-25 00:00:00,00:00:00,0,,,...,SD,AUTO,SD,AUTO-SD,SD,x,SD,SD,SD,GRAVE
23740,LC-2021-0649774,1,2021,12,29,2021-12-29 00:00:00,00:00:00,0,,,...,SD,PEATON,MOTO,PEATON-MOTO,x,0,0,0,0,GRAVE


Según lo obtenido podríamos eliminar varias filas, mas precisamente 795, ya que no poseen ningún dato de importancia practicamente en su totalidad. Solo podemos guardar las que tienen alguna calificacion en la columna 'gravedad' ya que quizás pueden aportar algún dato de `'victima'`, `'acusado'` u `'horario'`.

In [32]:
filas_con_nan = dataset_lesiones_hechos[
    dataset_lesiones_hechos[['comuna', 'calle', 'altura',
                             'cruce', 'direccion_normalizada']].isnull().all(axis=1)]
filas_sin_nan_con_gravedad = filas_con_nan[~filas_con_nan['gravedad'].str.lower().eq('sd')]
indices_a_eliminar = filas_con_nan.index.difference(filas_sin_nan_con_gravedad.index)
dataset_lesiones_hechos = dataset_lesiones_hechos.drop(indices_a_eliminar)

In [33]:
dataset_lesiones_hechos.isnull().sum()

id                           0
n_victimas                   0
aaaa                         0
mm                           0
dd                           0
fecha                        0
hora                         0
franja_hora                  5
direccion_normalizada    10195
comuna                     342
tipo_calle                   0
otra_direccion               0
calle                    10245
altura                   10341
cruce                    13705
geocodificacion_CABA        22
longitud                   226
latutid                    226
victima                      0
acusado                      0
participantes                0
moto                        65
auto                        65
transporte_publico          65
camion                      65
ciclista                    65
gravedad                     0
dtype: int64

Revisamos `'gravedad'`

In [34]:
dataset_lesiones_hechos['gravedad'] = dataset_lesiones_hechos['gravedad'].str.lower()
conteo_gravedad = dataset_lesiones_hechos['gravedad'].value_counts()
print("Conteo de opciones diferentes:")
print(conteo_gravedad)

Conteo de opciones diferentes:
gravedad
sd       22466
grave      643
fatal        3
Name: count, dtype: int64


Filtramos datos utiles de `'gravedad'`

In [35]:
dataset_lesiones_hechos = dataset_lesiones_hechos[~dataset_lesiones_hechos['gravedad'].str.contains('sd', case=False)]
dataset_lesiones_hechos = dataset_lesiones_hechos[~dataset_lesiones_hechos['gravedad'].str.contains('grave', case=False)]
dataset_lesiones_hechos.head()

Unnamed: 0,id,n_victimas,aaaa,mm,dd,fecha,hora,franja_hora,direccion_normalizada,comuna,...,latutid,victima,acusado,participantes,moto,auto,transporte_publico,camion,ciclista,gravedad
12044,HC-2020-0129167,1,2020,2,28,2020-02-28 00:00:00,14:30:00,14,BRASIL AV. Y PASEO COLON AV.,,...,,MOTO,TRANSPORTE PUBLICO,MOTO-TRANSPORTE PUBLICO,,,,,,fatal
13884,hc-2020-0499647,3,2020,8,30,2020-08-30 00:00:00,04:00:00,4,"LAS HERAS GENERAL AV. Y DIAZ, CNEL. AV.",,...,,AUTO,AUTO,AUTO-AUTO,,,,,,fatal
15218,HC-2020-0624349,1,2020,11,21,2020-11-21 00:00:00,13:00:00,13,"PAZ, GRAL. AV. Y DOCTOR RAMON CARRILLO",8.0,...,-34.700942,MOTO,CAMION,MOTO-CAMION,x,0.0,0.0,x,0.0,fatal


- Ahora podemos ver que faltan muchos datos de ubicacion y además muchas de las columnas se encuentran sin dato (`'sd'`, `'SD'`), por lo que no aportan ninguna informacion para posteriores análisis por lo que se procederá a borrar las filas que no tengan informacion de la gravedad del hecho.

#### Revision de Direcciones

- Con estos datos podríamos probar de extraer los datos de las direcciones y ponerlas en coordenadas.
- Cabe aclarar que el regex usado no alcanza para todas las posibilidades que existen en la columna direccion_normalizada, pero algún dato extra podemos extraer. A posteriori podría probarse uno mas robusto.

In [36]:
dataset_lesiones_hechos['direccion_normalizada'] = dataset_lesiones_hechos['direccion_normalizada'].astype(str)

#### Normalización de direcciones

In [37]:
def normalizar_direccion(direccion):
    if direccion is not None:
        patron = r'^(\w+), (\w+) (av|au)[.] (km)[.]?\s*([0-9,.]+)$'
        match = re.match(patron, direccion, flags=re.IGNORECASE)
        if match:
            print(direccion,'\n')
            apellido = match.group(1)
            nombre = match.group(2)
            tipo_via = match.group(3)
            altura_via = match.group(4)
            resto_direccion = match.group(5)
            direccion_normalizada = f"{tipo_via.capitalize()}. {nombre.capitalize()} {apellido.capitalize()} {altura_via.capitalize()}. {resto_direccion}"
            print(direccion_normalizada,'\n')
            return direccion_normalizada
    return direccion  

dataset_lesiones_hechos['direccion_normalizada'] = dataset_lesiones_hechos['direccion_normalizada'].apply(normalizar_direccion)

In [38]:
def normalizar_direccion(direccion):
    if direccion is not None:
        patron = r'^(\w+), (\w+) (av|au)[.] (km)[.]?\s*([0-9,.]+)$'
        match = re.match(patron, direccion, flags=re.IGNORECASE)
        if match:
            print(direccion,'\n')
            apellido = match.group(1)
            nombre = match.group(2)
            tipo_via = match.group(3)
            altura_via = match.group(4)
            resto_direccion = match.group(5)
            direccion_normalizada = f"{tipo_via.capitalize()}. {nombre.capitalize()} {apellido.capitalize()} {altura_via.capitalize()}. {resto_direccion}"
            print(direccion_normalizada,'\n')
            return direccion_normalizada
    return direccion  

dataset_lesiones_hechos['otra_direccion'] = dataset_lesiones_hechos['otra_direccion'].apply(normalizar_direccion)

#### Extracción de Coordenadas

In [39]:
gmaps = googlemaps.Client(key='AIzaSyD6kHGa4C5SqWtsHHtEPyYIQsHYdTVQsfA')
def geocode_and_update(row):
    direccion = row['direccion_normalizada']
    pos_x = row['longitud']
    pos_y = row['latutid']

    if pd.notnull(direccion) and pos_x == '.' and pos_y == '.':
        direccion = str(direccion).lower()  
        if direccion not in ['nan', 'sd']:
            geocode_result = gmaps.geocode(direccion)
            if geocode_result:
                latitud = geocode_result[0]['geometry']['location']['lat']
                longitud = geocode_result[0]['geometry']['location']['lng']
                dataset_homicidios_hechos.at[row.name, 'longitud'] = longitud
                dataset_homicidios_hechos.at[row.name, 'latutid'] = latitud

dataset_lesiones_hechos.apply(geocode_and_update, axis=1)

12044    None
13884    None
15218    None
dtype: object

In [40]:
gmaps = googlemaps.Client(key='AIzaSyD6kHGa4C5SqWtsHHtEPyYIQsHYdTVQsfA')
def geocode_and_update(row):
    direccion = row['otra_direccion']
    pos_x = row['longitud']
    pos_y = row['latutid']

    if pd.notnull(direccion) and pos_x == '.' and pos_y == '.':
        direccion = str(direccion).lower()  
        if direccion not in ['nan', 'sd']:
            geocode_result = gmaps.geocode(direccion)
            if geocode_result:
                latitud = geocode_result[0]['geometry']['location']['lat']
                longitud = geocode_result[0]['geometry']['location']['lng']
                dataset_homicidios_hechos.at[row.name, 'longitud'] = longitud
                dataset_homicidios_hechos.at[row.name, 'latutid'] = latitud

dataset_lesiones_hechos.apply(geocode_and_update, axis=1)

12044    None
13884    None
15218    None
dtype: object

In [41]:
dataset_lesiones_hechos['id'] = dataset_lesiones_hechos['id'].astype(str)
dataset_lesiones_hechos['id'] = dataset_lesiones_hechos['id'].str.replace('LC-', '')
dataset_lesiones_hechos['id'] = dataset_lesiones_hechos['id'].str.replace('HC-', '')

In [42]:
resultados_lesiones = dataset_lesiones_hechos[dataset_lesiones_hechos['longitud'].str.contains(r'(?<!\d)\.(?!\d)', na=False, regex=True) | dataset_lesiones_hechos['longitud'].isnull()]
print('La Cantiad de posiciones faltantes o NaN en "longitud" son:', len(resultados_lesiones))
resultados_lesiones.head()

La Cantiad de posiciones faltantes o NaN en "longitud" son: 2


Unnamed: 0,id,n_victimas,aaaa,mm,dd,fecha,hora,franja_hora,direccion_normalizada,comuna,...,latutid,victima,acusado,participantes,moto,auto,transporte_publico,camion,ciclista,gravedad
12044,2020-0129167,1,2020,2,28,2020-02-28 00:00:00,14:30:00,14,BRASIL AV. Y PASEO COLON AV.,,...,,MOTO,TRANSPORTE PUBLICO,MOTO-TRANSPORTE PUBLICO,,,,,,fatal
13884,hc-2020-0499647,3,2020,8,30,2020-08-30 00:00:00,04:00:00,4,"LAS HERAS GENERAL AV. Y DIAZ, CNEL. AV.",,...,,AUTO,AUTO,AUTO-AUTO,,,,,,fatal


In [43]:
resultados_lesiones = dataset_lesiones_hechos[dataset_lesiones_hechos['latutid'].str.contains(r'(?<!\d)\.(?!\d)', na=False, regex=True) | dataset_lesiones_hechos['longitud'].isnull()]
print('La Cantiad de posiciones faltantes o NaN en "latitud" son:', len(resultados_lesiones))
resultados_lesiones.head()

La Cantiad de posiciones faltantes o NaN en "latitud" son: 2


Unnamed: 0,id,n_victimas,aaaa,mm,dd,fecha,hora,franja_hora,direccion_normalizada,comuna,...,latutid,victima,acusado,participantes,moto,auto,transporte_publico,camion,ciclista,gravedad
12044,2020-0129167,1,2020,2,28,2020-02-28 00:00:00,14:30:00,14,BRASIL AV. Y PASEO COLON AV.,,...,,MOTO,TRANSPORTE PUBLICO,MOTO-TRANSPORTE PUBLICO,,,,,,fatal
13884,hc-2020-0499647,3,2020,8,30,2020-08-30 00:00:00,04:00:00,4,"LAS HERAS GENERAL AV. Y DIAZ, CNEL. AV.",,...,,AUTO,AUTO,AUTO-AUTO,,,,,,fatal


Lamentablemente no habríamos agregado mas informacion a las coordenadas debido a la falta de calidad en los datos de `'direccion_normalizada'` y `'otra_direccion'`.

---
---

#### Análisis de datos nulos por columnas en la tabla victimas

In [44]:
dataset_lesiones_victimas.head()

Unnamed: 0,ID hecho,AAA,MM,DD,FECHA,VEHICULO_VICTIMA,SEXO,EDAD_VICTIMA,GRAVEDAD
0,LC-2019-0000053,2019,1,1,2019-01-01,sd,Varon,57,SD
1,LC-2019-0000063,2019,1,1,2019-01-01,sd,SD,SD,SD
2,LC-2019-0000079,2019,1,1,2019-01-01,sd,Varon,SD,SD
3,LC-2019-0000082,2019,1,1,2019-01-01,sd,Varon,45,SD
4,LC-2019-0000082,2019,1,1,2019-01-01,sd,Mujer,45,SD


In [45]:
dataset_lesiones_victimas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27605 entries, 0 to 27604
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   ID hecho          27605 non-null  object        
 1   AAA               27605 non-null  int64         
 2   MM                27605 non-null  int64         
 3   DD                27605 non-null  int64         
 4   FECHA             27605 non-null  datetime64[ns]
 5   VEHICULO_VICTIMA  27605 non-null  object        
 6   SEXO              27605 non-null  object        
 7   EDAD_VICTIMA      27605 non-null  object        
 8   GRAVEDAD          27605 non-null  object        
dtypes: datetime64[ns](1), int64(3), object(5)
memory usage: 1.9+ MB


In [46]:
dataset_lesiones_victimas.isnull().sum()

ID hecho            0
AAA                 0
MM                  0
DD                  0
FECHA               0
VEHICULO_VICTIMA    0
SEXO                0
EDAD_VICTIMA        0
GRAVEDAD            0
dtype: int64

##### Ahora podemos cambiar los valores sin dato por nulos y volver a revisar la tabla.

#### EDAD_VICTIMA

In [47]:
valores_a_reemplazar = ['sd', 'Sd', 'SD', 'sD', '']
columnas_a_conservar_les=['EDAD_VICTIMA']
dataset_lesiones_victimas[columnas_a_conservar_les] = dataset_lesiones_victimas[columnas_a_conservar_les].replace(valores_a_reemplazar, np.nan, regex=True)

In [48]:
print('Cantidad de registros en la tabla: ',len(dataset_lesiones_victimas))
dataset_lesiones_victimas.isnull().sum()


Cantidad de registros en la tabla:  27605


ID hecho               0
AAA                    0
MM                     0
DD                     0
FECHA                  0
VEHICULO_VICTIMA       0
SEXO                   0
EDAD_VICTIMA        4471
GRAVEDAD               0
dtype: int64

Partiendo de estos datos podemos concluir que la tabla se encuentra bastante completa, por lo que se puede combinar con la de homicidios mas adelante según el id del siniestro (`'ID_hecho'`) . Antes de hacerlo debemos tener en cuenta las columnas que necesitamos para continuar. Sabiendo que las tablas tienen correlacion se conservará `'ID_hecho'`, `'ROL'`, `'VICTIMA'`, `'SEXO'` y `'EDAD'`. Además podríamos crear una columna de rangos etarios para mejor análisis posterior.

#### Creacion de Rangos Etarios

Convertimos edad a entero y llenamos nulos por -1

In [49]:
dataset_lesiones_victimas['EDAD_VICTIMA'] = pd.to_numeric(dataset_lesiones_victimas['EDAD_VICTIMA'],errors="coerce")
dataset_lesiones_victimas['EDAD_VICTIMA'] = dataset_lesiones_victimas['EDAD_VICTIMA'].astype("Int64")
dataset_lesiones_victimas['EDAD_VICTIMA'] = dataset_lesiones_victimas['EDAD_VICTIMA'].fillna(-1)

In [50]:
dataset_lesiones_victimas['EDAD_VICTIMA'].unique()

<IntegerArray>
[ 57,  -1,  45,  27,  32,  21,  37,  33,  25,  23,  42,  53,   1,  62,  67,
  75,  40,  48,   3,  49,  34,  52,  44,  28,  59,  50,  73,  26,  51,  16,
  43,  38,  64,  36,  84,  22,  20,   5,  39,  56,  69,  55,  46,  29,  41,
  54,  74,  70,   6,  30,  12,  83,  24,  35,  68,  15,  31,  19,   9,   2,
  13,  18,  17,  58,  60,  47,   7,  63,  66,  80,  65,  71,  79,  85,  61,
  77,  90,  76,  89,  78,  91,  97,  10,  72,  88,  11,  81,   8,  14,  96,
  82,  87,  86,   4,  92,  94,   0, 100,  93,  95]
Length: 100, dtype: Int64

In [51]:
rangos = [0, 15, 30, 45, 60, 75, 90, 105]
etiquetas = ['Menos de 15', ' Entre 15 & 30', 'Entre 30 & 45', 'Entre 45 & 60', 'Entre 60 & 75','Entre 75 & 90','Más de 90']
dataset_lesiones_victimas['RANGO_ETARIO'] = pd.cut(dataset_lesiones_victimas['EDAD_VICTIMA'], bins=rangos, labels=etiquetas, right=False)
dataset_lesiones_victimas.head()

Unnamed: 0,ID hecho,AAA,MM,DD,FECHA,VEHICULO_VICTIMA,SEXO,EDAD_VICTIMA,GRAVEDAD,RANGO_ETARIO
0,LC-2019-0000053,2019,1,1,2019-01-01,sd,Varon,57,SD,Entre 45 & 60
1,LC-2019-0000063,2019,1,1,2019-01-01,sd,SD,-1,SD,
2,LC-2019-0000079,2019,1,1,2019-01-01,sd,Varon,-1,SD,
3,LC-2019-0000082,2019,1,1,2019-01-01,sd,Varon,45,SD,Entre 45 & 60
4,LC-2019-0000082,2019,1,1,2019-01-01,sd,Mujer,45,SD,Entre 45 & 60


In [52]:
filas_con_ocurrencias = dataset_lesiones_victimas[dataset_lesiones_victimas['EDAD_VICTIMA'] == -1]
print("\nFilas donde 'EDAD' es igual a -1:")
filas_con_ocurrencias.head()


Filas donde 'EDAD' es igual a -1:


Unnamed: 0,ID hecho,AAA,MM,DD,FECHA,VEHICULO_VICTIMA,SEXO,EDAD_VICTIMA,GRAVEDAD,RANGO_ETARIO
1,LC-2019-0000063,2019,1,1,2019-01-01,sd,SD,-1,SD,
2,LC-2019-0000079,2019,1,1,2019-01-01,sd,Varon,-1,SD,
10,LC-2019-0000179,2019,1,1,2019-01-01,sd,SD,-1,SD,
14,LC-2019-0000347,2019,1,1,2019-01-01,sd,Varon,-1,SD,
21,LC-2019-0000647,2019,1,1,2019-01-01,sd,Varon,-1,SD,


In [53]:
dataset_lesiones_victimas.isnull().sum()

ID hecho               0
AAA                    0
MM                     0
DD                     0
FECHA                  0
VEHICULO_VICTIMA       0
SEXO                   0
EDAD_VICTIMA           0
GRAVEDAD               0
RANGO_ETARIO        4471
dtype: int64

#### Renombramos -1 por SD para trabajar con los datos en EDAD_VICTIMA y renombramos los NaN por SD en RANGO_ETARIO

In [54]:
dataset_lesiones_victimas['EDAD_VICTIMA'] = dataset_lesiones_victimas['EDAD_VICTIMA'].astype(str)
dataset_lesiones_victimas['EDAD_VICTIMA'] = dataset_lesiones_victimas['EDAD_VICTIMA'].replace('-1', 'SD')
dataset_lesiones_victimas['RANGO_ETARIO'] = dataset_lesiones_victimas['RANGO_ETARIO'].astype(str)
dataset_lesiones_victimas['RANGO_ETARIO'] = dataset_lesiones_victimas['RANGO_ETARIO'].replace(np.nan, 'SD')
valores_unicos_edad = dataset_lesiones_victimas['EDAD_VICTIMA'].unique()
print(f"Valores únicos en 'EDAD_VICTIMA': {valores_unicos_edad}")

Valores únicos en 'EDAD_VICTIMA': ['57' 'SD' '45' '27' '32' '21' '37' '33' '25' '23' '42' '53' '1' '62' '67'
 '75' '40' '48' '3' '49' '34' '52' '44' '28' '59' '50' '73' '26' '51' '16'
 '43' '38' '64' '36' '84' '22' '20' '5' '39' '56' '69' '55' '46' '29' '41'
 '54' '74' '70' '6' '30' '12' '83' '24' '35' '68' '15' '31' '19' '9' '2'
 '13' '18' '17' '58' '60' '47' '7' '63' '66' '80' '65' '71' '79' '85' '61'
 '77' '90' '76' '89' '78' '91' '97' '10' '72' '88' '11' '81' '8' '14' '96'
 '82' '87' '86' '4' '92' '94' '0' '100' '93' '95']


In [55]:
dataset_lesiones_victimas.head()

Unnamed: 0,ID hecho,AAA,MM,DD,FECHA,VEHICULO_VICTIMA,SEXO,EDAD_VICTIMA,GRAVEDAD,RANGO_ETARIO
0,LC-2019-0000053,2019,1,1,2019-01-01,sd,Varon,57,SD,Entre 45 & 60
1,LC-2019-0000063,2019,1,1,2019-01-01,sd,SD,SD,SD,
2,LC-2019-0000079,2019,1,1,2019-01-01,sd,Varon,SD,SD,
3,LC-2019-0000082,2019,1,1,2019-01-01,sd,Varon,45,SD,Entre 45 & 60
4,LC-2019-0000082,2019,1,1,2019-01-01,sd,Mujer,45,SD,Entre 45 & 60


---
---

## Comparamos las tablas para luego combinarlas

In [56]:
import pandas as pd

columnas_df1 = dataset_homicidios_hechos.columns.tolist()
columnas_df2 = dataset_lesiones_hechos.columns.tolist()
columnas_iguales = set(columnas_df1).intersection(columnas_df2)
columnas_diferentes_df1 = [col for col in columnas_df1 if col not in columnas_df2]
columnas_diferentes_df2 = [col for col in columnas_df2 if col not in columnas_df1]
print("Columnas iguales en ambos DataFrames:", columnas_iguales)
print("Columnas diferentes en dataset_homicidios_hechos:", columnas_diferentes_df1)
print("Columnas diferentes en dataset_lesiones_hechos:", columnas_diferentes_df2)


Columnas iguales en ambos DataFrames: set()
Columnas diferentes en dataset_homicidios_hechos: ['ID', 'N_VICTIMAS', 'FECHA', 'AAAA', 'MM', 'DD', 'HORA', 'HH', 'LUGAR_DEL_HECHO', 'TIPO_DE_CALLE', 'Calle', 'Altura', 'Cruce', 'Dirección Normalizada', 'COMUNA', 'XY (CABA)', 'pos x', 'pos y', 'PARTICIPANTES', 'VICTIMA', 'ACUSADO']
Columnas diferentes en dataset_lesiones_hechos: ['id', 'n_victimas', 'aaaa', 'mm', 'dd', 'fecha', 'hora', 'franja_hora', 'direccion_normalizada', 'comuna', 'tipo_calle', 'otra_direccion', 'calle', 'altura', 'cruce', 'geocodificacion_CABA', 'longitud', 'latutid', 'victima', 'acusado', 'participantes', 'moto', 'auto', 'transporte_publico', 'camion', 'ciclista', 'gravedad']


In [57]:
pd.set_option('display.max_columns', None)

In [58]:
columnas_df_1 = sorted(dataset_homicidios_hechos.columns.tolist())
columnas_df_2 = sorted(dataset_lesiones_hechos.columns.tolist())
nombre_df_1 = 'homicidios_hechos_dataset'
nombre_df_2 = 'lesiones_hechos_dataset'

palabras_a_excluir = ['auto', 'camion', 'ciclista', 'moto']

columnas_df_1 = [col.upper() for col in columnas_df_1 if all(word not in col.lower() for word in palabras_a_excluir)]
columnas_df_2 = [col.upper() for col in columnas_df_2 if all(word not in col.lower() for word in palabras_a_excluir)]

longitud_maxima = int(max(len(columnas_df_1), len(columnas_df_2)))

print(f'Cantidad de Columnas en {nombre_df_1}: {len(columnas_df_1)}')
print(f'Cantidad de Columnas en {nombre_df_2}: {len(columnas_df_2)}\n')

print(f"{nombre_df_1:<30} {nombre_df_2}\n")

for col_df_1, col_df_2 in zip_longest(columnas_df_1, columnas_df_2, fillvalue=''):
    print(f"{col_df_1:<{longitud_maxima+10}} {col_df_2}")

Cantidad de Columnas en homicidios_hechos_dataset: 21
Cantidad de Columnas en lesiones_hechos_dataset: 23

homicidios_hechos_dataset      lesiones_hechos_dataset

AAAA                              AAAA
ACUSADO                           ACUSADO
ALTURA                            ALTURA
COMUNA                            CALLE
CALLE                             COMUNA
CRUCE                             CRUCE
DD                                DD
DIRECCIÓN NORMALIZADA             DIRECCION_NORMALIZADA
FECHA                             FECHA
HH                                FRANJA_HORA
HORA                              GEOCODIFICACION_CABA
ID                                GRAVEDAD
LUGAR_DEL_HECHO                   HORA
MM                                ID
N_VICTIMAS                        LATUTID
PARTICIPANTES                     LONGITUD
TIPO_DE_CALLE                     MM
VICTIMA                           N_VICTIMAS
XY (CABA)                         OTRA_DIRECCION
POS X                    

### Normalizamos Nombres de Columnas para poder combinar tablas

#### Convertir los nombres de las columnas a mayúsculas y reemplazar espacios por guiones bajos

In [59]:
dataset_lesiones_hechos.columns = [col.upper().replace(' ', '_') for col in dataset_lesiones_hechos.columns]
print(dataset_lesiones_hechos.columns)

Index(['ID', 'N_VICTIMAS', 'AAAA', 'MM', 'DD', 'FECHA', 'HORA', 'FRANJA_HORA',
       'DIRECCION_NORMALIZADA', 'COMUNA', 'TIPO_CALLE', 'OTRA_DIRECCION',
       'CALLE', 'ALTURA', 'CRUCE', 'GEOCODIFICACION_CABA', 'LONGITUD',
       'LATUTID', 'VICTIMA', 'ACUSADO', 'PARTICIPANTES', 'MOTO', 'AUTO',
       'TRANSPORTE_PUBLICO', 'CAMION', 'CICLISTA', 'GRAVEDAD'],
      dtype='object')


In [60]:
dataset_homicidios_hechos.columns = [col.upper().replace(' ', '_') for col in dataset_homicidios_hechos.columns]
print(dataset_homicidios_hechos.columns)

Index(['ID', 'N_VICTIMAS', 'FECHA', 'AAAA', 'MM', 'DD', 'HORA', 'HH',
       'LUGAR_DEL_HECHO', 'TIPO_DE_CALLE', 'CALLE', 'ALTURA', 'CRUCE',
       'DIRECCIÓN_NORMALIZADA', 'COMUNA', 'XY_(CABA)', 'POS_X', 'POS_Y',
       'PARTICIPANTES', 'VICTIMA', 'ACUSADO'],
      dtype='object')


### Eliminacion y renombrado de columnas

- Como se puede ver en puntos anteriores se pueden eliminar columnas que poseen muchos datos nulos, datos duplicados o información innecesaria.

Columnas Homicidios

In [61]:
columnas_a_eliminar = ['LUGAR_DEL_HECHO']

for elemento in columnas_a_eliminar:
    try:
        dataset_homicidios_hechos = dataset_homicidios_hechos.drop(columns=elemento)
    except Exception as ex:
        print(f"Ocurrió un error: {ex}")

Columnas Lesiones

In [62]:
columnas_a_eliminar = ['TRANSPORTE_PUBLICO', 'AUTO', 'MOTO', 'CAMION','CICLISTA','OTRA_DIRECCION'] 

for elemento in columnas_a_eliminar:
    try:
        dataset_lesiones_hechos = dataset_lesiones_hechos.drop(columns=elemento)
    except Exception as ex:
        print(f"Ocurrió un error: {ex}")

#### Eliminamos filas que no poseen geolocalización según `'LATUTID'` y `'LONGITUD'`

De lo visto anteriormente en la tabla de lesiones hay poca informacion relevante y la mayoría incompleta, por lo que se conservan solo los datos que pueden ser utiles en el análisis posterior.

In [63]:
dataset_lesiones_hechos = dataset_lesiones_hechos.dropna(subset=['LONGITUD', 'LATUTID'])
dataset_lesiones_hechos = dataset_lesiones_hechos[~dataset_lesiones_hechos['LONGITUD'].str.contains('sd', case=False)]
dataset_lesiones_hechos = dataset_lesiones_hechos[~dataset_lesiones_hechos['LATUTID'].str.contains('sd', case=False)]

In [64]:
cantidad_columnas_lesiones = dataset_lesiones_hechos.shape[1] 
cantidad_columnas_homicidios = dataset_homicidios_hechos.shape[1] 
print(f"Cantidad de columnas en lesiones_hechos_dataset: {cantidad_columnas_lesiones}")
print(f"Cantidad de columnas en homicidios_hechos_dataset: {cantidad_columnas_homicidios}")


Cantidad de columnas en lesiones_hechos_dataset: 21
Cantidad de columnas en homicidios_hechos_dataset: 20


#### Renombramos Columnas

A continuacion renombramos las columnas del dataset de homicidios para que se corresponda al de lesiones, además es muy util que posean nombres mas faciles de entender.

In [65]:
nombres_columnas_nuevos = {
    'TIPO_DE_CALLE':'TIPO_CALLE',
    'HH':'FRANJA_HORA',
    'POS_X': 'LONGITUD',
    'POS_Y': 'LATITUD',
    'XY_(CABA)': 'GEOCODIFICACION_CABA',
    'DIRECCIÓN_NORMALIZADA':'DIRECCION_NORMALIZADA'
}
dataset_homicidios_hechos = dataset_homicidios_hechos.rename(columns=nombres_columnas_nuevos)
dataset_homicidios_hechos.head()

Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,DD,HORA,FRANJA_HORA,TIPO_CALLE,CALLE,ALTURA,CRUCE,DIRECCION_NORMALIZADA,COMUNA,GEOCODIFICACION_CABA,LONGITUD,LATITUD,PARTICIPANTES,VICTIMA,ACUSADO
0,2016-0001,1,2016-01-01,2016,1,1,04:00:00,4,AVENIDA,PIEDRA BUENA AV.,,"FERNANDEZ DE LA CRUZ, F., GRAL. AV.","PIEDRA BUENA AV. y FERNANDEZ DE LA CRUZ, F., G...",8,Point (98896.78238426 93532.43437792),-58.47533969,-34.68757022,MOTO-AUTO,MOTO,AUTO
1,2016-0002,1,2016-01-02,2016,1,2,01:15:00,1,GRAL PAZ,"PAZ, GRAL. AV.",,DE LOS CORRALES AV.,"PAZ, GRAL. AV. y DE LOS CORRALES AV.",9,Point (95832.05571093 95505.41641999),-58.50877521,-34.66977709,AUTO-PASAJEROS,AUTO,PASAJEROS
2,2016-0003,1,2016-01-03,2016,1,3,07:00:00,7,AVENIDA,ENTRE RIOS AV.,2034.0,,ENTRE RIOS AV. 2034,1,Point (106684.29090040 99706.57687843),-58.39040293,-34.63189362,MOTO-AUTO,MOTO,AUTO
3,2016-0004,1,2016-01-10,2016,1,10,00:00:00,0,AVENIDA,LARRAZABAL AV.,,"VILLEGAS, CONRADO, GRAL.","LARRAZABAL AV. y VILLEGAS, CONRADO, GRAL.",8,Point (99840.65224780 94269.16534422),-58.46503904,-34.68092974,MOTO-SD,MOTO,SD
4,2016-0005,1,2016-01-21,2016,1,21,05:20:00,5,AVENIDA,SAN JUAN AV.,,"SAENZ PE?A, LUIS, PRES.","SAN JUAN AV. y SAENZ PEÃ‘A, LUIS, PRES.",1,Point (106980.32827929 100752.16915795),-58.38718297,-34.6224663,MOTO-PASAJEROS,MOTO,PASAJEROS


Aqui renombramos la columna LATITUD en lesiones que estaba mal escrita.

In [66]:
nombres_columnas_nuevos = {
    'LATUTID':'LATITUD',
}
dataset_lesiones_hechos = dataset_lesiones_hechos.rename(columns=nombres_columnas_nuevos)
dataset_lesiones_hechos.head()

Unnamed: 0,ID,N_VICTIMAS,AAAA,MM,DD,FECHA,HORA,FRANJA_HORA,DIRECCION_NORMALIZADA,COMUNA,TIPO_CALLE,CALLE,ALTURA,CRUCE,GEOCODIFICACION_CABA,LONGITUD,LATITUD,VICTIMA,ACUSADO,PARTICIPANTES,GRAVEDAD
15218,2020-0624349,1,2020,11,21,2020-11-21 00:00:00,13:00:00,13,"PAZ, GRAL. AV. Y DOCTOR RAMON CARRILLO",8,GRAL PAZ,,,,POINT(99778.4656554 92026.2933425),-58.466449,-34.700942,MOTO,CAMION,MOTO-CAMION,fatal


---
---

### Combinado con las tablas de victimas

Primero se modifican los nombres de las columnas de las tablas para que sean compatibles y elegiremos las columnas que no sirven. Por ejemplo las fechas y horas no hacen falta ya que se encuentran en la combinacion de hechos, además como se combinaran los hechos y victimas por id, los datos sobrantes no ingresaran al dataframe final.

In [67]:
dataset_homicidios_victimas.head(1)

Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO,RANGO_ETARIO
0,2016-0001,2016-01-01,2016,1,1,CONDUCTOR,MOTO,MASCULINO,19,2016-01-01 00:00:00,Entre 15 & 30


In [68]:
nombres_columnas_nuevos = {
    'ID_hecho':'ID'
}
dataset_homicidios_victimas = dataset_homicidios_victimas.rename(columns=nombres_columnas_nuevos)
dataset_homicidios_victimas.head(1)

Unnamed: 0,ID,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO,RANGO_ETARIO
0,2016-0001,2016-01-01,2016,1,1,CONDUCTOR,MOTO,MASCULINO,19,2016-01-01 00:00:00,Entre 15 & 30


In [69]:
columnas_a_eliminar = ['AAAA','MM','DD','FECHA','FECHA_FALLECIMIENTO']

for elemento in columnas_a_eliminar:
    try:
        dataset_homicidios_victimas = dataset_homicidios_victimas.drop(columns=elemento)
    except Exception as ex:
        print(f"Ocurrió un error: {ex}")

In [70]:
value_counts = dataset_homicidios_victimas['SEXO'].value_counts()
print(value_counts)

SEXO
MASCULINO    545
FEMENINO     166
SD             6
Name: count, dtype: int64


In [71]:
dataset_homicidios_victimas.head()

Unnamed: 0,ID,ROL,VICTIMA,SEXO,EDAD,RANGO_ETARIO
0,2016-0001,CONDUCTOR,MOTO,MASCULINO,19,Entre 15 & 30
1,2016-0002,CONDUCTOR,AUTO,MASCULINO,70,Entre 60 & 75
2,2016-0003,CONDUCTOR,MOTO,MASCULINO,30,Entre 30 & 45
3,2016-0004,CONDUCTOR,MOTO,MASCULINO,18,Entre 15 & 30
4,2016-0005,CONDUCTOR,MOTO,MASCULINO,29,Entre 15 & 30


---

In [72]:
dataset_lesiones_victimas.head(1)

Unnamed: 0,ID hecho,AAA,MM,DD,FECHA,VEHICULO_VICTIMA,SEXO,EDAD_VICTIMA,GRAVEDAD,RANGO_ETARIO
0,LC-2019-0000053,2019,1,1,2019-01-01,sd,Varon,57,SD,Entre 45 & 60


In [73]:
nombres_columnas_nuevos = {
    'ID hecho':'ID',
    'EDAD_VICTIMA':'EDAD',
    'VEHICULO_VICTIMA':'VICTIMA'
}
dataset_lesiones_victimas = dataset_lesiones_victimas.rename(columns=nombres_columnas_nuevos)
dataset_lesiones_victimas.head()

Unnamed: 0,ID,AAA,MM,DD,FECHA,VICTIMA,SEXO,EDAD,GRAVEDAD,RANGO_ETARIO
0,LC-2019-0000053,2019,1,1,2019-01-01,sd,Varon,57,SD,Entre 45 & 60
1,LC-2019-0000063,2019,1,1,2019-01-01,sd,SD,SD,SD,
2,LC-2019-0000079,2019,1,1,2019-01-01,sd,Varon,SD,SD,
3,LC-2019-0000082,2019,1,1,2019-01-01,sd,Varon,45,SD,Entre 45 & 60
4,LC-2019-0000082,2019,1,1,2019-01-01,sd,Mujer,45,SD,Entre 45 & 60


In [74]:
dataset_lesiones_victimas = dataset_lesiones_victimas[~dataset_lesiones_victimas['GRAVEDAD'].str.contains('sd', case=False)]
dataset_lesiones_victimas.head()

Unnamed: 0,ID,AAA,MM,DD,FECHA,VICTIMA,SEXO,EDAD,GRAVEDAD,RANGO_ETARIO
12012,LC-2020-0049028,2020,1,23,2020-01-23,MOTO,Varon,24,GRAVE,Entre 15 & 30
12034,LC-2020-0450143,2020,7,24,2020-07-24,MOTO,Varon,21,GRAVE,Entre 15 & 30
12117,LC-2020-0248531,2020,5,19,2020-05-19,CICLISTA,varon,32,GRAVE,Entre 30 & 45
12128,LC-2020-0364717,2020,6,25,2020-06-25,CICLISTA,Mujer,25,GRAVE,Entre 15 & 30
12200,LC-2020-0631631,2020,11,26,2020-11-26,PEATON,varon,23,GRAVE,Entre 15 & 30


In [75]:
columnas_a_eliminar = ['AAA','MM','DD','FECHA ']

for elemento in columnas_a_eliminar:
    try:
        dataset_lesiones_victimas = dataset_lesiones_victimas.drop(columns=elemento)
    except Exception as ex:
        print(f"Ocurrió un error: {ex}")

In [76]:
dataset_lesiones_victimas.head() 

Unnamed: 0,ID,VICTIMA,SEXO,EDAD,GRAVEDAD,RANGO_ETARIO
12012,LC-2020-0049028,MOTO,Varon,24,GRAVE,Entre 15 & 30
12034,LC-2020-0450143,MOTO,Varon,21,GRAVE,Entre 15 & 30
12117,LC-2020-0248531,CICLISTA,varon,32,GRAVE,Entre 30 & 45
12128,LC-2020-0364717,CICLISTA,Mujer,25,GRAVE,Entre 15 & 30
12200,LC-2020-0631631,PEATON,varon,23,GRAVE,Entre 15 & 30


In [77]:
dataset_lesiones_victimas['SEXO'] = dataset_lesiones_victimas['SEXO'].astype(str)

In [78]:
dataset_lesiones_victimas['SEXO'].replace(['Varon', 'varones', 'varon', 'Varones', 'Varón'], 'MASCULINO', inplace=True)
dataset_lesiones_victimas['SEXO'].replace(['Mujer', 'Mujer ','mujer', 'Mujeres', 'mujeres'], 'FEMENINO', inplace=True)

In [79]:
print('Cantidad de filas: ',len(dataset_lesiones_victimas))
value_counts = dataset_lesiones_victimas['SEXO'].value_counts()
print(value_counts)

Cantidad de filas:  537
SEXO
MASCULINO    393
FEMENINO     132
SD            12
Name: count, dtype: int64


In [80]:
dataset_lesiones_victimas['ID'] = dataset_lesiones_victimas['ID'].astype(str)
dataset_lesiones_victimas['ID'] = dataset_lesiones_victimas['ID'].str.replace('LC-', '')
dataset_lesiones_victimas['ID'] = dataset_lesiones_victimas['ID'].str.replace('HC-', '')

In [81]:
columnas_a_eliminar = ['GRAVEDAD']

for elemento in columnas_a_eliminar:
    try:
        dataset_lesiones_victimas = dataset_lesiones_victimas.drop(columns=elemento)
    except Exception as ex:
        print(f"Ocurrió un error: {ex}")


In [82]:
dataset_lesiones_victimas.head()

Unnamed: 0,ID,VICTIMA,SEXO,EDAD,RANGO_ETARIO
12012,2020-0049028,MOTO,MASCULINO,24,Entre 15 & 30
12034,2020-0450143,MOTO,MASCULINO,21,Entre 15 & 30
12117,2020-0248531,CICLISTA,MASCULINO,32,Entre 30 & 45
12128,2020-0364717,CICLISTA,FEMENINO,25,Entre 15 & 30
12200,2020-0631631,PEATON,MASCULINO,23,Entre 15 & 30


---

### Combinado de los dataframe

In [83]:
df_merged_homicidios_victimas_hechos = pd.merge(dataset_homicidios_hechos, dataset_homicidios_victimas, on='ID', how='left', suffixes=('', '_nuevas'))
df_merged_homicidios_victimas_hechos.head()

Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,DD,HORA,FRANJA_HORA,TIPO_CALLE,CALLE,ALTURA,CRUCE,DIRECCION_NORMALIZADA,COMUNA,GEOCODIFICACION_CABA,LONGITUD,LATITUD,PARTICIPANTES,VICTIMA,ACUSADO,ROL,VICTIMA_nuevas,SEXO,EDAD,RANGO_ETARIO
0,2016-0001,1,2016-01-01,2016,1,1,04:00:00,4,AVENIDA,PIEDRA BUENA AV.,,"FERNANDEZ DE LA CRUZ, F., GRAL. AV.","PIEDRA BUENA AV. y FERNANDEZ DE LA CRUZ, F., G...",8,Point (98896.78238426 93532.43437792),-58.47533969,-34.68757022,MOTO-AUTO,MOTO,AUTO,CONDUCTOR,MOTO,MASCULINO,19,Entre 15 & 30
1,2016-0002,1,2016-01-02,2016,1,2,01:15:00,1,GRAL PAZ,"PAZ, GRAL. AV.",,DE LOS CORRALES AV.,"PAZ, GRAL. AV. y DE LOS CORRALES AV.",9,Point (95832.05571093 95505.41641999),-58.50877521,-34.66977709,AUTO-PASAJEROS,AUTO,PASAJEROS,CONDUCTOR,AUTO,MASCULINO,70,Entre 60 & 75
2,2016-0003,1,2016-01-03,2016,1,3,07:00:00,7,AVENIDA,ENTRE RIOS AV.,2034.0,,ENTRE RIOS AV. 2034,1,Point (106684.29090040 99706.57687843),-58.39040293,-34.63189362,MOTO-AUTO,MOTO,AUTO,CONDUCTOR,MOTO,MASCULINO,30,Entre 30 & 45
3,2016-0004,1,2016-01-10,2016,1,10,00:00:00,0,AVENIDA,LARRAZABAL AV.,,"VILLEGAS, CONRADO, GRAL.","LARRAZABAL AV. y VILLEGAS, CONRADO, GRAL.",8,Point (99840.65224780 94269.16534422),-58.46503904,-34.68092974,MOTO-SD,MOTO,SD,CONDUCTOR,MOTO,MASCULINO,18,Entre 15 & 30
4,2016-0005,1,2016-01-21,2016,1,21,05:20:00,5,AVENIDA,SAN JUAN AV.,,"SAENZ PE?A, LUIS, PRES.","SAN JUAN AV. y SAENZ PEÃ‘A, LUIS, PRES.",1,Point (106980.32827929 100752.16915795),-58.38718297,-34.6224663,MOTO-PASAJEROS,MOTO,PASAJEROS,CONDUCTOR,MOTO,MASCULINO,29,Entre 15 & 30


In [84]:
df_merged_lesiones_victimas_hechos = pd.merge(dataset_lesiones_hechos, dataset_lesiones_victimas, on='ID', how='left', suffixes=('', '_nuevas'))
df_merged_lesiones_victimas_hechos.head()

Unnamed: 0,ID,N_VICTIMAS,AAAA,MM,DD,FECHA,HORA,FRANJA_HORA,DIRECCION_NORMALIZADA,COMUNA,TIPO_CALLE,CALLE,ALTURA,CRUCE,GEOCODIFICACION_CABA,LONGITUD,LATITUD,VICTIMA,ACUSADO,PARTICIPANTES,GRAVEDAD,VICTIMA_nuevas,SEXO,EDAD,RANGO_ETARIO
0,2020-0624349,1,2020,11,21,2020-11-21 00:00:00,13:00:00,13,"PAZ, GRAL. AV. Y DOCTOR RAMON CARRILLO",8,GRAL PAZ,,,,POINT(99778.4656554 92026.2933425),-58.466449,-34.700942,MOTO,CAMION,MOTO-CAMION,fatal,,,,


---
---

### Combinado de los datos de hechos lesiones y homicidios

In [85]:
df_concatenado_hechos_victimas = pd.concat([df_merged_homicidios_victimas_hechos, df_merged_lesiones_victimas_hechos], ignore_index=True)
df_concatenado_hechos_victimas.head() 

Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,DD,HORA,FRANJA_HORA,TIPO_CALLE,CALLE,ALTURA,CRUCE,DIRECCION_NORMALIZADA,COMUNA,GEOCODIFICACION_CABA,LONGITUD,LATITUD,PARTICIPANTES,VICTIMA,ACUSADO,ROL,VICTIMA_nuevas,SEXO,EDAD,RANGO_ETARIO,GRAVEDAD
0,2016-0001,1,2016-01-01 00:00:00,2016,1,1,04:00:00,4,AVENIDA,PIEDRA BUENA AV.,,"FERNANDEZ DE LA CRUZ, F., GRAL. AV.","PIEDRA BUENA AV. y FERNANDEZ DE LA CRUZ, F., G...",8,Point (98896.78238426 93532.43437792),-58.47533969,-34.68757022,MOTO-AUTO,MOTO,AUTO,CONDUCTOR,MOTO,MASCULINO,19,Entre 15 & 30,
1,2016-0002,1,2016-01-02 00:00:00,2016,1,2,01:15:00,1,GRAL PAZ,"PAZ, GRAL. AV.",,DE LOS CORRALES AV.,"PAZ, GRAL. AV. y DE LOS CORRALES AV.",9,Point (95832.05571093 95505.41641999),-58.50877521,-34.66977709,AUTO-PASAJEROS,AUTO,PASAJEROS,CONDUCTOR,AUTO,MASCULINO,70,Entre 60 & 75,
2,2016-0003,1,2016-01-03 00:00:00,2016,1,3,07:00:00,7,AVENIDA,ENTRE RIOS AV.,2034.0,,ENTRE RIOS AV. 2034,1,Point (106684.29090040 99706.57687843),-58.39040293,-34.63189362,MOTO-AUTO,MOTO,AUTO,CONDUCTOR,MOTO,MASCULINO,30,Entre 30 & 45,
3,2016-0004,1,2016-01-10 00:00:00,2016,1,10,00:00:00,0,AVENIDA,LARRAZABAL AV.,,"VILLEGAS, CONRADO, GRAL.","LARRAZABAL AV. y VILLEGAS, CONRADO, GRAL.",8,Point (99840.65224780 94269.16534422),-58.46503904,-34.68092974,MOTO-SD,MOTO,SD,CONDUCTOR,MOTO,MASCULINO,18,Entre 15 & 30,
4,2016-0005,1,2016-01-21 00:00:00,2016,1,21,05:20:00,5,AVENIDA,SAN JUAN AV.,,"SAENZ PE?A, LUIS, PRES.","SAN JUAN AV. y SAENZ PEÃ‘A, LUIS, PRES.",1,Point (106980.32827929 100752.16915795),-58.38718297,-34.6224663,MOTO-PASAJEROS,MOTO,PASAJEROS,CONDUCTOR,MOTO,MASCULINO,29,Entre 15 & 30,


In [86]:
df_concatenado_hechos_victimas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 717 entries, 0 to 716
Data columns (total 26 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   ID                     717 non-null    object 
 1   N_VICTIMAS             717 non-null    int64  
 2   FECHA                  717 non-null    object 
 3   AAAA                   717 non-null    int64  
 4   MM                     717 non-null    int64  
 5   DD                     717 non-null    int64  
 6   HORA                   717 non-null    object 
 7   FRANJA_HORA            717 non-null    object 
 8   TIPO_CALLE             717 non-null    object 
 9   CALLE                  716 non-null    object 
 10  ALTURA                 133 non-null    float64
 11  CRUCE                  540 non-null    object 
 12  DIRECCION_NORMALIZADA  709 non-null    object 
 13  COMUNA                 717 non-null    object 
 14  GEOCODIFICACION_CABA   717 non-null    object 
 15  LONGIT

#### Revisiones finales

In [87]:
df_concatenado_hechos_victimas.drop_duplicates(inplace=True)

In [88]:
conteo_puntos = df_concatenado_hechos_victimas['LONGITUD'].str.contains(r'\.', case=False).sum()
conteo_sd = df_concatenado_hechos_victimas['LONGITUD'].str.contains(r'sd', case=False).sum()
conteo_puntos_geo = df_concatenado_hechos_victimas['GEOCODIFICACION_CABA'].str.contains(r'Point \(. .\)').sum()
conteo_sd_FRANJA_HORA = df_concatenado_hechos_victimas['FRANJA_HORA'].str.contains(r'sd', case=False).sum()
cantidad_nan_FRANJA_HORA = df_concatenado_hechos_victimas['FRANJA_HORA'].isna().sum()

print(f"Cantidad total de filas en el dataset': {len(df_concatenado_hechos_victimas)}")
print(f"Cantidad de '.': {conteo_puntos} en 'LONGITUD'")
print(f"Cantidad de 'sd': {conteo_sd} en 'LONGITUD'") 
print(f"Cantidad de '(. .)': {conteo_puntos_geo} en 'GEOCODIFICACION_CABA'")
print(f"Cantidad de 'sd':{conteo_sd_FRANJA_HORA} en 'FRANJA_HORA'")
print(f"Cantidad de 'NaN':{cantidad_nan_FRANJA_HORA} en 'FRANJA_HORA'")

Cantidad total de filas en el dataset': 717
Cantidad de '.': 706 en 'LONGITUD'
Cantidad de 'sd': 0 en 'LONGITUD'
Cantidad de '(. .)': 14 en 'GEOCODIFICACION_CABA'
Cantidad de 'sd':1 en 'FRANJA_HORA'
Cantidad de 'NaN':0 en 'FRANJA_HORA'


In [89]:
patron_regex = r'^[+-]?(90(\.0+)?|[1-8]?\d(\.\d+)?)$'
coordenadas_filtradas = df_concatenado_hechos_victimas[
    df_concatenado_hechos_victimas['LATITUD'].astype(str).str.match(patron_regex, na=False) &
    df_concatenado_hechos_victimas['LONGITUD'].astype(str).str.match(patron_regex, na=False)
]
print(coordenadas_filtradas[['LATITUD', 'LONGITUD']])

          LATITUD      LONGITUD
0    -34.68757022  -58.47533969
1    -34.66977709  -58.50877521
2    -34.63189362  -58.39040293
3    -34.68092974  -58.46503904
4    -34.62246630  -58.38718297
..            ...           ...
712  -34.65117757  -58.46739825
713  -34.61984745  -58.47293407
714  -34.65021673  -58.47066794
715  -34.58679619  -58.37976155
716    -34.700942    -58.466449

[716 rows x 2 columns]


#### Eliminacion de columnas innecesarias

- Eliminamos de la tabla resultante, los datos que no aportan mayor informacion o están muy incompletos.

In [90]:
columnas_a_eliminar = ['ALTURA', 'CRUCE', 'DIRECCION_NORMALIZADA','GRAVEDAD']
for elemento in columnas_a_eliminar:
    try:
        df_concatenado_hechos_victimas = df_concatenado_hechos_victimas.drop(columns=elemento)
    except Exception as ex:
        print(f"Ocurrió un error: {ex}")

In [91]:
columnas_a_eliminar = ['ID','AAAA', 'MM', 'DD','GEOCODIFICACION_CABA'] 

for elemento in columnas_a_eliminar:
    try:
        df_concatenado_hechos_victimas = df_concatenado_hechos_victimas.drop(columns=elemento)
    except Exception as ex:
        print(f"Ocurrió un error: {ex}")

In [92]:
columnas = df_concatenado_hechos_victimas.columns
for columna in columnas:
    if columna.endswith('_nuevos'):
        columna_original = columna[:-8]
        df_concatenado_hechos_victimas[columna_original] = df_concatenado_hechos_victimas[columna_original].fillna(df_concatenado_hechos_victimas[columna])
df_concatenado_hechos_victimas = df_concatenado_hechos_victimas.drop([col for col in df_concatenado_hechos_victimas.columns if col.endswith('_nuevas')], axis=1)


#### Llenado de vacios con SD (sin dato)

In [93]:
try:
    df_concatenado_hechos_victimas = df_concatenado_hechos_victimas.astype('object')
    df_concatenado_hechos_victimas.fillna('SD', inplace=True)
except Exception as e:
    print(f"Error: {e}")


In [94]:
df_concatenado_hechos_victimas.head()

Unnamed: 0,N_VICTIMAS,FECHA,HORA,FRANJA_HORA,TIPO_CALLE,CALLE,COMUNA,LONGITUD,LATITUD,PARTICIPANTES,VICTIMA,ACUSADO,ROL,SEXO,EDAD,RANGO_ETARIO
0,1,2016-01-01,04:00:00,4,AVENIDA,PIEDRA BUENA AV.,8,-58.47533969,-34.68757022,MOTO-AUTO,MOTO,AUTO,CONDUCTOR,MASCULINO,19,Entre 15 & 30
1,1,2016-01-02,01:15:00,1,GRAL PAZ,"PAZ, GRAL. AV.",9,-58.50877521,-34.66977709,AUTO-PASAJEROS,AUTO,PASAJEROS,CONDUCTOR,MASCULINO,70,Entre 60 & 75
2,1,2016-01-03,07:00:00,7,AVENIDA,ENTRE RIOS AV.,1,-58.39040293,-34.63189362,MOTO-AUTO,MOTO,AUTO,CONDUCTOR,MASCULINO,30,Entre 30 & 45
3,1,2016-01-10,00:00:00,0,AVENIDA,LARRAZABAL AV.,8,-58.46503904,-34.68092974,MOTO-SD,MOTO,SD,CONDUCTOR,MASCULINO,18,Entre 15 & 30
4,1,2016-01-21,05:20:00,5,AVENIDA,SAN JUAN AV.,1,-58.38718297,-34.6224663,MOTO-PASAJEROS,MOTO,PASAJEROS,CONDUCTOR,MASCULINO,29,Entre 15 & 30


#### Formateo de Fechas y Horas

Ahora podemos revisar las fechas y horas para poder llenar, franja horaria y agregar nombres de los dias de la semana.

- FECHAS

In [95]:
fecha_inicio = pd.to_datetime('2015-01-01')
fecha_fin = pd.to_datetime('2023-12-31')
mask = (df_concatenado_hechos_victimas['FECHA'] >= fecha_inicio) & (df_concatenado_hechos_victimas['FECHA'] <= fecha_fin)
df_concatenado_hechos_victimas.loc[~mask, 'FECHA'] = pd.NaT  # Marcamos las fechas fuera del rango como NaT (Not a Time)
df_concatenado_hechos_victimas['FECHA'] = pd.to_datetime(df_concatenado_hechos_victimas['FECHA'], errors='coerce')
df_concatenado_hechos_victimas['DIA_SEMANA'] = df_concatenado_hechos_victimas['FECHA'].dt.strftime('%A')
df_concatenado_hechos_victimas = df_concatenado_hechos_victimas.sort_values(by='FECHA', ascending=True)
dias_semana_espanol = {
    'Monday': 'Lunes',
    'Tuesday': 'Martes',
    'Wednesday': 'Miércoles',
    'Thursday': 'Jueves',
    'Friday': 'Viernes',
    'Saturday': 'Sábado',
    'Sunday': 'Domingo'
}
df_concatenado_hechos_victimas['DIA_SEMANA'] = df_concatenado_hechos_victimas['DIA_SEMANA'].map(dias_semana_espanol)

# Ahora, 'DIA_DE_LA_SEMANA' contendrá los nombres de los días de la semana
df_concatenado_hechos_victimas[['FECHA','HORA', 'DIA_SEMANA']].head()

Unnamed: 0,FECHA,HORA,DIA_SEMANA
0,2016-01-01,04:00:00,Viernes
1,2016-01-02,01:15:00,Sábado
2,2016-01-03,07:00:00,Domingo
3,2016-01-10,00:00:00,Domingo
4,2016-01-21,05:20:00,Jueves


- HORAS

In [96]:
df_concatenado_hechos_victimas['HORA'] = df_concatenado_hechos_victimas['HORA'].astype(str)

def convertir_a_hms(time_str):
    try:
        parsed_time = parse(time_str)
        return parsed_time.strftime('%H:%M:%S')
    except Exception as e:
        print(time_str)
        print(f"Error: {e}")
        return None

df_concatenado_hechos_victimas['HORA'] = df_concatenado_hechos_victimas['HORA'].apply(convertir_a_hms)

SD
Error: Unknown string format: SD


- Nueva Franja Horaria

In [97]:
from dateutil import parser

franjas_horarias = [0, 6, 12, 18, 24]
nombres_franjas = ['00:00-06:00', '06:00-12:00', '12:00-18:00', '18:00-24:00']

def obtener_franja(hora):
    try:
        hora_dt = parser.parse(hora).hour
        franja = pd.cut([hora_dt], bins=franjas_horarias, labels=nombres_franjas,right=False)
        return franja[0] if len(franja) > 0 else pd.NaT
    except Exception as e:
        print(hora)
        print(f"Error: {e}")
        return pd.NaT

df_concatenado_hechos_victimas['FRANJA'] = df_concatenado_hechos_victimas['HORA'].apply(obtener_franja)
df_concatenado_hechos_victimas[['HORA', 'FRANJA']].head()

None
Error: Parser must be a string or character stream, not NoneType


Unnamed: 0,HORA,FRANJA
0,04:00:00,00:00-06:00
1,01:15:00,00:00-06:00
2,07:00:00,06:00-12:00
3,00:00:00,00:00-06:00
4,05:20:00,00:00-06:00


In [98]:
filas_nan = df_concatenado_hechos_victimas['FRANJA'].isna().sum()

filas_con_nan = df_concatenado_hechos_victimas.loc[df_concatenado_hechos_victimas['FRANJA'].isna()]

print(f"Total de filas con valores NaN en 'FRANJA': {filas_nan}")
filas_con_nan.head()

Total de filas con valores NaN en 'FRANJA': 1


Unnamed: 0,N_VICTIMAS,FECHA,HORA,FRANJA_HORA,TIPO_CALLE,CALLE,COMUNA,LONGITUD,LATITUD,PARTICIPANTES,VICTIMA,ACUSADO,ROL,SEXO,EDAD,RANGO_ETARIO,DIA_SEMANA,FRANJA
535,1,2019-12-18,,SD,GRAL PAZ,"PAZ, GRAL. AV.",11,-58.52169422,-34.5947164,MOTO-MOTO,MOTO,MOTO,CONDUCTOR,MASCULINO,24,Entre 15 & 30,Miércoles,NaT


#### Renombrado de columna SEXO

In [99]:
try:
    df_concatenado_hechos_victimas.rename(columns={'SEXO': 'SEXO_VICTIMA'}, inplace=True)
except Exception as ex:
    print(f"Ocurrió un error: {ex}")

#### Reordenado de Columnas

In [100]:
nuevo_orden_columnas = ['DIA_SEMANA', 'FECHA', 'HORA', 'FRANJA_HORA','FRANJA','COMUNA',
                        'TIPO_CALLE', 'CALLE', 'LONGITUD', 'LATITUD', 'PARTICIPANTES', 
                        'ACUSADO','N_VICTIMAS','VICTIMA','ROL', 'SEXO_VICTIMA', 'EDAD', 'RANGO_ETARIO']
df_concatenado_hechos_victimas = df_concatenado_hechos_victimas[nuevo_orden_columnas]


#### Formateo final de Columnas

In [101]:
df_concatenado_hechos_victimas['FECHA'] = pd.to_datetime(df_concatenado_hechos_victimas['FECHA'])

In [102]:
columnas_int = ['N_VICTIMAS', 'EDAD','FRANJA_HORA']
try:
    df_concatenado_hechos_victimas[columnas_int] = df_concatenado_hechos_victimas[columnas_int].apply(pd.to_numeric, errors='coerce')
    df_concatenado_hechos_victimas.fillna('SD', inplace=True)
except Exception as e:
    print(f"Error: {e}")

  df_concatenado_hechos_victimas.fillna('SD', inplace=True)


In [103]:
columnas_numericas = ['FRANJA_HORA', 'COMUNA', 'LONGITUD', 'LATITUD', 'EDAD']
df_concatenado_hechos_victimas[columnas_numericas] = df_concatenado_hechos_victimas[columnas_numericas].apply(pd.to_numeric, errors='coerce')
valores_nulos = df_concatenado_hechos_victimas[columnas_numericas].isnull().sum()
print(valores_nulos)

FRANJA_HORA     1
COMUNA          0
LONGITUD        1
LATITUD         1
EDAD           53
dtype: int64


#### Renombrado datos Comuna

Agregamos delante de los números el prefijo "Comuna" para mejor utilización posterior. 

In [104]:
df_concatenado_hechos_victimas['COMUNA'] = df_concatenado_hechos_victimas['COMUNA'].astype(str)
df_concatenado_hechos_victimas['COMUNA'] = np.where(
    (df_concatenado_hechos_victimas['COMUNA'] != 'NaN') &
    (df_concatenado_hechos_victimas['COMUNA'] != 'SD'),
    'Comuna ' + df_concatenado_hechos_victimas['COMUNA'],
    df_concatenado_hechos_victimas['COMUNA']
)
df_concatenado_hechos_victimas['COMUNA'] = df_concatenado_hechos_victimas['COMUNA'].str.replace('.0', '')

In [105]:
df_concatenado_hechos_victimas.head()

Unnamed: 0,DIA_SEMANA,FECHA,HORA,FRANJA_HORA,FRANJA,COMUNA,TIPO_CALLE,CALLE,LONGITUD,LATITUD,PARTICIPANTES,ACUSADO,N_VICTIMAS,VICTIMA,ROL,SEXO_VICTIMA,EDAD,RANGO_ETARIO
0,Viernes,2016-01-01,04:00:00,4.0,00:00-06:00,Comuna 8,AVENIDA,PIEDRA BUENA AV.,-58.47534,-34.68757,MOTO-AUTO,AUTO,1,MOTO,CONDUCTOR,MASCULINO,19.0,Entre 15 & 30
1,Sábado,2016-01-02,01:15:00,1.0,00:00-06:00,Comuna 9,GRAL PAZ,"PAZ, GRAL. AV.",-58.508775,-34.669777,AUTO-PASAJEROS,PASAJEROS,1,AUTO,CONDUCTOR,MASCULINO,70.0,Entre 60 & 75
2,Domingo,2016-01-03,07:00:00,7.0,06:00-12:00,Comuna 1,AVENIDA,ENTRE RIOS AV.,-58.390403,-34.631894,MOTO-AUTO,AUTO,1,MOTO,CONDUCTOR,MASCULINO,30.0,Entre 30 & 45
3,Domingo,2016-01-10,00:00:00,0.0,00:00-06:00,Comuna 8,AVENIDA,LARRAZABAL AV.,-58.465039,-34.68093,MOTO-SD,SD,1,MOTO,CONDUCTOR,MASCULINO,18.0,Entre 15 & 30
4,Jueves,2016-01-21,05:20:00,5.0,00:00-06:00,Comuna 1,AVENIDA,SAN JUAN AV.,-58.387183,-34.622466,MOTO-PASAJEROS,PASAJEROS,1,MOTO,CONDUCTOR,MASCULINO,29.0,Entre 15 & 30


#### Revision Columnas Latitud - Longitud

Ahora vamos a controlar que las coordenadas obtenidas según las direcciones sean las correspondientes a la Ciudad Autonoma de Buenos Aires, o al menos estén dentro de los parametros maximos y minimos referidos a latitud y longitud.

In [106]:
archivo_geojson = "_data/comunas.geojson"
gdf = gpd.read_file(archivo_geojson)
latitud_maxima = gdf.bounds['maxy'].max()
latitud_minima = gdf.bounds['miny'].min()
longitud_maxima = gdf.bounds['maxx'].max()
longitud_minima = gdf.bounds['minx'].min()
print("Latitud máxima:", latitud_maxima)
print("Latitud mínima:", latitud_minima)
print("Longitud máxima:", longitud_maxima)
print("Longitud mínima:", longitud_minima)

Latitud máxima: -34.526489451612655
Latitud mínima: -34.70529313515961
Longitud máxima: -58.335150321796654
Longitud mínima: -58.531518740591004


In [107]:
df_concatenado_hechos_victimas['LATITUD'] = np.where(
    (df_concatenado_hechos_victimas['LATITUD'] >= latitud_minima) &
    (df_concatenado_hechos_victimas['LATITUD'] <= latitud_maxima),
    df_concatenado_hechos_victimas['LATITUD'],
    np.NaN
)

df_concatenado_hechos_victimas['LONGITUD'] = np.where(
    (df_concatenado_hechos_victimas['LONGITUD'] >= longitud_minima) &
    (df_concatenado_hechos_victimas['LONGITUD'] <= longitud_maxima),
    df_concatenado_hechos_victimas['LONGITUD'],
    np.NaN
)

#### Búsqueda de Barrios

In [108]:
ruta_archivo = '_data/barrios.geojson'
barrios = gpd.read_file(ruta_archivo)
geometry = [Point(xy) for xy in zip(df_concatenado_hechos_victimas['LONGITUD'], df_concatenado_hechos_victimas['LATITUD'])]
gdf_hechos_victimas = gpd.GeoDataFrame(df_concatenado_hechos_victimas, geometry=geometry, crs="EPSG:4326")
joined = gpd.sjoin(gdf_hechos_victimas, barrios, how="left", op='intersects')
df_concatenado_hechos_victimas['BARRIO'] = joined['BARRIO']

  if await self.run_code(code, result, async_=asy):


In [109]:
nuevo_orden_columnas = ['DIA_SEMANA', 'FECHA', 'HORA', 'FRANJA_HORA','FRANJA','COMUNA',
                        'BARRIO', 'TIPO_CALLE', 'CALLE', 'LONGITUD', 'LATITUD', 'PARTICIPANTES', 
                        'ACUSADO','N_VICTIMAS','VICTIMA','ROL', 'SEXO_VICTIMA', 'EDAD', 'RANGO_ETARIO']
df_concatenado_hechos_victimas = df_concatenado_hechos_victimas[nuevo_orden_columnas]


#### Otros

In [110]:
df_concatenado_hechos_victimas['HORA'] = pd.to_timedelta(df_concatenado_hechos_victimas['HORA'], errors='coerce')
df_concatenado_hechos_victimas['HORA'] = df_concatenado_hechos_victimas['HORA'].astype(str).str[-8:]
valores_nulos = df_concatenado_hechos_victimas['HORA'].isnull().sum()
print(valores_nulos)

0


In [111]:
df_concatenado_hechos_victimas.head()

Unnamed: 0,DIA_SEMANA,FECHA,HORA,FRANJA_HORA,FRANJA,COMUNA,BARRIO,TIPO_CALLE,CALLE,LONGITUD,LATITUD,PARTICIPANTES,ACUSADO,N_VICTIMAS,VICTIMA,ROL,SEXO_VICTIMA,EDAD,RANGO_ETARIO
0,Viernes,2016-01-01,04:00:00,4.0,00:00-06:00,Comuna 8,VILLA RIACHUELO,AVENIDA,PIEDRA BUENA AV.,-58.47534,-34.68757,MOTO-AUTO,AUTO,1,MOTO,CONDUCTOR,MASCULINO,19.0,Entre 15 & 30
1,Sábado,2016-01-02,01:15:00,1.0,00:00-06:00,Comuna 9,,GRAL PAZ,"PAZ, GRAL. AV.",-58.508775,-34.669777,AUTO-PASAJEROS,PASAJEROS,1,AUTO,CONDUCTOR,MASCULINO,70.0,Entre 60 & 75
2,Domingo,2016-01-03,07:00:00,7.0,06:00-12:00,Comuna 1,CONSTITUCION,AVENIDA,ENTRE RIOS AV.,-58.390403,-34.631894,MOTO-AUTO,AUTO,1,MOTO,CONDUCTOR,MASCULINO,30.0,Entre 30 & 45
3,Domingo,2016-01-10,00:00:00,0.0,00:00-06:00,Comuna 8,VILLA LUGANO,AVENIDA,LARRAZABAL AV.,-58.465039,-34.68093,MOTO-SD,SD,1,MOTO,CONDUCTOR,MASCULINO,18.0,Entre 15 & 30
4,Jueves,2016-01-21,05:20:00,5.0,00:00-06:00,Comuna 1,CONSTITUCION,AVENIDA,SAN JUAN AV.,-58.387183,-34.622466,MOTO-PASAJEROS,PASAJEROS,1,MOTO,CONDUCTOR,MASCULINO,29.0,Entre 15 & 30


In [112]:
df_concatenado_hechos_victimas.info()

<class 'pandas.core.frame.DataFrame'>
Index: 717 entries, 0 to 713
Data columns (total 19 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   DIA_SEMANA     717 non-null    object        
 1   FECHA          717 non-null    datetime64[ns]
 2   HORA           717 non-null    object        
 3   FRANJA_HORA    716 non-null    float64       
 4   FRANJA         717 non-null    object        
 5   COMUNA         717 non-null    object        
 6   BARRIO         681 non-null    object        
 7   TIPO_CALLE     717 non-null    object        
 8   CALLE          717 non-null    object        
 9   LONGITUD       712 non-null    float64       
 10  LATITUD        712 non-null    float64       
 11  PARTICIPANTES  717 non-null    object        
 12  ACUSADO        717 non-null    object        
 13  N_VICTIMAS     717 non-null    int64         
 14  VICTIMA        717 non-null    object        
 15  ROL            717 non-null 

### Guardado del Dataframe resultante

Se elige guardar los datos en 2 archivos, uno en formato xlsx ya que es el mas compatible con Power BI y otro en formato parquet para utilizar en el EDA.

In [113]:
ruta_archivo_ex = '_data/siniestros_caba.xlsx'
df_concatenado_hechos_victimas.to_excel(ruta_archivo_ex, index=False)

In [114]:
ruta_archivo_pq = '_data/siniestros_caba.parquet'
df_concatenado_hechos_victimas.to_parquet(ruta_archivo_pq, index=False)