# **Extracción, Transformación y Carga (ETL)**

En este proceso de Extracción, Transformación y Carga (ETL), nos encontraremos con cuatro tablas. Dos de estas tablas contienen datos recolectados sobre Homicidios por accidente de tránsito, cada una compuesta por una tabla de hechos y una tabla de víctimas. Del mismo modo, trabajaremos con datos recolectados sobre Lesionados por accidentes de tránsito, también con una tabla de hechos y una de víctimas.

## **1. Entendimiento del problema**

- Investigamos para comprender el problema de la seguridad vial en CABA y la importancia de reducir los siniestros viales.
- Definimos objetivos para identificar patrones, tendencias y áreas de mejora en la seguridad vial.

## **2. Adquisición de los datos**

- Carga de datos.

## **3. Exploración inicial de las tablas**

- Visualización de una muestra de los datos para comprender su estructura.
- Identificamos problemas de calidad del dato como valores faltantes, atípicos, duplicados, etc.

## **4. Limpieza de datos**

- Abordaremos los problemas identificados durante la exploración inicial de los datos.
- Realizaremos transformaciones de datos según sea necesario para preparar el dataset para el análisis.


####  -- Estructuramos el proceso de analisis de los datos en el siguiente orden:
1. **Homicidios - Hechos** 
2. **Homicidios - Victimas**
3. **Lesiones - Hechos**
4. **Lesiones - Victimas**




---
### **# Importamos librerias**


In [45]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from datetime import datetime
import numpy as np


In [46]:
from funciones import cargar_datos_desde_excel
from funciones import analizar_SD
from funciones import analizar_nan
from funciones import data_cleaning
from funciones import analizar_palabra_clave
from funciones import completar_coordenadas_con_comuna
from funciones import analisis_categorico





### **Cargamos los Datasets**

In [47]:
# Cargamos TABLAS DE HOMICIDIOS - Hechos y Victimas
datos_homicidios = cargar_datos_desde_excel('../Datasets/1_raw_data/homicidios.xlsx', ['HECHOS', 'VICTIMAS'])
homicidios_hechos_ = datos_homicidios['HECHOS']
homicidios_victimas_ = datos_homicidios['VICTIMAS']




---
## **Exploración inicial de las tablas**
### **TABLA Homicidios - Hechos**

#### vista rapida a los datos


In [48]:

homicidios_hechos_.head(2)

Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,DD,HORA,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,...,Altura,Cruce,Dirección Normalizada,COMUNA,XY (CABA),pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO
0,2016-0001,1,2016-01-01,2016,1,1,04:00:00,4,AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ,AVENIDA,...,,"FERNANDEZ DE LA CRUZ, F., GRAL. AV.","PIEDRA BUENA AV. y FERNANDEZ DE LA CRUZ, F., G...",8,Point (98896.78238426 93532.43437792),-58.47533969,-34.68757022,MOTO-AUTO,MOTO,AUTO
1,2016-0002,1,2016-01-02,2016,1,2,01:15:00,1,AV GRAL PAZ Y AV DE LOS CORRALES,GRAL PAZ,...,,DE LOS CORRALES AV.,"PAZ, GRAL. AV. y DE LOS CORRALES AV.",9,Point (95832.05571093 95505.41641999),-58.50877521,-34.66977709,AUTO-PASAJEROS,AUTO,PASAJEROS


#### Descripción estadística de los datos


In [49]:
homicidios_hechos_.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 696 entries, 0 to 695
Data columns (total 21 columns):
 #   Column                 Non-Null Count  Dtype         
---  ------                 --------------  -----         
 0   ID                     696 non-null    object        
 1   N_VICTIMAS             696 non-null    int64         
 2   FECHA                  696 non-null    datetime64[ns]
 3   AAAA                   696 non-null    int64         
 4   MM                     696 non-null    int64         
 5   DD                     696 non-null    int64         
 6   HORA                   696 non-null    object        
 7   HH                     696 non-null    int64         
 8   LUGAR_DEL_HECHO        696 non-null    object        
 9   TIPO_DE_CALLE          696 non-null    object        
 10  Calle                  695 non-null    object        
 11  Altura                 129 non-null    float64       
 12  Cruce                  525 non-null    object        
 13  Direc

In [50]:

homicidios_hechos_.describe()

Unnamed: 0,N_VICTIMAS,FECHA,AAAA,MM,DD,HH,Altura,COMUNA
count,696.0,696,696.0,696.0,696.0,696.0,129.0,696.0
mean,1.030172,2018-09-14 05:12:24.827586048,2018.188218,6.692529,15.936782,11.645115,3336.635659,7.425287
min,1.0,2016-01-01 00:00:00,2016.0,1.0,1.0,0.0,30.0,0.0
25%,1.0,2017-04-02 12:00:00,2017.0,4.0,9.0,6.0,1359.0,4.0
50%,1.0,2018-07-12 12:00:00,2018.0,7.0,16.0,11.0,2551.0,8.0
75%,1.0,2020-01-04 06:00:00,2020.0,10.0,23.0,17.25,4500.0,11.0
max,3.0,2021-12-30 00:00:00,2021.0,12.0,31.0,23.0,16080.0,15.0
std,0.179393,,1.683754,3.571309,8.639646,6.703306,3060.641793,4.38705


#### Creamos un DataFrame que cuenta los valores NaN y su porcentaje representativo respecto a la columna

In [51]:

analizar_nan(homicidios_hechos_)

Unnamed: 0,Columna,Cantidad de NaN,% NaN x Columna
10,Calle,1,0.14
11,Altura,567,81.47
12,Cruce,171,24.57
13,Dirección Normalizada,8,1.15
17,pos y,1,0.14


#### Creamos un DataFrame que cuenta los valores SIN DATO y su porcentaje representativo respecto a la columna

In [52]:
analizar_SD(homicidios_hechos_)

Unnamed: 0,Columna,Cantidad de SD,% SD x Columna
8,LUGAR_DEL_HECHO,1,0.14
19,VICTIMA,9,1.29
20,ACUSADO,23,3.3


#### Contar los valores duplicados en todo el DataFrame


In [53]:
homicidios_hechos_.duplicated().sum()

0

#### Conteo de valores únicos en variables categóricas

In [54]:
# Conteo de Comunas
cat_comuna= homicidios_hechos_['COMUNA'].value_counts().sort_index().reset_index()

cat_comuna.columns = ['Comuna', 'Incidentes']
cat_comuna


Unnamed: 0,Comuna,Incidentes
0,0,2
1,1,90
2,2,25
3,3,45
4,4,76
5,5,22
6,6,21
7,7,60
8,8,65
9,9,73


In [55]:
# Conteo de Victimas 
cat_victimas= homicidios_hechos_['VICTIMA'].value_counts().sort_index().reset_index()
cat_victimas.columns = ['Tipo de Victima', 'Incidentes']

cat_victimas

Unnamed: 0,Tipo de Victima,Incidentes
0,AUTO,83
1,BICICLETA,29
2,CARGAS,7
3,MOTO,295
4,MOVIL,2
5,OBJETO FIJO,1
6,PASAJEROS,5
7,PEATON,264
8,PEATON_MOTO,1
9,SD,9


In [56]:
# Conteo de Acusados  
cat_acusado= homicidios_hechos_['ACUSADO'].value_counts().sort_index().reset_index()
cat_acusado.columns = ['Tipo de Acusado', 'Incidentes']

cat_acusado

Unnamed: 0,Tipo de Acusado,Incidentes
0,AUTO,204
1,BICICLETA,7
2,CARGAS,146
3,MOTO,57
4,MULTIPLE,17
5,OBJETO FIJO,62
6,OTRO,6
7,PASAJEROS,173
8,SD,23
9,TREN,1


#### La columna pos X & Y contienen valores de puntos, vamos a reemplazarlos por un valor aleatorio utilizando su columna como referencia

In [57]:
filas_con_punto_longitud = homicidios_hechos_[homicidios_hechos_['pos x'] == '.']
filas_con_punto_longitud

Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,DD,HORA,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,...,Altura,Cruce,Dirección Normalizada,COMUNA,XY (CABA),pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO
38,2016-0052,1,2016-04-20,2016,4,20,20:00:00,20,AUTOPISTA LUGONES PK 10000,AUTOPISTA,...,,,,13,Point (. .),.,,MOTO-SD,MOTO,SD
106,2016-0136,1,2016-10-25,2016,10,25,00:00:00,0,AU BUENOS AIRES - LA PLATA KM. 4,AUTOPISTA,...,,,,4,Point (. .),.,.,MOTO-CARGAS,MOTO,CARGAS
119,2016-0151,1,2016-11-18,2016,11,18,20:35:00,20,SD,CALLE,...,,,,0,Point (. .),.,.,PEATON-SD,PEATON,SD
139,2016-0174,1,2016-12-27,2016,12,27,00:00:00,0,AUTOPISTA 25 DE MAYO,AUTOPISTA,...,,,AUTOPISTA 25 DE MAYO,0,Point (. .),.,.,SD-SD,SD,SD
176,2017-0042,1,2017-04-10,2017,4,10,09:00:00,9,AV. LEOPOLDO LUGONES PKM 6900,GRAL PAZ,...,,,"LUGONES, LEOPOLDO AV.",14,Point (. .),.,.,MOTO-CARGAS,MOTO,CARGAS
180,2017-0050,2,2017-04-28,2017,4,28,11:08:08,11,AU PERITO MORENO Y RAMAL ENLACE AU1/AU6,AUTOPISTA,...,,,,9,Point (. .),.,.,MOTO-CARGAS,MOTO,CARGAS
181,2017-0051,1,2017-05-01,2017,5,1,03:47:47,3,AU DELLEPIANE 2400,AUTOPISTA,...,,,,7,Point (. .),.,.,AUTO-AUTO,AUTO,AUTO
256,2017-0140,1,2017-11-19,2017,11,19,23:22:17,23,AU ARTURO FRONDIZI PKM 3100,AUTOPISTA,...,,,AUTOPISTA 1 SUR PRESIDENTE ARTURO FRONDIZI,4,Point (. .),.,.,MOTO-PASAJEROS,MOTO,PASAJEROS
313,2018-0039,1,2018-04-21,2018,4,21,22:15:00,22,AUTOPISTA LUGONES KM 4.7,AUTOPISTA,...,,,,14,Point (. .),.,.,PEATON-AUTO,PEATON,AUTO
546,2020-0026,1,2020-05-17,2020,5,17,06:40:00,6,"LUGONES, LEOPOLDO AV. KM 6,1",AUTOPISTA,...,,,,14,Point (. .),.,.,MOTO-OBJETO FIJO,MOTO,OBJETO FIJO


## **# Insigths - Homicidios tabla Hechos**
1. contamos con 696 registros
   
2. Registros entre Enero del 2016 y Diciembre del 2021

3. Datos NaN en Calle, Altura, Cruce y  Direccion normalizada.
   
   
4. Valores 'SD' o 'Sin dato' en las columnas HORA, HH, LUGAR_DEL_HECHO, VICTIMA, ACUSADO.
   
5. El Dataset no cuenta con valores duplicados 

6. Los registros estan categorizados en 15 Comunas.
   
7. Una comuna esta marcada como '0' lo que implica un error de registro, vamos a remplazar este registro con la comuna con mas incidentes por motivos de normalizacion, ya que cuenta con solo 2 registros bajo esta categoria.

8. Las columnas 'victima' y 'acusado' cuentan con valores 'sin dato', vamos a reemplazarlo por 'desconocido', ya que en el resto del dataframe bamos a reemplazar los 'Sin Dato' por valor NaN, por efectos de normalizacion.

---
# **Limpieza Y Transformacion de Datos**
### **Homicidios - Hechos**


1. procederemos a borrar las columnas innecesarias.
   1. AAAA, MM, DD, HH                                                               -> nos quedamos unicamente con la fecha completa y la hora, ya que utilizaremos el tipo de dato DATE
   2. LUGAR_DEL_HECHO, Calle, Altura, Cruce, Direccion_Normalizada, XY (CABA)       -> Utilizaremos solo las cordenadas y el tipo de calle para nuestro analisis
   3. Participantes                                                                -> Contiene datos anidados de Victima y Acusado

2. Reemplazamos los datos con 'Comuna 0' con la comuna que tiene mas incidentes registrados
3. Reemplazamos los datos 'SD' de las columnas 'Victima' y 'Acusado' por 'Desconocido' por motivos del Analisis
4. Vamos a pasar todos los registros a minuscula
5. Cambiamos el tipo de dato de 'Hora' a Datetime
6. Cambiamos el tipo de dato a int a N_VICTIMAS
7.  Categorizamos las columnas ID, TIPO_DE_CALLE, COMUNA, VICTIMA, ACUSADO
8. Renombramos las columnas

9. Reemplazamos los datos 'SD' de todo el Dataframe a NaN, por motivos de normalizacion.
    

In [58]:

# Definición de diccionarios y listas para manipulación de columnas

borrar_columnas = ['AAAA','MM', 'DD', 'HORA', 
                   'LUGAR_DEL_HECHO', 'Calle', 
                   'Altura', 'Cruce', 'XY (CABA)',
                   'Dirección Normalizada', 'PARTICIPANTES' ]

replace_dict = {
    'VICTIMA': {'sd': 'desconocido'},
    'ACUSADO': {'sd': 'desconocido'}
}


Columnas_minusculas = ['TIPO_DE_CALLE', 'VICTIMA', 'ACUSADO']

# Columnas a convertir a tipo int
a_tipo_int = ['N_VICTIMAS', 'HH']


# 2. Llamamos a la función de limpieza de datos
homicidios_hechos = data_cleaning(homicidios_hechos_,
                                  drop_columns=borrar_columnas, # Borramos columnas innecesarias
                                  replace_values=replace_dict,
                                  lowercase_columns=Columnas_minusculas,
                                  convert_to_int_columns=a_tipo_int)


# 3. Renombramos las columnas en el DataFrame
rename_dict = {'ID': 'id_hecho', 
               'N_VICTIMAS': 'nro_victimas', 
               'FECHA': 'fecha', 
               'HH': 'hora',
               'TIPO_DE_CALLE': 'tipo_calle', 
               'COMUNA': 'comuna', 
               'pos x': 'longitud', 
               'pos y': 'latitud',
               'VICTIMA': 'victima', 
               'ACUSADO': 'acusado'}

homicidios_hechos.rename(columns=rename_dict, inplace=True)



# 4. Reemplazamos 'Comuna 0' con la comuna más común
comuna_mas_comun = homicidios_hechos['comuna'].mode()[0] # Encuentra la comuna más común
homicidios_hechos.loc[homicidios_hechos['comuna'] == 0, 'comuna'] = comuna_mas_comun


# 5. Identificamos la hora más frecuente
hora_mas_frecuente = homicidios_hechos['hora'].mode()[0]

# Reemplazamos 'SD' con la hora más frecuente
homicidios_hechos['hora'] = homicidios_hechos['hora'].replace('sd', hora_mas_frecuente)


In [59]:
homicidios_hechos

Unnamed: 0,id_hecho,nro_victimas,fecha,hora,tipo_calle,comuna,longitud,latitud,victima,acusado
0,2016-0001,1,2016-01-01,4,avenida,8,-58.47533969,-34.68757022,moto,auto
1,2016-0002,1,2016-01-02,1,gral paz,9,-58.50877521,-34.66977709,auto,pasajeros
2,2016-0003,1,2016-01-03,7,avenida,1,-58.39040293,-34.63189362,moto,auto
3,2016-0004,1,2016-01-10,0,avenida,8,-58.46503904,-34.68092974,moto,desconocido
4,2016-0005,1,2016-01-21,5,avenida,1,-58.38718297,-34.62246630,moto,pasajeros
...,...,...,...,...,...,...,...,...,...,...
691,2021-0093,1,2021-12-13,17,avenida,7,-58.43353773,-34.64561636,moto,auto
692,2021-0094,1,2021-12-20,1,autopista,9,-58.46739825,-34.65117757,moto,auto
693,2021-0095,1,2021-12-30,0,avenida,11,-58.47293407,-34.61984745,moto,cargas
694,2021-0096,1,2021-12-15,10,avenida,9,-58.47066794,-34.65021673,auto,cargas


In [60]:
# Columnas a categorizar
colum_categorizadas = ['id_hecho', 'tipo_calle', 'comuna', 'victima', 'acusado']

# 1. Categorizamos las columnas
for columna in colum_categorizadas:
    if columna in homicidios_hechos.columns:
        homicidios_hechos[columna] = homicidios_hechos[columna].astype('category')
    else:
        print(f"La columna '{columna}' no existe en el DataFrame.")

#### Vamos a pasar las coordenadas de LAT y LONG que tienen un punto, a un valor random usando su respectiva comuna como referencia 

In [61]:
# Seleccionar todas las filas donde la columna 'latitud' tiene un valor NaN
filas_con_nan_latitud = homicidios_hechos[homicidios_hechos['latitud'].isna()]
filas_con_nan_latitud

Unnamed: 0,id_hecho,nro_victimas,fecha,hora,tipo_calle,comuna,longitud,latitud,victima,acusado
38,2016-0052,1,2016-04-20,20,autopista,13,.,,moto,desconocido


In [62]:

# Convertir los puntos en NaN en la columna 'longitud' y 'latitud'
homicidios_hechos['longitud'] = homicidios_hechos['longitud'].replace('.', np.nan)
homicidios_hechos['latitud'] = homicidios_hechos['latitud'].replace('.', np.nan)

In [63]:
completar_coordenadas_con_comuna(homicidios_hechos)

Unnamed: 0,id_hecho,nro_victimas,fecha,hora,tipo_calle,comuna,longitud,latitud,victima,acusado
0,2016-0001,1,2016-01-01,4,avenida,8,-58.47533969,-34.68757022,moto,auto
1,2016-0002,1,2016-01-02,1,gral paz,9,-58.50877521,-34.66977709,auto,pasajeros
2,2016-0003,1,2016-01-03,7,avenida,1,-58.39040293,-34.63189362,moto,auto
3,2016-0004,1,2016-01-10,0,avenida,8,-58.46503904,-34.68092974,moto,desconocido
4,2016-0005,1,2016-01-21,5,avenida,1,-58.38718297,-34.62246630,moto,pasajeros
...,...,...,...,...,...,...,...,...,...,...
691,2021-0093,1,2021-12-13,17,avenida,7,-58.43353773,-34.64561636,moto,auto
692,2021-0094,1,2021-12-20,1,autopista,9,-58.46739825,-34.65117757,moto,auto
693,2021-0095,1,2021-12-30,0,avenida,11,-58.47293407,-34.61984745,moto,cargas
694,2021-0096,1,2021-12-15,10,avenida,9,-58.47066794,-34.65021673,auto,cargas


---
## **Exploración inicial de las tablas**
### **TABLA Homicidios - Victimas**

In [64]:
homicidios_victimas_.head(12)

Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO
0,2016-0001,2016-01-01,2016,1,1,CONDUCTOR,MOTO,MASCULINO,19,2016-01-01 00:00:00
1,2016-0002,2016-01-02,2016,1,2,CONDUCTOR,AUTO,MASCULINO,70,2016-01-02 00:00:00
2,2016-0003,2016-01-03,2016,1,3,CONDUCTOR,MOTO,MASCULINO,30,2016-01-03 00:00:00
3,2016-0004,2016-01-10,2016,1,10,CONDUCTOR,MOTO,MASCULINO,18,SD
4,2016-0005,2016-01-21,2016,1,21,CONDUCTOR,MOTO,MASCULINO,29,2016-02-01 00:00:00
5,2016-0008,2016-01-24,2016,1,24,CONDUCTOR,MOTO,MASCULINO,30,2016-01-24 00:00:00
6,2016-0009,2016-01-24,2016,1,24,PASAJERO_ACOMPAÑANTE,MOTO,MASCULINO,29,2016-01-26 00:00:00
7,2016-0010,2016-01-29,2016,1,29,CONDUCTOR,MOTO,MASCULINO,18,2016-01-29 00:00:00
8,2016-0012,2016-02-08,2016,2,8,CONDUCTOR,MOTO,MASCULINO,22,2016-02-08 00:00:00
9,2016-0013,2016-02-10,2016,2,10,PEATON,PEATON,MASCULINO,16,2016-02-10 00:00:00


In [65]:
homicidios_victimas_.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 717 entries, 0 to 716
Data columns (total 10 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   ID_hecho             717 non-null    object        
 1   FECHA                717 non-null    datetime64[ns]
 2   AAAA                 717 non-null    int64         
 3   MM                   717 non-null    int64         
 4   DD                   717 non-null    int64         
 5   ROL                  717 non-null    object        
 6   VICTIMA              717 non-null    object        
 7   SEXO                 717 non-null    object        
 8   EDAD                 717 non-null    object        
 9   FECHA_FALLECIMIENTO  717 non-null    object        
dtypes: datetime64[ns](1), int64(3), object(6)
memory usage: 56.1+ KB


In [66]:
homicidios_victimas_.describe()

Unnamed: 0,FECHA,AAAA,MM,DD
count,717,717.0,717.0,717.0
mean,2018-09-09 01:36:24.100418304,2018.174338,6.688982,15.960948
min,2016-01-01 00:00:00,2016.0,1.0,1.0
25%,2017-04-01 00:00:00,2017.0,4.0,9.0
50%,2018-07-07 00:00:00,2018.0,7.0,16.0
75%,2019-12-18 00:00:00,2019.0,10.0,23.0
max,2021-12-30 00:00:00,2021.0,12.0,31.0
std,,1.672655,3.57514,8.683358


#### Creamos un DataFrame que cuenta los valores NaN y su porcentaje representativo respecto a la columna

In [67]:

analizar_nan(homicidios_victimas_)

Unnamed: 0,Columna,Cantidad de NaN,% NaN x Columna


#### Creamos un DataFrame que cuenta los valores SIN DATO y su porcentaje representativo respecto a la columna

In [68]:
analizar_SD(homicidios_victimas_)

Unnamed: 0,Columna,Cantidad de SD,% SD x Columna
5,ROL,11,1.53
6,VICTIMA,9,1.26
7,SEXO,6,0.84
8,EDAD,53,7.39
9,FECHA_FALLECIMIENTO,68,9.48


#### Contar los valores duplicados en todo el DataFrame


In [69]:
homicidios_victimas_.duplicated().sum()

0

#### Conteo de valores únicos en variables categóricas


In [70]:
# Conteo de Comunas
cat_rol= homicidios_victimas_['ROL'].value_counts().sort_index().reset_index()

cat_rol.columns = ['ROL', 'Frecuencia']
cat_rol

Unnamed: 0,ROL,Frecuencia
0,CICLISTA,29
1,CONDUCTOR,330
2,PASAJERO_ACOMPAÑANTE,80
3,PEATON,267
4,SD,11


In [71]:
# Conteo de Genero
cat_sexo= homicidios_victimas_['SEXO'].value_counts().sort_index().reset_index()

cat_sexo.columns = ['SEXO', 'Frecuencia']
cat_sexo

Unnamed: 0,SEXO,Frecuencia
0,FEMENINO,166
1,MASCULINO,545
2,SD,6


In [72]:
homicidios_victimas_

Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO
0,2016-0001,2016-01-01,2016,1,1,CONDUCTOR,MOTO,MASCULINO,19,2016-01-01 00:00:00
1,2016-0002,2016-01-02,2016,1,2,CONDUCTOR,AUTO,MASCULINO,70,2016-01-02 00:00:00
2,2016-0003,2016-01-03,2016,1,3,CONDUCTOR,MOTO,MASCULINO,30,2016-01-03 00:00:00
3,2016-0004,2016-01-10,2016,1,10,CONDUCTOR,MOTO,MASCULINO,18,SD
4,2016-0005,2016-01-21,2016,1,21,CONDUCTOR,MOTO,MASCULINO,29,2016-02-01 00:00:00
...,...,...,...,...,...,...,...,...,...,...
712,2021-0092,2021-12-12,2021,12,12,PEATON,PEATON,FEMENINO,50,2021-12-12 00:00:00
713,2021-0093,2021-12-13,2021,12,13,PASAJERO_ACOMPAÑANTE,MOTO,FEMENINO,18,2021-12-18 00:00:00
714,2021-0094,2021-12-20,2021,12,20,PASAJERO_ACOMPAÑANTE,MOTO,FEMENINO,43,2021-12-20 00:00:00
715,2021-0095,2021-12-30,2021,12,30,CONDUCTOR,MOTO,MASCULINO,27,2022-01-02 00:00:00


---
# **Limpieza Y Transformacion de Datos**
### **Homicidios - Victimas**


1. procederemos a borrar las columnas innecesarias.
   1. FECHA, AAAA, MM, DD                                                               
   2. VICTIMA                                                                      -> Utilizaremos solo ROL
   3. FECHA_FALLECIMIENTO   
                                                             
2. Cambiaremos los nombres del dataset
3. Normalizaremos todo a minuscula
4. Cambiamos el tipo de dato de EDAD a int
   
5. Reemplazamos los valores 'Sin Dato' de 'ROL' y 'SEXO' a la categoria que mas predomina
6. Reemplazamos los valores 'Sin Dato' de 'EDAD' con la media del rango 
7. Categorizamos las columnas ID_hecho, ROL, SEXO
8.  Reemplazamos los datos 'SD' de todo el Dataframe a NaN, por motivos de normalizacion.
    

In [73]:
homicidios_victimas_

Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO
0,2016-0001,2016-01-01,2016,1,1,CONDUCTOR,MOTO,MASCULINO,19,2016-01-01 00:00:00
1,2016-0002,2016-01-02,2016,1,2,CONDUCTOR,AUTO,MASCULINO,70,2016-01-02 00:00:00
2,2016-0003,2016-01-03,2016,1,3,CONDUCTOR,MOTO,MASCULINO,30,2016-01-03 00:00:00
3,2016-0004,2016-01-10,2016,1,10,CONDUCTOR,MOTO,MASCULINO,18,SD
4,2016-0005,2016-01-21,2016,1,21,CONDUCTOR,MOTO,MASCULINO,29,2016-02-01 00:00:00
...,...,...,...,...,...,...,...,...,...,...
712,2021-0092,2021-12-12,2021,12,12,PEATON,PEATON,FEMENINO,50,2021-12-12 00:00:00
713,2021-0093,2021-12-13,2021,12,13,PASAJERO_ACOMPAÑANTE,MOTO,FEMENINO,18,2021-12-18 00:00:00
714,2021-0094,2021-12-20,2021,12,20,PASAJERO_ACOMPAÑANTE,MOTO,FEMENINO,43,2021-12-20 00:00:00
715,2021-0095,2021-12-30,2021,12,30,CONDUCTOR,MOTO,MASCULINO,27,2022-01-02 00:00:00


In [74]:
# Columnas que queremos eliminar del DataFrame
borrar_columnas = ['FECHA', 'AAAA', 'MM', 'DD', 'VICTIMA', 'FECHA_FALLECIMIENTO' ]

# Columnas que queremos convertir a minúsculas
Columnas_minusculas = ['ROL', 'SEXO']

# Columnas que queremos convertir a tipo entero
a_tipo_int = ['EDAD']


In [75]:
# Llamamos a la función de limpieza de datos
homicidios_victimas = data_cleaning(homicidios_victimas_,
                                  drop_columns=borrar_columnas, # Borramos columnas innecesarias
                                  lowercase_columns=Columnas_minusculas,
                                  convert_to_int_columns=a_tipo_int
)     

In [76]:
# Diccionario para renombrar las columnas
rename_dict = {'ID_hecho': 'id_hecho', 
               'ROL': 'rol',
               'SEXO': 'sexo',
                'EDAD': 'edad'
               }

# Renombramos las columnas en el DataFrame
homicidios_victimas.rename(columns=rename_dict, inplace=True)


In [77]:
homicidios_victimas['sexo'] = homicidios_victimas['sexo'].replace('sd', 'desconocido')
homicidios_victimas['rol'] = homicidios_victimas['rol'].replace('sd', 'desconocido')

Vamos a hacer estas transformaciones en el EDA

In [78]:

# Columnas que queremos categorizar
colum_categorizadas = ['id_hecho', 'rol', 'sexo']

# Categorizamos las columnas
for columna in colum_categorizadas:
    if columna in homicidios_victimas.columns:
        homicidios_victimas[columna] = homicidios_victimas[columna].astype('category')
    else:
        print(f"La columna '{columna}' no existe en el DataFrame.")


### Combinamos los datos

In [79]:
homicidios = pd.merge(homicidios_hechos, homicidios_victimas, left_on='id_hecho', right_on='id_hecho', how='inner')
homicidios['gravedad'] = 'fatal'

In [80]:
# Reemplazar estas palabras con NaN en todo el dataset
homicidios = homicidios.replace(['desconocido', 'SD', 'sd'], np.nan)




  homicidios = homicidios.replace(['desconocido', 'SD', 'sd'], np.nan)


In [81]:
homicidios

Unnamed: 0,id_hecho,nro_victimas,fecha,hora,tipo_calle,comuna,longitud,latitud,victima,acusado,rol,sexo,edad,gravedad
0,2016-0001,1,2016-01-01,4,avenida,8,-58.47533969,-34.68757022,moto,auto,conductor,masculino,19,fatal
1,2016-0002,1,2016-01-02,1,gral paz,9,-58.50877521,-34.66977709,auto,pasajeros,conductor,masculino,70,fatal
2,2016-0003,1,2016-01-03,7,avenida,1,-58.39040293,-34.63189362,moto,auto,conductor,masculino,30,fatal
3,2016-0004,1,2016-01-10,0,avenida,8,-58.46503904,-34.68092974,moto,,conductor,masculino,18,fatal
4,2016-0005,1,2016-01-21,5,avenida,1,-58.38718297,-34.62246630,moto,pasajeros,conductor,masculino,29,fatal
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
712,2021-0093,1,2021-12-13,17,avenida,7,-58.43353773,-34.64561636,moto,auto,pasajero_acompañante,femenino,18,fatal
713,2021-0094,1,2021-12-20,1,autopista,9,-58.46739825,-34.65117757,moto,auto,pasajero_acompañante,femenino,43,fatal
714,2021-0095,1,2021-12-30,0,avenida,11,-58.47293407,-34.61984745,moto,cargas,conductor,masculino,27,fatal
715,2021-0096,1,2021-12-15,10,avenida,9,-58.47066794,-34.65021673,auto,cargas,conductor,masculino,60,fatal


In [82]:
analizar_nan(homicidios)


Unnamed: 0,Columna,Cantidad de NaN,% NaN x Columna
8,victima,9,1.26
9,acusado,23,3.21
10,rol,11,1.53
11,sexo,6,0.84
12,edad,53,7.39


### Guardamos la tabla limpia

In [83]:
# Almacenar los DataFrames finales en un nuevo archivo CSV

homicidios.to_csv('../Datasets/2_cleaned_data/homicidios_limpios.csv', index=False)



## Nota: todos los datos que faltan son indicados con 'desconocido', exeptuando edad la cual tiene valores NaN