# <center>  ETL </br>
#  <center> -- Extraer, Transformar y Cargar --</center>
Se realiza la extracción, transformación y carga de los datos proporcionados en el archivo 'lesiones.xlsx, una primera aproximación a los datos con lo que se cuenta.


_________________

### <center>Importar Librerias</center>

In [37]:
import pandas as pd
import numpy as np
import os
import funciones

import warnings
warnings.filterwarnings("ignore")

________________

### <center>Extracción de datos</center>

In [38]:
#Se pasa dirección del archivo
archivo = os.path.join('..', 'BD', 'lesiones.xlsx')

#Se extraen las tablas del archivo 'homicidios.xlsx', tabla: HECHOS y tabla: VICTIMAS
df_lesiones_h = pd.read_excel(archivo, sheet_name='HECHOS')
df_lesiones_v = pd.read_excel(archivo, sheet_name='VICTIMAS')


In [39]:
# Se visualizan las dimensiones del dataframe (filas, columnas)
df_lesiones_h.shape

(23785, 27)

In [40]:
df_lesiones_h.head(2)

Unnamed: 0,id,n_victimas,aaaa,mm,dd,fecha,hora,franja_hora,direccion_normalizada,comuna,...,latutid,victima,acusado,participantes,moto,auto,transporte_publico,camion,ciclista,gravedad
0,LC-2019-0000179,1,2019,1,1,2019-01-01 00:00:00,09:00:00,9,SD,14,...,-34.559658,CICLISTA,SD,CICLISTA-SD,SD,SD,SD,SD,x,SD
1,LC-2019-0000053,1,2019,1,1,2019-01-01 00:00:00,01:55:00,1,SD,8,...,-34.669125,AUTO,SD,AUTO-SD,SD,x,SD,SD,SD,SD


In [41]:
# Se visualizan las dimensiones del dataframe (filas, columnas)
df_lesiones_v.shape

(27605, 9)

In [42]:
df_lesiones_v.head(2)

Unnamed: 0,ID hecho,AAA,MM,DD,FECHA,VEHICULO_VICTIMA,SEXO,EDAD_VICTIMA,GRAVEDAD
0,LC-2019-0000053,2019,1,1,2019-01-01,sd,Varon,57,SD
1,LC-2019-0000063,2019,1,1,2019-01-01,sd,SD,SD,SD


______________

### Se analizó la información brindada, se estudió el problema y se decidió cual es la información más reelevante para el anális. Por lo que se se selecciona las columnas omportantes a utilizar, y se hace un merge.

In [43]:
# Se hace un nuevo dataframe (homicidios_hechos) con las columas a utilizar y se renombran las mismas para una mejor vision de los datos
df_lesiones_h = df_lesiones_h[['id','n_victimas', 'fecha', 'aaaa', 'mm', 'dd', 'franja_hora', 'comuna', 'longitud', 'latutid', 'tipo_calle', 'acusado']].rename(
    columns={'id': 'ID','n_victimas': 'CANT_VICTIMA', 'fecha': 'FECHA', 'aaaa': 'AÑO', 'mm': 'MES', 'dd': 'DIA', 'franja_hora': 'HORA', 'comuna': 'COMUNA', 'longitud': 'LONGITUD', 'latutid': 'LATITUD', 'tipo_calle': 'TIPO_CALLE', 'acusado': 'ACUSADO'})

In [44]:
# Se observan los datos
df_lesiones_h.head(2)

Unnamed: 0,ID,CANT_VICTIMA,FECHA,AÑO,MES,DIA,HORA,COMUNA,LONGITUD,LATITUD,TIPO_CALLE,ACUSADO
0,LC-2019-0000179,1,2019-01-01 00:00:00,2019,1,1,9,14,-58.408911,-34.559658,SD,SD
1,LC-2019-0000053,1,2019-01-01 00:00:00,2019,1,1,1,8,-58.44351,-34.669125,SD,SD


In [45]:
# Se hace un nuevo dataframe (homicidios_hechos) con las columas a utilizar y se renombran las mismas para una mejor vision de los datos
df_lesiones_v = df_lesiones_v[['ID hecho', 'VEHICULO_VICTIMA']].rename(columns={'ID hecho': 'ID', 'VEHICULO_VICTIMA': 'VICTIMA'})


In [46]:
# Se visualizan los datos
df_lesiones_v.head(2)

Unnamed: 0,ID,VICTIMA
0,LC-2019-0000053,sd
1,LC-2019-0000063,sd


_______________________________

Se hace el merge de ambos dataframes, conservando todos los campos de df_lesiones_v (víctima)

In [47]:
# Se hace la union de ambos dataframe
df_lesiones = df_lesiones_v.merge(df_lesiones_h, left_on='ID', right_on='ID', how='left')

In [48]:
# Se verifica tamaño del dataframe
df_lesiones_h.shape

(23785, 12)

In [49]:
# Se visualiza
df_lesiones.head(2)

Unnamed: 0,ID,VICTIMA,CANT_VICTIMA,FECHA,AÑO,MES,DIA,HORA,COMUNA,LONGITUD,LATITUD,TIPO_CALLE,ACUSADO
0,LC-2019-0000053,sd,1.0,2019-01-01 00:00:00,2019.0,1.0,1.0,1,8,-58.44351,-34.669125,SD,SD
1,LC-2019-0000063,sd,1.0,2019-01-01 00:00:00,2019.0,1.0,1.0,2,8,-58.468335,-34.677556,SD,SD


_______________________

### <center>Verificación de tipos de datos y nulos de datos</center>

In [50]:
funciones.verificar_tipo_datos(df_lesiones)

Unnamed: 0,Columna,Tipo,NO_nulos_%,Nulos_%,Nulos
0,ID,[<class 'str'>],100.0,0.0,0
1,VICTIMA,[<class 'str'>],100.0,0.0,0
2,CANT_VICTIMA,[<class 'float'>],99.97,0.03,7
3,FECHA,"[<class 'datetime.datetime'>, <class 'float'>,...",99.97,0.03,7
4,AÑO,[<class 'float'>],99.97,0.03,7
5,MES,[<class 'float'>],99.97,0.03,7
6,DIA,[<class 'float'>],99.97,0.03,7
7,HORA,"[<class 'int'>, <class 'str'>, <class 'float'>]",99.96,0.04,12
8,COMUNA,"[<class 'int'>, <class 'str'>, <class 'float'>]",99.33,0.67,185
9,LONGITUD,"[<class 'str'>, <class 'float'>, <class 'int'>]",99.0,1.0,277


Se encuentran nulos y tipos de datos a corregir

_________________

## Trato de  nulos

Se observa que FECHA, AÑO, MES y DIA tienen la misma cantidad de faltantes, por lo que al no contar con esas fechas se decide eliminar los registros

In [51]:
registros_nulos_anio = df_lesiones[df_lesiones['FECHA'].isnull()]
registros_nulos_anio

Unnamed: 0,ID,VICTIMA,CANT_VICTIMA,FECHA,AÑO,MES,DIA,HORA,COMUNA,LONGITUD,LATITUD,TIPO_CALLE,ACUSADO
11790,PNA-2019-0005246,sd,,,,,,,,,,,
16186,HC-2020-0499647,AUTO,,,,,,,,,,,
16187,HC-2020-0499647,AUTO,,,,,,,,,,,
16188,HC-2020-0499647,AUTO,,,,,,,,,,,
22821,HC-2021-0147160,SD,,,,,,,,,,,
22822,HC-2021-0147160,SD,,,,,,,,,,,
26799,HC-2021-0167039,PEATON,,,,,,,,,,,


In [52]:
# Elimina las filas con valores nulos en la columna 'FECHA'
df_lesiones = df_lesiones.dropna(subset=['FECHA'])

In [53]:
funciones.verificar_tipo_datos(df_lesiones)

Unnamed: 0,Columna,Tipo,NO_nulos_%,Nulos_%,Nulos
0,ID,[<class 'str'>],100.0,0.0,0
1,VICTIMA,[<class 'str'>],100.0,0.0,0
2,CANT_VICTIMA,[<class 'float'>],100.0,0.0,0
3,FECHA,"[<class 'datetime.datetime'>, <class 'str'>]",100.0,0.0,0
4,AÑO,[<class 'float'>],100.0,0.0,0
5,MES,[<class 'float'>],100.0,0.0,0
6,DIA,[<class 'float'>],100.0,0.0,0
7,HORA,"[<class 'int'>, <class 'str'>, <class 'float'>]",99.98,0.02,5
8,COMUNA,"[<class 'int'>, <class 'str'>, <class 'float'>]",99.36,0.64,178
9,LONGITUD,"[<class 'str'>, <class 'float'>, <class 'int'>]",99.02,0.98,270


_____________

## Cambio de formatos

### -  Columna FECHA

In [54]:
fechas_unicas = df_lesiones['FECHA'].unique()
print(fechas_unicas)


[datetime.datetime(2019, 1, 1, 0, 0) datetime.datetime(2019, 1, 2, 0, 0)
 datetime.datetime(2019, 9, 1, 0, 0) ...
 datetime.datetime(2021, 1, 30, 0, 0) datetime.datetime(2021, 5, 17, 0, 0)
 datetime.datetime(2021, 2, 15, 0, 0)]


In [55]:
# Se cambia el tipo de dato de la columna FECHA a datatime
df_lesiones['FECHA'] = pd.to_datetime(df_lesiones['FECHA'])


### -  Columna AÑO, MES, DIA

In [56]:
# Se cambia el tipo de dato a int
df_lesiones[['AÑO', 'MES', 'DIA']] = df_lesiones[['AÑO', 'MES', 'DIA']].apply(lambda x: x.astype(int))

### - Columna Hora

Se verifican los valores que toma

In [57]:
# Se comprueba los valores unicos que toma esta variable
hora_unicas = df_lesiones['HORA'].unique()
print(hora_unicas)


[1 2 4 8 7 9 12 13 19 18 21 3 20 14 5 15 17 23 10 16 11 22 0 6 'sd' nan]


Se eliminan los valores = 'sd' y NaN

In [58]:
# Se elimina el dato SD
df_lesiones = df_lesiones[df_lesiones['HORA'] != 'sd']

In [59]:
# Se elimina el dato Nan
df_lesiones = df_lesiones.dropna(subset=['HORA'])

Se pasa a tipo int la columna

In [60]:
# Se pasa a tipo int
df_lesiones['HORA'] = df_lesiones['HORA'].astype(int)


In [61]:
funciones.verificar_tipo_datos(df_lesiones)

Unnamed: 0,Columna,Tipo,NO_nulos_%,Nulos_%,Nulos
0,ID,[<class 'str'>],100.0,0.0,0
1,VICTIMA,[<class 'str'>],100.0,0.0,0
2,CANT_VICTIMA,[<class 'float'>],100.0,0.0,0
3,FECHA,[<class 'pandas._libs.tslibs.timestamps.Timest...,100.0,0.0,0
4,AÑO,[<class 'int'>],100.0,0.0,0
5,MES,[<class 'int'>],100.0,0.0,0
6,DIA,[<class 'int'>],100.0,0.0,0
7,HORA,[<class 'int'>],100.0,0.0,0
8,COMUNA,"[<class 'int'>, <class 'str'>, <class 'float'>]",99.36,0.64,176
9,LONGITUD,"[<class 'str'>, <class 'float'>, <class 'int'>]",99.03,0.97,268


________________________________

In [62]:
# Se ordenan las columnas para mejorar la visual de los datos
columnas_ordenadas = ['ID', 'FECHA', 'AÑO', 'MES', 'DIA', 'HORA', 'COMUNA', 'LONGITUD', 'LATITUD', 'TIPO_CALLE', 'ACUSADO', 'VICTIMA', 'CANT_VICTIMA']
df_lesiones = df_lesiones[columnas_ordenadas]


________________________________

### <center>Se almacena en un archivos csv</center>

In [63]:
# Se construye la ruta completa al archivo CSV desde la ubicación del notebook
lesiones = os.path.join('..', 'CSV', 'lesiones.csv')

# Se guarda el DataFrame en el archivo CSV
df_lesiones.to_csv(lesiones, index=False, encoding='utf-8')

# Se emite un mensaje que se guardó
print(f'Se guardó el archivo {lesiones}')

Se guardó el archivo ..\CSV\lesiones.csv
