# <center>  ETL </br>
#  <center> -- Extraer, Transformar y Cargar --</center>
Se realiza la extracción, transformación y carga de los datos proporcionados en el archivo 'homocidios.xlsx', una primera aproximación a los datos con lo que se cuenta.


### <center>Importar Librerias</center>

In [65]:
import pandas as pd
import numpy as np
import os
import funciones

import warnings
warnings.filterwarnings("ignore")

__________

### <center>Extracción de datos</center>

In [66]:
#Se pasa dirección del archivo
archivo = os.path.join('..', 'BD', 'homicidios.xlsx')

#Se extraen las tablas del archivo 'homicidios.xlsx', tabla: HECHOS y tabla: VICTIMAS
df_homicidio_h = pd.read_excel(archivo, sheet_name='HECHOS')
df_homicidio_v = pd.read_excel(archivo, sheet_name='VICTIMAS')

In [67]:
# Se visualizan las dimensiones del dataframe (filas, columnas)
df_homicidio_h.shape

(696, 21)

In [68]:
# Se visualizan las dimensiones del dataframe (filas, columnas)
df_homicidio_v.shape

(717, 10)

_______________

### Se analizó la información brindada, se estudió el problema y se decidió cual es la información más reelevante para el anális. Por lo que se se selecciona en primer lugar, las columnas a utilizar, y luego se hace un merge. Para ello, se renombra una columna.

In [78]:
# Se hace un nuevo dataframe (homicidios_hechos) con las columas a utilizar y se renombran las mismas para una mejor vision de los datos
df_homic_h = df_homicidio_h[['ID', 'N_VICTIMAS','FECHA', 'AAAA', 'MM', 'DD', 'HH', 'COMUNA', 'pos x', 'pos y', 'TIPO_DE_CALLE', 'ACUSADO']].rename(
    columns={'N_VICTIMAS': 'CANT_VICTIMA', 'AAAA': 'AÑO', 'MM': 'MES', 'DD': 'DIA', 'HH': 'HORA', 'pos x': 'LONGITUD', 'pos y': 'LATITUD','TIPO_DE_CALLE': 'TIPO_CALLE'}
)


In [71]:
# Se visualiza el dataframe
df_homic_h.head(2)

Unnamed: 0,ID,CANT_VICTIMA,FECHA,AÑO,MES,DIA,HORA,COMUNA,LONGITUD,LATITUD,CRUCE,TIPO_CALLE,ACUSADO
0,2016-0001,1,2016-01-01,2016,1,1,4,8,-58.47533969,-34.68757022,"FERNANDEZ DE LA CRUZ, F., GRAL. AV.",AVENIDA,AUTO
1,2016-0002,1,2016-01-02,2016,1,2,1,9,-58.50877521,-34.66977709,DE LOS CORRALES AV.,GRAL PAZ,PASAJEROS


In [72]:
# Se hace un nuevo dataframe (homicidios_victimas) con las columas a utilizar y se renombran las mismas para una mejor vision de los datos
df_homic_v = df_homicidio_v[['ID_hecho', 'VICTIMA']].rename(columns={'ID_hecho': 'ID'})

In [73]:
# Se visualiza el dataframe
df_homic_v.head(2)

Unnamed: 0,ID,VICTIMA
0,2016-0001,MOTO
1,2016-0002,AUTO


_______________

Se hace el merge de ambos dataframes, conservando todos los campos de df_hom_v (víctima)

In [74]:
# Se hace la union de ambos dataframe
df_homicidios = df_homic_v.merge(df_homic_h, left_on='ID', right_on='ID', how='left')

In [75]:
# Se verifica tamaño del dataframe
df_homicidios.shape

(717, 14)

In [76]:
# Se visualiza
df_homicidios.head(2)

Unnamed: 0,ID,VICTIMA,CANT_VICTIMA,FECHA,AÑO,MES,DIA,HORA,COMUNA,LONGITUD,LATITUD,CRUCE,TIPO_CALLE,ACUSADO
0,2016-0001,MOTO,1,2016-01-01,2016,1,1,4,8,-58.47533969,-34.68757022,"FERNANDEZ DE LA CRUZ, F., GRAL. AV.",AVENIDA,AUTO
1,2016-0002,AUTO,1,2016-01-02,2016,1,2,1,9,-58.50877521,-34.66977709,DE LOS CORRALES AV.,GRAL PAZ,PASAJEROS


_______________________

### <center>Verificación de tipos de datos y nulos de datos</center>

In [77]:
funciones.verificar_tipo_datos(df_homicidios)

Unnamed: 0,Columna,Tipo,NO_nulos_%,Nulos_%,Nulos
0,ID,[<class 'str'>],100.0,0.0,0
1,VICTIMA,[<class 'str'>],100.0,0.0,0
2,CANT_VICTIMA,[<class 'int'>],100.0,0.0,0
3,FECHA,[<class 'pandas._libs.tslibs.timestamps.Timest...,100.0,0.0,0
4,AÑO,[<class 'int'>],100.0,0.0,0
5,MES,[<class 'int'>],100.0,0.0,0
6,DIA,[<class 'int'>],100.0,0.0,0
7,HORA,"[<class 'int'>, <class 'str'>]",100.0,0.0,0
8,COMUNA,[<class 'int'>],100.0,0.0,0
9,LONGITUD,[<class 'str'>],100.0,0.0,0


Se verifica que no hay nulos, si hay que ver tipos de datos de ciertas columnas

______________

## Cambio de formatos

### -  Columna FECHA

In [57]:
# Se cambia el tipo de dato de la columna FECHA a datatime
df_homicidios['FECHA'] = pd.to_datetime(df_homicidios['FECHA'], errors='coerce')


In [58]:
df_homicidios.head(2)

Unnamed: 0,ID,VICTIMA,CANT_VICTIMA,FECHA,AÑO,MES,DIA,HORA,COMUNA,LONGITUD,LATITUD,TIPO_CALLE,ACUSADO
0,2016-0001,MOTO,1,2016-01-01,2016,1,1,4,8,-58.47533969,-34.68757022,AVENIDA,AUTO
1,2016-0002,AUTO,1,2016-01-02,2016,1,2,1,9,-58.50877521,-34.66977709,GRAL PAZ,PASAJEROS


### - Columna HORA

In [59]:
# Se visualizan los valores que toma la columna por el tipo de dato que tiene
valores_unicos_hora = df_homicidios['HORA'].unique()
valores_unicos_hora

array([4, 1, 7, 0, 5, 18, 19, 15, 11, 22, 16, 9, 23, 6, 10, 17, 12, 8, 20,
       21, 14, 3, 2, 13, 'SD'], dtype=object)

Un valor es SD por lo que se decide eliminarlo

In [60]:
# Se elimina el dato SD
df_homicidios = df_homicidios[df_homicidios['HORA'] != 'SD']

In [61]:
funciones.verificar_tipo_datos(df_homicidios)

Unnamed: 0,Columna,Tipo,NO_nulos_%,Nulos_%,Nulos
0,ID,[<class 'str'>],100.0,0.0,0
1,VICTIMA,[<class 'str'>],100.0,0.0,0
2,CANT_VICTIMA,[<class 'int'>],100.0,0.0,0
3,FECHA,[<class 'pandas._libs.tslibs.timestamps.Timest...,100.0,0.0,0
4,AÑO,[<class 'int'>],100.0,0.0,0
5,MES,[<class 'int'>],100.0,0.0,0
6,DIA,[<class 'int'>],100.0,0.0,0
7,HORA,[<class 'int'>],100.0,0.0,0
8,COMUNA,[<class 'int'>],100.0,0.0,0
9,LONGITUD,[<class 'str'>],100.0,0.0,0


________________________

In [62]:
# Se ordenan las columnas para mejorar la visual de los datos
columnas_ordenadas = ['ID', 'FECHA', 'AÑO', 'MES', 'DIA', 'HORA', 'COMUNA', 'LONGITUD', 'LATITUD', 'TIPO_CALLE', 'ACUSADO', 'VICTIMA', 'CANT_VICTIMA']
df_homicidios = df_homicidios[columnas_ordenadas]


In [63]:
df_homicidios.head(2)


Unnamed: 0,ID,FECHA,AÑO,MES,DIA,HORA,COMUNA,LONGITUD,LATITUD,TIPO_CALLE,ACUSADO,VICTIMA,CANT_VICTIMA
0,2016-0001,2016-01-01,2016,1,1,4,8,-58.47533969,-34.68757022,AVENIDA,AUTO,MOTO,1
1,2016-0002,2016-01-02,2016,1,2,1,9,-58.50877521,-34.66977709,GRAL PAZ,PASAJEROS,AUTO,1


___________________________

### <center>Se almacena en un archivos csv</center>

In [64]:
# Se construye la ruta completa al archivo CSV desde la ubicación del notebook
homicidios = os.path.join('..', 'CSV', 'homicidio.csv')

# Se guarda el DataFrame en el archivo CSV
df_homicidios.to_csv(homicidios, index=False, encoding='utf-8')

# Se emite un mensaje que se guardó
print(f'Se guardó el archivo {homicidios}')

Se guardó el archivo ..\CSV\homicidio.csv
