## ETL hoja victimas

Realizo un análisis exploratorio de los datos, con la finalidad de encontrar patrones que permitan generar información para la toma de decisiones en relación a disminuir las víctimas fatales.

### Importo las librerias necesarias para comenzar el proceso de ETL 

In [22]:
import numpy as np
import pandas as pd
import herramientas
import warnings
warnings.filterwarnings("ignore")

Comienzo mi Analisis Exploratorio con la hoja **VICTIMAS** de mi base de datos 'homicidios'

In [23]:
df_victimas=pd.read_excel('data/homicidios.xlsx',sheet_name='VICTIMAS')
df_victimas

Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO
0,2016-0001,2016-01-01,2016,1,1,CONDUCTOR,MOTO,MASCULINO,19,2016-01-01 00:00:00
1,2016-0002,2016-01-02,2016,1,2,CONDUCTOR,AUTO,MASCULINO,70,2016-01-02 00:00:00
2,2016-0003,2016-01-03,2016,1,3,CONDUCTOR,MOTO,MASCULINO,30,2016-01-03 00:00:00
3,2016-0004,2016-01-10,2016,1,10,CONDUCTOR,MOTO,MASCULINO,18,SD
4,2016-0005,2016-01-21,2016,1,21,CONDUCTOR,MOTO,MASCULINO,29,2016-02-01 00:00:00
...,...,...,...,...,...,...,...,...,...,...
712,2021-0092,2021-12-12,2021,12,12,PEATON,PEATON,FEMENINO,50,2021-12-12 00:00:00
713,2021-0093,2021-12-13,2021,12,13,PASAJERO_ACOMPAÑANTE,MOTO,FEMENINO,18,2021-12-18 00:00:00
714,2021-0094,2021-12-20,2021,12,20,PASAJERO_ACOMPAÑANTE,MOTO,FEMENINO,43,2021-12-20 00:00:00
715,2021-0095,2021-12-30,2021,12,30,CONDUCTOR,MOTO,MASCULINO,27,2022-01-02 00:00:00


In [24]:
df_victimas.columns

Index(['ID_hecho', 'FECHA', 'AAAA', 'MM', 'DD', 'ROL', 'VICTIMA', 'SEXO',
       'EDAD', 'FECHA_FALLECIMIENTO'],
      dtype='object')

Podemos observar que la hoja 'VICTIMAS' consta de 10 columnas y 717 filas inicialmente. A continuacion se puede observar el 'Diccionario de datos' con el cual podremos observar el significado de cada columna de nuestra base de datos

Diccionario de datos:

- **ID_hecho**: identificador unico del siniestro
- **FECHA**: fecha en formato dd/mm/aaaa
- **AAAA**:	año
- **MM**: mes
- **DD**: día del mes
- **ROL**: Posición relativa al vehículo que presentaba la víctima en el momento del siniestro
- **VICTIMA**: Vehículo que ocupaba quien haya fallecido a se haya lastimado a raíz del hecho, o bien peatón/a. Clasificación agregada del tipo de vehículos.
    - **PEATON**:	Víctima distinta de cualquier ocupante de un vehículo, ya sea un conductor/a o un pasajero/a. Se incluyen los ocupantes o personas que empujan o arrastran un coche de bebé o una silla de ruedas o cualquier otro vehículo sin motor de pequeñas dimensiones. Se incluyen también las personas que caminan empujando una bicicleta o un ciclomotor.
    - **MOTO**:	Vehículo a motor no carrozado que incluye motocicleta, ciclomotor y cuatriciclo.
    - **AUTO**:	Vehículo a motor destinado al transporte de personas, diferente de los motovehículos, y que tenga hasta nueve plazas (incluyendo al asiento del conductor) (Sedan, SUV, coupe, etc)
    - **CARGAS**:	Vehículo a motor destiando al transporte de cargas, incluye camiones pesados (con o sin acoplado o semirremolque, etc., camión de recolección de residuos) y livianos (utilitarios, furgonetas, pick-ups, camioneta con caja de carga).
    - **BICICLETA**:	Vehículo con al menos dos ruedas, que generalmente es accionado por el esfuerzo muscular de las personas que lo ocupan, en particular mediante pedales o manivelas. Incluye bicicletas de pedaleo asistido y/o con motor
    - **PASAJEROS**:	Personas lesionadas que se encuentran dentro, descendiendo o ascendiendo de las unidades de autotrasporte público de pasajeros/as y ómnibus de larga distancia
    - **MOVIL**:	Vehículos de emergencia: móviles policiales, ambulancias, autobombas. 
    - **OTRO**:	otros vehiculos
    - **SD**:	Sin datos sobre el tipo de víctima.

- **SEXO**:	Sexo informado por fuente policial de la víctima
- **EDAD**:	Edad de la víctima al momento del siniestro
- **FECHA_FALLECIMIENTO**: Fecha de fallecimiento de la víctima


### A continuacion se procede a realizar el proceso de ETL

- **Estandarizacion del nombre de las columnas**: Dado que los nombres de las columnas algunos estan en minusculas, y el nombre de las mismas podria ser poco intuitivo a la hora de realizar analisis posteriormente, realizo la estandarizacion de los mismos

In [25]:
# Se coloca la primera en mayúscula
df_victimas.columns = [x.capitalize() for x in df_victimas.columns]
# Se reemplazan los guiones por espacios
df_victimas.columns = df_victimas.columns.str.replace('_', ' ')
# Se renombran algunas columnas
df_victimas = df_victimas.rename(columns={'Id hecho': 'Id',
                                                      'Aaaa':'Año',
                                                      'Mm':'Mes',
                                                      'Dd':'Dia',
                                                      'Victima':'Victima'})

Verificamos si se aplicaron los cambios anteriores

In [26]:
df_victimas.columns

Index(['Id', 'Fecha', 'Año', 'Mes', 'Dia', 'Rol', 'Victima', 'Sexo', 'Edad',
       'Fecha fallecimiento'],
      dtype='object')

Verifico valores nulos 

In [27]:
herramientas.verifica_tipo_y_nulos(df_victimas)

Unnamed: 0,nombre_campo,tipo_datos,no_nulos_%,nulos_%,nulos
0,Id,[<class 'str'>],100.0,0.0,0
1,Fecha,[<class 'pandas._libs.tslibs.timestamps.Timest...,100.0,0.0,0
2,Año,[<class 'int'>],100.0,0.0,0
3,Mes,[<class 'int'>],100.0,0.0,0
4,Dia,[<class 'int'>],100.0,0.0,0
5,Rol,[<class 'str'>],100.0,0.0,0
6,Victima,[<class 'str'>],100.0,0.0,0
7,Sexo,[<class 'str'>],100.0,0.0,0
8,Edad,"[<class 'int'>, <class 'str'>]",100.0,0.0,0
9,Fecha fallecimiento,"[<class 'datetime.datetime'>, <class 'str'>]",100.0,0.0,0


Verifico la existencia de valores duplicados

In [28]:
df_victimas.duplicated()

0      False
1      False
2      False
3      False
4      False
       ...  
712    False
713    False
714    False
715    False
716    False
Length: 717, dtype: bool

Analizo por columna 'Id' si existen valores duplicados

In [29]:
herramientas.verifica_duplicados_por_columna(df_victimas,'Id')

Unnamed: 0,Id,Fecha,Año,Mes,Dia,Rol,Victima,Sexo,Edad,Fecha fallecimiento
29,2016-0041,2016-03-29,2016,3,29,CONDUCTOR,MOTO,MASCULINO,54,2016-03-29 00:00:00
30,2016-0041,2016-03-29,2016,3,29,PASAJERO_ACOMPAÑANTE,MOTO,MASCULINO,SD,2016-03-30 00:00:00
98,2016-0126,2016-09-18,2016,9,18,CONDUCTOR,AUTO,MASCULINO,37,SD
99,2016-0126,2016-09-18,2016,9,18,PASAJERO_ACOMPAÑANTE,AUTO,MASCULINO,60,SD
163,2017-0026,2017-02-26,2017,2,26,PASAJERO_ACOMPAÑANTE,AUTO,FEMENINO,23,2017-02-26 00:00:00
164,2017-0026,2017-02-26,2017,2,26,CONDUCTOR,AUTO,MASCULINO,19,2017-02-26 00:00:00
173,2017-0035,2017-03-23,2017,3,23,CONDUCTOR,AUTO,MASCULINO,28,2017-03-23 00:00:00
174,2017-0035,2017-03-23,2017,3,23,PASAJERO_ACOMPAÑANTE,AUTO,MASCULINO,32,2017-03-23 00:00:00
175,2017-0035,2017-03-23,2017,3,23,PASAJERO_ACOMPAÑANTE,AUTO,MASCULINO,30,2017-03-23 00:00:00
177,2017-0036,2017-03-29,2017,3,29,CONDUCTOR,MOTO,MASCULINO,20,2017-03-29 00:00:00


Se observan 'Id' repetidos pero varia el valor en la columna 'Rol' , por lo cual en un inicio se conservaran los valores repetidos en la columna 'Id'

Verifico el tipo de variable y los valores nulos

In [30]:
herramientas.verifica_tipo_y_nulos(df_victimas)

Unnamed: 0,nombre_campo,tipo_datos,no_nulos_%,nulos_%,nulos
0,Id,[<class 'str'>],100.0,0.0,0
1,Fecha,[<class 'pandas._libs.tslibs.timestamps.Timest...,100.0,0.0,0
2,Año,[<class 'int'>],100.0,0.0,0
3,Mes,[<class 'int'>],100.0,0.0,0
4,Dia,[<class 'int'>],100.0,0.0,0
5,Rol,[<class 'str'>],100.0,0.0,0
6,Victima,[<class 'str'>],100.0,0.0,0
7,Sexo,[<class 'str'>],100.0,0.0,0
8,Edad,"[<class 'int'>, <class 'str'>]",100.0,0.0,0
9,Fecha fallecimiento,"[<class 'datetime.datetime'>, <class 'str'>]",100.0,0.0,0


Se observa que la columna 'Edad' y 'Fecha fallecimiento' tienen varios tipos de datos, por lo cual se revisaran los mismos

- **Columna: 'Edad'**

In [31]:
# Cantidad de valores por tipo de dato en la columna 'edad'
datos_type_count = df_victimas['Edad'].apply(type).value_counts()
print('Cantidad de datos:')
print(datos_type_count)

Cantidad de datos:
Edad
<class 'int'>    664
<class 'str'>     53
Name: count, dtype: int64


Se observan 53 datos tipo str, se investigan los mismos 

In [32]:
df_victimas[df_victimas['Edad'].apply(lambda x: isinstance(x, str))]

Unnamed: 0,Id,Fecha,Año,Mes,Dia,Rol,Victima,Sexo,Edad,Fecha fallecimiento
30,2016-0041,2016-03-29,2016,3,29,PASAJERO_ACOMPAÑANTE,MOTO,MASCULINO,SD,2016-03-30 00:00:00
33,2016-0045,2016-04-11,2016,4,11,CONDUCTOR,MOTO,MASCULINO,SD,SD
35,2016-0048,2016-04-15,2016,4,15,PEATON,PEATON,FEMENINO,SD,SD
36,2016-0049,2016-04-17,2016,4,17,SD,SD,SD,SD,SD
39,2016-0052,2016-04-20,2016,4,20,SD,MOTO,SD,SD,SD
55,2016-0077,2016-06-13,2016,6,13,PEATON,PEATON,FEMENINO,SD,SD
63,2016-0085,2016-06-29,2016,6,29,SD,MOTO,MASCULINO,SD,SD
72,2016-0096,2016-07-25,2016,7,25,CONDUCTOR,MOTO,MASCULINO,SD,SD
89,2016-0115,2016-09-02,2016,9,2,SD,SD,MASCULINO,SD,SD
93,2016-0119,2016-09-04,2016,9,4,PASAJERO_ACOMPAÑANTE,SD,FEMENINO,SD,SD


Para completar los valores SD, se opta por realizar un promedio de las edades, teniendo en cuenta la columna 'sexo'. Como dicha columna tambien presenta valores SD, se procede a completar los mismos con el valor mas frecuente 

In [33]:
herramientas.valor_frecuente(df_victimas, 'Sexo')

El valor mas frecuente es: MASCULINO


Ahora se completa la edad , teninedo en cuenta el sexo

In [34]:
herramientas.edad_media_segun_sexo(df_victimas)

La edad promedio de Femenino es 51 y de Masculino es 40


- **Columnas: 'Rol' y 'Victima'**

Se observa ademas que las columnas 'Rol' y 'Victima' poseen faltantes, se revisan las cantidades de los mismos, es decir, valores SD

In [35]:
print(f" SD en 'Rol': {len(df_victimas[df_victimas['Rol']=='SD'])}")
print(f" SD en 'Victima': {len(df_victimas[df_victimas['Victima']=='SD'])}")

 SD en 'Rol': 11
 SD en 'Victima': 9


Se encontraron solo 11 en la columna 'Rol' y 9 en la columna 'Victima'. Por lo mismo reemplazamos dichos valores por el valor mas frecuente 

In [36]:
herramientas.valor_frecuente(df_victimas, 'Victima')

El valor mas frecuente es: MOTO


In [37]:
herramientas.valor_frecuente(df_victimas, 'Rol')

El valor mas frecuente es: CONDUCTOR


- **Columna: 'Fecha fallecimiento'**

Como el objetivo es analizar los datos para encontrar patrones que permitan tomar decisiones para disminuir los accidentes fatales, conocer la fecha de fallecimiento no se considera relevante para el mismo, por lo que se decide borrar la columna.

In [38]:
df_victimas = df_victimas.drop('Fecha fallecimiento', axis=1)
df_victimas

Unnamed: 0,Id,Fecha,Año,Mes,Dia,Rol,Victima,Sexo,Edad
0,2016-0001,2016-01-01,2016,1,1,CONDUCTOR,MOTO,MASCULINO,19
1,2016-0002,2016-01-02,2016,1,2,CONDUCTOR,AUTO,MASCULINO,70
2,2016-0003,2016-01-03,2016,1,3,CONDUCTOR,MOTO,MASCULINO,30
3,2016-0004,2016-01-10,2016,1,10,CONDUCTOR,MOTO,MASCULINO,18
4,2016-0005,2016-01-21,2016,1,21,CONDUCTOR,MOTO,MASCULINO,29
...,...,...,...,...,...,...,...,...,...
712,2021-0092,2021-12-12,2021,12,12,PEATON,PEATON,FEMENINO,50
713,2021-0093,2021-12-13,2021,12,13,PASAJERO_ACOMPAÑANTE,MOTO,FEMENINO,18
714,2021-0094,2021-12-20,2021,12,20,PASAJERO_ACOMPAÑANTE,MOTO,FEMENINO,43
715,2021-0095,2021-12-30,2021,12,30,CONDUCTOR,MOTO,MASCULINO,27


Debido a que para los analisis posteriores, es necesario unir la informacion con el **df_hechos** , se procede a eliminar las columnas:'Fecha', 'Año', 'Mes', 'Dia' y 'Victima', debido a que es la misma que esta en el **df_hechos**.

In [39]:
df_hechos=pd.read_csv(r'data\hechos_limpio.csv')
df_hechos[df_hechos['Id']== '2016-0052']

Unnamed: 0,Id,Cantidad de victimas,Fecha,Año,Mes,Dia,Hora,Hora en entero,Lugar del hecho,Tipo de calle,Calle,Cruce,Dirección normalizada,Comuna,XY (CABA),Pos x,Pos y,Participantes,Victima,Acusado
38,2016-0052,1,2016-04-20,2016,4,20,20:00:00,20,AUTOPISTA LUGONES PK 10000,AUTOPISTA,"LUGONES, LEOPOLDO AV.",No,SD,13,0,0.0,0.0,MOTO-SD,MOTO,SD


In [40]:
df_victimas[df_victimas['Id']== '2016-0052']

Unnamed: 0,Id,Fecha,Año,Mes,Dia,Rol,Victima,Sexo,Edad
39,2016-0052,2016-04-20,2016,4,20,CONDUCTOR,MOTO,MASCULINO,39


In [41]:
df_victimas = df_victimas.drop(['Fecha', 'Año', 'Mes', 'Dia', 'Victima'], axis=1)
df_victimas.columns

Index(['Id', 'Rol', 'Sexo', 'Edad'], dtype='object')

### Carga de la Hoja 'VICTIMAS'

Se procede a guardar los cambios anteriormente realizados en un archivo llamado  **'victimas_limpio.csv'**

In [42]:
df_victimas_limpio = 'data/victimas_limpio.csv'
df_victimas.to_csv(df_victimas_limpio, index=False, encoding='utf-8')
print(f'Se guardó el archivo {df_victimas_limpio}')

Se guardó el archivo data/victimas_limpio.csv
