# ETL y EDA de victimas

### Comenzamos importando las librerías necesarias

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import scipy

%load_ext autoreload
%autoreload 2
import funciones

import warnings
warnings.filterwarnings("ignore")

### 2.1 Cargamos el dataset victimas a un pandas dataframe para comenzar el ETL

In [37]:
# Cargamos el dataset con sus diferentes páginas a pandas
sheets_to_load = ["VICTIMAS"]
# Cargamos las diferentes hojas del excel a un diccionario 
sheets_data = pd.read_excel(r'data\homicidios.xlsx ', sheet_name=sheets_to_load)

# Accedemos individualmente a los DataFrames usando el nombre de la pagina como fuente
victimas_df = sheets_data["VICTIMAS"]

In [38]:
victimas_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 717 entries, 0 to 716
Data columns (total 10 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   ID_hecho             717 non-null    object        
 1   FECHA                717 non-null    datetime64[ns]
 2   AAAA                 717 non-null    int64         
 3   MM                   717 non-null    int64         
 4   DD                   717 non-null    int64         
 5   ROL                  717 non-null    object        
 6   VICTIMA              717 non-null    object        
 7   SEXO                 717 non-null    object        
 8   EDAD                 717 non-null    object        
 9   FECHA_FALLECIMIENTO  717 non-null    object        
dtypes: datetime64[ns](1), int64(3), object(6)
memory usage: 56.1+ KB


In [39]:
victimas_df.head()

Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO
0,2016-0001,2016-01-01,2016,1,1,CONDUCTOR,MOTO,MASCULINO,19,2016-01-01 00:00:00
1,2016-0002,2016-01-02,2016,1,2,CONDUCTOR,AUTO,MASCULINO,70,2016-01-02 00:00:00
2,2016-0003,2016-01-03,2016,1,3,CONDUCTOR,MOTO,MASCULINO,30,2016-01-03 00:00:00
3,2016-0004,2016-01-10,2016,1,10,CONDUCTOR,MOTO,MASCULINO,18,SD
4,2016-0005,2016-01-21,2016,1,21,CONDUCTOR,MOTO,MASCULINO,29,2016-02-01 00:00:00


In [40]:
victimas_df.columns

Index(['ID_hecho', 'FECHA', 'AAAA', 'MM', 'DD', 'ROL', 'VICTIMA', 'SEXO',
       'EDAD', 'FECHA_FALLECIMIENTO'],
      dtype='object')


| Nombre_Columna        | Rename                      | Descripcion del dato y caracteristicas                                                          | Datatype |
| --------------------- | --------------------------- | ----------------------------------------------------------------------------------------------- | -------- |
| ID_hecho                    | id_hecho                    | es el identificador único del evento (siniestro)                                                | str      |
| FECHA                 | fecha | fecha en formato dd/mm/aaaa                                                                     | datetime |
| AAAA                  | año                         | es el año de ocurrencia del siniestro                                                           | int      |
| MM                    | mes                         | es el mes de ocurrencia del siniestro                                                           | int      |
| DD                    | id_hecho                    | es nro del dia de ocurrencia del siniestro (siniestro)                                          | int      |
| HORA                  | hora                        | es la hora de ocurrencia del siniestro (siniestro)                                              | HH:MM:SS |
| ROL                    | rol                    | Posición relativa al vehículo que presentaba la víctima en el momento del siniestro                                       | int      |
| VICTIMA      | victima                         | Vehículo que ocupaba quien haya fallecido a se haya lastimado a raíz del hecho, o bien peatón/a                                     | string   |
| SEXO                 | sexo                       |Sexo informado por fuente policial de la víctima                              | string   |
| EDAD                | edad                       | es nro de la calle, altura en que ocurrió el evento (siniestro)                                 | string   |
| FECHA_FALLECIMIENTO                 | fecha_fallecimiento                       | Fecha de fallecimiento de la víctima                          | string   |

## 2.2 Comenzamos el ETL con el primer dataframe hechos_df

### Renombro las columnas

In [41]:
victimas_df.rename(columns={'ID_hecho': 'id', 'FECHA': 'fecha', 'AAAA': 'anio', 'MM': 'mes', 'DD':'dia', 
                            'HORA': 'hora', 'ROL': 'rol', 'VICTIMA': 'victima', 'SEXO':'sexo', 'EDAD':'edad', 'FECHA_FALLECIMIENTO':'fecha_fallecimiento'}, inplace= True)

### Recorremos todo el Dataframe iterando por las columnas para repasar si hay valores duplicados, si hay valores faltantes y valores erróneos

### Resumen de las columnas del dataframe

In [42]:
%run -i funciones.py
calculate_column_stats(victimas_df)

Unnamed: 0,Unique_Values,Missing_Values,Missing_Percentage,Min,Max,Most_Common,Has_Duplicates,Duplicate_Percentage,Data_Type
id,696,0,0.0,,,,True,2.93,object
fecha,598,0,0.0,,,,True,16.6,datetime64[ns]
anio,6,0,0.0,2016.0,2021.0,2018.0,True,99.16,int64
mes,12,0,0.0,1.0,12.0,12.0,True,98.33,int64
dia,31,0,0.0,1.0,31.0,20.0,True,95.68,int64
rol,5,0,0.0,,,,True,99.3,object
victima,8,0,0.0,,,,True,98.88,object
sexo,3,0,0.0,,,,True,99.58,object
edad,86,0,0.0,,,,True,88.01,object
fecha_fallecimiento,563,0,0.0,,,,True,21.48,object


In [43]:
%run -i funciones.py
columns = ['rol','victima','sexo']
convert_to_sentence_case(victimas_df, columns)

### Análisis de las columnas de victimas_df
Podemos ver de la función anterior que:
#### 1. **id** 
- hay 696 valores únicos, es decir que se registraron 696 siniestros
- por como esta construido el 'id' corresponde al año y el número, cantidad de eventos en el año.
- No hay valores faltantes pero si duplicados, ya que esta columna corresponde a una  **clave secundaria** que vincula el siniestro con las víctimas, y hay siniestros con hasta casi 3 víctimas<br>
Este campo coincide exacto con el del campo id del Dataframe homocidios_df

#### 2. **fecha**, **mes**, **dia**, **anio**
- Son columnas numérica, y el rango va de 2016 a 2021. fecha es datatime y esta correcta 
- No hay valores faltantes.
- El datatype es correcto

In [44]:
# Repasamos los valores de cant_victimas
victimas_df.anio.value_counts()

anio
2018    149
2016    146
2017    140
2019    104
2021     97
2020     81
Name: count, dtype: int64

#### 3. **rol**:
- Posición relativa al vehículo que presentaba la víctima en el momento del siniestro<br>
- Hay 5 posibilidades (categorias): Conductor, Peaton, Pasajero_Acompañante, Ciclista, SD
- Vemos que estan todas las categorias representadas y correctas

In [45]:
# Repasamos los valores de horas
victimas_df.rol.value_counts()

rol
Conductor               330
Peaton                  267
Pasajero_Acompañante     80
Ciclista                 29
Sd                       11
Name: count, dtype: int64

Revisamos el id del siniestro para repasar si se puede completar desde esa data este campo

In [46]:
victimas_df[victimas_df['rol'] == 'Sd']

Unnamed: 0,id,fecha,anio,mes,dia,rol,victima,sexo,edad,fecha_fallecimiento
36,2016-0049,2016-04-17,2016,4,17,Sd,Sd,Sd,SD,SD
39,2016-0052,2016-04-20,2016,4,20,Sd,Moto,Sd,SD,SD
63,2016-0085,2016-06-29,2016,6,29,Sd,Moto,Masculino,SD,SD
77,2016-0101,2016-08-07,2016,8,7,Sd,Sd,Masculino,67,SD
89,2016-0115,2016-09-02,2016,9,2,Sd,Sd,Masculino,SD,SD
141,2016-0174,2016-12-27,2016,12,27,Sd,Sd,Sd,SD,SD
167,2017-0029,2017-03-07,2017,3,7,Sd,Sd,Masculino,34,2017-03-07 00:00:00
208,2017-0074,2017-06-04,2017,6,4,Sd,Sd,Masculino,70,2017-06-04 00:00:00
221,2017-0089,2017-07-13,2017,7,13,Sd,Sd,Masculino,23,SD
280,2017-0155,2017-12-12,2017,12,12,Sd,Sd,Masculino,77,SD


#### 4. **victima**
Vehículo que ocupaba quien haya fallecido a se haya lastimado a raíz del hecho, o bien peatón/a. <br>
Clasificación agregada del tipo de vehículos.<br>

In [47]:
victimas_df['victima'].value_counts()

victima
Moto         303
Peaton       267
Auto          94
Bicicleta     29
Sd             9
Cargas         7
Pasajeros      5
Movil          3
Name: count, dtype: int64

#### 5. **sexo**

In [48]:
victimas_df.sexo.value_counts()

sexo
Masculino    545
Femenino     166
Sd             6
Name: count, dtype: int64

#### 6. **Edad**:
Hay 53 valores sin datos. Vamos a decidir imputarlos segun el sexo, por el promedio de edad segun el sexo.<br>
Esto es vamos a calcular para cada sexo, el promedio de edad de los valores que si existen y completaremos la columna edad por ese valor promedio.<br>

In [49]:
victimas_df.edad.value_counts()

edad
SD    53
30    28
29    24
23    24
27    20
      ..
11     1
13     1
85     1
7      1
88     1
Name: count, Length: 86, dtype: int64

In [26]:
# Convert 'edad' column to numeric data type, coercing errors to NaN
victimas_df['edad'] = pd.to_numeric(victimas_df['edad'], errors='coerce')

victimas_male = victimas_df[victimas_df['sexo'] == 'MASCULINO']         # 545 registros
victimas_female = victimas_df[victimas_df['sexo'] == 'FEMENINO']        # 166 registros

# Calculamos el promedio de edad para cada sexo:
prom_edad_victimas_male = round((victimas_df[victimas_df['sexo'] == 'MASCULINO']['edad'].mean()),2)        # 545 registros
prom_edad_victimas_female = round((victimas_df[victimas_df['sexo'] == 'FEMENINO']['edad'].mean()),2)        # 166 registros

porcentaje_masculinas = round((victimas_male.id.count()/victimas_df.id.count())*100,2)
porcentaje_femeninas = round((victimas_female.id.count()/victimas_df.id.count())*100,2)

print('El promedio de edad de las victimas Masculinas es :', prom_edad_victimas_male)
print('El porcentage de victimas Masculinas es :',porcentaje_masculinas,'%')
print('El promedio de edad de las victimas Femeninas es :',prom_edad_victimas_female)
print('El porcentaje de victimas Femeninas es :',porcentaje_femeninas, '%')


El promedio de edad de las victimas Masculinas es : 39.55
El porcentage de victimas Masculinas es : 76.01 %
El promedio de edad de las victimas Femeninas es : 50.76
El porcentaje de victimas Femeninas es : 23.15 %


Realizamos la imputacion de estos valores a victimas_df

In [56]:
victimas_df.loc[(victimas_df['edad'] == 'SD') & (victimas_df['sexo'] == 'Masculino'), 'edad'] = 40
victimas_df.loc[(victimas_df['edad'] == 'SD') & (victimas_df['sexo'] == 'Femenino'), 'edad'] = 51

In [57]:
victimas_df.edad.value_counts()

edad
40    47
30    28
29    24
23    24
27    20
      ..
11     1
13     1
85     1
7      1
88     1
Name: count, Length: 86, dtype: int64

#### 5. **fecha_fallecimiento**
-  Hay 68 valores sin datos.
Pero esta columna no la consideraremos ya que la fecha que nos importa es la relativa al siniestro, esta es la fecha real de la muerte, pero no es interés para nuestro análisis y contexto.
Procedemos a eliminarla:

In [None]:
victimas_df.drop(['fecha_fallecimiento'],axis=1, inplace=True)

##### Coincide que el value_counts llegue hasta 3 ya que los siniestros registran hasta 3 victimas por siniestro

### 2.3 Guardamos el victimas_df para utilizarlo en el EDA integrador

In [59]:
# Ruta donde guardamos el file y el name_file
victimas = 'data\\victimas_etl.csv'
# Guardamos el dataframe en un archivo .csv
victimas_df.to_csv(victimas, index=False)
# Mensaje de confirmación de escritura
print(f'El victimas_df fue guardado en {victimas}')

El victimas_df fue guardado en data\victimas_etl.csv
