# ETL: Extracción, Transformación y Carga

## Exploración cualitativa y preparación para su uso de los datos en Homicidios.xlsx

In [1]:
import pandas as pd 
import warnings
warnings.filterwarnings("ignore")


### Proceso de Extracción

Cargando información desde el archivo homicidios.xlsx, que contiene dos hojas: HECHOS y VICTIMAS, y guardándolas en dos dataframes distintos.

In [2]:
df_H_Hechos = pd.read_excel('homicidios.xlsx', sheet_name= "HECHOS")

In [3]:
df_H_Victimas = pd.read_excel('homicidios.xlsx', sheet_name= "VICTIMAS")

## Entendiendo los Datos
Investigando y Arreglando el dataframe df_H_Hechos de la hoja HECHOS

In [4]:
df_H_Hechos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 696 entries, 0 to 695
Data columns (total 21 columns):
 #   Column                 Non-Null Count  Dtype         
---  ------                 --------------  -----         
 0   ID                     696 non-null    object        
 1   N_VICTIMAS             696 non-null    int64         
 2   FECHA                  696 non-null    datetime64[ns]
 3   AAAA                   696 non-null    int64         
 4   MM                     696 non-null    int64         
 5   DD                     696 non-null    int64         
 6   HORA                   696 non-null    object        
 7   HH                     696 non-null    object        
 8   LUGAR_DEL_HECHO        696 non-null    object        
 9   TIPO_DE_CALLE          696 non-null    object        
 10  Calle                  695 non-null    object        
 11  Altura                 129 non-null    float64       
 12  Cruce                  525 non-null    object        
 13  Direc

#### Revisamos Datos Nulos

In [5]:
df_H_Hechos.isnull().sum()

ID                         0
N_VICTIMAS                 0
FECHA                      0
AAAA                       0
MM                         0
DD                         0
HORA                       0
HH                         0
LUGAR_DEL_HECHO            0
TIPO_DE_CALLE              0
Calle                      1
Altura                   567
Cruce                    171
Dirección Normalizada      8
COMUNA                     0
XY (CABA)                  0
pos x                      0
pos y                      0
PARTICIPANTES              0
VICTIMA                    0
ACUSADO                    0
dtype: int64

El dataset es muy coimpleto y ordenado a primera vista. 
Solo posee algunos datos nulos las columnas que corresponden a Calle, Altura, Cruce, Dirección Normalizada, pero al ser este un estudio estadistico no tienen para nosotros, por ahora, interés, asi que los eliminamos.

In [6]:
# Eliminar columnas con datos nulos
df_H_Hechos_sin_nulos = df_H_Hechos.dropna(axis=1)

In [7]:
df_H_Hechos_sin_nulos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 696 entries, 0 to 695
Data columns (total 17 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   ID               696 non-null    object        
 1   N_VICTIMAS       696 non-null    int64         
 2   FECHA            696 non-null    datetime64[ns]
 3   AAAA             696 non-null    int64         
 4   MM               696 non-null    int64         
 5   DD               696 non-null    int64         
 6   HORA             696 non-null    object        
 7   HH               696 non-null    object        
 8   LUGAR_DEL_HECHO  696 non-null    object        
 9   TIPO_DE_CALLE    696 non-null    object        
 10  COMUNA           696 non-null    int64         
 11  XY (CABA)        696 non-null    object        
 12  pos x            696 non-null    object        
 13  pos y            696 non-null    object        
 14  PARTICIPANTES    696 non-null    object   

#### Columna ID y revisión de duplicados

revisamos esta columna para verificar si hay duplicados, el cual es 0

In [8]:
df_H_Hechos_sin_nulos['ID'].duplicated().sum()

0

#### Columna N_VICTIMAS
Tiene valores de tipo entero y no tiene valores nulos.

#### Columnas FECHA, AAAA, MM, DD, HORA Y HH

Estas columnas contienen información que puede ser redundante, pero no me estorba, no tienen valores nulos que puedan entorpecer las consultas y por lo tanto decido conservarlas como están. Sólo falta verificar tipos de datos.

In [9]:
#Detecto que hay al menos un registro con SD en la columna HORA. Reviso cuál o cuáles son
df_H_Hechos_sd = df_H_Hechos_sin_nulos[df_H_Hechos_sin_nulos['HORA']=='SD'][['ID','FECHA','HORA', 'HH', ]]


In [10]:
df_H_Hechos_sd

Unnamed: 0,ID,FECHA,HORA,HH
518,2019-0103,2019-12-18,SD,SD


In [11]:
#Cambio el valor SD por 0 para poder convertir luego los tipos de datos de estas columnas
df_H_Hechos_sin_nulos['HORA'][518]=0
df_H_Hechos_sin_nulos['HH'][518]=0

#### Columnas LUGAR_DEL_HECHO y XY (CABA) 
Tampoco nos van a servir asi que las eliminamos tambien

In [12]:
# Eliminar columnas específicas
df_H_Hechos_sin_nulos = df_H_Hechos_sin_nulos.drop(columns=['LUGAR_DEL_HECHO', 'XY (CABA)'])

In [13]:
# Verificar el DataFrame después de eliminar las columnas
print(df_H_Hechos_sin_nulos.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 696 entries, 0 to 695
Data columns (total 15 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   ID             696 non-null    object        
 1   N_VICTIMAS     696 non-null    int64         
 2   FECHA          696 non-null    datetime64[ns]
 3   AAAA           696 non-null    int64         
 4   MM             696 non-null    int64         
 5   DD             696 non-null    int64         
 6   HORA           696 non-null    object        
 7   HH             696 non-null    object        
 8   TIPO_DE_CALLE  696 non-null    object        
 9   COMUNA         696 non-null    int64         
 10  pos x          696 non-null    object        
 11  pos y          696 non-null    object        
 12  PARTICIPANTES  696 non-null    object        
 13  VICTIMA        696 non-null    object        
 14  ACUSADO        696 non-null    object        
dtypes: datetime64[ns](1), i

#### Columnas TIPO_DE_CALLE y PARTICIPANTES

Estas columnas no tienen valores nulos





#### Columnas VICTIMA y ACUSADO
Estas columnas no tienen valores nulos aunque obviamente si tiene duplicados.

In [14]:
df_H_Hechos_sin_nulos['ACUSADO'].unique()

array(['AUTO', 'PASAJEROS', 'SD', 'OBJETO FIJO', 'CARGAS', 'MOTO',
       'MULTIPLE', 'OTRO', 'BICICLETA', 'TREN'], dtype=object)

In [15]:
df_H_Hechos_sin_nulos['VICTIMA'].unique()

array(['MOTO', 'AUTO', 'PEATON', 'SD', 'CARGAS', 'BICICLETA', 'PASAJEROS',
       'MOVIL', 'OBJETO FIJO', 'PEATON_MOTO'], dtype=object)

Verificamos que la columna pos x & pos y tienen algunos datos mal cargados como solo un púnto, pero no nulos, así que los corregimos, y al no poder identificar donde son, les damos una ubicacion fuera de CABA unificada

In [16]:
# Seleccionar las filas donde "pos x" es igual a "."
filas_a_actualizar = df_H_Hechos_sin_nulos[df_H_Hechos_sin_nulos['pos x'] == '.']

# Actualizar las filas seleccionadas con los valores deseados
df_H_Hechos_sin_nulos.loc[filas_a_actualizar.index, 'pos x'] = -58.526752
df_H_Hechos_sin_nulos.loc[filas_a_actualizar.index, 'pos y'] = -34.546054

### Verificamos los tipos de variables

verificamos y confirmamos los tipos de variables

In [17]:
df_H_Hechos_sin_nulos.dtypes

ID                       object
N_VICTIMAS                int64
FECHA            datetime64[ns]
AAAA                      int64
MM                        int64
DD                        int64
HORA                     object
HH                       object
TIPO_DE_CALLE            object
COMUNA                    int64
pos x                    object
pos y                    object
PARTICIPANTES            object
VICTIMA                  object
ACUSADO                  object
dtype: object

In [18]:
df_H_Hechos_sin_nulos['ID'] = df_H_Hechos_sin_nulos['ID'].astype(str)
df_H_Hechos_sin_nulos['HORA'] = df_H_Hechos_sin_nulos['HORA'].astype(str)
df_H_Hechos_sin_nulos['HH'] = df_H_Hechos_sin_nulos['HH']. astype(int)
df_H_Hechos_sin_nulos['TIPO_DE_CALLE'] = df_H_Hechos_sin_nulos['TIPO_DE_CALLE']. astype(str)
df_H_Hechos_sin_nulos['pos x'] = df_H_Hechos_sin_nulos['pos x']. astype(float)
df_H_Hechos_sin_nulos['pos y'] = df_H_Hechos_sin_nulos['pos y']. astype(float)
df_H_Hechos_sin_nulos['PARTICIPANTES'] = df_H_Hechos_sin_nulos['PARTICIPANTES']. astype(str)
df_H_Hechos_sin_nulos['VICTIMA'] = df_H_Hechos_sin_nulos['VICTIMA']. astype(str)
df_H_Hechos_sin_nulos['ACUSADO'] = df_H_Hechos_sin_nulos['ACUSADO']. astype(str)

### Asignamos nombres mas acordes para que sean mas faciles de trabajar

In [19]:

df_H_Hechos_final = df_H_Hechos_sin_nulos.rename(columns={'N_VICTIMAS': 'Numero de víctimas',
                                'FECHA': 'Fecha',
                                'AAAA':'Año',
                                'MM':'Mes',
                                'DD':'Día',
                                'HORA': 'Hora',
                                'HH':'Hora entera',
                                'TIPO_DE_CALLE': 'Tipo de Calle',
                                'COMUNA': 'Comuna',
                                'pos x': 'Pos x',
                                'pos y': 'Pos y',
                                'PARTICIPANTES': 'Participantes',                      
                                'VICTIMA': 'Víctima',
                                'ACUSADO': 'Acusado'
                                })

In [20]:
df_H_Hechos_final.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 696 entries, 0 to 695
Data columns (total 15 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   ID                  696 non-null    object        
 1   Numero de víctimas  696 non-null    int64         
 2   Fecha               696 non-null    datetime64[ns]
 3   Año                 696 non-null    int64         
 4   Mes                 696 non-null    int64         
 5   Día                 696 non-null    int64         
 6   Hora                696 non-null    object        
 7   Hora entera         696 non-null    int32         
 8   Tipo de Calle       696 non-null    object        
 9   Comuna              696 non-null    int64         
 10  Pos x               696 non-null    float64       
 11  Pos y               696 non-null    float64       
 12  Participantes       696 non-null    object        
 13  Víctima             696 non-null    object        

In [22]:
#Exporto a CSV para poder continuar el trabajo luego
df_H_Hechos_final.to_csv('Homicidios_Hechos.csv')

### Análisis exploratorio inicial y transformación de datos para dataframe de VICTIMAS (df_HV)

In [21]:
df_H_Victimas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 717 entries, 0 to 716
Data columns (total 10 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   ID_hecho             717 non-null    object        
 1   FECHA                717 non-null    datetime64[ns]
 2   AAAA                 717 non-null    int64         
 3   MM                   717 non-null    int64         
 4   DD                   717 non-null    int64         
 5   ROL                  717 non-null    object        
 6   VICTIMA              717 non-null    object        
 7   SEXO                 717 non-null    object        
 8   EDAD                 717 non-null    object        
 9   FECHA_FALLECIMIENTO  717 non-null    object        
dtypes: datetime64[ns](1), int64(3), object(6)
memory usage: 56.1+ KB


In [22]:
df_H_Victimas.head(10)

Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO
0,2016-0001,2016-01-01,2016,1,1,CONDUCTOR,MOTO,MASCULINO,19,2016-01-01 00:00:00
1,2016-0002,2016-01-02,2016,1,2,CONDUCTOR,AUTO,MASCULINO,70,2016-01-02 00:00:00
2,2016-0003,2016-01-03,2016,1,3,CONDUCTOR,MOTO,MASCULINO,30,2016-01-03 00:00:00
3,2016-0004,2016-01-10,2016,1,10,CONDUCTOR,MOTO,MASCULINO,18,SD
4,2016-0005,2016-01-21,2016,1,21,CONDUCTOR,MOTO,MASCULINO,29,2016-02-01 00:00:00
5,2016-0008,2016-01-24,2016,1,24,CONDUCTOR,MOTO,MASCULINO,30,2016-01-24 00:00:00
6,2016-0009,2016-01-24,2016,1,24,PASAJERO_ACOMPAÑANTE,MOTO,MASCULINO,29,2016-01-26 00:00:00
7,2016-0010,2016-01-29,2016,1,29,CONDUCTOR,MOTO,MASCULINO,18,2016-01-29 00:00:00
8,2016-0012,2016-02-08,2016,2,8,CONDUCTOR,MOTO,MASCULINO,22,2016-02-08 00:00:00
9,2016-0013,2016-02-10,2016,2,10,PEATON,PEATON,MASCULINO,16,2016-02-10 00:00:00


In [23]:
df_H_Hechos_final.head(10)

Unnamed: 0,ID,Numero de víctimas,Fecha,Año,Mes,Día,Hora,Hora entera,Tipo de Calle,Comuna,Pos x,Pos y,Participantes,Víctima,Acusado
0,2016-0001,1,2016-01-01,2016,1,1,04:00:00,4,AVENIDA,8,-58.47534,-34.68757,MOTO-AUTO,MOTO,AUTO
1,2016-0002,1,2016-01-02,2016,1,2,01:15:00,1,GRAL PAZ,9,-58.508775,-34.669777,AUTO-PASAJEROS,AUTO,PASAJEROS
2,2016-0003,1,2016-01-03,2016,1,3,07:00:00,7,AVENIDA,1,-58.390403,-34.631894,MOTO-AUTO,MOTO,AUTO
3,2016-0004,1,2016-01-10,2016,1,10,00:00:00,0,AVENIDA,8,-58.465039,-34.68093,MOTO-SD,MOTO,SD
4,2016-0005,1,2016-01-21,2016,1,21,05:20:00,5,AVENIDA,1,-58.387183,-34.622466,MOTO-PASAJEROS,MOTO,PASAJEROS
5,2016-0008,1,2016-01-24,2016,1,24,18:30:00,18,AVENIDA,8,-58.444513,-34.684759,MOTO-OBJETO FIJO,MOTO,OBJETO FIJO
6,2016-0009,1,2016-01-24,2016,1,24,19:10:00,19,CALLE,11,-58.500959,-34.608254,MOTO-AUTO,MOTO,AUTO
7,2016-0010,1,2016-01-29,2016,1,29,15:20:00,15,GRAL PAZ,9,-58.508775,-34.669777,MOTO-AUTO,MOTO,AUTO
8,2016-0012,1,2016-02-08,2016,2,8,01:20:00,1,AVENIDA,1,-58.380486,-34.613039,MOTO-CARGAS,MOTO,CARGAS
9,2016-0013,1,2016-02-10,2016,2,10,11:30:00,11,AVENIDA,1,-58.391149,-34.624774,PEATON-AUTO,PEATON,AUTO


En los dos dataframes, coinciden los datos de ID, fecha y hora!

Aunque difieren en cantidad de filas los 2 dataframes, el df_H_Hechos_final tiene 696 filas mientras que el df_H_Victimas tiene 717 filas ya que hay varion hechos que tienen 2 o mas victimas!


#### Revisión de datos nulos

In [24]:
df_H_Victimas.isnull().sum()

ID_hecho               0
FECHA                  0
AAAA                   0
MM                     0
DD                     0
ROL                    0
VICTIMA                0
SEXO                   0
EDAD                   0
FECHA_FALLECIMIENTO    0
dtype: int64

#### Revisión de duplicados

A diferencia del dataframe anterior, no utilizo el ID para verificar duplicados, pues sé que habrá Id's duplicados en los casos en que un accidente haya tenido varias víctimas

In [25]:
df_H_Victimas[df_H_Victimas.duplicated()]

Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO


Al revisar la hoja de cálculo, he notado que en algunas columnas se encuentra el valor 'SD', que indica 'Sin Datos'. Voy a examinar cada columna individualmente para determinar si es posible realizar alguna imputación para estos espacios en blanco.

In [26]:
df_H_Victimas[df_H_Victimas['ID_hecho']=='SD']

Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO


In [27]:
df_H_Victimas[df_H_Victimas['FECHA']=='SD']

Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO


In [28]:
df_H_Victimas[df_H_Victimas['AAAA']=='SD']

Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO


In [29]:
df_H_Victimas[df_H_Victimas['MM']=='SD']

Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO


In [30]:
df_H_Victimas[df_H_Victimas['DD']=='SD']

Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO


Las columnas correspondientes al ID y las relacionadas con la fecha del accidente están completas.

In [31]:
df_H_Victimas[df_H_Victimas['FECHA_FALLECIMIENTO']=='SD']

Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO
3,2016-0004,2016-01-10,2016,1,10,CONDUCTOR,MOTO,MASCULINO,18,SD
16,2016-0022,2016-02-21,2016,2,21,PASAJERO_ACOMPAÑANTE,MOTO,MASCULINO,41,SD
19,2016-0027,2016-02-28,2016,2,28,PASAJERO_ACOMPAÑANTE,AUTO,MASCULINO,34,SD
22,2016-0031,2016-03-08,2016,3,8,CONDUCTOR,MOTO,MASCULINO,21,SD
33,2016-0045,2016-04-11,2016,4,11,CONDUCTOR,MOTO,MASCULINO,SD,SD
...,...,...,...,...,...,...,...,...,...,...
221,2017-0089,2017-07-13,2017,7,13,SD,SD,MASCULINO,23,SD
242,2017-0112,2017-09-10,2017,9,10,PASAJERO_ACOMPAÑANTE,AUTO,MASCULINO,1,SD
246,2017-0115,2017-09-19,2017,9,19,CONDUCTOR,MOTO,MASCULINO,34,SD
253,2017-0126,2017-10-14,2017,10,14,PASAJERO_ACOMPAÑANTE,AUTO,MASCULINO,39,SD


Hay 68 registros sin fecha de fallecimiento.
Vamos a eliminar la columna FECHA_FALLECIMIENTO, ya que como este numero de datos SD significan casi un 10% de las filas, y ser mas grandes que el KPI buscado, y no podemos saber fehacientemente el valor real es desaconsejable inferir nada de ahí, asi que precedemos a eliminar la columna.

In [32]:
df_H_Victimas = df_H_Victimas.drop(columns = ['FECHA_FALLECIMIENTO'])

In [33]:
df_H_Victimas[df_H_Victimas['ROL']=='SD']

Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD
36,2016-0049,2016-04-17,2016,4,17,SD,SD,SD,SD
39,2016-0052,2016-04-20,2016,4,20,SD,MOTO,SD,SD
63,2016-0085,2016-06-29,2016,6,29,SD,MOTO,MASCULINO,SD
77,2016-0101,2016-08-07,2016,8,7,SD,SD,MASCULINO,67
89,2016-0115,2016-09-02,2016,9,2,SD,SD,MASCULINO,SD
141,2016-0174,2016-12-27,2016,12,27,SD,SD,SD,SD
167,2017-0029,2017-03-07,2017,3,7,SD,SD,MASCULINO,34
208,2017-0074,2017-06-04,2017,6,4,SD,SD,MASCULINO,70
221,2017-0089,2017-07-13,2017,7,13,SD,SD,MASCULINO,23
280,2017-0155,2017-12-12,2017,12,12,SD,SD,MASCULINO,77


In [34]:
df_H_Victimas[df_H_Victimas['VICTIMA']=='SD']

Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD
36,2016-0049,2016-04-17,2016,4,17,SD,SD,SD,SD
77,2016-0101,2016-08-07,2016,8,7,SD,SD,MASCULINO,67
89,2016-0115,2016-09-02,2016,9,2,SD,SD,MASCULINO,SD
93,2016-0119,2016-09-04,2016,9,4,PASAJERO_ACOMPAÑANTE,SD,FEMENINO,SD
141,2016-0174,2016-12-27,2016,12,27,SD,SD,SD,SD
167,2017-0029,2017-03-07,2017,3,7,SD,SD,MASCULINO,34
208,2017-0074,2017-06-04,2017,6,4,SD,SD,MASCULINO,70
221,2017-0089,2017-07-13,2017,7,13,SD,SD,MASCULINO,23
280,2017-0155,2017-12-12,2017,12,12,SD,SD,MASCULINO,77


In [35]:
df_H_Victimas[df_H_Victimas['SEXO']=='SD']

Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD
36,2016-0049,2016-04-17,2016,4,17,SD,SD,SD,SD
39,2016-0052,2016-04-20,2016,4,20,SD,MOTO,SD,SD
108,2016-0136,2016-10-25,2016,10,25,CONDUCTOR,MOTO,SD,SD
121,2016-0151,2016-11-18,2016,11,18,PEATON,PEATON,SD,SD
138,2016-0171,2016-12-25,2016,12,25,CONDUCTOR,MOTO,SD,SD
141,2016-0174,2016-12-27,2016,12,27,SD,SD,SD,SD


En las columnas SEXO, ROL y Victima lso valores de SD no sobrepasan el 1.5% asi que procedemos a rellenar esos valores de la manera mas estadistica posible

En estas tres columnas la proporción de SD es pequeña: en ROL son 11 registros (1.5%), en VICTIMA son 9 registro (1.3%) y en SEXO son 6 registros (0.8%).

Para que no queden vacíos, puedo cambiar los datos faltantes de SEXO y ROL por el valor más frecuente de cada columna, con la tranquilidad de que, al ser tan pocos datos, no voy a alterar significativamente los resultados de los análisis estadísticos.

No voy a hacer ningún cambio en la columna VICTIMA, pues podría generar inconsistencia con los datos sobre la víctima que se encuentran en el dataframe de Hechos. Al hacer merge de ambos dataframes volveré a revisar este campo.

In [37]:
valor_mas_frecuente = df_H_Victimas['SEXO'].mode().iloc[0]
print(f'El valor mas frecuente para SEXO es: {valor_mas_frecuente}')

El valor mas frecuente para SEXO es: MASCULINO


In [38]:
df_H_Victimas['SEXO'][df_H_Victimas['SEXO']=='SD'] = 'MASCULINO'

In [39]:
df_H_Victimas[df_H_Victimas['SEXO']=='SD']

Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD


In [40]:
valor_mas_frecuente = df_H_Victimas['ROL'].mode().iloc[0]
print(f'El valor mas frecuente para ROL es: {valor_mas_frecuente}')

El valor mas frecuente para ROL es: CONDUCTOR


In [41]:
df_H_Victimas['ROL'][df_H_Victimas['ROL']=='SD'] = 'CONDUCTOR'

In [42]:
df_H_Victimas[df_H_Victimas['ROL']=='SD']

Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD


In [43]:
df_H_Victimas[df_H_Victimas['EDAD']=='SD'].shape[0]

53

En la columna de EDAD, hay varios registros sin datos, ¡casi un 6.3% del total! Si dejamos esos espacios como 'SD', vamos a tener problemas con el tipo de datos. Y ponerles 0 podría arruinar los cálculos. Así que, en vez de eso, vamos a sacar el promedio de edad según el sexo de las víctimas y llenar esos huecos con esos valores. 

In [44]:
# Reemplazo SD por Na para poder calcular el promedio
df_H_Victimas['EDAD'] = df_H_Victimas['EDAD'].replace('SD', pd.NA)

promedio_por_genero = df_H_Victimas.groupby('SEXO')['EDAD'].mean()
print(f'La edad promedio de FEMENINO es {round(promedio_por_genero["FEMENINO"])} y de MASCULINO es {round(promedio_por_genero["MASCULINO"])}')

# Se llenan los valores NaN en la columna 'edad' utilizando el promedio correspondiente al género
df_H_Victimas['EDAD'] = df_H_Victimas.apply(lambda row: promedio_por_genero[row['SEXO']] if pd.isna(row['EDAD']) else row['EDAD'], axis=1)
# Convierto de una vez el tipo de dato de esta columna a entero
df_H_Victimas['EDAD'] = df_H_Victimas['EDAD'].astype(int)

La edad promedio de FEMENINO es 51 y de MASCULINO es 40


In [45]:
df_H_Victimas[df_H_Victimas['EDAD']=='SD']

Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD


In [None]:
df_H_Victimas.head(20)

Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD
0,2016-0001,2016-01-01,2016,1,1,CONDUCTOR,MOTO,MASCULINO,19
1,2016-0002,2016-01-02,2016,1,2,CONDUCTOR,AUTO,MASCULINO,70
2,2016-0003,2016-01-03,2016,1,3,CONDUCTOR,MOTO,MASCULINO,30
3,2016-0004,2016-01-10,2016,1,10,CONDUCTOR,MOTO,MASCULINO,18
4,2016-0005,2016-01-21,2016,1,21,CONDUCTOR,MOTO,MASCULINO,29
5,2016-0008,2016-01-24,2016,1,24,CONDUCTOR,MOTO,MASCULINO,30
6,2016-0009,2016-01-24,2016,1,24,PASAJERO_ACOMPAÑANTE,MOTO,MASCULINO,29
7,2016-0010,2016-01-29,2016,1,29,CONDUCTOR,MOTO,MASCULINO,18
8,2016-0012,2016-02-08,2016,2,8,CONDUCTOR,MOTO,MASCULINO,22
9,2016-0013,2016-02-10,2016,2,10,PEATON,PEATON,MASCULINO,16


#### Verificacion y correccion de tipos de variables

In [46]:
df_H_Victimas.dtypes

ID_hecho            object
FECHA       datetime64[ns]
AAAA                 int64
MM                   int64
DD                   int64
ROL                 object
VICTIMA             object
SEXO                object
EDAD                 int32
dtype: object

In [47]:
df_H_Victimas['ID_hecho'] = df_H_Victimas['ID_hecho'].astype(str)
df_H_Victimas['ROL']=df_H_Victimas['ROL'].astype(str)
df_H_Victimas['VICTIMA']=df_H_Victimas['VICTIMA'].astype(str)
df_H_Victimas['SEXO']=df_H_Victimas['SEXO'].astype(str)

#### Cambios en los nombres de las columnas

In [48]:
df_H_Victimas = df_H_Victimas.rename(columns={'ID_hecho': 'ID',
                                'FECHA': 'Fecha',
                                'AAAA':'Año',
                                'MM':'Mes',
                                'DD':'Día',
                                'ROL': 'Rol',                               
                                'VICTIMA': 'Víctima',
                                'SEXO': 'Sexo',
                                'EDAD':'Edad'                                
                                })

In [49]:
df_H_Victimas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 717 entries, 0 to 716
Data columns (total 9 columns):
 #   Column   Non-Null Count  Dtype         
---  ------   --------------  -----         
 0   ID       717 non-null    object        
 1   Fecha    717 non-null    datetime64[ns]
 2   Año      717 non-null    int64         
 3   Mes      717 non-null    int64         
 4   Día      717 non-null    int64         
 5   Rol      717 non-null    object        
 6   Víctima  717 non-null    object        
 7   Sexo     717 non-null    object        
 8   Edad     717 non-null    int32         
dtypes: datetime64[ns](1), int32(1), int64(3), object(4)
memory usage: 47.7+ KB


In [50]:
#Exporto a CSV para poder continuar el trabajo luego
df_H_Victimas.to_csv('Homicidios_Victimas.csv')

### Preparamoa dataset para proceso de EDA

Cargamos los datos ya limpios de los archivos CSV

In [51]:
df_hoja_hechos = pd.read_csv('Homicidios_Hechos.csv', index_col=0)
df_hoja_victimas = pd.read_csv('Homicidios_Victimas.csv', index_col=0)

In [52]:
df_hoja_hechos.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 696 entries, 0 to 695
Data columns (total 15 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   ID                  696 non-null    object 
 1   Numero de víctimas  696 non-null    int64  
 2   Fecha               696 non-null    object 
 3   Año                 696 non-null    int64  
 4   Mes                 696 non-null    int64  
 5   Día                 696 non-null    int64  
 6   Hora                696 non-null    object 
 7   Hora entera         696 non-null    int64  
 8   Tipo de Calle       696 non-null    object 
 9   Comuna              696 non-null    int64  
 10  Pos x               696 non-null    float64
 11  Pos y               696 non-null    float64
 12  Participantes       696 non-null    object 
 13  Víctima             696 non-null    object 
 14  Acusado             696 non-null    object 
dtypes: float64(2), int64(6), object(7)
memory usage: 87.0+ KB

In [53]:
df_hoja_victimas.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 717 entries, 0 to 716
Data columns (total 9 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   ID       717 non-null    object
 1   Fecha    717 non-null    object
 2   Año      717 non-null    int64 
 3   Mes      717 non-null    int64 
 4   Día      717 non-null    int64 
 5   Rol      717 non-null    object
 6   Víctima  717 non-null    object
 7   Sexo     717 non-null    object
 8   Edad     717 non-null    int64 
dtypes: int64(4), object(5)
memory usage: 56.0+ KB


Como hay columnas repetidas, voy a eliminar algunas antes de mezclar los dos dataframes

In [54]:
df_hoja_victimas=df_hoja_victimas.drop(columns=['Fecha', 'Año', 'Mes', 'Día'])

In [55]:
df_hoja_hechos=df_hoja_hechos.drop(columns=['Víctima'])

Realizamos un merge entre ambos dataframes para obtener uno solo que nos permita ya empezar a trabajar en el EDA y la confeccion del DashBoard

In [56]:
df_homicidios = pd.merge(df_hoja_hechos, df_hoja_victimas, on='ID', how='inner')
df_homicidios

Unnamed: 0,ID,Numero de víctimas,Fecha,Año,Mes,Día,Hora,Hora entera,Tipo de Calle,Comuna,Pos x,Pos y,Participantes,Acusado,Rol,Víctima,Sexo,Edad
0,2016-0001,1,2016-01-01,2016,1,1,04:00:00,4,AVENIDA,8,-58.475340,-34.687570,MOTO-AUTO,AUTO,CONDUCTOR,MOTO,MASCULINO,19
1,2016-0002,1,2016-01-02,2016,1,2,01:15:00,1,GRAL PAZ,9,-58.508775,-34.669777,AUTO-PASAJEROS,PASAJEROS,CONDUCTOR,AUTO,MASCULINO,70
2,2016-0003,1,2016-01-03,2016,1,3,07:00:00,7,AVENIDA,1,-58.390403,-34.631894,MOTO-AUTO,AUTO,CONDUCTOR,MOTO,MASCULINO,30
3,2016-0004,1,2016-01-10,2016,1,10,00:00:00,0,AVENIDA,8,-58.465039,-34.680930,MOTO-SD,SD,CONDUCTOR,MOTO,MASCULINO,18
4,2016-0005,1,2016-01-21,2016,1,21,05:20:00,5,AVENIDA,1,-58.387183,-34.622466,MOTO-PASAJEROS,PASAJEROS,CONDUCTOR,MOTO,MASCULINO,29
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
712,2021-0093,1,2021-12-13,2021,12,13,17:10:00,17,AVENIDA,7,-58.433538,-34.645616,MOTO-AUTO,AUTO,PASAJERO_ACOMPAÑANTE,MOTO,FEMENINO,18
713,2021-0094,1,2021-12-20,2021,12,20,01:10:00,1,AUTOPISTA,9,-58.467398,-34.651178,MOTO-AUTO,AUTO,PASAJERO_ACOMPAÑANTE,MOTO,FEMENINO,43
714,2021-0095,1,2021-12-30,2021,12,30,00:43:00,0,AVENIDA,11,-58.472934,-34.619847,MOTO-CARGAS,CARGAS,CONDUCTOR,MOTO,MASCULINO,27
715,2021-0096,1,2021-12-15,2021,12,15,10:30:00,10,AVENIDA,9,-58.470668,-34.650217,AUTO-CARGAS,CARGAS,CONDUCTOR,AUTO,MASCULINO,60


In [57]:
df_homicidios.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 717 entries, 0 to 716
Data columns (total 18 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   ID                  717 non-null    object 
 1   Numero de víctimas  717 non-null    int64  
 2   Fecha               717 non-null    object 
 3   Año                 717 non-null    int64  
 4   Mes                 717 non-null    int64  
 5   Día                 717 non-null    int64  
 6   Hora                717 non-null    object 
 7   Hora entera         717 non-null    int64  
 8   Tipo de Calle       717 non-null    object 
 9   Comuna              717 non-null    int64  
 10  Pos x               717 non-null    float64
 11  Pos y               717 non-null    float64
 12  Participantes       717 non-null    object 
 13  Acusado             717 non-null    object 
 14  Rol                 717 non-null    object 
 15  Víctima             717 non-null    object 
 16  Sexo    

# Exporto a CSV para poder continuar el trabajo luego

In [58]:

df_homicidios.to_csv('homicidios_Final.csv')

## Datos de la Población de CABA

Segun la página web del censo 2022 del Gobierno Argentino, Ciudad Autónoma de Buenos Aires tiene un total de población 3.121.707 habitantes (Censo 2022), pero tiene la enorme particularidad que, acorde al CONSEJO ECONÓMICO Y SOCIAL DE LA CIUDAD DE BUENOS AIRES aproximadamente 3,5 millones de personas (Mas del doble de la poblacion estable) ingresan diariamente a la Ciudad Autónoma de Buenos Aires (CABA) desde los diversos municipios del Gran Buenos Aires, por lo que hacer un calculo de KPI´s tomando datos del censo serian muy fuera de escalas.

# KPI'S

Se nos ha pedido calcular los siguientes KPI:
1. Reducir en un 10% la tasa de homicidios en siniestros viales de los últimos seis meses, en CABA, en comparación con la tasa de homicidios en siniestros viales del semestre anterior.

Definimos a la tasa de homicidios en siniestros viales como el número de víctimas fatales en accidentes de tránsito por cada 100,000 habitantes en un área geográfica durante un período de tiempo específico. Su fórmula es: (Número de homicidios en siniestros viales / Población total) * 100,000

2. Reducir en un 7% la cantidad de accidentes mortales de motociclistas en el último año, en CABA, respecto al año anterior.

Definimos a la cantidad de accidentes mortales de motociclistas en siniestros viales como el número absoluto de accidentes fatales en los que estuvieron involucradas víctimas que viajaban en moto en un determinado periodo temporal. Su fórmula para medir la evolución de los accidentes mortales con víctimas en moto es: (Número de accidentes mortales con víctimas en moto en el año anterior - Número de accidentes mortales con víctimas en moto en el año actual) / (Número de accidentes mortales con víctimas en moto en el año anterior) * 100


A partir de la base de datos de población y la de homicidios voy a extraer la información necesaria para hacer los calculos correspondientes

#### Para calcular el primer KPI necesito obtener la cantidad de muertes correspondientes a cada semestre de los años registrados, del dataframe df_homicidios

In [59]:
#Creo una columna semestre para hacer más fácil el cálculo
def determinar_semestre(mes):
    if 1 <= mes <= 6:
        return 1
    elif 7 <= mes <= 12:
        return 2
    else:
        return 'Mes no válido'

# Aplicar la función a la columna 'meses' y crear una nueva columna 'semestre'
df_homicidios['Semestre'] = df_homicidios['Mes'].apply(determinar_semestre)

In [60]:
df_homicidios

Unnamed: 0,ID,Numero de víctimas,Fecha,Año,Mes,Día,Hora,Hora entera,Tipo de Calle,Comuna,Pos x,Pos y,Participantes,Acusado,Rol,Víctima,Sexo,Edad,Semestre
0,2016-0001,1,2016-01-01,2016,1,1,04:00:00,4,AVENIDA,8,-58.475340,-34.687570,MOTO-AUTO,AUTO,CONDUCTOR,MOTO,MASCULINO,19,1
1,2016-0002,1,2016-01-02,2016,1,2,01:15:00,1,GRAL PAZ,9,-58.508775,-34.669777,AUTO-PASAJEROS,PASAJEROS,CONDUCTOR,AUTO,MASCULINO,70,1
2,2016-0003,1,2016-01-03,2016,1,3,07:00:00,7,AVENIDA,1,-58.390403,-34.631894,MOTO-AUTO,AUTO,CONDUCTOR,MOTO,MASCULINO,30,1
3,2016-0004,1,2016-01-10,2016,1,10,00:00:00,0,AVENIDA,8,-58.465039,-34.680930,MOTO-SD,SD,CONDUCTOR,MOTO,MASCULINO,18,1
4,2016-0005,1,2016-01-21,2016,1,21,05:20:00,5,AVENIDA,1,-58.387183,-34.622466,MOTO-PASAJEROS,PASAJEROS,CONDUCTOR,MOTO,MASCULINO,29,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
712,2021-0093,1,2021-12-13,2021,12,13,17:10:00,17,AVENIDA,7,-58.433538,-34.645616,MOTO-AUTO,AUTO,PASAJERO_ACOMPAÑANTE,MOTO,FEMENINO,18,2
713,2021-0094,1,2021-12-20,2021,12,20,01:10:00,1,AUTOPISTA,9,-58.467398,-34.651178,MOTO-AUTO,AUTO,PASAJERO_ACOMPAÑANTE,MOTO,FEMENINO,43,2
714,2021-0095,1,2021-12-30,2021,12,30,00:43:00,0,AVENIDA,11,-58.472934,-34.619847,MOTO-CARGAS,CARGAS,CONDUCTOR,MOTO,MASCULINO,27,2
715,2021-0096,1,2021-12-15,2021,12,15,10:30:00,10,AVENIDA,9,-58.470668,-34.650217,AUTO-CARGAS,CARGAS,CONDUCTOR,AUTO,MASCULINO,60,2


#### Para calcular el segundo KPI necesito obtener la cantidad de muertes de motociclistas ocurridas, en cada año, del dataframe df_homicidios

In [62]:
#selecciono todos los registros en los que la víctima iba en MOTO
df_motociclistas = df_homicidios[df_homicidios['Víctima']=='MOTO']
df_motociclistas

Unnamed: 0,ID,Numero de víctimas,Fecha,Año,Mes,Día,Hora,Hora entera,Tipo de Calle,Comuna,Pos x,Pos y,Participantes,Acusado,Rol,Víctima,Sexo,Edad,Semestre
0,2016-0001,1,2016-01-01,2016,1,1,04:00:00,4,AVENIDA,8,-58.475340,-34.687570,MOTO-AUTO,AUTO,CONDUCTOR,MOTO,MASCULINO,19,1
2,2016-0003,1,2016-01-03,2016,1,3,07:00:00,7,AVENIDA,1,-58.390403,-34.631894,MOTO-AUTO,AUTO,CONDUCTOR,MOTO,MASCULINO,30,1
3,2016-0004,1,2016-01-10,2016,1,10,00:00:00,0,AVENIDA,8,-58.465039,-34.680930,MOTO-SD,SD,CONDUCTOR,MOTO,MASCULINO,18,1
4,2016-0005,1,2016-01-21,2016,1,21,05:20:00,5,AVENIDA,1,-58.387183,-34.622466,MOTO-PASAJEROS,PASAJEROS,CONDUCTOR,MOTO,MASCULINO,29,1
5,2016-0008,1,2016-01-24,2016,1,24,18:30:00,18,AVENIDA,8,-58.444513,-34.684759,MOTO-OBJETO FIJO,OBJETO FIJO,CONDUCTOR,MOTO,MASCULINO,30,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
708,2021-0089,1,2021-12-02,2021,12,2,01:10:00,1,AVENIDA,11,-58.476337,-34.621406,MOTO-AUTO,AUTO,CONDUCTOR,MOTO,MASCULINO,41,2
710,2021-0091,1,2021-12-11,2021,12,11,23:00:00,23,CALLE,10,-58.519894,-34.622849,MOTO-AUTO,AUTO,CONDUCTOR,MOTO,MASCULINO,24,2
712,2021-0093,1,2021-12-13,2021,12,13,17:10:00,17,AVENIDA,7,-58.433538,-34.645616,MOTO-AUTO,AUTO,PASAJERO_ACOMPAÑANTE,MOTO,FEMENINO,18,2
713,2021-0094,1,2021-12-20,2021,12,20,01:10:00,1,AUTOPISTA,9,-58.467398,-34.651178,MOTO-AUTO,AUTO,PASAJERO_ACOMPAÑANTE,MOTO,FEMENINO,43,2


In [63]:
#agrupo por año y obtengo total de accidentes en motos anuales
df_accidentes_motos = df_motociclistas.groupby('Año')['Víctima'].count().reset_index()
df_accidentes_motos

Unnamed: 0,Año,Víctima
0,2016,65
1,2017,56
2,2018,57
3,2019,50
4,2020,29
5,2021,46


In [64]:
df_accidentes_motos.to_csv('Homicidios_Moto.csv')