# **ETL: Datasets Ciudad Autónoma de Buenos Aires**

#### **Importación de librerías** ####
---

*Para este cuaderno usaremos las siguientes librerías: **pandas, numpy y datetime**.*

In [1]:
import pandas as pd
import numpy as np
import datetime

#### **Extracción de los datos** ####
---

*Procedemos a abrir nuestros datasets y almacenarlos en un dataframe para visualizarlos y manejarlos en pandas.*

1. *Usamos **.read_excel** para leer los datos presentes en los datasets.*
2. *De acuerdo con el diccionario de datos de la plataforma de la ciudad, los siniestros se dividen en dos grupos: Siniestros en donde hubo muertos y siniestros donde hubo lesiones.*
3. *Los dataframes victimas contienen información a detalle sobre las victimas de los siniestos.*

In [2]:
dfHomicidios = pd.read_excel("datasets/homicidiosCABA.xlsx", sheet_name="HECHOS")
dfVictimasH = pd.read_excel("datasets/homicidiosCABA.xlsx", sheet_name="VICTIMAS")
dfLesiones = pd.read_excel("datasets/lesionesCABA.xlsx", sheet_name="HECHOS")
dfVictimasL = pd.read_excel("datasets/lesionesCABA.xlsx", sheet_name="VICTIMAS")

### **Análisis Exploratorio Inicial** ###
---

*Vamos a realizar una **exploración de los datos** (EDA) antes de hacer transformación de los mismos, esto con el fin de **conocer las columnas** y determinar que campos son valiosos para nuestro análisis y así tener claro que pasos realizaremos en el ETL.*

**Nota:**: *Posterior al ETL realizaremos también un [EDA](02_EDA.ipynb)
 enfocado en los datos y una descripción estadística.*

#### **Revisión de la extracción de los datos** ####

*Revisamos que los datos se cargaron adecuadamente en nuestro dataframe **Homicidios**:*

1. *Usamos **head** para previsualizar los primeros registros del Dataframe.*
2. *Podemos observar que se cargaron adecuadamente los datos, pero vemos datos **vacíos**.*

In [3]:
dfHomicidios.head(3)

Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,DD,HORA,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,...,Altura,Cruce,Dirección Normalizada,COMUNA,XY (CABA),pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO
0,2016-0001,1,2016-01-01,2016,1,1,04:00:00,4,AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ,AVENIDA,...,,"FERNANDEZ DE LA CRUZ, F., GRAL. AV.","PIEDRA BUENA AV. y FERNANDEZ DE LA CRUZ, F., G...",8,Point (98896.78238426 93532.43437792),-58.47533969,-34.68757022,MOTO-AUTO,MOTO,AUTO
1,2016-0002,1,2016-01-02,2016,1,2,01:15:00,1,AV GRAL PAZ Y AV DE LOS CORRALES,GRAL PAZ,...,,DE LOS CORRALES AV.,"PAZ, GRAL. AV. y DE LOS CORRALES AV.",9,Point (95832.05571093 95505.41641999),-58.50877521,-34.66977709,AUTO-PASAJEROS,AUTO,PASAJEROS
2,2016-0003,1,2016-01-03,2016,1,3,07:00:00,7,AV ENTRE RIOS 2034,AVENIDA,...,2034.0,,ENTRE RIOS AV. 2034,1,Point (106684.29090040 99706.57687843),-58.39040293,-34.63189362,MOTO-AUTO,MOTO,AUTO


*Revisamos que los datos se cargaron adecuadamente en nuestro dataframe **Victimas Homicidios**:*

1. *Usamos **head** para previsualizar los primeros registros del Dataframe.*
2. *Podemos observar que se cargaron adecuadamente los datos, por ahora no vemos datos **vacíos**.*

In [4]:
dfVictimasH.head(3)

Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO
0,2016-0001,2016-01-01,2016,1,1,CONDUCTOR,MOTO,MASCULINO,19,2016-01-01 00:00:00
1,2016-0002,2016-01-02,2016,1,2,CONDUCTOR,AUTO,MASCULINO,70,2016-01-02 00:00:00
2,2016-0003,2016-01-03,2016,1,3,CONDUCTOR,MOTO,MASCULINO,30,2016-01-03 00:00:00


*Revisamos que los datos se cargaron adecuadamente en nuestro dataframe **Lesiones**:*

1. *Usamos **head** para previsualizar los primeros registros del Dataframe.*
2. *Podemos observar que se cargaron adecuadamente los datos, por ahora vemos datos **SD** que según el diccionario de datos son la abreviación de Sin Dato.*

In [5]:
dfLesiones.head(3)

Unnamed: 0,id,n_victimas,aaaa,mm,dd,fecha,hora,franja_hora,direccion_normalizada,comuna,...,latutid,victima,acusado,participantes,moto,auto,transporte_publico,camion,ciclista,gravedad
0,LC-2019-0000179,1,2019,1,1,2019-01-01 00:00:00,09:00:00,9,SD,14,...,-34.559658,CICLISTA,SD,CICLISTA-SD,SD,SD,SD,SD,x,SD
1,LC-2019-0000053,1,2019,1,1,2019-01-01 00:00:00,01:55:00,1,SD,8,...,-34.669125,AUTO,SD,AUTO-SD,SD,x,SD,SD,SD,SD
2,LC-2019-0000063,1,2019,1,1,2019-01-01 00:00:00,02:00:00,2,SD,8,...,-34.677556,SD,SD,SD-SD,SD,SD,SD,SD,SD,SD


*Revisamos que los datos se cargaron adecuadamente en nuestro dataframe **Victimas Lesiones**:*

1. *Usamos **head** para previsualizar los primeros registros del Dataframe.*
2. *Podemos observar que se cargaron adecuadamente los datos, por ahora vemos datos **SD** que según el diccionario de datos son la abreviación de Sin Dato.*

In [6]:
dfVictimasL.head(3)

Unnamed: 0,ID hecho,AAA,MM,DD,FECHA,VEHICULO_VICTIMA,SEXO,EDAD_VICTIMA,GRAVEDAD
0,LC-2019-0000053,2019,1,1,2019-01-01,sd,Varon,57,SD
1,LC-2019-0000063,2019,1,1,2019-01-01,sd,SD,SD,SD
2,LC-2019-0000079,2019,1,1,2019-01-01,sd,Varon,SD,SD


#### **Revisión de la forma de los datos** ####

1. *Usamos **shape** obtener el número de filas y columnas del dataframe.*

*Revisamos la forma del dataframe **Homicidios**:*

1. *Nuestro dataframe tiene **696 filas y 21 columnas**.*
2. *Por ahora podemos observar que existen 696 registros de siniestros donde hubo fallecimiento de personas.*

In [7]:
dfHomicidios.shape

(696, 21)

*Revisamos la forma del dataframe **Victimas Homicidios**:*

1. *Nuestro dataframe tiene **717 filas y 10 columnas**.*
2. *Por ahora podemos observar que existen 717 registros de victimas mortales de siniestros, por lo tanto el promedio de numero de victimas por siniestro es mayor a 1.*

In [8]:
dfVictimasH.shape

(717, 10)

*Revisamos la forma del dataframe **Lesiones**:*

1. *Nuestro dataframe tiene **23785 filas y 27 columnas**.*
2. *Por ahora podemos observar que existen 23785 registros de siniestros donde hubo lesiones de personas, por ahora podríamos decir que es mayor el número de siniestros donde se provocan lesiones que los siniestros donde se provocan fallecimientos.*

In [9]:
dfLesiones.shape

(23785, 27)

*Revisamos la forma del dataframe **Victimas Lesiones**:*

1. *Nuestro dataframe tiene **27605 filas y 9 columnas**.*
2. *Por ahora podemos observar que existen 27605 registros de victimas de siniestros donde hubo lesiones de personas, por lo tanto el promedio de numero de lesionados por siniestro es mayor a 1.*

In [10]:
dfVictimasL.shape

(27605, 9)

#### **Exploración de las columnas** ####

*Vamos a revisar qué columnas existen en el dataframe y de qué tipo son:*

1. *Usamos el método **info()** para listar las columnas, su valores no nulos y sus tipos.*

*Revisamos el dataframe **Homicidios**:*

1. *Se observa que la columna Altura solo tiene 129 valores válidos, el **81%** de los registros son nulos.*
2. *Se observa que la columna cruce tiene 525 valores válidos, el **24%** de los registros son nulos.*
3. *Existen cuatro tipos de datos en el dataframe: object, int, float y datetime.*

In [11]:
dfHomicidios.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 696 entries, 0 to 695
Data columns (total 21 columns):
 #   Column                 Non-Null Count  Dtype         
---  ------                 --------------  -----         
 0   ID                     696 non-null    object        
 1   N_VICTIMAS             696 non-null    int64         
 2   FECHA                  696 non-null    datetime64[ns]
 3   AAAA                   696 non-null    int64         
 4   MM                     696 non-null    int64         
 5   DD                     696 non-null    int64         
 6   HORA                   696 non-null    object        
 7   HH                     696 non-null    object        
 8   LUGAR_DEL_HECHO        696 non-null    object        
 9   TIPO_DE_CALLE          696 non-null    object        
 10  Calle                  695 non-null    object        
 11  Altura                 129 non-null    float64       
 12  Cruce                  525 non-null    object        
 13  Direc

In [12]:
nulosHom = dfHomicidios.isnull().sum()
porcentajeHom = (nulosHom/dfHomicidios.shape[0])*100
porcentajeHom

ID                        0.000000
N_VICTIMAS                0.000000
FECHA                     0.000000
AAAA                      0.000000
MM                        0.000000
DD                        0.000000
HORA                      0.000000
HH                        0.000000
LUGAR_DEL_HECHO           0.000000
TIPO_DE_CALLE             0.000000
Calle                     0.143678
Altura                   81.465517
Cruce                    24.568966
Dirección Normalizada     1.149425
COMUNA                    0.000000
XY (CABA)                 0.000000
pos x                     0.000000
pos y                     0.000000
PARTICIPANTES             0.000000
VICTIMA                   0.000000
ACUSADO                   0.000000
dtype: float64

*Revisamos el dataframe **Victimas Homicidios**:*

1. *Se observa que todas las columnas tienen valores válidos a primera vista.*
2. *Existen tres tipos de datos en el dataframe: object, int y datetime.*

In [13]:
dfVictimasH.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 717 entries, 0 to 716
Data columns (total 10 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   ID_hecho             717 non-null    object        
 1   FECHA                717 non-null    datetime64[ns]
 2   AAAA                 717 non-null    int64         
 3   MM                   717 non-null    int64         
 4   DD                   717 non-null    int64         
 5   ROL                  717 non-null    object        
 6   VICTIMA              717 non-null    object        
 7   SEXO                 717 non-null    object        
 8   EDAD                 717 non-null    object        
 9   FECHA_FALLECIMIENTO  717 non-null    object        
dtypes: datetime64[ns](1), int64(3), object(6)
memory usage: 56.1+ KB


In [14]:
nulosVicH = dfVictimasH.isnull().sum()
porcentajeVicH = (nulosVicH/dfVictimasH.shape[0])*100
porcentajeVicH

ID_hecho               0.0
FECHA                  0.0
AAAA                   0.0
MM                     0.0
DD                     0.0
ROL                    0.0
VICTIMA                0.0
SEXO                   0.0
EDAD                   0.0
FECHA_FALLECIMIENTO    0.0
dtype: float64

*Revisamos el dataframe **Lesiones**:*

1. *Se observa que existen varias columnas que contienen datos nulos, las que mayor porcentaje tienen son: Calle, Altura, Cruce*
2. *Existen tres tipos de datos en el dataframe: object, int y float.*

In [15]:
dfLesiones.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23785 entries, 0 to 23784
Data columns (total 27 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   id                     23785 non-null  object 
 1   n_victimas             23785 non-null  int64  
 2   aaaa                   23785 non-null  int64  
 3   mm                     23785 non-null  int64  
 4   dd                     23785 non-null  int64  
 5   fecha                  23785 non-null  object 
 6   hora                   23785 non-null  object 
 7   franja_hora            23780 non-null  object 
 8   direccion_normalizada  23732 non-null  object 
 9   comuna                 23616 non-null  object 
 10  tipo_calle             23785 non-null  object 
 11  otra_direccion         23785 non-null  object 
 12  calle                  12867 non-null  object 
 13  altura                 12771 non-null  float64
 14  cruce                  9407 non-null   object 
 15  ge

In [16]:
nulosLes = dfLesiones.isnull().sum()
porcentajeLes = (nulosLes/dfLesiones.shape[0])*100
porcentajeLes

id                        0.000000
n_victimas                0.000000
aaaa                      0.000000
mm                        0.000000
dd                        0.000000
fecha                     0.000000
hora                      0.000000
franja_hora               0.021022
direccion_normalizada     0.222830
comuna                    0.710532
tipo_calle                0.000000
otra_direccion            0.000000
calle                    45.902880
altura                   46.306496
cruce                    60.449863
geocodificacion_CABA      0.163969
longitud                  1.101535
latutid                   1.101535
victima                   0.000000
acusado                   0.000000
participantes             0.000000
moto                      0.391003
auto                      0.391003
transporte_publico        0.391003
camion                    0.391003
ciclista                  0.391003
gravedad                  0.000000
dtype: float64

*Revisamos el dataframe **Victimas Lesiones**:*

1. *Se observa que no existen valores nulos.*
2. *Existen tres tipos de datos en el dataframe: object, int y datetime.*

In [17]:
dfVictimasL.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27605 entries, 0 to 27604
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   ID hecho          27605 non-null  object        
 1   AAA               27605 non-null  int64         
 2   MM                27605 non-null  int64         
 3   DD                27605 non-null  int64         
 4   FECHA             27605 non-null  datetime64[ns]
 5   VEHICULO_VICTIMA  27605 non-null  object        
 6   SEXO              27605 non-null  object        
 7   EDAD_VICTIMA      27605 non-null  object        
 8   GRAVEDAD          27605 non-null  object        
dtypes: datetime64[ns](1), int64(3), object(5)
memory usage: 1.9+ MB


In [18]:
nulosVicLes = dfVictimasL.isnull().sum()
porcentajeVicLes = (nulosVicLes/dfVictimasL.shape[0])*100
porcentajeVicLes

ID hecho            0.0
AAA                 0.0
MM                  0.0
DD                  0.0
FECHA               0.0
VEHICULO_VICTIMA    0.0
SEXO                0.0
EDAD_VICTIMA        0.0
GRAVEDAD            0.0
dtype: float64

#### **Modelado de los datos** ####

*Con el fin de mejorar la lectura e integración de los datos, se crea un modelo de relaciones con las siguientes tablas:*

1. **Tabla SiniestrosCABA**

| Variable            | Definición                                               |Tipo de Dato| Tipo de Variable       |
|:--------------------|:---------------------------------------------------------|:----------:|:-----------------------|
| IdSiniestro         | Identificador único del siniestro                        | Integer    | Categórica(nominal) PK |
| Gravedad            | Si el siniestro tuvo muertos, heridos o solo daños       | Integer    | Categórica(nominal)    |
| NumeroVictimas      | Cantidad total de personas afectadas por el siniestro    | Integer    | Numérica(discréta)     |
| Año                 | Año en el que sucedió el siniestro                       | String     | Categórica(ordinal)    |
| Mes                 | Mes en el que sucedió el siniestro                       | String     | Categórica(ordinal)    |
| Dia                 | Día en el que sucedió el siniestro                       | String     | Catégorica(ordinal)    |
| Hora                | Hora del día en que sucedió el siniestro                 | String     | Categórica(ordinal)    |
| IdTransporteVictima | Id del vehículo que fue víctima del accidente            | Integer    | Categórica(Nominal) FK |
| IdTransporteAcusado | Id del vehículo acusado como causante del accidente      | Integer    | Categórica(Nominal) FK |
| Fecha               | Fecha completa                                           | DateTime   | Categórica(ordinal)    |
| DiaSemana           | Dia de la semana en que sucedió el siniestro             | String     | Categórica(nominal)    |

2. **Tabla ActoresViales**

| Variable       | Definición                            | Tipo de Dato | Tipo de Variable       |
|:---------------|:--------------------------------------|:------------:|:-----------------------|
| IdActorVial    | Identificador único del actor vial    | Integer      | Categórica(nominal) PK |
| Nombre         | Peatón, Conductor, Pasajero, Ciclista | String       | Categórica(nominal)    |

3. **Tabla ModosTransporte**

| Variable         | Definición                                 | Tipo de Dato | Tipo de Variable       |
|:-----------------|:-------------------------------------------|:------------:|:-----------------------|
| IdModoTransporte | Identificador único del modo de transporte | Integer      | Categórica(nominal) PK |
| Nombre           | A Pie, Vehículo Particular, Motocicleta... | String       | Categórica(nominal)    |

4. **Tabla SiniestrosLocs**

| Variable       | Definición                                               |Tipo de Dato| Tipo de Variable       |
|:---------------|:---------------------------------------------------------|:----------:|:-----------------------|
| IdSiniestro    | Identificador único del siniestro                        | Integer    | Categórica(nominal) FK |
| Longitud       | Longitud de la ubicación del lugar del siniestro         | Float      | Localización           |
| Latitud        | Latitud de la ubicación del lugar del siniestro          | Float      | Localización           |
| IdComuna       | Identificador de la comuna en donde ocurrió el siniestro | Integer    | Categórica(nominal)    |
| TipoVía        | Tipo de vía en donde ocurrió el siniestro                | String     | Categórica(nominal)    |
| NombreVía      | Nombre de la vía sobre la cual ocurrió el siniestro      | String     | Catégorica(nominal)    |

5. **Tabla Víctimas**

| Variable       | Definición                                                 |Tipo de Dato| Tipo de Variable       |
|:---------------|:-----------------------------------------------------------|:----------:|:-----------------------|
| IdSiniestro    | Identificador único del siniestro                          | Integer    | Categórica(nominal) FK |
| IdActorVictima | Identificador del actor vial que fue victima del siniestro | Integer    | Categórica(nominal) FK |
| IdModoVictima  | Identificador del modo vial que fue victima del siniestro  | Integer    | Categórica(nominal) FK |
| SexoVictima    | Sexo del actor vial víctima                                | String     | Categórica(nominal)    |
| EdadVictima    | Edad del actor vial víctima                                | Integer    | Numerica(discréta)     |
| TipoVíctima    | Victima Fatal, Victima Herida, Victima Ilesa               | String     | Categórica(nominal)    |

### **Creación de las tablas** ###
---

*A partir de este momento realizaremos la construcción de las tablas tomando como base el modelo construído y usando como fuente de datos los dataframes.*

1. *Pero antes de esto, modificaremos los id de los siniestros en los dataframes, con el fin de solo convertirlos en números y hacer más eficiente las consultas.*

In [19]:
dfHomicidios["ID"] = dfHomicidios["ID"].str.replace('-', '')
dfVictimasH["ID_hecho"] = dfVictimasH["ID_hecho"].str.replace('-', '')

In [20]:
dfVictimasH

Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO
0,20160001,2016-01-01,2016,1,1,CONDUCTOR,MOTO,MASCULINO,19,2016-01-01 00:00:00
1,20160002,2016-01-02,2016,1,2,CONDUCTOR,AUTO,MASCULINO,70,2016-01-02 00:00:00
2,20160003,2016-01-03,2016,1,3,CONDUCTOR,MOTO,MASCULINO,30,2016-01-03 00:00:00
3,20160004,2016-01-10,2016,1,10,CONDUCTOR,MOTO,MASCULINO,18,SD
4,20160005,2016-01-21,2016,1,21,CONDUCTOR,MOTO,MASCULINO,29,2016-02-01 00:00:00
...,...,...,...,...,...,...,...,...,...,...
712,20210092,2021-12-12,2021,12,12,PEATON,PEATON,FEMENINO,50,2021-12-12 00:00:00
713,20210093,2021-12-13,2021,12,13,PASAJERO_ACOMPAÑANTE,MOTO,FEMENINO,18,2021-12-18 00:00:00
714,20210094,2021-12-20,2021,12,20,PASAJERO_ACOMPAÑANTE,MOTO,FEMENINO,43,2021-12-20 00:00:00
715,20210095,2021-12-30,2021,12,30,CONDUCTOR,MOTO,MASCULINO,27,2022-01-02 00:00:00


In [21]:
dfLesiones["id"] = dfLesiones["id"].str.slice(start=3)
dfLesiones["id"] = dfLesiones["id"].str.replace('-', '')

dfVictimasL["ID hecho"] = dfVictimasL["ID hecho"].str.slice(start=3)
dfVictimasL["ID hecho"] = dfVictimasL["ID hecho"].str.replace('-', '')

#### Dataframe ActoresViales ####

*Este dataframe contiene información de la posición o rol que ocupaba la persona al momento del siniestro:*

In [22]:
dfActores = pd.DataFrame({"IdActor":[1,2,3,4,5], "Actor":["Peatón", "Ciclista", "Conductor", "Pasajero", "Motociclista"]})

In [23]:
dfActores

Unnamed: 0,IdActor,Actor
0,1,Peatón
1,2,Ciclista
2,3,Conductor
3,4,Pasajero
4,5,Motociclista


#### Dataframe ModosTransporte ####

*Este dataframe contiene información del modo de transporte involucrado en el siniestro:*

1. *Para esto nos basamos en los datos de los dataframes Homicidios y Lesiones.*

In [24]:
dfHomicidios.ACUSADO.value_counts()

ACUSADO
AUTO           204
PASAJEROS      173
CARGAS         146
OBJETO FIJO     62
MOTO            57
SD              23
MULTIPLE        17
BICICLETA        7
OTRO             6
TREN             1
Name: count, dtype: int64

In [25]:
dfModos = pd.DataFrame({"IdModo":[1,2,3,4,5,6,7,8,9,10,11,12,13],
                        "Modo":["A Pie", "Bicicleta","Patineta", "Autómovil","Camioneta", "Motocicleta", "Transporte Público",
                                "Taxi", "Transporte de Carga", "Transporte de Emergencia", "Objeto Inmovil", "Multiple", "Otro"]})

In [26]:
dfModos

Unnamed: 0,IdModo,Modo
0,1,A Pie
1,2,Bicicleta
2,3,Patineta
3,4,Autómovil
4,5,Camioneta
5,6,Motocicleta
6,7,Transporte Público
7,8,Taxi
8,9,Transporte de Carga
9,10,Transporte de Emergencia


#### Dataframe SiniestrosCABA ####

*Para crear este dataframe debemos basarnos en los dataframes homicidios y lesiones.*

*Almacenamos en dfHomicidios1 solo las columnas que necesitaremos:*

1. *Cambiamos el nombre de las columnas*.
2. *Agregamos la columna Gravedad y aplicamos a todos los registros "Victimas Mortales" ya que este dataset corresponde a homicidios(muertos)*.

In [27]:
dfHomicidios1 = dfHomicidios[["ID", "N_VICTIMAS", "AAAA", "MM", "DD", "HH", "VICTIMA", "ACUSADO"]].copy()

dfHomicidios1.columns = ['IdSiniestro', 'NumeroVictimas', "Año", "Mes", "Dia", "Hora", "Victima", "Acusado"]

dfHomicidios1["Gravedad"] = "Victimas Mortales"

dfHomicidios1.head(3)

Unnamed: 0,IdSiniestro,NumeroVictimas,Año,Mes,Dia,Hora,Victima,Acusado,Gravedad
0,20160001,1,2016,1,1,4,MOTO,AUTO,Victimas Mortales
1,20160002,1,2016,1,2,1,AUTO,PASAJEROS,Victimas Mortales
2,20160003,1,2016,1,3,7,MOTO,AUTO,Victimas Mortales


*Almacenamos en dfLesiones1 solo las columnas que necesitaremos:*

1. *Cambiamos el nombre de las columnas*.
2. *Revisamos la columna gravedad para determinar que valores existen*.
3. *Observamos que hay datos SD sin datos, decidimos para este caso imputar este valor como "Victimas Heridas Leves".
4. *Observamos que hay datos GRAVE, decidimos para este caso imputar este valor como "Victimas Heridas Graves".
5. *Observamos que hay datos FATAL, decidimos para este caso imputar este valor como "Victimas Mortales".

In [28]:
dfLesiones1 = dfLesiones[["id", "n_victimas", "aaaa", "mm", "dd", "franja_hora", "victima", "acusado", "gravedad"]].copy()

dfLesiones1.columns = ['IdSiniestro', 'NumeroVictimas', "Año", "Mes", "Dia", "Hora", "Victima", "Acusado", "Gravedad"]

dfLesiones1.Gravedad.value_counts()

Gravedad
SD       23056
GRAVE      642
sd          83
FATAL        3
grave        1
Name: count, dtype: int64

In [29]:
dfLesiones1["Gravedad"] = dfLesiones1["Gravedad"].replace("SD", "Victimas Heridas Leves")
dfLesiones1["Gravedad"] = dfLesiones1["Gravedad"].replace("GRAVE", "Victimas Heridas Graves")
dfLesiones1["Gravedad"] = dfLesiones1["Gravedad"].replace("sd", "Victimas Heridas Leves")
dfLesiones1["Gravedad"] = dfLesiones1["Gravedad"].replace("FATAL", "Victimas Mortales")
dfLesiones1["Gravedad"] = dfLesiones1["Gravedad"].replace("grave", "Victimas Heridas Graves")

In [30]:
dfLesiones1.Gravedad.value_counts()

Gravedad
Victimas Heridas Leves     23139
Victimas Heridas Graves      643
Victimas Mortales              3
Name: count, dtype: int64

In [31]:
dfLesiones1

Unnamed: 0,IdSiniestro,NumeroVictimas,Año,Mes,Dia,Hora,Victima,Acusado,Gravedad
0,20190000179,1,2019,1,1,9,CICLISTA,SD,Victimas Heridas Leves
1,20190000053,1,2019,1,1,1,AUTO,SD,Victimas Heridas Leves
2,20190000063,1,2019,1,1,2,SD,SD,Victimas Heridas Leves
3,20190000079,1,2019,1,1,2,PEATON,SD,Victimas Heridas Leves
4,20190000082,4,2019,1,1,4,AUTO,SD,Victimas Heridas Leves
...,...,...,...,...,...,...,...,...,...
23780,20210652849,1,2021,12,31,19,SD,SD,Victimas Heridas Leves
23781,20210652865,2,2021,12,31,19,SD,SD,Victimas Heridas Leves
23782,20210652907,1,2021,12,31,20,SD,SD,Victimas Heridas Leves
23783,20210652921,1,2021,12,31,22,MOTO,TRANSPORTE PUBLICO,Victimas Heridas Graves


*Concatenamos los dos dataframes:*

In [32]:
siniestrosCABA = pd.concat([dfHomicidios1, dfLesiones1])
siniestrosCABA

Unnamed: 0,IdSiniestro,NumeroVictimas,Año,Mes,Dia,Hora,Victima,Acusado,Gravedad
0,20160001,1,2016,1,1,4,MOTO,AUTO,Victimas Mortales
1,20160002,1,2016,1,2,1,AUTO,PASAJEROS,Victimas Mortales
2,20160003,1,2016,1,3,7,MOTO,AUTO,Victimas Mortales
3,20160004,1,2016,1,10,0,MOTO,SD,Victimas Mortales
4,20160005,1,2016,1,21,5,MOTO,PASAJEROS,Victimas Mortales
...,...,...,...,...,...,...,...,...,...
23780,20210652849,1,2021,12,31,19,SD,SD,Victimas Heridas Leves
23781,20210652865,2,2021,12,31,19,SD,SD,Victimas Heridas Leves
23782,20210652907,1,2021,12,31,20,SD,SD,Victimas Heridas Leves
23783,20210652921,1,2021,12,31,22,MOTO,TRANSPORTE PUBLICO,Victimas Heridas Graves


**Revisamos cada una de las columnas**

**Columna IdSiniestro**

1. *Revisamos si existen valores repetidos*
2. *Cambiamos el tipo de dato a **int**.*

In [33]:
siniestrosCABA.IdSiniestro.value_counts()

IdSiniestro
20160001       1
20200658364    1
20200655563    1
20200655524    1
20200655518    1
              ..
20190567622    1
20190567566    1
20190567553    1
20190567520    1
20200244615    1
Name: count, Length: 24481, dtype: int64

In [34]:
siniestrosCABA["IdSiniestro"] = siniestrosCABA["IdSiniestro"].astype(np.int64)

**Columna NumeroVictimas**

1. *Revisamos si existen valores extraños.*

In [35]:
siniestrosCABA.NumeroVictimas.value_counts()

NumeroVictimas
1     21708
2      2144
3       401
4       118
5        66
6        21
8        10
7         6
10        4
16        2
0         1
Name: count, dtype: int64

**Columnas Año, Mes, Dia**

1. *Revisamos si existen valores extraños.*

In [36]:
siniestrosCABA.Año.value_counts()

Año
2019    10176
2021     7823
2020     6064
2016      144
2018      143
2017      131
Name: count, dtype: int64

In [37]:
siniestrosCABA.Mes.value_counts()

Mes
10    2343
3     2204
8     2200
12    2166
9     2083
2     2047
7     2035
1     1996
11    1950
6     1935
4     1805
5     1717
Name: count, dtype: int64

In [38]:
siniestrosCABA.Dia.value_counts()

Dia
17    894
16    877
18    866
5     866
13    844
6     844
12    843
4     841
7     838
15    836
11    827
20    805
27    803
3     799
21    798
14    796
9     795
10    795
28    791
22    790
26    786
23    782
19    781
2     771
25    764
29    743
8     741
1     719
24    712
30    692
31    442
Name: count, dtype: int64

**Columna Hora**

1. *Revisamos si existen valores extraños.*
2. *Observamos que existen valores "SD" y "sd", los reemplazamos por nulos.

In [39]:
siniestrosCABA.Hora.value_counts()

Hora
17    1764
16    1742
14    1660
13    1627
18    1585
15    1583
12    1582
19    1380
11    1297
20    1166
10    1162
9     1153
8     1067
21    1003
0      830
22     792
7      725
23     602
6      463
1      365
5      306
2      250
4      186
3      181
sd       4
SD       1
Name: count, dtype: int64

In [40]:
siniestrosCABA["Hora"] = siniestrosCABA["Hora"].replace("sd", None)
siniestrosCABA["Hora"] = siniestrosCABA["Hora"].replace("SD", None)

**Columna Victima**

1. *Revisamos si existen valores extraños.*
2. *Observamos que existen valores "SD", los reemplazamos por nulos.*
3. *Los demás valores los reemplazamos por el id del dataframe Modos.*

In [41]:
siniestrosCABA.Victima.value_counts()

Victima
SD                    10742
MOTO                   5756
PEATON                 2290
CICLISTA               2209
AUTO                   2116
TRANSPORTE PUBLICO      678
CAMIONETA               189
TAXI                    182
MOVIL                   102
CAMION                   79
MIXTO                    42
BICICLETA                29
MONOPATIN                28
OTRO                     13
UTILITARIO               12
CARGAS                    7
PASAJEROS                 5
OBJETO FIJO               1
PEATON_MOTO               1
Name: count, dtype: int64

In [42]:
siniestrosCABA["Victima"] = siniestrosCABA["Victima"].replace("SD", None)

*Mapeamos los datos de acuerdo al id que corresponden*

In [43]:
mapeo_victimas = {
    "MOTO": "6",
    "PEATON": "1",
    "CICLISTA": "2",
    "AUTO": "4",
    "TRANSPORTE PUBLICO": "7",
    "CAMIONETA": "5",
    "TAXI": "8",
    "MOVIL": "10",
    "CAMION": "7",
    "MIXTO": "12",
    "MULTIPLE": "12",
    "BICICLETA": "2",
    "MONOPATIN": "3",
    "OTRO": "13",
    "UTILITARIO": "9",
    "CARGAS": "9",
    "PASAJEROS": "7",
    "OBJETO FIJO": "11",
    "PEATON_MOTO": "1",
    "TREN": "9"
}

siniestrosCABA["Victima"] = siniestrosCABA["Victima"].replace(mapeo_victimas)

*Cambiamos el nombre de la columna:*

In [44]:
siniestrosCABA.rename(columns={"Victima": "IdTransporteVictima"}, inplace=True)

**Columna Acusado**

1. *Revisamos si existen valores extraños.*
2. *Observamos que existen valores "SD", los reemplazamos por nulos.*
3. *Los demás valores los reemplazamos por el id del dataframe Modos.*

In [45]:
siniestrosCABA.Acusado.value_counts()

Acusado
SD                    15311
AUTO                   4845
TRANSPORTE PUBLICO      975
CAMIONETA               872
MOTO                    682
TAXI                    591
OBJETO FIJO             341
CAMION                  288
PASAJEROS               173
CARGAS                  146
MOVIL                    81
CICLISTA                 77
OTRO                     30
UTILITARIO               28
MULTIPLE                 17
PEATON                   13
BICICLETA                 7
MONOPATIN                 3
TREN                      1
Name: count, dtype: int64

In [46]:
siniestrosCABA["Acusado"] = siniestrosCABA["Acusado"].replace("SD", None)

*Mapeamos los datos de acuerdo al id que corresponden*

In [47]:
siniestrosCABA["Acusado"] = siniestrosCABA["Acusado"].replace(mapeo_victimas)

*Cambiamos el nombre de la columna:*

In [48]:
siniestrosCABA.rename(columns={"Acusado": "IdTransporteAcusado"}, inplace=True)

**Columna Gravedad**

1. *Revisamos si existen valores extraños.*

In [49]:
siniestrosCABA.Gravedad.value_counts()

Gravedad
Victimas Heridas Leves     23139
Victimas Mortales            699
Victimas Heridas Graves      643
Name: count, dtype: int64

**Columna Fecha**

1. *Creamos la columna Fecha con base a los valores de las columnas Año, Mes y Dia*

In [50]:
siniestrosCABA["Fecha"] = siniestrosCABA.apply(lambda row: '-'.join([str(row["Año"]), str(row["Mes"]), str(row["Dia"])]), axis=1)
siniestrosCABA['Fecha'] = pd.to_datetime(siniestrosCABA['Fecha'])
siniestrosCABA.head(5)

Unnamed: 0,IdSiniestro,NumeroVictimas,Año,Mes,Dia,Hora,IdTransporteVictima,IdTransporteAcusado,Gravedad,Fecha
0,20160001,1,2016,1,1,4,6,4.0,Victimas Mortales,2016-01-01
1,20160002,1,2016,1,2,1,4,7.0,Victimas Mortales,2016-01-02
2,20160003,1,2016,1,3,7,6,4.0,Victimas Mortales,2016-01-03
3,20160004,1,2016,1,10,0,6,,Victimas Mortales,2016-01-10
4,20160005,1,2016,1,21,5,6,7.0,Victimas Mortales,2016-01-21


**Columna DiaSemana**

1. *Creamos la columna DiaSemana con base a los valores de las columna Fecha:*
2. *Mapeamos los valores a nombres en español.*

In [51]:
siniestrosCABA["DiaSemana"] = siniestrosCABA["Fecha"].dt.strftime('%A')
siniestrosCABA.head(5)

Unnamed: 0,IdSiniestro,NumeroVictimas,Año,Mes,Dia,Hora,IdTransporteVictima,IdTransporteAcusado,Gravedad,Fecha,DiaSemana
0,20160001,1,2016,1,1,4,6,4.0,Victimas Mortales,2016-01-01,Friday
1,20160002,1,2016,1,2,1,4,7.0,Victimas Mortales,2016-01-02,Saturday
2,20160003,1,2016,1,3,7,6,4.0,Victimas Mortales,2016-01-03,Sunday
3,20160004,1,2016,1,10,0,6,,Victimas Mortales,2016-01-10,Sunday
4,20160005,1,2016,1,21,5,6,7.0,Victimas Mortales,2016-01-21,Thursday


In [52]:
mapeo_dias = {
    "Sunday": "Domingo",
    "Monday": "Lunes",
    "Tuesday": "Martes",
    "Wednesday": "Miercoles",
    "Thursday": "Jueves",
    "Friday": "Viernes",
    "Saturday": "Sabado",
}

siniestrosCABA["DiaSemana"] = siniestrosCABA["DiaSemana"].replace(mapeo_dias)

In [53]:
siniestrosCABA.DiaSemana.value_counts()

DiaSemana
Viernes      4203
Jueves       3960
Miercoles    3941
Martes       3798
Lunes        3579
Sabado       2794
Domingo      2206
Name: count, dtype: int64

#### Dataframe SiniestrosLocs ####

*Este dataframe contiene información asociada a las localizaciones de los siniestros, importante para analizar espacialmente los siniestros viales.*

*Almacenamos en dfHomicidios2 solo las columnas que necesitaremos:*

1. *Cambiamos el nombre de las columnas*.

In [54]:
dfHomicidios2 = dfHomicidios[["ID", "pos x", "pos y", "COMUNA", "TIPO_DE_CALLE", "Calle"]].copy()

dfHomicidios2.columns = ["IdSiniestro", "Longitud", "Latitud", "IdComuna", "TipoVia", "NombreVia"]

dfHomicidios2.head(3)

Unnamed: 0,IdSiniestro,Longitud,Latitud,IdComuna,TipoVia,NombreVia
0,20160001,-58.47533969,-34.68757022,8,AVENIDA,PIEDRA BUENA AV.
1,20160002,-58.50877521,-34.66977709,9,GRAL PAZ,"PAZ, GRAL. AV."
2,20160003,-58.39040293,-34.63189362,1,AVENIDA,ENTRE RIOS AV.


*Almacenamos en dfLesiones2 solo las columnas que necesitaremos:*

1. *Cambiamos el nombre de las columnas*.

In [55]:
dfLesiones2 = dfLesiones[["id", "longitud", "latutid", "comuna", "tipo_calle", "calle"]].copy()

dfLesiones2.columns = ["IdSiniestro", "Longitud", "Latitud", "IdComuna", "TipoVia", "NombreVia"]

dfLesiones2.head(3)

Unnamed: 0,IdSiniestro,Longitud,Latitud,IdComuna,TipoVia,NombreVia
0,20190000179,-58.408911,-34.559658,14,SD,
1,20190000053,-58.44351,-34.669125,8,SD,
2,20190000063,-58.468335,-34.677556,8,SD,


*Concatenamos los dos dataframes:*

In [56]:
siniestrosLocs = pd.concat([dfHomicidios2, dfLesiones2])
siniestrosLocs

Unnamed: 0,IdSiniestro,Longitud,Latitud,IdComuna,TipoVia,NombreVia
0,20160001,-58.47533969,-34.68757022,8,AVENIDA,PIEDRA BUENA AV.
1,20160002,-58.50877521,-34.66977709,9,GRAL PAZ,"PAZ, GRAL. AV."
2,20160003,-58.39040293,-34.63189362,1,AVENIDA,ENTRE RIOS AV.
3,20160004,-58.46503904,-34.68092974,8,AVENIDA,LARRAZABAL AV.
4,20160005,-58.38718297,-34.62246630,1,AVENIDA,SAN JUAN AV.
...,...,...,...,...,...,...
23780,20210652849,-58.513477158887,-34.659713573880,9,AVENIDA,"ALBERDI, JUAN BAUTISTA AV."
23781,20210652865,-58.488326609395,-34.641753304864,9,AVENIDA,"ALBERDI, JUAN BAUTISTA AV."
23782,20210652907,-58.382894,-34.583083,1,SD,
23783,20210652921,-58.414532050899,-34.614288229345,5,CALLE,LINIERS VIRREY


**Revisamos cada una de las columnas**

**Columna IdSiniestro**

1. *Revisamos si existen valores repetidos*
2. *Cambiamos el tipo de dato a **int**.*

In [57]:
siniestrosLocs.IdSiniestro.value_counts()

IdSiniestro
20160001       1
20200658364    1
20200655563    1
20200655524    1
20200655518    1
              ..
20190567622    1
20190567566    1
20190567553    1
20190567520    1
20200244615    1
Name: count, Length: 24481, dtype: int64

In [58]:
siniestrosLocs["IdSiniestro"] = siniestrosLocs["IdSiniestro"].astype(np.int64)

**Columnas Longitud y Latitud**

1. *Revisamos si existen valores repetidos. Observamos que existen repetidos pero esto puede pasar, ya que el lugar de los siniestros puede ser el mismo para varios eventos.*
2. *Observamos registros "SD", los cambiamos por None.*

In [59]:
siniestrosLocs.Longitud.value_counts()

Longitud
SD                  1209
-58.500738109269      40
-58.380998330204      35
-58.382233829418      29
-58.500649            27
                    ... 
-58.463949             1
-58.475215             1
-58.468422             1
-58.470434             1
-5829963273            1
Name: count, Length: 14415, dtype: int64

In [60]:
siniestrosLocs.Latitud.value_counts()

Latitud
SD                  1209
-34.549795102200      40
-34.622149537067      35
-34.626938657191      29
-34.552046            27
                    ... 
-34.568849             1
-34.572013             1
-34.563267             1
-34.673866             1
-3472890716            1
Name: count, Length: 14362, dtype: int64

In [61]:
siniestrosLocs["Longitud"] = siniestrosLocs["Longitud"].replace("SD", None)
siniestrosLocs["Latitud"] = siniestrosLocs["Latitud"].replace("SD", None)

**Columna IdComuna**

1. *Revisamos la cantidad de registros por comuna.*
2. *Observamos registros "SD", "No Especificada" y "0", los cambiamos por None.*

In [62]:
siniestrosLocs.IdComuna.value_counts()

IdComuna
1                  2616
15                 1952
4                  1805
3                  1763
9                  1747
14                 1616
7                  1576
12                 1477
11                 1443
13                 1395
10                 1376
5                  1248
8                  1127
6                   978
2                   903
SD                  846
No Especificada     442
0                     2
Name: count, dtype: int64

In [63]:
siniestrosLocs["IdComuna"] = siniestrosLocs["IdComuna"].replace("SD", None)
siniestrosLocs["IdComuna"] = siniestrosLocs["IdComuna"].replace("No Especificada", None)
siniestrosLocs["IdComuna"] = siniestrosLocs["IdComuna"].replace(0, None)

**Columna TipoVia**

1. *Revisamos la cantidad de registros por tipo de via.*
2. *Observamos registros "SD", los cambiamos por None.*
3. *Observamos registros "AVENIDA", estos los reemplazamos por Via Principal (Via Intermedia) .*
4. *Observamos registros "CALLE", estos los reemplazamos por Via Local (Via Baja) .*
5. *Observamos registros "AUTOPISTA" y "GRAL PAZ, estos los reemplazamos por Autopista (Via Alta). De acuerdo a la búsqueda en internet la avenida General Paz es considera una autopista.*

In [64]:
siniestrosLocs.TipoVia.value_counts()

TipoVia
SD           11045
AVENIDA       7204
CALLE         5519
GRAL PAZ       603
AUTOPISTA      110
Name: count, dtype: int64

In [65]:
mapeo_vias = {
    "SD": None,
    "AVENIDA": "Via Principal",
    "CALLE": "Via Local",
    "GRAL PAZ": "Autopista",
    "AUTOPISTA": "Autopista",
}

siniestrosLocs["TipoVia"] = siniestrosLocs["TipoVia"].replace(mapeo_vias)

**Columna NombreVia**

1. *Revisamos la cantidad de registros por NombreVia.*
2. *Revisamos si existen registros "SD", pero no hay.*

In [66]:
siniestrosLocs.NombreVia.value_counts()

NombreVia
PAZ, GRAL. AV.             608
RIVADAVIA AV.              371
CORRIENTES AV.             280
DEL LIBERTADOR AV.         269
CORDOBA AV.                245
                          ... 
SALTO                        1
GRIERSON, CECILIA            1
FILIBERTO, JUAN DE DIOS      1
ELCANO                       1
DERQUI AV.                   1
Name: count, Length: 1044, dtype: int64

In [67]:
filas_con_valor_SD = siniestrosLocs[siniestrosLocs["NombreVia"] == "SD"]

print(filas_con_valor_SD)


Empty DataFrame
Columns: [IdSiniestro, Longitud, Latitud, IdComuna, TipoVia, NombreVia]
Index: []


#### Dataframe Victimas ####

*Este dataframe contiene información asociada a las victimas de los siniestros, importante para analizar caracteristicas de ellos.*

*Almacenamos en dfVictimasH1 solo las columnas que necesitaremos:*

1. *Cambiamos el nombre de las columnas*.
2. *Agregamos una nueva columna que indica el tipo de victima, para este dataframe todas son fallecidas*

In [68]:
dfVictimasL

Unnamed: 0,ID hecho,AAA,MM,DD,FECHA,VEHICULO_VICTIMA,SEXO,EDAD_VICTIMA,GRAVEDAD
0,20190000053,2019,1,1,2019-01-01,sd,Varon,57,SD
1,20190000063,2019,1,1,2019-01-01,sd,SD,SD,SD
2,20190000079,2019,1,1,2019-01-01,sd,Varon,SD,SD
3,20190000082,2019,1,1,2019-01-01,sd,Varon,45,SD
4,20190000082,2019,1,1,2019-01-01,sd,Mujer,45,SD
...,...,...,...,...,...,...,...,...,...
27600,20210451911,2021,9,11,2021-09-11,TRANSPORTE PUBLICO,Varon,87,SD
27601,20210530228,2021,10,25,2021-10-25,TRANSPORTE PUBLICO,Mujer,60,SD
27602,20210530228,2021,10,25,2021-10-25,TRANSPORTE PUBLICO,Mujer,32,SD
27603,20210201378,2021,5,2,2021-05-02,MOTO,Varon,32,SD


In [69]:
dfVictimasH1 = dfVictimasH[["ID_hecho", "ROL", "VICTIMA", "SEXO", "EDAD"]].copy()
dfVictimasH1.columns = ["IdSiniestro", "IdActorVictima", "IdModoVictima", "Sexo", "Edad"]
dfVictimasH1["TipoVictima"] = "Fallecida"
dfVictimasH1.head(3)

Unnamed: 0,IdSiniestro,IdActorVictima,IdModoVictima,Sexo,Edad,TipoVictima
0,20160001,CONDUCTOR,MOTO,MASCULINO,19,Fallecida
1,20160002,CONDUCTOR,AUTO,MASCULINO,70,Fallecida
2,20160003,CONDUCTOR,MOTO,MASCULINO,30,Fallecida


*Creamos una sola columna para el Id de la victima, relacionando las dos columnas IdActorVictima y IdModoVictima*

1. *Creamos una columna que una los valores de las dos columnas*.
2. *Revisamos los datos que quedaron y establecemos un parametro de reemplazo.*

In [70]:
dfVictimasH1["Victima"]= dfVictimasH1["IdActorVictima"] + "-" +  dfVictimasH1["IdModoVictima"]

In [71]:
dfVictimasH1.Victima.value_counts()

Victima
PEATON-PEATON                     267
CONDUCTOR-MOTO                    261
CONDUCTOR-AUTO                     65
PASAJERO_ACOMPAÑANTE-MOTO          39
PASAJERO_ACOMPAÑANTE-AUTO          29
CICLISTA-BICICLETA                 29
SD-SD                               8
PASAJERO_ACOMPAÑANTE-PASAJEROS      5
PASAJERO_ACOMPAÑANTE-CARGAS         4
SD-MOTO                             3
CONDUCTOR-CARGAS                    3
PASAJERO_ACOMPAÑANTE-MOVIL          2
PASAJERO_ACOMPAÑANTE-SD             1
CONDUCTOR-MOVIL                     1
Name: count, dtype: int64

In [72]:
mapeoVicAct = {
    "PEATON-PEATON": "1",
    "CONDUCTOR-MOTO": "5",
    "CONDUCTOR-AUTO": "3",
    "PASAJERO_ACOMPAÑANTE-MOTO": "4",
    "PASAJERO_ACOMPAÑANTE-AUTO": "4",
    "CICLISTA-BICICLETA": "2",
    "SD-SD": None,
    "PASAJERO_ACOMPAÑANTE-PASAJEROS": "4",
    "PASAJERO_ACOMPAÑANTE-CARGAS": "4",
    "SD-MOTO": "5",
    "CONDUCTOR-CARGAS": "3",
    "PASAJERO_ACOMPAÑANTE-MOVIL": "4",
    "PASAJERO_ACOMPAÑANTE-SD": "4",
    "CONDUCTOR-MOVIL": "3",
}

dfVictimasH1["IdActorVictima"] = dfVictimasH1["Victima"].replace(mapeoVicAct)

In [73]:
dfVictimasH1 = dfVictimasH1.drop(columns=['IdModoVictima', 'Victima'])

*Almacenamos en dfVictimasL1 solo las columnas que necesitaremos:*

1. *Cambiamos el nombre de las columnas*.
2. *Agregamos una nueva columna que indica el tipo de victima, para este dataframe todas son fallecidas*

In [74]:
dfVictimasL1 = dfVictimasL[["ID hecho", "VEHICULO_VICTIMA", "SEXO", "EDAD_VICTIMA", "GRAVEDAD"]].copy()
dfVictimasL1.columns = ["IdSiniestro", "IdActorVictima", "Sexo", "Edad", "TipoVictima"]
dfVictimasL1.head(3)

Unnamed: 0,IdSiniestro,IdActorVictima,Sexo,Edad,TipoVictima
0,20190000053,sd,Varon,57,SD
1,20190000063,sd,SD,SD,SD
2,20190000079,sd,Varon,SD,SD


*Concatenamos los dataframes:*

In [75]:
victimasCABA = pd.concat([dfVictimasH1, dfVictimasL1])
victimasCABA

Unnamed: 0,IdSiniestro,IdActorVictima,Sexo,Edad,TipoVictima
0,20160001,5,MASCULINO,19,Fallecida
1,20160002,3,MASCULINO,70,Fallecida
2,20160003,5,MASCULINO,30,Fallecida
3,20160004,5,MASCULINO,18,Fallecida
4,20160005,5,MASCULINO,29,Fallecida
...,...,...,...,...,...
27600,20210451911,TRANSPORTE PUBLICO,Varon,87,SD
27601,20210530228,TRANSPORTE PUBLICO,Mujer,60,SD
27602,20210530228,TRANSPORTE PUBLICO,Mujer,32,SD
27603,20210201378,MOTO,Varon,32,SD


**Revisamos cada una de las columnas**

**Columna IdSiniestro**

1. *Revisamos si existen valores repetidos, si existen pero recordemos que en un siniestro pueden existir más de una víctima.*

In [76]:
victimasCABA.IdSiniestro.value_counts()

IdSiniestro
20190188476    16
20190291069    16
20190049800    10
20210137640    10
20190655333    10
               ..
20190635165     1
20190616529     1
20190616483     1
20190616260     1
20210229350     1
Name: count, Length: 24481, dtype: int64

**Columna IdActorVictima**

1. *Revisamos si existen valores extraños.*
2. *Observamos que existen valores "SD", los reemplazamos por nulos. TENEMOS MUCHO VALORES DE ESTE TIPO*

In [77]:
victimasCABA.IdActorVictima.value_counts()

IdActorVictima
sd                    11793
MOTO                   4778
SD                     4479
CICLISTA               1759
PEATON                 1685
AUTO                   1641
TRANSPORTE PUBLICO      680
1                       267
5                       264
TAXI                    241
UTILITARIO              231
MOVIL                   131
MIXTO                   113
4                        80
3                        69
CAMION                   40
2                        29
MONOPATIN                27
OTRO                      7
Name: count, dtype: int64

In [78]:
dfActores

Unnamed: 0,IdActor,Actor
0,1,Peatón
1,2,Ciclista
2,3,Conductor
3,4,Pasajero
4,5,Motociclista


*Mapeamos los valores para coincidir con la información de actores viales:*

In [79]:
mapeo_actores = {
    "sd": None,
    "MOTO": "5",
    "SD": None,
    "PEATON": "1",
    "CICLISTA": "2",
    "AUTO": "3",
    "TRANSPORTE PUBLICO": "4",
    "CONDUCTOR": "3",
    "TAXI": "3",
    "UTILITARIO": "3",
    "MOVIL": "3",
    "MIXTO": "4",
    "PASAJERO_ACOMPAÑANTE": "4",
    "CAMION": "3",
    "MONOPATIN": "2",
    "OTRO": None,
}

victimasCABA["IdActorVictima"] = victimasCABA["IdActorVictima"].replace(mapeo_actores)

In [80]:
victimasCABA.IdActorVictima.value_counts()

IdActorVictima
5    5042
3    2353
1    1952
2    1815
4     873
Name: count, dtype: int64

**Columna Sexo**

1. *Revisamos si existen valores extraños.*
2. *Observamos que existen diferentes tipos de valores que debemos resumir solo en dos.*

In [81]:
victimasCABA.Sexo.value_counts()

Sexo
Varon        16796
Mujer         8246
SD            1935
MASCULINO      545
sd             299
varon          226
FEMENINO       166
MUJER           62
mujer           46
Mujer            1
Name: count, dtype: int64

In [82]:
mapeo_sexos = {
    "Varon": "Masculino",
    "Mujer": "Femenino",
    "SD": None,
    "MASCULINO": "Masculino",
    "sd": None,
    "varon": "Masculino",
    "FEMENINO": "Femenino",
    "MUJER": "Femenino",
    "mujer": "Femenino",
    "Mujer ": "Femenino",
}

victimasCABA["Sexo"] = victimasCABA["Sexo"].replace(mapeo_sexos)

In [83]:
victimasCABA.Sexo.value_counts()

Sexo
Masculino    17567
Femenino      8521
Name: count, dtype: int64

**Columna Edad**

1. *Revisamos si existen valores extraños.*
2. *Observamos que existen diferentes valores para edad, para un mejor análisis vamos a convertir esta columna en rangos de edad*

In [84]:
victimasCABA.Edad.value_counts()

Edad
SD     4043
29      692
28      666
30      662
25      638
       ... 
94        1
97        1
88        1
96        1
100       1
Name: count, Length: 191, dtype: int64

In [85]:
victimasCABA["Edad"] = victimasCABA["Edad"].replace("SD", "0")
victimasCABA["Edad"] = victimasCABA["Edad"].replace("sd", "0")

In [86]:
victimasCABA["Edad"] = victimasCABA["Edad"].astype(int)

In [87]:
victimasCABA

Unnamed: 0,IdSiniestro,IdActorVictima,Sexo,Edad,TipoVictima
0,20160001,5,Masculino,19,Fallecida
1,20160002,3,Masculino,70,Fallecida
2,20160003,5,Masculino,30,Fallecida
3,20160004,5,Masculino,18,Fallecida
4,20160005,5,Masculino,29,Fallecida
...,...,...,...,...,...
27600,20210451911,4,Masculino,87,SD
27601,20210530228,4,Femenino,60,SD
27602,20210530228,4,Femenino,32,SD
27603,20210201378,5,Masculino,32,SD


In [88]:
# Definimos las condiciones para cada rango de edad y los rangos etarios correspondientes.
condiciones = [
    (victimasCABA["Edad"] == 0),
    (victimasCABA["Edad"] >= 1) & (victimasCABA["Edad"] <= 9),
    (victimasCABA["Edad"] >= 10) & (victimasCABA["Edad"] <= 17),
    (victimasCABA["Edad"] >= 18) & (victimasCABA["Edad"] <= 29),
    (victimasCABA["Edad"] >= 30) & (victimasCABA["Edad"] <= 39),
    (victimasCABA["Edad"] >= 40) & (victimasCABA["Edad"] <= 49),
    (victimasCABA["Edad"] >= 50) & (victimasCABA["Edad"] <= 59),
    (victimasCABA["Edad"] >= 60)
]
rango = [
    None, "Infante", "Adolescente", "Adulto Joven", "Adulto 30 a 39", "Adulto 40 a 49", "Adulto 50 a 59", "Adulto Mayor"
]

# Utilizamos loc para asignar los valores del rango de edad basados en las condiciones
for i in range(len(condiciones)):
    victimasCABA.loc[condiciones[i], "RangoEtario"] = rango[i]


In [89]:
del victimasCABA["Edad"]

**Columna TipoVictima**

1. *Revisamos si existen valores extraños.*
2. *Observamos que existen diferentes valores para TipoVictima, los valores SD los reemplazamos por "Lesionada", ya que por esta razón pertenecia a la base de datos y los valores grave como "Gravemente Lesionada"*

In [90]:
victimasCABA.TipoVictima.value_counts()

TipoVictima
SD           20722
sd            6346
Fallecida      717
GRAVE          536
grave            1
Name: count, dtype: int64

In [91]:
victimasCABA["TipoVictima"] = victimasCABA["TipoVictima"].replace("SD", "Lesionada")
victimasCABA["TipoVictima"] = victimasCABA["TipoVictima"].replace("sd", "Lesionada")
victimasCABA["TipoVictima"] = victimasCABA["TipoVictima"].replace("GRAVE", "Gravemente Lesionada")
victimasCABA["TipoVictima"] = victimasCABA["TipoVictima"].replace("grave", "Gravemente Lesionada")

### **Análisis Exploratorio Final** ###
---

*Aquí hacemos una revisión de los datos después de su transformación, con el objetivo de revisar si quedaron datos pendientes por transformar*.

**Nota:** *Posterior a todas las transformaciones se realiza un EDA final, presente en el archivo EDA.ipynb*

*Obtenemos una descripción de las columnas, sus tipos de datos y sus valores no nulos del dataframe **siniestrosCABA**:*

1. *El total de registros es de **24481***
2. *Existen 2 columnas con gran cantidad de registros nulos, sin embargo decidimos no eliminar estos registros ya que perderíamos más de la mitad de la información, por lo tanto en el análisis de los datos revisaremos esto a detalle.*

In [92]:
siniestrosCABA.info()

<class 'pandas.core.frame.DataFrame'>
Index: 24481 entries, 0 to 23784
Data columns (total 11 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   IdSiniestro          24481 non-null  int64         
 1   NumeroVictimas       24481 non-null  int64         
 2   Año                  24481 non-null  int64         
 3   Mes                  24481 non-null  int64         
 4   Dia                  24481 non-null  int64         
 5   Hora                 24471 non-null  object        
 6   IdTransporteVictima  13739 non-null  object        
 7   IdTransporteAcusado  9170 non-null   object        
 8   Gravedad             24481 non-null  object        
 9   Fecha                24481 non-null  datetime64[ns]
 10  DiaSemana            24481 non-null  object        
dtypes: datetime64[ns](1), int64(5), object(5)
memory usage: 2.2+ MB


*Obtenemos una descripción estadística de los datos numéricos:*

1. *El promedio de número de víctimas por siniestro es de **1.15**.*
2. *El siniestros con mayor cantidad de victimas representó **16 victimas incolucradas**.*

In [93]:
siniestrosCABA.describe()

Unnamed: 0,IdSiniestro,NumeroVictimas,Año,Mes,Dia,Fecha
count,24481.0,24481.0,24481.0,24481.0,24481.0,24481
mean,19692570000.0,1.156856,2019.85262,6.600261,15.625465,2020-05-10 21:34:39.179771904
min,20160000.0,0.0,2016.0,1.0,1.0,2016-01-01 00:00:00
25%,20190410000.0,1.0,2019.0,3.0,8.0,2019-07-08 00:00:00
50%,20200140000.0,1.0,2020.0,7.0,16.0,2020-03-09 00:00:00
75%,20210140000.0,1.0,2021.0,10.0,23.0,2021-03-30 00:00:00
max,202134500000.0,16.0,2021.0,12.0,31.0,2021-12-31 00:00:00
std,4846605000.0,0.544944,0.937644,3.479634,8.698323,


*Obtenemos una descripción de las columnas, sus tipos de datos y sus valores no nulos del dataframe **victimasCABA**:*

1. *El total de registros es de **28322***
2. *Existe 1 columna con gran cantidad de registros nulos, sin embargo decidimos no eliminar estos registros ya que perderíamos más de la mitad de la información, por lo tanto en el análisis de los datos revisaremos esto a detalle.*

In [94]:
victimasCABA.info()

<class 'pandas.core.frame.DataFrame'>
Index: 28322 entries, 0 to 27604
Data columns (total 5 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   IdSiniestro     28322 non-null  object
 1   IdActorVictima  12035 non-null  object
 2   Sexo            26088 non-null  object
 3   TipoVictima     28322 non-null  object
 4   RangoEtario     23796 non-null  object
dtypes: object(5)
memory usage: 1.3+ MB


*Obtenemos una descripción estadística de los datos:*

1. *El sexo con mayor número de victimas es **Masculino**.*
2. *La mayoría de las victimas quedaron **lesionadas** por motivo del siniestro.*
3. *Las victimas más afectadas son los **Adultos Jovenes**.*

In [95]:
victimasCABA.describe()

Unnamed: 0,IdSiniestro,IdActorVictima,Sexo,TipoVictima,RangoEtario
count,28322,12035,26088,28322,23796
unique,24481,5,2,3,7
top,20190188476,5,Masculino,Lesionada,Adulto Joven
freq,16,5042,17567,27068,7467


*Obtenemos una descripción de las columnas, sus tipos de datos y sus valores no nulos del dataframe **siniestrosLocs**:*

1. *El total de registros es de **24481***
2. *Existe 2 columnas con gran cantidad de registros nulos, sin embargo decidimos no eliminar estos registros ya que perderíamos más de la mitad de la información, por lo tanto en el análisis de los datos revisaremos esto a detalle.*

In [96]:
siniestrosLocs.info()

<class 'pandas.core.frame.DataFrame'>
Index: 24481 entries, 0 to 23784
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   IdSiniestro  24481 non-null  int64 
 1   Longitud     23010 non-null  object
 2   Latitud      23010 non-null  object
 3   IdComuna     23022 non-null  object
 4   TipoVia      13436 non-null  object
 5   NombreVia    13562 non-null  object
dtypes: int64(1), object(5)
memory usage: 1.3+ MB


### **Exportación de datos a CSV (Load)** ###
---

*Una vez hemos revisado nuestro dataframe, lo podemos exportar a un archivo **CSV** para guardar todos los cambios realizados*.


**Nota:** *Los archivos se encuentran en la carpeta dataout.*

In [210]:
siniestrosCABA.to_csv("dataout/siniestrosCABA.csv", index=False, encoding="utf-8")
victimasCABA.to_csv("dataout/victimasCABA.csv", index=False, encoding="utf-8")

In [211]:
siniestrosLocs.to_csv("dataout/siniestrosLocs.csv", index=False, encoding="utf-8")
dfActores.to_csv("dataout/actores.csv", index=False, encoding="utf-8")
dfModos.to_csv("dataout/modos.csv", index=False, encoding="utf-8")