# Extracción, Transformación y Carga de datos(ETL)

Este conjunto de operaciones mencionadas: Extracción, transformación y Carga de datos, es fundamental para tener una buena consistencia y calidad de datos. En este notebook se verán las librerías a usar, archivos, se hará manejo de datos nulos, tipos de datos, entre otros casos. Dejarán los datos listos para analizar en nuestro EDA (Análisis exploratorio de datos).

### Importamos librerías

Estas librerías nos permiten manipular los datos y prepararlos para ser analizados.

In [58]:
import pandas as pd
import numpy as np
import Herramientas as Herr
import warnings
warnings.filterwarnings('ignore')

### Carga de datos

Se realiza la lectura del dataset que se entregó para el proyecto. Para ello, utilizamos la librería Pandas.

In [59]:
data_hechos = pd.read_excel('Datasets/homicidios.xlsx',engine='openpyxl')
data_hechos

Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,DD,HORA,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,...,Altura,Cruce,Dirección Normalizada,COMUNA,XY (CABA),pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO
0,2016-0001,1,2016-01-01,2016,1,1,04:00:00,4,AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ,AVENIDA,...,,"FERNANDEZ DE LA CRUZ, F., GRAL. AV.","PIEDRA BUENA AV. y FERNANDEZ DE LA CRUZ, F., G...",8,Point (98896.78238426 93532.43437792),-58.47533969,-34.68757022,MOTO-AUTO,MOTO,AUTO
1,2016-0002,1,2016-01-02,2016,1,2,01:15:00,1,AV GRAL PAZ Y AV DE LOS CORRALES,GRAL PAZ,...,,DE LOS CORRALES AV.,"PAZ, GRAL. AV. y DE LOS CORRALES AV.",9,Point (95832.05571093 95505.41641999),-58.50877521,-34.66977709,AUTO-PASAJEROS,AUTO,PASAJEROS
2,2016-0003,1,2016-01-03,2016,1,3,07:00:00,7,AV ENTRE RIOS 2034,AVENIDA,...,2034.0,,ENTRE RIOS AV. 2034,1,Point (106684.29090040 99706.57687843),-58.39040293,-34.63189362,MOTO-AUTO,MOTO,AUTO
3,2016-0004,1,2016-01-10,2016,1,10,00:00:00,0,AV LARRAZABAL Y GRAL VILLEGAS CONRADO,AVENIDA,...,,"VILLEGAS, CONRADO, GRAL.","LARRAZABAL AV. y VILLEGAS, CONRADO, GRAL.",8,Point (99840.65224780 94269.16534422),-58.46503904,-34.68092974,MOTO-SD,MOTO,SD
4,2016-0005,1,2016-01-21,2016,1,21,05:20:00,5,AV SAN JUAN Y PRESIDENTE LUIS SAENZ PEÑA,AVENIDA,...,,"SAENZ PE?A, LUIS, PRES.","SAN JUAN AV. y SAENZ PEÃ‘A, LUIS, PRES.",1,Point (106980.32827929 100752.16915795),-58.38718297,-34.62246630,MOTO-PASAJEROS,MOTO,PASAJEROS
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
691,2021-0093,1,2021-12-13,2021,12,13,17:10:00,17,AV. RIESTRA Y MOM,AVENIDA,...,,MOM,RIESTRA AV. y MOM,7,Point (102728.60090138 98186.24929177),-58.43353773,-34.64561636,MOTO-AUTO,MOTO,AUTO
692,2021-0094,1,2021-12-20,2021,12,20,01:10:00,1,AU DELLEPIANE Y LACARRA,AUTOPISTA,...,,LACARRA AV.,"DELLEPIANE, LUIS, TTE. GRAL. y LACARRA AV.",9,Point (99624.29795829 97569.69801131),-58.46739825,-34.65117757,MOTO-AUTO,MOTO,AUTO
693,2021-0095,1,2021-12-30,2021,12,30,00:43:00,0,AV. GAONA Y TERRADA,AVENIDA,...,,TERRADA,GAONA AV. y TERRADA,11,Point (99116.45492358 101045.23284826),-58.47293407,-34.61984745,MOTO-CARGAS,MOTO,CARGAS
694,2021-0096,1,2021-12-15,2021,12,15,10:30:00,10,AV. EVA PERON 4071,AVENIDA,...,4071.0,,"PERON, EVA AV. 4071",9,Point (99324.54463985 97676.26932409),-58.47066794,-34.65021673,AUTO-CARGAS,AUTO,CARGAS


En este caso, se realiza la lectura igual que en el anterior, pero debemos seleccionar la hoja ya que ambos están en un mismo archivo de tipo .xlsx (Excel).

In [60]:
data_victimas = pd.read_excel('Datasets/homicidios.xlsx',sheet_name='VICTIMAS')
data_victimas

Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO
0,2016-0001,2016-01-01,2016,1,1,CONDUCTOR,MOTO,MASCULINO,19,2016-01-01 00:00:00
1,2016-0002,2016-01-02,2016,1,2,CONDUCTOR,AUTO,MASCULINO,70,2016-01-02 00:00:00
2,2016-0003,2016-01-03,2016,1,3,CONDUCTOR,MOTO,MASCULINO,30,2016-01-03 00:00:00
3,2016-0004,2016-01-10,2016,1,10,CONDUCTOR,MOTO,MASCULINO,18,SD
4,2016-0005,2016-01-21,2016,1,21,CONDUCTOR,MOTO,MASCULINO,29,2016-02-01 00:00:00
...,...,...,...,...,...,...,...,...,...,...
712,2021-0092,2021-12-12,2021,12,12,PEATON,PEATON,FEMENINO,50,2021-12-12 00:00:00
713,2021-0093,2021-12-13,2021,12,13,PASAJERO_ACOMPAÑANTE,MOTO,FEMENINO,18,2021-12-18 00:00:00
714,2021-0094,2021-12-20,2021,12,20,PASAJERO_ACOMPAÑANTE,MOTO,FEMENINO,43,2021-12-20 00:00:00
715,2021-0095,2021-12-30,2021,12,30,CONDUCTOR,MOTO,MASCULINO,27,2022-01-02 00:00:00


Se hará una revisión de de los tipos de datos de cada columna en ambos DataFrame, el primero será "data_hechos" y el segundo "data_victimas".

In [61]:
Herr.analizar_datos(data_hechos)

Unnamed: 0,Nombre,Tipos de Datos Únicos,% de Valores No Nulos,% de Valores Nulos,Cantidad de Valores Nulos
0,ID,[<class 'str'>],100.0,0.0,0
1,N_VICTIMAS,[<class 'int'>],100.0,0.0,0
2,FECHA,[<class 'pandas._libs.tslibs.timestamps.Timest...,100.0,0.0,0
3,AAAA,[<class 'int'>],100.0,0.0,0
4,MM,[<class 'int'>],100.0,0.0,0
5,DD,[<class 'int'>],100.0,0.0,0
6,HORA,"[<class 'datetime.time'>, <class 'str'>, <clas...",100.0,0.0,0
7,HH,"[<class 'int'>, <class 'str'>]",100.0,0.0,0
8,LUGAR_DEL_HECHO,[<class 'str'>],100.0,0.0,0
9,TIPO_DE_CALLE,[<class 'str'>],100.0,0.0,0


Se observa que hay 20 columnas, 5 de ellas con más de un tipo de dato y solo 4 con nulos. Además, debemos revisar si hay datos que no figuren como nulos pero estén vacíos.

Se revisan los tipos de datos y nulos de "data_victimas",

In [62]:
Herr.analizar_datos(data_victimas)

Unnamed: 0,Nombre,Tipos de Datos Únicos,% de Valores No Nulos,% de Valores Nulos,Cantidad de Valores Nulos
0,ID_hecho,[<class 'str'>],100.0,0.0,0
1,FECHA,[<class 'pandas._libs.tslibs.timestamps.Timest...,100.0,0.0,0
2,AAAA,[<class 'int'>],100.0,0.0,0
3,MM,[<class 'int'>],100.0,0.0,0
4,DD,[<class 'int'>],100.0,0.0,0
5,ROL,[<class 'str'>],100.0,0.0,0
6,VICTIMA,[<class 'str'>],100.0,0.0,0
7,SEXO,[<class 'str'>],100.0,0.0,0
8,EDAD,"[<class 'int'>, <class 'str'>]",100.0,0.0,0
9,FECHA_FALLECIMIENTO,"[<class 'datetime.datetime'>, <class 'str'>]",100.0,0.0,0


Tenemos nueve columnas en total, tres de ellas con más de un único tipo de datos y ninguna con valores nulos. Sin embargo, como mencioné previamente, es importante revisar que no haya datos que no figuren como nulos pero estén vacíos.

--------------------------------------------------------------------------------------------------------------------------

## Transformación de los datos

### Dataframe data_hechos

In [63]:
data_hechos.head(5)

Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,DD,HORA,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,...,Altura,Cruce,Dirección Normalizada,COMUNA,XY (CABA),pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO
0,2016-0001,1,2016-01-01,2016,1,1,04:00:00,4,AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ,AVENIDA,...,,"FERNANDEZ DE LA CRUZ, F., GRAL. AV.","PIEDRA BUENA AV. y FERNANDEZ DE LA CRUZ, F., G...",8,Point (98896.78238426 93532.43437792),-58.47533969,-34.68757022,MOTO-AUTO,MOTO,AUTO
1,2016-0002,1,2016-01-02,2016,1,2,01:15:00,1,AV GRAL PAZ Y AV DE LOS CORRALES,GRAL PAZ,...,,DE LOS CORRALES AV.,"PAZ, GRAL. AV. y DE LOS CORRALES AV.",9,Point (95832.05571093 95505.41641999),-58.50877521,-34.66977709,AUTO-PASAJEROS,AUTO,PASAJEROS
2,2016-0003,1,2016-01-03,2016,1,3,07:00:00,7,AV ENTRE RIOS 2034,AVENIDA,...,2034.0,,ENTRE RIOS AV. 2034,1,Point (106684.29090040 99706.57687843),-58.39040293,-34.63189362,MOTO-AUTO,MOTO,AUTO
3,2016-0004,1,2016-01-10,2016,1,10,00:00:00,0,AV LARRAZABAL Y GRAL VILLEGAS CONRADO,AVENIDA,...,,"VILLEGAS, CONRADO, GRAL.","LARRAZABAL AV. y VILLEGAS, CONRADO, GRAL.",8,Point (99840.65224780 94269.16534422),-58.46503904,-34.68092974,MOTO-SD,MOTO,SD
4,2016-0005,1,2016-01-21,2016,1,21,05:20:00,5,AV SAN JUAN Y PRESIDENTE LUIS SAENZ PEÑA,AVENIDA,...,,"SAENZ PE?A, LUIS, PRES.","SAN JUAN AV. y SAENZ PEÃ‘A, LUIS, PRES.",1,Point (106980.32827929 100752.16915795),-58.38718297,-34.6224663,MOTO-PASAJEROS,MOTO,PASAJEROS


Se eliminarán las columnas "Fecha" y "Hora" porque las mismas ya están representadas de manera dividida en otras, las cuales son para "Fecha": "AAAA" para el año, "MM" para el mes y "DD" para el día, y "Hora" es la columna "HH".

In [64]:
data_hechos = data_hechos.drop(columns=['FECHA','HORA'])
data_hechos.head(5)

Unnamed: 0,ID,N_VICTIMAS,AAAA,MM,DD,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,Calle,Altura,Cruce,Dirección Normalizada,COMUNA,XY (CABA),pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO
0,2016-0001,1,2016,1,1,4,AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ,AVENIDA,PIEDRA BUENA AV.,,"FERNANDEZ DE LA CRUZ, F., GRAL. AV.","PIEDRA BUENA AV. y FERNANDEZ DE LA CRUZ, F., G...",8,Point (98896.78238426 93532.43437792),-58.47533969,-34.68757022,MOTO-AUTO,MOTO,AUTO
1,2016-0002,1,2016,1,2,1,AV GRAL PAZ Y AV DE LOS CORRALES,GRAL PAZ,"PAZ, GRAL. AV.",,DE LOS CORRALES AV.,"PAZ, GRAL. AV. y DE LOS CORRALES AV.",9,Point (95832.05571093 95505.41641999),-58.50877521,-34.66977709,AUTO-PASAJEROS,AUTO,PASAJEROS
2,2016-0003,1,2016,1,3,7,AV ENTRE RIOS 2034,AVENIDA,ENTRE RIOS AV.,2034.0,,ENTRE RIOS AV. 2034,1,Point (106684.29090040 99706.57687843),-58.39040293,-34.63189362,MOTO-AUTO,MOTO,AUTO
3,2016-0004,1,2016,1,10,0,AV LARRAZABAL Y GRAL VILLEGAS CONRADO,AVENIDA,LARRAZABAL AV.,,"VILLEGAS, CONRADO, GRAL.","LARRAZABAL AV. y VILLEGAS, CONRADO, GRAL.",8,Point (99840.65224780 94269.16534422),-58.46503904,-34.68092974,MOTO-SD,MOTO,SD
4,2016-0005,1,2016,1,21,5,AV SAN JUAN Y PRESIDENTE LUIS SAENZ PEÑA,AVENIDA,SAN JUAN AV.,,"SAENZ PE?A, LUIS, PRES.","SAN JUAN AV. y SAENZ PEÃ‘A, LUIS, PRES.",1,Point (106980.32827929 100752.16915795),-58.38718297,-34.6224663,MOTO-PASAJEROS,MOTO,PASAJEROS


Se revisa la existencia de duplicados en el Dataframe.

In [65]:
duplicados_hechos = data_hechos.duplicated()
duplicados_hechos.value_counts()

False    696
Name: count, dtype: int64

No se encontró ningún duplicado. Ahora se procederá a cambiar los nombres de las columnas para comprender mejor qué datos contiene cada una.

In [66]:
data_hechos.columns = ['Id_hecho','Nro_victimas','Anio','Mes','Dia','Hora','Lugar_hecho','Tipo_calle','Calle','Altura','Cruce','Direccion_normalizada','Comuna','Xy_plana','Long_x','Lat_y','Participantes','Victima','Acusado']

Se revisarán las columnas para verificar el tipo correcto de datos y, si es necesario, aplicar correcciones. Para esto, se utilizará el módulo propio que importé llamado Herramientas.

In [67]:
Herr.analizar_datos(data_hechos)

Unnamed: 0,Nombre,Tipos de Datos Únicos,% de Valores No Nulos,% de Valores Nulos,Cantidad de Valores Nulos
0,Id_hecho,[<class 'str'>],100.0,0.0,0
1,Nro_victimas,[<class 'int'>],100.0,0.0,0
2,Anio,[<class 'int'>],100.0,0.0,0
3,Mes,[<class 'int'>],100.0,0.0,0
4,Dia,[<class 'int'>],100.0,0.0,0
5,Hora,"[<class 'int'>, <class 'str'>]",100.0,0.0,0
6,Lugar_hecho,[<class 'str'>],100.0,0.0,0
7,Tipo_calle,[<class 'str'>],100.0,0.0,0
8,Calle,"[<class 'str'>, <class 'float'>]",99.86,0.14,1
9,Altura,[<class 'float'>],18.53,81.47,567


Comenzaré con la columna ``Horas``, la cual tiene dos tipos de datos: enteros y cadena de texto. Ver sus valores y tomar decisiones sobre ellos.

In [68]:
data_hechos['Hora'].value_counts().sort_values()

Hora
SD     1
2     17
13    17
0     23
4     23
1     24
15    25
20    26
3     26
11    27
23    28
21    29
22    30
19    30
16    30
17    30
10    31
18    31
8     31
12    32
14    33
5     35
9     36
6     40
7     41
Name: count, dtype: int64

El valor "SD" significa sin datos, al ser un 0.14% del total, se decide eliminarlo, para trabajar con un solo tipo de dato en la columna. Además, se eligió NO imputar el valor, ya que colocar una hora en un siniestro que no es la correcta podría quitarle consistencia a nuestros datos. Con esta acción se corrige a un solo tipo de dato.

In [69]:
data_hechos = data_hechos.drop(data_hechos[data_hechos['Hora'] == 'SD'].index)

Continuaré con la columna ``calle`` que también posee dos tipos de datos: cadena de texto y flotante, para ver qué decisión se toma sobre la misma.

In [70]:
data_hechos['Calle'].value_counts()

Calle
PAZ, GRAL. AV.                                56
RIVADAVIA AV.                                 19
DEL LIBERTADOR AV.                            18
AUTOPISTA 1 SUR PRESIDENTE ARTURO FRONDIZI    14
ALBERDI, JUAN BAUTISTA AV.                    13
                                              ..
PILCOMAYO                                      1
CERVANTES                                      1
CONGRESO AV.                                   1
AUSTRALIA AV.                                  1
PADRE CARLOS MUJICA                            1
Name: count, Length: 279, dtype: int64

Se observa que hay registros que tienen números, en este caso, para indicar la autopista del siniestro, y en otros casos, la numeración del lugar. Además, tenemos un valor nulo. Al ser un solo registro que representa el 0.14% del total, será eliminado para poder trabajar con el dataframe de forma correcta. Revisaremos cuál es el registro y luego lo eliminaremos.

In [71]:
calle_sd = data_hechos[data_hechos['Calle'].isnull()]
calle_sd
data_hechos = data_hechos.dropna(subset=['Calle'])

Se pasará toda la columna a tipo string para evitar el doble tipo de datos.

In [72]:
data_hechos['Calle'] = data_hechos['Calle'].astype(str)

Continuaré con la columna ``cruce``, la cual posee dos tipos de datos: cadena de texto y flotante, para ver qué decisión se toma sobre ella.

In [73]:
data_hechos['Cruce'].unique()

array(['FERNANDEZ DE LA CRUZ, F., GRAL. AV.', 'DE LOS CORRALES AV.', nan,
       'VILLEGAS, CONRADO, GRAL.', 'SAENZ PE?A, LUIS, PRES.',
       'ESCALADA AV.', 'GONZALEZ, JOAQUIN V.', 'IRIGOYEN, BERNARDO DE',
       'VERA', 'QUINQUELA MARTIN, BENITO', 'JANER, ANA MARIA',
       'GARCIA GRANDE DE ZEQUEIRA, SEVERO', 'CURAPALIGUE',
       'ALSINA, ADOLFO', '27 DE FEBRERO AV.', 'VEDIA', 'DIAZ, AVELINO',
       '9 DE JULIO AV.', 'DEHEZA', 'ROCA, CNEL. AV.',
       'BONAVENA, OSCAR NATALIO', 'CALLAO AV.', 'VALLE, ARISTOBULO DEL',
       'QUIRNO', 'ZUVIRIA', 'PUEYRREDON AV.', 'RIVERA INDARTE AV.',
       'MURGUIONDO', 'BALBASTRO', 'DEL LIBERTADOR AV.', 'DORREGO AV.',
       'OLAZABAL AV.', 'PAZ, GRAL. AV.', 'FIGUEROA ALCORTA, PRES. AV.',
       'LIMA', 'CARRASCO AV.', 'ESPINOSA', 'SARAZA', 'FILIBERTO',
       'SCAPINO, RODOLFO', 'MIRALLA', 'CAMARONES', 'ALEM, LEANDRO N. AV.',
       'JUJUY AV.', 'UDAONDO, GUILLERMO AV.', 'RIVADAVIA AV.', 'MACHAIN',
       'PUAN', 'TUCUMAN', 'EREZCANO', 'FALCON

Se observa, al igual que en la columna "Calle", que hay registros que tienen números en su nombre, por eso se da este doble tipo de dato, a los nulos se decidió que se imputara el valor de "No_data" dado que representan el 24.5% del total de la columna.

In [74]:
data_hechos['Cruce'] = data_hechos['Cruce'].fillna("No_data")

Se cambiará el tipo de dato de la columna a unicamente string, para manipular un solo tipo de dato en la columna.

In [75]:
data_hechos['Cruce'] = data_hechos['Cruce'].astype(str)

Continuaré con la columna ``Direccion_normalizada``, la cual posee dos tipos de datos: cadena de texto y flotante, para ver qué decisión se toma sobre ella.

In [76]:
data_hechos['Direccion_normalizada'].unique()

array(['PIEDRA BUENA AV. y FERNANDEZ DE LA CRUZ, F., GRAL. AV.',
       'PAZ, GRAL. AV. y DE LOS CORRALES AV.', 'ENTRE RIOS AV. 2034',
       'LARRAZABAL AV. y VILLEGAS, CONRADO, GRAL.',
       'SAN JUAN AV. y SAENZ PEÃ‘A, LUIS, PRES.',
       '27 DE FEBRERO AV. y ESCALADA AV.',
       'NOGOYA y GONZALEZ, JOAQUIN V.',
       'BELGRANO AV. e IRIGOYEN, BERNARDO DE', 'ENTRE RIOS AV. 1366',
       'SCALABRINI ORTIZ, RAUL AV. y VERA',
       'REGIMIENTO DE PATRICIOS AV. y QUINQUELA MARTIN, BENITO',
       'ACOSTA, MARIANO y JANER, ANA MARIA',
       'DE LA TORRE, LISANDRO y GARCIA GRANDE DE ZEQUEIRA, SEVERO',
       'SUIPACHA 156', 'DIRECTORIO AV. y CURAPALIGUE',
       '9 DE JULIO AV. y ALSINA, ADOLFO',
       'PAZ, GRAL. AV. y 27 DE FEBRERO AV.', 'HOLMBERG y VEDIA',
       'CURAPALIGUE AV. y DIAZ, AVELINO', 'VIAMONTE y 9 DE JULIO AV.',
       'CABILDO AV. y DEHEZA', 'PAZ, GRAL. AV. y ROCA, CNEL. AV.',
       'ALCORTA, AMANCIO AV. y BONAVENA, OSCAR NATALIO',
       'CORRIENTES AV. y CALLAO

Se observa, al igual que en las columnas "Calle" y "Cruce", que hay registros que tienen números en su nombre, por eso se da este doble tipo de dato. A los nulos se decidió que se eliminaran dado que representan el 1% de los datos.

In [77]:
data_hechos = data_hechos.dropna(subset=['Direccion_normalizada'])

Se cambiará el tipo de dato de la columna a unicamente string, para manipular un solo tipo de dato en la columna.

In [78]:
data_hechos['Direccion_normalizada'] = data_hechos['Direccion_normalizada'].astype(str)

Se revisa que estén todos los cambios hechos y se continúa con el resto de las columnas para revisar sus valores.

In [79]:
Herr.analizar_datos(data_hechos)

Unnamed: 0,Nombre,Tipos de Datos Únicos,% de Valores No Nulos,% de Valores Nulos,Cantidad de Valores Nulos
0,Id_hecho,[<class 'str'>],100.0,0.0,0
1,Nro_victimas,[<class 'int'>],100.0,0.0,0
2,Anio,[<class 'int'>],100.0,0.0,0
3,Mes,[<class 'int'>],100.0,0.0,0
4,Dia,[<class 'int'>],100.0,0.0,0
5,Hora,[<class 'int'>],100.0,0.0,0
6,Lugar_hecho,[<class 'str'>],100.0,0.0,0
7,Tipo_calle,[<class 'str'>],100.0,0.0,0
8,Calle,[<class 'str'>],100.0,0.0,0
9,Altura,[<class 'float'>],18.78,81.22,558


Seguiré el orden de las columnas para las transformaciones, exceptuando las que ya fueron tratadas, las cuales son "Horas", "Calle", "Cruce" y "Dirección_normalizada".

#### Revisión de la columna ``Id_hecho``

In [80]:
data_hechos['Id_hecho'].value_counts()

Id_hecho
2016-0001    1
2019-0050    1
2019-0042    1
2019-0043    1
2019-0044    1
            ..
2017-0113    1
2017-0114    1
2017-0115    1
2017-0116    1
2021-0097    1
Name: count, Length: 687, dtype: int64

Ya se revisó que no hay duplicados en el dataframe. El conteo de valores muestra que todos tienen un id diferente, y además, por la longitud indicada, se puede afirmar que todos los ids son correctos.

#### Revisión de la columna ``Nro_victimas``

In [91]:
data_hechos['Nro_victimas'].value_counts()

Nro_victimas
1    668
2     18
3      1
Name: count, dtype: int64

No se observan valores raros o fuera de rango.

#### Revisión de la columna ``Anio``

In [90]:
data_hechos['Anio'].value_counts()

Anio
2018    142
2016    141
2017    129
2019    102
2021     96
2020     77
Name: count, dtype: int64

No se observan valores raros o fuera de rango.

#### Revisión de la columna ``Mes``

Dado que los meses del año están indicados con números, los pasaremos a sus nombres completos para una lectura más rápida y sencilla de la información.

In [83]:
meses = { 
        1:'Enero',
        2:'Febrero',
        3:'Marzo',
        4:'Abril',
        5:'Mayo',
        6:'Junio',
        7:'Julio',
        8:'Agosto',
        9:'Septiembre',
        10:'Octubre',
        11:'Noviembre',
        12:'Diciembre'  }

In [84]:
data_hechos['Mes'] = data_hechos['Mes'].map(meses)

In [89]:
data_hechos['Mes'].value_counts()

Mes
Diciembre     77
Noviembre     66
Agosto        65
Enero         62
Mayo          58
Junio         58
Febrero       56
Julio         51
Marzo         50
Octubre       50
Abril         47
Septiembre    47
Name: count, dtype: int64

No se observan valores raros o fuera de rango.

#### Revisión de la columna ``Dia``

In [98]:
data_hechos['Dia'].unique()


array([ 1,  2,  3, 10, 21, 24, 29,  8, 14, 15, 17, 28,  4, 12, 13, 19, 23,
       30, 31, 11, 20, 22, 25, 26, 16, 18, 27,  7,  9,  5,  6],
      dtype=int64)

No se observan valores raros o fuera de rango.

#### Revisión de la columna ``Lugar_hecho``

In [99]:
data_hechos['Lugar_hecho'].unique()

array(['AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ',
       'AV GRAL PAZ  Y AV DE LOS CORRALES', 'AV ENTRE RIOS 2034',
       'AV LARRAZABAL Y GRAL VILLEGAS CONRADO',
       'AV SAN JUAN Y PRESIDENTE LUIS SAENZ PEÑA ',
       'AV 27 DE FEBRERO Y AV ESCALADA', 'NOGOYA Y JOAQUIN V. GONZALES',
       'AV GENERAL PAZ Y AV DE LOS CORRALES',
       'AV BELGRANO Y BERNARDO DE IRIGOYEN', 'AV ENTRE RIOS 1366',
       'AV SCALABRINI ORTIZ Y VERA',
       'AV REGIMIENTO DE PATRICIOS Y QUINQUELA MARTIN BENITO',
       'MARIANO ACOSTA Y ANA MARIA JANER',
       'LISANDRO DE LA TORRE Y SEVERO GARCIA GRANDE DE ZEQUEIRA ',
       'SUIPACHA 156', 'AV DIRECTORIO Y CURAPALIGUE',
       'AV 9 DE JULIO Y ADOLFO ALSINA', 'AV GRAL PAZ Y AV 27 DE FEBRERO',
       'HOLMBERG Y VEDIA', 'CURAPALIGUE Y AVELINO DIAZ',
       'VIAMONTE Y AV 9 DE JULIO', 'AV CABILDO Y DEHEZA',
       'AV GRAL PAZ Y AV CNEL ROCA', 'AV AMANCIO ALCORTA Y BONAVENA',
       'AV CORRIENTES Y AV CALLAO', 'HERRERA Y ARISTOBULO DEL VALLE',
   

No se observan valores atípicos o nulos.

#### Revisión de la columna ``Tipo_calle``

In [102]:
data_hechos['Tipo_calle'].value_counts()

Tipo_calle
AVENIDA      429
CALLE        135
AUTOPISTA    123
Name: count, dtype: int64

Se observa que hay cuatro valores, uno de ellos es "GRAL PAZ", la cual se está contabilizando aparte, pero es una autopista. Se le cambiará el nombre a "AUTOPISTA" para que se contabilice correctamente.

In [101]:
data_hechos['Tipo_calle'] = data_hechos['Tipo_calle'].str.replace('GRAL PAZ','AUTOPISTA')

Se verifica que el cambio se haya realizado adecuadamente.

In [103]:
data_hechos['Tipo_calle'].value_counts()

Tipo_calle
AVENIDA      429
CALLE        135
AUTOPISTA    123
Name: count, dtype: int64

#### Revisión de la columna ``Altura``

In [106]:
data_hechos['Altura'].unique()

array([   nan,  2034.,  1366.,   156.,  1483.,    30.,  1471.,  3900.,
        2384.,  1410.,  4233.,  3500.,   984.,  4895., 15200.,   900.,
        5645.,   300.,  4500.,  3319.,  3055.,  7121.,  1429.,  2651.,
        2699.,  2186.,  5940.,  4900.,  2950.,  3696.,   133.,  1930.,
         390.,   901.,  2639.,  2114.,  5400.,  2135.,  5750.,  1211.,
         611.,  3555.,  6350.,   365.,  5249.,   937.,  1019.,  2800.,
        2320.,  6950.,  1571.,   879.,  2300.,  2430., 11050.,  2215.,
        3400.,  2968.,  1513.,   150., 14800.,  5321., 11200.,   550.,
        7013.,  1893.,  1974.,  1400.,  5172.,  4650., 16080.,  4100.,
        5402.,  5638.,  6326.,  3444.,  1260.,  1325.,  3050.,   665.,
         650.,  1700.,  1548.,  2976.,   305.,  4706.,  5600.,  2874.,
        1788.,  4300.,  2428.,  6700.,  5455.,  2250.,   466.,  2860.,
         770.,  1279.,  1339.,  2551.,  1550.,   614.,  5437.,  1100.,
        1845.,  1118.,  3800.,  1675.,  1623., 10900.,  4000.,  5958.,
      

Rápidamente se observa que tenemos muy pocos valores con su numeración. Esto será tratado en el Análisis Exploratorio de los Datos (EDA) para poder revisar con más profundidad qué sucede con estos valores.

#### Revisión de la columna ``Comuna``

In [107]:
data_hechos['Comuna'].value_counts()

Comuna
1     90
4     74
9     72
8     65
7     59
3     45
15    44
13    39
12    37
14    33
11    31
10    29
2     25
5     22
6     21
0      1
Name: count, dtype: int64

Se ven los datos con normalidad y en orden. Continuaremos con la próxima columna.

#### Revisión de la columna ``Long_x``

In [110]:
data_hechos['Long_x'].value_counts() 

Long_x
-58.44451316    5
-58.50073810    4
.               4
-58.46743471    4
-58.50877521    4
               ..
-58.39100580    1
-58.37697717    1
-58.45807401    1
-58.42023854    1
-58.37976155    1
Name: count, Length: 604, dtype: int64

Nos encontramos con 4 valores sin indicar. Revisaremos si sucede lo mismo en la columna "Lat_y" y, en ese caso, si son los mismos, rellenaremos los valores buscándolos en la columna "Xy_plana".

In [112]:
sindato_x = data_hechos[data_hechos['Long_x'] == '.']
sindato_x

Unnamed: 0,Id_hecho,Nro_victimas,Anio,Mes,Dia,Hora,Lugar_hecho,Tipo_calle,Calle,Altura,Cruce,Direccion_normalizada,Comuna,Xy_plana,Long_x,Lat_y,Participantes,Victima,Acusado
139,2016-0174,1,2016,Diciembre,27,0,AUTOPISTA 25 DE MAYO,AUTOPISTA,AUTOPISTA 25 DE MAYO,,No_data,AUTOPISTA 25 DE MAYO,0,Point (. .),.,.,SD-SD,SD,SD
176,2017-0042,1,2017,Abril,10,9,AV. LEOPOLDO LUGONES PKM 6900,AUTOPISTA,"LUGONES, LEOPOLDO AV.",,No_data,"LUGONES, LEOPOLDO AV.",14,Point (. .),.,.,MOTO-CARGAS,MOTO,CARGAS
256,2017-0140,1,2017,Noviembre,19,23,AU ARTURO FRONDIZI PKM 3100,AUTOPISTA,AUTOPISTA 1 SUR PRESIDENTE ARTURO FRONDIZI,,No_data,AUTOPISTA 1 SUR PRESIDENTE ARTURO FRONDIZI,4,Point (. .),.,.,MOTO-PASAJEROS,MOTO,PASAJEROS
559,2020-0039,1,2020,Septiembre,1,19,MURGUIONDO 2700,CALLE,MURGUIONDO,,No_data,MURGUIONDO,9,Point (. .),.,.,PEATON-CARGAS,PEATON,CARGAS


#### Revisión de la columna ``Lat_y``

In [111]:
data_hechos['Lat_y'].value_counts() 

Lat_y
-34.68475866    5
-34.54979510    4
.               4
-34.53476874    4
-34.66977709    4
               ..
-34.58498660    1
-34.59573848    1
-34.63997430    1
-34.64234110    1
-34.58679619    1
Name: count, Length: 604, dtype: int64

Tenemos la misma cantidad de datos sin indicar que en "Long_x". Revisaremos si coinciden los índices y, como dijimos previamente, buscaremos esos índices en "Xy_plana" para ver los valores y reemplazarlos en ambas columnas.

In [114]:
sindato_y = data_hechos[data_hechos['Lat_y'] == '.']
sindato_y

Unnamed: 0,Id_hecho,Nro_victimas,Anio,Mes,Dia,Hora,Lugar_hecho,Tipo_calle,Calle,Altura,Cruce,Direccion_normalizada,Comuna,Xy_plana,Long_x,Lat_y,Participantes,Victima,Acusado
139,2016-0174,1,2016,Diciembre,27,0,AUTOPISTA 25 DE MAYO,AUTOPISTA,AUTOPISTA 25 DE MAYO,,No_data,AUTOPISTA 25 DE MAYO,0,Point (. .),.,.,SD-SD,SD,SD
176,2017-0042,1,2017,Abril,10,9,AV. LEOPOLDO LUGONES PKM 6900,AUTOPISTA,"LUGONES, LEOPOLDO AV.",,No_data,"LUGONES, LEOPOLDO AV.",14,Point (. .),.,.,MOTO-CARGAS,MOTO,CARGAS
256,2017-0140,1,2017,Noviembre,19,23,AU ARTURO FRONDIZI PKM 3100,AUTOPISTA,AUTOPISTA 1 SUR PRESIDENTE ARTURO FRONDIZI,,No_data,AUTOPISTA 1 SUR PRESIDENTE ARTURO FRONDIZI,4,Point (. .),.,.,MOTO-PASAJEROS,MOTO,PASAJEROS
559,2020-0039,1,2020,Septiembre,1,19,MURGUIONDO 2700,CALLE,MURGUIONDO,,No_data,MURGUIONDO,9,Point (. .),.,.,PEATON-CARGAS,PEATON,CARGAS


#### Revisión de la columna ``Xy_plana``

In [109]:
data_hechos['Xy_plana'].value_counts()

Xy_plana
Point (. .)                                6
Point (101721.59002217 93844.25656649)     5
Point (99620.34936816 110483.29286598)     4
Point (95832.05571093 95505.41641999)      4
Point (96563.66494817 108815.73881056)     4
                                          ..
Point (106632.70892338 104910.17381357)    1
Point (107918.77617420 103716.42961253)    1
Point (100479.14412395 98812.52258620)     1
Point (103948.02389064 98549.15451723)     1
Point (107664.16647795 104708.63962087)    1
Name: count, Length: 605, dtype: int64

Tenemos 6 valores faltantes en "Xy_plana". Revisaremos si son los mismos que en "Long_x" y "Lat_y".

In [96]:
Herr.analizar_datos(data_hechos)

Unnamed: 0,Nombre,Tipos de Datos Únicos,% de Valores No Nulos,% de Valores Nulos,Cantidad de Valores Nulos
0,Id_hecho,[<class 'str'>],100.0,0.0,0
1,Nro_victimas,[<class 'int'>],100.0,0.0,0
2,Anio,[<class 'int'>],100.0,0.0,0
3,Mes,[<class 'str'>],100.0,0.0,0
4,Dia,[<class 'int'>],100.0,0.0,0
5,Hora,[<class 'int'>],100.0,0.0,0
6,Lugar_hecho,[<class 'str'>],100.0,0.0,0
7,Tipo_calle,[<class 'str'>],100.0,0.0,0
8,Calle,[<class 'str'>],100.0,0.0,0
9,Altura,[<class 'float'>],18.78,81.22,558
