In [3]:
import pandas as pd

<h1>ETL</h1>

<h3>Tabla "hechos"</h3>

In [4]:
# Cargamos la tabla:
hechos_df = pd.read_excel(r"../Datasets/homicidios.xlsx", sheet_name="HECHOS")
hechos_df.head(3)

Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,DD,HORA,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,...,Altura,Cruce,Dirección Normalizada,COMUNA,XY (CABA),pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO
0,2016-0001,1,2016-01-01,2016,1,1,04:00:00,4,AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ,AVENIDA,...,,"FERNANDEZ DE LA CRUZ, F., GRAL. AV.","PIEDRA BUENA AV. y FERNANDEZ DE LA CRUZ, F., G...",8,Point (98896.78238426 93532.43437792),-58.47533969,-34.68757022,MOTO-AUTO,MOTO,AUTO
1,2016-0002,1,2016-01-02,2016,1,2,01:15:00,1,AV GRAL PAZ Y AV DE LOS CORRALES,GRAL PAZ,...,,DE LOS CORRALES AV.,"PAZ, GRAL. AV. y DE LOS CORRALES AV.",9,Point (95832.05571093 95505.41641999),-58.50877521,-34.66977709,AUTO-PASAJEROS,AUTO,PASAJEROS
2,2016-0003,1,2016-01-03,2016,1,3,07:00:00,7,AV ENTRE RIOS 2034,AVENIDA,...,2034.0,,ENTRE RIOS AV. 2034,1,Point (106684.29090040 99706.57687843),-58.39040293,-34.63189362,MOTO-AUTO,MOTO,AUTO


In [5]:
# Revisamos sus columnas:
hechos_df.dtypes

ID                               object
N_VICTIMAS                        int64
FECHA                    datetime64[ns]
AAAA                              int64
MM                                int64
DD                                int64
HORA                             object
HH                               object
LUGAR_DEL_HECHO                  object
TIPO_DE_CALLE                    object
Calle                            object
Altura                          float64
Cruce                            object
Dirección Normalizada            object
COMUNA                            int64
XY (CABA)                        object
pos x                            object
pos y                            object
PARTICIPANTES                    object
VICTIMA                          object
ACUSADO                          object
dtype: object

In [6]:
# Eliminamos las columnas que no utilizaremos:
hechos_df = hechos_df.drop(["HORA", "Altura", "Dirección Normalizada", "COMUNA", "XY (CABA)", "PARTICIPANTES"], axis=1)
hechos_df.dtypes

ID                         object
N_VICTIMAS                  int64
FECHA              datetime64[ns]
AAAA                        int64
MM                          int64
DD                          int64
HH                         object
LUGAR_DEL_HECHO            object
TIPO_DE_CALLE              object
Calle                      object
Cruce                      object
pos x                      object
pos y                      object
VICTIMA                    object
ACUSADO                    object
dtype: object

In [7]:
# Revisamos registros duplicados:
hechos_df.duplicated().any()

False

In [8]:
# Revisamos valores nulos:
hechos_df.isna().sum()

ID                   0
N_VICTIMAS           0
FECHA                0
AAAA                 0
MM                   0
DD                   0
HH                   0
LUGAR_DEL_HECHO      0
TIPO_DE_CALLE        0
Calle                1
Cruce              171
pos x                0
pos y                0
VICTIMA              0
ACUSADO              0
dtype: int64

In [9]:
# Revisamos los años presentes en el DataFrame:
hechos_df["AAAA"].unique()

array([2016, 2017, 2018, 2019, 2020, 2021], dtype=int64)

In [10]:
# Convertimos la columna "HH" (hora) en tipo "Int64":
hechos_df["HH"] = hechos_df["HH"].apply(pd.to_numeric, errors="coerce", downcast="integer").astype("Int64")
hechos_df["HH"].dtypes

Int64Dtype()

In [11]:
# Convertimos las columna "pos x" y "pos y" (coordenadas) en tipo "float":
hechos_df["pos x"] = pd.to_numeric(hechos_df["pos x"], errors="coerce").astype(float)
hechos_df["pos y"] = pd.to_numeric(hechos_df["pos y"], errors="coerce").astype(float)
hechos_df[["pos x", "pos y"]].dtypes

pos x    float64
pos y    float64
dtype: object

In [12]:
# Guardamos el archivo limpio:
hechos_df.to_csv(r"../Archivos producidos/hechos_homicidios.csv", index=False)