![Banner](/6_Assets/Banner_ETL.png)

## ETL Extracción, transformación y carga

⚠️ **Asegúrese de instalar las siguientes bibliotecas antes de ejecutar el código**

- numpy
- pandas
- matplotlib
- seaborn
- geopandas
- geojson
- folium
- re
- sqlalchemy


Puede instalar estas bibliotecas debe abrir una terminal o ventana de línea de comandos y ejecutar el siguiente comando:

*`pip install pandas matplotlib`*

En el doloroso escenario de la realidad argentina, donde anualmente se despiden cerca de 4.000 vidas en siniestros viales, nuestro viaje comienza con una misión fundamental: transformar datos en entendimiento, desvelar los mensajes implícitos y, sobre todo, contribuir a la reducción de tragedias en sus carreteras.

En éste proceso de ETL nos embarcaremos en la tarea de explorar dos archivos en formato Excel, testigos silenciosos de eventos trágicos: **'homicidios.xlsx'** y **'lesiones.xlsx'**. Cada hoja de trabajo, ya sea en homicidios (HECHOS y VICTIMAS) o lesiones (HECHOS y VICTIMAS), guarda consigo relatos que claman por ser desentrañados.

Este notebook no es meramente código; es una odisea de descubrimiento, un esfuerzo meticuloso para revelar los secretos que se ocultan en los datos crudos. Nos sumergiremos en cada fila, exploraremos cada columna, y extraeremos la esencia que yace en cada celda. La transformación de información cruda en conocimiento es la brújula que nos guía hacia la comprensión y, más importante aún, hacia la acción para mitigar las pérdidas humanas en las carreteras de la Ciudad de Buenos Aires.


+ Fuente de datos:

Buenos Aires Data: https://data.buenosaires.gob.ar/dataset/victimas-siniestros-viales

## 1. Importar Librerías

In [23]:
import sqlalchemy
import re
import sketch
import numpy as np 
import pandas as pd 
#import pandas_alive
import matplotlib.pyplot as plt
import seaborn as sns
import geopandas as gpd
import geojson
import folium
from folium.plugins import HeatMap
from summarytools import dfSummary
from functions import analizar_valores_sd, cargar_datos_desde_excel, data_cleaning


## 2. Cargar de datos

In [16]:
# Acceder al DataFrame por nombre de hoja, Homicidios - Hechos
homicidios_hechos = pd.read_excel("homicidios.xlsx", sheet_name="HECHOS")
homicidios_victimas = pd.read_excel("homicidios.xlsx", sheet_name="VICTIMAS")
comunas= pd.read_excel("comunas.xlsx")


## 3. Explorar y limpiar datos

### 3.1. Dataset: Homicidios - Hechos

In [17]:
# Visualiza las primeras filas del Dataframe
homicidios_hechos



Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,DD,HORA,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,...,Altura,Cruce,Dirección Normalizada,COMUNA,XY (CABA),pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO
0,2016-0001,1,2016-01-01,2016,1,1,04:00:00,4,AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ,AVENIDA,...,,"FERNANDEZ DE LA CRUZ, F., GRAL. AV.","PIEDRA BUENA AV. y FERNANDEZ DE LA CRUZ, F., G...",8,Point (98896.78238426 93532.43437792),-58.47533969,-34.68757022,MOTO-AUTO,MOTO,AUTO
1,2016-0002,1,2016-01-02,2016,1,2,01:15:00,1,AV GRAL PAZ Y AV DE LOS CORRALES,GRAL PAZ,...,,DE LOS CORRALES AV.,"PAZ, GRAL. AV. y DE LOS CORRALES AV.",9,Point (95832.05571093 95505.41641999),-58.50877521,-34.66977709,AUTO-PASAJEROS,AUTO,PASAJEROS
2,2016-0003,1,2016-01-03,2016,1,3,07:00:00,7,AV ENTRE RIOS 2034,AVENIDA,...,2034.0,,ENTRE RIOS AV. 2034,1,Point (106684.29090040 99706.57687843),-58.39040293,-34.63189362,MOTO-AUTO,MOTO,AUTO
3,2016-0004,1,2016-01-10,2016,1,10,00:00:00,0,AV LARRAZABAL Y GRAL VILLEGAS CONRADO,AVENIDA,...,,"VILLEGAS, CONRADO, GRAL.","LARRAZABAL AV. y VILLEGAS, CONRADO, GRAL.",8,Point (99840.65224780 94269.16534422),-58.46503904,-34.68092974,MOTO-SD,MOTO,SD
4,2016-0005,1,2016-01-21,2016,1,21,05:20:00,5,AV SAN JUAN Y PRESIDENTE LUIS SAENZ PEÑA,AVENIDA,...,,"SAENZ PE?A, LUIS, PRES.","SAN JUAN AV. y SAENZ PEÃ‘A, LUIS, PRES.",1,Point (106980.32827929 100752.16915795),-58.38718297,-34.62246630,MOTO-PASAJEROS,MOTO,PASAJEROS
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
691,2021-0093,1,2021-12-13,2021,12,13,17:10:00,17,AV. RIESTRA Y MOM,AVENIDA,...,,MOM,RIESTRA AV. y MOM,7,Point (102728.60090138 98186.24929177),-58.43353773,-34.64561636,MOTO-AUTO,MOTO,AUTO
692,2021-0094,1,2021-12-20,2021,12,20,01:10:00,1,AU DELLEPIANE Y LACARRA,AUTOPISTA,...,,LACARRA AV.,"DELLEPIANE, LUIS, TTE. GRAL. y LACARRA AV.",9,Point (99624.29795829 97569.69801131),-58.46739825,-34.65117757,MOTO-AUTO,MOTO,AUTO
693,2021-0095,1,2021-12-30,2021,12,30,00:43:00,0,AV. GAONA Y TERRADA,AVENIDA,...,,TERRADA,GAONA AV. y TERRADA,11,Point (99116.45492358 101045.23284826),-58.47293407,-34.61984745,MOTO-CARGAS,MOTO,CARGAS
694,2021-0096,1,2021-12-15,2021,12,15,10:30:00,10,AV. EVA PERON 4071,AVENIDA,...,4071.0,,"PERON, EVA AV. 4071",9,Point (99324.54463985 97676.26932409),-58.47066794,-34.65021673,AUTO-CARGAS,AUTO,CARGAS


In [18]:
# Obtener información general del DataFrame
homicidios_hechos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 696 entries, 0 to 695
Data columns (total 21 columns):
 #   Column                 Non-Null Count  Dtype         
---  ------                 --------------  -----         
 0   ID                     696 non-null    object        
 1   N_VICTIMAS             696 non-null    int64         
 2   FECHA                  696 non-null    datetime64[ns]
 3   AAAA                   696 non-null    int64         
 4   MM                     696 non-null    int64         
 5   DD                     696 non-null    int64         
 6   HORA                   696 non-null    object        
 7   HH                     696 non-null    object        
 8   LUGAR_DEL_HECHO        696 non-null    object        
 9   TIPO_DE_CALLE          696 non-null    object        
 10  Calle                  695 non-null    object        
 11  Altura                 129 non-null    float64       
 12  Cruce                  525 non-null    object        
 13  Direc

Examen de nulos y duplicados

In [25]:
# Invoca la función 'analizar_valores_sd'
resultados_h_hechos = analizar_valores_sd(homicidios_hechos)
resultados_h_hechos

Unnamed: 0,Columna,Cantidad de SD,Porcentaje de SD
6,HORA,1,0.143678
7,HH,1,0.143678
8,LUGAR_DEL_HECHO,1,0.143678
19,VICTIMA,9,1.293103
20,ACUSADO,23,3.304598


In [28]:
homicidios_hechos.isnull().sum()

ID                         0
N_VICTIMAS                 0
FECHA                      0
AAAA                       0
MM                         0
DD                         0
HORA                       1
HH                         1
LUGAR_DEL_HECHO            1
TIPO_DE_CALLE              0
Calle                      1
Altura                   567
Cruce                    171
Dirección Normalizada      8
COMUNA                     0
XY (CABA)                  0
pos x                      0
pos y                      0
PARTICIPANTES              0
VICTIMA                    9
ACUSADO                   23
dtype: int64

In [27]:
# Reemplazar 'SD' por NaN en todo el DataFrame

homicidios_hechos.replace(['SD','sd'], np.nan, inplace=True)

Se analizan las columnas con datos nulos

In [29]:
homicidios_hechos[["Altura", "Calle", "Dirección Normalizada", "Cruce"]][:5]

Unnamed: 0,Altura,Calle,Dirección Normalizada,Cruce
0,,PIEDRA BUENA AV.,"PIEDRA BUENA AV. y FERNANDEZ DE LA CRUZ, F., G...","FERNANDEZ DE LA CRUZ, F., GRAL. AV."
1,,"PAZ, GRAL. AV.","PAZ, GRAL. AV. y DE LOS CORRALES AV.",DE LOS CORRALES AV.
2,2034.0,ENTRE RIOS AV.,ENTRE RIOS AV. 2034,
3,,LARRAZABAL AV.,"LARRAZABAL AV. y VILLEGAS, CONRADO, GRAL.","VILLEGAS, CONRADO, GRAL."
4,,SAN JUAN AV.,"SAN JUAN AV. y SAENZ PEÃ‘A, LUIS, PRES.","SAENZ PE?A, LUIS, PRES."


In [30]:
homicidios_hechos[homicidios_hechos["Dirección Normalizada"].isnull()][["Dirección Normalizada", "Cruce","Altura", "Calle"]]

Unnamed: 0,Dirección Normalizada,Cruce,Altura,Calle
38,,,,"LUGONES, LEOPOLDO AV."
106,,,,AUTOPISTA BUENOS AIRES - LA PLATA
119,,,,
180,,,,AUTOPISTA PERITO MORENO
181,,,,AUTOPISTA DELLEPIANE LUIS TTE. GRAL.
313,,,,"LUGONES, LEOPOLDO AV."
546,,,,"LUGONES, LEOPOLDO AV."
621,,,,AUTOPISTA BUENOS AIRES - LA PLATA


Tras examinar datos nulos, que representan el 5,1% del dataset; distribuidos en tres columnas **`Altura`**, **`Dirección Normalizada`**, **`Cruce`** y **`Calle`**. 
- Para el caso de **`Calle`** tiene un solo dato nulo.
- Para el caso de  **`Dirección Normalizada`** 8 nulos. 
- Para el caso de **`Cruce`** tiene 171 nulos, siendo el 24,56% del los datos de la columna.
- Para el caso de **`Altura`** tiene 567 nulos que representan el 81,5% de datos de la columna

Analizando los datos de la `Altura` se procede a eliminarla debido a la gran cantidad de faltantes y no existiendo manera de poder rellenar las colummas; ya que altura se refiere a la numeración de la calle donde se produce el siniestro y la mayoria de los casos se producen en cruces o esquinas.
La columna `Cruce` solo va a tener dato cuando el hecho se porduce en un cruce de calles, por lo que se conserva de esta manera.
La columna `Dirección Normalizada` no tiene posibilidad de completarse con las columnas del dataset; pero contiene solo 1,1% de nulos por lo se conserva de esta manera.

In [31]:
# Se elimina la columna "Altura"
homicidios_hechos= homicidios_hechos.drop("Altura", axis=1)
homicidios_hechos.columns

Index(['ID', 'N_VICTIMAS', 'FECHA', 'AAAA', 'MM', 'DD', 'HORA', 'HH',
       'LUGAR_DEL_HECHO', 'TIPO_DE_CALLE', 'Calle', 'Cruce',
       'Dirección Normalizada', 'COMUNA', 'XY (CABA)', 'pos x', 'pos y',
       'PARTICIPANTES', 'VICTIMA', 'ACUSADO'],
      dtype='object')

In [32]:
homicidios_hechos.duplicated().sum()

0

Para el caso no se encontraron datos duplicados 

## 4. Transformación de los datos

Se regularizan los tipos de datos de las columnas

Ante la salida de la info del dataset, se observa que la primera columna con tipo de dato que necesita transformación es `HH`, debido a que se encuentra como objeto y deberia ser númerico.
- Por ello se analizan los datos de la columna
- Se transforman a tipo de dato numérico

In [33]:
homicidios_hechos["HH"].unique()

array([ 4.,  1.,  7.,  0.,  5., 18., 19., 15., 11., 22., 16.,  9., 23.,
        6., 10., 17., 12.,  8., 20., 21., 14.,  3.,  2., 13., nan])

El campo que contiene SD, no se modifica debido a que en la columna HORA donde tambien debería existir dato, se encuentra SD. Por lo que no podemos calcular un reemplazo. Otra opción sería calcular la mediana de las horas y reemplazarlas pero podria no ser representativo en este caso. Por lo que se define mantenerlo en SD

In [34]:
# Cambio el dato horas  a tipo de dato numerico y luego a entero 
homicidios_hechos["HH"] = pd.to_numeric(homicidios_hechos ["HH"], errors="coerce")
homicidios_hechos["HH"] = homicidios_hechos["HH"].astype("Int64")

In [35]:
# Filtrar filas con posiciones no válidas
valid_positions = ~(homicidios_hechos['pos x'].str.contains('[^0-9.,-]') | homicidios_hechos['pos y'].str.contains('[^0-9.,-]') | (homicidios_hechos['pos x'] == '.') | (homicidios_hechos['pos y'] == '.'))

# Establecer posiciones no válidas en NaN
homicidios_hechos.loc[~valid_positions, ['pos x', 'pos y']] = np.nan

# Convertir las cadenas a tipo numérico (float)
homicidios_hechos['pos x'] = homicidios_hechos['pos x'].str.replace(',', '.').astype(float)
homicidios_hechos['pos y'] = homicidios_hechos['pos y'].str.replace(',', '.').astype(float)

In [36]:
homicidios_hechos.head(3)

Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,DD,HORA,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,Calle,Cruce,Dirección Normalizada,COMUNA,XY (CABA),pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO
0,2016-0001,1,2016-01-01,2016,1,1,04:00:00,4,AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ,AVENIDA,PIEDRA BUENA AV.,"FERNANDEZ DE LA CRUZ, F., GRAL. AV.","PIEDRA BUENA AV. y FERNANDEZ DE LA CRUZ, F., G...",8,Point (98896.78238426 93532.43437792),-58.47534,-34.68757,MOTO-AUTO,MOTO,AUTO
1,2016-0002,1,2016-01-02,2016,1,2,01:15:00,1,AV GRAL PAZ Y AV DE LOS CORRALES,GRAL PAZ,"PAZ, GRAL. AV.",DE LOS CORRALES AV.,"PAZ, GRAL. AV. y DE LOS CORRALES AV.",9,Point (95832.05571093 95505.41641999),-58.508775,-34.669777,AUTO-PASAJEROS,AUTO,PASAJEROS
2,2016-0003,1,2016-01-03,2016,1,3,07:00:00,7,AV ENTRE RIOS 2034,AVENIDA,ENTRE RIOS AV.,,ENTRE RIOS AV. 2034,1,Point (106684.29090040 99706.57687843),-58.390403,-34.631894,MOTO-AUTO,MOTO,AUTO


La columna `XY (CABA)` posee coordenadas para poder ubicar en un mapa , las extraemos para poder utilizar

La función extraer_coordenadas se utiliza para extraer estas coordenadas (latitud y longitud) de un texto determinado y luego se almacenan en las columnas 'coordenada_x' (longitud) y 'coordenada_y' (latitud) del DataFrame.

In [37]:
# Función para extraer las coordenadas CABA
# Esta función toma un argumento texto, que es el texto de entrada del cual se intentarán extraer las coordenadas
# Utiliza una expresión regular (re.findall) para buscar todas las coincidencias de números decimales (que tienen un punto como separador decimal) en el texto. Estas coincidencias se almacenan en la lista coordenadas.
# return float(coordenadas[0]), float(coordenadas[1]): Si se encontraron dos coordenadas, se convierten en números de punto flotante (float) y se devuelven como una tupla de dos valores.
# Luego, se aplica esta función a la columna 'XY (CABA)' de df_siniestros utilizando el método .map(). Esto se hace para cada fila de la columna, y los resultados se almacenan en dos nuevas columnas, 'coordenada_x' y 'coordenada_y', utilizando zip(*...).

def extraer_coordenadas(texto):
    # Utilizamos una expresión regular para extraer las coordenadas
    coordenadas = re.findall(r'\d+\.\d+', texto)
    if len(coordenadas) == 2:
        return float(coordenadas[0]), float(coordenadas[1])
    else:
        return None, None

# Aplicar la función a la columna 'XY (CABA)'
homicidios_hechos['coordenada_x'], homicidios_hechos['coordenada_y'] = zip(*homicidios_hechos['XY (CABA)'].map(extraer_coordenadas))

# Filtrar los registros que no tienen coordenadas válidas
homicidios_hechos = homicidios_hechos[(homicidios_hechos['coordenada_x'].notnull()) & (homicidios_hechos['coordenada_y'].notnull())]

In [38]:
homicidios_hechos.head(3)

Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,DD,HORA,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,...,Dirección Normalizada,COMUNA,XY (CABA),pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO,coordenada_x,coordenada_y
0,2016-0001,1,2016-01-01,2016,1,1,04:00:00,4,AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ,AVENIDA,...,"PIEDRA BUENA AV. y FERNANDEZ DE LA CRUZ, F., G...",8,Point (98896.78238426 93532.43437792),-58.47534,-34.68757,MOTO-AUTO,MOTO,AUTO,98896.782384,93532.434378
1,2016-0002,1,2016-01-02,2016,1,2,01:15:00,1,AV GRAL PAZ Y AV DE LOS CORRALES,GRAL PAZ,...,"PAZ, GRAL. AV. y DE LOS CORRALES AV.",9,Point (95832.05571093 95505.41641999),-58.508775,-34.669777,AUTO-PASAJEROS,AUTO,PASAJEROS,95832.055711,95505.41642
2,2016-0003,1,2016-01-03,2016,1,3,07:00:00,7,AV ENTRE RIOS 2034,AVENIDA,...,ENTRE RIOS AV. 2034,1,Point (106684.29090040 99706.57687843),-58.390403,-34.631894,MOTO-AUTO,MOTO,AUTO,106684.2909,99706.576878


In [39]:
#Se observan las columnas resultantes
homicidios_hechos.columns

Index(['ID', 'N_VICTIMAS', 'FECHA', 'AAAA', 'MM', 'DD', 'HORA', 'HH',
       'LUGAR_DEL_HECHO', 'TIPO_DE_CALLE', 'Calle', 'Cruce',
       'Dirección Normalizada', 'COMUNA', 'XY (CABA)', 'pos x', 'pos y',
       'PARTICIPANTES', 'VICTIMA', 'ACUSADO', 'coordenada_x', 'coordenada_y'],
      dtype='object')

En la columna 'Comuna' tenemos una numeracion del 1 al 15. Esta numeración identifica a cada una de las divisiones comunales de la ciudad autónoma de Buenos Aires.

Para agregar valor al dataset, agregaremos la descripción de cada una de las comunas, con los Barrios que la conforman.

Para eso utilizaremos el dataset 'comunas' importado junto al dataset `homicidios`. Este dataset fue descargado del siguiente sitio web: https://buenosaires.gob.ar/comunas

In [40]:
#Se realiza el merge a través de la columna en comun `Comuna` y nos va a quedar anexada la columna `Barrios`

homicidios_hechos=homicidios_hechos.merge(comunas, on="COMUNA", how="left")

#Modifico las mayúsculas por minúsculas
homicidios_hechos=homicidios_hechos.rename(columns={
    "BARRIOS": "Barrios"
})


In [41]:
homicidios_hechos.head(3)

Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,DD,HORA,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,...,COMUNA,XY (CABA),pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO,coordenada_x,coordenada_y,Barrios
0,2016-0001,1,2016-01-01,2016,1,1,04:00:00,4,AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ,AVENIDA,...,8,Point (98896.78238426 93532.43437792),-58.47534,-34.68757,MOTO-AUTO,MOTO,AUTO,98896.782384,93532.434378,VILLA LUGANO - VILLA RIACHUELO - VILLA SOLDATI
1,2016-0002,1,2016-01-02,2016,1,2,01:15:00,1,AV GRAL PAZ Y AV DE LOS CORRALES,GRAL PAZ,...,9,Point (95832.05571093 95505.41641999),-58.508775,-34.669777,AUTO-PASAJEROS,AUTO,PASAJEROS,95832.055711,95505.41642,LINIERS - MATADEROS - PARQUE AVELLANEDA
2,2016-0003,1,2016-01-03,2016,1,3,07:00:00,7,AV ENTRE RIOS 2034,AVENIDA,...,1,Point (106684.29090040 99706.57687843),-58.390403,-34.631894,MOTO-AUTO,MOTO,AUTO,106684.2909,99706.576878,CONSTITUCION - MONTSERRAT - PUERTO MADERO - RE...


Las colummas tienen nombres en mayúsculas y también en minúsculas. Se estandarizan a modo de buena práctica

In [42]:
#Cambio la primer letra a mayúscula
homicidios_hechos.columns = [x.capitalize() for x in homicidios_hechos.columns]
# Reemplazo guiones por espacios
homicidios_hechos.columns = homicidios_hechos.columns.str.replace("_", " ")
#Renombra columnas 
homicidios_hechos= homicidios_hechos.rename(columns={"N victimas": "Num víctimas",
                                            "Aaaa": "Año",
                                            "Mm":"Mes",
                                            "Dd": "Día",
                                            "Hora": "Hora completa",
                                            "Hh": "Hora"}) 

homicidios_hechos.columns

Index(['Id', 'Num víctimas', 'Fecha', 'Año', 'Mes', 'Día', 'Hora completa',
       'Hora', 'Lugar del hecho', 'Tipo de calle', 'Calle', 'Cruce',
       'Dirección normalizada', 'Comuna', 'Xy (caba)', 'Pos x', 'Pos y',
       'Participantes', 'Victima', 'Acusado', 'Coordenada x', 'Coordenada y',
       'Barrios'],
      dtype='object')

Al analizar los datos de la columna `Día` se muestra solo el numero del día y no el nombre correspondiente por lo que se crea la columna `Día semana` donde se corresponde cada fecha con un dia de la semana para poder analizar luego como se relacionan los siniestros con los dias de la semana

In [43]:
#Consulto la columna Día
homicidios_hechos.Día

0       1
1       2
2       3
3      10
4      21
       ..
677    13
678    20
679    30
680    15
681    18
Name: Día, Length: 682, dtype: int64

In [44]:
#Creo una columna nueva `Día semana` que contenga el nombre del día de la semana
homicidios_hechos['Día semana'] = homicidios_hechos['Fecha'].dt.strftime('%A')

#Creo un diccionario para modificar a español los nombres de los dás de la semana y lo aplico a la columna nueva
dic={  'Friday':'Viernes',
       'Saturday': 'Sabado',
       'Sunday': 'Domingo',  
       'Thursday': 'Jueves',
        'Monday': 'Lunes',
        'Wednesday': 'Miercoles',
       'Tuesday': 'Martes'}
homicidios_hechos['Día semana'] =homicidios_hechos['Día semana'].replace(dic)

In [45]:
homicidios_hechos.head(3)

Unnamed: 0,Id,Num víctimas,Fecha,Año,Mes,Día,Hora completa,Hora,Lugar del hecho,Tipo de calle,...,Xy (caba),Pos x,Pos y,Participantes,Victima,Acusado,Coordenada x,Coordenada y,Barrios,Día semana
0,2016-0001,1,2016-01-01,2016,1,1,04:00:00,4,AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ,AVENIDA,...,Point (98896.78238426 93532.43437792),-58.47534,-34.68757,MOTO-AUTO,MOTO,AUTO,98896.782384,93532.434378,VILLA LUGANO - VILLA RIACHUELO - VILLA SOLDATI,Viernes
1,2016-0002,1,2016-01-02,2016,1,2,01:15:00,1,AV GRAL PAZ Y AV DE LOS CORRALES,GRAL PAZ,...,Point (95832.05571093 95505.41641999),-58.508775,-34.669777,AUTO-PASAJEROS,AUTO,PASAJEROS,95832.055711,95505.41642,LINIERS - MATADEROS - PARQUE AVELLANEDA,Sabado
2,2016-0003,1,2016-01-03,2016,1,3,07:00:00,7,AV ENTRE RIOS 2034,AVENIDA,...,Point (106684.29090040 99706.57687843),-58.390403,-34.631894,MOTO-AUTO,MOTO,AUTO,106684.2909,99706.576878,CONSTITUCION - MONTSERRAT - PUERTO MADERO - RE...,Domingo


La colmuna `Comuna` se modifica agregando el termino Comuna antes del número, a fin de lograr una variable categórica que me simplifique el análisis

In [46]:
homicidios_hechos["Comuna"].unique()

array([ 8,  9,  1, 11, 15,  4,  7, 12,  3, 13, 14, 10,  6,  2,  5],
      dtype=int64)

In [47]:
#Agrego la palabra Comuna delante del dato numérico
#se aplica la función lambda a cada fila del dataframe 
homicidios_hechos["Comuna"] = homicidios_hechos.apply(lambda x: "Comuna "+str(x["Comuna"]), axis=1)


In [48]:
homicidios_hechos["Comuna"].unique()

array(['Comuna 8', 'Comuna 9', 'Comuna 1', 'Comuna 11', 'Comuna 15',
       'Comuna 4', 'Comuna 7', 'Comuna 12', 'Comuna 3', 'Comuna 13',
       'Comuna 14', 'Comuna 10', 'Comuna 6', 'Comuna 2', 'Comuna 5'],
      dtype=object)

Se realiza un resumen descriptivo de los datos en `homicidios-hechos`

In [49]:
dfSummary(homicidios_hechos)

No,Variable,Stats / Values,Freqs / (% of Valid),Graph,Missing
1,Id [object],1. 2016-0001 2. 2019-0051 3. 2019-0043 4. 2019-0044 5. 2019-0045 6. 2019-0046 7. 2019-0047 8. 2019-0048 9. 2019-0049 10. 2019-0050 11. other,1 (0.1%) 1 (0.1%) 1 (0.1%) 1 (0.1%) 1 (0.1%) 1 (0.1%) 1 (0.1%) 1 (0.1%) 1 (0.1%) 1 (0.1%) 672 (98.5%),,0 (0.0%)
2,Num víctimas [int64],Mean (sd) : 1.0 (0.2) min < med < max: 1.0 < 1.0 < 3.0 IQR (CV) : 0.0 (5.8),3 distinct values,,0 (0.0%)
3,Fecha [datetime64[ns]],"Min: 2016-01-01 Max: 2021-12-30 Duration: 2,190 days",589 distinct values,,0 (0.0%)
4,Año [int64],Mean (sd) : 2018.2 (1.7) min < med < max: 2016.0 < 2018.0 < 2021.0 IQR (CV) : 3.0 (1201.6),6 distinct values,,0 (0.0%)
5,Mes [int64],Mean (sd) : 6.7 (3.6) min < med < max: 1.0 < 7.0 < 12.0 IQR (CV) : 6.0 (1.9),12 distinct values,,0 (0.0%)
6,Día [int64],Mean (sd) : 15.9 (8.6) min < med < max: 1.0 < 16.0 < 31.0 IQR (CV) : 14.0 (1.8),31 distinct values,,0 (0.0%)
7,Hora completa [object],1. 16:00:00 2. 14:00:00 3. 12:30:00 4. 21:00:00 5. 09:00:00 6. 08:00:00 7. 05:30:00 8. 05:00:00 9. 23:00:00 10. 03:30:00 11. other,10 (1.5%) 10 (1.5%) 10 (1.5%) 10 (1.5%) 9 (1.3%) 9 (1.3%) 8 (1.2%) 8 (1.2%) 8 (1.2%) 8 (1.2%) 592 (86.8%),,1 (0.1%)
8,Hora [Int64],Mean (sd) : 11.7 (6.7) min < med < max: 0.0 < 11.0 < 23.0 IQR (CV) : 11.0 (1.8),24 distinct values,,1 (0.1%)
9,Lugar del hecho [object],"1. AV 27 DE FEBRERO Y AV ESCALADA 2. AV AMANCIO ALCORTA Y BONAVENA 3. AV LA PLATA Y CNEL GREGORIO PO 4. Rivadavia Av. y Pedernera 5. SAN PEDRITO AV. Y DIRECTORIO A 6. PAZ, GRAL. AV. Y DEL LIBERTADO 7. Nazca Av. y Rivadavia Av. 8. AV. INDEPENDENCIA Y VIRREY CEV 9. CASTILLO, RAMON S., PRES. AV. 10. CORDOBA AV. Y MADERO, EDUARDO 11. other",4 (0.6%) 2 (0.3%) 2 (0.3%) 2 (0.3%) 2 (0.3%) 2 (0.3%) 2 (0.3%) 2 (0.3%) 2 (0.3%) 2 (0.3%) 660 (96.8%),,0 (0.0%)
10,Tipo de calle [object],1. AVENIDA 2. CALLE 3. GRAL PAZ 4. AUTOPISTA,429 (62.9%) 134 (19.6%) 64 (9.4%) 55 (8.1%),,0 (0.0%)


## Tratamiento de los datos del dataset `homicidios- víctimas`

In [50]:
homicidios_victimas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 717 entries, 0 to 716
Data columns (total 10 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   ID_hecho             717 non-null    object        
 1   FECHA                717 non-null    datetime64[ns]
 2   AAAA                 717 non-null    int64         
 3   MM                   717 non-null    int64         
 4   DD                   717 non-null    int64         
 5   ROL                  717 non-null    object        
 6   VICTIMA              717 non-null    object        
 7   SEXO                 717 non-null    object        
 8   EDAD                 717 non-null    object        
 9   FECHA_FALLECIMIENTO  717 non-null    object        
dtypes: datetime64[ns](1), int64(3), object(6)
memory usage: 56.1+ KB


### Transformación de los datos

Conversión del tipo de dato

In [51]:
#Cambio la columna a tipo datetime
homicidios_victimas["FECHA_FALLECIMIENTO"] = pd.to_datetime(homicidios_victimas["FECHA_FALLECIMIENTO"], format='%Y-%m-%d', errors='coerce')

In [54]:
#Una vez que se paso el tipo de dato a datetime que es una fecha y hora completa se utiliza este codigo para que solo se quede en formato fecha sin hora
homicidios_victimas["FECHA_FALLECIMIENTO"] = homicidios_victimas["FECHA_FALLECIMIENTO"].dt.date

#Luego se reemplazan las fechas en cero con espacios vacios a fin de su manipulación
homicidios_victimas["FECHA_FALLECIMIENTO"] = homicidios_victimas ["FECHA_FALLECIMIENTO"].replace(pd.NaT,"")

In [55]:
#Cambio la columna edad a numerico y luego a tipo entero
homicidios_victimas ["EDAD"] = pd.to_numeric(homicidios_victimas["EDAD"], errors="coerce")
homicidios_victimas ["EDAD"] = homicidios_victimas["EDAD"].astype("Int64")

In [56]:
#Utilizo Numpy para reemplazar por NaN los sin datos o vacios y luego paso a float para que cuando quiera aplicar estadisticas no tenga errores debido a esos datos
homicidios_victimas["EDAD"] = homicidios_victimas["EDAD"].replace([" ","SD"], np.nan)

In [57]:
homicidios_victimas["EDAD"] = homicidios_victimas["EDAD"].fillna(0.0)

In [58]:
#Controlo los datos de la columna
homicidios_victimas ["EDAD"].unique()

<IntegerArray>
[19, 70, 30, 18, 29, 22, 16, 59, 65, 34, 41, 50, 38, 21, 52, 36, 20, 54,  0,
 56, 24, 78, 79, 26, 57, 37, 58, 23, 60, 42, 53, 51, 40, 87, 76, 75, 35, 80,
 43, 45, 67, 27, 55, 49, 81, 25, 33, 46, 83, 39, 28,  7, 48,  4, 82, 32, 17,
 47, 61, 10, 95, 73, 84, 66, 85,  1, 15, 13, 77, 44, 31, 62, 74, 71, 11, 86,
 69, 72, 12, 63, 92, 68, 91, 64,  5, 88]
Length: 86, dtype: Int64

In [59]:
homicidios_victimas.head(3)

Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO
0,2016-0001,2016-01-01,2016,1,1,CONDUCTOR,MOTO,MASCULINO,19,2016-01-01
1,2016-0002,2016-01-02,2016,1,2,CONDUCTOR,AUTO,MASCULINO,70,2016-01-02
2,2016-0003,2016-01-03,2016,1,3,CONDUCTOR,MOTO,MASCULINO,30,2016-01-03


In [60]:
homicidios_victimas.isnull().sum()

ID_hecho               0
FECHA                  0
AAAA                   0
MM                     0
DD                     0
ROL                    0
VICTIMA                0
SEXO                   0
EDAD                   0
FECHA_FALLECIMIENTO    0
dtype: int64

No se encuentran datos nulos, ni campos vacios

Se crea la columna `Rango etario` basada en la columna `Edad`, para mejorar el análisis de los datos 

In [61]:

# Se utiliza la función `pd.cut()`, que permite agrupar valores numéricos en intervalos o categorías


# Definir los límites de los rangos etarios y las etiquetas
bins = [0, 20, 40, 60, 80, 100]
labels = ['Menos de 20', ' Entre 21- 40', 'Entre 41-60', 'Entre 61-80', 'Más de 80']

# Utilizar pd.cut() para crear la columna de rango etario
homicidios_victimas['Rango_etario'] = pd.cut(homicidios_victimas['EDAD'], bins=bins, labels=labels, right=False)

homicidios_victimas.head(3)


Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO,Rango_etario
0,2016-0001,2016-01-01,2016,1,1,CONDUCTOR,MOTO,MASCULINO,19,2016-01-01,Menos de 20
1,2016-0002,2016-01-02,2016,1,2,CONDUCTOR,AUTO,MASCULINO,70,2016-01-02,Entre 61-80
2,2016-0003,2016-01-03,2016,1,3,CONDUCTOR,MOTO,MASCULINO,30,2016-01-03,Entre 21- 40


A continuación se estandarizan las mayúsculas y minúsculas del dataset

In [62]:
# Se coloca la primera en mayúscula
homicidios_victimas.columns = [x.capitalize() for x in homicidios_victimas.columns]
# Se reemplazan los guiones por espacios
homicidios_victimas.columns = homicidios_victimas.columns.str.replace('_', ' ')
# Se renombran algunas columnas
homicidios_victimas = homicidios_victimas.rename(columns={'Id hecho': 'Id',
                                                      'Aaaa':'Año',
                                                      'Mm':'Mes',
                                                      'Dd':'Día',
                                                      'Victima':'Víctima'})
homicidios_victimas.columns

Index(['Id', 'Fecha', 'Año', 'Mes', 'Día', 'Rol', 'Víctima', 'Sexo', 'Edad',
       'Fecha fallecimiento', 'Rango etario'],
      dtype='object')

A partir de los datos, se analiza eliminar columnas que se repiten en ambos dataset para realizar luego la unión y trabajar con un conjunto de datos.
Se proceden a eliminar del dataset `homicidios_victimas` las columnas `Fecha`, `Año`, `Mes`, `Día` y `Victima` que contienen la misma información que se encuentra en `homicidios_hechos`. 

In [63]:
#Se busca un registro para comparar con el mismo registro en el otro dataset
homicidios_hechos[homicidios_hechos["Id"]=="2019-0012"]

Unnamed: 0,Id,Num víctimas,Fecha,Año,Mes,Día,Hora completa,Hora,Lugar del hecho,Tipo de calle,...,Xy (caba),Pos x,Pos y,Participantes,Victima,Acusado,Coordenada x,Coordenada y,Barrios,Día semana
418,2019-0012,1,2019-02-17,2019,2,17,03:16:00,3,"CASTAÑARES AV. Y GORDILLO, TIMOTEO",AVENIDA,...,Point (98072.98959434 94742.80804806),-58.484327,-34.676658,MOTO-AUTO,MOTO,AUTO,98072.989594,94742.808048,VILLA LUGANO - VILLA RIACHUELO - VILLA SOLDATI,Domingo


In [64]:
homicidios_victimas[homicidios_victimas["Id"]=="2019-0012"]

Unnamed: 0,Id,Fecha,Año,Mes,Día,Rol,Víctima,Sexo,Edad,Fecha fallecimiento,Rango etario
447,2019-0012,2019-02-17,2019,2,17,CONDUCTOR,MOTO,MASCULINO,31,2019-02-20,Entre 21- 40


Se realiza un resumen descriptivo de los datos en `homicidios-victimas`

In [65]:
dfSummary(homicidios_victimas)

No,Variable,Stats / Values,Freqs / (% of Valid),Graph,Missing
1,Id [object],1. 2017-0035 2. 2017-0050 3. 2016-0041 4. 2018-0015 5. 2020-0063 6. 2017-0126 7. 2019-0010 8. 2017-0026 9. 2017-0112 10. 2018-0098 11. other,3 (0.4%) 2 (0.3%) 2 (0.3%) 2 (0.3%) 2 (0.3%) 2 (0.3%) 2 (0.3%) 2 (0.3%) 2 (0.3%) 2 (0.3%) 696 (97.1%),,0 (0.0%)
2,Fecha [datetime64[ns]],"Min: 2016-01-01 Max: 2021-12-30 Duration: 2,190 days",598 distinct values,,0 (0.0%)
3,Año [int64],Mean (sd) : 2018.2 (1.7) min < med < max: 2016.0 < 2018.0 < 2021.0 IQR (CV) : 2.0 (1206.6),6 distinct values,,0 (0.0%)
4,Mes [int64],Mean (sd) : 6.7 (3.6) min < med < max: 1.0 < 7.0 < 12.0 IQR (CV) : 6.0 (1.9),12 distinct values,,0 (0.0%)
5,Día [int64],Mean (sd) : 16.0 (8.7) min < med < max: 1.0 < 16.0 < 31.0 IQR (CV) : 14.0 (1.8),31 distinct values,,0 (0.0%)
6,Rol [object],1. CONDUCTOR 2. PEATON 3. PASAJERO_ACOMPAÑANTE 4. CICLISTA 5. SD,330 (46.0%) 267 (37.2%) 80 (11.2%) 29 (4.0%) 11 (1.5%),,0 (0.0%)
7,Víctima [object],1. MOTO 2. PEATON 3. AUTO 4. BICICLETA 5. SD 6. CARGAS 7. PASAJEROS 8. MOVIL,303 (42.3%) 267 (37.2%) 94 (13.1%) 29 (4.0%) 9 (1.3%) 7 (1.0%) 5 (0.7%) 3 (0.4%),,0 (0.0%)
8,Sexo [object],1. MASCULINO 2. FEMENINO 3. SD,545 (76.0%) 166 (23.2%) 6 (0.8%),,0 (0.0%)
9,Edad [Int64],Mean (sd) : 39.1 (22.0) min < med < max: 0.0 < 35.0 < 95.0 IQR (CV) : 31.0 (1.8),86 distinct values,,0 (0.0%)
10,Fecha fallecimiento [object],1. 2. 2018-04-27 3. 2018-08-03 4. 2020-12-25 5. 2017-11-19 6. 2019-12-18 7. 2017-01-16 8. 2017-02-26 9. 2017-03-23 10. 2020-12-20 11. other,69 (9.6%) 3 (0.4%) 3 (0.4%) 3 (0.4%) 3 (0.4%) 3 (0.4%) 3 (0.4%) 3 (0.4%) 3 (0.4%) 3 (0.4%) 621 (86.6%),,0 (0.0%)


In [66]:
# Se eliminan las columnas repetidas
homicidios_victimas = homicidios_victimas.drop(['Fecha', 'Año', 'Mes', 'Día', 'Víctima'], axis=1)
homicidios_victimas.columns

Index(['Id', 'Rol', 'Sexo', 'Edad', 'Fecha fallecimiento', 'Rango etario'], dtype='object')

## Unificación de los dataset

Por medio de la función merge se unifican los dataset transformados anteriormente

In [67]:
siniestros= homicidios_victimas.merge(homicidios_hechos, on="Id", how="left")
siniestros.columns

Index(['Id', 'Rol', 'Sexo', 'Edad', 'Fecha fallecimiento', 'Rango etario',
       'Num víctimas', 'Fecha', 'Año', 'Mes', 'Día', 'Hora completa', 'Hora',
       'Lugar del hecho', 'Tipo de calle', 'Calle', 'Cruce',
       'Dirección normalizada', 'Comuna', 'Xy (caba)', 'Pos x', 'Pos y',
       'Participantes', 'Victima', 'Acusado', 'Coordenada x', 'Coordenada y',
       'Barrios', 'Día semana'],
      dtype='object')

In [68]:
siniestros.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 717 entries, 0 to 716
Data columns (total 29 columns):
 #   Column                 Non-Null Count  Dtype         
---  ------                 --------------  -----         
 0   Id                     717 non-null    object        
 1   Rol                    717 non-null    object        
 2   Sexo                   717 non-null    object        
 3   Edad                   717 non-null    Int64         
 4   Fecha fallecimiento    717 non-null    object        
 5   Rango etario           717 non-null    category      
 6   Num víctimas           702 non-null    float64       
 7   Fecha                  702 non-null    datetime64[ns]
 8   Año                    702 non-null    float64       
 9   Mes                    702 non-null    float64       
 10  Día                    702 non-null    float64       
 11  Hora completa          701 non-null    object        
 12  Hora                   701 non-null    Int64         
 13  Lugar

Al unificar los dataset se encontraron datos cambiados a tipo float que son necesarios como enteros, por lo que se transforman

In [69]:
siniestros["Num víctimas"].unique()

array([ 1.,  2., nan,  3.])

In [70]:
siniestros ["Num víctimas"] = siniestros ["Num víctimas"].fillna(0.0)
siniestros ["Num víctimas"] = siniestros ["Num víctimas"].astype ("Int64")

In [71]:
siniestros["Num víctimas"].unique()

<IntegerArray>
[1, 2, 0, 3]
Length: 4, dtype: Int64

In [72]:
siniestros["Año"].unique()

array([2016.,   nan, 2017., 2018., 2019., 2020., 2021.])

In [73]:
siniestros ["Año"]= siniestros ["Año"].astype ("Int64")
siniestros["Año"].unique()

<IntegerArray>
[2016, <NA>, 2017, 2018, 2019, 2020, 2021]
Length: 7, dtype: Int64

In [74]:
siniestros ["Mes"]= siniestros ["Mes"].astype ("Int64")
siniestros["Mes"].unique()

<IntegerArray>
[1, 2, 3, 4, <NA>, 5, 6, 7, 8, 9, 10, 11, 12]
Length: 13, dtype: Int64

In [75]:
siniestros ["Día"]= siniestros ["Día"].astype ("Int64")
siniestros["Día"].unique()

<IntegerArray>
[   1,    2,    3,   10,   21,   24,   29,    8,   14,   15,   17,   28,    4,
   12,   13,   19,   23,   30,   31,   11, <NA>,   20,   22,   25,   26,   16,
   18,   27,    7,    9,    5,    6]
Length: 32, dtype: Int64

In [76]:
siniestros.head(3)

Unnamed: 0,Id,Rol,Sexo,Edad,Fecha fallecimiento,Rango etario,Num víctimas,Fecha,Año,Mes,...,Xy (caba),Pos x,Pos y,Participantes,Victima,Acusado,Coordenada x,Coordenada y,Barrios,Día semana
0,2016-0001,CONDUCTOR,MASCULINO,19,2016-01-01,Menos de 20,1,2016-01-01,2016,1,...,Point (98896.78238426 93532.43437792),-58.47534,-34.68757,MOTO-AUTO,MOTO,AUTO,98896.782384,93532.434378,VILLA LUGANO - VILLA RIACHUELO - VILLA SOLDATI,Viernes
1,2016-0002,CONDUCTOR,MASCULINO,70,2016-01-02,Entre 61-80,1,2016-01-02,2016,1,...,Point (95832.05571093 95505.41641999),-58.508775,-34.669777,AUTO-PASAJEROS,AUTO,PASAJEROS,95832.055711,95505.41642,LINIERS - MATADEROS - PARQUE AVELLANEDA,Sabado
2,2016-0003,CONDUCTOR,MASCULINO,30,2016-01-03,Entre 21- 40,1,2016-01-03,2016,1,...,Point (106684.29090040 99706.57687843),-58.390403,-34.631894,MOTO-AUTO,MOTO,AUTO,106684.2909,99706.576878,CONSTITUCION - MONTSERRAT - PUERTO MADERO - RE...,Domingo


Se realiza un resumen descriptivo de los datos de `siniestros` 

In [77]:
siniestros.describe()

Unnamed: 0,Edad,Num víctimas,Fecha,Año,Mes,Día,Hora,Pos x,Pos y,Coordenada x,Coordenada y
count,717.0,717.0,702,702.0,702.0,702.0,701.0,702.0,702.0,702.0,702.0
mean,39.050209,1.037657,2018-09-15 17:48:43.076922880,2018.192308,6.693732,15.92735,11.573466,-58.44171,-34.619609,101980.113004,101070.596233
min,0.0,0.0,2016-01-01 00:00:00,2016.0,1.0,1.0,0.0,-58.529942,-34.70525,93889.867899,91571.233073
25%,24.0,1.0,2017-04-05 18:00:00,2017.0,3.25,9.0,6.0,-58.476995,-34.643801,98744.378735,98387.965943
50%,35.0,1.0,2018-07-14 12:00:00,2018.0,7.0,16.0,11.0,-58.444513,-34.622835,101721.590022,100711.696729
75%,55.0,1.0,2019-12-20 06:00:00,2019.0,10.0,23.0,17.0,-58.401892,-34.596969,105630.884244,103582.742374
max,95.0,3.0,2021-12-30 00:00:00,2021.0,12.0,31.0,23.0,-58.356082,-34.534654,109831.098614,110496.053085
std,22.010669,0.294226,,1.669154,3.584551,8.657478,6.667562,0.046383,0.035291,4253.717694,3914.938863


In [78]:
dfSummary(siniestros)

No,Variable,Stats / Values,Freqs / (% of Valid),Graph,Missing
1,Id [object],1. 2017-0035 2. 2017-0050 3. 2016-0041 4. 2018-0015 5. 2020-0063 6. 2017-0126 7. 2019-0010 8. 2017-0026 9. 2017-0112 10. 2018-0098 11. other,3 (0.4%) 2 (0.3%) 2 (0.3%) 2 (0.3%) 2 (0.3%) 2 (0.3%) 2 (0.3%) 2 (0.3%) 2 (0.3%) 2 (0.3%) 696 (97.1%),,0 (0.0%)
2,Rol [object],1. CONDUCTOR 2. PEATON 3. PASAJERO_ACOMPAÑANTE 4. CICLISTA 5. SD,330 (46.0%) 267 (37.2%) 80 (11.2%) 29 (4.0%) 11 (1.5%),,0 (0.0%)
3,Sexo [object],1. MASCULINO 2. FEMENINO 3. SD,545 (76.0%) 166 (23.2%) 6 (0.8%),,0 (0.0%)
4,Edad [Int64],Mean (sd) : 39.1 (22.0) min < med < max: 0.0 < 35.0 < 95.0 IQR (CV) : 31.0 (1.8),86 distinct values,,0 (0.0%)
5,Fecha fallecimiento [object],1. 2. 2018-04-27 3. 2018-08-03 4. 2020-12-25 5. 2017-11-19 6. 2019-12-18 7. 2017-01-16 8. 2017-02-26 9. 2017-03-23 10. 2020-12-20 11. other,69 (9.6%) 3 (0.4%) 3 (0.4%) 3 (0.4%) 3 (0.4%) 3 (0.4%) 3 (0.4%) 3 (0.4%) 3 (0.4%) 3 (0.4%) 621 (86.6%),,0 (0.0%)
6,Rango etario [category],1. Entre 21- 40 2. Entre 41-60 3. Entre 61-80 4. Menos de 20 5. Más de 80,327 (45.6%) 158 (22.0%) 99 (13.8%) 93 (13.0%) 40 (5.6%),,0 (0.0%)
7,Num víctimas [Int64],Mean (sd) : 1.0 (0.3) min < med < max: 0.0 < 1.0 < 3.0 IQR (CV) : 0.0 (3.5),4 distinct values,,0 (0.0%)
8,Fecha [datetime64[ns]],"Min: 2016-01-01 Max: 2021-12-30 Duration: 2,190 days",589 distinct values,,15 (2.1%)
9,Año [Int64],Mean (sd) : 2018.2 (1.7) min < med < max: 2016.0 < 2018.0 < 2021.0 IQR (CV) : 2.0 (1209.1),6 distinct values,,15 (2.1%)
10,Mes [Int64],Mean (sd) : 6.7 (3.6) min < med < max: 1.0 < 7.0 < 12.0 IQR (CV) : 6.8 (1.9),12 distinct values,,15 (2.1%)


Antes de realizar en EDA propiamiente dicho se ordenan las columnas

In [79]:
#Creo una lista con el orden 
nuevo_orden=["Id", "Fecha", "Año", "Mes", "Día","Día semana", "Hora completa", "Hora", "Num víctimas", "Participantes", "Rol", "Acusado", "Victima", "Sexo", "Edad", "Rango etario", "Fecha fallecimiento", "Lugar del hecho", "Tipo de calle", "Calle", "Cruce", "Dirección normalizada", "Comuna", "Barrios", "Xy (caba)", "Coordenada x", "Coordenada y", "Pos x", "Pos y"]

#Reorganizo el dataframe untilizando la lista y asignandola nuevamente aldataframe siniestros
siniestros_limpio = siniestros[nuevo_orden]
siniestros_limpio.columns



Index(['Id', 'Fecha', 'Año', 'Mes', 'Día', 'Día semana', 'Hora completa',
       'Hora', 'Num víctimas', 'Participantes', 'Rol', 'Acusado', 'Victima',
       'Sexo', 'Edad', 'Rango etario', 'Fecha fallecimiento',
       'Lugar del hecho', 'Tipo de calle', 'Calle', 'Cruce',
       'Dirección normalizada', 'Comuna', 'Barrios', 'Xy (caba)',
       'Coordenada x', 'Coordenada y', 'Pos x', 'Pos y'],
      dtype='object')

In [80]:
siniestros_limpio.head(3)

Unnamed: 0,Id,Fecha,Año,Mes,Día,Día semana,Hora completa,Hora,Num víctimas,Participantes,...,Calle,Cruce,Dirección normalizada,Comuna,Barrios,Xy (caba),Coordenada x,Coordenada y,Pos x,Pos y
0,2016-0001,2016-01-01,2016,1,1,Viernes,04:00:00,4,1,MOTO-AUTO,...,PIEDRA BUENA AV.,"FERNANDEZ DE LA CRUZ, F., GRAL. AV.","PIEDRA BUENA AV. y FERNANDEZ DE LA CRUZ, F., G...",Comuna 8,VILLA LUGANO - VILLA RIACHUELO - VILLA SOLDATI,Point (98896.78238426 93532.43437792),98896.782384,93532.434378,-58.47534,-34.68757
1,2016-0002,2016-01-02,2016,1,2,Sabado,01:15:00,1,1,AUTO-PASAJEROS,...,"PAZ, GRAL. AV.",DE LOS CORRALES AV.,"PAZ, GRAL. AV. y DE LOS CORRALES AV.",Comuna 9,LINIERS - MATADEROS - PARQUE AVELLANEDA,Point (95832.05571093 95505.41641999),95832.055711,95505.41642,-58.508775,-34.669777
2,2016-0003,2016-01-03,2016,1,3,Domingo,07:00:00,7,1,MOTO-AUTO,...,ENTRE RIOS AV.,,ENTRE RIOS AV. 2034,Comuna 1,CONSTITUCION - MONTSERRAT - PUERTO MADERO - RE...,Point (106684.29090040 99706.57687843),106684.2909,99706.576878,-58.390403,-34.631894


In [81]:
siniestros_limpio.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 717 entries, 0 to 716
Data columns (total 29 columns):
 #   Column                 Non-Null Count  Dtype         
---  ------                 --------------  -----         
 0   Id                     717 non-null    object        
 1   Fecha                  702 non-null    datetime64[ns]
 2   Año                    702 non-null    Int64         
 3   Mes                    702 non-null    Int64         
 4   Día                    702 non-null    Int64         
 5   Día semana             702 non-null    object        
 6   Hora completa          701 non-null    object        
 7   Hora                   701 non-null    Int64         
 8   Num víctimas           717 non-null    Int64         
 9   Participantes          702 non-null    object        
 10  Rol                    717 non-null    object        
 11  Acusado                683 non-null    object        
 12  Victima                695 non-null    object        
 13  Sexo 

In [82]:
siniestros_limpio["Fecha"]=siniestros_limpio["Fecha"].dt.date

In [83]:
siniestros_limpio.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 717 entries, 0 to 716
Data columns (total 29 columns):
 #   Column                 Non-Null Count  Dtype   
---  ------                 --------------  -----   
 0   Id                     717 non-null    object  
 1   Fecha                  702 non-null    object  
 2   Año                    702 non-null    Int64   
 3   Mes                    702 non-null    Int64   
 4   Día                    702 non-null    Int64   
 5   Día semana             702 non-null    object  
 6   Hora completa          701 non-null    object  
 7   Hora                   701 non-null    Int64   
 8   Num víctimas           717 non-null    Int64   
 9   Participantes          702 non-null    object  
 10  Rol                    717 non-null    object  
 11  Acusado                683 non-null    object  
 12  Victima                695 non-null    object  
 13  Sexo                   717 non-null    object  
 14  Edad                   717 non-null    Int

In [84]:
dfSummary(siniestros_limpio, is_collapsible=True)

No,Variable,Stats / Values,Freqs / (% of Valid),Graph,Missing
1,Id [object],1. 2017-0035 2. 2017-0050 3. 2016-0041 4. 2018-0015 5. 2020-0063 6. 2017-0126 7. 2019-0010 8. 2017-0026 9. 2017-0112 10. 2018-0098 11. other,3 (0.4%) 2 (0.3%) 2 (0.3%) 2 (0.3%) 2 (0.3%) 2 (0.3%) 2 (0.3%) 2 (0.3%) 2 (0.3%) 2 (0.3%) 696 (97.1%),,0 (0.0%)
2,Fecha [object],1. NaT 2. 2020-12-05 3. 2017-03-23 4. 2018-12-18 5. 2018-12-12 6. 2020-12-25 7. 2017-12-11 8. 2016-11-26 9. 2016-02-28 10. 2016-02-17 11. other,15 (2.1%) 3 (0.4%) 3 (0.4%) 3 (0.4%) 3 (0.4%) 3 (0.4%) 3 (0.4%) 3 (0.4%) 3 (0.4%) 3 (0.4%) 675 (94.1%),,15 (2.1%)
3,Año [Int64],Mean (sd) : 2018.2 (1.7) min < med < max: 2016.0 < 2018.0 < 2021.0 IQR (CV) : 2.0 (1209.1),6 distinct values,,15 (2.1%)
4,Mes [Int64],Mean (sd) : 6.7 (3.6) min < med < max: 1.0 < 7.0 < 12.0 IQR (CV) : 6.8 (1.9),12 distinct values,,15 (2.1%)
5,Día [Int64],Mean (sd) : 15.9 (8.7) min < med < max: 1.0 < 16.0 < 31.0 IQR (CV) : 14.0 (1.8),31 distinct values,,15 (2.1%)
6,Día semana [object],1. Sabado 2. Lunes 3. Domingo 4. Viernes 5. Miercoles 6. Martes 7. Jueves 8. nan,106 (14.8%) 103 (14.4%) 102 (14.2%) 99 (13.8%) 98 (13.7%) 98 (13.7%) 96 (13.4%) 15 (2.1%),,15 (2.1%)
7,Hora completa [object],1. nan 2. 05:00:00 3. 16:00:00 4. 12:30:00 5. 21:00:00 6. 14:00:00 7. 11:00:00 8. 09:00:00 9. 08:00:00 10. 05:30:00 11. other,16 (2.2%) 11 (1.5%) 10 (1.4%) 10 (1.4%) 10 (1.4%) 10 (1.4%) 9 (1.3%) 9 (1.3%) 9 (1.3%) 8 (1.1%) 615 (85.8%),,16 (2.2%)
8,Hora [Int64],Mean (sd) : 11.6 (6.7) min < med < max: 0.0 < 11.0 < 23.0 IQR (CV) : 11.0 (1.7),24 distinct values,,16 (2.2%)
9,Num víctimas [Int64],Mean (sd) : 1.0 (0.3) min < med < max: 0.0 < 1.0 < 3.0 IQR (CV) : 0.0 (3.5),4 distinct values,,0 (0.0%)
10,Participantes [object],1. PEATON-PASAJEROS 2. MOTO-AUTO 3. PEATON-AUTO 4. MOTO-CARGAS 5. MOTO-PASAJEROS 6. MOTO-OBJETO FIJO 7. PEATON-CARGAS 8. AUTO-AUTO 9. PEATON-MOTO 10. AUTO-OBJETO FIJO 11. other,105 (14.6%) 84 (11.7%) 78 (10.9%) 74 (10.3%) 49 (6.8%) 39 (5.4%) 37 (5.2%) 32 (4.5%) 30 (4.2%) 28 (3.9%) 161 (22.5%),,15 (2.1%)


## Exportar CSV Limpio
Se guarda el archivo como csv para optimizar su manipulación

In [67]:
siniestros_limpio.to_csv("data/siniestos_limpio.csv", index=False)

In [86]:
siniestros_limpio.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 717 entries, 0 to 716
Data columns (total 29 columns):
 #   Column                 Non-Null Count  Dtype   
---  ------                 --------------  -----   
 0   Id                     717 non-null    object  
 1   Fecha                  702 non-null    object  
 2   Año                    702 non-null    Int64   
 3   Mes                    702 non-null    Int64   
 4   Día                    702 non-null    Int64   
 5   Día semana             702 non-null    object  
 6   Hora completa          701 non-null    object  
 7   Hora                   701 non-null    Int64   
 8   Num víctimas           717 non-null    Int64   
 9   Participantes          702 non-null    object  
 10  Rol                    717 non-null    object  
 11  Acusado                683 non-null    object  
 12  Victima                695 non-null    object  
 13  Sexo                   717 non-null    object  
 14  Edad                   717 non-null    Int

## Conectarse desde Clever Cloud a SQL

In [85]:
# Reemplaza 'nombre_de_usuario', 'contraseña', 'nombre_de_base_de_datos' con tus propios valores
nombre_de_usuario = 'u4f4otqetsyqgwbk'
contraseña = 'ni92t8kuAE5uK37JkdTM'
nombre_de_base_de_datos = 'bjxjaprxrl2bg5tyhzy6'
host = 'bjxjaprxrl2bg5tyhzy6-mysql.services.clever-cloud.com'

# Crear la conexión a la base de datos utilizando mysql-connector-python
engine = sqlalchemy.create_engine(f'mysql+mysqlconnector://{nombre_de_usuario}:{contraseña}@{host}/{nombre_de_base_de_datos}')

# Imprimir mensaje si la conexión es exitosa
try:
    connection = engine.connect()
    print("Conexión con la base de datos MySQL exitosa.")
except Exception as e:
    print(f"Error al conectar con la base de datos MySQL: {e}")

# Exportar el DataFrame a la tabla 'Homicidios'
siniestros_limpio.to_sql('siniestros_limpio', engine, if_exists='replace',index=False)

Conexión con la base de datos MySQL exitosa.


717