# 🚀 `Análisis de Siniestros` (KPIs)

En este notebook se realiza el análisis de los siniestros viales de la Ciudad Autónoma de Buenos Aires, con el fin de generar información que le permita a las autoridades locales tomar medidas para disminuir la cantidad de víctimas fatales de los siniestros viales. Para ello, se proporcionó un conjunto de datos en formato .xlsx, el cuál se describe en el documento `Diccionario_de_Datos` y al cuál se le realizó la correspondiente limpieza y Análisis Exploratorio de Datos que se puede consultar en el documento `EDA`. 

#### 📥Importaciones 

In [79]:
import pandas as pd
import numpy as np

#### 📦 Extracción de los datos y primera exploración

Se extraen los datos del archivo csv y se convierte en Dataframe.

In [80]:
df_homicidios = pd.read_csv('Datasets/Archivos_PBI/homicidios_limpio.csv')
df_homicidios

Unnamed: 0,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO,N_VICTIMAS,FECHA_SINIESTRO,HORA_SINIESTRO,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,COMUNA,pos x,pos y,PARTICIPANTES,ACUSADO,ID,Year,Rango_Edad
0,Conductor,Moto,Masculino,19,2016-01-01 00:00:00,1,2016-01-01,04:00:00,4,Av Piedra Buena Y Av Fernandez De La Cruz,Avenida,8,-58.47533969,-34.68757022,Moto-Auto,Auto,1,2016,1-20
1,Conductor,Auto,Masculino,70,2016-01-02 00:00:00,1,2016-01-02,01:15:00,1,Av Gral Paz Y Av De Los Corrales,Gral Paz,9,-58.50877521,-34.66977709,Auto-Pasajeros,Pasajeros,2,2016,61-90
2,Conductor,Moto,Masculino,30,2016-01-03 00:00:00,1,2016-01-03,07:00:00,7,Av Entre Rios 2034,Avenida,1,-58.39040293,-34.63189362,Moto-Auto,Auto,3,2016,21-40
3,Conductor,Moto,Masculino,29,2016-02-01 00:00:00,1,2016-01-21,05:20:00,5,Av San Juan Y Presidente Luis Saenz Peña,Avenida,1,-58.38718297,-34.62246630,Moto-Pasajeros,Pasajeros,4,2016,21-40
4,Conductor,Moto,Masculino,30,2016-01-24 00:00:00,1,2016-01-24,18:30:00,18,Av 27 De Febrero Y Av Escalada,Avenida,8,-58.44451316,-34.68475866,Moto-Objeto Fijo,Objeto Fijo,5,2016,21-40
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
685,Peaton,Peaton,Femenino,50,2021-12-12 00:00:00,1,2021-12-12,06:20:00,6,Av. Rivadavia Y Av. Pueyrredon,Avenida,3,-58.40596860,-34.61011987,Peaton-Auto,Auto,686,2021,41-60
686,Pasajero_Acompañante,Moto,Femenino,18,2021-12-18 00:00:00,1,2021-12-13,17:10:00,17,Av. Riestra Y Mom,Avenida,7,-58.43353773,-34.64561636,Moto-Auto,Auto,687,2021,1-20
687,Pasajero_Acompañante,Moto,Femenino,43,2021-12-20 00:00:00,1,2021-12-20,01:10:00,1,Au Dellepiane Y Lacarra,Autopista,9,-58.46739825,-34.65117757,Moto-Auto,Auto,688,2021,41-60
688,Conductor,Moto,Masculino,27,2022-01-02 00:00:00,1,2021-12-30,00:43:00,0,Av. Gaona Y Terrada,Avenida,11,-58.47293407,-34.61984745,Moto-Cargas,Cargas,689,2021,21-40


#### 🚀 KPI 1: Reducir en un 10% la tasa de homicidios en siniestros viales de los últimos seis meses, en CABA, en comparación con la tasa de homicidios en siniestros viales del semestre anterior.

#### 🚀 KPI 2: Reducir en un 7% la cantidad de accidentes mortales de motociclistas en el último año, en CABA, respecto al año anterior.

Se realiza un codigo que integre las fechas del siniestro en semestres para el informe de rendimiento.

In [81]:
df_homicidios['FECHA_SINIESTRO'] = pd.to_datetime(df_homicidios['FECHA_SINIESTRO'])
df_homicidios['semestre'] = [1 if month <= 6 else 2 for month in df_homicidios['FECHA_SINIESTRO'].dt.month]
df_homicidios.head(2)

Unnamed: 0,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO,N_VICTIMAS,FECHA_SINIESTRO,HORA_SINIESTRO,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,COMUNA,pos x,pos y,PARTICIPANTES,ACUSADO,ID,Year,Rango_Edad,semestre
0,Conductor,Moto,Masculino,19,2016-01-01 00:00:00,1,2016-01-01,04:00:00,4,Av Piedra Buena Y Av Fernandez De La Cruz,Avenida,8,-58.47533969,-34.68757022,Moto-Auto,Auto,1,2016,1-20,1
1,Conductor,Auto,Masculino,70,2016-01-02 00:00:00,1,2016-01-02,01:15:00,1,Av Gral Paz Y Av De Los Corrales,Gral Paz,9,-58.50877521,-34.66977709,Auto-Pasajeros,Pasajeros,2,2016,61-90,1


Se realiza un conteo de nuestros "SinDato" para saber si debemos continuar con el análisis o podemos pasar a la siguiente etapa.

In [82]:
conteo_sd = df_homicidios.apply(lambda x: x.value_counts().get('Sd', 0))
conteo_sd

ROL                    2
VICTIMA                0
SEXO                   2
EDAD                   0
FECHA_FALLECIMIENTO    0
N_VICTIMAS             0
FECHA_SINIESTRO        0
HORA_SINIESTRO         0
HH                     0
LUGAR_DEL_HECHO        0
TIPO_DE_CALLE          0
COMUNA                 0
pos x                  0
pos y                  0
PARTICIPANTES          0
ACUSADO                0
ID                     0
Year                   0
Rango_Edad             0
semestre               0
dtype: int64

Se reorganiza la direccion.

In [83]:
def reorganizar_direcc(address):
    words = address.split()
    if "Av." in words:
        words.remove("Av.")
        words = ["Av."] + words
    return " ".join(words)

df_homicidios['LUGAR_DEL_HECHO'] = df_homicidios['LUGAR_DEL_HECHO'].apply(reorganizar_direcc)

Se elimina la columna "HH" ya que representa el entero de las horas, pero lo redondea a la hora dada sin contemplar un redondeo sobre los minutos. 

In [84]:
df_homicidios = df_homicidios.drop(columns=['HH'])
df_homicidios.head(2)

Unnamed: 0,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO,N_VICTIMAS,FECHA_SINIESTRO,HORA_SINIESTRO,LUGAR_DEL_HECHO,TIPO_DE_CALLE,COMUNA,pos x,pos y,PARTICIPANTES,ACUSADO,ID,Year,Rango_Edad,semestre
0,Conductor,Moto,Masculino,19,2016-01-01 00:00:00,1,2016-01-01,04:00:00,Av Piedra Buena Y Av Fernandez De La Cruz,Avenida,8,-58.47533969,-34.68757022,Moto-Auto,Auto,1,2016,1-20,1
1,Conductor,Auto,Masculino,70,2016-01-02 00:00:00,1,2016-01-02,01:15:00,Av Gral Paz Y Av De Los Corrales,Gral Paz,9,-58.50877521,-34.66977709,Auto-Pasajeros,Pasajeros,2,2016,61-90,1


In [85]:
df_homicidios.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 690 entries, 0 to 689
Data columns (total 19 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   ROL                  690 non-null    object        
 1   VICTIMA              690 non-null    object        
 2   SEXO                 690 non-null    object        
 3   EDAD                 690 non-null    int64         
 4   FECHA_FALLECIMIENTO  690 non-null    object        
 5   N_VICTIMAS           690 non-null    int64         
 6   FECHA_SINIESTRO      690 non-null    datetime64[ns]
 7   HORA_SINIESTRO       690 non-null    object        
 8   LUGAR_DEL_HECHO      690 non-null    object        
 9   TIPO_DE_CALLE        690 non-null    object        
 10  COMUNA               690 non-null    int64         
 11  pos x                690 non-null    object        
 12  pos y                690 non-null    object        
 13  PARTICIPANTES        690 non-null  

Se cambian las columnas 'pos x' y 'pos y' a valores numericos.

In [86]:
# Convierte la columna 'pos x' a valores numéricos
df_homicidios['pos x'] = pd.to_numeric(df_homicidios['pos x'], errors='coerce')

# Convierte la columna 'pos y' a valores numéricos
df_homicidios['pos y'] = pd.to_numeric(df_homicidios['pos y'], errors='coerce')

Se cambia el nombre de la columna 'Year' a 'Anio'.

In [87]:
df_homicidios = df_homicidios.rename(columns={'Year': 'Anio'})
df_homicidios.head(2)

Unnamed: 0,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO,N_VICTIMAS,FECHA_SINIESTRO,HORA_SINIESTRO,LUGAR_DEL_HECHO,TIPO_DE_CALLE,COMUNA,pos x,pos y,PARTICIPANTES,ACUSADO,ID,Anio,Rango_Edad,semestre
0,Conductor,Moto,Masculino,19,2016-01-01 00:00:00,1,2016-01-01,04:00:00,Av Piedra Buena Y Av Fernandez De La Cruz,Avenida,8,-58.47534,-34.68757,Moto-Auto,Auto,1,2016,1-20,1
1,Conductor,Auto,Masculino,70,2016-01-02 00:00:00,1,2016-01-02,01:15:00,Av Gral Paz Y Av De Los Corrales,Gral Paz,9,-58.508775,-34.669777,Auto-Pasajeros,Pasajeros,2,2016,61-90,1


Comienza la búsqueda del KPI numero 1 agrupando las columnas necesarias del ETL.


In [88]:
df_homicidios_sum = df_homicidios.groupby(['Anio', 'semestre'])['N_VICTIMAS'].sum().reset_index()
df_homicidios_sum

Unnamed: 0,Anio,semestre,N_VICTIMAS
0,2016,1,62
1,2016,2,74
2,2017,1,77
3,2017,2,76
4,2018,1,76
5,2018,2,83
6,2019,1,56
7,2019,2,47
8,2020,1,31
9,2020,2,56


Se define la tasa de accidentes por poblacion.

In [89]:
df_poblacion = pd.read_csv('Datasets/poblacionCABA.csv')
df_poblacion.head(2)

Unnamed: 0,Comuna,Poblacion 2010,Crecimiento 2010-2022,Poblacion 2016,Poblacion 2017,Poblacion 2018,Poblacion 2019,Poblacion 2020,Poblacion 2021
0,13,231331,14.64,247686,250522,253391,256292,259227,262195
1,14,225970,10.19,237203,239129,241071,243028,245001,246990


Se eliminan las columnas innecesarias.

In [90]:
def clean_data(df_poblacion):
    df_poblacion = df_poblacion.drop(columns=['Poblacion 2010'])
    df_poblacion = df_poblacion.drop(columns=['Crecimiento 2010-2022'])
    return df_poblacion

df_poblacion = clean_data(df_poblacion.copy())
df_poblacion

Unnamed: 0,Comuna,Poblacion 2016,Poblacion 2017,Poblacion 2018,Poblacion 2019,Poblacion 2020,Poblacion 2021
0,13,247686,250522,253391,256292,259227,262195
1,14,237203,239129,241071,243028,245001,246990
2,12,217446,220476,223550,226666,229825,233028
3,4,224495,225554,226618,227687,228761,229840
4,1,214398,215850,217313,218785,220267,221760
5,7,218707,218395,218083,217772,217461,217151
6,8,195839,197311,198793,200287,201793,203309
7,6,189418,191738,194087,196464,198871,201307
8,11,196538,197678,198825,199979,201139,202306
9,15,190078,191359,192648,193946,195252,196567


Se suman las poblaciones para cada año desde 2016 hasta 2021.

In [91]:
poblacion_sum = df_poblacion[['Poblacion 2016', 'Poblacion 2017', 'Poblacion 2018', 'Poblacion 2019', 'Poblacion 2020', 'Poblacion 2021']].sum()

Se crea un dataframe y se renombras sus columnas.

In [92]:
poblacion_sum_df = poblacion_sum.to_frame().reset_index()
poblacion_sum_df.columns = ['Anio', 'Total Poblacion']
poblacion_sum_df

Unnamed: 0,Anio,Total Poblacion
0,Poblacion 2016,3002178
1,Poblacion 2017,3021444
2,Poblacion 2018,3040889
3,Poblacion 2019,3060508
4,Poblacion 2020,3080306
5,Poblacion 2021,3100282


Se elimina la palabra 'Poblacion'.

In [93]:
poblacion_sum_df['Anio'] = poblacion_sum_df['Anio'].str.replace('Poblacion', '', case=False)
poblacion_sum_df

Unnamed: 0,Anio,Total Poblacion
0,2016,3002178
1,2017,3021444
2,2018,3040889
3,2019,3060508
4,2020,3080306
5,2021,3100282


Se convierte la columna 'Anio' en el DataFrame 'df_homicidios_sum' a tipo de dato entero (int64).

In [94]:
def clean_data(df_homicidios_sum):
    # Cambiamos el tipo de dato de "Anio"
    df_homicidios_sum = df_homicidios_sum.astype({'Anio': 'int64'})
    return df_homicidios_sum

df_homicidios_sum = clean_data(df_homicidios_sum.copy())
df_homicidios_sum

Unnamed: 0,Anio,semestre,N_VICTIMAS
0,2016,1,62
1,2016,2,74
2,2017,1,77
3,2017,2,76
4,2018,1,76
5,2018,2,83
6,2019,1,56
7,2019,2,47
8,2020,1,31
9,2020,2,56


Se convierte la columna 'Anio' en el DataFrame 'poblacion_sum_df' a tipo de dato entero (int64).

In [95]:
def clean_data(df_homicidios_sum):
    # Cambiamos el tipo de dato de Anio
    df_homicidios_sum = df_homicidios_sum.astype({'Anio': 'int64'})
    return df_homicidios_sum

poblacion_sum_df = clean_data(poblacion_sum_df.copy())
poblacion_sum_df.head(2)

Unnamed: 0,Anio,Total Poblacion
0,2016,3002178
1,2017,3021444


Se unen los DataFrames df_homicidios_sum y poblacion_sum_df utilizando la columna 'Anio'.

In [96]:
df_homicidios_victimas = df_homicidios_sum.merge(poblacion_sum_df, on='Anio')
df_homicidios_victimas

Unnamed: 0,Anio,semestre,N_VICTIMAS,Total Poblacion
0,2016,1,62,3002178
1,2016,2,74,3002178
2,2017,1,77,3021444
3,2017,2,76,3021444
4,2018,1,76,3040889
5,2018,2,83,3040889
6,2019,1,56,3060508
7,2019,2,47,3060508
8,2020,1,31,3080306
9,2020,2,56,3080306


### 🚀 Primer KPI

Se calcula la tasa de homicidios por cada 100,000 habitantes y se guarda en la columna 'tasa' del DataFrame df_homicidios_victimas.

In [97]:
df_homicidios_victimas['Tasa'] = (df_homicidios_victimas['N_VICTIMAS'] / df_homicidios_victimas['Total Poblacion']) * 100000
df_homicidios_victimas

Unnamed: 0,Anio,semestre,N_VICTIMAS,Total Poblacion,Tasa
0,2016,1,62,3002178,2.065167
1,2016,2,74,3002178,2.464877
2,2017,1,77,3021444,2.54845
3,2017,2,76,3021444,2.515354
4,2018,1,76,3040889,2.499269
5,2018,2,83,3040889,2.729465
6,2019,1,56,3060508,1.829762
7,2019,2,47,3060508,1.535693
8,2020,1,31,3080306,1.006394
9,2020,2,56,3080306,1.818001


Se crea una nueva columna llamada 'Tasa Anterior' en el DataFrame df_homicidios_victimas, que contiene la tasa de homicidios del año anterior.

In [98]:
df_homicidios_victimas['Tasa Anterior'] = df_homicidios_victimas['Tasa'].shift(periods=1, fill_value=0)
df_homicidios_victimas

Unnamed: 0,Anio,semestre,N_VICTIMAS,Total Poblacion,Tasa,Tasa Anterior
0,2016,1,62,3002178,2.065167,0.0
1,2016,2,74,3002178,2.464877,2.065167
2,2017,1,77,3021444,2.54845,2.464877
3,2017,2,76,3021444,2.515354,2.54845
4,2018,1,76,3040889,2.499269,2.515354
5,2018,2,83,3040889,2.729465,2.499269
6,2019,1,56,3060508,1.829762,2.729465
7,2019,2,47,3060508,1.535693,1.829762
8,2020,1,31,3080306,1.006394,1.535693
9,2020,2,56,3080306,1.818001,1.006394


Se calcula la variación porcentual de la tasa de homicidios en comparación con el año anterior.

In [99]:
df_homicidios_victimas['VARIACION_TASA'] = (df_homicidios_victimas['Tasa'] - df_homicidios_victimas['Tasa Anterior']) / df_homicidios_victimas['Tasa Anterior'] * 100
df_homicidios_victimas

Unnamed: 0,Anio,semestre,N_VICTIMAS,Total Poblacion,Tasa,Tasa Anterior,VARIACION_TASA
0,2016,1,62,3002178,2.065167,0.0,inf
1,2016,2,74,3002178,2.464877,2.065167,19.354839
2,2017,1,77,3021444,2.54845,2.464877,3.390562
3,2017,2,76,3021444,2.515354,2.54845,-1.298701
4,2018,1,76,3040889,2.499269,2.515354,-0.639451
5,2018,2,83,3040889,2.729465,2.499269,9.210526
6,2019,1,56,3060508,1.829762,2.729465,-32.962628
7,2019,2,47,3060508,1.535693,1.829762,-16.071429
8,2020,1,31,3080306,1.006394,1.535693,-34.46648
9,2020,2,56,3080306,1.818001,1.006394,80.645161


Se reemplazan los valores infinitos en la columna 'VARIACION_TASA' del DataFrame df_homicidios_victimas con el valor 0.

In [100]:
df_homicidios_victimas['VARIACION_TASA'] = df_homicidios_victimas['VARIACION_TASA'].replace([np.inf, -np.inf], 0)

Se redondean algunas columnas a dos decimales y se cambia '.' por ','

In [101]:
def clean_data(df_homicidios_victimas):
    # Redondeamos a 2 decimales y cambiamos el punto por coma
    df_homicidios_victimas = df_homicidios_victimas.round({
        'VARIACION_TASA': 2,
        'Tasa': 2,
        'Tasa Anterior': 2
    })

    # Cambiamos el punto por coma en las columnas específicas
    df_homicidios_victimas['VARIACION_TASA'] = df_homicidios_victimas['VARIACION_TASA'].apply(lambda x: str(x).replace('.', ','))
    df_homicidios_victimas['Tasa'] = df_homicidios_victimas['Tasa'].apply(lambda x: str(x).replace('.', ','))
    df_homicidios_victimas['Tasa Anterior'] = df_homicidios_victimas['Tasa Anterior'].apply(lambda x: str(x).replace('.', ','))

    return df_homicidios_victimas

df_homicidios_victimas = clean_data(df_homicidios_victimas.copy())
df_homicidios_victimas

Unnamed: 0,Anio,semestre,N_VICTIMAS,Total Poblacion,Tasa,Tasa Anterior,VARIACION_TASA
0,2016,1,62,3002178,207,0,0
1,2016,2,74,3002178,246,207,1935
2,2017,1,77,3021444,255,246,339
3,2017,2,76,3021444,252,255,-13
4,2018,1,76,3040889,25,252,-64
5,2018,2,83,3040889,273,25,921
6,2019,1,56,3060508,183,273,-3296
7,2019,2,47,3060508,154,183,-1607
8,2020,1,31,3080306,101,154,-3447
9,2020,2,56,3080306,182,101,8065


### 🚀 Segundo KPI

Se filtra el DataFrame df_homicidios para obtener solo las filas donde la columna 'VICTIMA' es igual a 'Moto'.

In [102]:
df_homicidios_moto = df_homicidios[df_homicidios['VICTIMA'] == 'Moto']
df_homicidios_moto

Unnamed: 0,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO,N_VICTIMAS,FECHA_SINIESTRO,HORA_SINIESTRO,LUGAR_DEL_HECHO,TIPO_DE_CALLE,COMUNA,pos x,pos y,PARTICIPANTES,ACUSADO,ID,Anio,Rango_Edad,semestre
0,Conductor,Moto,Masculino,19,2016-01-01 00:00:00,1,2016-01-01,04:00:00,Av Piedra Buena Y Av Fernandez De La Cruz,Avenida,8,-58.475340,-34.687570,Moto-Auto,Auto,1,2016,1-20,1
2,Conductor,Moto,Masculino,30,2016-01-03 00:00:00,1,2016-01-03,07:00:00,Av Entre Rios 2034,Avenida,1,-58.390403,-34.631894,Moto-Auto,Auto,3,2016,21-40,1
3,Conductor,Moto,Masculino,29,2016-02-01 00:00:00,1,2016-01-21,05:20:00,Av San Juan Y Presidente Luis Saenz Peña,Avenida,1,-58.387183,-34.622466,Moto-Pasajeros,Pasajeros,4,2016,21-40,1
4,Conductor,Moto,Masculino,30,2016-01-24 00:00:00,1,2016-01-24,18:30:00,Av 27 De Febrero Y Av Escalada,Avenida,8,-58.444513,-34.684759,Moto-Objeto Fijo,Objeto Fijo,5,2016,21-40,1
5,Pasajero_Acompañante,Moto,Masculino,29,2016-01-26 00:00:00,1,2016-01-24,19:10:00,Nogoya Y Joaquin V. Gonzales,Calle,11,-58.500959,-34.608254,Moto-Auto,Auto,6,2016,21-40,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
682,Conductor,Moto,Masculino,41,2021-12-11 00:00:00,1,2021-12-02,01:10:00,Av. Gaona 3655,Avenida,11,-58.476337,-34.621406,Moto-Auto,Auto,683,2021,41-60,2
684,Conductor,Moto,Masculino,24,2021-12-11 00:00:00,1,2021-12-11,23:00:00,Baigorria Y Victor Hugo,Calle,10,-58.519894,-34.622849,Moto-Auto,Auto,685,2021,21-40,2
686,Pasajero_Acompañante,Moto,Femenino,18,2021-12-18 00:00:00,1,2021-12-13,17:10:00,Av. Riestra Y Mom,Avenida,7,-58.433538,-34.645616,Moto-Auto,Auto,687,2021,1-20,2
687,Pasajero_Acompañante,Moto,Femenino,43,2021-12-20 00:00:00,1,2021-12-20,01:10:00,Au Dellepiane Y Lacarra,Autopista,9,-58.467398,-34.651178,Moto-Auto,Auto,688,2021,41-60,2


Se agrupa el DataFrame df_homicidios_moto por el año ('Anio') y se suma la columna 'N_VICTIMAS' para cada año. 

In [103]:
df_homicidios_moto = df_homicidios_moto.groupby(['Anio'])['N_VICTIMAS'].sum().reset_index()
df_homicidios_moto

Unnamed: 0,Anio,N_VICTIMAS
0,2016,63
1,2017,59
2,2018,61
3,2019,48
4,2020,32
5,2021,46


Se crea una nueva columna llamada 'N_VICTIMAS_ANTERIOR' en el DataFrame df_homicidios_moto, que contiene el número de víctimas de años anteriores.

In [104]:
df_homicidios_moto['N_VICTIMAS_ANTERIOR'] = df_homicidios_moto['N_VICTIMAS'].shift(periods=1, fill_value=0)
df_homicidios_moto

Unnamed: 0,Anio,N_VICTIMAS,N_VICTIMAS_ANTERIOR
0,2016,63,0
1,2017,59,63
2,2018,61,59
3,2019,48,61
4,2020,32,48
5,2021,46,32


Se calcula la variación porcentual en el número de víctimas de accidentes de motocicletas en comparación con el año anterior.

In [105]:
df_homicidios_moto['VARIACION_VICTIMAS_MOTO'] = (df_homicidios_moto['N_VICTIMAS'] - df_homicidios_moto['N_VICTIMAS_ANTERIOR']) / df_homicidios_moto['N_VICTIMAS_ANTERIOR'] * 100
df_homicidios_moto

Unnamed: 0,Anio,N_VICTIMAS,N_VICTIMAS_ANTERIOR,VARIACION_VICTIMAS_MOTO
0,2016,63,0,inf
1,2017,59,63,-6.349206
2,2018,61,59,3.389831
3,2019,48,61,-21.311475
4,2020,32,48,-33.333333
5,2021,46,32,43.75


Se reemplazan los valores infinitos o indefinidos por 0 en la columna VARIACION_VICTIMAS_MOTO.

In [106]:
df_homicidios_moto['VARIACION_VICTIMAS_MOTO'] = df_homicidios_moto['VARIACION_VICTIMAS_MOTO'].replace([np.inf, -np.inf], 0)

Se redondea la variación de víctimas de moto a dos decimales.

In [107]:
def clean_data(df_homicidios_moto):
    # Redondeamos la variación a 2 decimales y cambiamos el punto por coma
    df_homicidios_moto['VARIACION_VICTIMAS_MOTO'] = df_homicidios_moto['VARIACION_VICTIMAS_MOTO'].round(2).astype(str).str.replace('.', ',')

    return df_homicidios_moto

df_homicidios_moto = clean_data(df_homicidios_moto.copy())
df_homicidios_moto.head()

Unnamed: 0,Anio,N_VICTIMAS,N_VICTIMAS_ANTERIOR,VARIACION_VICTIMAS_MOTO
0,2016,63,0,0
1,2017,59,63,-635
2,2018,61,59,339
3,2019,48,61,-2131
4,2020,32,48,-3333


### 📥 Carga de los datasets

Se guardan los dataframe transformados como `Tasa_homicidios_moto`, `Tasa_homicidios_victimas` y `homicidios_final`.

In [108]:
df_homicidios_moto.to_csv('Datasets/Archivos_PBI/Tasa_homicidios_moto.csv')
df_homicidios_victimas.to_csv('Datasets/Archivos_PBI/Tasa_homicidios_victimas.csv')
df_homicidios.to_csv('Datasets/Archivos_PBI/homicidios_final.csv')