In [1]:
import pandas as pd
import calendar
import locale
import seaborn as sns
import matplotlib.pyplot as plt
from datetime import datetime
import warnings
warnings.filterwarnings("ignore")

## Cargamos el archivo EXCEL, Homicidios, se crea en 2 DataFrame , uno para cada hoja

In [2]:
df_hechos = pd.read_excel("Datasets\homicidios.xlsx", sheet_name="HECHOS")

In [3]:
df_victimas = pd.read_excel("Datasets\homicidios.xlsx", sheet_name="VICTIMAS")

## Analisis de Dataframe HECHOS

In [4]:
# Se muestra las primeras 5 filas del DataFrame
df_hechos.head(5)

Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,DD,HORA,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,...,Altura,Cruce,Dirección Normalizada,COMUNA,XY (CABA),pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO
0,2016-0001,1,2016-01-01,2016,1,1,04:00:00,4,AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ,AVENIDA,...,,"FERNANDEZ DE LA CRUZ, F., GRAL. AV.","PIEDRA BUENA AV. y FERNANDEZ DE LA CRUZ, F., G...",8,Point (98896.78238426 93532.43437792),-58.47533969,-34.68757022,MOTO-AUTO,MOTO,AUTO
1,2016-0002,1,2016-01-02,2016,1,2,01:15:00,1,AV GRAL PAZ Y AV DE LOS CORRALES,GRAL PAZ,...,,DE LOS CORRALES AV.,"PAZ, GRAL. AV. y DE LOS CORRALES AV.",9,Point (95832.05571093 95505.41641999),-58.50877521,-34.66977709,AUTO-PASAJEROS,AUTO,PASAJEROS
2,2016-0003,1,2016-01-03,2016,1,3,07:00:00,7,AV ENTRE RIOS 2034,AVENIDA,...,2034.0,,ENTRE RIOS AV. 2034,1,Point (106684.29090040 99706.57687843),-58.39040293,-34.63189362,MOTO-AUTO,MOTO,AUTO
3,2016-0004,1,2016-01-10,2016,1,10,00:00:00,0,AV LARRAZABAL Y GRAL VILLEGAS CONRADO,AVENIDA,...,,"VILLEGAS, CONRADO, GRAL.","LARRAZABAL AV. y VILLEGAS, CONRADO, GRAL.",8,Point (99840.65224780 94269.16534422),-58.46503904,-34.68092974,MOTO-SD,MOTO,SD
4,2016-0005,1,2016-01-21,2016,1,21,05:20:00,5,AV SAN JUAN Y PRESIDENTE LUIS SAENZ PEÑA,AVENIDA,...,,"SAENZ PE?A, LUIS, PRES.","SAN JUAN AV. y SAENZ PEÃ‘A, LUIS, PRES.",1,Point (106980.32827929 100752.16915795),-58.38718297,-34.6224663,MOTO-PASAJEROS,MOTO,PASAJEROS


In [5]:
# Se muestra los nombres de las columnas en el DataFrame
df_hechos.columns

Index(['ID', 'N_VICTIMAS', 'FECHA', 'AAAA', 'MM', 'DD', 'HORA', 'HH',
       'LUGAR_DEL_HECHO', 'TIPO_DE_CALLE', 'Calle', 'Altura', 'Cruce',
       'Dirección Normalizada', 'COMUNA', 'XY (CABA)', 'pos x', 'pos y',
       'PARTICIPANTES', 'VICTIMA', 'ACUSADO'],
      dtype='object')

In [6]:
# Devuelve la forma (número de filas y columnas) del DataFrame
df_hechos.shape

(696, 21)

In [7]:
# Se muestra el tipo de datos de cada columna en el DataFrame
df_hechos.dtypes

ID                               object
N_VICTIMAS                        int64
FECHA                    datetime64[ns]
AAAA                              int64
MM                                int64
DD                                int64
HORA                             object
HH                               object
LUGAR_DEL_HECHO                  object
TIPO_DE_CALLE                    object
Calle                            object
Altura                          float64
Cruce                            object
Dirección Normalizada            object
COMUNA                            int64
XY (CABA)                        object
pos x                            object
pos y                            object
PARTICIPANTES                    object
VICTIMA                          object
ACUSADO                          object
dtype: object

In [8]:
# Se cuenta el número de valores nulos en cada columna
df_hechos.isnull().sum()

ID                         0
N_VICTIMAS                 0
FECHA                      0
AAAA                       0
MM                         0
DD                         0
HORA                       0
HH                         0
LUGAR_DEL_HECHO            0
TIPO_DE_CALLE              0
Calle                      1
Altura                   567
Cruce                    171
Dirección Normalizada      8
COMUNA                     0
XY (CABA)                  0
pos x                      0
pos y                      0
PARTICIPANTES              0
VICTIMA                    0
ACUSADO                    0
dtype: int64

In [9]:
# Se cuenta el número de filas duplicadas en el DataFrame
df_hechos.duplicated().sum()

0

Se visualiza que se encuentran la informacion de los hechos con las siguientes variables:
* ID = identificador unico del siniestro
* N_VICTIMAS = cantidad de víctimas
* FECHA = fecha en formato dd/mm/aaaa
* AAAA = año
* MM = mes
* DD = día del mes
* HORA = hora del siniestro
* HH = franja horaria entera
* LUGAR_DEL_HECHO = Dirección del hecho
* TIPO_DE_CALLE = Tipo de arteria
* Calle = nombre de la arteria donde se produjo el hecho
* Altura = altura de la arteria donde se produjo el hecho
* Cruce = cruce en caso de que sea una encrucijada
* Dirección = Normalizada	direccion en formato normalizado USIG
* COMUNA = Comuna de la ciudad (1 a 15)
* XY (CABA) = geocodificación plana
* pos x = longitud con separador punto. WGS84
* pos y = latitud con separador punto. WGS84
* PARTICIPANTES = conjunción de víctima y acusado
* VICTIMA = Vehículo que ocupaba quien haya fallecido a se haya lastimado a raíz del hecho.
* ACUSADO	Vehículo que ocupaba quien resultó acusado/a del hecho.


Conclusiones preliminares: 
* Se identificaron valores faltantes en las columnas "Calle","Altura","Cruce" y "Dirección Normalizada". Estos requerirán un manejo adecuado durante el análisis
* La columna "HORA" parece estar en formato de cadena. Se convertira a un formato de tiempo. 
* La columna "EDAD" tiene el tipo de dato "object," se convertira a un tipo numérico
* Las columnas "pos x" y "pos y" proporcionan información de geolocalización. Se podran utilizar para visualizar la distribución espacial de los siniestros en un mapa. Estas variables tambien nos permiten mapear geográficamente los siniestros, identificando áreas de alta frecuencia.

## Analisis de Dataframe VICTIMAS

In [10]:
# Se muestra las primeras 5 filas del DataFrame
df_victimas.head(5)

Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO
0,2016-0001,2016-01-01,2016,1,1,CONDUCTOR,MOTO,MASCULINO,19,2016-01-01 00:00:00
1,2016-0002,2016-01-02,2016,1,2,CONDUCTOR,AUTO,MASCULINO,70,2016-01-02 00:00:00
2,2016-0003,2016-01-03,2016,1,3,CONDUCTOR,MOTO,MASCULINO,30,2016-01-03 00:00:00
3,2016-0004,2016-01-10,2016,1,10,CONDUCTOR,MOTO,MASCULINO,18,SD
4,2016-0005,2016-01-21,2016,1,21,CONDUCTOR,MOTO,MASCULINO,29,2016-02-01 00:00:00


In [11]:
# Se muestra los nombres de las columnas en el DataFrame
df_victimas.columns

Index(['ID_hecho', 'FECHA', 'AAAA', 'MM', 'DD', 'ROL', 'VICTIMA', 'SEXO',
       'EDAD', 'FECHA_FALLECIMIENTO'],
      dtype='object')

In [12]:
# Devuelve la forma (número de filas y columnas) del DataFrame
df_victimas.shape

(717, 10)

In [13]:
# Se muestra el tipo de datos de cada columna en el DataFrame
df_victimas.dtypes

ID_hecho                       object
FECHA                  datetime64[ns]
AAAA                            int64
MM                              int64
DD                              int64
ROL                            object
VICTIMA                        object
SEXO                           object
EDAD                           object
FECHA_FALLECIMIENTO            object
dtype: object

In [14]:
# Se cuenta el número de valores nulos en cada columna
df_victimas.isnull().sum()

ID_hecho               0
FECHA                  0
AAAA                   0
MM                     0
DD                     0
ROL                    0
VICTIMA                0
SEXO                   0
EDAD                   0
FECHA_FALLECIMIENTO    0
dtype: int64

In [15]:
# Se cuenta el número de filas duplicadas en el DataFrame
df_victimas.duplicated().sum()

0

Se visualiza que se encuentran la informacion de las victimas con las siguientes variables:
* ID_hecho = identificador unico del siniestro
* FECHA = fecha en formato dd/mm/aaaa
* AAAA = año
* MM = mes
* DD = día del mes
* ROL = Posición relativa al vehículo que presentaba la víctima en el momento del siniestro
* VICTIMA = Vehículo que ocupaba quien haya fallecido a se haya lastimado a raíz del hecho.
* SEXO = Sexo informado por fuente policial de la víctima
* EDAD = Edad de la víctima al momento del siniestro
* FECHA_FALLECIMIENTO = Fecha de fallecimiento de la víctima

Conclusiones preliminares: 

* El DataFrame de víctimas proporciona información detallada sobre las personas involucradas en los siniestros.
* Las variables compartidas entre los dos DataFrames, como el identificador del siniestro ("ID"), pueden usarse para vincular la información de hechos y víctimas
* Aunque el DataFrame de hechos tiene 696 filas y el DataFrame de víctimas tiene 717 filas, se observa que hay más víctimas que hechos
* La columna "EDAD" en el DataFrame de hechos tiene el tipo de dato "object," se convertira a un tipo numérico
* Las variables relacionadas con las víctimas, como "SEXO" y "EDAD," ofrecen información valiosa sobre el perfil de las personas involucradas en los siniestros.

### Renombre de columnas

In [16]:
# Renombrar columnas de Dataframe Hechos
df_hechos.rename(columns={"ID":"Id",
                          "N_VICTIMAS":"Nro Victimas",
                          "FECHA":"Fecha",
                          "AAAA":"Año",
                          "MM":"Mes",
                          "DD":"Dia",
                          "HORA":"Hora",
                          "HH":"Franja Horaria",
                          "LUGAR_DEL_HECHO":"Lugar",
                          "TIPO_DE_CALLE": "Tipo Calle",
                          "COMUNA":"Comuna",
                          "XY (CABA)":"Geocodificacion",
                          "pos x":"Longitud",
                          "pos y":"Latitud",
                          "PARTICIPANTES":"Participantes",
                          "VICTIMA":"Victima",
                          "ACUSADO":"Acusado"}, inplace=True)

In [17]:
df_hechos.columns

Index(['Id', 'Nro Victimas', 'Fecha', 'Año', 'Mes', 'Dia', 'Hora',
       'Franja Horaria', 'Lugar', 'Tipo Calle', 'Calle', 'Altura', 'Cruce',
       'Dirección Normalizada', 'Comuna', 'Geocodificacion', 'Longitud',
       'Latitud', 'Participantes', 'Victima', 'Acusado'],
      dtype='object')

In [18]:
# Renombrar columnas de Dataframe victimas
df_victimas.rename(columns={"ID_hecho":"Id",
                          "FECHA":"Fecha",
                          "AAAA":"Año",
                          "MM":"Mes",
                          "DD":"Dia",
                          "ROL":"Rol",
                          "VICTIMA":"Victima",
                          "SEXO":"Sexo",
                          "EDAD": "Edad",
                          "FECHA_FALLECIMIENTO":"Fecha_fallecimiento"}, inplace=True)

In [19]:
df_victimas.columns

Index(['Id', 'Fecha', 'Año', 'Mes', 'Dia', 'Rol', 'Victima', 'Sexo', 'Edad',
       'Fecha_fallecimiento'],
      dtype='object')

## DATAFRAME HECHOS

### Trabajaremos con los valores Nulos

In [20]:
df_hechos[["Altura", "Calle", "Cruce","Dirección Normalizada"]].isnull().sum()

Altura                   567
Calle                      1
Cruce                    171
Dirección Normalizada      8
dtype: int64

La variable calle, solo hay 1 nulo , representa una cantidad minima por lo tanto se procede a eliminar


In [21]:
df_hechos = df_hechos.dropna(subset=["Calle"])

La variable altura, informa el pundo donde ocurrio los hechos, esta variable tiene muchos datos nulos y no aportan una informacion relevante , se procede a eliminar 

In [22]:
df_hechos = df_hechos.drop(["Altura"], axis=1)

Trabajaremos con la variable Cruce 

In [23]:
con_cruce = df_hechos[df_hechos["Cruce"].notna()]
con_cruce[["Lugar","Tipo Calle","Cruce"]].head(5)

Unnamed: 0,Lugar,Tipo Calle,Cruce
0,AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ,AVENIDA,"FERNANDEZ DE LA CRUZ, F., GRAL. AV."
1,AV GRAL PAZ Y AV DE LOS CORRALES,GRAL PAZ,DE LOS CORRALES AV.
3,AV LARRAZABAL Y GRAL VILLEGAS CONRADO,AVENIDA,"VILLEGAS, CONRADO, GRAL."
4,AV SAN JUAN Y PRESIDENTE LUIS SAENZ PEÑA,AVENIDA,"SAENZ PE?A, LUIS, PRES."
5,AV 27 DE FEBRERO Y AV ESCALADA,AVENIDA,ESCALADA AV.


In [24]:
sin_cruce = df_hechos[df_hechos["Cruce"].isna()]
sin_cruce[["Lugar","Tipo Calle"]].head(5)


Unnamed: 0,Lugar,Tipo Calle
2,AV ENTRE RIOS 2034,AVENIDA
9,AV ENTRE RIOS 1366,AVENIDA
14,SUIPACHA 156,CALLE
33,LIMA 1483,CALLE
35,AUTOPISTA 1 SUR PRESIDENTE ARTURO FRONDIZI KM....,AUTOPISTA


En base a lo observado arriba podemos asumir que los valores nulos que se encuentran en la variable corresponden a hechos que no sucedieron en un cruce por lo que procedemos a imputar esos valores como "Sin cruce"

In [25]:
df_hechos["Cruce"].fillna("Sin cruce", inplace=True)

La variable "Direccion normalizada" representa a la calle donde ocurrio el hecho, en este caso la cantidad de valores nulos son pocos en comparacion con el total de registros por lo que se procede a eliminar los nulos

In [26]:
df_hechos = df_hechos.dropna(subset=["Dirección Normalizada"])

In [27]:
df_hechos.isnull().sum()

Id                       0
Nro Victimas             0
Fecha                    0
Año                      0
Mes                      0
Dia                      0
Hora                     0
Franja Horaria           0
Lugar                    0
Tipo Calle               0
Calle                    0
Cruce                    0
Dirección Normalizada    0
Comuna                   0
Geocodificacion          0
Longitud                 0
Latitud                  0
Participantes            0
Victima                  0
Acusado                  0
dtype: int64

En nuestros datos, en los cuales no hay registros, se coloca SD, que indica Sin dato, trabajaremos con estos datos. Verificamos que columnas tienen este tipo de registros y que cantidad

In [28]:
columnas_sd_dicc = {}  

for columna in df_hechos.columns:
    cantidad = (df_hechos[columna] == 'SD').sum()
    columnas_sd_dicc[columna] = cantidad

for columna, conteo in columnas_sd_dicc.items():
    print(f"Columna '{columna}': {conteo} veces que aparece 'SD'")

Columna 'Id': 0 veces que aparece 'SD'
Columna 'Nro Victimas': 0 veces que aparece 'SD'
Columna 'Fecha': 0 veces que aparece 'SD'
Columna 'Año': 0 veces que aparece 'SD'
Columna 'Mes': 0 veces que aparece 'SD'
Columna 'Dia': 0 veces que aparece 'SD'
Columna 'Hora': 1 veces que aparece 'SD'
Columna 'Franja Horaria': 1 veces que aparece 'SD'
Columna 'Lugar': 0 veces que aparece 'SD'
Columna 'Tipo Calle': 0 veces que aparece 'SD'
Columna 'Calle': 0 veces que aparece 'SD'
Columna 'Cruce': 0 veces que aparece 'SD'
Columna 'Dirección Normalizada': 0 veces que aparece 'SD'
Columna 'Comuna': 0 veces que aparece 'SD'
Columna 'Geocodificacion': 0 veces que aparece 'SD'
Columna 'Longitud': 0 veces que aparece 'SD'
Columna 'Latitud': 0 veces que aparece 'SD'
Columna 'Participantes': 0 veces que aparece 'SD'
Columna 'Victima': 9 veces que aparece 'SD'
Columna 'Acusado': 21 veces que aparece 'SD'


### Variable FECHA

Verificamos los tipos de datos que contienen las variables Fecha

In [29]:
df_hechos["Fecha"].apply(type).value_counts()

Fecha
<class 'pandas._libs.tslibs.timestamps.Timestamp'>    688
Name: count, dtype: int64

En la variable fecha eliminamos la estampa de tiempo para quedarnos con la fecha solamente

In [30]:
df_hechos["Fecha"]= df_hechos["Fecha"].dt.date

In [31]:
df_hechos["Fecha"].apply(type).value_counts()

Fecha
<class 'datetime.date'>    688
Name: count, dtype: int64

### Variable HORA

Verificamos los tipos de datos que contienen las variables Hora

In [32]:
df_hechos["Hora"].apply(type).value_counts()

Hora
<class 'datetime.time'>        600
<class 'str'>                   85
<class 'datetime.datetime'>      3
Name: count, dtype: int64

In [33]:
df_hechos["Hora"].unique()[:10]

array([datetime.time(4, 0), datetime.time(1, 15), datetime.time(7, 0),
       datetime.time(0, 0), datetime.time(5, 20), datetime.time(18, 30),
       datetime.time(19, 10), datetime.time(15, 20), datetime.time(1, 20),
       datetime.time(11, 30)], dtype=object)

In [34]:
def convertir_a_time(valor):
    try:
        return datetime.strptime(str(valor), '%H:%M:%S').time()
    except (ValueError, TypeError):
        return None

Convertimos el tipo de dato Hora de object a time

In [35]:
df_hechos["Hora"] = df_hechos["Hora"].apply(convertir_a_time)
df_hechos["Hora"].apply(type).value_counts()

Hora
<class 'datetime.time'>    684
<class 'NoneType'>           4
Name: count, dtype: int64

Verificamos que hay cuatro valores nulos dentro de Hora, al ser pocos valores en comparacion con el total de registros se decidde imputar los valores con la hora mas comun

In [36]:
hora_moda = df_hechos["Hora"].mode()[0]
df_hechos["Hora"].fillna(hora_moda, inplace=True)
df_hechos["Hora"].apply(type).value_counts()

Hora
<class 'datetime.time'>    688
Name: count, dtype: int64

### Variable FRANJA HORARIA

In [37]:
df_hechos["Franja Horaria"].apply(type).value_counts()

Franja Horaria
<class 'int'>    687
<class 'str'>      1
Name: count, dtype: int64

In [38]:
df_hechos["Franja Horaria"].unique()

array([4, 1, 7, 0, 5, 18, 19, 15, 11, 22, 16, 9, 23, 6, 10, 17, 12, 8, 21,
       20, 14, 3, 2, 13, 'SD'], dtype=object)

La variable Franja Horaria que representa la franja horaria del siniestro se procede a conventir a tipo int pero previamente en el unico registro que se encuentra SD se procede a imputar el valor 

In [39]:
franja_hora_moda = df_hechos["Franja Horaria"].mode()[0]
df_hechos["Franja Horaria"] = df_hechos["Franja Horaria"].replace("SD",franja_hora_moda)

In [40]:
df_hechos["Franja Horaria"].unique()

array([ 4,  1,  7,  0,  5, 18, 19, 15, 11, 22, 16,  9, 23,  6, 10, 17, 12,
        8, 21, 20, 14,  3,  2, 13], dtype=int64)

In [41]:
df_hechos["Franja Horaria"].apply(type).value_counts()

Franja Horaria
<class 'int'>    688
Name: count, dtype: int64

### Cambio de tipo a variable calle, victima, acusado, comuna

Convertimos las variables Tipo Calle, Victima, Comuna y Acusado de tipo object a category, dado que las mismas son variables categoricas

In [42]:
df_hechos["Tipo Calle"] = df_hechos["Tipo Calle"].astype("category")
df_hechos["Victima"] = df_hechos["Victima"].astype("category")
df_hechos["Acusado"] = df_hechos["Acusado"].astype("category")
df_hechos["Comuna"] = df_hechos["Comuna"].astype("category")

In [43]:
df_hechos[["Tipo Calle", "Victima", "Acusado","Comuna"]].dtypes

Tipo Calle    category
Victima       category
Acusado       category
Comuna        category
dtype: object

### Variable Tipo de calle 

In [44]:
df_hechos["Tipo Calle"].unique()

['AVENIDA', 'GRAL PAZ', 'CALLE', 'AUTOPISTA']
Categories (4, object): ['AUTOPISTA', 'AVENIDA', 'CALLE', 'GRAL PAZ']

Para la variable Tipo Calle verificamos que hay una categoria que se denomina Gral Paz que se transformara a Autopista para que en el posterior analisis sea mas homogeneo

In [45]:
df_hechos["Tipo Calle"] = df_hechos["Tipo Calle"].replace({"GRAL PAZ": "AUTOPISTA"})
df_hechos.head(5)

Unnamed: 0,Id,Nro Victimas,Fecha,Año,Mes,Dia,Hora,Franja Horaria,Lugar,Tipo Calle,Calle,Cruce,Dirección Normalizada,Comuna,Geocodificacion,Longitud,Latitud,Participantes,Victima,Acusado
0,2016-0001,1,2016-01-01,2016,1,1,04:00:00,4,AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ,AVENIDA,PIEDRA BUENA AV.,"FERNANDEZ DE LA CRUZ, F., GRAL. AV.","PIEDRA BUENA AV. y FERNANDEZ DE LA CRUZ, F., G...",8,Point (98896.78238426 93532.43437792),-58.47533969,-34.68757022,MOTO-AUTO,MOTO,AUTO
1,2016-0002,1,2016-01-02,2016,1,2,01:15:00,1,AV GRAL PAZ Y AV DE LOS CORRALES,AUTOPISTA,"PAZ, GRAL. AV.",DE LOS CORRALES AV.,"PAZ, GRAL. AV. y DE LOS CORRALES AV.",9,Point (95832.05571093 95505.41641999),-58.50877521,-34.66977709,AUTO-PASAJEROS,AUTO,PASAJEROS
2,2016-0003,1,2016-01-03,2016,1,3,07:00:00,7,AV ENTRE RIOS 2034,AVENIDA,ENTRE RIOS AV.,Sin cruce,ENTRE RIOS AV. 2034,1,Point (106684.29090040 99706.57687843),-58.39040293,-34.63189362,MOTO-AUTO,MOTO,AUTO
3,2016-0004,1,2016-01-10,2016,1,10,00:00:00,0,AV LARRAZABAL Y GRAL VILLEGAS CONRADO,AVENIDA,LARRAZABAL AV.,"VILLEGAS, CONRADO, GRAL.","LARRAZABAL AV. y VILLEGAS, CONRADO, GRAL.",8,Point (99840.65224780 94269.16534422),-58.46503904,-34.68092974,MOTO-SD,MOTO,SD
4,2016-0005,1,2016-01-21,2016,1,21,05:20:00,5,AV SAN JUAN Y PRESIDENTE LUIS SAENZ PEÑA,AVENIDA,SAN JUAN AV.,"SAENZ PE?A, LUIS, PRES.","SAN JUAN AV. y SAENZ PEÃ‘A, LUIS, PRES.",1,Point (106980.32827929 100752.16915795),-58.38718297,-34.6224663,MOTO-PASAJEROS,MOTO,PASAJEROS


In [46]:
df_hechos["Tipo Calle"].unique()

['AVENIDA', 'AUTOPISTA', 'CALLE']
Categories (3, object): ['AUTOPISTA', 'AVENIDA', 'CALLE']

### La variable Victima


In [47]:
df_hechos["Victima"].unique()

['MOTO', 'AUTO', 'PEATON', 'SD', 'CARGAS', 'BICICLETA', 'PASAJEROS', 'MOVIL', 'OBJETO FIJO', 'PEATON_MOTO']
Categories (10, object): ['AUTO', 'BICICLETA', 'CARGAS', 'MOTO', ..., 'PASAJEROS', 'PEATON', 'PEATON_MOTO', 'SD']

Verificando el diccionario de datos vemos que hay categorias que no se encuentran en el diccionario por lo que vamos a proceder a agregarlos a las categoria otro

In [48]:
if "Victima" in df_hechos.columns:
    df_hechos["Victima"] = df_hechos["Victima"].replace({"OBJETO FIJO": "OTRO", "PEATON_MOTO": "OTRO"})
    print(df_hechos.head())
else:
    print("La columna 'Victima' no existe en el DataFrame.")

          Id  Nro Victimas       Fecha   Año  Mes  Dia      Hora  \
0  2016-0001             1  2016-01-01  2016    1    1  04:00:00   
1  2016-0002             1  2016-01-02  2016    1    2  01:15:00   
2  2016-0003             1  2016-01-03  2016    1    3  07:00:00   
3  2016-0004             1  2016-01-10  2016    1   10  00:00:00   
4  2016-0005             1  2016-01-21  2016    1   21  05:20:00   

   Franja Horaria                                      Lugar Tipo Calle  \
0               4  AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ    AVENIDA   
1               1          AV GRAL PAZ  Y AV DE LOS CORRALES  AUTOPISTA   
2               7                         AV ENTRE RIOS 2034    AVENIDA   
3               0      AV LARRAZABAL Y GRAL VILLEGAS CONRADO    AVENIDA   
4               5  AV SAN JUAN Y PRESIDENTE LUIS SAENZ PEÑA     AVENIDA   

              Calle                                Cruce  \
0  PIEDRA BUENA AV.  FERNANDEZ DE LA CRUZ, F., GRAL. AV.   
1    PAZ, GRAL. AV. 

In [49]:
df_hechos["Victima"].unique()

['MOTO', 'AUTO', 'PEATON', 'SD', 'CARGAS', 'BICICLETA', 'PASAJEROS', 'MOVIL', 'OTRO']
Categories (9, object): ['AUTO', 'BICICLETA', 'CARGAS', 'MOTO', ..., 'OTRO', 'PASAJEROS', 'PEATON', 'SD']

Por ahora para ambas variables se decide conservar los valores SD dado que no representan un porcentaje grande dentro de cada variable

## Variables Latitud y Longitud

Las variables "Longitud" y "Latitud" represetan la longitud y latitud del lugar donde ocurrio el siniestro, por lo que se proce a transformar de object a numeric 

In [50]:
df_hechos["Latitud"].apply(type).value_counts()

Latitud
<class 'str'>    688
Name: count, dtype: int64

In [51]:
df_hechos["Longitud"].apply(type).value_counts()

Longitud
<class 'str'>    688
Name: count, dtype: int64

In [52]:
df_hechos["Longitud"] = pd.to_numeric(df_hechos["Longitud"], errors="coerce")
df_hechos["Latitud"] = pd.to_numeric(df_hechos["Latitud"], errors="coerce")

In [53]:
print(df_hechos["Latitud"].apply(type).value_counts())
print(df_hechos["Longitud"].apply(type).value_counts())

Latitud
<class 'float'>    688
Name: count, dtype: int64
Longitud
<class 'float'>    688
Name: count, dtype: int64


In [54]:
print(df_hechos["Latitud"].isnull().sum())
print(df_hechos["Longitud"].isnull().sum())

4
4


In [55]:
coordenadas_nulas = df_hechos[df_hechos["Latitud"].isnull() & df_hechos["Longitud"].isnull()]
coordenadas_nulas

Unnamed: 0,Id,Nro Victimas,Fecha,Año,Mes,Dia,Hora,Franja Horaria,Lugar,Tipo Calle,Calle,Cruce,Dirección Normalizada,Comuna,Geocodificacion,Longitud,Latitud,Participantes,Victima,Acusado
139,2016-0174,1,2016-12-27,2016,12,27,00:00:00,0,AUTOPISTA 25 DE MAYO,AUTOPISTA,AUTOPISTA 25 DE MAYO,Sin cruce,AUTOPISTA 25 DE MAYO,0,Point (. .),,,SD-SD,SD,SD
176,2017-0042,1,2017-04-10,2017,4,10,09:00:00,9,AV. LEOPOLDO LUGONES PKM 6900,AUTOPISTA,"LUGONES, LEOPOLDO AV.",Sin cruce,"LUGONES, LEOPOLDO AV.",14,Point (. .),,,MOTO-CARGAS,MOTO,CARGAS
256,2017-0140,1,2017-11-19,2017,11,19,23:22:17,23,AU ARTURO FRONDIZI PKM 3100,AUTOPISTA,AUTOPISTA 1 SUR PRESIDENTE ARTURO FRONDIZI,Sin cruce,AUTOPISTA 1 SUR PRESIDENTE ARTURO FRONDIZI,4,Point (. .),,,MOTO-PASAJEROS,MOTO,PASAJEROS
559,2020-0039,1,2020-09-01,2020,9,1,19:17:42,19,MURGUIONDO 2700,CALLE,MURGUIONDO,Sin cruce,MURGUIONDO,9,Point (. .),,,PEATON-CARGAS,PEATON,CARGAS


En este caso debido a la faltante de datos del primer registro se procede a eliminar pero los demas registros se rellenan con las coordenadas correspondientes

In [56]:
indice_a_eliminar = 139 
df_hechos = df_hechos.drop(indice_a_eliminar)

In [57]:
ubicaciones = {
    "AV. LEOPOLDO LUGONES PKM 6900": (-34.54843731715158, -58.43855324867025),
    "AU ARTURO FRONDIZI PKM 3100": (-34.62331225201537, -58.379564214248965),
    "MURGUIONDO 2700": (-34.6605132179536, -58.49294436801899),
}

for ubicacion, (latitud, longitud) in ubicaciones.items():
    df_hechos.loc[df_hechos["Lugar"] == ubicacion, "Latitud"] = latitud
    df_hechos.loc[df_hechos["Lugar"] == ubicacion, "Longitud"] = longitud

In [58]:
coordenadas_nulas2 = df_hechos[df_hechos["Latitud"].isnull() & df_hechos["Longitud"].isnull()]
coordenadas_nulas2

Unnamed: 0,Id,Nro Victimas,Fecha,Año,Mes,Dia,Hora,Franja Horaria,Lugar,Tipo Calle,Calle,Cruce,Dirección Normalizada,Comuna,Geocodificacion,Longitud,Latitud,Participantes,Victima,Acusado


### Variable Geocodificacion

Esta variable se procedera a eliminar dado que ya se cuenta con la informacion pertinente a esta en las columnas Latitud y Longitud

In [59]:
df_hechos.drop(columns=["Geocodificacion"], inplace=True)

In [60]:
df_hechos.head(2)

Unnamed: 0,Id,Nro Victimas,Fecha,Año,Mes,Dia,Hora,Franja Horaria,Lugar,Tipo Calle,Calle,Cruce,Dirección Normalizada,Comuna,Longitud,Latitud,Participantes,Victima,Acusado
0,2016-0001,1,2016-01-01,2016,1,1,04:00:00,4,AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ,AVENIDA,PIEDRA BUENA AV.,"FERNANDEZ DE LA CRUZ, F., GRAL. AV.","PIEDRA BUENA AV. y FERNANDEZ DE LA CRUZ, F., G...",8,-58.47534,-34.68757,MOTO-AUTO,MOTO,AUTO
1,2016-0002,1,2016-01-02,2016,1,2,01:15:00,1,AV GRAL PAZ Y AV DE LOS CORRALES,AUTOPISTA,"PAZ, GRAL. AV.",DE LOS CORRALES AV.,"PAZ, GRAL. AV. y DE LOS CORRALES AV.",9,-58.508775,-34.669777,AUTO-PASAJEROS,AUTO,PASAJEROS


In [61]:
df_hechos = df_hechos.reset_index(drop=True)

## DATAFRAME VICTIMAS

In [62]:
df_victimas.shape

(717, 10)

In [63]:
df_victimas.dtypes

Id                             object
Fecha                  datetime64[ns]
Año                             int64
Mes                             int64
Dia                             int64
Rol                            object
Victima                        object
Sexo                           object
Edad                           object
Fecha_fallecimiento            object
dtype: object

In [64]:
columnas_sd_dicc2 = {}  

for columna2 in df_victimas.columns:
    cantidad2 = (df_victimas[columna2] == 'SD').sum()
    columnas_sd_dicc2[columna2] = cantidad2

for columna2, conteo2 in columnas_sd_dicc2.items():
    print(f"Columna '{columna2}': {conteo2} veces que aparece 'SD'")

Columna 'Id': 0 veces que aparece 'SD'
Columna 'Fecha': 0 veces que aparece 'SD'
Columna 'Año': 0 veces que aparece 'SD'
Columna 'Mes': 0 veces que aparece 'SD'
Columna 'Dia': 0 veces que aparece 'SD'
Columna 'Rol': 11 veces que aparece 'SD'
Columna 'Victima': 9 veces que aparece 'SD'
Columna 'Sexo': 6 veces que aparece 'SD'
Columna 'Edad': 53 veces que aparece 'SD'
Columna 'Fecha_fallecimiento': 68 veces que aparece 'SD'


### Variable EDAD

In [65]:
df_victimas["Edad"].apply(type).value_counts()

Edad
<class 'int'>    664
<class 'str'>     53
Name: count, dtype: int64

In [66]:
df_victimas["Edad"].unique()

array([19, 70, 30, 18, 29, 22, 16, 59, 65, 34, 41, 50, 38, 21, 52, 36, 20,
       54, 'SD', 56, 24, 78, 79, 26, 57, 37, 58, 23, 60, 42, 53, 51, 40,
       87, 76, 75, 35, 80, 43, 45, 67, 27, 55, 49, 81, 25, 33, 46, 83, 39,
       28, 7, 48, 4, 82, 32, 17, 47, 61, 10, 95, 73, 84, 66, 85, 1, 15,
       13, 77, 44, 31, 62, 74, 71, 11, 86, 69, 72, 12, 63, 92, 68, 91, 64,
       5, 88], dtype=object)

Para la variable podemos observar que la mayoria de los registros se encuentran en el formato correcto pero algunos tienen formato string por lo que se procede a corregir

In [67]:
df_victimas["Edad"] = pd.to_numeric(df_victimas["Edad"], errors='coerce')
df_victimas["Edad"] = df_victimas.groupby("Sexo")["Edad"].transform(lambda x: x.fillna(x.median()))
tipo_edad = df_victimas["Edad"].apply(type).value_counts()
print("Tipos de datos de la variable:",tipo_edad)

Tipos de datos de la variable: Edad
<class 'float'>    717
Name: count, dtype: int64


In [68]:
df_victimas.isnull().sum()

Id                     0
Fecha                  0
Año                    0
Mes                    0
Dia                    0
Rol                    0
Victima                0
Sexo                   0
Edad                   6
Fecha_fallecimiento    0
dtype: int64

### Variable FECHA FALLECIMIENTO

In [69]:
df_victimas["Fecha_fallecimiento"].apply(type).value_counts()

Fecha_fallecimiento
<class 'datetime.datetime'>    648
<class 'str'>                   69
Name: count, dtype: int64

Para dicha variable no se realizara la trasnformacion debido a que no sera necesaria para el posterior analisis del caso, por lo que procederemos a eliminarla

In [70]:
df_victimas= df_victimas.drop(columns=["Fecha_fallecimiento"], axis=1)

In [71]:
columnas_sd_dicc2 = {}  

for columna2 in df_victimas.columns:
    cantidad2 = (df_victimas[columna2] == 'SD').sum()
    columnas_sd_dicc2[columna2] = cantidad2

for columna2, conteo2 in columnas_sd_dicc2.items():
    print(f"Columna '{columna2}': {conteo2} veces que aparece 'SD'")

Columna 'Id': 0 veces que aparece 'SD'
Columna 'Fecha': 0 veces que aparece 'SD'
Columna 'Año': 0 veces que aparece 'SD'
Columna 'Mes': 0 veces que aparece 'SD'
Columna 'Dia': 0 veces que aparece 'SD'
Columna 'Rol': 11 veces que aparece 'SD'
Columna 'Victima': 9 veces que aparece 'SD'
Columna 'Sexo': 6 veces que aparece 'SD'
Columna 'Edad': 0 veces que aparece 'SD'


### Variable ROL

Al comprobarse que son pocos los datos donde falta la información de la variable "Rol", se decide imputar el valor mas frecuente para cada columna.

In [72]:
moda_rol = df_victimas["Rol"].mode()[0]
df_victimas.loc[df_victimas["Rol"] == "SD", "Rol"] = moda_rol

In [73]:
df_victimas = df_victimas.reset_index(drop=True)

In [74]:
df_victimas.head(5)

Unnamed: 0,Id,Fecha,Año,Mes,Dia,Rol,Victima,Sexo,Edad
0,2016-0001,2016-01-01,2016,1,1,CONDUCTOR,MOTO,MASCULINO,19.0
1,2016-0002,2016-01-02,2016,1,2,CONDUCTOR,AUTO,MASCULINO,70.0
2,2016-0003,2016-01-03,2016,1,3,CONDUCTOR,MOTO,MASCULINO,30.0
3,2016-0004,2016-01-10,2016,1,10,CONDUCTOR,MOTO,MASCULINO,18.0
4,2016-0005,2016-01-21,2016,1,21,CONDUCTOR,MOTO,MASCULINO,29.0


In [75]:
df_victimas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 717 entries, 0 to 716
Data columns (total 9 columns):
 #   Column   Non-Null Count  Dtype         
---  ------   --------------  -----         
 0   Id       717 non-null    object        
 1   Fecha    717 non-null    datetime64[ns]
 2   Año      717 non-null    int64         
 3   Mes      717 non-null    int64         
 4   Dia      717 non-null    int64         
 5   Rol      717 non-null    object        
 6   Victima  717 non-null    object        
 7   Sexo     717 non-null    object        
 8   Edad     711 non-null    float64       
dtypes: datetime64[ns](1), float64(1), int64(3), object(4)
memory usage: 50.5+ KB


In [76]:
df_victimas.isnull().sum()

Id         0
Fecha      0
Año        0
Mes        0
Dia        0
Rol        0
Victima    0
Sexo       0
Edad       6
dtype: int64

## CREACION DE NUEVAS VARIABLES
Nuevas variables con nuevas características mediante la extracción de información valiosa de las columnas ya existentes.

### Variable DIA SEMANA
Indica el dia de la semana donde sucedio el hecho

In [77]:
df_hechos["Fecha"].dtype

dtype('O')

In [78]:
df_hechos["DiaSemana"] = df_hechos["Fecha"].apply(lambda x: calendar.day_name[x.weekday()])
df_hechos.head(2)

Unnamed: 0,Id,Nro Victimas,Fecha,Año,Mes,Dia,Hora,Franja Horaria,Lugar,Tipo Calle,Calle,Cruce,Dirección Normalizada,Comuna,Longitud,Latitud,Participantes,Victima,Acusado,DiaSemana
0,2016-0001,1,2016-01-01,2016,1,1,04:00:00,4,AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ,AVENIDA,PIEDRA BUENA AV.,"FERNANDEZ DE LA CRUZ, F., GRAL. AV.","PIEDRA BUENA AV. y FERNANDEZ DE LA CRUZ, F., G...",8,-58.47534,-34.68757,MOTO-AUTO,MOTO,AUTO,Friday
1,2016-0002,1,2016-01-02,2016,1,2,01:15:00,1,AV GRAL PAZ Y AV DE LOS CORRALES,AUTOPISTA,"PAZ, GRAL. AV.",DE LOS CORRALES AV.,"PAZ, GRAL. AV. y DE LOS CORRALES AV.",9,-58.508775,-34.669777,AUTO-PASAJEROS,AUTO,PASAJEROS,Saturday


In [79]:
traduccion_dias = {
    'Monday': 'Lunes',
    'Tuesday': 'Martes',
    'Wednesday': 'Miércoles',
    'Thursday': 'Jueves',
    'Friday': 'Viernes',
    'Saturday': 'Sábado',
    'Sunday': 'Domingo'
}

df_hechos["DiaSemana"] = df_hechos["DiaSemana"].map(traduccion_dias)
df_hechos.head(2)

Unnamed: 0,Id,Nro Victimas,Fecha,Año,Mes,Dia,Hora,Franja Horaria,Lugar,Tipo Calle,Calle,Cruce,Dirección Normalizada,Comuna,Longitud,Latitud,Participantes,Victima,Acusado,DiaSemana
0,2016-0001,1,2016-01-01,2016,1,1,04:00:00,4,AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ,AVENIDA,PIEDRA BUENA AV.,"FERNANDEZ DE LA CRUZ, F., GRAL. AV.","PIEDRA BUENA AV. y FERNANDEZ DE LA CRUZ, F., G...",8,-58.47534,-34.68757,MOTO-AUTO,MOTO,AUTO,Viernes
1,2016-0002,1,2016-01-02,2016,1,2,01:15:00,1,AV GRAL PAZ Y AV DE LOS CORRALES,AUTOPISTA,"PAZ, GRAL. AV.",DE LOS CORRALES AV.,"PAZ, GRAL. AV. y DE LOS CORRALES AV.",9,-58.508775,-34.669777,AUTO-PASAJEROS,AUTO,PASAJEROS,Sábado


### Variable MOMENTODIA
Indica en que momento del dia sucedio el hecho: mañana, tarde o noche


In [80]:
def asignar_momento_dia(hora):
    if pd.notnull(hora) and 6 <= hora.hour < 12:
        return "Mañana"
    elif pd.notnull(hora) and 12 <= hora.hour < 18:
        return "Tarde"
    elif pd.notnull(hora) and 18 <= hora.hour < 24:
        return "Noche"
    elif pd.notnull(hora):
        return "Madrugada"
    else:
        return "Sin Dato"  

In [81]:
df_hechos["MomentoDia"]= df_hechos["Hora"]. apply(asignar_momento_dia)
df_hechos[["Hora","MomentoDia"]].head(15)

Unnamed: 0,Hora,MomentoDia
0,04:00:00,Madrugada
1,01:15:00,Madrugada
2,07:00:00,Mañana
3,00:00:00,Madrugada
4,05:20:00,Madrugada
5,18:30:00,Noche
6,19:10:00,Noche
7,15:20:00,Tarde
8,01:20:00,Madrugada
9,11:30:00,Mañana


## UNIFICACION DE DATASETS

In [82]:
df_hechos.columns

Index(['Id', 'Nro Victimas', 'Fecha', 'Año', 'Mes', 'Dia', 'Hora',
       'Franja Horaria', 'Lugar', 'Tipo Calle', 'Calle', 'Cruce',
       'Dirección Normalizada', 'Comuna', 'Longitud', 'Latitud',
       'Participantes', 'Victima', 'Acusado', 'DiaSemana', 'MomentoDia'],
      dtype='object')

In [83]:
df_victimas.columns

Index(['Id', 'Fecha', 'Año', 'Mes', 'Dia', 'Rol', 'Victima', 'Sexo', 'Edad'], dtype='object')

Se eliminan columnas que se encuentran repetidas para que se haga la correcta union de los dataframes

In [84]:
df_victimas = df_victimas.drop(["Fecha","Año","Mes","Dia","Victima"], axis=1)
df_victimas.columns

Index(['Id', 'Rol', 'Sexo', 'Edad'], dtype='object')

In [85]:
df_siniestros = df_hechos.merge(df_victimas, on="Id", how="left")
df_siniestros.head(5)

Unnamed: 0,Id,Nro Victimas,Fecha,Año,Mes,Dia,Hora,Franja Horaria,Lugar,Tipo Calle,...,Longitud,Latitud,Participantes,Victima,Acusado,DiaSemana,MomentoDia,Rol,Sexo,Edad
0,2016-0001,1,2016-01-01,2016,1,1,04:00:00,4,AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ,AVENIDA,...,-58.47534,-34.68757,MOTO-AUTO,MOTO,AUTO,Viernes,Madrugada,CONDUCTOR,MASCULINO,19.0
1,2016-0002,1,2016-01-02,2016,1,2,01:15:00,1,AV GRAL PAZ Y AV DE LOS CORRALES,AUTOPISTA,...,-58.508775,-34.669777,AUTO-PASAJEROS,AUTO,PASAJEROS,Sábado,Madrugada,CONDUCTOR,MASCULINO,70.0
2,2016-0003,1,2016-01-03,2016,1,3,07:00:00,7,AV ENTRE RIOS 2034,AVENIDA,...,-58.390403,-34.631894,MOTO-AUTO,MOTO,AUTO,Domingo,Mañana,CONDUCTOR,MASCULINO,30.0
3,2016-0004,1,2016-01-10,2016,1,10,00:00:00,0,AV LARRAZABAL Y GRAL VILLEGAS CONRADO,AVENIDA,...,-58.465039,-34.68093,MOTO-SD,MOTO,SD,Domingo,Madrugada,CONDUCTOR,MASCULINO,18.0
4,2016-0005,1,2016-01-21,2016,1,21,05:20:00,5,AV SAN JUAN Y PRESIDENTE LUIS SAENZ PEÑA,AVENIDA,...,-58.387183,-34.622466,MOTO-PASAJEROS,MOTO,PASAJEROS,Jueves,Madrugada,CONDUCTOR,MASCULINO,29.0


In [86]:
df_siniestros.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 707 entries, 0 to 706
Data columns (total 24 columns):
 #   Column                 Non-Null Count  Dtype   
---  ------                 --------------  -----   
 0   Id                     707 non-null    object  
 1   Nro Victimas           707 non-null    int64   
 2   Fecha                  707 non-null    object  
 3   Año                    707 non-null    int64   
 4   Mes                    707 non-null    int64   
 5   Dia                    707 non-null    int64   
 6   Hora                   707 non-null    object  
 7   Franja Horaria         707 non-null    int64   
 8   Lugar                  707 non-null    object  
 9   Tipo Calle             707 non-null    category
 10  Calle                  707 non-null    object  
 11  Cruce                  707 non-null    object  
 12  Dirección Normalizada  707 non-null    object  
 13  Comuna                 707 non-null    category
 14  Longitud               707 non-null    flo

In [87]:
df_siniestros.isnull().sum()

Id                       0
Nro Victimas             0
Fecha                    0
Año                      0
Mes                      0
Dia                      0
Hora                     0
Franja Horaria           0
Lugar                    0
Tipo Calle               0
Calle                    0
Cruce                    0
Dirección Normalizada    0
Comuna                   0
Longitud                 0
Latitud                  0
Participantes            0
Victima                  0
Acusado                  0
DiaSemana                0
MomentoDia               0
Rol                      0
Sexo                     0
Edad                     2
dtype: int64

In [88]:
df_siniestros.shape

(707, 24)

In [89]:
filas_nulas_edad = df_siniestros[df_siniestros["Edad"].isnull()]
filas_nulas_edad

Unnamed: 0,Id,Nro Victimas,Fecha,Año,Mes,Dia,Hora,Franja Horaria,Lugar,Tipo Calle,...,Longitud,Latitud,Participantes,Victima,Acusado,DiaSemana,MomentoDia,Rol,Sexo,Edad
36,2016-0049,1,2016-04-17,2016,4,17,00:00:00,0,AUTOPISTA 1 SUR PRESIDENTE ARTURO FRONDIZI KM....,AUTOPISTA,...,-58.377146,-34.636575,SD-SD,SD,SD,Domingo,Madrugada,CONDUCTOR,SD,
135,2016-0171,1,2016-12-25,2016,12,25,19:00:00,19,AU BUENOS AIRES - LA PLATA Y AU 25 DE MAYO,AUTOPISTA,...,-58.366071,-34.621507,MOTO-MOTO,MOTO,MOTO,Domingo,Noche,CONDUCTOR,SD,


La variable Edad hay 2 valores nulos, se procede a completar ese valor con la moda de edad, ya que si lo borramos perdemos 2 victimas, completarla con la moda se considera la mejor tranformacion 

In [90]:
moda_edad = df_siniestros["Edad"].mode()[0]
moda_edad
df_siniestros["Edad"] = df_siniestros["Edad"].fillna(moda_edad)

In [91]:
df_siniestros.isnull().sum()

Id                       0
Nro Victimas             0
Fecha                    0
Año                      0
Mes                      0
Dia                      0
Hora                     0
Franja Horaria           0
Lugar                    0
Tipo Calle               0
Calle                    0
Cruce                    0
Dirección Normalizada    0
Comuna                   0
Longitud                 0
Latitud                  0
Participantes            0
Victima                  0
Acusado                  0
DiaSemana                0
MomentoDia               0
Rol                      0
Sexo                     0
Edad                     0
dtype: int64

In [92]:
columnas_sd_dicc = {}  

for columna in df_siniestros.columns:
    cantidad = (df_siniestros[columna] == 'SD').sum()
    columnas_sd_dicc[columna] = cantidad

for columna, conteo in columnas_sd_dicc.items():
    print(f"Columna '{columna}': {conteo} veces que aparece 'SD'")

Columna 'Id': 0 veces que aparece 'SD'
Columna 'Nro Victimas': 0 veces que aparece 'SD'
Columna 'Fecha': 0 veces que aparece 'SD'
Columna 'Año': 0 veces que aparece 'SD'
Columna 'Mes': 0 veces que aparece 'SD'
Columna 'Dia': 0 veces que aparece 'SD'
Columna 'Hora': 0 veces que aparece 'SD'
Columna 'Franja Horaria': 0 veces que aparece 'SD'
Columna 'Lugar': 0 veces que aparece 'SD'
Columna 'Tipo Calle': 0 veces que aparece 'SD'
Columna 'Calle': 0 veces que aparece 'SD'
Columna 'Cruce': 0 veces que aparece 'SD'
Columna 'Dirección Normalizada': 0 veces que aparece 'SD'
Columna 'Comuna': 0 veces que aparece 'SD'
Columna 'Longitud': 0 veces que aparece 'SD'
Columna 'Latitud': 0 veces que aparece 'SD'
Columna 'Participantes': 0 veces que aparece 'SD'
Columna 'Victima': 8 veces que aparece 'SD'
Columna 'Acusado': 20 veces que aparece 'SD'
Columna 'DiaSemana': 0 veces que aparece 'SD'
Columna 'MomentoDia': 0 veces que aparece 'SD'
Columna 'Rol': 0 veces que aparece 'SD'
Columna 'Sexo': 2 veces

los datos SD, en victima y acusado se cambian por otros
los datos SD, en sexo se cambia de acuerdo a la moda

In [93]:
df_siniestros["Victima"] = df_siniestros["Victima"].replace({"SD": "OTRO"})

In [95]:
df_siniestros["Acusado"] = df_siniestros["Acusado"].replace({"SD": "OTRO"})

In [98]:
sexo_moda = df_siniestros["Sexo"].mode()[0]
df_siniestros["Sexo"] = df_siniestros["Sexo"].replace("SD",sexo_moda)

In [99]:
columnas_sd_dicc = {}  

for columna in df_siniestros.columns:
    cantidad = (df_siniestros[columna] == 'SD').sum()
    columnas_sd_dicc[columna] = cantidad

for columna, conteo in columnas_sd_dicc.items():
    print(f"Columna '{columna}': {conteo} veces que aparece 'SD'")

Columna 'Id': 0 veces que aparece 'SD'
Columna 'Nro Victimas': 0 veces que aparece 'SD'
Columna 'Fecha': 0 veces que aparece 'SD'
Columna 'Año': 0 veces que aparece 'SD'
Columna 'Mes': 0 veces que aparece 'SD'
Columna 'Dia': 0 veces que aparece 'SD'
Columna 'Hora': 0 veces que aparece 'SD'
Columna 'Franja Horaria': 0 veces que aparece 'SD'
Columna 'Lugar': 0 veces que aparece 'SD'
Columna 'Tipo Calle': 0 veces que aparece 'SD'
Columna 'Calle': 0 veces que aparece 'SD'
Columna 'Cruce': 0 veces que aparece 'SD'
Columna 'Dirección Normalizada': 0 veces que aparece 'SD'
Columna 'Comuna': 0 veces que aparece 'SD'
Columna 'Longitud': 0 veces que aparece 'SD'
Columna 'Latitud': 0 veces que aparece 'SD'
Columna 'Participantes': 0 veces que aparece 'SD'
Columna 'Victima': 0 veces que aparece 'SD'
Columna 'Acusado': 0 veces que aparece 'SD'
Columna 'DiaSemana': 0 veces que aparece 'SD'
Columna 'MomentoDia': 0 veces que aparece 'SD'
Columna 'Rol': 0 veces que aparece 'SD'
Columna 'Sexo': 0 veces 

## Se Guardan los nuevos Dataframe

In [100]:
df_hechos.to_csv("Datasets/df_hechos.csv", index=False)
df_victimas.to_csv("Datasets/df_victimas.csv", index=False)
df_siniestros.to_csv("Datasets/df_siniestros.csv", index=False)