In [2]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

archivo = './Datos/Seguridad_Vial_concatenado_Enero_2024.csv'

# Leer el CSV
df = pd.read_csv(archivo, encoding='utf-8')

#Imprimir df 
print("DataFrame:")
display(df)

# Mostrar registros total
print("\n Total de registros:", len(df))

DataFrame:


Unnamed: 0,SINIESTRO,LATITUD,LONGITUD,CODIGO POSTAL,CALLE,COLONIA,CAUSA SINIESTRO,TIPO VEHICULO,COLOR,MODELO,...,VOLCADURA,PERDIDA TOTAL,CONDUCTOR DISTRAIDO,FUGA,ALCOHOL,MOTOCICLETA,BICICLETA,SEGURO,TAXI,ANIMAL
0,2611113,16.873162,-99.880596,39630,Calle 5 3,Alianza Popular,,Camión ligero,BLANCO,2023.0,...,,,,,,,,,,
1,2610888,17.649875,-101.545857,40890,Avenida Paseo de Zihuatanejo Sin dato,Centro,,Auto,BLANCO,2016.0,...,,,,,,,,,,
2,2611419,16.823040,-99.813739,39898,Carretera Cayaco Puerto Marqués 165,Llano Largo,,Auto,NEGRO,2021.0,...,,,,,,,,,,
3,2611660,16.821865,-99.808418,39906,Analco 276,Llano Largo,,Auto,BLANCO,2016.0,...,,,,,,,,,,
4,2612656,17.630906,-101.541937,40895,\N,Playa la Ropa,,Camión ligero,BLANCO,1986.0,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
28493,2698247,16.551394,-95.097310,70110,Ferrocarril 42,Moderna,,Camión,ROJO,2023.0,...,,,,,,,,,,
28494,2699256,19.814932,-97.364994,73800,16 de Septiembre 609(154),Callejón de Flores,,Auto,GRIS,2016.0,...,,,,,,,,,,
28495,2700110,19.912509,-97.281969,73587,Puebla 895,\N,,Auto,BLANCO,2018.0,...,,,,,,,,,,
28496,2700089,19.558164,-96.967190,91233,Avenida Veracruz 170a,\N,,Auto,BLANCO,2020.0,...,,,,,,,,,,



 Total de registros: 28498


In [None]:
# Checar duplicados
duplicados = df.duplicated().sum()
print(f"VALORES DUPLICADOS:\n{duplicados}")

# Checar faltantes
nulos = df.isnull().sum()
print(f"\nVALORES FALTANTES:\n{nulos}")

VALORES DUPLICADOS:
176

VALORES FALTANTES:
SINIESTRO                   0
LATITUD                     0
LONGITUD                    0
CODIGO POSTAL               0
CALLE                       0
COLONIA                     5
CAUSA SINIESTRO         28498
TIPO VEHICULO               0
COLOR                       0
MODELO                      9
NIVEL DAí‘O VEHICULO        0
PUNTO DE IMPACTO            0
Aí‘O                        0
MES                         0
DIA NUMERO                  0
DIA                         0
HORA                        0
ESTADO                      0
CIUDAD                      0
LESIONADOS                  0
RELACION LESIONADOS         0
EDAD LESIONADO          24275
GENERO LESIONADO        24196
NIVEL LESIONADO             0
HOSPITALIZADO               0
FALLECIDO               24186
AMBULANCIA              28482
ARBOL                   28449
PIEDRA                  28371
DORMIDO                 28449
GRUA                    28461
OBRA CIVIL              28

In [None]:
# Eliminamos duplicados
df = df.drop_duplicates()
# Validamos
duplicados = df.duplicated().sum()
print(f"VALORES DUPLICADOS: {duplicados}")
print("Tamaño después de eliminar duplicados:", len(df))

#toda la columna 'causa siniestro' está vacía entonces la eliminamos
#lo corrimos más de una vez entonces lo comentamos
#df = df.drop(columns=['CAUSA SINIESTRO'])

# Imputacion variables categoricas
#usamos moda porque son categóricas
cols_categoricas = ['COLONIA', 'TIPO VEHICULO', 'COLOR', 'NIVEL DAÑO VEHICULO', 'PUNTO DE IMPACTO', 'CIUDAD', 'GENERO LESIONADO']

for col in cols_categoricas:
    if df[col].isnull().sum() > 0:
        moda = df[col].mode()[0]
        df[col].fillna(moda, inplace=True)

# Imputacion variables numéricas
#se usa media porque los valores en edad lesionado y modelo no tienen outliers extremos
cols_numericas = ['EDAD LESIONADO', 'MODELO']

for col in cols_numericas:
    if df[col].isnull().sum() > 0:
        media = round(df[col].mean())
        df[col].fillna(media, inplace=True)


# variables binarias
# al ser binarias, son indicadores de presencia/ausencia
# si esta en nan significa que no ocurrió
cols_binarias = [
    'AMBULANCIA', 'ARBOL', 'PIEDRA', 'DORMIDO', 'GRUA', 'OBRA CIVIL',
    'PAVIMENTO MOJADO', 'EXPLOSION LLANTA', 'VOLCADURA', 'PERDIDA TOTAL',
    'CONDUCTOR DISTRAIDO', 'FUGA', 'ALCOHOL', 'MOTOCICLETA', 'BICICLETA',
    'SEGURO', 'TAXI', 'ANIMAL'
]

# Reemplazar nan por 0
df[cols_binarias] = df[cols_binarias].fillna(0)


# Validamos
nulos = df.isnull().sum()
print(f"\nVALORES FALTANTES:\n{nulos}")
print("Tamaño después de eliminar faltantes:", len(df))

VALORES DUPLICADOS: 0
Tamaño después de eliminar duplicados: 28322


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[col].fillna(moda, inplace=True)


KeyError: 'DAÑO'

In [None]:
#transformación
# Convertir 'FALLECIDO' y 'HOSPITALIZADO a binaria 0/1
# para trabajar todas como binarias y no tener una con Si y no, que es lo mismo
df['FALLECIDO'] = df['FALLECIDO'].map({'SI': 1, 'NO': 0})
df['FALLECIDO'] = df['FALLECIDO'].fillna(0).astype(int)

df['HOSPITALIZADO'] = df['HOSPITALIZADO'].map({'SI': 1, 'NO': 0})
df['HOSPITALIZADO'] = df['HOSPITALIZADO'].fillna(0).astype(int)



In [None]:
# antes
print(df.dtypes)

SINIESTRO                int64
LATITUD                float64
LONGITUD               float64
CODIGO POSTAL            int64
CALLE                   object
COLONIA                 object
CAUSA SINIESTRO        float64
TIPO VEHICULO           object
COLOR                   object
MODELO                 float64
NIVEL DAÑO VEHICULO     object
PUNTO DE IMPACTO        object
AÑO                      int64
MES                     object
DIA NUMERO               int64
DIA                     object
HORA                     int64
ESTADO                  object
CIUDAD                  object
LESIONADOS               int64
RELACION LESIONADOS     object
EDAD LESIONADO         float64
GENERO LESIONADO        object
NIVEL LESIONADO         object
HOSPITALIZADO            int64
FALLECIDO                int64
AMBULANCIA             float64
ARBOL                  float64
PIEDRA                 float64
DORMIDO                float64
GRUA                   float64
OBRA CIVIL             float64
PAVIMENT

In [None]:
#las convertimos de float a entero porque no tendrá decimales
cols_binarias = [
    'HOSPITALIZADO', 'FALLECIDO', 'AMBULANCIA', 'ARBOL', 'PIEDRA', 'DORMIDO',
    'GRUA', 'OBRA CIVIL', 'PAVIMENTO MOJADO', 'EXPLOSION LLANTA', 'VOLCADURA',
    'PERDIDA TOTAL', 'CONDUCTOR DISTRAIDO', 'FUGA', 'ALCOHOL', 'MOTOCICLETA',
    'BICICLETA', 'SEGURO', 'TAXI', 'ANIMAL'
]

df[cols_binarias] = df[cols_binarias].astype(int)

# DESPUES
print(df.dtypes)

SINIESTRO                int64
LATITUD                float64
LONGITUD               float64
CODIGO POSTAL            int64
CALLE                   object
COLONIA                 object
CAUSA SINIESTRO        float64
TIPO VEHICULO           object
COLOR                   object
MODELO                 float64
NIVEL DAÑO VEHICULO     object
PUNTO DE IMPACTO        object
AÑO                      int64
MES                     object
DIA NUMERO               int64
DIA                     object
HORA                     int64
ESTADO                  object
CIUDAD                  object
LESIONADOS               int64
RELACION LESIONADOS     object
EDAD LESIONADO         float64
GENERO LESIONADO        object
NIVEL LESIONADO         object
HOSPITALIZADO            int64
FALLECIDO                int64
AMBULANCIA               int64
ARBOL                    int64
PIEDRA                   int64
DORMIDO                  int64
GRUA                     int64
OBRA CIVIL               int64
PAVIMENT

In [None]:
#establecemos la columna siniestro como el índice, pues es un valor único entre cada uno que nos permite buscarlos por este mismo como su ID
df.set_index('SINIESTRO', inplace=True)
#display
display(df)

Unnamed: 0_level_0,LATITUD,LONGITUD,CODIGO POSTAL,CALLE,COLONIA,CAUSA SINIESTRO,TIPO VEHICULO,COLOR,MODELO,NIVEL DAÑO VEHICULO,...,VOLCADURA,PERDIDA TOTAL,CONDUCTOR DISTRAIDO,FUGA,ALCOHOL,MOTOCICLETA,BICICLETA,SEGURO,TAXI,ANIMAL
SINIESTRO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
2611113,16.873162,-99.880596,39630,Calle 5 3,Alianza Popular,,Camión ligero,BLANCO,2023.0,Bajo,...,0,0,0,0,0,0,0,0,0,0
2610888,17.649875,-101.545857,40890,Avenida Paseo de Zihuatanejo Sin dato,Centro,,Auto,BLANCO,2016.0,Bajo,...,0,0,0,0,0,0,0,0,0,0
2611419,16.823040,-99.813739,39898,Carretera Cayaco Puerto Marqués 165,Llano Largo,,Auto,NEGRO,2021.0,Bajo,...,0,0,0,0,0,0,0,0,0,0
2611660,16.821865,-99.808418,39906,Analco 276,Llano Largo,,Auto,BLANCO,2016.0,Bajo,...,0,0,0,0,0,0,0,0,0,0
2612656,17.630906,-101.541937,40895,\N,Playa la Ropa,,Camión ligero,BLANCO,1986.0,Alto,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2698247,16.551394,-95.097310,70110,Ferrocarril 42,Moderna,,Camión,ROJO,2023.0,Daño menor / sin daño,...,0,0,0,0,0,0,0,0,0,0
2699256,19.814932,-97.364994,73800,16 de Septiembre 609(154),Callejón de Flores,,Auto,GRIS,2016.0,Daño menor / sin daño,...,0,0,0,0,0,0,0,0,0,0
2700110,19.912509,-97.281969,73587,Puebla 895,\N,,Auto,BLANCO,2018.0,Bajo,...,0,0,0,0,0,0,0,0,0,0
2700089,19.558164,-96.967190,91233,Avenida Veracruz 170a,\N,,Auto,BLANCO,2020.0,Bajo,...,0,0,0,0,0,0,0,0,0,0


In [None]:
# Normalizamos directamente sobre las columnas numéricas
numericas = ['LATITUD', 'LONGITUD', 'MODELO', 'AÑO', 'HORA']

for col in numericas:
    df[col] = pd.to_numeric(df[col], errors='coerce')  # convierte texto a número
    df[col] = (df[col] - df[col].min()) / (df[col].max() - df[col].min())

print("Normalización aplicada:")
print(df[numericas].head())

Normalización aplicada:
            LATITUD  LONGITUD    MODELO  AÑO      HORA
SINIESTRO                                             
2611113    0.122302  0.365323  0.983333  NaN  0.565217
2610888    0.165458  0.330036  0.866667  NaN  0.608696
2611419    0.119517  0.366740  0.950000  NaN  0.695652
2611660    0.119452  0.366852  0.866667  NaN  0.869565
2612656    0.164404  0.330119  0.366667  NaN  0.521739


In [None]:
# Convertimos a numérico
df['EDAD LESIONADO'] = pd.to_numeric(df['EDAD LESIONADO'], errors='coerce')

# Creamos categorías según rangos de edad
df['GRUPO_EDAD'] = pd.cut(df['EDAD LESIONADO'],
                          bins=[0, 17, 40, 65, 100],
                          labels=['Menor', 'Joven adulto', 'Adulto', 'Adulto mayor'])

print("Discretización aplicada:")
print(df[['EDAD LESIONADO', 'GRUPO_EDAD']].head(10))


Discretización aplicada:
           EDAD LESIONADO    GRUPO_EDAD
SINIESTRO                              
2611113              37.0  Joven adulto
2610888              37.0  Joven adulto
2611419              37.0  Joven adulto
2611660              37.0  Joven adulto
2612656              37.0  Joven adulto
2612472              37.0  Joven adulto
2613326              37.0  Joven adulto
2613183              37.0  Joven adulto
2613545              37.0  Joven adulto
2613569              37.0  Joven adulto


In [None]:
# Nueva columna: siniestro grave
df['SINIESTRO_GRAVE'] = [
    'Sí' if (f == 1 or str(n).upper() == 'GRAVE') else 'No'
    for f, n in zip(df['FALLECIDO'], df['NIVEL LESIONADO'])
]

# Nueva columna: ocurrió de noche (antes de 6am o después de 8pm)
df['HORA'] = pd.to_numeric(df['HORA'], errors='coerce')
df['OCURRIO_DE_NOCHE'] = [
    'Sí' if (h >= 20 or h < 6) else 'No'
    if not np.isnan(h) else np.nan for h in df['HORA']
]

print("Comprensión aplicada:")
print(df[['HORA', 'OCURRIO_DE_NOCHE', 'SINIESTRO_GRAVE']].head(10))


Comprensión aplicada:
               HORA OCURRIO_DE_NOCHE SINIESTRO_GRAVE
SINIESTRO                                           
2611113    0.565217               Sí              No
2610888    0.608696               Sí              No
2611419    0.695652               Sí              No
2611660    0.869565               Sí              No
2612656    0.521739               Sí              No
2612472    0.521739               Sí              No
2613326    0.608696               Sí              No
2613183    0.652174               Sí              No
2613545    0.695652               Sí              No
2613569    0.695652               Sí              No
