<a href="https://colab.research.google.com/github/AleAguirreM/Proyecto-ACCIDENTALIDAD-VIAL/blob/main/Untitled3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [53]:
## 1. Configuración e Importación de Librerías

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [54]:
URL='https://raw.githubusercontent.com/AleAguirreM/Proyecto-ACCIDENTALIDAD-VIAL/main/AMVA_Accidentalidad_20191022_2.csv'

In [55]:
# Configuración de visualización
sns.set_style("whitegrid")
plt.rcParams['figure.figsize'] = (10, 6)

## 2. Adquisición de Datos

# Asume que los datos están en data/raw/
try:
    df = pd.read_csv(URL, sep=';', encoding='latin-1')
    print("Datos cargados exitosamente. Forma:", df.shape)
except FileNotFoundError:
    print("Error: El archivo 'incidentes.csv' no se encontró en la ruta esperada.")

Datos cargados exitosamente. Forma: (203450, 11)


In [56]:
df

Unnamed: 0,COD_MUNICIPIO,MUNICIPIO,FECHA,HORA,DÍA DE LA SEMANA,CLASE,DIRECCIÓN,GRAVEDAÑOSSADAÑOSS,BARRIO,COMUNA,DISEÑO
0,79.0,BARBOSA,03/01/2015,01:00:00 PM,SABADO,CHOQUE,VIA BELLO HATILLO KM16+200,HERIDOS,EL HATILLO,SIN INFORMACIÓN,TRAMO DE VIA
1,79.0,BARBOSA,07/01/2015,03:00:00 PM,MIERCOLES,CHOQUE,HATILLO-BELLO KM 18+00,HERIDOS,PARQUE PRINCIPAL,SIN INFORMACIÓN,TRAMO DE VIA
2,79.0,BARBOSA,04/01/2015,04:01:00 AM,DOMINGO,CHOQUE,KM 16+395 METROS BARBOSA-HATILLO,HERIDOS,VIA EL HATILLO-CISNEROS,SIN INFORMACIÓN,TRAMO DE VIA
3,79.0,BARBOSA,05/01/2015,12:00:00 PM,LUNES,CHOQUE,BELLO- DON MATIAS KM 9+600,HERIDOS,EL HATILLO,SIN INFORMACIÓN,TRAMO DE VIA
4,79.0,BARBOSA,11/01/2015,01:30:00 PM,DOMINGO,CHOQUE,LOS ABUELOS,DAÑOS,PARQUE PRINCIPAL,SIN INFORMACIÓN,TRAMO DE VIA
...,...,...,...,...,...,...,...,...,...,...,...
203445,,,,,,,,,,,
203446,,,,,,,,,,,
203447,,,,,,,,,,,
203448,,,,,,,,,,,


In [57]:
print("\n--- Vista Preliminar (Primeras 5 filas) ---")
print(df.head())

print("\n--- Información General y Tipos de Datos ---")
df.info()

print("\n--- Valores Nulos (Porcentaje) ---")
print((df.isnull().sum() / len(df)) * 100)




--- Vista Preliminar (Primeras 5 filas) ---
   COD_MUNICIPIO MUNICIPIO       FECHA         HORA DÍA DE LA SEMANA   CLASE  \
0           79.0   BARBOSA  03/01/2015  01:00:00 PM           SABADO  CHOQUE   
1           79.0   BARBOSA  07/01/2015  03:00:00 PM        MIERCOLES  CHOQUE   
2           79.0   BARBOSA  04/01/2015  04:01:00 AM        DOMINGO    CHOQUE   
3           79.0   BARBOSA  05/01/2015  12:00:00 PM        LUNES      CHOQUE   
4           79.0   BARBOSA  11/01/2015  01:30:00 PM        DOMINGO    CHOQUE   

                          DIRECCIÓN GRAVEDAÑOSSADAÑOSS  \
0        VIA BELLO HATILLO KM16+200            HERIDOS   
1            HATILLO-BELLO KM 18+00            HERIDOS   
2  KM 16+395 METROS BARBOSA-HATILLO            HERIDOS   
3        BELLO- DON MATIAS KM 9+600            HERIDOS   
4                       LOS ABUELOS              DAÑOS   

                    BARRIO           COMUNA        DISEÑO  
0               EL HATILLO  SIN INFORMACIÓN  TRAMO DE VIA  
1    

In [58]:


df = df.dropna()

In [59]:
import pandas as pd
import numpy as np

def limpiar_y_convertir_hora(serie_hora: pd.Series) -> pd.Series:
    """
    Convierte una serie de horas con diferentes formatos (HH:MM, HH:MM:SS, I:MM:SS p.m.)
    al formato militar unificado 'HH:MM', usando métodos vectorizados de Pandas/NumPy.
    """
    # 1. Limpieza inicial: Convertir a string, eliminar espacios y poner en minúsculas
    horas = serie_hora.astype(str).str.lower().str.strip()

    # --- Intentos de Parseo Vectorizado ---

    # Intento A: Formato 12 horas con segundos (I:MM:SS p.m./a.m.)
    hora_ampm = pd.to_datetime(horas, format='%I:%M:%S %p', errors='coerce').dt.strftime('%H:%M')

    # Intento B: Formato 24 horas con segundos (HH:MM:SS)
    hora_24h_seg = pd.to_datetime(horas, format='%H:%M:%S', errors='coerce').dt.strftime('%H:%M')

    # Intento C: Formato 24 horas sin segundos (HH:MM)
    hora_24h_sin_seg = pd.to_datetime(horas, format='%H:%M', errors='coerce').dt.strftime('%H:%M')

    # --- Consolidación de Resultados (Usando numpy.where para vectorización) ---

    # En numpy.where, los NaT (Not a Time) o NaN de Pandas se convierten en 'nan' strings

    # 2. Priorizar la conversión AM/PM (Intento A)
    resultado = hora_ampm

    # 3. Rellenar los valores nulos (NaT) de A con los valores válidos del Intento B
    resultado = np.where(resultado.isna(), hora_24h_seg, resultado)

    # 4. Rellenar los valores nulos restantes con los valores válidos del Intento C
    # Nota: Aquí usamos el 'nan' string, ya que np.where lo produce para valores nulos/NaT
    resultado = np.where(resultado == 'nan', hora_24h_sin_seg, resultado)

    # 5. CORRECCIÓN CLAVE: Convertir el numpy.ndarray final a pd.Series
    # y limpiar los strings 'nan' a NaN de Pandas para que sean nulos reales.
    resultado_series = pd.Series(resultado, index=serie_hora.index)
    resultado_series = resultado_series.replace('nan', np.nan)

    return resultado_series

# --- Bloque para Aplicar la Función (Ejemplo) ---

# Aplicar la función a la columna
df['HORA_MILITAR'] = limpiar_y_convertir_hora(df['HORA'])

print("Función corregida aplicada exitosamente. Verifica la columna 'HORA_MILITAR'.")
print(df)

Función corregida aplicada exitosamente. Verifica la columna 'HORA_MILITAR'.
        COD_MUNICIPIO MUNICIPIO       FECHA         HORA DÍA DE LA SEMANA  \
0                79.0   BARBOSA  03/01/2015  01:00:00 PM           SABADO   
1                79.0   BARBOSA  07/01/2015  03:00:00 PM        MIERCOLES   
2                79.0   BARBOSA  04/01/2015  04:01:00 AM        DOMINGO     
3                79.0   BARBOSA  05/01/2015  12:00:00 PM        LUNES       
4                79.0   BARBOSA  11/01/2015  01:30:00 PM        DOMINGO     
...               ...       ...         ...          ...              ...   
203430          631.0  SABANETA  30/08/2018     18:45:00           JUEVES   
203431          631.0  SABANETA  30/08/2018     18:45:00           JUEVES   
203432          631.0  SABANETA  31/08/2018     17:00:00          VIERNES   
203433          631.0  SABANETA  31/08/2018     18:10:00          VIERNES   
203434          631.0  SABANETA   2/08/2018     20:15:00           JUEVES   

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['HORA_MILITAR'] = limpiar_y_convertir_hora(df['HORA'])


In [60]:
df

Unnamed: 0,COD_MUNICIPIO,MUNICIPIO,FECHA,HORA,DÍA DE LA SEMANA,CLASE,DIRECCIÓN,GRAVEDAÑOSSADAÑOSS,BARRIO,COMUNA,DISEÑO,HORA_MILITAR
0,79.0,BARBOSA,03/01/2015,01:00:00 PM,SABADO,CHOQUE,VIA BELLO HATILLO KM16+200,HERIDOS,EL HATILLO,SIN INFORMACIÓN,TRAMO DE VIA,13:00
1,79.0,BARBOSA,07/01/2015,03:00:00 PM,MIERCOLES,CHOQUE,HATILLO-BELLO KM 18+00,HERIDOS,PARQUE PRINCIPAL,SIN INFORMACIÓN,TRAMO DE VIA,15:00
2,79.0,BARBOSA,04/01/2015,04:01:00 AM,DOMINGO,CHOQUE,KM 16+395 METROS BARBOSA-HATILLO,HERIDOS,VIA EL HATILLO-CISNEROS,SIN INFORMACIÓN,TRAMO DE VIA,04:01
3,79.0,BARBOSA,05/01/2015,12:00:00 PM,LUNES,CHOQUE,BELLO- DON MATIAS KM 9+600,HERIDOS,EL HATILLO,SIN INFORMACIÓN,TRAMO DE VIA,12:00
4,79.0,BARBOSA,11/01/2015,01:30:00 PM,DOMINGO,CHOQUE,LOS ABUELOS,DAÑOS,PARQUE PRINCIPAL,SIN INFORMACIÓN,TRAMO DE VIA,13:30
...,...,...,...,...,...,...,...,...,...,...,...,...
203430,631.0,SABANETA,30/08/2018,18:45:00,JUEVES,CHOQUE,CL 77 Sur CR 45,HERIDOS,SIN INFORMACIÓN,SIN INFORMACIÓN,SIN INFORMACIÓN,18:45
203431,631.0,SABANETA,30/08/2018,18:45:00,JUEVES,CHOQUE,CL 77 Sur CR 45,HERIDOS,SIN INFORMACIÓN,SIN INFORMACIÓN,SIN INFORMACIÓN,18:45
203432,631.0,SABANETA,31/08/2018,17:00:00,VIERNES,CAIDA OCUPANTE,CL 52 Sur CR 44,HERIDOS,SIN INFORMACIÓN,SIN INFORMACIÓN,SIN INFORMACIÓN,17:00
203433,631.0,SABANETA,31/08/2018,18:10:00,VIERNES,VOLCAMIENTO,CR 49 CL 51 Sur,HERIDOS,SIN INFORMACIÓN,SIN INFORMACIÓN,SIN INFORMACIÓN,18:10


In [62]:
# Columna con la fecha a convertir
columna_fecha = df['FECHA']

# 1. Aplicar pd.to_datetime con el formato correcto: DD/MM/YYYY
df['FECHA_LIMPIA'] = pd.to_datetime(
    columna_fecha,
    format='%d/%m/%Y',  # <-- ESTO ES LO QUE CORRIGE EL ERROR

)

ValueError: unconverted data remains when parsing with format "%d/%m/%Y": " 03:40:00", at position 1225. You might want to try:
    - passing `format` if your strings have a consistent format;
    - passing `format='ISO8601'` if your strings are all ISO8601 but not necessarily in exactly the same format;
    - passing `format='mixed'`, and the format will be inferred for each element individually. You might want to use `dayfirst` alongside this.

In [None]:
print(df['DÍA DE LA SEMANA'].unique())

In [None]:
# 1. Aplicar .str.strip() a la columna para eliminar espacios
df['DÍA DE LA SEMANA'] = df['DÍA DE LA SEMANA'].astype(str).str.strip()

# --- Verificación ---

# 2. Obtener los valores únicos corregidos (deberían ser solo 7 ahora)
valores_unicos_corregidos = df['DÍA DE LA SEMANA'].unique()

In [None]:
## 4. Análisis Exploratorio (EDA) - Patrones de Tiempo y Ubicación

# **A. Limpieza de Tiempos y Fechas**
# Convertir 'FECHA' a datetime y crear nuevas variables temporales
df['MES'] = df['FECHA'].dt.to_period('M')
df['AÑO'] = df['FECHA'].dt.year

# **B. Distribución de Siniestros en el Tiempo**
plt.figure(figsize=(12, 5))
df.groupby('MES')['CLASE'].count().plot(kind='line')
plt.title('Tendencia de Incidentes a lo Largo del Tiempo')
plt.xlabel('Fecha')
plt.ylabel('Número de Incidentes')
plt.show()

# **C. Distribución por Día de la Semana y Hora**
fig, axes = plt.subplots(1, 2, figsize=(15, 5))

# Día de la Semana
sns.countplot(y='DÍA DE LA SEMANA', data=df, order=df['DÍA DE LA SEMANA'].value_counts().index, ax=axes[0])
axes[0].set_title('Incidentes por Día de la Semana')


# **D. Análisis de Gravedad y Ubicación**
print("\n--- Conteo de Gravedad (GRAVEDAÑOSSADAÑOSS) ---")
print(df['GRAVEDAÑOSSADAÑOSS'].value_counts())

plt.figure(figsize=(10, 6))
sns.countplot(x='GRAVEDAÑOSSADAÑOSS', hue='CLASE', data=df)
plt.title('Gravedad de Incidentes por Clase')
plt.show()

# **E. Top 10 de Municipios/Barrios con más Incidentes**
top_10_municipios = df['MUNICIPIO'].value_counts().nlargest(10)
plt.figure(figsize=(10, 6))
sns.barplot(x=top_10_municipios.values, y=top_10_municipios.index)
plt.title('Top 10 Municipios con Más Incidentes')
plt.show()

# Nota: El resultado de este EDA guiará el Preprocesamiento (Notebook 02).