# 游닂 An치lisis Exploratorio Visual de Accidentes Viales en CDMX (2024)

Este notebook tiene como objetivo realizar un **an치lisis exploratorio visual (EDA)** del dataset limpio de accidentes de tr치nsito en la Ciudad de M칠xico. A trav칠s de gr치ficos interactivos generados con **Plotly**, se exploran patrones temporales, geogr치ficos y categ칩ricos de los siniestros viales.

Se analizan variables como:
- Fecha y hora del evento
- Alcald칤a y colonia donde ocurri칩
- Tipo de evento reportado
- Nivel de prioridad en la atenci칩n

El prop칩sito de este an치lisis es **identificar tendencias y comportamientos clave** que servir치n como base para el dise침o del dashboard interactivo en Streamlit.


In [None]:
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go
from datetime import datetime

df = pd.read_csv('../data/accidentes_cdmx_limpio.csv', parse_dates=['fecha_evento'])

# Extracci칩n de variables temporales

# Extrae el n칰mero de mes (1 a 12) y lo guarda en una nueva columna llamada 'mes'
df['mes'] = df['fecha_evento'].dt.month

# Obtiene el nombre del d칤a de la semana y lo guarda en 'd칤a_semana'
df['d칤a_semana'] = df['fecha_evento'].dt.day_name()

# Extrae la hora (en formato 24h, de 0 a 23) y la guarda en la columna 'hora'
df['hora'] = df['fecha_evento'].dt.hour

In [2]:
# Gr치fico de accidentes por mes. 

# Diccionario para traducir n칰mero de mes a nombre en espa침ol
meses_es = {
    1: 'Enero', 2: 'Febrero', 3: 'Marzo', 4: 'Abril',
    5: 'Mayo', 6: 'Junio', 7: 'Julio', 8: 'Agosto',
    9: 'Septiembre', 10: 'Octubre', 11: 'Noviembre', 12: 'Diciembre'
}

# Cuenta accidentes por mes y ordena de enero a diciembre
conteo_meses = df['mes'].value_counts().sort_index()

# Convierte el n칰mero de mes en su nombre en espa침ol
conteo_meses.index = conteo_meses.index.map(meses_es)

# Crea gr치fico de barras con nombres de meses como eje X
fig = px.bar(
    x=conteo_meses.index,
    y=conteo_meses.values,
    title="Accidentes por Mes",
    labels={'x': 'Mes', 'y': 'N칰mero de accidentes'}
)

# Ajusta etiquetas de los ejes X y Y
fig.update_layout(xaxis_title='Mes', yaxis_title='N칰mero de accidentes')

# Muestra el gr치fico
fig.show()




- Los accidentes est치n relativamente distribuidos a lo largo del a침o. Sin embargo, los meses de **julio** y **septiembre** presentan una leve disminuci칩n.

In [3]:
# Gr치fico de accidentes por d칤a de la semana. 

# Orden correcto de los d칤as en ingl칠s (para mantener el orden cronol칩gico)
orden = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']

# Diccionario para traducir los d칤as de ingl칠s a espa침ol
dias_es = {
    'Monday': 'Lunes', 'Tuesday': 'Martes', 'Wednesday': 'Mi칠rcoles',
    'Thursday': 'Jueves', 'Friday': 'Viernes', 'Saturday': 'S치bado', 'Sunday': 'Domingo'
}

# Cuenta los accidentes por d칤a y reordena seg칰n la semana
conteo_dias = df['d칤a_semana'].value_counts().reindex(orden)

# Traduce los nombres de los d칤as al espa침ol
conteo_dias.index = conteo_dias.index.map(dias_es)

# Crea gr치fico de barras con d칤as en espa침ol
fig = px.bar(
    x=conteo_dias.index,
    y=conteo_dias.values,
    labels={'x': 'D칤a de la semana', 'y': 'N칰mero de accidentes'},
    title='Accidentes por D칤a de la Semana'
)

# Gira ligeramente las etiquetas del eje X para mayor legibilidad
fig.update_layout(xaxis_tickangle=-30)

# Muestra el gr치fico
fig.show()


- Se observan m치s accidentes los **viernes** y **s치bados**, lo cual es coherente con un aumento en la movilidad por actividades sociales y laborales.

In [4]:
# Gr치fico de accidentes por hora del d칤a

# Crea una nueva columna 'hora_num' con la hora como n칰mero entero (0 a 23)
df['hora_num'] = pd.to_datetime(df['hora_evento'].astype(str), format='%H:%M:%S', errors='coerce').dt.hour

# Cuenta la cantidad de accidentes por cada hora y ordena de 0 a 23
conteo_horas = df['hora_num'].value_counts().sort_index()

# Crea gr치fico de barras con las horas como eje X
fig = px.bar(
    x=conteo_horas.index,
    y=conteo_horas.values,
    labels={'x': 'Hora del d칤a', 'y': 'N칰mero de accidentes'},
    title='Distribuci칩n de accidentes por hora'
)

# Asegura que se muestre cada hora como una marca en el eje X
fig.update_layout(xaxis=dict(dtick=1))

# Muestra el gr치fico
fig.show()



- Claros picos de accidentes a las **8:00 AM** y entre las **16:00 y 19:00 hrs**, correspondientes a las horas pico del tr치nsito.


In [5]:
# Gr치fico de accidentes por alcald칤a

# Cuenta la cantidad de accidentes por alcald칤a
conteo_alcaldias = df['alcaldia'].value_counts()

# Crea gr치fico de barras con nombres de alcald칤as en el eje X
fig = px.bar(
    x=conteo_alcaldias.index,
    y=conteo_alcaldias.values,
    title="Accidentes por Alcald칤a",
    labels={'x': 'Alcald칤a', 'y': 'N칰mero de accidentes'}
)

# Ajusta t칤tulos de ejes y gira etiquetas del eje X para mejor lectura
fig.update_layout(
    xaxis_title='Alcald칤a',
    yaxis_title='N칰mero de accidentes',
    xaxis_tickangle=-45
)

# Muestra el gr치fico
fig.show()


- Las alcald칤as con m치s accidentes son **Cuauht칠moc**, **Iztapalapa** y **Gustavo A. Madero**. Estas zonas suelen tener alta densidad vehicular y actividad comercial.

In [6]:
# Gr치fico: Top 20 colonias con m치s accidentes

# Obtiene las 20 colonias con mayor cantidad de accidentes
top_colonias = df['colonia'].value_counts().head(20)

# Crea gr치fico de barras con nombres de colonias en el eje X
fig = px.bar(
    x=top_colonias.index,
    y=top_colonias.values,
    title="Top 20 Colonias con m치s Accidentes",
    labels={'x': 'Colonia', 'y': 'N칰mero de accidentes'}
)

# Ajusta t칤tulos y gira etiquetas del eje X para mejor lectura
fig.update_layout(
    xaxis_title='Colonia',
    yaxis_title='N칰mero de accidentes',
    xaxis_tickangle=-45
)

# Muestra el gr치fico
fig.show()


- Las colonias con m치s accidentes son **Agr칤cola Oriental**, **Centro** y **Ju치rez**. Representan puntos cr칤ticos a considerar en futuras visualizaciones con mapa.


In [7]:
# Gr치fico de frecuencia por tipo de evento

# Cuenta la cantidad de accidentes por cada tipo de evento (ej. Choque, Atropellado)
conteo_eventos = df['tipo_evento'].value_counts()

# Crea gr치fico de barras con los tipos de evento en el eje X
fig = px.bar(
    x=conteo_eventos.index,
    y=conteo_eventos.values,
    title="Frecuencia por Tipo de Evento",
    labels={'x': 'Tipo de evento', 'y': 'N칰mero de accidentes'}
)

# Ajustes de presentaci칩n: ejes, 치ngulo de etiquetas y sin leyenda
fig.update_layout(
    xaxis_title='Tipo de evento',
    yaxis_title='N칰mero de accidentes',
    xaxis_tickangle=-30,
    showlegend=False  # Oculta la leyenda (innecesaria aqu칤)
)

# Muestra el gr치fico
fig.show()

- El evento m치s frecuente es el **choque**, seguido por **derrapado** y **atropellado**. Esto sugiere que la mayor칤a de los incidentes involucran veh칤culos en movimiento, no peatones.

In [8]:
# Gr치fico de distribuci칩n de prioridad de atenci칩n

# Crea un gr치fico circular (pie chart) mostrando la proporci칩n de cada nivel de prioridad
fig = px.pie(
    df,
    names='prioridad',  # Agrupa los datos por la columna 'prioridad'
    title="Distribuci칩n de Prioridad de Atenci칩n",
    color_discrete_sequence=px.colors.qualitative.Set2  # Colores suaves y diferenciados
)

# Ajustes visuales del gr치fico
fig.update_traces(
    textinfo='label+percent',         # Muestra etiqueta + porcentaje en cada segmento
    textposition='outside',           # Ubica los textos fuera del c칤rculo para mayor legibilidad
    insidetextorientation='radial',   # Orientaci칩n interna del texto si fuera necesario
    marker=dict(
        line=dict(color='white', width=2)  # Bordes blancos para separar bien los segmentos
    )
)

# Muestra el gr치fico
fig.show()


- M치s del **80%** de los accidentes se clasifican como de **prioridad baja**, con muy pocos casos en nivel alto. Esto podr칤a reflejar que la mayor칤a no son eventos graves, o un subregistro en los m치s severos.
