# Análisis Estadístico de Accidentes de Tráfico en Estados Unidos

## Tema Seleccionado
**Análisis de Accidentes de Tráfico en Estados Unidos (2016-2023)**

### Fuente de Datos
- **Dataset**: US Accidents (2016 - 2023)
- **Fuente**: Kaggle - [US Accidents Dataset](https://www.kaggle.com/datasets/sobhanmoosavi/us-accidents/data)
- **Autor**: Sobhan Moosavi
- **Período**: Febrero 2016 - Marzo 2023
- **Cobertura**: 49 estados de Estados Unidos
- **Registros**: ~7.7 millones de accidentes de tráfico

### Justificación de la Relevancia del Tema

1. **Impacto en Salud Pública**: Los accidentes de tráfico son una de las principales causas de muerte y lesiones en Estados Unidos, afectando miles de vidas cada año.

2. **Relevancia Económica**: Los accidentes vehiculares generan costos significativos en términos de daños materiales, atención médica, y pérdidas de productividad.

3. **Planificación Urbana y Seguridad Vial**: Comprender los patrones de accidentes ayuda a las autoridades a mejorar la infraestructura vial, señalización, y políticas de seguridad.

4. **Valor Predictivo**: Identificar factores de riesgo permite desarrollar sistemas de alerta temprana y aplicaciones de navegación más seguras.

5. **Decisiones Basadas en Datos**: Este análisis puede informar políticas públicas, campañas de concientización, y asignación de recursos de emergencia.

### Preguntas de Investigación

#### Pregunta 1: **¿Qué factores ambientales y temporales están más fuertemente asociados con la severidad de los accidentes de tráfico?**

#### Pregunta 2: **¿Existen patrones temporales significativos en la ocurrencia de accidentes (hora del día, día de la semana, estacionalidad)?**

#### Pregunta 3: **¿Cómo varían las características de los accidentes entre diferentes estados y condiciones climáticas?**

## Descripción de las Variables Principales

El dataset contiene información detallada sobre accidentes de tráfico con las siguientes categorías de variables:

### 1. **Variables de Identificación**
- **ID**: Identificador único del accidente
- **Source**: Fuente de datos del reporte

### 2. **Variables Temporales**
- **Start_Time**: Fecha y hora de inicio del accidente
- **End_Time**: Fecha y hora de fin del impacto en el tráfico
- **Timezone**: Zona horaria

### 3. **Variables de Ubicación**
- **Street**: Nombre de la calle
- **City**: Ciudad
- **County**: Condado
- **State**: Estado
- **Zipcode**: Código postal
- **Country**: País
- **Lat / Lng**: Coordenadas GPS (latitud y longitud)

### 4. **Variable de Severidad**
- **Severity**: Escala del 1 al 4, donde 1 indica bajo impacto en el tráfico y 4 indica alto impacto

### 5. **Variables de Distancia y Visibilidad**
- **Distance(mi)**: Longitud de la vía afectada por el accidente (en millas)
- **Visibility(mi)**: Visibilidad en millas
- **Temperature(F)**: Temperatura en Fahrenheit
- **Wind_Chill(F)**: Sensación térmica
- **Humidity(%)**: Humedad relativa
- **Pressure(in)**: Presión atmosférica
- **Wind_Speed(mph)**: Velocidad del viento
- **Precipitation(in)**: Precipitación

### 6. **Variables Climáticas Categóricas**
- **Weather_Condition**: Condición climática (lluvia, nieve, niebla, etc.)
- **Wind_Direction**: Dirección del viento

### 7. **Variables de Infraestructura Vial**
- **Amenity**: Presencia de amenidades (restaurantes, hospitales)
- **Bump**: Presencia de topes
- **Crossing**: Presencia de cruces peatonales
- **Give_Way**: Presencia de señal de ceda el paso
- **Junction**: Presencia de intersección
- **No_Exit**: Presencia de señal de no salida
- **Railway**: Presencia de cruce ferroviario
- **Roundabout**: Presencia de rotonda
- **Station**: Presencia de estación
- **Stop**: Presencia de señal de alto
- **Traffic_Calming**: Presencia de medidas de reducción de velocidad
- **Traffic_Signal**: Presencia de semáforo
- **Turning_Loop**: Presencia de retorno

### 8. **Variables de Periodo del Día**
- **Sunrise_Sunset**: Indica si el accidente ocurrió de día o de noche
- **Civil_Twilight**: Periodo de crepúsculo civil
- **Nautical_Twilight**: Periodo de crepúsculo náutico
- **Astronomical_Twilight**: Periodo de crepúsculo astronómico

### 9. **Variables de Descripción**
- **Description**: Descripción textual del accidente
- **Side**: Lado de la calle (derecho o izquierdo)

## Resumen del Dataset

### Características del Conjunto de Datos:

**Tamaño y Alcance:**
- Aproximadamente 7.7 millones de registros de accidentes
- Período: Febrero 2016 - Marzo 2023 (7+ años)
- Cobertura geográfica: 49 estados de EE.UU.
- Más de 45 variables que describen múltiples aspectos de cada accidente

**Tipos de Variables:**
1. **Categóricas**: Estado, ciudad, condición climática, presencia de infraestructura vial
2. **Numéricas continuas**: Temperatura, visibilidad, presión, humedad, coordenadas GPS
3. **Temporales**: Fecha y hora de inicio/fin, zona horaria
4. **Binarias**: Presencia de semáforos, señales de alto, cruces, etc.
5. **Ordinal**: Severidad (1-4)

**Fuentes de Datos:**
- APIs de tráfico en tiempo real
- Cámaras de tráfico
- Reportes policiales
- Departamentos de transporte estatales

**Calidad de los Datos:**
- Algunas variables tienen valores faltantes (especialmente variables climáticas)
- Datos recopilados de múltiples fuentes asegurando cobertura amplia

### Potencial Analítico:

Este dataset es ideal para:
- Análisis exploratorio de datos (EDA)
- Modelado predictivo de severidad de accidentes
- Análisis de series temporales
- Análisis geoespacial
- Estudios de correlación entre factores ambientales y accidentes
- Machine Learning (clasificación, clustering)

---

**Cita del Dataset:**
- Moosavi, Sobhan, et al. "A Countrywide Traffic Accident Dataset." arXiv preprint arXiv:1906.05409 (2019).
- Moosavi, Sobhan, et al. "Accident Risk Prediction based on Heterogeneous Sparse Data: New Dataset and Insights." In proceedings of the 27th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems, ACM, 2019.