# Etapa 1 - Planeación y Recopilación

**Proyecto:** Ciencia de Datos - Preparación de Datos  
**Universidad:** Pontificia Universidad Javeriana  
**Curso:** Tecnologías Emergentes 2025  
**Profesor:** Luis Carlos Chicaíza

---

## 1. Selección del Conjunto de Datos

### Dataset Seleccionado:
**Nombre:** Accidentes de Tránsito en Colombia  
**Fuente:** datos.gov.co  
**URL:** [Insertar URL del dataset descargado]  

### Características del Dataset:
- **Registros:** [Completar después de la descarga]
- **Atributos:** [Completar después de la descarga]
- **Periodo:** [Completar]
- **Formato:** CSV

### Criterios de Selección:
- ✅ Contiene atributos continuos y discretos
- ✅ Más de 12 atributos
- ✅ Más de 2000 registros
- ✅ Datos públicos y confiables
- ✅ Relevancia social y para políticas públicas

## 2. Identificación de la Fuente y Pertinencia

### Fuente de Datos:
- **Portal:** datos.gov.co - Portal de Datos Abiertos del Gobierno de Colombia
- **Entidad Responsable:** [Completar: puede ser Alcaldía Municipal, ANSV, etc.]
- **Tipo de datos:** Datos administrativos de accidentes de tránsito georreferenciados
- **Actualización:** [Completar]

### Pertinencia Respecto al Objetivo de Negocio:

**Objetivo de Negocio:** Identificar patrones y factores de riesgo en accidentes de tránsito para apoyar la toma de decisiones en políticas de seguridad vial.

**Pertinencia:**
- Permite identificar zonas de alto riesgo (sectores críticos)
- Ayuda a entender patrones temporales (horas, días, meses de mayor accidentalidad)
- Facilita la caracterización de tipos de accidentes más frecuentes
- Soporta decisiones sobre asignación de recursos de prevención
- Contribuye a diseñar campañas de sensibilización focalizadas

**Stakeholders:**
- Secretarías de Movilidad
- Policía de Tránsito
- Hospitales y servicios de emergencia
- Ciudadanía en general

## 3. Contexto del Problema

### Descripción del Problema:

La accidentalidad vial es una de las principales causas de muerte y lesiones en Colombia. Según la Agencia Nacional de Seguridad Vial (ANSV), en 2024 se registraron 8,271 muertes por accidentes de tránsito en el país, siendo los motociclistas el grupo más afectado con el 61.61% de las fatalidades.

**¿Qué se busca analizar?**
- Patrones espaciales y temporales de la accidentalidad
- Factores asociados a la gravedad de los accidentes
- Características de los accidentes más comunes
- Grupos poblacionales más vulnerables
- Relación entre variables como tipo de vehículo, clase de accidente, hora del día, etc.

**¿Qué se busca resolver?**
- Reducir la tasa de accidentalidad mediante intervenciones basadas en evidencia
- Optimizar la asignación de recursos de prevención y control
- Mejorar la infraestructura vial en puntos críticos
- Diseñar campañas de educación vial más efectivas

## 4. Pregunta Guía Analítica

### Pregunta Principal:

**¿Qué factores (temporales, espaciales y características del accidente) están asociados con la mayor gravedad y frecuencia de accidentes de tránsito?**

### Preguntas Secundarias:

1. **Temporal:** ¿En qué horas del día y días de la semana ocurren más accidentes graves?
2. **Espacial:** ¿Cuáles son las zonas o sectores con mayor concentración de accidentes?
3. **Tipología:** ¿Qué tipos de accidentes (choque, atropello, volcamiento, etc.) son más frecuentes y graves?
4. **Vehículos:** ¿Qué tipos de vehículos están más involucrados en accidentes graves?
5. **Tendencias:** ¿Cómo ha evolucionado la accidentalidad en el tiempo?
6. **Correlaciones:** ¿Existe correlación entre el tipo de accidente, el tipo de vehículo y la gravedad?

## 5. Carga Inicial del Dataset

**Instrucciones:**
1. Descarga el archivo CSV desde datos.gov.co
2. Guárdalo en la carpeta `../data/raw/`
3. Ejecuta las siguientes celdas para cargar y explorar el dataset

In [None]:
# Importar librerías necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

# Configuración
warnings.filterwarnings('ignore')
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")

# Configuración de visualización
%matplotlib inline
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)

print("✓ Librerías importadas correctamente")

In [None]:
# Cargar el dataset
# NOTA: Actualizar el nombre del archivo según corresponda
file_path = '../data/raw/accidentes_transito.csv'

# Intentar cargar con diferentes encodings si es necesario
try:
    df = pd.read_csv(file_path, encoding='utf-8')
except UnicodeDecodeError:
    df = pd.read_csv(file_path, encoding='latin-1')

print(f"✓ Dataset cargado exitosamente")
print(f"  - Registros: {len(df):,}")
print(f"  - Atributos: {len(df.columns)}")

In [None]:
# Vista previa del dataset
print("=" * 80)
print("PRIMERAS 5 FILAS DEL DATASET")
print("=" * 80)
df.head()

In [None]:
# Información general del dataset
print("=" * 80)
print("INFORMACIÓN GENERAL DEL DATASET")
print("=" * 80)
df.info()

In [None]:
# Listado de columnas
print("=" * 80)
print("COLUMNAS DEL DATASET")
print("=" * 80)
for i, col in enumerate(df.columns, 1):
    print(f"{i:2d}. {col}")

In [None]:
# Verificación de criterios del proyecto
print("=" * 80)
print("VERIFICACIÓN DE CRITERIOS DEL PROYECTO")
print("=" * 80)

num_registros = len(df)
num_atributos = len(df.columns)

print(f"\n✓ Número de registros: {num_registros:,}")
if num_registros >= 2000:
    print(f"  → Cumple el criterio (≥ 2,000 registros) ✓")
else:
    print(f"  → NO cumple el criterio (< 2,000 registros) ✗")

print(f"\n✓ Número de atributos: {num_atributos}")
if num_atributos >= 12:
    print(f"  → Cumple el criterio (≥ 12 atributos) ✓")
else:
    print(f"  → NO cumple el criterio (< 12 atributos) ✗")

# Identificar tipos de variables
print("\n" + "=" * 80)
print("TIPOS DE VARIABLES")
print("=" * 80)
print(f"\nVariables numéricas (continuas): {df.select_dtypes(include=['int64', 'float64']).columns.tolist()}")
print(f"\nVariables categóricas (discretas): {df.select_dtypes(include=['object']).columns.tolist()}")

## Conclusiones de la Etapa 1

[Completar después de cargar el dataset]

- Dataset seleccionado: ✓/✗
- Cumple con criterios técnicos: ✓/✗
- Pertinencia para el objetivo: ✓/✗
- Pregunta guía definida: ✓/✗

---

**Próximo paso:** Continuar con el notebook `02_exploracion.ipynb` para realizar el análisis exploratorio de datos.