# üìê Documentaci√≥n de F√≥rmulas y Feature Engineering

## Sistema de Ruteo Seguro para CDMX - An√°lisis de Accidentes de Tr√°nsito

Este documento describe **todas las f√≥rmulas matem√°ticas, ponderaciones y columnas** utilizadas en el proyecto, desde el procesamiento inicial hasta el sistema de ruteo final.

---

## üìä Tabla de Contenido

1. [Columnas del Dataset Original](#1.-Columnas-del-Dataset-Original)
2. [Feature Engineering - Columnas Generadas](#2.-Feature-Engineering---Columnas-Generadas)
3. [F√≥rmulas de An√°lisis Espacial](#3.-F√≥rmulas-de-An√°lisis-Espacial)
4. [F√≥rmulas de Machine Learning](#4.-F√≥rmulas-de-Machine-Learning)
5. [F√≥rmulas de Ruteo y Ponderaci√≥n de Calles](#5.-F√≥rmulas-de-Ruteo-y-Ponderaci√≥n-de-Calles)
6. [√çndices Compuestos y Scoring Final](#6.-√çndices-Compuestos-y-Scoring-Final)

---

## 1. Columnas del Dataset Original

### üìÇ Datos de Accidentes C5 CDMX (2019-2023)

**Columnas originales del dataset de incidentes viales:**

| Columna | Tipo | Descripci√≥n | Origen |
|---------|------|-------------|--------|
| `id` | String | Identificador √∫nico del accidente | Original C5 |
| `edo` | String | Estado (Ciudad de M√©xico) | Original C5 |
| `mes` | Integer | Mes del accidente (1-12) | Original C5 |
| `anio` | Integer | A√±o del accidente | Original C5 |
| `mpio` | String | Municipio/Alcald√≠a | Original C5 |
| `hora` | Integer | Hora del d√≠a (0-23) | Original C5 |
| `minutos` | Integer | Minutos (0-59) | Original C5 |
| `dia` | Integer | D√≠a del mes | Original C5 |
| `diasemana` | Integer | D√≠a de la semana (0=Lunes, 6=Domingo) | Original C5 |
| `urbana` | Integer | ¬øEs zona urbana? (1=S√≠, 0=No) | Original C5 |
| `latitud` | Float | Coordenada latitud WGS84 | Original C5 |
| `longitud` | Float | Coordenada longitud WGS84 | Original C5 |
| `CLASACC` | String | Clasificaci√≥n del accidente (Fatal/Solo Da√±os/etc.) | Original C5 |
| `tipo_accidente` | String | Tipo espec√≠fico (Colisi√≥n/Atropello/etc.) | Original C5 |
| `delegacion` | String | Alcald√≠a donde ocurri√≥ | Original C5 |

**Total de registros:** 32,139 accidentes (2019-2023)

---

## 2. Feature Engineering - Columnas Generadas

### üîß Procesamiento en `proceso.ipynb`

#### 2.1 Matching con Red Vial OSM

**Columnas agregadas al vincular accidentes con la red vial:**

| Columna | F√≥rmula/M√©todo | Descripci√≥n |
|---------|----------------|-------------|
| `nodo_cercano` | $\text{argmin}(\sqrt{(x_{\text{nodo}} - \text{lon})^2 + (y_{\text{nodo}} - \text{lat})^2})$ | Nodo OSM m√°s cercano al accidente |
| `distancia_nodo` | $\sqrt{(x_{\text{nodo}} - \text{lon})^2 + (y_{\text{nodo}} - \text{lat})^2} \times 111{,}000 \text{ m}$ | Distancia euclidiana en metros |
| `u`, `v` | Topolog√≠a de grafo | Nodos de inicio/fin del tramo donde ocurri√≥ |
| `tramo_id` | `hash(u, v, key)` | Identificador √∫nico del segmento vial |

**F√≥rmula de distancia euclidiana en coordenadas geogr√°ficas:**

$$
d(\text{m}) = \sqrt{(\text{lon}_2 - \text{lon}_1)^2 + (\text{lat}_2 - \text{lat}_1)^2} \times 111{,}000
$$

Donde 111 km ‚âà 1¬∞ de latitud a nivel del ecuador.

#### 2.2 Agregaci√≥n por Tramo Vial

**Estad√≠sticas calculadas por cada tramo (u, v):**

| M√©trica | F√≥rmula | Descripci√≥n |
|---------|---------|-------------|
| `total_accidentes` | $\text{COUNT}(*)$ | N√∫mero total de accidentes en el tramo |
| `accidentes_fatales` | $\sum (\text{CLASACC} == \text{'Fatal'})$ | Accidentes con v√≠ctimas mortales |
| `accidentes_graves` | $\sum (\text{CLASACC} == \text{'Grave'})$ | Accidentes con lesionados graves |
| `tasa_gravedad` | $\frac{\text{fatales} + \text{graves}}{\text{total}}$ | Proporci√≥n de accidentes severos |
| `latitud_centro` | $\text{MEAN}(\text{latitud})$ | Centroide del tramo |
| `longitud_centro` | $\text{MEAN}(\text{longitud})$ | Centroide del tramo |

**Salida:** `STATS_POR_TRAMO_2019_2023.csv` - 14,982 tramos analizados

### üîß Procesamiento en `01_analisis_espacial_clustering.ipynb`

#### 2.3 Clustering Espacial (DBSCAN)

**Columnas generadas:**

| Columna | Algoritmo | Descripci√≥n |
|---------|-----------|-------------|
| `cluster_dbscan` | DBSCAN(eps=200m, min_samples=20) | ID del cluster (-1 = ruido) |
| `riesgo_cluster` | Ver f√≥rmula abajo | √çndice de riesgo basado en clustering |

**F√≥rmula de riesgo por clustering:**

$$
\text{riesgo\_cluster} = \begin{cases}
50 & \text{si cluster\_id} \neq -1 \\
0 & \text{si cluster\_id} = -1 \text{ (ruido)}
\end{cases}
$$

$$
\text{cluster\_sizes} = \text{COUNT}(*) \; \text{GROUP BY cluster\_id}
$$

$$
\text{riesgo\_cluster\_ajustado} = 50 + 50 \times \frac{\text{size} - \text{size}_{\min}}{\text{size}_{\max} - \text{size}_{\min}}
$$

**Interpretaci√≥n:**
- Accidentes aislados (ruido): riesgo = 0
- Cluster peque√±o: riesgo ‚âà 50
- Cluster m√°s grande: riesgo ‚Üí 100

**Par√°metros DBSCAN:**
- `eps = 200 metros` - Radio de vecindad
- `min_samples = 20` - M√≠nimo de accidentes para formar cluster
- Resultado: **299 clusters identificados**, 46.6% ruido

#### 2.4 Hot Spots Analysis (Getis-Ord Gi*)

**Metodolog√≠a:** An√°lisis de cuadr√≠cula espacial

```python
# Crear grid de 0.01¬∞ (~1.1 km por celda)
cell_size = 0.01¬∞
grid_cells = [box(minx + i√óŒî, miny + j√óŒî, ...) for i,j in product(cols, rows)]
```

**F√≥rmula Getis-Ord Gi*:**

$$
G_i^* = \frac{\sum_j w_{ij}x_j - \bar{X} \sum_j w_{ij}}{S \sqrt{\frac{n\sum_j w_{ij}^2 - (\sum_j w_{ij})^2}{n - 1}}}
$$

Donde:
- $x_j$ = n√∫mero de accidentes en celda j
- $w_{ij}$ = 1 si dist(i,j) < 0.02¬∞, 0 en otro caso
- $\bar{X}$ = media global de accidentes
- $S$ = desviaci√≥n est√°ndar
- $n$ = n√∫mero total de celdas

**Columnas generadas:**

| Columna | Descripci√≥n | Interpretaci√≥n |
|---------|-------------|----------------|
| `gi_score` | Z-score de Gi* | >2.58 = Hot Spot 99% conf. |
| `gi_pvalue` | p-value normal | <0.01 = Significativo |
| `hot_spot` | Clasificaci√≥n | 'Hot Spot (99%)', 'Cold Spot', etc. |
| `riesgo_hotspot` | $50 + 50 \times \frac{\text{gi\_score}}{\max(\text{gi\_score})}$ | √çndice de riesgo [0-100] |

**Salida:** `GRID_HOTSPOTS.csv` - 755 celdas con accidentes

#### 2.5 Autocorrelaci√≥n Espacial (Moran's I)

**F√≥rmula de Moran's I Global:**

$$
I = \frac{n}{\sum_i \sum_j w_{ij}} \times \frac{\sum_i \sum_j w_{ij}(x_i - \bar{x})(x_j - \bar{x})}{\sum_i (x_i - \bar{x})^2}
$$

**Resultado obtenido:**
- $I = 0.6837$ (p < 0.001)
- Interpretaci√≥n: **Clustering espacial altamente significativo**
- Los accidentes NO est√°n distribuidos aleatoriamente

### üîß Procesamiento en `02_modelado_ml_causas.ipynb`

#### 2.6 Features Temporales

| Feature | F√≥rmula | Valores posibles |
|---------|---------|------------------|
| `hora` | Extra√≠do de timestamp | 0-23 |
| `dia_semana` | `datetime.dayofweek` | 0-6 (0=Lunes) |
| `mes` | `datetime.month` | 1-12 |
| `es_fin_semana` | $\begin{cases}1 & \text{si dia\_semana} \geq 5 \\ 0 & \text{en otro caso}\end{cases}$ | 0, 1 |
| `periodo_dia` | Ver funci√≥n abajo | 'madrugada', 'ma√±ana', 'tarde', 'noche' |

**Funci√≥n de clasificaci√≥n de periodo:**

```python
def clasificar_periodo(hora):
    if 6 <= hora < 12:  return 'manana'
    if 12 <= hora < 18: return 'tarde'
    if 18 <= hora < 24: return 'noche'
    else:               return 'madrugada'  # 0-5
```

#### 2.7 Features Espaciales

| Feature | F√≥rmula | Descripci√≥n |
|---------|---------|-------------|
| `en_cluster` | $\begin{cases}1 & \text{si cluster\_dbscan} \neq -1 \\ 0 & \text{en otro caso}\end{cases}$ | Binario: ¬øen punto negro? |
| `riesgo_cluster` | Heredado de 01_ | √çndice [0-100] |

#### 2.8 Variable Objetivo

**Target binario de gravedad:**

```python
def binarizar_gravedad(CLASACC):
    if CLASACC in ['Fatal', 'Grave', 'Con lesionados']:
        return 1  # Accidente grave
    elif CLASACC in ['Solo da√±os']:
        return 0  # Accidente leve
    else:
        return 0
```

**Distribuci√≥n:** ~15% accidentes graves (desbalanceado)

---

## 3. F√≥rmulas de An√°lisis Espacial

### 3.1 DBSCAN - Density-Based Spatial Clustering

**Algoritmo:**

1. Para cada punto p:
   - $N(p) = \{q : \text{dist}(p,q) \leq \varepsilon\}$
   - Si $|N(p)| \geq \text{min\_samples}$ ‚Üí p es **core point**

2. Conectividad:
   - p y q est√°n en mismo cluster si existe camino de core points

**Distancia en coordenadas proyectadas (UTM):**

$$
\text{dist}(p, q) = \sqrt{(x_p - x_q)^2 + (y_p - y_q)^2}
$$

Se usa EPSG:32614 (UTM Zone 14N) para CDMX.

### 3.2 Matriz de Pesos Espaciales (W)

**Distance Band Weights:**

$$
w_{ij} = \begin{cases}
1 & \text{si dist}(i,j) \leq \text{threshold} \\
0 & \text{en otro caso}
\end{cases}
$$

- `threshold = 0.02¬∞` (~2.2 km)
- Matriz binaria (sin ponderaci√≥n por distancia)

### 3.3 Getis-Ord Gi* (Detecci√≥n de Hot Spots)

**Versi√≥n estandarizada (Z-score):**

$$
G_i^* = \frac{\sum_j w_{ij}x_j - \bar{X} \sum_j w_{ij}}{S \sqrt{\frac{n\sum w_{ij}^2 - (\sum w_{ij})^2}{n-1}}}
$$

**Interpretaci√≥n del Z-score:**

| Gi* (Z-score) | p-value | Clasificaci√≥n |
|---------------|---------|---------------|
| > 2.58 | < 0.01 | Hot Spot (99% confianza) |
| > 1.96 | < 0.05 | Hot Spot (95% confianza) |
| -1.96 a 1.96 | > 0.05 | No significativo |
| < -1.96 | < 0.05 | Cold Spot (95% confianza) |
| < -2.58 | < 0.01 | Cold Spot (99% confianza) |

- **Valores positivos** ‚Üí Clustering de valores altos (muchos accidentes)
- **Valores negativos** ‚Üí Clustering de valores bajos (pocos accidentes)

### 3.4 Moran's I (Autocorrelaci√≥n Espacial)

**Valores de I:**
- $I = -1$ ‚Üí Dispersi√≥n perfecta (patr√≥n de tablero de ajedrez)
- $I = 0$ ‚Üí Distribuci√≥n aleatoria (sin autocorrelaci√≥n)
- $I = +1$ ‚Üí Clustering perfecto (valores similares juntos)

**Nuestro resultado: I = 0.6837**
- Fuerte clustering espacial
- Los accidentes tienden a ocurrir cerca de otros accidentes
- Justifica el uso de an√°lisis espacial

---

## 4. F√≥rmulas de Machine Learning

### 4.1 Modelos Entrenados

#### Decision Tree

$$
\text{Gini Impurity} = 1 - \sum_i p_i^2
$$

$$
\text{Information Gain} = \text{Gini}(\text{parent}) - \sum \frac{n_{\text{child}}}{n_{\text{parent}}} \times \text{Gini}(\text{child})
$$

**Hiperpar√°metros:**
- `max_depth = 5` - Profundidad m√°xima del √°rbol
- `min_samples_split = 100` - M√≠nimo para dividir nodo
- `min_samples_leaf = 50` - M√≠nimo en hoja

#### Random Forest

**Ensemble de N √°rboles de decisi√≥n:**

$$
P_{\text{ensemble}}(\text{grave} | X) = \frac{1}{N} \sum_{i=1}^{N} P_i(\text{grave} | X)
$$

**Hiperpar√°metros:**
- `n_estimators = 100` - N√∫mero de √°rboles
- `max_depth = 10`
- `min_samples_split = 50`
- `min_samples_leaf = 20`

**Feature Importance:**

$$
\text{importance}(f_j) = \frac{\sum_t (\text{impurity\_decrease} \times n_{\text{samples}})}{\text{total\_samples}}
$$

Promediado sobre todos los √°rboles del bosque.

#### Logistic Regression

**Funci√≥n log√≠stica:**

$$
P(y=1 | X) = \frac{1}{1 + e^{-z}}
$$

donde:

$$
z = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \ldots + \beta_n x_n
$$

**Optimizaci√≥n:** Maximum Likelihood Estimation (MLE)

#### Stacking Ensemble

**Arquitectura de 2 niveles:**

```
Level 0 (Base learners):
  - Decision Tree
  - Random Forest
  - Logistic Regression

Level 1 (Meta-learner):
  - Logistic Regression entrenada sobre predicciones de Level 0
```

**Predicci√≥n final:**

$$
P_{\text{stack}}(\text{grave} | X) = \sigma(w_1 P_{DT} + w_2 P_{RF} + w_3 P_{LR} + b)
$$

Donde $\sigma()$ es la funci√≥n log√≠stica y $w_1, w_2, w_3, b$ son par√°metros aprendidos.

### 4.2 M√©tricas de Evaluaci√≥n

**Accuracy:**
$$
\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}
$$

**Precision y Recall:**
$$
\text{Precision} = \frac{TP}{TP + FP}
$$

$$
\text{Recall} = \frac{TP}{TP + FN}
$$

**F1-Score:**
$$
F1 = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}
$$

**AUC-ROC:**
- √Årea bajo la curva ROC
- Mide capacidad de discriminaci√≥n del modelo
- Valores: 0.5 (random) a 1.0 (perfecto)

---

## 5. F√≥rmulas de Ruteo y Ponderaci√≥n de Calles

### 5.1 Asignaci√≥n de Riesgo a Aristas (Calles)

**Para cada arista (u, v) del grafo:**

```python
# Paso 1: Matching espacial con estad√≠sticas de tramo
lat_centro = (lat_u + lat_v) / 2
lon_centro = (lon_u + lon_v) / 2

tramos_cercanos = df_stats[
    (|lat_stats - lat_centro| < 0.005) &
    (|lon_stats - lon_centro| < 0.005)
]

# Paso 2: Normalizaci√≥n del riesgo
if len(tramos_cercanos) > 0:
    accidentes = MEAN(tramos_cercanos.total_accidentes)
    riesgo = (accidentes / max_accidentes) √ó 100
else:
    riesgo = 25  # Valor por defecto
```

**Interpretaci√≥n:**
- `riesgo = 0` ‚Üí Sin accidentes registrados
- `riesgo = 50` ‚Üí Promedio
- `riesgo = 100` ‚Üí Calle con m√°s accidentes en CDMX

### 5.2 Pesos para Ruteo (Costos de Aristas)

**Se definen 3 funciones de peso diferentes:**

#### Peso 1: Solo Distancia (Ruta M√°s Corta)

$$
\text{peso\_distancia} = \text{longitud} \quad [\text{metros}]
$$

- Minimiza distancia total
- Ignora completamente el riesgo
- Algoritmo: Dijkstra con peso = longitud

#### Peso 2: Balanceado (Trade-off)

$$
\text{peso\_balanceado} = \text{longitud} \times \left(1 + \frac{\text{riesgo}}{100}\right)
$$

**Ejemplo:**
- Calle de 1000m con riesgo 0: peso = 1000 √ó 1.0 = 1000
- Calle de 1000m con riesgo 50: peso = 1000 √ó 1.5 = 1500
- Calle de 1000m con riesgo 100: peso = 1000 √ó 2.0 = 2000

**Interpretaci√≥n:** Una calle con riesgo=100 se "siente" 2√ó m√°s larga.

#### Peso 3: Seguro (Prioriza Seguridad)

$$
\text{peso\_seguro} = \text{longitud} \times \left(1 + \frac{2 \times \text{riesgo}}{100}\right)
$$

**Ejemplo:**
- Calle de 1000m con riesgo 0: peso = 1000 √ó 1.0 = 1000
- Calle de 1000m con riesgo 50: peso = 1000 √ó 2.0 = 2000
- Calle de 1000m con riesgo 100: peso = 1000 √ó 3.0 = 3000

**Interpretaci√≥n:** Una calle con riesgo=100 se "siente" 3√ó m√°s larga.
El factor 2 amplifica la penalizaci√≥n por riesgo.

### 5.3 Algoritmo de Ruteo (Dijkstra)

**Para encontrar camino m√≠nimo de origen a destino:**

```
1. Inicializar:
   dist[origen] = 0
   dist[v] = ‚àû para v ‚â† origen
   Q = todos los nodos

2. Mientras Q no est√© vac√≠o:
   u = nodo en Q con dist[u] m√≠nima
   Remover u de Q

   Para cada vecino v de u:
       alt = dist[u] + peso(u, v)
       if alt < dist[v]:
           dist[v] = alt
           prev[v] = u

3. Reconstruir ruta desde destino hacia origen usando prev[]
```

**Complejidad:** $O((V + E) \log V)$ con heap binario

### 5.4 M√©tricas de Rutas Calculadas

Para cada ruta $[\text{nodo}_1, \text{nodo}_2, \ldots, \text{nodo}_n]$:

$$
\text{distancia\_total} = \sum_i \text{longitud}(\text{nodo}_i, \text{nodo}_{i+1})
$$

$$
\text{riesgo\_promedio} = \frac{1}{n} \sum_i \text{riesgo}(\text{nodo}_i, \text{nodo}_{i+1})
$$

$$
\text{riesgo\_maximo} = \max\{\text{riesgo}(\text{nodo}_i, \text{nodo}_{i+1})\}
$$

$$
\text{riesgo\_total} = \sum_i \text{riesgo}(\text{nodo}_i, \text{nodo}_{i+1})
$$

**Score de Seguridad:**
$$
\text{score\_seguridad} = 100 - \text{riesgo\_promedio}
$$

Valores altos ‚Üí ruta m√°s segura

---

## 6. √çndices Compuestos y Scoring Final

### 6.1 Riesgo ML (Machine Learning)

**Predicci√≥n de probabilidad de gravedad:**

```python
# Modelo Random Forest entrenado
riesgo_ml = P(grave | features) √ó 100
```

Donde `features = [hora, dia_semana, mes, es_fin_semana, en_cluster, riesgo_cluster, ...]`

**Interpretaci√≥n:**
- `riesgo_ml = 10` ‚Üí 10% probabilidad de accidente grave
- `riesgo_ml = 50` ‚Üí 50% probabilidad
- `riesgo_ml = 90` ‚Üí 90% probabilidad

### 6.2 √çndice de Riesgo Compuesto FINAL

**F√≥rmula de combinaci√≥n (3 capas de riesgo):**

$$
\text{riesgo\_compuesto} = 0.6 \times \text{riesgo\_hist√≥rico} + 0.1 \times \text{riesgo\_cluster} + 0.3 \times \text{riesgo\_ml}
$$

**Componentes del √≠ndice:**

1. **Riesgo Hist√≥rico (60%):** Basado en accidentes reales por tramo
   - Fuente: `STATS_POR_TRAMO_2019_2023.csv`
   - C√°lculo: `(accidentes_tramo / max_accidentes) √ó 100`
   - Matching: Por IDs exactos (edge_u, edge_v, edge_key)

2. **Riesgo Clustering (10%):** Basado en densidad espacial (DBSCAN + Getis-Ord)
   - Fuente: `ACCIDENTES_CON_CLUSTERING.csv` + `GRID_HOTSPOTS.csv`
   - C√°lculo: `50 + 50 √ó (tama√±o_cluster - min) / (max - min)`
   - Matching: Spatial matching con KDTree (<500m)

3. **Riesgo ML (30%):** Predicci√≥n de gravedad con Random Forest
   - Fuente: `SCORING_RIESGO_COMPUESTO.csv`
   - C√°lculo: `P(grave | features) √ó 100`
   - Matching: Spatial matching con KDTree (<500m)

**Justificaci√≥n de pesos:**
- **60% hist√≥rico:** Los datos reales de accidentes son el indicador m√°s confiable y directo
- **30% ML:** La predicci√≥n de gravedad a√±ade contexto importante (hora, d√≠a, condiciones)
- **10% clustering:** Complementa identificando patrones espaciales de concentraci√≥n

**Rango:** [0, 100]
- 0 = Riesgo m√≠nimo (sin accidentes hist√≥ricos, sin clustering, baja probabilidad ML)
- 100 = Riesgo m√°ximo (m√°ximos accidentes, cluster grande, alta probabilidad ML)

**Implementaci√≥n en `03_sistema_ruteo_zocalo_polanco.ipynb`:**

```python
def asignar_riesgo_a_edges_completo(G, df_stats, df_scoring, df_clusters):
    # 1. Riesgo Hist√≥rico (matching exacto por IDs)
    lookup_key = (str(edge_u), str(edge_v), edge_key)
    riesgo_historico = stats_dict.get(lookup_key, 25)  # default: medio
    
    # 2. Riesgo Clustering + ML (b√∫squeda espacial)
    dist, idx = tree.query([lat_centro, lon_centro], k=1)
    if dist < 0.005:  # <500m
        riesgo_clustering = df_scoring.iloc[idx]['riesgo_cluster']
        riesgo_ml = df_scoring.iloc[idx]['riesgo_ml']
    else:
        riesgo_clustering = 0   # Sin cluster detectado
        riesgo_ml = 15          # Riesgo bajo-medio por defecto
    
    # 3. Combinar con ponderaci√≥n
    riesgo_compuesto = (
        0.6 * riesgo_historico +
        0.1 * riesgo_clustering +
        0.3 * riesgo_ml
    )
    
    return riesgo_compuesto
```

### 6.3 F√≥rmula Final de Comparaci√≥n de Rutas

**Para recomendar ruta √≥ptima:**

```python
# Trade-off normalizado
diff_distancia_pct = (dist_segura - dist_corta) / dist_corta √ó 100
diff_riesgo_pct = (riesgo_corta - riesgo_segura) / riesgo_corta √ó 100

if diff_riesgo_pct > 20 and diff_distancia_pct < 25:
    recomendacion = "Ruta M√°s Segura"
elif diff_riesgo_pct > 10:
    recomendacion = "Ruta Balanceada"
else:
    recomendacion = "Ruta M√°s Corta"
```

**Criterio de decisi√≥n:**
- Si la ruta segura reduce riesgo >20% y aumenta distancia <25% ‚Üí Vale la pena
- Si reduce riesgo 10-20% ‚Üí Balancear
- Si reduce riesgo <10% ‚Üí Priorizar eficiencia

### 6.4 Normalizaci√≥n Multidimensional (Radar Chart)

**Para comparar rutas en 3 dimensiones:**

```python
# Seguridad (invertir riesgo)
seguridad_score = 100 - riesgo_promedio

# Eficiencia (normalizar distancia)
dist_min = min(distancias_todas_rutas)
eficiencia_score = 100 - ((distancia - dist_min) / dist_min √ó 50)

# Estabilidad (evitar picos de riesgo)
estabilidad_score = 100 - riesgo_maximo
```

**√Årea del pol√≠gono en radar chart:**
- Mayor √°rea ‚Üí Mejor desempe√±o general
- Forma del pol√≠gono muestra fortalezas/debilidades

---

## üìå Resumen de Columnas por Archivo

### ACCIDENTES_CON_TRAMOS_2019_2023.csv
- Columnas originales C5 (15)
- `+ nodo_cercano, u, v, tramo_id` (4)
- **Total: 19 columnas**

### STATS_POR_TRAMO_2019_2023.csv
- `u, v, total_accidentes, accidentes_fatales, accidentes_graves`
- `tasa_gravedad, latitud_centro, longitud_centro`
- **Total: 8 columnas, 14,982 tramos**

### ACCIDENTES_CON_CLUSTERING.csv
- `latitud, longitud, cluster_dbscan, riesgo_cluster`
- **Total: 4 columnas, 32,139 registros**

### GRID_HOTSPOTS.csv
- `centroid_lat, centroid_lon, n_accidentes`
- `gi_score, hot_spot, riesgo_hotspot`
- **Total: 6 columnas, 755 celdas**

### SCORING_RIESGO_COMPUESTO.csv
- `riesgo_cluster, riesgo_ml, indice_riesgo_compuesto`
- `latitud, longitud` (opcional)
- **Total: 5 columnas**

---

## üî¨ Validaci√≥n Cient√≠fica

### Significancia Estad√≠stica

1. **Moran's I:** p < 0.001 ‚úì
   - Clustering espacial altamente significativo

2. **Getis-Ord Gi*:** Z > 2.58 para hot spots
   - Confianza del 99% en zonas identificadas

3. **Modelos ML:** AUC > 0.70
   - Capacidad predictiva superior al azar

### Supuestos y Limitaciones

1. **Distancia euclidiana:** Aproximaci√≥n v√°lida para √°reas peque√±as (<10 km)
2. **Estacionariedad:** Asumimos que patrones son estables 2019-2023
3. **Completitud de datos:** No todos los accidentes son reportados
4. **Red vial OSM:** Puede tener calles faltantes o desactualizadas

---

## üìö Referencias Matem√°ticas

- **DBSCAN:** Ester et al. (1996) "A density-based algorithm for discovering clusters"
- **Getis-Ord Gi*:** Ord & Getis (1995) "Local Spatial Autocorrelation Statistics"
- **Moran's I:** Moran (1950) "Notes on continuous stochastic phenomena"
- **Random Forest:** Breiman (2001) "Random Forests"
- **Dijkstra:** Dijkstra (1959) "A note on two problems in connexion with graphs"

---

## üéØ Aplicaci√≥n Pr√°ctica

**Ejemplo: Z√≥calo ‚Üí Polanco**

```
Ruta M√°s Corta:
  - Distancia: 8.5 km
  - Riesgo promedio: 45/100
  - F√≥rmula: argmin ‚àë longitud(e)

Ruta Balanceada:
  - Distancia: 9.2 km (+8%)
  - Riesgo promedio: 32/100 (-29%)
  - F√≥rmula: argmin ‚àë longitud(e) √ó (1 + riesgo/100)

Ruta M√°s Segura:
  - Distancia: 10.1 km (+19%)
  - Riesgo promedio: 25/100 (-44%)
  - F√≥rmula: argmin ‚àë longitud(e) √ó (1 + 2√óriesgo/100)

Recomendaci√≥n: Ruta M√°s Segura
  - Reduce riesgo 44% con solo 19% m√°s distancia
  - Tiempo adicional: ~7 minutos
```

---

**√öltima actualizaci√≥n:** 2025-11-20

**Versi√≥n:** 1.0

**Autores:** Equipo Proyecto Final Miner√≠a de Datos