<div align='center'>
    <h1 style='color: #2E86C1; font-size: 42px;'>üö¶ MOVILIDAD URBANA Y PRODUCTIVIDAD ECON√ìMICA EN LATAM</h1>
    <h3 style='color: #566573;'>An√°lisis de la relaci√≥n entre congesti√≥n vehicular y PIB per c√°pita</h3>
    <hr style='border: 2px solid #2E86C1; width: 80%;'>
    <p style='font-size: 18px;'><b>Autor:</b> Fernando Aponte | <b>Fecha:</b> 2024 | <b>Fuentes:</b> TomTom Traffic Index, OECD Cities</p>
</div>

## üìã Tabla de Contenidos
1. [Introducci√≥n y Objetivos](#intro)
2. [Carga y Exploraci√≥n de Datos](#carga)
3. [Limpieza y Preparaci√≥n](#limpieza)
4. [An√°lisis Exploratorio](#analisis)
5. [Visualizaciones](#visualizaciones)
6. [M√©tricas de Eficiencia](#metricas)
7. [Conclusiones y Recomendaciones](#conclusiones)
8. [Exportaci√≥n de Resultados](#exportacion)

<a id='intro'></a>
## üéØ 1. Introducci√≥n y Objetivos

### Contexto del Problema
Am√©rica Latina enfrenta un desaf√≠o cr√≠tico de movilidad urbana. Con algunas de las ciudades m√°s congestionadas del mundo, la p√©rdida de productividad por horas-hombre en el tr√°fico representa miles de millones de d√≥lares anuales.

### Objetivos del An√°lisis
- **Evaluar** c√≥mo la congesti√≥n vehicular se relaciona con el PIB per c√°pita
- **Identificar** ciudades con mayor desequilibrio econ√≥mico-movilidad
- **Priorizar** inversiones en infraestructura basado en datos
- **Generar** un √≠ndice de eficiencia urbana

In [None]:
# ============================================
# CONFIGURACI√ìN INICIAL
# ============================================

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

# Configuraci√≥n de estilo para gr√°ficos profesionales
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("viridis")
plt.rcParams['figure.figsize'] = (14, 8)
plt.rcParams['font.size'] = 12

# Colores personalizados
COLORS = {
    'primary': '#2E86C1',
    'secondary': '#E74C3C',
    'success': '#28B463',
    'warning': '#F39C12',
    'danger': '#C0392B'
}

print("‚úÖ Configuraci√≥n completada")

<a id='carga'></a>
## üìä 2. Carga y Exploraci√≥n de Datos

In [None]:
# Carga de datasets
print("üìÇ Cargando datasets...")
traffic = pd.read_csv('/datasets/tomtom_traffic.csv')
eco = pd.read_csv('/datasets/oecd_city_economy.csv')

print("\n" + "="*60)
print("üìà DIMENSIONES DE LOS DATASETS")
print("="*60)
print(f"üö¶ Tr√°fico (TomTom): {traffic.shape[0]:,} registros √ó {traffic.shape[1]} variables")
print(f"üí∞ Econ√≥mico (OECD): {eco.shape[0]} registros √ó {eco.shape[1]} variables")

print("\nüìã Primeros registros - Tr√°fico:")
display(traffic.head(3))

print("\nüìã Primeros registros - Econ√≥mico:")
display(eco.head(3))

In [None]:
# Informaci√≥n detallada de los datasets
print("üîç ESTRUCTURA DEL DATASET DE TR√ÅFICO")
print(traffic.info(), "\n")

print("üîç ESTRUCTURA DEL DATASET ECON√ìMICO")
print(eco.info())

<a id='limpieza'></a>
## üßπ 3. Limpieza y Preparaci√≥n de Datos

### Hallazgos iniciales:
- Las columnas de fecha en `traffic` est√°n como `object` (deben ser `datetime`)
- Las variables num√©ricas en `eco` usan formato europeo (coma como decimal)
- Los nombres de columnas necesitan estandarizaci√≥n a `snake_case`

In [None]:
# 3.1 Renombrar columnas a snake_case
traffic = traffic.rename(columns={
    'Country': 'country',
    'City': 'city',
    'UpdateTimeUTC': 'update_time_utc',
    'JamsDelay': 'jams_delay',
    'TrafficIndexLive': 'traffic_index_live',
    'JamsLengthInKms': 'jams_length_km',
    'JamsCount': 'jams_count',
    'TrafficIndexWeekAgo': 'traffic_index_week_ago',
    'UpdateTimeUTCWeekAgo': 'update_time_utc_week_ago',
    'TravelTimeLivePer10KmsMins': 'travel_time_live_10km_min',
    'TravelTimeHistoricPer10KmsMins': 'travel_time_historic_10km_min',
    'MinsDelay': 'mins_delay'
})

eco = eco.rename(columns={
    'Year': 'year',
    'City': 'city',
    'Country': 'country',
    'City GDP/capita': 'gdp_per_capita',
    'Unemployment %': 'unemployment_rate',
    'PM2.5 (Œºg/m¬≥)': 'pm25',
    'Population (M)': 'population_millions'
})

print("‚úÖ Columnas renombradas correctamente")

In [None]:
# 3.2 Conversi√≥n de tipos de datos

# Tr√°fico: fechas a datetime
traffic['update_time_utc'] = pd.to_datetime(traffic['update_time_utc'], utc=True)
traffic['update_time_utc_week_ago'] = pd.to_datetime(traffic['update_time_utc_week_ago'], utc=True)
traffic['jams_count'] = traffic['jams_count'].astype(int)

print("‚úÖ Fechas convertidas a datetime")

# Econ√≥mico: limpieza de formatos num√©ricos
eco['gdp_per_capita'] = (eco['gdp_per_capita']
                         .astype(str)
                         .str.replace('.', '')
                         .str.replace(',', '.')
                         .astype(float))

eco['unemployment_rate'] = (eco['unemployment_rate']
                           .astype(str)
                           .str.replace('%', '')
                           .str.replace(',', '.')
                           .astype(float))

eco['pm25'] = (eco['pm25']
              .astype(str)
              .str.replace(',', '.')
              .astype(float))

eco['population_millions'] = (eco['population_millions']
                             .astype(str)
                             .str.replace(',', '.')
                             .astype(float))

# Crear poblaci√≥n absoluta
eco['population'] = eco['population_millions'] * 1_000_000

print("‚úÖ Variables num√©ricas normalizadas")
print("‚úÖ Poblaci√≥n absoluta calculada")

In [None]:
# Verificar cambios
print("üìä ESTRUCTURA FINAL - TR√ÅFICO")
traffic.info()
print("\nüìä ESTRUCTURA FINAL - ECON√ìMICO")
eco.info()

<a id='analisis'></a>
## üìÖ 4. An√°lisis por A√±o (2024)

Filtramos los datos para enfocarnos en el a√±o m√°s reciente disponible.

In [None]:
# Extraer a√±o y filtrar
traffic['year'] = traffic['update_time_utc'].dt.year
traffic_2024 = traffic[traffic['year'] == 2024].copy()
eco_2024 = eco[eco['year'] == 2024].copy()

print(f"üìÖ Registros de tr√°fico en 2024: {len(traffic_2024):,}")
print(f"üìÖ Registros econ√≥micos en 2024: {len(eco_2024)}")

In [None]:
# Agrupar tr√°fico por ciudad (promedios anuales)
traffic_metrics = [
    'jams_delay', 'traffic_index_live', 'jams_length_km',
    'jams_count', 'mins_delay', 'travel_time_live_10km_min',
    'travel_time_historic_10km_min'
]

traffic_city_2024 = (traffic_2024
                     .groupby(['city', 'country', 'year'])[traffic_metrics]
                     .mean()
                     .reset_index())

print(f"üìä Promedios anuales calculados para {len(traffic_city_2024)} ciudades")
display(traffic_city_2024.head())

### üîç Insight R√°pido
¬øCu√°l es la ciudad con mayor congesti√≥n promedio?

In [None]:
top_congestion = traffic_city_2024.nlargest(1, 'jams_delay')[['city', 'country', 'jams_delay']]
print(f"üö¶ La ciudad con mayor congesti√≥n es: {top_congestion.iloc[0]['city'].title()}, "
      f"{top_congestion.iloc[0]['country']} con {top_congestion.iloc[0]['jams_delay']:.0f} minutos de retraso promedio")

<a id='visualizaciones'></a>
## üìà 5. Visualizaciones y An√°lisis

In [None]:
# 5.1 Integraci√≥n de datasets
traffic_cols = ['city', 'country', 'year'] + traffic_metrics
eco_cols = ['city', 'year', 'gdp_per_capita', 'unemployment_rate', 'pm25', 'population']

traffic_final = traffic_city_2024[traffic_cols].copy()
eco_final = eco_2024[eco_cols].copy()

merged = pd.merge(traffic_final, eco_final, on=['city', 'year'], how='inner')

print(f"‚úÖ Dataset integrado: {len(merged)} ciudades analizadas")
print("\nüåé PA√çSES INCLUIDOS:")
for country in merged['country'].unique():
    cities = merged[merged['country'] == country]['city'].tolist()
    print(f"   ‚Ä¢ {country}: {', '.join([c.title() for c in cities])}")

In [None]:
# 5.2 Visualizaci√≥n principal
fig, axes = plt.subplots(2, 2, figsize=(18, 12))
fig.suptitle('AN√ÅLISIS DE MOVILIDAD Y ECONOM√çA EN CIUDADES LATAM (2024)', 
             fontsize=20, fontweight='bold', color=COLORS['primary'])

# Gr√°fico 1: Boxplot de congesti√≥n
ax1 = axes[0, 0]
bp = ax1.boxplot(merged['jams_delay'], patch_artist=True, showmeans=True,
                 boxprops=dict(facecolor=COLORS['primary'], alpha=0.7),
                 medianprops=dict(color='black', linewidth=2),
                 meanprops=dict(marker='D', markeredgecolor='black', markerfacecolor=COLORS['success']))
ax1.set_title('Distribuci√≥n de Retraso por Congesti√≥n', fontsize=14, fontweight='bold')
ax1.set_ylabel('Minutos de retraso')
ax1.set_xticklabels(['Jams Delay'])
ax1.grid(True, alpha=0.3)

# Identificar outlier
outlier_city = merged.loc[merged['jams_delay'].idxmax(), 'city']
ax1.annotate(f'Outlier: {outlier_city.title()}', 
             xy=(1, merged['jams_delay'].max()),
             xytext=(1.2, merged['jams_delay'].max()*0.8),
             arrowprops=dict(arrowstyle='->', color=COLORS['danger']),
             fontsize=10, color=COLORS['danger'])

# Gr√°fico 2: Histograma de PIB
ax2 = axes[0, 1]
n, bins, patches = ax2.hist(merged['gdp_per_capita']/1000, bins=10, 
                            color=COLORS['success'], edgecolor='black', alpha=0.7)
ax2.axvline(merged['gdp_per_capita'].mean()/1000, color=COLORS['secondary'], 
            linestyle='--', linewidth=2, label=f"Promedio: {merged['gdp_per_capita'].mean()/1000:.1f}K")
ax2.set_title('Distribuci√≥n del PIB per c√°pita', fontsize=14, fontweight='bold')
ax2.set_xlabel('PIB per c√°pita (miles USD)')
ax2.set_ylabel('N√∫mero de ciudades')
ax2.legend()
ax2.grid(True, alpha=0.3)

# Gr√°fico 3: Top 10 ciudades por congesti√≥n
ax3 = axes[1, 0]
top_congestion = merged.nlargest(10, 'jams_delay')[['city', 'country', 'jams_delay']]
colors = plt.cm.Reds(np.linspace(0.3, 1, 10))
bars = ax3.barh(range(len(top_congestion)), top_congestion['jams_delay'], color=colors)
ax3.set_yticks(range(len(top_congestion)))
ax3.set_yticklabels([f"{row['city'].title()} ({row['country']})" for _, row in top_congestion.iterrows()])
ax3.set_title('Top 10 Ciudades con Mayor Congesti√≥n', fontsize=14, fontweight='bold')
ax3.set_xlabel('Retraso promedio (minutos)')
ax3.invert_yaxis()

# Gr√°fico 4: Scatter plot PIB vs Congesti√≥n
ax4 = axes[1, 1]
scatter = ax4.scatter(merged['gdp_per_capita']/1000, merged['jams_delay'],
                      c=merged['population']/1e6, s=200, alpha=0.7, 
                      cmap='viridis', edgecolors='black', linewidth=1)
ax4.set_xlabel('PIB per c√°pita (miles USD)', fontsize=12)
ax4.set_ylabel('Retraso por congesti√≥n (minutos)', fontsize=12)
ax4.set_title('Relaci√≥n: PIB per c√°pita vs Congesti√≥n', fontsize=14, fontweight='bold')
ax4.grid(True, alpha=0.3)

# A√±adir etiquetas para ciudades destacadas
highlight = ['mexico-city', 'sao-paulo', 'buenos-aires', 'montevideo', 'bogota', 'lima']
for city in highlight:
    city_data = merged[merged['city'] == city]
    if not city_data.empty:
        ax4.annotate(city.replace('-', ' ').title(), 
                    (city_data['gdp_per_capita'].values[0]/1000, 
                     city_data['jams_delay'].values[0]),
                    fontsize=10, ha='center', bbox=dict(boxstyle='round,pad=0.3', facecolor='white', alpha=0.8))

cbar = plt.colorbar(scatter, ax=ax4)
cbar.set_label('Poblaci√≥n (millones)', fontsize=11)

plt.tight_layout()
plt.show()

<a id='metricas'></a>
## üìä 6. M√©tricas de Eficiencia Econ√≥mica

Creamos un √≠ndice de eficiencia que relaciona el PIB con la congesti√≥n: **mayor valor = mejor desempe√±o**

In [None]:
# Calcular √≠ndice de eficiencia (PIB por minuto de congesti√≥n)
merged['efficiency_index'] = merged['gdp_per_capita'] / (merged['jams_delay'] + 1)

print("üèÜ CIUDADES M√ÅS EFICIENTES (Alto PIB / Baja congesti√≥n):")
top_efficient = merged.nlargest(5, 'efficiency_index')[['city', 'country', 'gdp_per_capita', 'jams_delay']]
for i, (_, row) in enumerate(top_efficient.iterrows(), 1):
    print(f"   {i}. {row['city'].title()}, {row['country']}: ${row['gdp_per_capita']:,.0f} PIB | {row['jams_delay']:.1f} min retraso")

print("\n‚ö†Ô∏è CIUDADES CON MAYOR DESEQUILIBRIO (Bajo √≠ndice de eficiencia):")
bottom_efficient = merged.nsmallest(5, 'efficiency_index')[['city', 'country', 'gdp_per_capita', 'jams_delay']]
for i, (_, row) in enumerate(bottom_efficient.iterrows(), 1):
    print(f"   {i}. {row['city'].title()}, {row['country']}: ${row['gdp_per_capita']:,.0f} PIB | {row['jams_delay']:.1f} min retraso")

In [None]:
# Visualizaci√≥n del √≠ndice de eficiencia
fig, ax = plt.subplots(figsize=(14, 6))

top10_efficiency = merged.nlargest(10, 'efficiency_index')[['city', 'country', 'efficiency_index']]
colors = plt.cm.Greens(np.linspace(0.4, 1, 10))

bars = ax.barh(range(len(top10_efficiency)), top10_efficiency['efficiency_index'], color=colors)
ax.set_yticks(range(len(top10_efficiency)))
ax.set_yticklabels([f"{row['city'].title()} ({row['country']})" for _, row in top10_efficiency.iterrows()])
ax.set_title('Top 10 Ciudades por √çndice de Eficiencia Econ√≥mica-Movilidad', fontsize=16, fontweight='bold')
ax.set_xlabel('√çndice de Eficiencia (PIB / minuto de congesti√≥n)', fontsize=12)
ax.invert_yaxis()

for i, (_, row) in enumerate(top10_efficiency.iterrows()):
    ax.text(row['efficiency_index'] + 500, i, f"{row['efficiency_index']:.0f}", 
            va='center', fontsize=10, fontweight='bold')

plt.tight_layout()
plt.show()

<a id='conclusiones'></a>
## ‚úÖ 7. Conclusiones y Recomendaciones

In [None]:
print("="*80)
print("üìå CONCLUSIONES DEL AN√ÅLISIS".center(80))
print("="*80)

print("""
üéØ HALLAZGOS PRINCIPALES:
""")

print("1. CIUDAD DE M√âXICO ES UN OUTLIER EXTREMO:")
mexico = merged[merged['city'] == 'mexico-city'].iloc[0]
print(f"   ‚Ä¢ Congesti√≥n: {mexico['jams_delay']:.0f} minutos promedio")
print(f"   ‚Ä¢ Supera en {mexico['jams_delay']/merged['jams_delay'].mean():.1f}x el promedio regional")
print(f"   ‚Ä¢ PIB per c√°pita: ${mexico['gdp_per_capita']:,.0f}")

print("\n2. NO HAY CORRELACI√ìN DIRECTA PIB-CONGESTI√ìN:")
corr = merged['gdp_per_capita'].corr(merged['jams_delay'])
print(f"   ‚Ä¢ Correlaci√≥n: {corr:.2f} (baja)")
print("   ‚Ä¢ La congesti√≥n refleja ineficiencias estructurales, no actividad econ√≥mica")

print("\n3. CASOS DESTACADOS:")
montevideo = merged[merged['city'] == 'montevideo'].iloc[0]
bogota = merged[merged['city'] == 'bogota'].iloc[0] if 'bogota' in merged['city'].values else None
print(f"   ‚Ä¢ Modelo de eficiencia: Montevideo (${montevideo['gdp_per_capita']:,.0f} PIB, {montevideo['jams_delay']:.0f} min)")
if bogota is not None:
    print(f"   ‚Ä¢ Desequilibrio cr√≠tico: Bogota (${bogota['gdp_per_capita']:,.0f} PIB, {bogota['jams_delay']:.0f} min)")

print("\n" + "="*80)
print("üí° RECOMENDACIONES ESTRAT√âGICAS".center(80))
print("="*80)

print("""
1. PRIORIDAD M√ÅXIMA: Ciudades con alto desequilibrio
   ‚Ä¢ Inversi√≥n en transporte masivo (metro, BRT)
   ‚Ä¢ Implementar pico y placa con tecnolog√≠a
   ‚Ä¢ Priorizar corredores de alta congesti√≥n

2. MODELOS A SEGUIR: Montevideo, Santiago
   ‚Ä¢ Analizar pol√≠ticas de movilidad exitosas
   ‚Ä¢ Estudiar integraci√≥n de transporte p√∫blico
   ‚Ä¢ Evaluar sistemas de gesti√≥n de tr√°fico

3. IMPACTO ECON√ìMICO: S√£o Paulo
   ‚Ä¢ Por su escala, cualquier mejora tiene efecto multiplicador
   ‚Ä¢ Priorizar inversiones con mayor ROI social

üîç PR√ìXIMOS PASOS SUGERIDOS:
   ‚Ä¢ Calcular costo de oportunidad (horas-hombre perdidas)
   ‚Ä¢ Cruzar con datos de inversi√≥n en infraestructura
   ‚Ä¢ An√°lisis de series temporales (2019-2024)
   ‚Ä¢ Modelo predictivo de congesti√≥n
""")

print("="*80)

<a id='exportacion'></a>
## üíæ 8. Exportaci√≥n de Resultados

In [None]:
# Guardar dataset limpio
merged.to_csv('latam_mobility_economy_2024.csv', index=False)
print("‚úÖ Dataset exportado: latam_mobility_economy_2024.csv")

# Resumen ejecutivo
with open('resumen_ejecutivo.txt', 'w', encoding='utf-8') as f:
    f.write("""RESUMEN EJECUTIVO: MOVILIDAD Y ECONOM√çA EN LATAM
==================================================

CONTEXTO:
Este an√°lisis integra datos de tr√°fico de TomTom con indicadores econ√≥micos
de la OECD para evaluar la relaci√≥n entre congesti√≥n vehicular y productividad
en ciudades latinoamericanas durante 2024.

HALLAZGOS CLAVE:
‚Ä¢ Ciudad de M√©xico es un outlier con 2,833 minutos de retraso promedio
‚Ä¢ No existe correlaci√≥n directa entre PIB y congesti√≥n (r = 0.12)
‚Ä¢ Montevideo destaca como modelo de eficiencia (alto PIB, baja congesti√≥n)
‚Ä¢ Bogot√° y Lima presentan el mayor desequilibrio econ√≥mico-movilidad

RECOMENDACIONES:
1. Priorizar inversi√≥n en transporte masivo en Bogot√° y Lima
2. Estudiar pol√≠ticas de Montevideo y Santiago como casos de √©xito
3. Enfocar recursos en S√£o Paulo por su impacto econ√≥mico regional
4. Implementar sistemas de gesti√≥n de tr√°fico inteligente
""")
print("‚úÖ Resumen ejecutivo guardado: resumen_ejecutivo.txt")

print("\n" + "="*60)
print("üéâ PROYECTO COMPLETADO EXITOSAMENTE".center(60))
print("="*60)