## Introducci√≥n

Como analista de datos, el objetivo es **evaluar c√≥mo la movilidad urbana se relaciona con la productividad econ√≥mica en las principales ciudades latinoamericanas**. 
Para ello trabajar√°s con datos reales de TomTom Traffic Index y OECD Cities, que deber√°s limpiar, combinar y analizar para identificar en qu√© ciudades conviene invertir en infraestructura de transporte.

## üß© Paso 1: Cargar y explorar

Antes de limpiar o combinar los datos, es necesario **familiarizarte con la estructura de ambos datasets**.
En esta etapa, validar√°s que los archivos se carguen correctamente, conocer√°s sus columnas y tipos de datos, y detectar√°s posibles inconsistencias.

### 1.1 Carga de datos y vista r√°pida

**üéØObjetivo:**
Importar las librer√≠as necesarias, cargar los archivos CSV en DataFrames y realizar una revisi√≥n preliminar para entender su contenido.

**Instrucciones:**
- Importa las librer√≠as `pandas`, `numpy`, `seaborn` y `matplotlib.pyplot`.
- Carga los archivos usando `pd.read_csv()`:
  - `'/datasets/tomtom_traffic.csv'`
  - `/datasets/oecd_city_economy.csv` `.
- Guarda los DataFrames en las variables `traffic` y `eco`.
- Muestra las primeras 5 filas de cada DataFrame.


In [1]:
# importar librer√≠as
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

<class 'ModuleNotFoundError'>: No module named 'seaborn'

In [None]:
# cargar archivos
traffic = pd.read_csv('/datasets/tomtom_traffic.csv')
eco = pd.read_csv('/datasets/oecd_city_economy.csv')

In [None]:
# mostrar las primeras 5 filas de traffic
traffic.head(5)

In [None]:
# mostrar las primeras 5 filas de eco
eco.head(5)

**Tip:** Si no usas `print()` la tabla se vera mejor.


---

## üß©Paso 2: Explorar, limpiar y preparar los datos

Antes de combinar los datasets, inspecciona su estructura, tipos de datos, columnas y valores faltantes.
Anota las columnas que necesiten limpieza y luego estandariza los nombres de columnas.

### 2.1 Explorar la estructura y tipos de datos

**üéØObjetivo:**
Identificar columnas con tipos incorrectos, distribuci√≥n y nulos, anotar las columnas que requieren conversi√≥n.

**Instrucciones:**

- Usa `.info()` para conocer la estructura de ambos DataFrames.
- Muestra los primeros 3 renglones de cada DF.
- Identifica si los detalles de cada DF estan bien o si requieren correcciones y escribe tus conclusiones en el bloque Markdown.
  - ¬øHay columnas que requieren conversi√≥n?¬ø Cu√°les son? ¬øQue tipo de dato ienen y cu√°l deber√≠an de tener?
  - ¬øHay datos ausentes en alguna columna?


In [None]:
# Examinar la estructura de traffic
traffic.info()

En la estructura del DF traffic, se observa que:
- Las columnas `UpdateTimeUTC` y `UpdateTimeUTC` son de tipo object deber√≠an ser tipo Date
- Country y City son Object
- El resto de las columnas son Float64

In [None]:
# Examinar la estructura de eco
eco.info()

En la estructura del DF eco, se observa que:
- Las columnas `City GDP/capita`, `Unemployment %`, 'City' y Country son Object
- Year es de tipo int64

### 2.2 Renombrar columnas

**üéØObjetivo:**
Estandarizar los nombres de columnas para evitar errores y facilitar la uni√≥n de los datasets.

**Instrucciones:**

- Cambia los nombres de las columnas para que tengan el formato `snake_case`.
    - `Country` ‚Üí `country`
    - `UpdateTimeUTC` ‚Üí `update_time_utc`
- Verifica que los cambios se hayan aplicado correctamente usando `.columns`.


In [None]:
# Estandarizar los nombres de las columnas de traffic
#tu c√≥digo aqu√≠
columnas_traffic = {
    "Country": "country",
    "City": "city",
    "UpdateTimeUTC": "update_time_utc",
    "JamsDelay": "jams_delay",
    "TrafficIndexLive": "traffic_index_live",
    "JamsLengthInKms": "jams_length_in_kms",
    "JamsCount": "jams_count",
    "TrafficIndexWeekAgo": "traffic_index_week_ago",
    "UpdateTimeUTCWeekAgo": "update_time_utc_week_ago",
    "TravelTimeLivePer10KmsMins": "travel_time_live_per_10_kms_mins",
    "TravelTimeHistoricPer10KmsMins": "travel_time_historic_per_10_kms_mins",
    "MinsDelay": "mins_delay"
}

traffic = traffic.rename(columns=columnas_traffic)

# verificar cambios
traffic.columns

In [None]:
# Estandarizar los nombres de las columnas de eco
#tu c√≥digo aqu√≠
columnas_eco = {
    "Year": "year",
    "City": "city",
    "Country": "country",
    "City GDP/capita": "city_gdp_capita",
    "Unemployment %": "unemployment_percent",
    "PM2.5 (Œºg/m¬≥)": "pm25_ug_m3",
    "Population (M)": "population_m"
}

eco = eco.rename(columns=columnas_eco)
# verificar cambios
eco.columns


### 2.3 Corregir formatos num√©ricos y de fecha

**üéØObjetivo:**
Asegurar que las columnas de fechas y valores num√©ricos est√©n en formatos correctos para permitir an√°lisis, c√°lculos y comparaciones precisas.

**Instrucciones:**

- Convierte las columnas de fecha de `traffic` a formato `datetime`. Haz el cambio a prueba de errores.
- En el dataset `eco`, limpia los valores num√©ricos:
    - En `city_gdp_capita`: elimina separadores de miles (`.`) y reemplaza las comas (`','`) por puntos (`'.'`) antes de convertir a tipo `float`.
    - En `unemployment_pct`: elimina el s√≠mbolo de porcentaje (`%`) y reemplaza las comas (`','`) por puntos (`'.'`) antes de convertir a tipo `float`.
    - En `population_m`: reemplaza las comas (`','`) por puntos (`'.'`) antes de convertir a tipo `float`.
- Finalmente, crea una nueva columna llamada `population` multiplicando `population_m` por 1,000,000 para obtener la poblaci√≥n total.


<details>
<summary>Haz clic para ver la pista</summary>
para eliminar s√≠mbolos, puedes reemplazarlos por un texto vac√≠o.

In [None]:
# Convertir las columnas de traffic a tipo fecha con pd.to_datetime()
traffic['update_time_utc'] = traffic['update_time_utc'] = pd.to_datetime(traffic['update_time_utc'], errors="coerce")
traffic['update_time_utc_week_ago'] = traffic['update_time_utc_week_ago'] = pd.to_datetime(traffic['update_time_utc_week_ago'], errors="coerce")
# verificar el cambio
traffic.info()

In [None]:
# Limpia separadores y convierte columnas num√©ricas en eco
eco['city_gdp_capita'] = eco['city_gdp_capita'].astype(str).str.replace('.', '').str.replace(',', '.').astype(float)
eco['unemployment_percent'] = eco['unemployment_percent'].astype(str).str.replace('.', '').str.replace(',', '.').str.replace('%', '').astype(float)
eco['population_m'] = eco['population_m'].astype(str).str.replace('.', '').str.replace(',', '.').astype(float)

# Calcula la poblaci√≥n total en unidades absolutas (Multiplica * 1000000)
eco['population'] = eco['population_m']*1000000
# verificar el cambio
eco.info()

eco.head(3)


---

## üß©Paso 3: Extraer a√±o y filtrar

Extraer el a√±o permite filtrar la informaci√≥n y trabajar solo con el per√≠odo m√°s reciente y relevante.

### 3.1 Extraer columna a√±o y filtrar 2024

**üéØObjetivo**
Identificar el a√±o de cada registro y mantener solo los registros del 2024.

**Intrucciones**

- Como el DataFrame `traffic` no tiene una columna de a√±o, utiliza el atributo `.dt.year` sobre su columna de fecha para crear una nueva columna llamada `year`.
- Filtra las filas donde el a√±o sea **2024**.
- Utiliza `.copy()` para crear dos nuevos DataFrames (`traffic_2024` y `eco_2024`) para evitar modificar el dataset original.

In [None]:
# Extraer el a√±o de las fechas en update_time_utc
traffic['year'] = traffic["update_time_utc"].dt.year

# Verificar cambio
traffic.head(3)

In [None]:
# Filtra los registros del a√±o 2024
traffic_2024 = traffic[traffic["year"] == 2024].copy()
eco_2024 = eco[eco["year"] == 2024].copy()

# Revisar dataframes nuevos
display(traffic_2024.head())
display(eco_2024.head())



---

## üß©Paso 4: Analizar y resumir datos de movilidad

Como el dataset de tr√°fico contiene **m√∫ltiples registros por ciudad**. En esta parte, calcular√°s los promedios anuales por ciudad para simplificar el an√°lisis y obtener una visi√≥n m√°s clara de las tendencias generales.

### 4.1 Calcular promedios de tr√°fico por ciudad

**üéØObjetivo:**
Obtener una vista consolidada del tr√°fico promedio por ciudad y a√±o, para analizar patrones generales sin depender de datos diarios.

**Instrucciones**

- Agrupa los datos por `city`, `country` y `year`.
- Calcula el promedio **solo de las m√©tricas de tr√°fico m√°s relevantes**: como `jams_delay`, `traffic_index_live`, `jams_length_kms`, `jams_count`, `mins_delay`, y tiempos de viaje (`travel_time_live_per_10kms_mins` y `travel_time_hist_per_10kms_mins`).
- Guarda el resultado como `traffic_city_year_2024`, mant√©n las columnas como variables (no √≠ndices).


<details>
<summary>Haz clic para ver la pista</summary>
Usa ".agg()" para aplicar funciones de promedio. Al final, reinicia el √≠ndice para mantener las columnas de la agrupaci√≥n como variables (no √≠ndices).

In [None]:


# Calcular los  promedios de trafico por ciudad, pa√≠s y a√±o
group_cols = ['city', 'country','year']
traffic_city_year_2024 = traffic_2024.groupby(group_cols, dropna=False).agg({'jams_delay':'mean','traffic_index_live':'mean','jams_length_in_kms':'mean','jams_count':'mean','mins_delay':'mean','travel_time_live_per_10_kms_mins':'mean','travel_time_historic_per_10_kms_mins':'mean'}).reset_index()

# Mostrar resultado
traffic_city_year_2024.head()




### üß† **Momento de reflexi√≥n**

¬°Excelente trabajo hasta aqu√≠!

Ahora que ya tienes los promedios anuales por ciudad, es momento de **observarlos** con atenci√≥n.

Piensa:

- ¬øCu√°l crees que tiene el mayor tiempo promedio de tr√°fico?
- ¬øSer√° una ciudad de **Europa**, de **Latinoam√©rica** o de **otra regi√≥n** del mundo?

Para descubrirlo, ejecuta esta l√≠nea de c√≥digo:

`traffic_city_year_2024.sort_values(["jams_delay"], ascending=False)`


üîç Observa qu√© ciudad aparece en los primeros lugares.

¬øTe sorprenden los resultados? , ¬øCoinciden con lo que imaginabas?

In [None]:
# tu c√≥digo aqu√≠
traffic_city_year_2024.sort_values(["jams_delay"], ascending=False)

La ciudad con el mayor tiempo promedio de tr√°fico es Cd. de m√©xico


---

## üß©Paso 5: Unir movilidad y econom√≠a

Combinar datasets te permite analizar c√≥mo se relacionan los indicadores econ√≥micos con los de movilidad.

### 5.1 Unir tr√°fico (tabla principal) con indicadores econ√≥micos

**üéØObjetivo:**
Combinar la informaci√≥n de tr√°fico y econom√≠a en un solo DataFrame para analizar c√≥mo las condiciones econ√≥micas se relacionan con la movilidad urbana.

**Instrucciones**
- Selecciona solo las **columnas relevantes** de cada dataset (por ejemplo, variables clave de tr√°fico y de econom√≠a).
- Usa `.copy()` al crear subconjuntos para evitar modificar el dataset original.
- Une ambos DataFrames y define como **claves de uni√≥n** a `city` y `year`.
- Mant√©n solo las ciudades y a√±os presentes en ambos datasets.
- Guarda el resultado en una nueva variable llamada `merged` y muestra las primeras 5 filas.


<details>
<summary>Haz clic para ver la pista</summary>
Aplica una uni√≥n de tipo "inner" para mantener las ciudades y a√±os presentes en ambos datasets.

In [None]:


# Seleccionar columnas clave de tr√°fico y econom√≠a
left_cols = ['city','country','year','jams_delay','traffic_index_live',
             'jams_length_in_kms','jams_count','mins_delay',
             'travel_time_live_per_10_kms_mins','travel_time_historic_per_10_kms_mins']

right_cols = ['city','year','city_gdp_capita','unemployment_percent','pm25_ug_m3','population']

# Usar .copy() para crear los dos nuevos datasets reducidos

traffic_2024_small = traffic_city_year_2024[left_cols].copy()
eco_2024_small = eco_2024[right_cols].copy()

# Unir datasets
merged = pd.merge(traffic_2024_small, eco_2024_small, on=['city', 'year'], how='inner')

# Mostrar las primeras 5 filas
merged.head(5)
# tu c√≥digo aqu√≠




---

## üß©Paso 6: Visualizaci√≥n y an√°lisis de relaciones

Ahora que tienes un dataset limpio y unificado, es momento de **visualizar patrones**.
Los gr√°ficos te ayudar√°n a entender c√≥mo se relacionan las variables econ√≥micas con las de movilidad urbana.

### 6.1 Visualizar relaciones entre econom√≠a y tr√°fico

**üéØObjetivo:**
Analizar visualmente la distribuci√≥n y la relaci√≥n entre indicadores de tr√°fico y econom√≠a en 2024, para identificar posibles patrones o tendencias generales entre ambas variables.

**Instrucciones**
- Usa las librer√≠as `seaborn` y `matplotlib.pyplot` para generar los gr√°ficos.
- Visualiza la distribuci√≥n del **tr√°fico** (`jams_delay`) mediante:
    - **Boxplot** ‚Üí para observar la media, mediana y detectar valores at√≠picos.
- Visualiza la distribuci√≥n de la **econom√≠a** (`city_gdp_capita`) mediante:
    - **Histograma** ‚Üí para analizar la forma de la distribuci√≥n y el valor promedio del PIB per c√°pita.
- Finalmente, **compara ambas variables**, para observar si existe alguna relaci√≥n entre ellas, haciendo un solo gr√°fico de barras donde aparezcan ambos indicadores.
- Recuerda agregar t√≠tulo y etiquetas a los ejes de tus gr√°ficos.
- Observa y comenta los patrones, valores extremos o posibles relaciones que identifiques.

**Tip:** Dentro de los parentesis del boxplot, agrega `showmeans=True` para ver la media en el gr√°fico.

In [None]:
# Crear boxplot para observar el comportamiento de los minutos de congestion JamsDelay
# crea tu gr√°fico
sns.boxplot(data=merged, x='jams_delay')
# obtener promedio para mostrarlo en t√≠tulo
mean_value = merged['jams_delay'].mean()
plt.title(f'Boxplot de JamsDelay (2024)\nPromedio: {mean_value:.2f}')
plt.show()


In [None]:
# Crear histograma para ver la distribuci√≥n de la econom√≠a (city_gdp_capita)

merged['city_gdp_capita'].hist(bins=5, figsize=(10, 5))  # figsize=(ancho, alto)

plt.title('Distribuci√≥n de la econom√≠a')


In [None]:
# Gr√°fico de barras para comparar jams_delay y city_gdp_capita por ciudad

merged.plot(kind='bar', x='city', y=['jams_delay', 'city_gdp_capita'])
plt.xticks(rotation=90)
plt.show()


**Tip:** Antes del `plt.show()` agrega el c√≥digo `plt.xticks(rotation=90)` para rotar las etiquetas del eje X en 90 grados.

### üß† **Reflexiona**
Excelente trabajo llegando a esta etapa del an√°lisis. Antes de avanzar, revisa tus gr√°ficos, t√≥mate un momento para pensar:

* ¬øLas ciudades con mayor PIB per c√°pita tambi√©n presentan m√°s congesti√≥n?

* ¬øO sucede lo contrario, o no existe una relaci√≥n clara?



Escribe tus comentarios: No existe una relaci√≥n clara. 


---

## üß©Paso 7: Exportar y documentar resultados

En esta etapa final consolidar√°s todo tu trabajo: guardar√°s el dataset limpio y crear√°s un resumen que documente los resultados del proyecto.

### 7.1 Guardar dataset final

**üéØObjetivo:**
Generar un CSV limpio, reproducible y con columnas relevantes para an√°lisis posterior.

**Instrucciones**

- Exporta el DataFrame `merged` con el nombre: `ladb_mobility_economy_2024_clean.csv`
- Usa `index=False` para no incluir el √≠ndice.


In [None]:
# Exporta el dataset final como CSV
merged.to_csv("ladb_mobility_economy_2024_clean.csv", index=False)

Para poder ver o descargar el archivo generado:   
En el men√∫ lateral que esta a la izquierda, ve hasta la parte de abajo, a la secci√≥n de **Exportar dataset** para m√°s informaci√≥n. 


---

## ‚úÖ Entregables

1. **Notebook `.ipynb`** con todas las celdas (c√≥digo + comentarios).
2. **CSV final**: `ladb_mobility_economy_2024_clean.csv`.
3. **Resumen ejecutivo breve** en Markdown (3‚Äì5 p√°rrafos).


# Resumen Ejecutivo ‚Äì Movilidad Urbana y Productividad Econ√≥mica
Contexto & objetivo

El an√°lisis busca responder la pregunta central: ¬øqu√© relaci√≥n existe entre la movilidad urbana (congesti√≥n, retrasos, tiempos de viaje) y la productividad econ√≥mica (PIB per c√°pita) en ciudades latinoamericanas?
Para ello, se evaluaron indicadores clave de tr√°fico ‚Äîjams_delay, traffic_index_live, jams_length_in_kms, travel_time_live_per_10_kms_mins‚Äî y variables econ√≥micas como city_gdp_capita, unemployment_pct y pm25. Estas m√©tricas permiten identificar c√≥mo las limitaciones en la movilidad pueden frenar la eficiencia laboral, limitar el acceso a oportunidades econ√≥micas y aumentar los costos de operaci√≥n urbana.

Cobertura de datos

El estudio utiliza datos del a√±o 2024, integrando informaci√≥n de m√°s de 30 ciudades pertenecientes a m√∫ltiples pa√≠ses de Latinoam√©rica y otras regiones. La tabla unificada resultante proviene de la integraci√≥n de dos datasets independientes: uno de movilidad urbana y otro de econom√≠a ambiental y productividad.

Metodolog√≠a (alto nivel)

Se realiz√≥ una limpieza estandarizada que incluy√≥ normalizaci√≥n de nombres de columnas, conversi√≥n de tipos y eliminaci√≥n de nulos cr√≠ticos. Posteriormente, se agregaron promedios por ciudad‚Äìpa√≠s‚Äìa√±o, asegurando consistencia temporal.
Ambas bases se integraron mediante un inner join utilizando city y year, garantizando que solo se analicen ciudades con informaci√≥n completa. Finalmente, se generaron visualizaciones exploratorias como histogramas, boxplots y gr√°ficas de dispersi√≥n para validar distribuciones, detectar outliers y observar tendencias entre congesti√≥n y productividad.

Hallazgos iniciales

Los resultados indican un patr√≥n general de correlaci√≥n negativa entre congesti√≥n vehicular y PIB per c√°pita: ciudades con mayores retrasos por tr√°fico tienden a mostrar niveles m√°s bajos de ingreso por habitante.
Asimismo, se detectaron ciudades con anomal√≠as significativas, donde el nivel de congesti√≥n es extremadamente alto respecto a su productividad econ√≥mica, lo cual sugiere infraestructuras urbanas insuficientes o mala planificaci√≥n del transporte.
Tambi√©n se identificaron ciudades donde la congesti√≥n es elevada pero el PIB per c√°pita no es proporcionalmente bajo, lo cual indica resiliencia econ√≥mica o sistemas de movilidad parcialmente mitigados por densidad y patrones laborales.

Recomendaciones

A partir de la evidencia, se sugiere priorizar inversiones en infraestructura de transporte masivo en las ciudades con mayor desequilibrio entre movilidad y productividad. Se recomienda validar fuentes locales, incorporar datos de perfiles socioecon√≥micos y analizar la composici√≥n del parque vehicular.
Asimismo, debe realizarse una fase de an√°lisis avanzado mediante correlaciones formales, modelos predictivos y segmentaci√≥n urbana para definir estrategias espec√≠ficas por ciudad y por tipo de problema de movilidad.

¬øQu√© ciudad ‚ÄîBogot√°, Lima, Buenos Aires u otra‚Äî muestra la mayor correlaci√≥n entre congesti√≥n severa y baja productividad econ√≥mica, siendo prioritaria para inversi√≥n?

Santiago de Chile

La ciudad muestra la relaci√≥n m√°s cr√≠tica entre congesti√≥n severa y baja productividad econ√≥mica ‚Äîy que por lo tanto deber√≠a ser prioritaria para inversi√≥n en infraestructura de transporte, ya que presenta un nivel de congesti√≥n considerable combinado con el PIB per c√°pita urbano m√°s bajo del conjunto analizado, lo que genera el mayor desequilibrio entre movilidad y desempe√±o econ√≥mico.