In [None]:
# Proyecto ETL ‚Äì An√°lisis de Esperanza de Vida y Bienestar Global

In [None]:
import requests
import pandas as pd
import csv
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 1. Obtener lista de pa√≠ses y territorios del Banco Mundial
resp = requests.get("https://api.worldbank.org/v2/country", params={"format": "json", "per_page": 400})
data = resp.json()
paises = data[1]

# Crear tabla con datos b√°sicos de cada pa√≠s (DataFrame)
df_countries = pd.DataFrame([
    {
        "name": p["name"],
        "iso3Code": p["id"],
        "region": p["region"]["value"],
        "adminregion": p["adminregion"]["value"]
    }
    for p in paises
])

# Filtro para quitar agregados ( adminregion = "" )
# df_countries = df_countries[df_countries["adminregion"] != ""].reset_index(drop=True)
df_countries = df_countries[df_countries["region"] != "Aggregates"].reset_index(drop=True)

# *************************************
# **********  IMPORTANTE *************
# *************************************
# Comenta y descomenta seg√∫n convenga para descargar el .csv

descargar = True
# descargar = False


# Usamos funci√≥n para encapsular toda la l√≥gica de descarga,
# pero ahora descargamos TODOS los pa√≠ses a la vez para cada indicador
# (much√≠simo m√°s r√°pido que hacerlo pa√≠s por pa√≠s)
def logica_descarga(indicator_code, start_year=1980, end_year=2023):
    
    # URL para sacar TODA la serie del indicador para TODOS los pa√≠ses
    url = f"https://api.worldbank.org/v2/country/all/indicator/{indicator_code}"

    # Pedimos todo en una sola p√°gina (per_page alto)
    params = {
        "format": "json",
        "per_page": 20000,
        "date": f"{start_year}:{end_year}"
    }

    # Hacemos la petici√≥n a la API
    resp = requests.get(url, params=params)
    
    # Respuesta en JSON
    data = resp.json()

    # Convertimos la lista a diccionario (iso3, a√±o) -> valor
    # para acceder muy r√°pido despu√©s
    series = {}
    for entry in data[1]:
        iso3 = entry["countryiso3code"]
        year = entry["date"]
        value = entry["value"]
        series[(iso3, year)] = value
    
    return series


if descargar:
    # Los c√≥digos que necesitamos
    esperanza_vida = "SP.DYN.LE00.IN"
    pib = "NY.GDP.PCAP.CD"

    print("Descargando series de todos los pa√≠ses...")

    # >>> Aqu√≠ hacemos solo DOS peticiones: una por indicador
    esperanza_series = logica_descarga(esperanza_vida)
    pib_series = logica_descarga(pib)

    print("Descarga completada.")

    # Creamos el CSV donde guardaremos la tabla completa
    with open("data/datos.csv", "w", newline="") as f:
        writer = csv.writer(f)
        writer.writerow(["country", "iso3", "region", "year", "life_expectancy", "gdp_per_capita"])
        
        # Recorremos cada pa√≠s de nuestro DataFrame original
        for i, row in df_countries.iterrows():
            iso3 = row["iso3Code"]
            name = row["name"]
            region = row["region"]

            print(f"Escribiendo datos de {name}")

            # Recorremos cada a√±o y hacemos una fila por a√±o
            for year in range(1980, 2023 + 1):
                y = str(year)

                # Obtenemos los valores ya guardados en los diccionarios
                life = esperanza_series.get((iso3, y))
                gdp = pib_series.get((iso3, y))

                writer.writerow([name, iso3, region, y, life, gdp])

else:
    print("Comprueba, si sale error no la tienes descargada, cambia a descargar = True")


# Cargamos el CSV generado
df = pd.read_csv("data/datos.csv")
df.head()

In [None]:
df_life = df.copy()

In [None]:
df_life_media = (
    df_life.groupby(["country", "region"])["life_expectancy"]
    .mean()
    .reset_index()
    .rename(columns={
        "country": "pais",
        "life_expectancy": "esperanza_vida_media"
    })
)

df_life_media.head()

In [None]:
# 3. Top 10 pa√≠ses con mayor esperanza de vida

top_10 = df_life_media.sort_values("esperanza_vida_media", ascending=False).head(10)
top_10["esperanza_vida_media"] = top_10["esperanza_vida_media"].round(1)

xmin = top_10["esperanza_vida_media"].min() - 0.3
xmax = top_10["esperanza_vida_media"].max() + 0.1

plt.figure(figsize=(8,5))
bars = plt.barh(data=top_10, y="pais", width="esperanza_vida_media")

for bar in bars:
    plt.text(bar.get_width() + 0.02,
             bar.get_y() + bar.get_height()/2,
             f"{bar.get_width():.1f}", va="center")

plt.xlim(xmin, xmax)
plt.xlabel("Esperanza de vida media (a√±os)")
plt.title("Top 10 pa√≠ses con mayor esperanza de vida (1980‚Äì2023)")
plt.gca().invert_yaxis()
plt.show()


In [None]:
# 4. Esperanza de vida media por regi√≥n

df_final = df_life_media.copy()

region_life_expectancy = (
    df_final.groupby("region")["esperanza_vida_media"]
    .mean()
    .sort_values(ascending=False)
)

xmin = region_life_expectancy.min() - 1
xmax = region_life_expectancy.max() + 1

plt.figure(figsize=(10,6))
region_life_expectancy.plot(kind="bar")
plt.ylim(xmin, xmax)
plt.ylabel("Esperanza de vida media (a√±os)")
plt.title("Esperanza de vida media por regi√≥n (1980‚Äì2023)")
plt.xticks(rotation=45, ha="right")
plt.show()


## 1. Introducci√≥n

Este proyecto tiene como objetivo el desarrollo de un proceso **ETL (Extract, Transform, Load)** a partir de datos p√∫blicos del **Banco Mundial**, con el fin de analizar la relaci√≥n entre indicadores econ√≥micos y sociales a nivel global.

En concreto, se estudian dos indicadores clave:

- **Esperanza de vida al nacer** (`SP.DYN.LE00.IN`), como medida de bienestar social.
- **PIB per c√°pita** (`NY.GDP.PCAP.CD`), como medida de desarrollo econ√≥mico.

El an√°lisis se realiza para el periodo **1980‚Äì2023**, garantizando coherencia temporal en todo el proyecto.

---

## 2. Configuraci√≥n y librer√≠as

In [None]:
import os
import requests
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

---

## 3. ETL ‚Äì Extracci√≥n de datos

Se comprueba si el archivo de datos ya existe localmente. En caso contrario, se descargan los datos desde la API del Banco Mundial.

In [None]:
DATA_PATH = "data/datos_banco_mundial.csv"
os.makedirs("data", exist_ok=True)

print("¬øExiste el archivo de datos?:", os.path.exists(DATA_PATH))

### 3.1 Descarga desde la API (solo si no existe)

In [None]:
if not os.path.exists(DATA_PATH):
    indicators = {
        "esperanza_vida": "SP.DYN.LE00.IN",
        "pib_per_capita": "NY.GDP.PCAP.CD"
    }

    frames = []

    for nombre, indicador in indicators.items():
        url = f"https://api.worldbank.org/v2/country/all/indicator/{indicador}?format=json&per_page=20000"
        response = requests.get(url)
        data = response.json()[1]
        df_temp = pd.DataFrame(data)
        df_temp["indicador"] = nombre
        frames.append(df_temp)

    df_raw = pd.concat(frames, ignore_index=True)
    df_raw.to_csv(DATA_PATH, index=False)
    print("Datos descargados y guardados correctamente")
else:
    df_raw = pd.read_csv(DATA_PATH)
    print("Datos cargados desde archivo existente")


---

## 4. ETL ‚Äì Transformaci√≥n de datos

### 4.1 Limpieza y selecci√≥n de columnas

In [None]:
df = df_raw[["country", "date", "value", "indicador"]].copy()

df["pais"] = df["country"].apply(lambda x: eval(x)["value"] if isinstance(x, str) else x)
df["anio"] = pd.to_numeric(df["date"], errors="coerce")
df["valor"] = pd.to_numeric(df["value"], errors="coerce")

### 4.2 Filtrado temporal y eliminaci√≥n de nulos

In [None]:
df = df_raw[["country", "date", "value", "indicador"]].copy()

df["pais"] = df["country"].apply(lambda x: eval(x)["value"] if isinstance(x, str) else x)
df["anio"] = pd.to_numeric(df["date"], errors="coerce")
df["valor"] = pd.to_numeric(df["value"], errors="coerce")

### 4.2 Filtrado temporal y eliminaci√≥n de nulos

In [None]:
df = df[(df["anio"] >= 1980) & (df["anio"] <= 2023)]
df = df.dropna(subset=["valor"])

### 4.3 Separaci√≥n de indicadores

In [None]:
df_life = df[df["indicador"] == "esperanza_vida"]
df_gdp = df[df["indicador"] == "pib_per_capita"]

### 4.4 Media por pa√≠s (1980‚Äì2023)

In [None]:
df_life_media = (
    df_life.groupby("pais")["valor"]
    .mean()
    .reset_index()
    .rename(columns={"valor": "esperanza_vida_media"})
)

---

## 5. ETL ‚Äì Carga de datos finales

In [None]:
df_life_media.to_csv("data/esperanza_vida_media.csv", index=False)
print("Datos transformados guardados correctamente")

---

## 6. An√°lisis de Datos

## P3. Pa√≠ses con mayor y menor esperanza de vida

### Top 10 pa√≠ses (media 1980‚Äì2023)

In [None]:
top_10 = df_life_media.sort_values("esperanza_vida_media", ascending=False).head(10)

top_10["esperanza_vida_media"] = top_10["esperanza_vida_media"].round(1)

In [None]:
xmin = top_10["esperanza_vida_media"].min() - 0.3
xmax = top_10["esperanza_vida_media"].max() + 0.1

plt.figure(figsize=(8,5))
bars = plt.barh(top_10["pais"], top_10["esperanza_vida_media"])

for bar in bars:
    plt.text(bar.get_width() + 0.02,
             bar.get_y() + bar.get_height()/2,
             f"{bar.get_width():.1f}", va="center")

plt.xlim(xmin, xmax)
plt.xlabel("Esperanza de vida media (a√±os)")
plt.title("Top 10 pa√≠ses con mayor esperanza de vida (1980‚Äì2023)")
plt.gca().invert_yaxis()
plt.show()

---

## P4. Distribuci√≥n de la esperanza de vida por regiones

### 6.1 Carga de regiones

In [None]:
url_countries = "https://api.worldbank.org/v2/country?format=json&per_page=500"
countries_data = requests.get(url_countries).json()[1]

df_regions = pd.DataFrame(countries_data)
df_regions = df_regions[["name", "region"]]
df_regions["region"] = df_regions["region"].apply(lambda x: x["value"])

In [None]:
df_final = df_life_media.merge(df_regions, left_on="pais", right_on="name", how="left")

### 6.2 Media por regi√≥n

In [None]:
region_life_expectancy = df_final.groupby("region")["esperanza_vida_media"].mean().sort_values(ascending=False)

In [None]:
xmin = region_life_expectancy.min() - 1
xmax = region_life_expectancy.max() + 1

In [None]:
plt.figure(figsize=(10,6))
region_life_expectancy.plot(kind="bar")
plt.ylim(xmin, xmax)
plt.ylabel("Esperanza de vida media (a√±os)")
plt.title("Esperanza de vida media por regi√≥n (1980‚Äì2023)")
plt.xticks(rotation=45, ha="right")
plt.show()

In [None]:
plt.figure(figsize=(12,8))
sns.boxplot(data=df_final, x="esperanza_vida_media", y="region")
plt.xlabel("Esperanza de vida media (a√±os)")
plt.title("Distribuci√≥n de la esperanza de vida por regi√≥n (1980‚Äì2023)")
plt.show()

> C√≥mo leer el Boxplot (para la exposici√≥n)
Te dejo la lectura clara:
Caja corta ‚Üí regi√≥n homog√©nea


> Caja larga ‚Üí grandes desigualdades internas


> Bigotes largos ‚Üí pa√≠ses muy distintos entre s√≠


> Outliers ‚Üí pa√≠ses que rompen el patr√≥n regional


> üí¨ Frase clave:
‚ÄúDos regiones pueden tener la misma media, pero realidades internas completamente distintas.‚Äù


---

##¬†Distribuci√≥n regional de la esperanza de vida

A partir de la esperanza de vida media por pa√≠s en el periodo 1980‚Äì2023, se ha analizado su distribuci√≥n por regiones geogr√°ficas. En primer lugar, se calcula la media regional, lo que permite una comparaci√≥n directa del nivel de bienestar entre regiones.
Para profundizar en el an√°lisis, se utiliza un diagrama de caja que muestra la dispersi√≥n interna de cada regi√≥n. Este enfoque permite identificar regiones con altos niveles de desigualdad interna, as√≠ como pa√≠ses que se comportan como valores at√≠picos respecto a su entorno regional. De este modo, se evidencia que regiones con medias similares pueden presentar realidades sociales muy diferentes.

El an√°lisis de la esperanza de vida media por regiones para el periodo 1980‚Äì2023 pone de manifiesto claras diferencias geogr√°ficas en los niveles de bienestar. Las regiones con mayor desarrollo socioecon√≥mico presentan, de media, valores m√°s altos de esperanza de vida, lo que refuerza la relaci√≥n entre crecimiento econ√≥mico y calidad de vida.
Sin embargo, el uso de diagramas de caja revela que la media regional no refleja por s√≠ sola la realidad completa. Algunas regiones muestran una distribuci√≥n homog√©nea, indicando niveles de bienestar relativamente consistentes entre sus pa√≠ses, mientras que otras presentan una elevada dispersi√≥n, evidenciando importantes desigualdades internas.
Asimismo, se identifican pa√≠ses que act√∫an como valores at√≠picos dentro de su regi√≥n, lo que sugiere que factores como las pol√≠ticas p√∫blicas, la estabilidad institucional o el acceso a servicios b√°sicos pueden tener un impacto decisivo en la traducci√≥n del crecimiento econ√≥mico en bienestar social. Este an√°lisis refuerza la importancia de complementar los indicadores econ√≥micos con variables sociales para obtener una visi√≥n m√°s completa del desarrollo global.

---

El an√°lisis muestra una clara relaci√≥n entre desarrollo econ√≥mico y esperanza de vida, aunque tambi√©n revela importantes desigualdades internas entre regiones. La esperanza de vida media permite sintetizar el bienestar a largo plazo y complementa de forma efectiva los indicadores puramente econ√≥micos, ofreciendo una visi√≥n m√°s humana del desarrollo global.
