In [1]:
import requests
import time
from urllib.parse import urlparse
from bs4 import BeautifulSoup
from dotenv import load_dotenv
import os
import pandas as pd

In [2]:
# 1. Obtener el HTML de la página del ranking
load_dotenv()
url = os.getenv("TARGET_ULR_LABOR_FORCE")
BASE_URL = os.getenv("BASE_URL")

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/138.0.0.0 Safari/537.36"
}

response = requests.get(url, headers=headers)
response.raise_for_status()  # Lanza error si la petición falla

In [3]:
# 2. Parsear HTML con BeautifulSoup
soup = BeautifulSoup(response.text, "html.parser")

In [4]:
# 3. Buscar la tabla principal y extraer los links
table = soup.find("table")
country_links = []


if table:
    rows = table.find_all("tr")
    for row in rows:
        cell = row.find("td")
        if cell and cell.a:
            relative_link = cell.a["href"]
            full_url = f"{BASE_URL}{relative_link}"
            country_links.append(full_url)

# Convertir la lista en DataFrame
df_links = pd.DataFrame(country_links, columns=["url"])

# Guardar como archivo Parquet
df_links.to_parquet("data/country_labor_force_links.parquet", index=False)

In [5]:
# 4. Mostrar resultado
print("Links encontrados:", df_links.size)

Links encontrados: 178


In [13]:
# configuracion necesaria para descargar datos

master_df = pd.DataFrame()

sleep_duration = 5

plots_dir = "plots"

os.makedirs(plots_dir, exist_ok=True)

In [8]:
def extraer_info_desde_url(url: str) -> tuple[str, str]:
    partes = url.strip("/").split("/")
    if len(partes) < 5:
        raise ValueError("URL no tiene el formato esperado.")
    pais = partes[-2]
    indicador = partes[-1]
    return pais, indicador

In [10]:
# Cargar los países válidos desde el archivo parquet
df_countries = pd.read_parquet("data/countries_with_hpi.parquet")
valid_countries = set(df_countries["country"].unique())

In [11]:
# logic and execution

start_time = time.time()

for url in country_links:
    pais, indicador = extraer_info_desde_url(url)

    if pais not in valid_countries:
        print(f"⏭️ País {pais} no está en la lista, se omite.")
        continue

    try:
        response = requests.get(url, headers=headers)
        soup = BeautifulSoup(response.text, "html.parser")

        img_tag = soup.find("img", id="graphImage")
        if not img_tag:
            print(f"❌ No se encontró la imagen para {pais} - {indicador}")
            continue

        img_url = img_tag["src"]
        if img_url.startswith("/"):
            img_url = base_url + img_url

        # Crear carpeta del país dentro de "plots"
        country_folder = os.path.join(plots_dir, pais)
        os.makedirs(country_folder, exist_ok=True)

        # Guardar imagen
        filename = f"{indicador}_{pais}.png"
        filepath = os.path.join(country_folder, filename)

        img_response = requests.get(img_url, headers=headers)
        with open(filepath, "wb") as f:
            f.write(img_response.content)

        print(f"✅ Imagen guardada en: {filepath}")

    except Exception as e:
        print(f"❌ Error procesando {url}: {e}")

    time.sleep(sleep_duration)

# Medición final
end_time = time.time()
total_sleep_time = len(valid_countries) * sleep_duration
effective_time = end_time - start_time - total_sleep_time

print(f"\n⏳ Tiempo total (incluyendo esperas): {end_time - start_time:.2f} s")
print(f"😴 Tiempo en espera: {total_sleep_time:.2f} s")
print(f"⚡ Tiempo efectivo de ejecución: {effective_time:.2f} s")


✅ Imagen guardada en: plots\China\labor_force_China.png
✅ Imagen guardada en: plots\India\labor_force_India.png
✅ Imagen guardada en: plots\USA\labor_force_USA.png
✅ Imagen guardada en: plots\Indonesia\labor_force_Indonesia.png
✅ Imagen guardada en: plots\Brazil\labor_force_Brazil.png
⏭️ País Pakistan no está en la lista, se omite.
⏭️ País Nigeria no está en la lista, se omite.
✅ Imagen guardada en: plots\Russia\labor_force_Russia.png
⏭️ País Bangladesh no está en la lista, se omite.
✅ Imagen guardada en: plots\Japan\labor_force_Japan.png
⏭️ País Ethiopia no está en la lista, se omite.
✅ Imagen guardada en: plots\Mexico\labor_force_Mexico.png
⏭️ País Vietnam no está en la lista, se omite.
✅ Imagen guardada en: plots\Philippines\labor_force_Philippines.png
✅ Imagen guardada en: plots\Germany\labor_force_Germany.png
✅ Imagen guardada en: plots\Thailand\labor_force_Thailand.png
⏭️ País Democratic-Republic-of-the-Congo no está en la lista, se omite.
✅ Imagen guardada en: plots\Turkey\labor

In [6]:
# obtain paraguay url
template_url = country_links[0]
country = "Paraguay"

# Separar por "/"
parts = template_url.strip("/").split("/")

# Reemplazar el país (posición 3: después del dominio)

parts[3] = country

# Reconstruir la URL
custom_url = "/".join(parts) + "/"

In [14]:
pais, indicador = extraer_info_desde_url(custom_url)

try:
    response = requests.get(custom_url, headers=headers)
    soup = BeautifulSoup(response.text, "html.parser")

    img_tag = soup.find("img", id="graphImage")
    if not img_tag:
        print(f"❌ No se encontró la imagen para {pais} - {indicador}")
    else:
        img_url = img_tag["src"]
        if img_url.startswith("/"):
            img_url = base_url + img_url

        # Crear carpeta del país dentro de "plots"
        country_folder = os.path.join(plots_dir, pais)
        os.makedirs(country_folder, exist_ok=True)

        # Guardar imagen
        filename = f"{indicador}_{pais}.png"
        filepath = os.path.join(country_folder, filename)

        img_response = requests.get(img_url, headers=headers)
        with open(filepath, "wb") as f:
            f.write(img_response.content)

        print(f"✅ Imagen guardada en: {filepath}")

except Exception as e:
    print(f"❌ Error procesando {custom_url}: {e}")

✅ Imagen guardada en: plots\Paraguay\labor_force_Paraguay.png
