In [2]:
# ── scrape_drugs_com.py ────────────────────────────────────────────────────
import json, string, time, sys
from pathlib import Path

import requests
from bs4 import BeautifulSoup

# ------------------------------------------------------------------------
# CONFIGURACIÓN
# ------------------------------------------------------------------------
BASE_URL   = "https://www.drugs.com"
# ⇩⇩⇩  ruta absoluta en tu unidad G:
OUTPUT_DIR = Path(r"G:\Mi unidad\Data_Science\Data_Science\Maestría en Explotación de Datos y Gestión del Conocimiento\Segundo Año\Introducción al Text Mining\TP")
OUTPUT_DIR.mkdir(parents=True, exist_ok=True)      # crea la carpeta si no existe
OUTPUT     = OUTPUT_DIR / "Medicamentos.json"      # archivo final

HEADERS    = {"User-Agent": "PharmaScraper/1.0 (+your_email@domain)"}
DELAY_SECS = 1.0          # pausa entre páginas (respeta al servidor)

# ------------------------------------------------------------------------
def scrape_letter(letter: str) -> list[dict]:
    """Devuelve [{'name': 'Abacavir', 'url': 'https://…'}, …] para una letra."""
    url   = f"{BASE_URL}/alpha/{letter}.html"
    html  = requests.get(url, headers=HEADERS, timeout=15).text
    soup  = BeautifulSoup(html, "html.parser")

    items = []
    for a in soup.select("ul.ddc-list-column-2 li a"):
        name = a.text.strip()
        link = BASE_URL + a["href"]
        items.append({"name": name, "url": link})
    return items

# ------------------------------------------------------------------------
def main():
    all_drugs = []
    for letter in string.ascii_lowercase:
        try:
            print(f"Scraping {letter.upper()} …", end=" ", flush=True)
            data = scrape_letter(letter)
            all_drugs.extend(data)
            print(f"{len(data):>4} fármacos.")
            time.sleep(DELAY_SECS)
        except Exception as e:
            print(f"\n  ⚠️  Error con {letter}: {e}", file=sys.stderr)

    # Ordena y elimina duplicados
    seen, clean = set(), []
    for item in sorted(all_drugs, key=lambda d: d["name"].lower()):
        key = item["name"].lower()
        if key not in seen:
            seen.add(key)
            clean.append(item)

    OUTPUT.write_text(json.dumps(clean, ensure_ascii=False, indent=2))
    print(f"\n✅  Guardado {len(clean)} fármacos en {OUTPUT.resolve()}")

# ------------------------------------------------------------------------
if __name__ == "__main__":
    main()



Scraping A …   72 fármacos.
Scraping B …   59 fármacos.
Scraping C …   57 fármacos.
Scraping D …   50 fármacos.
Scraping E …   52 fármacos.
Scraping F …   49 fármacos.
Scraping G …   46 fármacos.
Scraping H …   44 fármacos.
Scraping I …   54 fármacos.
Scraping J …   37 fármacos.
Scraping K …   43 fármacos.
Scraping L …   61 fármacos.
Scraping M …   49 fármacos.
Scraping N …   51 fármacos.
Scraping O …   52 fármacos.
Scraping P …   51 fármacos.
Scraping Q …   27 fármacos.
Scraping R …   56 fármacos.
Scraping S …   67 fármacos.
Scraping T …   68 fármacos.
Scraping U …   41 fármacos.
Scraping V …   53 fármacos.
Scraping W …   24 fármacos.
Scraping X …   42 fármacos.
Scraping Y …   21 fármacos.
Scraping Z …   45 fármacos.

✅  Guardado 1271 fármacos en G:\Mi unidad\Data_Science\Data_Science\Maestría en Explotación de Datos y Gestión del Conocimiento\Segundo Año\Introducción al Text Mining\TP\Medicamentos.json
