In [1]:
import pandas as pd
import requests
from bs4 import BeautifulSoup
import os
import time

# 📁 Créer un dossier de sortie
output_dir = "notices_txt"
os.makedirs(output_dir, exist_ok=True)

# 📄 Charger ton fichier Excel
df = pd.read_excel("medicament.xlsx")

# 🔁 Boucle sur les 5 premiers liens
for index, row in df.head(5).iterrows():
    url = row["Lien_Notice"]
    nom_medicament = str(row["Denomination"]).strip().replace("/", "-").replace("\\", "-")  # Nettoyage du nom

    print(f"🔗 Traitement de : {nom_medicament}")

    try:
        headers = {"User-Agent": "Mozilla/5.0"}
        response = requests.get(url, headers=headers, timeout=10)
        response.raise_for_status()
        soup = BeautifulSoup(response.text, "html.parser")

        # 🔍 Extraire tout le texte
        texte_complet = soup.get_text(separator="\n", strip=True)

        # ✂️ Nettoyage du texte
        start_index = texte_complet.find("Dénomination du médicament")
        end_index = texte_complet.find("Retour en haut de la page")

        if start_index != -1:
            texte_util = texte_complet[start_index:end_index if end_index != -1 else None]
        else:
            texte_util = texte_complet  # fallback si pas trouvé

        # 💾 Sauvegarde dans un fichier .txt
        if texte_util.strip():
            filename = os.path.join(output_dir, f"{nom_medicament}.txt")
            with open(filename, "w", encoding="utf-8") as f:
                f.write(texte_util)
            print(f"✅ Fichier enregistré : {filename}")
        else:
            print(f"⚠️ Aucun texte utile trouvé pour {nom_medicament}")

        time.sleep(1)

    except Exception as e:
        print(f"❌ Erreur pour {nom_medicament} : {e}")


🔗 Traitement de : CIMETIDINE ARROW 200 mg
✅ Fichier enregistré : notices_txt\CIMETIDINE ARROW 200 mg.txt
🔗 Traitement de : FAMOTIDINE EG 20 mg
✅ Fichier enregistré : notices_txt\FAMOTIDINE EG 20 mg.txt
🔗 Traitement de : FAMOTIDINE EG 40 mg
✅ Fichier enregistré : notices_txt\FAMOTIDINE EG 40 mg.txt
🔗 Traitement de : MOPRAL 10 mg
✅ Fichier enregistré : notices_txt\MOPRAL 10 mg.txt
🔗 Traitement de : MOPRAL 20 mg
✅ Fichier enregistré : notices_txt\MOPRAL 20 mg.txt
