In [2]:
# -*- coding: utf-8 -*-
# =====================================
#  CELLULE 1 : Installation et Setup
# =====================================
# Installez les biblioth√®ques n√©cessaires.
!pip install nltk sumy scikit-learn requests beautifulsoup4 ipywidgets -q

# Importations principales
import nltk
import requests
from bs4 import BeautifulSoup
from sumy.parsers.plaintext import PlaintextParser
from sumy.nlp.tokenizers import Tokenizer
from sumy.summarizers.lsa import LsaSummarizer # Alternative: TextRankSummarizer, LexRankSummarizer
from sumy.nlp.stemmers import Stemmer
from sumy.utils import get_stop_words

from sklearn.feature_extraction.text import TfidfVectorizer
import ipywidgets as widgets
from IPython.display import display, clear_output

import warnings
warnings.filterwarnings('ignore') # Pour masquer les avertissements potentiels
import urllib.error # Pour attraper sp√©cifiquement les erreurs r√©seau NLTK

# T√©l√©chargement des ressources NLTK (version avec punkt_tab)
print("‚¨áÔ∏è T√©l√©chargement des ressources NLTK n√©cessaires (punkt, stopwords, punkt_tab)...")
nltk_download_success = True
missing_resources = []
resources_to_download = [
    ('tokenizers/punkt', 'punkt'),
    ('corpora/stopwords', 'stopwords'),
    ('tokenizers/punkt_tab', 'punkt_tab') # Ajout de punkt_tab
]

try:
    for resource_path, resource_name in resources_to_download:
        print(f"--- V√©rification de '{resource_name}' ---")
        try:
            nltk.data.find(resource_path)
            print(f"   [INFO] '{resource_name}' d√©j√† pr√©sent.")
        except LookupError:
            print(f"   [ACTION] '{resource_name}' non trouv√©. Tentative de t√©l√©chargement...")
            try:
                nltk.download(resource_name, quiet=True)
                # V√©rifier √† nouveau apr√®s la tentative de t√©l√©chargement
                nltk.data.find(resource_path)
                print(f"   [SUCCESS] '{resource_name}' t√©l√©charg√© avec succ√®s.")
            except urllib.error.URLError as e:
                print(f"   [ERREUR] R√©seau pendant le t√©l√©chargement de '{resource_name}': {e}")
                missing_resources.append(resource_name)
                nltk_download_success = False
            except LookupError:
                print(f"   [ERREUR] √âchec de la localisation de '{resource_name}' apr√®s tentative de t√©l√©chargement.")
                missing_resources.append(resource_name)
                nltk_download_success = False
            except Exception as e:
                 print(f"   [ERREUR] Inattendue pendant le t√©l√©chargement de '{resource_name}': {e}")
                 missing_resources.append(resource_name)
                 nltk_download_success = False

    # --- Message final sur les ressources NLTK ---
    if not missing_resources:
        print("‚úÖ Ressources NLTK essentielles trouv√©es ou t√©l√©charg√©es.")
    else:
        print(f"‚ö†Ô∏è Certaines ressources NLTK n'ont pas pu √™tre charg√©es : {', '.join(missing_resources)}")
        # nltk_download_success est d√©j√† False si missing_resources n'est pas vide


except Exception as e:
    # Erreur g√©n√©rale en dehors des blocs de t√©l√©chargement
    print(f"‚ùå Erreur g√©n√©rale inattendue lors de la pr√©paration des ressources NLTK : {e}")
    nltk_download_success = False

# D√©finition de la langue et des stop words
LANGUE = "french"
STOP_WORDS_FR_NLTK = []
STOP_WORDS_FR_SUMY = []

if nltk_download_success:
    try:
        STOP_WORDS_FR_NLTK = nltk.corpus.stopwords.words(LANGUE)
        STOP_WORDS_FR_SUMY = get_stop_words(LANGUE)
        print("‚úÖ Stopwords fran√ßais charg√©s.")
    except Exception as e:
        print(f"‚ùå Erreur lors du chargement des stopwords fran√ßais : {e}")
        nltk_download_success = False

# --- Message final sur l'√©tat de l'environnement ---
if nltk_download_success:
    print("‚úÖ Environnement pr√™t.")
else:
    print("‚ö†Ô∏è Environnement partiellement pr√™t ou √©chec critique. V√©rifiez les messages d'erreur NLTK ci-dessus.")


# =====================================
#  CELLULE 2 : Fonctions Utilitaires
# =====================================

def resumer_texte(texte, langue, nb_phrases):
    """
    R√©sume le texte donn√© en utilisant Sumy (LSA par d√©faut).
    """
    if not nltk_download_success:
         # Message plus pr√©cis bas√© sur les ressources manquantes si possible
         missing_str = ', '.join(missing_resources) if 'missing_resources' in globals() and missing_resources else "inconnues"
         return f"[ERREUR: RESSOURCES NLTK MANQUANTES ({missing_str})]"
    if not texte or not isinstance(texte, str) or texte.isspace():
        return "[Erreur: Texte vide ou invalide]"
    if not isinstance(nb_phrases, int) or nb_phrases <= 0:
        return "[Erreur: Nombre de phrases invalide]"

    try:
        # Utilisation explicite du tokenizer pour la langue sp√©cifi√©e
        parser = PlaintextParser.from_string(texte, Tokenizer(langue))
        stemmer = Stemmer(langue)
        summarizer = LsaSummarizer(stemmer)
        # S'assurer que les stopwords sont bien ceux de la langue
        summarizer.stop_words = STOP_WORDS_FR_SUMY if STOP_WORDS_FR_SUMY else get_stop_words(langue)

        resume_phrases = summarizer(parser.document, nb_phrases)
        resume_final = " ".join([str(phrase) for phrase in resume_phrases])

        if not resume_final.strip():
             # Essayer d'obtenir le nombre total de phrases pour aider au diagnostic
             try:
                 total_phrases = len(parser.document.sentences)
                 return f"[Info: Le r√©sum√© g√©n√©r√© est vide. Le texte original contient {total_phrases} phrases. V√©rifiez le texte ou le nombre de phrases demand√© ({nb_phrases}).]"
             except:
                 return "[Info: Le r√©sum√© g√©n√©r√© est vide. Le texte original √©tait peut-√™tre trop court ou le nombre de phrases demand√© trop √©lev√©.]"
        return resume_final
    except LookupError as le:
        # Attraper sp√©cifiquement les LookupError qui pourraient encore survenir
        return f"[Erreur NLTK pendant le r√©sum√©: Ressource manquante - {le}. V√©rifiez l'installation NLTK.]"
    except Exception as e:
        # Inclure le type d'erreur pour faciliter le d√©bogage
        return f"[Erreur pendant le r√©sum√© ({type(e).__name__}): {e}]"


def extraire_texte_url(url):
    """
    Extrait le contenu textuel principal d'une page web.
    """
    if not url or not url.startswith(('http://', 'https://')):
        return None, "URL invalide (doit commencer par http:// ou https://)."

    try:
        headers = {'User-Agent': 'Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)'}
        reponse = requests.get(url, headers=headers, timeout=15, allow_redirects=True)
        reponse.raise_for_status()
        reponse.encoding = reponse.apparent_encoding

        soup = BeautifulSoup(reponse.content, 'html.parser')

        for element in soup(["script", "style", "header", "footer", "nav", "aside", "form", "noscript", "img", "figure", "iframe"]):
            element.decompose() # Enlever plus d'√©l√©ments non textuels

        contenu_principal = soup.find('article') or soup.find('main') or soup.find(role='main')
        if not contenu_principal:
             contenu_principal = soup.find('body')

        if contenu_principal:
            # Remplacer les sauts de ligne par des espaces et nettoyer
            texte_brut = contenu_principal.get_text(separator=' ', strip=True)
        else:
             texte_brut = soup.get_text(separator=' ', strip=True)

        texte_nettoye = ' '.join(texte_brut.split())

        if not texte_nettoye or len(texte_nettoye) < 50: # Seuil minimum de caract√®res
             paragraphes = soup.find_all('p')
             if paragraphes:
                 texte_brut_p = ' '.join([p.get_text(strip=True) for p in paragraphes if p.get_text(strip=True)])
                 texte_nettoye_p = ' '.join(texte_brut_p.split())
                 # Utiliser la version <p> seulement si elle est significativement plus longue
                 if len(texte_nettoye_p) > len(texte_nettoye) * 1.2:
                      texte_nettoye = texte_nettoye_p

        if not texte_nettoye:
            return None, "Impossible d'extraire du contenu textuel significatif."

        return texte_nettoye, None

    except requests.exceptions.Timeout:
        return None, f"Erreur: D√©lai d'attente d√©pass√© pour l'URL."
    except requests.exceptions.HTTPError as e:
         return None, f"Erreur HTTP {e.response.status_code}."
    except requests.exceptions.RequestException as e:
        # Essayer de donner une erreur plus sp√©cifique si possible (ex: DNS, Connexion)
        error_type = type(e).__name__
        return None, f"Erreur de connexion ({error_type}). V√©rifiez l'URL et la connexion."
    except Exception as e:
        return None, f"Erreur inattendue (analyse HTML?): {type(e).__name__}"


def extraire_mots_cles(texte, langue, nb_mots=7):
    """
    Extrait les mots-cl√©s via TF-IDF.
    """
    if not nltk_download_success or not STOP_WORDS_FR_NLTK:
         print("[Avertissement: Mots-cl√©s non extraits (ressources NLTK ou stopwords manquants)]")
         return []
    if not texte or not isinstance(texte, str) or texte.isspace() or len(texte.split()) < 5: # Besoin d'un minimum de mots
        print("[Info: Texte trop court pour l'extraction de mots-cl√©s pertinents]")
        return []

    try:
        vectorizer = TfidfVectorizer(stop_words=STOP_WORDS_FR_NLTK, max_features=1000, ngram_range=(1, 2))
        tfidf_matrix = vectorizer.fit_transform([texte])

        feature_names = vectorizer.get_feature_names_out()
        scores = tfidf_matrix.toarray()[0]
        scored_words = zip(scores, feature_names)
        sorted_words = sorted(scored_words, key=lambda x: x[0], reverse=True)
        mots_cles = [word for score, word in sorted_words if score > 0.02][:nb_mots] # Seuil l√©g√®rement augment√©

        return mots_cles
    except ValueError as ve:
        if "empty vocabulary" in str(ve):
            print("[Info: Vocabulaire vide apr√®s filtrage pour TF-IDF]")
            return []
        else:
            print(f"[Avertissement: Erreur TF-IDF (ValueError): {ve}]")
            return []
    except Exception as e:
        print(f"[Avertissement: Erreur TF-IDF (Inattendue): {e}]")
        return []

# =====================================
#  CELLULE 3 : Interface Chatbot (Texte) - Pas de changements majeurs n√©cessaires ici
# =====================================
def lancer_chatbot_texte():
    """Lance l'interaction principale du chatbot en mode texte."""
    if not nltk_download_success:
        missing_str = ', '.join(missing_resources) if 'missing_resources' in globals() and missing_resources else "inconnues"
        print(f"‚ùå Le chatbot ne peut pas d√©marrer car les ressources NLTK essentielles ({missing_str}) n'ont pas pu √™tre charg√©es.")
        print("   Veuillez v√©rifier les messages d'erreur ci-dessus et r√©-ex√©cuter la cellule.")
        return

    print("\n" + "="*50)
    print("ü§ñ Bonjour ! Je suis votre assistant r√©sumeur de texte.")
    print("="*50)

    while True:
        print("\nQue souhaitez-vous faire ?")
        print("1. R√©sumer un texte que vous allez coller.")
        print("2. R√©sumer le contenu d'une page web (via URL).")
        print("3. Quitter.")

        choix = ""
        try:
            choix = input("Votre choix (1, 2 ou 3) : ").strip()
        except EOFError: print("\nEntr√©e ferm√©e. Arr√™t."); break
        except KeyboardInterrupt: print("\nInterruption d√©tect√©e. Arr√™t."); break

        if choix == '1':
            print("\nü§ñ Tr√®s bien ! Collez votre texte ci-dessous (Entr√©e sur ligne vide pour finir):")
            lignes = []
            try:
                while True:
                    ligne = input()
                    if ligne or ligne == "": # Accepter ligne vide pour finir
                         if ligne: lignes.append(ligne)
                         elif lignes: break # Arr√™ter si ligne vide ET on a d√©j√† du texte
                         else: print("   (Continuez √† coller ou Entr√©e sur ligne vide pour finir)") # Rappel si vide au d√©but
                    # Si input() retourne None ou autre chose (ne devrait pas arriver normalement)
                    # else:
                    #     if lignes: break
                    #     else: print("\nSaisie invalide/annul√©e."); lignes=None; break

            except EOFError:
                if not lignes: print("\nSaisie annul√©e (EOF)."); continue
                print("\nFin de saisie d√©tect√©e (EOF).")
            except KeyboardInterrupt: print("\nSaisie annul√©e (Ctrl+C)."); continue

            if not lignes: continue

            texte_utilisateur = "\n".join(lignes)
            print(f"\nü§ñ Texte re√ßu ! ({len(texte_utilisateur)} caract√®res)")

            nb_phrases = 0
            while True:
                try:
                    nb_phrases_str = input("Combien de phrases pour le r√©sum√© ? (Nombre > 0) : ").strip()
                    if not nb_phrases_str: continue
                    nb_phrases = int(nb_phrases_str)
                    if nb_phrases > 0: break
                    else: print("‚ùå Nombre positif requis.")
                except ValueError: print("‚ùå Entr√©e invalide (nombre entier requis).")
                except (KeyboardInterrupt, EOFError): print("\nOp√©ration annul√©e."); nb_phrases = -1; break

            if nb_phrases <= 0: continue

            print(f"\nü§ñ G√©n√©ration du r√©sum√© ({nb_phrases} phrases)...")
            resume = resumer_texte(texte_utilisateur, LANGUE, nb_phrases)
            print("\n--- R√©sum√© ---")
            print(resume)
            print("--- Fin du R√©sum√© ---")

            print("\nü§ñ Extraction des mots-cl√©s...")
            mots_cles = extraire_mots_cles(texte_utilisateur, LANGUE, nb_mots=7)
            if mots_cles:
                print("\n--- Mots-Cl√©s (max 7) ---")
                print(", ".join(mots_cles))
                print("--- Fin des Mots-Cl√©s ---")

        elif choix == '2':
            url = ""
            try:
                 url = input("\nü§ñ Entrez l'URL de la page web : ").strip()
                 if not url: print("‚ùå URL vide."); continue
            except (KeyboardInterrupt, EOFError): print("\nOp√©ration annul√©e."); continue

            print(f"\nü§ñ Extraction du texte de : {url}...")
            texte_extrait, erreur = extraire_texte_url(url)

            if erreur:
                print(f"‚ùå Erreur URL : {erreur}")
                continue

            if texte_extrait:
                print(f"‚úÖ Texte extrait ({len(texte_extrait)} caract√®res)")
                nb_phrases = 0
                while True:
                    try:
                        nb_phrases_str = input("Combien de phrases pour le r√©sum√© ? (Nombre > 0) : ").strip()
                        if not nb_phrases_str: continue
                        nb_phrases = int(nb_phrases_str)
                        if nb_phrases > 0: break
                        else: print("‚ùå Nombre positif requis.")
                    except ValueError: print("‚ùå Entr√©e invalide.")
                    except (KeyboardInterrupt, EOFError): print("\nOp√©ration annul√©e."); nb_phrases = -1; break

                if nb_phrases <= 0: continue

                print(f"\nü§ñ G√©n√©ration du r√©sum√© ({nb_phrases} phrases)...")
                resume = resumer_texte(texte_extrait, LANGUE, nb_phrases)
                print("\n--- R√©sum√© ---")
                print(resume)
                print("--- Fin du R√©sum√© ---")

                print("\nü§ñ Extraction des mots-cl√©s...")
                mots_cles = extraire_mots_cles(texte_extrait, LANGUE, nb_mots=7)
                if mots_cles:
                    print("\n--- Mots-Cl√©s (max 7) ---")
                    print(", ".join(mots_cles))
                    print("--- Fin des Mots-Cl√©s ---")
            else:
                 # Le message d'erreur de extract_texte_url devrait d√©j√† √™tre affich√©
                 print("‚ùå Impossible d'extraire le texte de l'URL (raison inconnue apr√®s succ√®s apparent).") # Fallback

        elif choix == '3':
            print("\nü§ñ Au revoir ! üëã")
            break
        else:
            print("\n‚ùå Choix invalide. Veuillez entrer 1, 2 ou 3.")

        print("\n" + "="*50) # S√©parateur

# =====================================
#  CELLULE 4 : Lancement du Chatbot (Mode Texte)
# =====================================
# D√©commentez la ligne ci-dessous pour lancer en mode texte.
#lancer_chatbot_texte()

# =====================================
#  CELLULE 5 : Alternative avec Interface ipywidgets
# =====================================
# Widgets
text_input_area = widgets.Textarea(placeholder='Collez votre texte ici...', layout=widgets.Layout(width='95%', height='180px'), description='Texte:', disabled=not nltk_download_success)
url_input = widgets.Text(placeholder='Ou entrez une URL ici...', layout=widgets.Layout(width='95%'), description='URL:', disabled=not nltk_download_success)
sentences_slider = widgets.IntSlider(value=3, min=1, max=20, step=1, description='Phrases:', layout=widgets.Layout(width='60%'), disabled=not nltk_download_success, readout_format='d')
summarize_button = widgets.Button(description='R√©sumer', button_style='success', tooltip='Lancer le r√©sum√© et l\'extraction', icon='compress', disabled=not nltk_download_success, layout=widgets.Layout(width='auto'))
output_area = widgets.Output(layout=widgets.Layout(width='95%', min_height='150px', border='1px solid lightgray', padding='10px', margin='10px 0 0 0', overflow_y='auto'))
status_label = widgets.Label(value="Pr√™t." if nltk_download_success else "Erreur NLTK - Voir logs.")

# Fonction appel√©e par le bouton
def on_summarize_button_clicked(b):
    summarize_button.disabled = True
    summarize_button.icon = 'spinner'
    summarize_button.description = 'Traitement...'
    status_label.value = "‚è≥ Initialisation..."
    output_area.clear_output(wait=True)

    texte_a_resumer = None
    source = ""
    texte_colle = text_input_area.value.strip()
    url = url_input.value.strip()

    with output_area:
        if texte_colle:
            status_label.value = "ü§ñ Analyse du texte coll√©..."
            print("ü§ñ Analyse du texte coll√©...")
            texte_a_resumer = texte_colle
            source = "Texte fourni"
            url_input.value = ""
        elif url:
            status_label.value = f"ü§ñ Extraction depuis URL..."
            print(f"ü§ñ Extraction depuis URL...")
            texte_a_resumer, erreur = extraire_texte_url(url)
            if erreur:
                status_label.value = f"‚ùå Erreur URL: {erreur}"
                print(f"‚ùå Erreur URL: {erreur}")
                summarize_button.disabled = False; summarize_button.icon = 'compress'; summarize_button.description = 'R√©sumer'
                return
            if texte_a_resumer:
                status_label.value = "‚úÖ Texte extrait."
                print(f"‚úÖ Texte extrait ({len(texte_a_resumer)} caract√®res)")
                source = f"URL"
                text_input_area.value = ""
            else:
                status_label.value = "‚ùå √âchec extraction (pas de texte trouv√©)."
                print("‚ùå √âchec extraction (pas de texte trouv√©).")
                summarize_button.disabled = False; summarize_button.icon = 'compress'; summarize_button.description = 'R√©sumer'
                return
        else:
            status_label.value = "‚ö†Ô∏è Veuillez fournir du texte ou une URL."
            print("‚ö†Ô∏è Veuillez fournir du texte ou une URL.")
            summarize_button.disabled = False; summarize_button.icon = 'compress'; summarize_button.description = 'R√©sumer'
            return

        nb_phrases = sentences_slider.value
        status_label.value = f"‚è≥ R√©sum√© ({nb_phrases} phrases) & Mots-cl√©s..."
        print(f"\n--- G√©n√©ration R√©sum√© ({nb_phrases} phrases) ---")
        resume = resumer_texte(texte_a_resumer, LANGUE, nb_phrases)
        print(resume)
        print("--- Fin R√©sum√© ---")

        print("\n--- Extraction Mots-Cl√©s (max 7) ---")
        mots_cles = extraire_mots_cles(texte_a_resumer, LANGUE, nb_mots=7)
        if mots_cles:
            print(", ".join(mots_cles))
        else:
            print("[Aucun mot-cl√© pertinent trouv√© ou extraction impossible]")
        print("--- Fin Mots-Cl√©s ---")

        status_label.value = f"‚úÖ Termin√© ({source})."

    summarize_button.disabled = False
    summarize_button.icon = 'compress'
    summarize_button.description = 'R√©sumer'

# Lier la fonction au clic du bouton
summarize_button.on_click(on_summarize_button_clicked)

# Afficher l'interface
if nltk_download_success:
    print("\n" + "="*50)
    print("ü§ñ Interface Interactive du R√©sumeur ü§ñ")
    print("   Collez du texte OU entrez une URL, ajustez le nombre de phrases, puis cliquez sur 'R√©sumer'.")
    input_section = widgets.VBox([
        widgets.HTML("<b>Texte √† r√©sumer :</b>"), text_input_area,
        widgets.HTML("<b>Ou URL d'une page web :</b>"), url_input
    ])
    controls_section = widgets.HBox([sentences_slider, summarize_button], layout=widgets.Layout(margin='10px 0', justify_content='space-between')) # Better spacing
    output_section = widgets.VBox([
        status_label,
        widgets.HTML("<hr style='margin: 5px 0;'>"),
        widgets.HTML("<b>R√©sultat :</b>"),
        output_area
    ])
    display(widgets.VBox([input_section, controls_section, output_section]))
else:
    missing_str = ', '.join(missing_resources) if 'missing_resources' in globals() and missing_resources else "inconnues"
    print("\n" + "="*50)
    print(f"‚ùå L'interface interactive ne peut pas √™tre lanc√©e car les ressources NLTK essentielles ({missing_str}) n'ont pas pu √™tre charg√©es.")
    print("   Veuillez corriger les erreurs dans la sortie \"T√©l√©chargement des ressources NLTK\" ci-dessus et r√©-ex√©cuter la cellule.")

  Preparing metadata (setup.py) ... [?25l[?25hdone
  Preparing metadata (setup.py) ... [?25l[?25hdone
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m97.3/97.3 kB[0m [31m3.3 MB/s[0m eta [36m0:00:00[0m
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m6.3/6.3 MB[0m [31m53.3 MB/s[0m eta [36m0:00:00[0m
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m1.6/1.6 MB[0m [31m55.5 MB/s[0m eta [36m0:00:00[0m
[?25h  Building wheel for breadability (setup.py) ... [?25l[?25hdone
  Building wheel for docopt (setup.py) ... [?25l[?25hdone
‚¨áÔ∏è T√©l√©chargement des ressources NLTK n√©cessaires (punkt, stopwords, punkt_tab)...
--- V√©rification de 'punkt' ---
   [INFO] 'punkt' d√©j√† pr√©sent.
--- V√©rific

VBox(children=(VBox(children=(HTML(value='<b>Texte √† r√©sumer :</b>'), Textarea(value='', description='Texte:',‚Ä¶

In [3]:
# -*- coding: utf-8 -*-
# =====================================
#  CELLULE 1 : Installation et Setup
# =====================================
# Installez les biblioth√®ques n√©cessaires.
!pip install nltk sumy scikit-learn requests beautifulsoup4 ipywidgets -q

# Importations principales
import nltk
import requests
from bs4 import BeautifulSoup
from sumy.parsers.plaintext import PlaintextParser
from sumy.nlp.tokenizers import Tokenizer
from sumy.summarizers.lsa import LsaSummarizer # Alternative: TextRankSummarizer, LexRankSummarizer
from sumy.nlp.stemmers import Stemmer
from sumy.utils import get_stop_words

from sklearn.feature_extraction.text import TfidfVectorizer
import ipywidgets as widgets
from IPython.display import display, clear_output

import warnings
warnings.filterwarnings('ignore') # Pour masquer les avertissements potentiels
import urllib.error # Pour attraper sp√©cifiquement les erreurs r√©seau NLTK

# T√©l√©chargement des ressources NLTK (version avec punkt_tab)
print("‚¨áÔ∏è T√©l√©chargement des ressources NLTK n√©cessaires (punkt, stopwords, punkt_tab)...")
nltk_download_success = True
missing_resources = []
resources_to_download = [
    ('tokenizers/punkt', 'punkt'),
    ('corpora/stopwords', 'stopwords'),
    ('tokenizers/punkt_tab', 'punkt_tab') # Ajout de punkt_tab
]

try:
    for resource_path, resource_name in resources_to_download:
        print(f"--- V√©rification de '{resource_name}' ---")
        try:
            nltk.data.find(resource_path)
            print(f"   [INFO] '{resource_name}' d√©j√† pr√©sent.")
        except LookupError:
            print(f"   [ACTION] '{resource_name}' non trouv√©. Tentative de t√©l√©chargement...")
            try:
                nltk.download(resource_name, quiet=True)
                # V√©rifier √† nouveau apr√®s la tentative de t√©l√©chargement
                nltk.data.find(resource_path)
                print(f"   [SUCCESS] '{resource_name}' t√©l√©charg√© avec succ√®s.")
            except urllib.error.URLError as e:
                print(f"   [ERREUR] R√©seau pendant le t√©l√©chargement de '{resource_name}': {e}")
                missing_resources.append(resource_name)
                nltk_download_success = False
            except LookupError:
                print(f"   [ERREUR] √âchec de la localisation de '{resource_name}' apr√®s tentative de t√©l√©chargement.")
                missing_resources.append(resource_name)
                nltk_download_success = False
            except Exception as e:
                 print(f"   [ERREUR] Inattendue pendant le t√©l√©chargement de '{resource_name}': {e}")
                 missing_resources.append(resource_name)
                 nltk_download_success = False

    # --- Message final sur les ressources NLTK ---
    if not missing_resources:
        print("‚úÖ Ressources NLTK essentielles trouv√©es ou t√©l√©charg√©es.")
    else:
        print(f"‚ö†Ô∏è Certaines ressources NLTK n'ont pas pu √™tre charg√©es : {', '.join(missing_resources)}")
        # nltk_download_success est d√©j√† False si missing_resources n'est pas vide


except Exception as e:
    # Erreur g√©n√©rale en dehors des blocs de t√©l√©chargement
    print(f"‚ùå Erreur g√©n√©rale inattendue lors de la pr√©paration des ressources NLTK : {e}")
    nltk_download_success = False

# D√©finition de la langue et des stop words
LANGUE = "french"
STOP_WORDS_FR_NLTK = []
STOP_WORDS_FR_SUMY = []

if nltk_download_success:
    try:
        STOP_WORDS_FR_NLTK = nltk.corpus.stopwords.words(LANGUE)
        STOP_WORDS_FR_SUMY = get_stop_words(LANGUE)
        print("‚úÖ Stopwords fran√ßais charg√©s.")
    except Exception as e:
        print(f"‚ùå Erreur lors du chargement des stopwords fran√ßais : {e}")
        nltk_download_success = False

# --- Message final sur l'√©tat de l'environnement ---
if nltk_download_success:
    print("‚úÖ Environnement pr√™t.")
else:
    print("‚ö†Ô∏è Environnement partiellement pr√™t ou √©chec critique. V√©rifiez les messages d'erreur NLTK ci-dessus.")


# =====================================
#  CELLULE 2 : Fonctions Utilitaires
# =====================================

def resumer_texte(texte, langue, nb_phrases):
    """
    R√©sume le texte donn√© en utilisant Sumy (LSA par d√©faut).
    """
    if not nltk_download_success:
         # Message plus pr√©cis bas√© sur les ressources manquantes si possible
         missing_str = ', '.join(missing_resources) if 'missing_resources' in globals() and missing_resources else "inconnues"
         return f"[ERREUR: RESSOURCES NLTK MANQUANTES ({missing_str})]"
    if not texte or not isinstance(texte, str) or texte.isspace():
        return "[Erreur: Texte vide ou invalide]"
    if not isinstance(nb_phrases, int) or nb_phrases <= 0:
        return "[Erreur: Nombre de phrases invalide]"

    try:
        # Utilisation explicite du tokenizer pour la langue sp√©cifi√©e
        parser = PlaintextParser.from_string(texte, Tokenizer(langue))
        stemmer = Stemmer(langue)
        summarizer = LsaSummarizer(stemmer)
        # S'assurer que les stopwords sont bien ceux de la langue
        summarizer.stop_words = STOP_WORDS_FR_SUMY if STOP_WORDS_FR_SUMY else get_stop_words(langue)

        resume_phrases = summarizer(parser.document, nb_phrases)
        resume_final = " ".join([str(phrase) for phrase in resume_phrases])

        if not resume_final.strip():
             # Essayer d'obtenir le nombre total de phrases pour aider au diagnostic
             try:
                 total_phrases = len(parser.document.sentences)
                 return f"[Info: Le r√©sum√© g√©n√©r√© est vide. Le texte original contient {total_phrases} phrases. V√©rifiez le texte ou le nombre de phrases demand√© ({nb_phrases}).]"
             except:
                 return "[Info: Le r√©sum√© g√©n√©r√© est vide. Le texte original √©tait peut-√™tre trop court ou le nombre de phrases demand√© trop √©lev√©.]"
        return resume_final
    except LookupError as le:
        # Attraper sp√©cifiquement les LookupError qui pourraient encore survenir
        return f"[Erreur NLTK pendant le r√©sum√©: Ressource manquante - {le}. V√©rifiez l'installation NLTK.]"
    except Exception as e:
        # Inclure le type d'erreur pour faciliter le d√©bogage
        return f"[Erreur pendant le r√©sum√© ({type(e).__name__}): {e}]"


def extraire_texte_url(url):
    """
    Extrait le contenu textuel principal d'une page web.
    """
    if not url or not url.startswith(('http://', 'https://')):
        return None, "URL invalide (doit commencer par http:// ou https://)."

    try:
        headers = {'User-Agent': 'Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)'}
        reponse = requests.get(url, headers=headers, timeout=15, allow_redirects=True)
        reponse.raise_for_status()
        reponse.encoding = reponse.apparent_encoding

        soup = BeautifulSoup(reponse.content, 'html.parser')

        for element in soup(["script", "style", "header", "footer", "nav", "aside", "form", "noscript", "img", "figure", "iframe"]):
            element.decompose() # Enlever plus d'√©l√©ments non textuels

        contenu_principal = soup.find('article') or soup.find('main') or soup.find(role='main')
        if not contenu_principal:
             contenu_principal = soup.find('body')

        if contenu_principal:
            # Remplacer les sauts de ligne par des espaces et nettoyer
            texte_brut = contenu_principal.get_text(separator=' ', strip=True)
        else:
             texte_brut = soup.get_text(separator=' ', strip=True)

        texte_nettoye = ' '.join(texte_brut.split())

        if not texte_nettoye or len(texte_nettoye) < 50: # Seuil minimum de caract√®res
             paragraphes = soup.find_all('p')
             if paragraphes:
                 texte_brut_p = ' '.join([p.get_text(strip=True) for p in paragraphes if p.get_text(strip=True)])
                 texte_nettoye_p = ' '.join(texte_brut_p.split())
                 # Utiliser la version <p> seulement si elle est significativement plus longue
                 if len(texte_nettoye_p) > len(texte_nettoye) * 1.2:
                      texte_nettoye = texte_nettoye_p

        if not texte_nettoye:
            return None, "Impossible d'extraire du contenu textuel significatif."

        return texte_nettoye, None

    except requests.exceptions.Timeout:
        return None, f"Erreur: D√©lai d'attente d√©pass√© pour l'URL."
    except requests.exceptions.HTTPError as e:
         return None, f"Erreur HTTP {e.response.status_code}."
    except requests.exceptions.RequestException as e:
        # Essayer de donner une erreur plus sp√©cifique si possible (ex: DNS, Connexion)
        error_type = type(e).__name__
        return None, f"Erreur de connexion ({error_type}). V√©rifiez l'URL et la connexion."
    except Exception as e:
        return None, f"Erreur inattendue (analyse HTML?): {type(e).__name__}"


def extraire_mots_cles(texte, langue, nb_mots=7):
    """
    Extrait les mots-cl√©s via TF-IDF.
    """
    if not nltk_download_success or not STOP_WORDS_FR_NLTK:
         print("[Avertissement: Mots-cl√©s non extraits (ressources NLTK ou stopwords manquants)]")
         return []
    if not texte or not isinstance(texte, str) or texte.isspace() or len(texte.split()) < 5: # Besoin d'un minimum de mots
        print("[Info: Texte trop court pour l'extraction de mots-cl√©s pertinents]")
        return []

    try:
        vectorizer = TfidfVectorizer(stop_words=STOP_WORDS_FR_NLTK, max_features=1000, ngram_range=(1, 2))
        tfidf_matrix = vectorizer.fit_transform([texte])

        feature_names = vectorizer.get_feature_names_out()
        scores = tfidf_matrix.toarray()[0]
        scored_words = zip(scores, feature_names)
        sorted_words = sorted(scored_words, key=lambda x: x[0], reverse=True)
        mots_cles = [word for score, word in sorted_words if score > 0.02][:nb_mots] # Seuil l√©g√®rement augment√©

        return mots_cles
    except ValueError as ve:
        if "empty vocabulary" in str(ve):
            print("[Info: Vocabulaire vide apr√®s filtrage pour TF-IDF]")
            return []
        else:
            print(f"[Avertissement: Erreur TF-IDF (ValueError): {ve}]")
            return []
    except Exception as e:
        print(f"[Avertissement: Erreur TF-IDF (Inattendue): {e}]")
        return []

# =====================================
#  CELLULE 3 : Interface Chatbot (Texte) - Pas de changements majeurs n√©cessaires ici
# =====================================
def lancer_chatbot_texte():
    """Lance l'interaction principale du chatbot en mode texte."""
    if not nltk_download_success:
        missing_str = ', '.join(missing_resources) if 'missing_resources' in globals() and missing_resources else "inconnues"
        print(f"‚ùå Le chatbot ne peut pas d√©marrer car les ressources NLTK essentielles ({missing_str}) n'ont pas pu √™tre charg√©es.")
        print("   Veuillez v√©rifier les messages d'erreur ci-dessus et r√©-ex√©cuter la cellule.")
        return

    print("\n" + "="*50)
    print("ü§ñ Bonjour ! Je suis votre assistant r√©sumeur de texte.")
    print("="*50)

    while True:
        print("\nQue souhaitez-vous faire ?")
        print("1. R√©sumer un texte que vous allez coller.")
        print("2. R√©sumer le contenu d'une page web (via URL).")
        print("3. Quitter.")

        choix = ""
        try:
            choix = input("Votre choix (1, 2 ou 3) : ").strip()
        except EOFError: print("\nEntr√©e ferm√©e. Arr√™t."); break
        except KeyboardInterrupt: print("\nInterruption d√©tect√©e. Arr√™t."); break

        if choix == '1':
            print("\nü§ñ Tr√®s bien ! Collez votre texte ci-dessous (Entr√©e sur ligne vide pour finir):")
            lignes = []
            try:
                while True:
                    ligne = input()
                    if ligne or ligne == "": # Accepter ligne vide pour finir
                         if ligne: lignes.append(ligne)
                         elif lignes: break # Arr√™ter si ligne vide ET on a d√©j√† du texte
                         else: print("   (Continuez √† coller ou Entr√©e sur ligne vide pour finir)") # Rappel si vide au d√©but
                    # Si input() retourne None ou autre chose (ne devrait pas arriver normalement)
                    # else:
                    #     if lignes: break
                    #     else: print("\nSaisie invalide/annul√©e."); lignes=None; break

            except EOFError:
                if not lignes: print("\nSaisie annul√©e (EOF)."); continue
                print("\nFin de saisie d√©tect√©e (EOF).")
            except KeyboardInterrupt: print("\nSaisie annul√©e (Ctrl+C)."); continue

            if not lignes: continue

            texte_utilisateur = "\n".join(lignes)
            print(f"\nü§ñ Texte re√ßu ! ({len(texte_utilisateur)} caract√®res)")

            nb_phrases = 0
            while True:
                try:
                    nb_phrases_str = input("Combien de phrases pour le r√©sum√© ? (Nombre > 0) : ").strip()
                    if not nb_phrases_str: continue
                    nb_phrases = int(nb_phrases_str)
                    if nb_phrases > 0: break
                    else: print("‚ùå Nombre positif requis.")
                except ValueError: print("‚ùå Entr√©e invalide (nombre entier requis).")
                except (KeyboardInterrupt, EOFError): print("\nOp√©ration annul√©e."); nb_phrases = -1; break

            if nb_phrases <= 0: continue

            print(f"\nü§ñ G√©n√©ration du r√©sum√© ({nb_phrases} phrases)...")
            resume = resumer_texte(texte_utilisateur, LANGUE, nb_phrases)
            print("\n--- R√©sum√© ---")
            print(resume)
            print("--- Fin du R√©sum√© ---")

            print("\nü§ñ Extraction des mots-cl√©s...")
            mots_cles = extraire_mots_cles(texte_utilisateur, LANGUE, nb_mots=7)
            if mots_cles:
                print("\n--- Mots-Cl√©s (max 7) ---")
                print(", ".join(mots_cles))
                print("--- Fin des Mots-Cl√©s ---")

        elif choix == '2':
            url = ""
            try:
                 url = input("\nü§ñ Entrez l'URL de la page web : ").strip()
                 if not url: print("‚ùå URL vide."); continue
            except (KeyboardInterrupt, EOFError): print("\nOp√©ration annul√©e."); continue

            print(f"\nü§ñ Extraction du texte de : {url}...")
            texte_extrait, erreur = extraire_texte_url(url)

            if erreur:
                print(f"‚ùå Erreur URL : {erreur}")
                continue

            if texte_extrait:
                print(f"‚úÖ Texte extrait ({len(texte_extrait)} caract√®res)")
                nb_phrases = 0
                while True:
                    try:
                        nb_phrases_str = input("Combien de phrases pour le r√©sum√© ? (Nombre > 0) : ").strip()
                        if not nb_phrases_str: continue
                        nb_phrases = int(nb_phrases_str)
                        if nb_phrases > 0: break
                        else: print("‚ùå Nombre positif requis.")
                    except ValueError: print("‚ùå Entr√©e invalide.")
                    except (KeyboardInterrupt, EOFError): print("\nOp√©ration annul√©e."); nb_phrases = -1; break

                if nb_phrases <= 0: continue

                print(f"\nü§ñ G√©n√©ration du r√©sum√© ({nb_phrases} phrases)...")
                resume = resumer_texte(texte_extrait, LANGUE, nb_phrases)
                print("\n--- R√©sum√© ---")
                print(resume)
                print("--- Fin du R√©sum√© ---")

                print("\nü§ñ Extraction des mots-cl√©s...")
                mots_cles = extraire_mots_cles(texte_extrait, LANGUE, nb_mots=7)
                if mots_cles:
                    print("\n--- Mots-Cl√©s (max 7) ---")
                    print(", ".join(mots_cles))
                    print("--- Fin des Mots-Cl√©s ---")
            else:
                 # Le message d'erreur de extract_texte_url devrait d√©j√† √™tre affich√©
                 print("‚ùå Impossible d'extraire le texte de l'URL (raison inconnue apr√®s succ√®s apparent).") # Fallback

        elif choix == '3':
            print("\nü§ñ Au revoir ! üëã")
            break
        else:
            print("\n‚ùå Choix invalide. Veuillez entrer 1, 2 ou 3.")

        print("\n" + "="*50) # S√©parateur

# =====================================
#  CELLULE 4 : Lancement du Chatbot (Mode Texte)
# =====================================
# D√©commentez la ligne ci-dessous pour lancer en mode texte.
# lancer_chatbot_texte()

# =====================================
#  CELLULE 5 : Alternative avec Interface ipywidgets
# =====================================
# Widgets
text_input_area = widgets.Textarea(placeholder='Collez votre texte ici...', layout=widgets.Layout(width='95%', height='180px'), description='Texte:', disabled=not nltk_download_success)
url_input = widgets.Text(placeholder='Ou entrez une URL ici...', layout=widgets.Layout(width='95%'), description='URL:', disabled=not nltk_download_success)
sentences_slider = widgets.IntSlider(value=3, min=1, max=20, step=1, description='Phrases:', layout=widgets.Layout(width='60%'), disabled=not nltk_download_success, readout_format='d')
summarize_button = widgets.Button(description='R√©sumer', button_style='success', tooltip='Lancer le r√©sum√© et l\'extraction', icon='compress', disabled=not nltk_download_success, layout=widgets.Layout(width='auto'))
output_area = widgets.Output(layout=widgets.Layout(width='95%', min_height='150px', border='1px solid lightgray', padding='10px', margin='10px 0 0 0', overflow_y='auto'))
status_label = widgets.Label(value="Pr√™t." if nltk_download_success else "Erreur NLTK - Voir logs.")

# Fonction appel√©e par le bouton
def on_summarize_button_clicked(b):
    summarize_button.disabled = True
    summarize_button.icon = 'spinner'
    summarize_button.description = 'Traitement...'
    status_label.value = "‚è≥ Initialisation..."
    output_area.clear_output(wait=True)

    texte_a_resumer = None
    source = ""
    texte_colle = text_input_area.value.strip()
    url = url_input.value.strip()

    with output_area:
        if texte_colle:
            status_label.value = "ü§ñ Analyse du texte coll√©..."
            print("ü§ñ Analyse du texte coll√©...")
            texte_a_resumer = texte_colle
            source = "Texte fourni"
            url_input.value = ""
        elif url:
            status_label.value = f"ü§ñ Extraction depuis URL..."
            print(f"ü§ñ Extraction depuis URL...")
            texte_a_resumer, erreur = extraire_texte_url(url)
            if erreur:
                status_label.value = f"‚ùå Erreur URL: {erreur}"
                print(f"‚ùå Erreur URL: {erreur}")
                summarize_button.disabled = False; summarize_button.icon = 'compress'; summarize_button.description = 'R√©sumer'
                return
            if texte_a_resumer:
                status_label.value = "‚úÖ Texte extrait."
                print(f"‚úÖ Texte extrait ({len(texte_a_resumer)} caract√®res)")
                source = f"URL"
                text_input_area.value = ""
            else:
                status_label.value = "‚ùå √âchec extraction (pas de texte trouv√©)."
                print("‚ùå √âchec extraction (pas de texte trouv√©).")
                summarize_button.disabled = False; summarize_button.icon = 'compress'; summarize_button.description = 'R√©sumer'
                return
        else:
            status_label.value = "‚ö†Ô∏è Veuillez fournir du texte ou une URL."
            print("‚ö†Ô∏è Veuillez fournir du texte ou une URL.")
            summarize_button.disabled = False; summarize_button.icon = 'compress'; summarize_button.description = 'R√©sumer'
            return

        nb_phrases = sentences_slider.value
        status_label.value = f"‚è≥ R√©sum√© ({nb_phrases} phrases) & Mots-cl√©s..."
        print(f"\n--- G√©n√©ration R√©sum√© ({nb_phrases} phrases) ---")
        resume = resumer_texte(texte_a_resumer, LANGUE, nb_phrases)
        print(resume)
        print("--- Fin R√©sum√© ---")

        print("\n--- Extraction Mots-Cl√©s (max 7) ---")
        mots_cles = extraire_mots_cles(texte_a_resumer, LANGUE, nb_mots=7)
        if mots_cles:
            print(", ".join(mots_cles))
        else:
            print("[Aucun mot-cl√© pertinent trouv√© ou extraction impossible]")
        print("--- Fin Mots-Cl√©s ---")

        status_label.value = f"‚úÖ Termin√© ({source})."

    summarize_button.disabled = False
    summarize_button.icon = 'compress'
    summarize_button.description = 'R√©sumer'

# Lier la fonction au clic du bouton
summarize_button.on_click(on_summarize_button_clicked)

# Afficher l'interface
if nltk_download_success:
    print("\n" + "="*50)
    print("ü§ñ Interface Interactive du R√©sumeur ü§ñ")
    print("   Collez du texte OU entrez une URL, ajustez le nombre de phrases, puis cliquez sur 'R√©sumer'.")
    input_section = widgets.VBox([
        widgets.HTML("<b>Texte √† r√©sumer :</b>"), text_input_area,
        widgets.HTML("<b>Ou URL d'une page web :</b>"), url_input
    ])
    controls_section = widgets.HBox([sentences_slider, summarize_button], layout=widgets.Layout(margin='10px 0', justify_content='space-between')) # Better spacing
    output_section = widgets.VBox([
        status_label,
        widgets.HTML("<hr style='margin: 5px 0;'>"),
        widgets.HTML("<b>R√©sultat :</b>"),
        output_area
    ])
    display(widgets.VBox([input_section, controls_section, output_section]))
else:
    missing_str = ', '.join(missing_resources) if 'missing_resources' in globals() and missing_resources else "inconnues"
    print("\n" + "="*50)
    print(f"‚ùå L'interface interactive ne peut pas √™tre lanc√©e car les ressources NLTK essentielles ({missing_str}) n'ont pas pu √™tre charg√©es.")
    print("   Veuillez corriger les erreurs dans la sortie \"T√©l√©chargement des ressources NLTK\" ci-dessus et r√©-ex√©cuter la cellule.")

‚¨áÔ∏è T√©l√©chargement des ressources NLTK n√©cessaires (punkt, stopwords, punkt_tab)...
--- V√©rification de 'punkt' ---
   [INFO] 'punkt' d√©j√† pr√©sent.
--- V√©rification de 'stopwords' ---
   [INFO] 'stopwords' d√©j√† pr√©sent.
--- V√©rification de 'punkt_tab' ---
   [INFO] 'punkt_tab' d√©j√† pr√©sent.
‚úÖ Ressources NLTK essentielles trouv√©es ou t√©l√©charg√©es.
‚úÖ Stopwords fran√ßais charg√©s.
‚úÖ Environnement pr√™t.

ü§ñ Interface Interactive du R√©sumeur ü§ñ
   Collez du texte OU entrez une URL, ajustez le nombre de phrases, puis cliquez sur 'R√©sumer'.


VBox(children=(VBox(children=(HTML(value='<b>Texte √† r√©sumer :</b>'), Textarea(value='', description='Texte:',‚Ä¶

In [8]:
url = "https://fr.wikipedia.org/wiki/Intelligence_artificielle"

# Extraction
texte, erreur = extraire_texte_url(url)
if erreur:
    print(erreur)
else:
    # R√©sum√©
    resume = resumer_texte(texte, "french", 5)
    print("R√©sum√© :\n", resume)


R√©sum√© :
 Certains domaines n'ont progressivement plus √©t√© consid√©r√©s comme faisant partie de l'intelligence artificielle, √† mesure qu'une solution efficace √©tait trouv√©e [ 46 ] ; un ph√©nom√®ne parfois appel√© ¬´ effet IA ¬ª . Au bout du compte, ces jeux d'enfants se r√©v√®lent essentiels √† la formation de l'esprit, qui d√©gagent quelques r√®gles pour arbitrer les diff√©rents √©l√©ments d'appr√©ciation qu'il rencontre, par essais et erreurs. ‚Üë Dr Jean-Fran√ßois Lemoine, ¬´ R√©volution dans le d√©veloppement de m√©dicaments gr√¢ce √† l'IA ¬ª ‚Üë (en) Andre Esteva, ¬´ Dermatologist-level classification of skin cancer with deep neural networks ¬ª, Nature ,‚Äé 29 juin 2017 ( lire en ligne ) . ‚Üë (en) David Silver , Julian Schrittwieser , Karen Simonyan , Ioannis Antonoglou , Aja Huang , Arthur Guez , Thomas Hubert , Lucas Baker , Matthew Lai , Adrian Bolton , Yutian Chen , Timothy Lillicrap , Hui Fan , Laurent Sifre , George van den Driessche , Thore Graepel et Demis Hassabis

In [9]:
# -*- coding: utf-8 -*-
import nltk
import requests
from bs4 import BeautifulSoup
from sumy.parsers.plaintext import PlaintextParser
from sumy.nlp.tokenizers import Tokenizer
from sumy.summarizers.lsa import LsaSummarizer
from sumy.nlp.stemmers import Stemmer
from sumy.utils import get_stop_words

import urllib.error
import warnings
warnings.filterwarnings('ignore')

# T√©l√©chargement des ressources NLTK n√©cessaires
nltk_download_success = True
missing_resources = []
resources_to_download = [
    ('tokenizers/punkt', 'punkt'),
    ('corpora/stopwords', 'stopwords'),
    ('tokenizers/punkt_tab', 'punkt_tab')
]

try:
    for resource_path, resource_name in resources_to_download:
        try:
            nltk.data.find(resource_path)
        except LookupError:
            try:
                nltk.download(resource_name, quiet=True)
                nltk.data.find(resource_path)
            except Exception as e:
                missing_resources.append(resource_name)
                nltk_download_success = False
except Exception:
    nltk_download_success = False

LANGUE = "french"
STOP_WORDS_FR_NLTK = []
STOP_WORDS_FR_SUMY = []

if nltk_download_success:
    try:
        STOP_WORDS_FR_NLTK = nltk.corpus.stopwords.words(LANGUE)
        STOP_WORDS_FR_SUMY = get_stop_words(LANGUE)
    except:
        nltk_download_success = False

def resumer_texte(texte, langue, nb_phrases):
    if not nltk_download_success:
        missing_str = ', '.join(missing_resources) if missing_resources else "inconnues"
        return f"[ERREUR: RESSOURCES NLTK MANQUANTES ({missing_str})]"
    if not texte or not isinstance(texte, str) or texte.isspace():
        return "[Erreur: Texte vide ou invalide]"
    if not isinstance(nb_phrases, int) or nb_phrases <= 0:
        return "[Erreur: Nombre de phrases invalide]"

    try:
        parser = PlaintextParser.from_string(texte, Tokenizer(langue))
        stemmer = Stemmer(langue)
        summarizer = LsaSummarizer(stemmer)
        summarizer.stop_words = STOP_WORDS_FR_SUMY if STOP_WORDS_FR_SUMY else get_stop_words(langue)
        resume_phrases = summarizer(parser.document, nb_phrases)
        resume_final = " ".join([str(phrase) for phrase in resume_phrases])

        if not resume_final.strip():
            try:
                total_phrases = len(parser.document.sentences)
                return f"[Info: Le r√©sum√© g√©n√©r√© est vide. Le texte original contient {total_phrases} phrases. V√©rifiez le texte ou le nombre de phrases demand√© ({nb_phrases}).]"
            except:
                return "[Info: Le r√©sum√© g√©n√©r√© est vide. Le texte original √©tait peut-√™tre trop court ou le nombre de phrases demand√© trop √©lev√©.]"
        return resume_final
    except Exception as e:
        return f"[Erreur pendant le r√©sum√© ({type(e).__name__}): {e}]"

def extraire_texte_url(url):
    if not url or not url.startswith(('http://', 'https://')):
        return None, "URL invalide (doit commencer par http:// ou https://)."

    try:
        headers = {'User-Agent': 'Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)'}
        reponse = requests.get(url, headers=headers, timeout=15, allow_redirects=True)
        reponse.raise_for_status()
        reponse.encoding = reponse.apparent_encoding
        soup = BeautifulSoup(reponse.content, 'html.parser')

        for element in soup(["script", "style", "header", "footer", "nav", "aside", "form", "noscript", "img", "figure", "iframe"]):
            element.decompose()

        contenu_principal = soup.find('article') or soup.find('main') or soup.find(role='main')
        if not contenu_principal:
            contenu_principal = soup.find('body')

        if contenu_principal:
            texte_brut = contenu_principal.get_text(separator=' ', strip=True)
        else:
            texte_brut = soup.get_text(separator=' ', strip=True)

        texte_nettoye = ' '.join(texte_brut.split())

        if not texte_nettoye or len(texte_nettoye) < 50:
            paragraphes = soup.find_all('p')
            if paragraphes:
                texte_brut_p = ' '.join([p.get_text(strip=True) for p in paragraphes if p.get_text(strip=True)])
                texte_nettoye_p = ' '.join(texte_brut_p.split())
                if len(texte_nettoye_p) > len(texte_nettoye) * 1.2:
                    texte_nettoye = texte_nettoye_p

        if not texte_nettoye:
            return None, "Impossible d'extraire du contenu textuel significatif."

        return texte_nettoye, None

    except requests.exceptions.Timeout:
        return None, "Erreur: D√©lai d'attente d√©pass√© pour l'URL."
    except requests.exceptions.HTTPError as e:
        return None, f"Erreur HTTP {e.response.status_code}."
    except requests.exceptions.RequestException as e:
        return None, f"Erreur de connexion ({type(e).__name__}). V√©rifiez l'URL et la connexion."
    except Exception as e:
        return None, f"Erreur inattendue : {e}"
