In [None]:
import requests
from bs4 import BeautifulSoup

# Fonction pour obtenir et analyser le contenu HTML d'une page Wikipédia
def obtenir_contenu_html(lien):
    # Envoyer une requête HTTP pour obtenir le contenu de la page
    reponse = requests.get(lien)
    # Analyser le contenu HTML avec BeautifulSoup
    return BeautifulSoup(reponse.content, 'html.parser')

# Fonction pour extraire le titre de l'article
def extraire_titre(soupe):
    # Trouver l'élément HTML qui contient le titre de l'article
    return soupe.find('h1', {'id': 'firstHeading'}).text

# Fonction pour extraire le texte de l'article pour chaque paragraphe avec leurs titres respectifs
def extraire_paragraphes(soupe):
    # Trouver tous les éléments HTML qui sont des titres de sections ou des paragraphes
    sections = soupe.find_all(['h2', 'h3', 'h4', 'p'])
    contenu = {}
    titre_actuel = ""
    for section in sections:
        # Si l'élément est un titre de section, mettre à jour le titre actuel
        if section.name in ['h2', 'h3', 'h4']:
            titre_actuel = section.text.strip()
            contenu[titre_actuel] = []
        # Si l'élément est un paragraphe, l'ajouter à la liste des paragraphes sous le titre actuel
        elif section.name == 'p':
            if titre_actuel:
                contenu[titre_actuel].append(section.text.strip())
    return contenu

# Fonction pour collecter chaque lien qui redirige vers une autre page Wikipédia
def collecter_liens(soupe):
    liens = []
    # Trouver tous les éléments HTML qui sont des liens
    for lien in soupe.find_all('a', href=True):
        href = lien['href']
        # Vérifier que le lien redirige vers une autre page Wikipédia et non vers un fichier
        if href.startswith('/wiki/') and not href.startswith('/wiki/File:'):
            liens.append('https://fr.wikipedia.org' + href)
    return liens

# Fonction principale qui regroupe toutes les fonctions précédentes
def analyser_page_wikipedia(lien):
    # Obtenir et analyser le contenu HTML de la page
    soupe = obtenir_contenu_html(lien)
    # Extraire le titre de l'article
    titre = extraire_titre(soupe)
    # Extraire les paragraphes avec leurs titres respectifs
    paragraphes = extraire_paragraphes(soupe)
    # Collecter les liens vers d'autres pages Wikipédia
    liens = collecter_liens(soupe)
    # Retourner les résultats sous forme de dictionnaire
    return {
        'titre': titre,
        'paragraphes': paragraphes,
        'liens': liens
    }

# Tester la fonction sur une page Wikipédia de votre choix
lien_test = 'https://fr.wikipedia.org/wiki/Python_(langage)'
resultat = analyser_page_wikipedia(lien_test)

# Afficher les résultats
print("Titre de l'article:", resultat['titre'])
print("\nParagraphes:")
for titre, paras in resultat['paragraphes'].items():
    print(f"\n{titre}:")
    for para in paras:
        print(para)
print("\nLiens:")
for lien in resultat['liens']:
    print(lien)
