In [1]:
import requests
from bs4 import BeautifulSoup

# Fonction pour obtenir le contenu HTML d'une page Wikipédia
def get_html_content(url):
    response = requests.get(url)
    if response.status_code == 200:
        return response.text
    else:
        return None

# Fonction pour extraire le titre de l'article
def extract_title(soup):
    return soup.find('h1', {'id': 'firstHeading'}).text

# Fonction pour extraire les paragraphes avec leurs titres respectifs
def extract_paragraphs_with_titles(soup):
    content_dict = {}
    content = soup.find('div', {'id': 'mw-content-text'})
    current_title = None
    for section in content.find_all(['h2', 'h3', 'p']):
        if section.name.startswith('h'):
            current_title = section.text.strip()
            content_dict[current_title] = []
        elif section.name == 'p':
            if current_title in content_dict:
                content_dict[current_title].append(section.text.strip())
    return content_dict

# Fonction pour collecter les liens vers d'autres pages Wikipédia
def extract_wikipedia_links(soup):
    links = []
    for link in soup.find_all('a', href=True):
        href = link['href']
        if href.startswith('/wiki/') and ':' not in href:  # Exclure les pages spéciales
            full_url = 'https://fr.wikipedia.org' + href
            links.append(full_url)
    return links

# Fonction principale pour analyser une page Wikipédia
def analyze_wikipedia_page(url):
    html_content = get_html_content(url)
    if html_content:
        soup = BeautifulSoup(html_content, 'html.parser')
        title = extract_title(soup)
        paragraphs_with_titles = extract_paragraphs_with_titles(soup)
        links = extract_wikipedia_links(soup)
        
        return {
            'title': title,
            'content': paragraphs_with_titles,
            'links': links
        }
    else:
        return None

# Tester la fonction sur la page Wikipédia de Python (langage)
url = 'https://fr.wikipedia.org/wiki/Python_(langage)'
data = analyze_wikipedia_page(url)

# Afficher les résultats
print("Titre de l'article:", data['title'])
print("\nContenu extrait:")
for section, paragraphs in data['content'].items():
    print(f"Section: {section}")
    for paragraph in paragraphs:
        print(paragraph)
    print("\n")

print("\nLiens Wikipédia collectés:")
for link in data['links']:
    print(link)


Titre de l'article: Python (langage)

Contenu extrait:
Section: Utilisation
Python est un langage de programmation qui peut s'utiliser dans de nombreux contextes et s'adapter à tout type d'utilisation grâce à des bibliothèques spécialisées.
Il est cependant particulièrement utilisé comme langage de script pour automatiser des tâches simples mais fastidieuses, comme un script qui récupérerait la météo sur Internet ou qui s'intégrerait dans un logiciel de conception assistée par ordinateur afin d'automatiser certains enchaînements d'actions répétitives (voir la section Adoption). On l'utilise également comme langage de développement de prototype lorsqu'on a besoin d'une application fonctionnelle avant de l'optimiser avec un langage de plus bas niveau. Il est particulièrement répandu dans le monde scientifique, et possède de nombreuses bibliothèques optimisées destinées au calcul numérique.
C'est l'un des langages les plus utilisés dans le domaine de l'informatique quantique[7] et de l'in