In [19]:
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin

def get_html_content(url):
    """Fetch and parse HTML content from a Wikipedia page."""
    response = requests.get(url)
    if response.status_code != 200:
        raise Exception(f"Failed to fetch the page: {response.status_code}")
    return BeautifulSoup(response.text, 'html.parser')

def extract_title(soup):
    """Extract the title of the article."""
    return soup.find('h1', {'id': 'firstHeading'}).text.strip()

def extract_article_text(soup):
    """Extract article text and organize it with respective headings."""
    content = {}
    current_heading = "Introduction"  # Default heading if none exists
    content[current_heading] = []

    for element in soup.select('#mw-content-text > div.mw-parser-output > *'):
        if element.name and element.name.startswith('h') and element.name[1:].isdigit():
            current_heading = element.text.strip()
            content[current_heading] = []
        elif element.name == 'p':
            content[current_heading].append(element.text.strip())

    return content

def extract_internal_links(soup, base_url):
    """Collect all Wikipedia internal links from the page."""
    links = set()
    for link in soup.select('#mw-content-text a[href]'):
        href = link.get('href')
        if href.startswith('/wiki/') and ':' not in href:  # Avoid special Wikipedia pages
            full_url = urljoin(base_url, href)
            links.add(full_url)
    return list(links)

def scrape_wikipedia_page(url):
    """Wrapper function to extract all necessary data from a Wikipedia page."""
    soup = get_html_content(url)
    title = extract_title(soup)
    article_text = extract_article_text(soup)
    internal_links = extract_internal_links(soup, url)

    return {
        'title': title,
        'content': article_text,
        'internal_links': internal_links
    }

# Example usage
if __name__ == "__main__":
    tunisie = "https://fr.wikipedia.org/wiki/Tunisie"
    data = scrape_wikipedia_page(tunisie)

    print("Title:", data['title'])
    print("\nArticle Content:")
    for heading, paragraphs in data['content'].items():
        print(f"\n{heading}:")
        for para in paragraphs:
            print(para)

    print("\nInternal Links:")
    for link in data['internal_links'][:10]:  # Display first 10 links for brevity
        print(link)


Title: Tunisie

Article Content:

Introduction:

La Tunisie (en arabe : تونس, tūnis Écouter?, [ˈtuːnɪs]), en forme longue la République tunisienne (en arabe : الجمهورية التونسية, al-jumhūriyya at-tūnisiyya Écouter?) est un État arabophone et musulman d'Afrique du Nord, souverain depuis 1956, dont le territoire, en plein centre du bassin méditerranéen, au carrefour de l'Afrique, de l'Europe et du Moyen-Orient, témoigne d'une histoire plurimillénaire mêlant influences libyques, phéniciennes, arabes et méditerranéennes.
Bordé au nord et à l'est par la mer Méditerranée (1 566 km de côtes), à l'ouest par l'Algérie avec 965 km de frontière commune et au sud-est par la Libye avec 459 km de frontière, sa capitale Tunis est située dans le Nord-Est du pays, au fond du golfe du même nom. Plus de 30 % de la superficie du territoire est occupée par le désert du Sahara, le reste étant constitué de régions montagneuses et de plaines fertiles.
Le territoire de l'actuelle Tunisie est le foyer de la cul

In [None]:
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin, urlparse

def get_html_content(url):
    #Fetch and parse HTML content from a Wikipedia page
    response = requests.get(url)
    if response.status_code != 200:
      raise Exception(f"Failed to fetch the page: {response.status_code}")
    return Beautifulsoup(response.text, 'html.parser')
def extract_title(soup):
    #Extract the title of the article
    return soup.find('h1', {'id': 'firstHeading'}).text.strip()
def extract_article_text(soup):
    #Extract article text and organize it with headings
    content = {}
    for element in soup.select('#mw-content-text > div.mw-parser-output > *'):
        if element.name and element.name.startswith('h') and element.name[1:].isdigit():
            current_heading = element.text.strip()
            content[current_heading] = []
        elif element.name == 'p' :
            if current_heading:
                content[current_heading].append(element.text.strip())
    return content
def extract_internal_links(soup, base_url):
    #Collect all wikipedia internal links from the page
    links = set()
    for link in soup.select('#mw-content-text a[href]'):
        href = link.get('href')
        if href.startswith('/wiki/') and not ':' in href:
            full_url = urljoin(base_url, href)
            links.add(full_url)
    return list(links)
def scrape_wikipedia_page(url):
    #Wrapper fonction to exract all necessary data from a wikipedia page
    soup = get_html_content(url)
    title = extract_title(soup)
    article_text = extract_article_text(soup)
    internal_links = extract_internal_links(soup, url)
    return {'title': title, 'content': article_text, 'internal_links' : internal_links}
