# Examen de MidTerm

L'accès à Internet n'est pas autorisé pendant l'examen. Vous devez utiliser uniquement le carnet de notes, que vous sauvegardez à la fin de l'examen au format PDF. Le fichier PDF doit ensuite être déposé dans l'espace Moodle dédié. N'oubliez pas de vérifier que le kernel est connecté (cercle blanc en haut à droite) et de le reconnecter si nécessaire.

## Partie 1 : Questions théoriques (30 points)
**Instructions:** Répondez aux questions suivantes en vous basant sur les concepts abordés dans les tutoriels vus en classe. Il suffit de double-cliquer sur la case où vous voulez mettre votre réponse et d'appuyer sur les touches « Shift-Enter » pour valider votre réponse.

(5 points) Quel est le rôle de la bibliothèque BeautifulSoup dans le web scraping, et comment interagit-elle avec urlopen ?

**Votre réponse ici:**

(5 points) Qu'entend-on par « parsing » dans le cadre du « web scraping » ?

**Votre réponse ici:**

(5 points) Quelle est la différence entre ``find()`` et ``find_all()`` dans BeautifulSoup ? Donnez un exemple pour chacune d'entre elles.

**Votre réponse ici:**

(5 points) Expliquez comment les expressions régulières peuvent être utiles dans le web scraping. Donnez un exemple simple de regex utilisé dans l'un des tutoriels.

**Votre réponse ici:**

(5 points) Discutez des considérations éthiques liées au « web scraping ». Dans quels cas le scraping peut-il être considéré comme inapproprié ou illégal ?

**Votre réponse ici:**

(5 points) Dans le cadre d'un projet de web scraping, vous souhaitez collecter des données à partir de plusieurs pages liées. Décrivez la stratégie que vous utiliseriez pour naviguer et collecter des données à partir de toutes les pages pertinentes sans supprimer les liens inutiles (par exemple, les pages « à propos », les pages « contact », etc.)

**Votre réponse ici:**

## Partie 2 : Questions pratiques (70 points)
**Instructions:** Effectuez les exercices de codage suivants. Les codes fournis ici se réfèrent uniquement aux tutoriels 1 et 2 vus en classe. 

### Extraire des données d'une page Wikipedia (20 points)

Récupérez le premier paragraphe de la page Wikipédia française « Kim Wilde » (/wiki/Kim_Wilde). Ensuite, extrayez et imprimez tous les liens internes (liens commençant par /wiki/) de la page en utilisant BeautifulSoup.

Pour vous aider, vous trouverez ci-dessous trois éléments de code qui vous permettent de :
- d'obtenir de l'aide sur une méthode ou une fonction
- visualiser le rendu d'une page web directement dans le notebook
- d'éditer le code html d'une page dans le carnet

In [None]:
help(BeautifulSoup.find_all)

In [None]:
from urllib.request import urlopen
from IPython.display import HTML

# Fetch the HTML content
url = 'https://fr.wikipedia.org/wiki/Kevin_Bacon'
html_content = urlopen(url).read().decode('utf-8')

# Display the HTML content in the notebook
HTML(html_content)


In [None]:
from urllib.request import urlopen

# Fetch the HTML content
url = 'http://www.pythonscraping.com/pages/warandpeace.html'
html_content = urlopen(url).read().decode('utf-8')

# Display the raw HTML code
print(html_content)


In [None]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re

html = urlopen('https://fr.wikipedia.org/wiki/Kevin_Bacon')
bs = BeautifulSoup(html, 'html.parser')

# Extract the first paragraph
first_paragraph = bs.find('p')[6].get_text()
print('Find here the 1st paragraph:', first_paragraph)

# Extract internal links
internal_links = bs.find_all('a', href=re.compile('^(/wiki/)'))
for link in internal_links:
    print(link.attrs['href'])

### Modifier le robot d'exploration (20 points)

Écrivez un crawler qui part de la page Wikipédia « Kim wilde » et récupère tous les liens vers les articles (/wiki/) jusqu'à un niveau de profondeur 1. Veillez à éviter de récupérer des pages qui ne sont pas des articles, telles que les pages « Category » et « Talk ».

In [None]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re

def getLinks(articleUrl, pages, depth=2):
    if depth == 0:
        return
    html = urlopen(f'http://en.wikipedia.org{articleUrl}')
    bs = BeautifulSoup(html, 'html.parser')
    for link in bs.find('div', {'id':'bodyContent'}).find_all('a', href=re.compile('^(/wiki/)((?!:).)*$')):
        if 'href' in link.attrs and link.attrs['href'] not in pages:
            newPage = link.attrs['href']
            print(newPage)
            pages.add(newPage)
            getLinks(newPage, pages, depth-1)

pages = set()
getLinks('/wiki/Kevin_Bacon', pages)


### Recherche avancée par expression régulière (15 points)

Modifiez le code pour trouver tous les paragraphes de la page « War and Peace » qui contiennent l'expression exacte « Prince ». N'imprimez que les paragraphes contenant l'expression.

In [None]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re

# Open the URL and parse the HTML content
html = urlopen('http://www.pythonscraping.com/pages/warandpeace.html')
bs = BeautifulSoup(html, 'html.parser')

# Find all paragraphs containing the exact phrase "Prince" (case insensitive)
paragraphs = bs.find_all(['p', 'div'], string=re.compile(r'\bThe prince\b'))

# Print only the paragraphs containing the exact phrase
for paragraph in paragraphs:
    print(paragraph.get_text())


### Gestion des erreurs (15 points)

Écrivez une fonction Python qui tente d'ouvrir une page web. Si la page n'existe pas ou s'il y a une erreur d'URL, la fonction doit afficher un message d'erreur. Traitez les erreurs avec "élégance".

In [None]:
from urllib.request import urlopen
from urllib.error import HTTPError, URLError
from bs4 import BeautifulSoup

def getPage(url):
    try:
        html = urlopen(url)
        bs = BeautifulSoup(html, 'html.parser')
        return bs
    except HTTPError as e:
        print("The server returned an HTTP error.")
    except URLError as e:
        print("The server could not be found!")
    return None

bs = getPage('http://www.pythonscraping.com/pages/warandpeace.html')
if bs:
    print(bs.h1.get_text())
