# 1. Sraping de sites internets statiques

On commence par installer les librairies nécessaires : 

- ```requests``` pour faire des requêtes htpp
- ```beautifulsoup``` pour parser du code html

In [None]:
! pip install requests beautifulsoup4

In [2]:
import requests
from bs4 import BeautifulSoup

## 1.1 Faire des requêtes avec la librairie ```requests```

### Requêter un site simple

Un premier test sur la documentation de la librairie ```requests```.

In [3]:
url = "https://www.auchan.fr/oeufs-produits-laitiers/cremerie-oeufs-laits/ca-n0101?page=6"
response = requests.get(url)
print(response.status_code)

200


In [4]:
type(response)

requests.models.Response

In [5]:
print(response.text)

<!DOCTYPE html><html lang="fr"><head prefix="og: http://ogp.me/ns#"><link rel="stylesheet" href="/asset-server/sav_2025.04.16-0/webjars/a_styleguide2/dist/main.min.css"><link rel="stylesheet" href="/asset-server/sav_2025.04.16-0/webjars/a_carousel3/dist/main.min.css"><link rel="stylesheet" href="/asset-server/sav_2025.04.16-0/webjars/a_collapsible2/dist/main.min.css"><link rel="stylesheet" href="/asset-server/sav_2025.04.16-0/webjars/a_overlay2/dist/main.min.css"><link rel="stylesheet" href="/asset-server/sav_2025.04.16-0/webjars/a_notifier2/dist/main.min.css"><link rel="stylesheet" href="/asset-server/sav_2025.04.16-0/webjars/a_tooltip1/dist/main.min.css"><link rel="preconnect" href="https://cdn.auchan.fr"><link rel="preconnect" href="https://api.auchan.fr"><link rel="preload" href="/xch/v8/cart-renderer/sav_2025-12-19-0/css/add-to-cart-styles.min.css" as="style" /><link rel="preload" href="/xch/v8/cart-renderer/sav_2025-12-19-0/css/header-cart-styles.min.css" as="style" /><link rel="

In [6]:
with open("response.html", "w") as f:
    f.write(response.text)

Dans votre dossier courant, vous pouver double cliquer sur le fichier response.html pour l'afficher dans votre navigateur.

### Requêter un site plus complexe

En modifiant les paramètres de la requête

In [7]:
url = "https://fr.wikipedia.org/wiki/Albert_School"
r = requests.get(url)

print("Réponse :",r.status_code)

Réponse : 403


Pour des raisons de PI, Wikipedia ne permet pas qu'un bot scrape ses données : on peut s'en convaincre en regardant le [robots.txt](https://www.wikipedia.org/robots.txt)

In [8]:
url = "https://fr.wikipedia.org/wiki/Albert_School"

# en changeant le user-agent, on se fait passer pour un humain
# pourquoi Mozilla ? 
# un peu de culture internet ici
# https://en.wikipedia.org/wiki/User-Agent_header#Format_for_human-operated_web_browsers
user_agent = {'User-agent': 'Mozilla/5.0'}
r = requests.get(url,
                 headers=user_agent)

print("Réponse :",r.status_code)

Réponse : 200


In [9]:
print(r.text[:100])

<!DOCTYPE html>
<html class="client-nojs vector-feature-language-in-header-enabled vector-feature-la


On peut ainsi complexifier au besoin les paramètres de la requête GET : en rajoutant des proxy, des configurations du client, des cookies persistants ...

### Exercice : requêter la page wikipedia de la CAN

In [10]:
url = "https://fr.wikipedia.org/wiki/Coupe_d%27Afrique_des_nations_de_football"
user_agent = {'User-agent': 'Mozilla/5.0'}

response = requests.get(url,
             headers=user_agent)



In [11]:
type(response)

requests.models.Response

In [12]:
response.text

'<!DOCTYPE html>\n<html class="client-nojs vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-content-enabled vector-feature-custom-font-size-clientpref-1 vector-feature-appearance-pinned-clientpref-1 skin-theme-clientpref-day vector-sticky-header-enabled vector-toc-available" lang="fr" dir="ltr">\n<head>\n<meta charset="UTF-8">\n<title>Coupe d\'Afrique des nations de football — Wikipédia</title>\n<script>(function(){var className="client-js vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-content-enabled vector-featur

In [13]:
with open("fichier.html", "w") as f: 
    f.write(response.text)

In [14]:
!pwd

/home/basile/Nextcloud/Administratif/Taf/Albert School/5. Scraping & pandas/scraping_pandas_as


## 1.2. Parser une page statique avec ```BeautifulSoup```


```BeautifulSoup``` permet d'extraire les élèments d'une page HTML en tirant partie de l'organisation en balises du code.

Pour commencer il faut charger notre code html dans un objet ```BeautifulSoup```

In [15]:
url = "https://pypi.org/project/requests/"
response = requests.get(url)

soup = BeautifulSoup(response.text, 'html.parser')

type(soup)

bs4.BeautifulSoup

In [16]:
soup.get_text()



On peut ensuite chercher les élèments par balise

In [21]:
titres = soup.find_all('h1')
listes = []
for titre in titres:
    listes.append(titre)

listes

[<h1 class="package-header__name">requests 2.32.5</h1>, <h1>Requests</h1>]

On peut aussi chercher un objet avec son attribut id ou class

In [19]:
soup.find(id="pip-command")

<span data-clipboard-target="source" id="pip-command">pip install requests</span>

En résumé, navigation dans le DOM :
- soup.find(tag) : Trouve la première occurrence d'une balise.
  
- soup.find_all(tag) : Trouve toutes les occurrences d'une balise
  
- element.parent : Accède au parent d'un élément.
  
- element.children : Accède aux enfants d'un élément.
  
- element.next_sibling : Accède au frère suivant d'un élément.


Plus d'infos ici : 

- [navigating the tree](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#navigating-the-tree)
- une manière courante est aussi de chercher par xpath avec un parser type ```lxml```

### Exercice : combien y-a-t-il de liens hypertextes dans la page de la CAN ? 

In [22]:
url = "https://fr.wikipedia.org/wiki/Coupe_d%27Afrique_des_nations_de_football"
user_agent = {'User-agent': 'Mozilla/5.0'}

response = requests.get(url,
             headers=user_agent)



In [23]:
print(response.status_code)

200


In [24]:
response.text

'<!DOCTYPE html>\n<html class="client-nojs vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-content-enabled vector-feature-custom-font-size-clientpref-1 vector-feature-appearance-pinned-clientpref-1 skin-theme-clientpref-day vector-sticky-header-enabled vector-toc-available" lang="fr" dir="ltr">\n<head>\n<meta charset="UTF-8">\n<title>Coupe d\'Afrique des nations de football — Wikipédia</title>\n<script>(function(){var className="client-js vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-content-enabled vector-featur

In [25]:
soup = BeautifulSoup(response.text, "html.parser")

In [26]:
(type(soup))

bs4.BeautifulSoup

In [28]:
len(soup.find_all("a"))

2941

## 1.3. TP : PIB de la France 

A partir de la [page wikipedia du PIB Francais](https://fr.wikipedia.org/wiki/Produit_int%C3%A9rieur_brut_de_la_France) : 

- extraire le tableau 
- créer une DataFrame avec l'année et la valeur du PIB
- résumer cela dans un graphique 

In [22]:
## votre code