#  Webscraping avec python
# **Python**
# **TP 6 - Scraping avec BeautifulSoup**

**Inspiré de : [Cours de Python pour le Data Scientist - Lino Galiana](https://linogaliana-teaching.netlify.app/manipulation/webscraping/)**


***

[**Notions**](#notions)

1. [Balises HTML](#1)
2. [Parent et enfant](#2)
3. [Utiliser BeautifulSoup](#3)


*** 

[**Exercices**](#exercices)

- Exercice 1
- Exercice 2

***


<a id='1'></a>

## 1. Balises HTML


En HTML, on utilise des balises pour séparer les différents morceaux du code qui correspondent à des éléments sur la page. Par exemple ``<head>`` est la balise pour le header du fichier html, ``<title>`` pour son titre, ``<p>`` pour un pragraphe, ``<h1>``, ``<h2>``, ``<h3>``,... pour des headlines ou ``<br>``pour un retour à la ligne.


Une balise est toujours fermée par la même balise avec un ``/``en plus. Par exemple : ``<title> Titre </title>``

#### Exemple : les balise des tableaux

$$
\begin{array}{rr} \hline
Balise  & \text{Description} \\ \hline
< table> & \text{Tableau} \\
< caption>& \text{Titre du tableau} \\
< tr> & \text{Ligne de tableau} \\
< th> & \text{Cellule d'en-tête}\\
< td> & \text{Cellule} \\
< thead> & \text{Section de l'en-tête du tableau} \\
< tbody> & \text{Section du corps du tableau} \\
< tfoot> & \text{Section du pied du tableau} \\
\end{array}
$$

##### Application : un tableau en HTML

Le code *HTML* du tableau suivant


Donnera dans le navigateur

<table>
<caption> Le Titre de mon tableau </caption>

   <tr>
      <th>Prénom</th>
      <th>Nom</th>
      <th>Profession</th>
   </tr>
   <tr>
      <td>Mike </td>
      <td>Stuntman</td>
      <td>Cascadeur</td>
   </tr>
   <tr>
      <td>Mister</td>
      <td>Pink</td>
      <td>Gangster</td>
   </tr>
</table>

<a id='2'></a>
## 2. Parent et enfant

Dans le cadre du langage HTML, les termes de parents (parent) et enfants (child) servent à désigner des élements emboîtés les uns dans les autres. Dans la construction suivante, par exemple :


Sur la page web, cela apparaitra de la manière suivante : 

<div> 
    <p>
       bla,bla
    </p>
</div>

On dira que l'élément ``<div>`` est le parent de l'élément ``<p>`` tandis que l'élément ``<p>`` est l'enfant de l'élément ``<div>``.

## 3. Utiliser BeautifulSoup

Les packages et étapes pour scrapper des pages HTML : 
- Etape 1: ``requests`` ou ``urllib`` pour faire des requêtes `GET` sur les pages
- Etape 2: ``BeautifulSoup4`` pour parser le code HTML

In [1]:
import urllib
import bs4
import requests

### 1ere page HTML

On va commencer facilement, prenons une page wikipedia, par exemple celle de la Ligue 1 de football : [Championnat de France de football 2019-2020](https://fr.wikipedia.org/wiki/Championnat_de_France_de_football_2019-2020). On va souhaiter récupérer la liste des équipes, ainsi que les url des pages Wikipedia de ces équipes.


In [2]:
# Etape 1 : se connecter à la page wikipedia et obtenir le code source

url_ligue_1 = "https://fr.wikipedia.org/wiki/Championnat_de_France_de_football_2019-2020"
    
#from urllib import request

response = requests.get(url_ligue_1)
print(f"Status code: {response.status_code}")

text = response.text
#print(request_text[:1000])    
#print("\n type:", type(request_text))


# Etape 2 : utiliser le package BeautifulSoup
page = bs4.BeautifulSoup(text, "html")

print(type(page))

Status code: 200
<class 'bs4.BeautifulSoup'>


### Méthode ``.find()``
Elle renvoie la première occurence trouvée avec cette balise 

In [3]:
title = page.find("title")

print(title)
print(type(title))
print("\n")

print(title.text)
print(type(title.text))

#print(type(page.find("title")))

<title>Championnat de France de football 2019-2020 — Wikipédia</title>
<class 'bs4.element.Tag'>


Championnat de France de football 2019-2020 — Wikipédia
<class 'str'>


In [4]:
# print(page.find("table"))

La cellule avec le copier-coller du code source donne : 

<table><caption style="background:#99cc99;color:#000000;">Généralités</caption><tbody><tr>
<th scope="row" style="width:10.5em;">Sport</th>
<td>
<a href="/wiki/Football" title="Football">Football</a></td>
</tr>
<tr>
<th scope="row" style="width:10.5em;">Organisateur(s)</th>
<td>
<a href="/wiki/Ligue_de_football_professionnel" title="Ligue de football professionnel">LFP</a></td>
</tr>
<tr>
<th scope="row" style="width:10.5em;">Édition</th>
<td>
<abbr class="abbr" title="Quatre-vingt-deuxième (huitante-deuxième / octante-deuxième)">82<sup>e</sup></abbr></td>
</tr>
<tr>
<th scope="row" style="width:10.5em;">Lieu(x)</th>
<td>
<span class="datasortkey" data-sort-value="France"><span class="flagicon"><a class="image" href="/wiki/Fichier:Flag_of_France.svg" title="Drapeau de la France"><img alt="Drapeau de la France" class="noviewer thumbborder" data-file-height="600" data-file-width="900" decoding="async" height="13" src="//upload.wikimedia.org/wikipedia/commons/thumb/c/c3/Flag_of_France.svg/20px-Flag_of_France.svg.png" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/c/c3/Flag_of_France.svg/30px-Flag_of_France.svg.png 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/c/c3/Flag_of_France.svg/40px-Flag_of_France.svg.png 2x" width="20"/></a> </span><a href="/wiki/France" title="France">France</a></span> et <br/><span class="datasortkey" data-sort-value="Monaco"><span class="flagicon"><a class="image" href="/wiki/Fichier:Flag_of_Monaco.svg" title="Drapeau de Monaco"><img alt="Drapeau de Monaco" class="noviewer thumbborder" data-file-height="800" data-file-width="1000" decoding="async" height="16" src="//upload.wikimedia.org/wikipedia/commons/thumb/e/ea/Flag_of_Monaco.svg/20px-Flag_of_Monaco.svg.png" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/e/ea/Flag_of_Monaco.svg/30px-Flag_of_Monaco.svg.png 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/e/ea/Flag_of_Monaco.svg/40px-Flag_of_Monaco.svg.png 2x" width="20"/></a> </span><a href="/wiki/Monaco" title="Monaco">Monaco</a></span></td>
</tr>
<tr>
<th scope="row" style="width:10.5em;">Date</th>
<td>
Du <time class="nowrap date-lien" data-sort-value="2019-08-09" datetime="2019-08-09"><a href="/wiki/9_ao%C3%BBt_en_sport" title="9 août en sport">9</a> <a class="mw-redirect" href="/wiki/Ao%C3%BBt_2019_en_sport" title="Août 2019 en sport">août</a> <a href="/wiki/2019_en_football" title="2019 en football">2019</a></time><br/>au <time class="nowrap date-lien" data-sort-value="2020-03-08" datetime="2020-03-08"><a href="/wiki/8_mars_en_sport" title="8 mars en sport">8 mars</a> <a href="/wiki/2020_en_football" title="2020 en football">2020</a></time> <small>(arrêt définitif)</small></td>
</tr>
<tr>
<th scope="row" style="width:10.5em;">Participants</th>
<td>
20 équipes</td>
</tr>
<tr>
<th scope="row" style="width:10.5em;">Matchs joués</th>
<td>
279</td>
</tr>
<tr>
<th scope="row" style="width:10.5em;">Site web officiel</th>
<td>
<a class="external text" href="https://www.ligue1.fr/" rel="nofollow">Site officiel</a></td>
</tr></tbody></table>

### Méthode ``.find_all()``
Elle renvoie toutes les occurences trouvées avec cette balise 

In [5]:
all_tables = page.find_all("table")
print("Il y a", len(all_tables), "éléments dans la page qui sont des <table>")
print(type(all_tables[0]))

Il y a 34 éléments dans la page qui sont des <table>
<class 'bs4.element.Tag'>


### Attribut ``.text``
Il contient le texte entre des bablises

In [6]:
paragraph = page.find_all("p")[10]
print(paragraph)
print(paragraph.text)

<p>Les critères de départage sont inchangés depuis la saison 2017-2018. Ceux-ci se présentent ainsi :
</p>
Les critères de départage sont inchangés depuis la saison 2017-2018. Ceux-ci se présentent ainsi :



### Filtrer sur une classe HTML avec ``find``ou ``find_all``

In [7]:
wikitables = page.find_all("table", class_='wikitable sortable')
print(len(wikitables), "objects with class wikitable sortable")

2 objects with class wikitable sortable


### ``.get``pour récupérer un attribut
Ici, on récupère l'attribut ``href``d'un tag avec ``.get("href")``

In [8]:
wikitables = page.find_all("table", class_='wikitable sortable')
print(len(wikitables), "objects with class wikitable sortable")

# th indique la ligne d'entête du tableau, on prend la troisième cellule 
# de la liste des entêtes
tag_header = wikitables[0].find_all("th")[3]
print(tag_header)
print('\n')

# on cherche maintenant la balise a dedans
tag_a = tag_header.find("a")
print(tag_a)
print(tag_a.get("href"))

2 objects with class wikitable sortable
<th scope="col">Classement<br/><a href="/wiki/Championnat_de_France_de_football_2018-2019" title="Championnat de France de football 2018-2019">2018-2019</a>
</th>


<a href="/wiki/Championnat_de_France_de_football_2018-2019" title="Championnat de France de football 2018-2019">2018-2019</a>
/wiki/Championnat_de_France_de_football_2018-2019


In [9]:
# première table
# 4ème header
# l'unique lien qui se trouve dedans (d'où l'usage)
# récupération de l'url relative

page.find_all("table", class_='wikitable sortable')[0].find_all("th")[3].find("a").get("href") 

'/wiki/Championnat_de_France_de_football_2018-2019'

## Exercices

## Exercice 1 : obtenir la liste des équipes de Ligue 1

Sur la page https://fr.wikipedia.org/wiki/Championnat_de_France_de_football_2019-2020, on veut scraper le tableau de la section Participants (celui avec ces colonnes : (Club, Dernière montée, Budget en M€, ...)

#### 1) Trouver le tableau


In [1]:
from urllib import request
import ssl


# Problème pour lire depuis https avec read_html
# https://stackoverflow.com/questions/50969583/pandas-raises-ssl-certificateerror-when-using-method-read-html-for-https-resourc

url = url_ligue_1 #"https://example.com/data.html"
context = ssl._create_unverified_context()
response = request.urlopen(url, context=context)
html = response.read()

NameError: name 'url_ligue_1' is not defined

#### 2) Récupérer chaque ligne du table


## Exercice 2
- A partir de la suivante : [pokedex](https://pokemondb.net/pokedex/national), l'objectif est de constituer la liste de tous les pokemons
 - 1. Dans un premier temps, on voudrait la liste avec nom, numéro et types pour chaque pokémon
 - 2. Ensuite, on souhaiterait aussi garder l'url pour chaque pokemon (par exemple en utilisant l'attribut ``href``) pour pouvoir ensuite faire une requête ``GET``sur cette page (par exemple : https://pokemondb.net/pokedex/venusaur) et récupérer les données de taille et de poids