## Web Scraping

In [1]:
import requests

In [2]:
response = requests.get("https://raw.githubusercontent.com/codelikerod/web-scraping/master/exemple1.html")
content = response.content
print(content)

b'<html>\r\n  <head>\r\n      <title> Un exemple de page HTML </title>\r\n  </head>\r\n\r\n  <body>\r\n      <p>Un simple paragraphe</p>\r\n  </body>\r\n</html>'


## Récupérer des éléments d'une page

In [3]:
# librairie Beautifulsoup du pacjage bs4

In [5]:
from bs4 import BeautifulSoup

In [7]:
# on applique BeautifulSoup pour analyser le contenu précédemment téléchargé
parser = BeautifulSoup(content, 'html.parser')

# obtenir le tag body du cocument HTML

body = parser.body

# obetenir le tag p du body
p = body.p

# afficher le texte -- on utilise l'attribut .text

print(p.text)

Un simple paragraphe


## Training

In [8]:
# récupérer le titre dans la balise head et afficher le résultat

In [11]:
head = parser.head
title = head.title
print(title.text)

 Un exemple de page HTML 


## Utiliser Find All

In [12]:
parser = BeautifulSoup(content, 'html.parser')

# obtenir tous les éléments de la balise body

body = parser.find_all("body")
print(body)

[<body>
<p>Un simple paragraphe</p>
</body>]


In [13]:
# on récupère les éléments de la balise p dans la liste body
p = body[0].find_all("p") # body 0 car on ne récupère que le premier élément de la liste
print(p[0].text)

Un simple paragraphe


## training

In [14]:
# récupèrer le titre dans la liste
head = parser.find_all("head")
title = head[0].find_all("title")
title_text = title[0].text
print(title_text)

 Un exemple de page HTML 


## Elements correspondants aux IDs

In [18]:
# Télécharger la page
response = requests.get("https://raw.githubusercontent.com/codelikerod/web-scraping/master/exemple2.html")
content = response.content
parser = BeautifulSoup(content, 'html.parser')

# On va récuperer l'ID souhaité

first_paragraphe = parser.find_all("p", id="first")[0]  # on ajoute id=first
print(first_paragraphe.text)

1er paragraphe


In [19]:
second_paragraphe = parser.find_all("p", id="second")[0]
second_paragraphe_text = second_paragraphe.text
print(second_paragraphe_text)

2nd paragraphe


## Les classes

In [21]:
response = requests.get("https://raw.githubusercontent.com/codelikerod/web-scraping/master/exemple3.html")
content = response.content
parser = BeautifulSoup(content, 'html.parser')

# obtenir le premier paragraphe de la class 1 
# Trouver tous les paragraphes de la class 1 et récupèrer le premier élément
first_class1_paragraphe = parser.find_all("p", class_="class1")[0]
print(first_class1_paragraphe.text)

1er paragraphe classe 1


In [22]:
# récupérer le second paragraphe de la class1
second_class1_paragraphe = parser.find_all("p", class_="class1")[1]
second_class1_paragraphe_text = second_class1_paragraphe.text
print(second_class1_paragraphe_text)

2nd paragraphe class 1


In [24]:
# récupérer le 1er paragraphe de la class2
first_class2_paragraphe = parser.find_all("p", class_="class2")[0].text
first_class2_paragraphe_text = second_class1_paragraphe.text
print(first_class2_paragraphe_text)

2nd paragraphe class 1


## Select en CSS

In [27]:
# Télécharge le site web
response = requests.get("https://raw.githubusercontent.com/codelikerod/web-scraping/master/exemple4.html")
content = response.content
parser = BeautifulSoup(content, 'html.parser')

# Sélectionner tous les éléments de la classe first-item
first_items = parser.select(".first-item")
print(first_items[0].text)

1er paragraphe classe 1
      


In [28]:
# sélectionner tous les éléments de la classe 2 et assigner le premier élément à la variable first_class2_text
# Sélectionner tous les élément qui possèdent l'ID second et assigner le premier paragraphe à la variable second_text

first_class2_text = parser.select(".class2")[0].text
print(first_class2_text)


1er paragraphe class 2
      


In [29]:
second_text = parser.select("#second")[0].text
print(second_text)

1er paragraphe class 2
      


## Associer des sélecteurs en CSS

In [30]:
# Documents html / comporte le résultat du match psg vs chelsea

In [31]:
# 1 Extraire le nombre de fautes de Chelsea et assigner le résultat à la variable chelsea_offences_count.

In [32]:
# Télécharge les stats de psg-chelsea
response = requests.get("https://raw.githubusercontent.com/codelikerod/web-scraping/master/psg-vs-chelsea.html")
content = response.content
parser = BeautifulSoup(content, 'html.parser')

# trouver le nombre de fautes de chelsea
offences = parser.select("#fautes")[0]
chelsea_offences = offences.select("td")[1]
chelsea_offences_count = chelsea_offences.text
print(chelsea_offences_count)

24


In [33]:
# 2 Extraire le nombre de passes réussies par le PSG et assigner le résultat à la variable psg_pass_count.
psg_pass_count = parser.select("#passes")[0].select("td")[2].text
print(psg_pass_count)


545
