# Web Scraping

## Introduction

In [1]:
import requests

In [2]:
response = requests.get("https://raw.githubusercontent.com/codelikerod/web-scraping/master/exemple1.html")
content = response.content
print(content)

b'<html>\r\n  <head>\r\n      <title> Un exemple de page HTML </title>\r\n  </head>\r\n\r\n  <body>\r\n      <p>Un simple paragraphe</p>\r\n  </body>\r\n</html>'


# Récupérer des éléments d'une page

In [3]:
# librairie BeautifulSoup du package bs4

In [4]:
from bs4 import BeautifulSoup

In [8]:
# on applique BeautifulSoup pour analyser le contenu précédemment téléchargé
parser = BeautifulSoup(content, 'html.parser')

# obtenir le tag body du document HTML
body = parser.body

# obtenir le tag p du body
p = body.p

# afficher seulement le text -- on utilise l'attribut .text
print(p.text)

Un simple paragraphe


# Utiliser Find All

Le but de cette méthode est de récupérer tous les éléments d'une balise et de les retourner dans une liste, pour ensuite pouvoir en faire le tri.

In [15]:
parser = BeautifulSoup(content, 'html.parser')

# obtenir tous les éléments de la balise body
body = parser.find_all("body")

# on récupère les éléments de la balise p dans la liste body
p = body[0].find_all("p")  # body[0] car on récupère le premier élement de la liste

# obtenir le texte
print(p[0].text)

Un simple paragraphe


# Eléments correspondant aux IDs

In [18]:
# Télécharge la page
response = requests.get("https://raw.githubusercontent.com/codelikerod/web-scraping/master/exemple2.html")
content = response.content
parser = BeautifulSoup(content, 'html.parser')

# Récupérer l'ID souhaité
first_paragraph = parser.find_all("p", id="first")[0] #on ajoute id="first"
print(first_paragraph.text)

1er paragraphe


In [20]:
second_paragraph = parser.find_all("p", id="second")[0] #on ajoute id="second"
print(second_paragraph.text)

2nd paragraphe


# Les classes

In [22]:
# Télécharge le site web
response = requests.get("https://raw.githubusercontent.com/codelikerod/web-scraping/master/exemple3.html")
content = response.content
parser = BeautifulSoup(content, 'html.parser')

# obtenir le premier paragraphe de la classe 1
# trouver tous les paragraphes de la classe 1 et récuprérer le premier élément
first_class1_paragraph = parser.find_all("p", class_="class1")[0]
print(first_class1_paragraph.text)

1er paragraphe classe 1


In [34]:
# le find_all retourne une liste de tous les paragraphes de la classe 1
class1_paragraphs = parser.find_all("p", class_="class1")

second_class1_paragraph = class1_paragraphs[1]
print(second_class1_paragraph.text)

2nd paragraphe class 1


In [32]:
# le find_all retourne une liste de tous les paragraphes de la classe 2
class2_paragraphs = parser.find_all("p", class_="class2")

first_class2_paragraph = class2_paragraphs[0]
print(first_class2_paragraph.text)

1er paragraphe class 2


In [33]:
second_class2_paragraph = class2_paragraphs[1]
print(second_class2_paragraph.text)

2nd paragraphe class 2


# Selecteur en CSS

In [35]:
#  #first {
#         color:red
#         }

#  .class1 {
#         color:red
#         }

In [36]:
# select

In [39]:
# Télécharge le site web
response = requests.get("https://raw.githubusercontent.com/codelikerod/web-scraping/master/exemple4.html")
content = response.content
parser = BeautifulSoup(content, 'html.parser')

# Sélectionner tous les éléments de la classe first-item
first_items = parser.select(".first-item")
print(first_items[0].text)

1er paragraphe classe 1
      


In [41]:
# Sélectionner tous les éléments du sélecteur .class2 et assigner le premier élément à la variable first_class2_text
class2_items = parser.select(".class2") #on utilise le '.' pour sélectionner la classe
first_class2_text = class2_items[0].text
print(first_class2_text)

1er paragraphe class 2
      


In [47]:
# Sélectionner tous les éléments qui possède l'ID second et assigner le premier paragraphe à la variable second_text
second_items = parser.select("#second") #on utilise le '#' pour sélectionner l'id
second_text = second_items[0].text
print(second_text)

1er paragraphe class 2
      


# Associer des sélecteurs en CSS

In [48]:
# div p
# div .first-item
# body div #first
# .first-item #first

In [49]:
response = requests.get("https://raw.githubusercontent.com/codelikerod/web-scraping/master/psg-vs-chelsea.html")
content = response.content
parser = BeautifulSoup(content, 'html.parser')

In [73]:
# Extraire le nombre de fautes de Chelsea et assigner le résultat à la variable chelsea_offences_count.
offences = parser.select("#fautes")[0]
chelsea_offences_count = offences.select("td")[1].text
print(chelsea_offences_count)

24


In [74]:
# Extraire le nombre de passes effectuées par le PSG et assigner le résultat à la variable psg_passes_count.
psg_passes_count = parser.select("#passes td")[2].text
print(psg_passes_count)

545


In [75]:
# Extraire le nombre de tirs effectuées par le Chelsea et assigner le résultat à la variable chelsea_shoots_count.
chelsea_shoots_count = parser.select("#tirs")[0].select("td")[1].text
print(chelsea_shoots_count)

14
