# Web Scraping

## Introduction

In [1]:
import requests

In [2]:
response = requests.get("https://raw.githubusercontent.com/codelikerod/web-scraping/master/exemple1.html")
content = response.content
print(content)

b'<html>\r\n  <head>\r\n      <title> Un exemple de page HTML </title>\r\n  </head>\r\n\r\n  <body>\r\n      <p>Un simple paragraphe</p>\r\n  </body>\r\n</html>'


## Récupérer des éléments d'une page

In [3]:
# conda install -c anaconda beautifulsoup4 à faire avant dans la console

# Librairie BeautifulSoup du package bs4
from bs4 import BeautifulSoup

In [4]:
# On applique BeautifulSoup pour analyser le contenu précédemment téléchargé
parser = BeautifulSoup(content, 'html.parser')

# Obtenir le tag body du document HTML
body = parser.body

# Obtenir le tag p du body
p = body.p

# afficher le texte -- on utilise l'attribut .text
print(p.text)

Un simple paragraphe


### Training

In [5]:
# Obtenir le tag head du document HTML
head = parser.head

# Obtenir le tag title du head
title = head.title

# afficher le texte -- on utilise l'attribut .text
print(title.text)

 Un exemple de page HTML 


## Utiliser Find All

In [6]:
parser = BeautifulSoup(content, 'html.parser')

# Obtenir tous les éléments de la balise body
body = parser.find_all("body")

# On récupère les éléments de la balise p dans la liste body
p = body[0].find_all("p") # body[0] car on récupère le premier éléments de la liste

# Obtenir le texte
print(p[0].text)

Un simple paragraphe


### Training

In [7]:
parser = BeautifulSoup(content, 'html.parser')

# Obtenir tous les éléments de la balise body
head = parser.find_all("head")

# On récupère les éléments de la balise title dans la liste body
title = head[0].find_all("title")

# Obtenir le texte
print(title[0].text)

 Un exemple de page HTML 


## Eléments correspondants aux IDs

In [8]:
# Télécharger la page
response = requests.get("https://raw.githubusercontent.com/codelikerod/web-scraping/master/exemple2.html")
content = response.content
parser = BeautifulSoup(content, 'html.parser')

# Récupérer l'ID souhaité
first_paragraph = parser.find_all("p", id="first")[0] # On ajoute id="first"
print(first_paragraph.text)

1er paragraphe


### Training

In [9]:
# Récupérer l'ID souhaité
second_paragraph_text = parser.find_all("p", id="second")[0] # On ajoute id="second"
print(second_paragraph_text.text)

2nd paragraphe


## Les classes

In [10]:
# Télécharger la page
response = requests.get("https://raw.githubusercontent.com/codelikerod/web-scraping/master/exemple3.html")
content = response.content
parser = BeautifulSoup(content, 'html.parser')

# Obtenir le 1er paragraphe de la class 1
# Trouver tous les paragraphes de la class 1 et récupérer le 1 éléments
first_class1_paragraph = parser.find_all("p", class_="class1")[0]
print(first_class1_paragraph.text)

1er paragraphe classe 1


### Training

In [11]:
# Obtenir le 2ème paragraphe de la class 1
# Trouver tous les paragraphes de la class 1 et récupérer le 2ème éléments
second_class1_paragraph_text = parser.find_all("p", class_="class1")[1]
print(second_class1_paragraph_text.text)

2nd paragraphe class 1


In [12]:
# Obtenir le 2ème paragraphe de la class 1
# Trouver tous les paragraphes de la class 1 et récupérer le 2ème éléments
first_class2_paragraph_text = parser.find_all("p", class_="class2")[0]
print(first_class2_paragraph_text.text)

1er paragraphe class 2
