# Scraping

## Requêtes avec le package `requests` 

In [1]:
import requests

In [2]:
page = requests.get("http://dataquestio.github.io/web-scraping-pages/simple.html")

In [4]:
help(page)

Help on Response in module requests.models object:

class Response(builtins.object)
 |  The :class:`Response <Response>` object, which contains a
 |  server's response to an HTTP request.
 |  
 |  Methods defined here:
 |  
 |  __bool__(self)
 |      Returns True if :attr:`status_code` is less than 400.
 |      
 |      This attribute checks if the status code of the response is between
 |      400 and 600 to see if there was a client error or a server error. If
 |      the status code, is between 200 and 400, this will return True. This
 |      is **not** a check to see if the response code is ``200 OK``.
 |  
 |  __enter__(self)
 |  
 |  __exit__(self, *args)
 |  
 |  __getstate__(self)
 |  
 |  __init__(self)
 |      Initialize self.  See help(type(self)) for accurate signature.
 |  
 |  __iter__(self)
 |      Allows you to use a response as an iterator.
 |  
 |  __nonzero__(self)
 |      Returns True if :attr:`status_code` is less than 400.
 |      
 |      This attribute checks if

In [5]:
page.status_code

200

In [6]:
page.content

b'<!DOCTYPE html>\n<html>\n    <head>\n        <title>A simple example page</title>\n    </head>\n    <body>\n        <p>Here is some simple content for this page.</p>\n    </body>\n</html>'

Pour une page si simple, on pourrait presque faire le parsing et extraire l'information manuellement :

In [7]:
page.text.split("\n")

['<!DOCTYPE html>',
 '<html>',
 '    <head>',
 '        <title>A simple example page</title>',
 '    </head>',
 '    <body>',
 '        <p>Here is some simple content for this page.</p>',
 '    </body>',
 '</html>']

On obtient le contenu dans différents éléments (tags), que l'on peut sélectionner - mais difficile de rechercher précisément ce que l'on veut là-dedans ! `beautifulsoup` va nous aider.

## Parsing avec `BeautifulSoup` 

In [8]:
!pip install bs4



In [9]:
from bs4 import BeautifulSoup

In [10]:
# on fournit à BeautifulSoup le contenu brut de la page (HTML)
soup = BeautifulSoup(page.content)
soup

<!DOCTYPE html>
<html>
<head>
<title>A simple example page</title>
</head>
<body>
<p>Here is some simple content for this page.</p>
</body>
</html>

Visiblement, rien de nouveau. Pourtant, les tags sont désormais organisés en hiérachie, ou en **arbre**, comme vu dans le cours théorique ! Chaque tag est appelé **node (noeud)**, et est situé à un certain niveau dans l'arbre. Le noeud le plus haut est `<html>`, puis suivent ses **children** `<head>` et `<body>`, au même niveau.

![](https://stateofther.github.io/finistR2018/img/HTMLDOMTree.png)

A l'intérieur de **`<head>`** se trouvent des informations sur la page qui ne sont pas visibles quand la page est affichée dans un navigateur.

A l'intérieur de **`<body>`** se trouve le contenu visible pour les utilisateurs. 

Les enfants de `<body>` sont **`<h1>`** (un titre), `<section>` (littéralement : une section qui contient des paragraphes de texte **`<p>`**), et un `<footer>` (qui contient des liens **`<a>`**).

Comment rechercher une information dans cette hiérarchie (cette soupe !) ?

In [11]:
# Bonus : bs dispose d'une méthode pour afficher le HTML de façon bien indentée
print(soup.prettify())

<!DOCTYPE html>
<html>
 <head>
  <title>
   A simple example page
  </title>
 </head>
 <body>
  <p>
   Here is some simple content for this page.
  </p>
 </body>
</html>
