# Introduction

Avant de commencer, parcourer le fichier README.rst

# Requête HTTP 

Un requête HTTP est une requête basé sur le protocole TCP, elle fait partie de la couche application de la couche OSI. Elle permet d'accéder aux données mise à disposition sur une adresse IP (ou url résolue par un DNS) et un port. 

Les deux ports les plus utilisé dans le web sont le 80 pour les sites en HTTP et le 443 pour les sites en HTTPS. HTTPS est une variable du protocole HTTP basé sur le protocole TLS.

Il existe de nombreux types de requêtes selon la convention `REST`: 
- GET
- POST
- PUT 
- DELETE
- UPDATE.

Dans notre cas nous allons utiliser la plupart du temps des GET et potentiellement des POST. 
- Le GET permet comme sont nom l'indique de récupérer des informations en fonction de certain paramètres. 
- Le POST nécéssite un envoie de données pour récupérer des données. Le body du post est, la plupart du temps, envoyé sous la forme d'un objet JSON.

Ces requêtes encapsulent un certain nombre de paramètres qui permettent soient d'identifier une provenance et un utilisateur ou de réaliser différentes actions.
HTTP请求是一种基于TCP协议的请求，它是OSI层应用层的一部分。它允许访问在一个IP地址（或由DNS解析的网址）和一个端口上提供的数据。

网络上最常用的两个端口是HTTP网站的80和HTTPS网站的443。HTTPS是基于TLS协议的HTTP协议的一个变量。

根据`REST`惯例，有许多类型的请求。
- 争取
- 帖文
- 递交 
- DELETE
- 更新。

在我们的案例中，我们大部分时间将使用GET，也可能使用POST。
- 如其名称所示，GET允许根据某些参数来检索信息。
- POST需要一个数据发送来检索数据。大多数情况下，帖子的主体是以JSON对象的形式发送。

这些请求封装了一些参数，这些参数要么识别一个来源和一个用户，要么执行各种行动。



In [23]:
import requests

In [24]:
url = "https://docs.docker.com/"
response = requests.get(url)
response.status_code

200

Il existe deux méthodes pour récupérer le contenu de la page :

- `response.text` qui permet de retourner le texte sous la forme d'une chaine de charactères.
- `response.content` qui permet de récupérer le contenu de la page sous la forme de bytes

***

有两种方法来检索页面内容。

- `response.text` ，以字符串形式返回文本。
- `response.content`，允许以字节的形式检索页面的内容。

In [25]:
type(response.content)

bytes

In [26]:
type(response.text)

str

Pour récupérer les 1000 premiers charactères de la page :

In [27]:
response.text[0:2000]

'<!-- Page generated 2021-11-15 18:48:25 +0000 -->\n<!DOCTYPE html>\n<html lang="en"><head>\n  <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"><!-- Google Tag Manager -->\n  <script>(function(w,d,s,l,i){w[l]=w[l]||[];w[l].push({\'gtm.start\':\n  new Date().getTime(),event:\'gtm.js\'});var f=d.getElementsByTagName(s)[0],\n  j=d.createElement(s),dl=l!=\'dataLayer\'?\'&l=\'+l:\'\';j.async=true;j.src=\n  \'https://www.googletagmanager.com/gtm.js?id=\'+i+dl;f.parentNode.insertBefore(j,f);\n  })(window,document,\'script\',\'dataLayer\',\'GTM-WL2QLG5\');</script>\n<title>Docker Documentation | Docker Documentation</title>\n  <meta name="description" content="Home page for Docker&#39;s documentation" />\n  <meta name="keywords" content="Docker, documentation, manual, guide, reference, api, samples">\n  <link rel="canonical" href="https://docs.docker.com/" />\n\n  <!-- favicon -->\n  <link rel="icon" type="image/x-icon" href="/favicons/docs@2x.ico" sizes="129x128">\n  <link r

Pour récupérer les headers HTTP de la réponse :

In [28]:
response.headers

{'Content-Type': 'text/html', 'Transfer-Encoding': 'chunked', 'Connection': 'keep-alive', 'Date': 'Mon, 15 Nov 2021 18:50:48 GMT', 'Last-Modified': 'Mon, 15 Nov 2021 18:49:49 GMT', 'ETag': 'W/"bdc81a8194263bdec80691aecbc8270a"', 'Server': 'AmazonS3', 'Content-Encoding': 'gzip', 'Vary': 'Accept-Encoding', 'X-Cache': 'Hit from cloudfront', 'Via': '1.1 ee4db0d243ceb0d1993e5f46ad6c0f01.cloudfront.net (CloudFront)', 'X-Amz-Cf-Pop': 'CDG50-P2', 'X-Amz-Cf-Id': 'KCcdJwELK7hLm6-kUi7Wmo29KzqYn6Cbrpm1bc6OSFRTtqrNdw8bog==', 'Age': '72281'}

On peut modifier les paramêtres de la requête et/ou ses headers. On peut par exemple ajouter un UserAgent et un timeout de 10 secondes:

In [29]:
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}
response = requests.get(url, headers=headers, timeout = 10)
response.content[0:1000]

b'<!-- Page generated 2021-11-15 18:48:25 +0000 -->\n<!DOCTYPE html>\n<html lang="en"><head>\n  <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"><!-- Google Tag Manager -->\n  <script>(function(w,d,s,l,i){w[l]=w[l]||[];w[l].push({\'gtm.start\':\n  new Date().getTime(),event:\'gtm.js\'});var f=d.getElementsByTagName(s)[0],\n  j=d.createElement(s),dl=l!=\'dataLayer\'?\'&l=\'+l:\'\';j.async=true;j.src=\n  \'https://www.googletagmanager.com/gtm.js?id=\'+i+dl;f.parentNode.insertBefore(j,f);\n  })(window,document,\'script\',\'dataLayer\',\'GTM-WL2QLG5\');</script>\n<title>Docker Documentation | Docker Documentation</title>\n  <meta name="description" content="Home page for Docker&#39;s documentation" />\n  <meta name="keywords" content="Docker, documentation, manual, guide, reference, api, samples">\n  <link rel="canonical" href="https://docs.docker.com/" />\n\n  <!-- favicon -->\n  <link rel="icon" type="image/x-icon" href="/favicons/docs@2x.ico" sizes="129x128">\n  <link 

## Exercice

## Exercice 1

- Créer une classe Python permettant de faire des requêtes HTTP.
- Cette classe doit utiliser toujours le même UserAgent.
- Le TimeOut sera spécifié à chaque appelle avec une valeur par défaut.
- Un mécanisme de retry sera mis en place de façon recursive.

## Exercice 2

- Faire une fonction permettant de supprimer tous les espaces supperflus d'une string
- Faire une fonction qui prend une string html et renvois une string intelligible (enlever les caractères spéciaux,
- Récupérer le domaine en fonction d'un url

# Exploitation du HTML  

Ici, il faut récupérer le code HTML d'un site web à partir d'une requête. Lorsque vous avez récupéré le texte d'un site il faut le parser. Pour cela, on utilise BeautifulSoup qui permet de transformer la structure HTML en objet Python. Cela permet de récupérer efficacement les données qui nous intéresse.

Pour les webmasters, le blocage le plus souvent mis en place et un blocage sur le User-Agent. Le User-Agent est un paramètre intégré dans la requête HTTP réalisé par le Navigateur pour envoyer au front des informations basiques :

- la version du Navigateur,
- la version de l'OS
- Le type de gestionnaire graphique (Gecko)
- le type de device utilisé

Exemple de User Agent :  

`Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:47.0) Gecko/20100101 Firefox/47.0`

Commençons à utiliser `BeautifulSoup`, pour l'installer : 

In [30]:
!pip install bs4
!pip install  lxml



In [39]:
import requests
from bs4 import BeautifulSoup as bf

Pour transformer une requête (requests) en objet BeautifulSoup :

In [40]:
response = requests.get(url)
soup = bf(response.text)

Il se peut qu'un message d'erreur arrive à ce point là si vous n'avez pas la librarie `lxml` installée, pour se faire vous avez juste à lancer la commande suivante : 

In [41]:
!pip install lxml



Pour trouver tous les liens d'une page on récupère la balise `a` qui permet de gérer les liens en HTML  :

In [42]:
soup.find_all("a")[0:10]

[<a class="navbar-brand" href="/">
 <img alt="Docker Docs" height="28" src="/images/docker-docs-logo.svg" title="Docker Docs" width="160"/>
 </a>,
 <a href="/" id="home">Home</a>,
 <a href="/get-started/overview/" id="guides">Guides</a>,
 <a href="/desktop/" id="manuals">Manuals</a>,
 <a href="/reference/" id="reference">Reference</a>,
 <a href="https://www.docker.com/blog/">Articles</a>,
 <a class="card rocket" href="/get-started/">
 <h5 class="title">Get started</h5>
 <p>
             Learn Docker basics and the benefits of containerizing your
             applications.
           </p>
 </a>,
 <a class="card download-docker" href="/get-docker/">
 <h5 class="title">Download and install</h5>
 <p>
             Download and install Docker on your machine in a few easy steps.
           </p>
 </a>,
 <a class="card guides" href="/get-started/overview/">
 <h5 class="title">Guides</h5>
 <p>
             Learn how to set up your Docker environment and start containerizing
             your ap

On peut préciser la classe HTML voulue  pour l'ensemble des `a`:

```python
soup.find_all(class_="<CLASS_NAME>")[0:10]
```

Ici par exemple: 

In [43]:
soup.find_all(class_="slide")[0:5]

[]

Pour récupérer le text sans les balises HTML :

In [44]:
soup.text[0:1000]

'\n\n\nDocker Documentation | Docker Documentation\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nToggle navigation\n\n\n\n\n\n\n\n\n\nHomeGuidesManualsReferenceArticles\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nWhat can we help you find?\n\n\n\n\nSearch\n\n\n\n\n\n\n\n\n\nGet started\n\n            Learn Docker basics and the benefits of containerizing your\n            applications.\n          \n\n\n\n\nDownload and install\n\n            Download and install Docker on your machine in a few easy steps.\n          \n\n\n\n\nGuides\n\n            Learn how to set up your Docker environment and start containerizing\n            your applications.\n          \n\n\n\n\nLanguage-specific guides\n\n            Learn how to containerize language-specific applications using Docker.\n          \n\n\n\n\nManuals\n\n            Browse through the manuals and learn how to use Docker products.\n          \n\n\n\n\nReference\n\n            

## Exercice
### Exercice 3

Améliorer la classe développé précédemment.

- Ajouter une méthode pour récupérer l'objet soup d'un url
- Récupérer une liste de User Agent et effectuer une rotation aléatoire sur celui à utiliser
- Utiliser cette classe pour parser une page HTML et récupérer : le titre, tous les H1 (si ils existent), les liens vers les images, les liens sortants vers d'autres sites, et le texte principal.

Parsing d'un sitemaps pour récupérer une listes de liens avec les informations disponibles. -> Stocker dans un dictionnaire et dans un fichier JSON local.

# Exploitation des appels d'API



Losque le front du site récupère des données sur une API géré par le back, un appel d'API est réalisé. Cet appel est recensé dans les appels réseaux. Il est alors possible de re-jouer cet appel pour récupérer à nouveau les données. Il est très facile de récupérer ces appels dans l'onglet Network de la console développeur de Chrome ou FireFox. La console vous permet de copier le code CURL pour effectuée et vous pouvez ensuite la transformer en code Python depuis le site https://curl.trillworks.com/.

Souvent les APIs sont bloquées avec certain paramètres. L'API verifie que dans les headers de la requêtes HTTP ces paramètres sont présents : * un token généré à la volée avec des protocole OAuth2 (ou moins développés). * un referer provenant du site web (la source de la requête), très facile à falsifier.



## Exercice 
### Exercice 4

- Utiliser les informations développées plus haut pour récupérer les premiers résultats d'une recherche d'une requête
sur Qwant. 

Tips : 

- Aller sur https://www.qwant.com/
- Ouvrir les outils de développements de Chrome ou Firefox
- Onglet Network
- Fouiller dans les requêtes

# Exercice Final  

Exercice Final
Utilisez tout ce que vous avez appris pour récupérer des articles de News avec une catégorie. Il est souvent intéressant de partir des flux RSS pour commencer :

Les données doivent comprendre :
- Le texte important propre
- L'url
- Le domaine
- la catégorie
- Le titre de l'article
- Le titre de la page
- (Facultatif) : les images

Tips : 

- Taper le nom de votre média favoris + RSS (par exemple : https://www.lemonde.fr/rss/)
- Aller dans le DOM de la page 
- Trouver les catégories et les liens vers les articles

In [1]:
from urllib.request import urlopen
from bs4 import BeautifulSoup as bf

In [2]:
html = urlopen(" https://www.lemonde.fr/rss/")

In [3]:
obj = bf(html.read(),'html.parser')

In [4]:
title = obj.head.title

In [5]:
print(title)

<title>Les flux RSS du Monde.fr</title>


In [6]:
subtitle = obj.head.subtitle 

In [7]:
print(subtitle)

None
