# Requests et BeautifulSoup

## Installation Des Packages

In [1]:
# Si nous n'avez pas encore installé ces packages il faut enlever les les lignes suivantes en commentaire etles executer
# !pip install requests --upgrade --quiet
# !pip install beautifulsoup4 --upgrade --quiet
# !pip install pandas --quiet

## Importation des Packages

In [2]:
import requests
from random import randint
from time import sleep
from bs4 import BeautifulSoup
import pandas as pd

## Comment sa fonctionne

La première étape consiste à utiliser le package <code>**Requests**</code> pour télécharger le code HTML de notre page Web (à l'aide de la fonction <code>**requests.get**</code>) qui donne un objet de réponse. Nous pouvons voir si nous pouvons télécharger la page Web ou non en vérifiant la réponse. Statut de notre objet. (Il devrait être compris entre <code>**200 et 299**</code>). Ensuite, nous allons convertir cet objet de réponse en un objet <code>**BeautifulSoup**</code> en utilisant le constructeur <code>**BeautifulSoup()**</code>. Nous utiliserons cet objet pour inspecter notre document et extraire les données souhaitées. <code>**BeautifulSoup**</code> nécessite un argument supplémentaire appelé <code>**parser**</code>. (En bref, **BeautifulSoup** peut également être utilisé pour extraire des informations d'autres langages de balisage. Le **parser** par défaut est <code>**"html.parser"**</code>). Trouvez ci-dessous une fonction d'exemple indépendante qui effectuera la tâche ci-dessus: 
* de téléchargement des pages, 
* de vérification des réponses
d'analyse à l'aide de <code>**BeautifulSoup()**</code>.

In [6]:
def get_item_page(items_url):
    # télécharger la page
    response = requests.get(items_url)
    # vérifier le succès de réponse
    if response.status_code != 200:
        raise Exception('Failed to load page {}'.format(items_url))
    # Parser la réponse à l'aide de beaufifulSoup
    doc = BeautifulSoup(response.text, 'html.parser')
    return doc

## Scraper la liste des articles de notre site Web cible
Dans notre cas, nous allons scraper https://www.alibaba.com/trade/search?fsb=y&IndexArea=product_en&CatId=&SearchText=Inflight+Items&viewtype=G&tab={page} Nous obtiendrons une liste des produits en vol. Nous obtiendrons un **titre d'article principal**, un **prix**, **des notes** et une **URL** de page pour chaque article. Pour **chaque article**, nous obtiendrons plus de détails sur le produit à partir de la page de l'article (si nécessaire). Nous allons créer un dataframe de Pandas et un fichier **Json** avec les détails de l'élément. Pour chaque article, nous créerons également un fichier **CSV** au format indicatif suivant:

nom, prix, URL
Article JUNIO Fleur Préservée Avec Boîtes, 5.50 - 6.50, https://www.alibaba.com/product-detail/Item-JUNIO-Preserved-Flower-With-Boxes_62339028105.html?s=p

In [7]:
url = "https://www.alibaba.com/trade/search?fsb=y&IndexArea=product_en&CatId=&SearchText=Inflight+Items&viewtype=G&tab=%7Bpage%7D"

In [13]:
doc = get_item_page(url)

## Comprendre les bases de BeautifulSoup

**BeautifulSoup** a plusieurs méthodes pour extraire des informations de notre document analysé. La façon la plus simple de rechercher une balise dans notre document est d'appeler directement le nom de la balise que nous recherchons. Par exemple, si je veux la balise &lt;title&gt;, j'appellerai <code>doc.title</code>. Si je passe <code>doc.a</code>, il renverra l'occurrence de la première balise &lt;a&gt; présente dans mon document. Et si je voulais toutes les balises &lt;a&gt; ? Nous devons utiliser : « La méthode <code>find_all()</code> ».

## BeautifulSoup: (.find_all() method)

><code>doc.find_all(tag_name, attributes, limit, string, recursive=True)</code>:

* tag_name: Le nom des éléments **HTML** ex: &lt;a&gt;, &lt;tr&gt;
* attributes: un dict contenant les attributs d'une balise ex: {“class”: “abcabc”}
* limit: un nombre pour limiter le nombre de balises sous cette correspondance.
* text: une chaîne pour correspondre au contenu d'un élément 
* recursive: Par défaut, Beautiful Soup recherche tous les éléments enfants. Ainsi, le paramètre recursive = False limitera la recherche au premier élément trouvé et à son enfant uniquement.

In [36]:
tousLesDiv = doc.find_all('div')

In [37]:
len(tousLesDiv)

253

In [38]:
tousLesDivAvecClass = doc.find_all('div',{'class': 'sc-hd'})

In [29]:
len(tousLesDivAvecClass)

1

In [40]:
sixPremierDiv = doc.find_all('div', limit=6)
len(sixPremierDiv)

6

In [66]:
divAvecContenu = doc.find_all('a', text='Alibaba.com')
divAvecContenu

[]

In [57]:
sixPremierDiv

[1;31mSignature:[0m
[0mdoc[0m[1;33m.[0m[0mfind_all[0m[1;33m([0m[1;33m
[0m    [0mname[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mattrs[0m[1;33m=[0m[1;33m{[0m[1;33m}[0m[1;33m,[0m[1;33m
[0m    [0mrecursive[0m[1;33m=[0m[1;32mTrue[0m[1;33m,[0m[1;33m
[0m    [0mtext[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mlimit[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m[1;33m
[0m    [1;33m**[0m[0mkwargs[0m[1;33m,[0m[1;33m
[0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[1;31mSource:[0m   
    [1;32mdef[0m [0mfind_all[0m[1;33m([0m[0mself[0m[1;33m,[0m [0mname[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m [0mattrs[0m[1;33m=[0m[1;33m{[0m[1;33m}[0m[1;33m,[0m [0mrecursive[0m[1;33m=[0m[1;32mTrue[0m[1;33m,[0m [0mtext[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m[1;33m
[0m                 [0mlimit[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m [1;33m**[0m[0mkwargs[0m[1;33m)[0m[1;33m:[0m[1;33m
[0m        