# Introduction

Avant de commencer, parcourer le fichier README.rst

# Requête HTTP 

Un requête HTTP est une requête basé sur le protocole TCP, elle fait partie de la couche application de la couche OSI. Elle permet d'accéder aux données mise à disposition sur une adresse IP (ou url résolue par un DNS) et un port. 

Les deux ports les plus utilisé dans le web sont le 80 pour les sites en HTTP et le 443 pour les sites en HTTPS. HTTPS est une variable du protocole HTTP basé sur le protocole TLS.

Il existe de nombreux types de requêtes selon la convention `REST`: 
- GET
- POST
- PUT 
- DELETE
- UPDATE.

Dans notre cas nous allons utiliser la plupart du temps des GET et potentiellement des POST. 
- Le GET permet comme sont nom l'indique de récupérer des informations en fonction de certain paramètres. 
- Le POST nécéssite un envoie de données pour récupérer des données. Le body du post est, la plupart du temps, envoyé sous la forme d'un objet JSON.

Ces requêtes encapsulent un certain nombre de paramètres qui permettent soient d'identifier une provenance et un utilisateur ou de réaliser différentes actions.

In [1]:
import requests

In [2]:
url = "http://www.esiee.fr/"
response = requests.get(url)
response.status_code

200

Il existe deux méthodes pour récupérer le contenu de la page :

- `response.text` qui permet de retourner le texte sous la forme d'une chaine de charactères.
- `response.content` qui permet de récupérer le contenu de la page sous la forme de bytes

In [3]:
type(response.content)

bytes

In [4]:
type(response.text)

str

Pour récupérer les 1000 premiers charactères de la page :

In [5]:
response.text[0:1000]

'<!DOCTYPE html>\n<!--[if lt IE 7]>      <html class="no-js lt-ie9 lt-ie8 lt-ie7"> <![endif]-->\n<!--[if IE 7]>         <html class="no-js lt-ie9 lt-ie8"> <![endif]-->\n<!--[if IE 8]>         <html class="no-js lt-ie9"> <![endif]-->\n<!--[if IE 9]>         <html class="no-js ie9"> <![endif]-->\n<!--[if gt IE 9]><!--> <html class="no-js"> <!--<![endif]-->\n<head profile="http://www.w3.org/1999/xhtml/vocab">\n  <meta name="google-site-verification" content="JnG7DTdhQuWTeSHlWC63CeWpb3WValiOorksYjoYOWI" />\n  <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />\n<meta name="Generator" content="Drupal 7 (http://drupal.org)" />\n<meta name="description" content="ESIEE Paris, l’école de l’innovation technologique | Grande école d’ingénieurs\r\nForme dans les domaines des technologies du numérique - Habilitée CTI." />\n<link rel="shortcut icon" href="https://www.esiee.fr/sites/all/themes/custom/esiee_theme/favicon.ico" type="image/vnd.microsoft.icon" />\n  <title>ESIEE Paris, 

Pour récupérer les headers HTTP de la réponse :

In [6]:
response.headers

{'Date': 'Wed, 05 Dec 2018 07:48:22 GMT', 'Server': 'Apache', 'Expires': 'Sun, 19 Nov 1978 05:00:00 GMT', 'Cache-Control': 'no-cache, must-revalidate', 'X-Content-Type-Options': 'nosniff', 'Content-Language': 'fr', 'X-Frame-Options': 'SAMEORIGIN', 'X-Generator': 'Drupal 7 (http://drupal.org)', 'Vary': 'Accept-Encoding', 'Content-Encoding': 'gzip', 'X-Robots-Tag': 'index,follow,noarchive', 'X-XSS-Protection': '1; mode=block', 'X-Download-Options': 'noopen;', 'X-Permitted-Cross-Domain-Policies': 'none', 'Content-Length': '15927', 'Keep-Alive': 'timeout=5, max=150', 'Connection': 'Keep-Alive', 'Content-Type': 'text/html; charset=utf-8'}

On peut modifier les paramêtres de la requête et/ou ses headers. On peut par exemple ajouter un UserAgent et un timeout de 10 secondes:

In [7]:
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}
response = requests.get(url, headers=headers, timeout = 10)
response.content[0:1000]

b'<!DOCTYPE html>\n<!--[if lt IE 7]>      <html class="no-js lt-ie9 lt-ie8 lt-ie7"> <![endif]-->\n<!--[if IE 7]>         <html class="no-js lt-ie9 lt-ie8"> <![endif]-->\n<!--[if IE 8]>         <html class="no-js lt-ie9"> <![endif]-->\n<!--[if IE 9]>         <html class="no-js ie9"> <![endif]-->\n<!--[if gt IE 9]><!--> <html class="no-js"> <!--<![endif]-->\n<head profile="http://www.w3.org/1999/xhtml/vocab">\n  <meta name="google-site-verification" content="JnG7DTdhQuWTeSHlWC63CeWpb3WValiOorksYjoYOWI" />\n  <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />\n<meta name="Generator" content="Drupal 7 (http://drupal.org)" />\n<meta name="description" content="ESIEE Paris, l\xe2\x80\x99\xc3\xa9cole de l\xe2\x80\x99innovation technologique | Grande \xc3\xa9cole d\xe2\x80\x99ing\xc3\xa9nieurs\r\nForme dans les domaines des technologies du num\xc3\xa9rique - Habilit\xc3\xa9e CTI." />\n<link rel="shortcut icon" href="https://www.esiee.fr/sites/all/themes/custom/esiee_theme/fa

## Exercice

## Exercice 1

- Créer une classe Python permettant de faire des requêtes HTTP.
- Cette classe doit utiliser toujours le même UserAgent.
- Le TimeOut sera spécifié à chaque appelle avec une valeur par défaut.
- Un mécanisme de retry sera mis en place de façon recursive.

## Exercice 2

- Faire une fonction permettant de supprimer tous les espaces supperflus d'une string
- Faire une fonction qui prend une string html et renvois une string intelligible (enlever les caractères spéciaux,
- Récupérer le domaine en fonction d'un url

In [28]:
class http_request:
    """classe Python permettant de faire des requêtes HTTP"""
    i = 12345
    
    def __init__(self, url, userAgent, timeOut = 10, retries = 3):
        self.url = url
        self.userAgent = userAgent
        self.timeOut = timeOut
        self.headers = {'User-Agent': userAgent}
        self.retries = retries

    def do_request(self):
        success = False
        while not success or self.retries <= 0:
            try :
                return requests.get(url = self.url, headers = self.headers, timeout = self.timeOut)
                success = True
            except Exception as e:
                wait = 1
                self.retries -= 1

In [29]:
url = "http://www.esiee.fr/"
userAgent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'

x = http_request(url, userAgent)
x.url
print(x.do_request())

<Response [200]>


In [39]:
import re

"""
Fonction permettant de supprimer tous les espaces supperflus d'une string
"""
def rm_spaces(mystring):
    #rstrip() # strip trailing spaces (end)
    #lstrip() # strip leading spaces (start)
    #strip() # strip leading and trailing (start and end)
    mystring = re.sub(' +', ' ', mystring) # supprime les espaces doublons
    return mystring.strip()

In [41]:
rm_spaces(" My     String ")

'My String'

In [44]:
def intelligible_string(mystring):
    return ''.join(e for e in mystring if e.isalnum())

In [47]:
intelligible_string("a% . b")

'ab'

In [54]:
# simple but not recommended
def get_domain(url):
    return url.split("://")[1].split("/")[0]

In [55]:
get_domain("http://www.esiee.fr/")

'www.esiee.fr'

# Exploitation du HTML  

Ici, il faut récupérer le code HTML d'un site web à partir d'une requête. Lorsque vous avez récupéré le texte d'un site il faut le parser. Pour cela, on utilise BeautifulSoup qui permet de transformer la structure HTML en objet Python. Cela permet de récupérer efficacement les données qui nous intéresse.

Pour les webmasters, le blocage le plus souvent mis en place et un blocage sur le User-Agent. Le User-Agent est un paramètre intégré dans la requête HTTP réalisé par le Navigateur pour envoyer au front des informations basiques :

- la version du Navigateur,
- la version de l'OS
- Le type de gestionnaire graphique (Gecko)
- le type de device utilisé

Exemple de User Agent :  

`Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:47.0) Gecko/20100101 Firefox/47.0`

Commençons à utiliser `BeautifulSoup`, pour l'installer : 

In [56]:
!pip install bs4

Collecting bs4
  Downloading https://files.pythonhosted.org/packages/10/ed/7e8b97591f6f456174139ec089c769f89a94a1a4025fe967691de971f314/bs4-0.0.1.tar.gz
Building wheels for collected packages: bs4
  Running setup.py bdist_wheel for bs4 ... [?25ldone
[?25h  Stored in directory: /Users/development/Library/Caches/pip/wheels/a0/b0/b2/4f80b9456b87abedbc0bf2d52235414c3467d8889be38dd472
Successfully built bs4
Installing collected packages: bs4
Successfully installed bs4-0.0.1


In [57]:
import requests
from bs4 import BeautifulSoup

Pour transformer une requête (requests) en objet BeautifulSoup :

In [58]:
response = requests.get(url)
soup = BeautifulSoup(response.text, "lxml")

Il se peut qu'un message d'erreur arrive à ce point là si vous n'avez pas la librarie `lxml` installée, pour se faire vous avez juste à lancer la commande suivante : 

In [59]:
!pip install lxml



Pour trouver tous les liens d'une page on récupère la balise `a` qui permet de gérer les liens en HTML  :

In [60]:
soup.find_all("a")[0:10]

[<a href="#">
 <i class="icon-parametres"></i>
 </a>,
 <a href="https://gmail.com" target="_blank" title="Webmail ESIEE Paris"><i><img alt="" src="https://www.esiee.fr/sites/default/files/menu_icons/menu_icon_950.png"/> </i><span>Webmail ESIEE Paris</span></a>,
 <a href="https://planif.esiee.fr/direct/" target="_blank" title="Emploi du temps général"><i><img alt="" src="https://www.esiee.fr/sites/default/files/menu_icons/menu_icon_1331.png"/> </i><span>Emploi du temps général</span></a>,
 <a href="https://planif.esiee.fr/jsp/custom/esiee/easyMyPlanning.jsp" target="_blank" title="Emploi du temps individuel"><i><img alt="" src="https://www.esiee.fr/sites/default/files/menu_icons/menu_icon_1332.png"/> </i><span>Emploi du temps individuel</span></a>,
 <a href="https://intra.esiee.fr" target="_blank" title="Extranet"><i><img alt="" src="https://www.esiee.fr/sites/default/files/menu_icons/menu_icon_951.png"/> </i><span>Extranet</span></a>,
 <a href="https://esiee.blackboard.com" target="_bl

On peut préciser la classe HTML voulue  pour l'ensemble des `a`:

```python
soup.find_all(class_="<CLASS_NAME>")[0:10]
```

Ici par exemple: 

In [61]:
soup.find_all(class_="slide")[0:5]

[<div class="slide slide-content">
 <span class="slide-content-date inline-block"><span class="date-display-single">02.10.2018</span></span>
 <span class="slide-content-theme inline-block is-uppercase">Journée portes ouvertes</span>
 <div class="clearfix"></div>
 <div class="slide-content-img pull-left"><!-- scald=1951:news_thumbnail --><img alt="Jounées portes ouvertes ESIEE Paris 2018-2019" height="90" src="https://www.esiee.fr/sites/default/files/styles/news/public/thumbnails/image/illustration-jpo2_0.png?itok=beyrHUYj" title="Journées portes ouvertes ESIEE Paris 2018-2019" width="120"/><!-- END scald=1951 --></div>
 <span class="slide-content-title"><a class="is-uppercase" href="/fr/actualite/journee-portes-ouvertes-15-decembre-2018">Portes Ouvertes - Samedi 15 décembre 2018 de 13h à 18h</a></span>
 <div class="clearfix"></div>
 <p class="slide-content-desc">Bien choisir son école, c'est aussi la rencontrer !</p> </div>,
 <div class="slide slide-content">
 <span class="slide-conten

Pour récupérer le text sans les balises HTML :

In [62]:
soup.text[0:1000]

' \n\n\n\n\n\n\nESIEE Paris, l’école de l’innovation technologique | Grande école d’ingénieurs | ESIEE Paris\n\n\n\n\n\n<!--/*--><![CDATA[/*><!--*/\n#sliding-popup.sliding-popup-bottom,#sliding-popup.sliding-popup-bottom .eu-cookie-withdraw-banner,.eu-cookie-withdraw-tab{background:#e9e7e2;}#sliding-popup.sliding-popup-bottom.eu-cookie-withdraw-wrapper{background:transparent}#sliding-popup .popup-content #popup-text h1,#sliding-popup .popup-content #popup-text h2,#sliding-popup .popup-content #popup-text h3,#sliding-popup .popup-content #popup-text p,.eu-cookie-compliance-more-button,.eu-cookie-compliance-secondary-button,.eu-cookie-withdraw-tab{color:#48444e !important;}.eu-cookie-withdraw-tab{border-color:#48444e;}\n\n/*]]>*/-->\n\n\n\n\n\n\n\n\n\n \n\n\n\n\n\n\n\n\n\n\n\nLes outils ESIEE Paris Webmail ESIEE Paris Emploi du temps général Emploi du temps individuel Extranet iCampus Microsoft DreamSpark \n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\

## Exercice
### Exercice 3

Améliorer la classe développé précédemment.

- Ajouter une méthode pour récupérer l'objet soup d'un url
- Récupérer une liste de User Agent et effectuer une rotation aléatoire sur celui à utiliser
- Utiliser cette classe pour parser une page HTML et récupérer : le titre, tous les H1 (si ils existes), les liens vers les images, les liens sortants vers d'autres sites, et le texte principal.

Parsing d'un sitemaps pour récupérer une listes de liens avec les informations disponibles. -> Stocker dans un dictionnaire et dans un fichier JSON local.

In [122]:
class http_request:
    """classe Python permettant de faire des requêtes HTTP"""
    i = 12345
    
    def __init__(self, url, userAgent, timeOut = 10, retries = 3):
        self.url = url
        self.userAgent = userAgent
        self.timeOut = timeOut
        self.headers = {'User-Agent': userAgent}
        self.retries = retries

    def do_request(self):
        success = False
        while not success or self.retries <= 0:
            try :
                return requests.get(url = self.url, headers = self.headers, timeout = self.timeOut)
                success = True
            except Exception as e:
                wait = 1
                self.retries -= 1
                
    def soup_url(self):
        response = self.do_request()
        soup = BeautifulSoup(response.text, "lxml")
        #soup = BeautifulSoup(response.content)
        return soup

In [123]:
import random

url = "http://www.esiee.fr/"
userAgents = [
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36",
    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36",
    "Mozilla/5.0 (Linux; Android 5.1; A37f Build/LMY47V) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.93 Mobile Safari/537.36",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36"
]

x = http_request(url, random.choice(userAgents))
x.url
soup = x.soup_url()

In [80]:
print(soup)

<!DOCTYPE html>
<!--[if lt IE 7]>      <html class="no-js lt-ie9 lt-ie8 lt-ie7"> <![endif]--><!--[if IE 7]>         <html class="no-js lt-ie9 lt-ie8"> <![endif]--><!--[if IE 8]>         <html class="no-js lt-ie9"> <![endif]--><!--[if IE 9]>         <html class="no-js ie9"> <![endif]--><!--[if gt IE 9]><!--><html class="no-js"> <!--<![endif]-->
<head profile="http://www.w3.org/1999/xhtml/vocab">
<meta content="JnG7DTdhQuWTeSHlWC63CeWpb3WValiOorksYjoYOWI" name="google-site-verification"/>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="Drupal 7 (http://drupal.org)" name="Generator"/>
<meta content="ESIEE Paris, l’école de l’innovation technologique | Grande école d’ingénieurs
Forme dans les domaines des technologies du numérique - Habilitée CTI." name="description"/>
<link href="https://www.esiee.fr/sites/all/themes/custom/esiee_theme/favicon.ico" rel="shortcut icon" type="image/vnd.microsoft.icon"/>
<title>ESIEE Paris, l’école de l’innovation technol

In [117]:
#soup.find_all(class_="slide")[0:5]

print("titre :")
print(soup.title.string, "\n")

print("tous les H1 :")
#print(soup.find_all("h1"), "\n")

print("liens vers les images :")
#print(soup.find_all("img"), "\n")

print("liens sortants vers d'autres sites :")
#print(soup.find_all("a", href=True), "\n")
for link in soup.find_all('a', href=True):
    print(link['href'])

#print("texte principal :")
#print(soup.text)

titre :
ESIEE Paris, l’école de l’innovation technologique | Grande école d’ingénieurs | ESIEE Paris 

tous les H1 :
liens vers les images :
liens sortants vers d'autres sites :
#
https://gmail.com
https://planif.esiee.fr/direct/
https://planif.esiee.fr/jsp/custom/esiee/easyMyPlanning.jsp
https://intra.esiee.fr
https://esiee.blackboard.com
http://e5.onthehub.com/WebStore/Welcome.aspx?vsro=8&ws=45AD823E-799B-E011-969D-0030487D8897&JSEnabled=1
/en
https://www.facebook.com/esieeparis
https://twitter.com/ESIEEPARIS
https://www.linkedin.com/edu/school?id=20041&trk=tyah&trkInfo=idx%3A4-1-4%2CtarId%3A1425998561386%2Ctas%3Aesiee+paris
http://www.youtube.com/esieeparis
https://www.instagram.com/esieeparis/
#toolbar-footer
/fr
#
https://www.esiee.fr/fr/formations
#
https://www.esiee.fr/fr/formations
#
#
https://www.esiee.fr/fr/formations/ingenieur/ingenieur-esiee-paris
https://www.esiee.fr/fr/formations/ingenieur/premier-cycle
#
#
https://www.esiee.fr/fr/formations/ingenieur/cycle-ingenieur
http

In [136]:
x = http_request("https://www.esiee.fr/sitemap.xml", random.choice(userAgents))
x.url
soup = x.soup_url()

elements = soup.findAll("url")
urls = [elem.find("loc").string for elem in elements]

#print(urls)
limit = 2
urls_content = {}
for url in urls:
    urls_content[url] = http_request(url, random.choice(userAgents)).soup_url()
    limit -= 1
    if limit <= 0 : break

print(urls_content)

{'https://www.esiee.fr/fr/formations': <!DOCTYPE html>
<!--[if lt IE 7]>      <html class="no-js lt-ie9 lt-ie8 lt-ie7"> <![endif]--><!--[if IE 7]>         <html class="no-js lt-ie9 lt-ie8"> <![endif]--><!--[if IE 8]>         <html class="no-js lt-ie9"> <![endif]--><!--[if IE 9]>         <html class="no-js ie9"> <![endif]--><!--[if gt IE 9]><!--><html class="no-js"> <!--<![endif]-->
<head profile="http://www.w3.org/1999/xhtml/vocab">
<meta content="JnG7DTdhQuWTeSHlWC63CeWpb3WValiOorksYjoYOWI" name="google-site-verification"/>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="Drupal 7 (http://drupal.org)" name="Generator"/>
<link href="https://www.esiee.fr/sites/all/themes/custom/esiee_theme/favicon.ico" rel="shortcut icon" type="image/vnd.microsoft.icon"/>
<title>Formations | ESIEE Paris</title>
<meta content="width=device-width, maximum-scale=1.0, user-scalable=no" name="viewport"/>
<link href="https://www.esiee.fr/sites/default/files/css/css_xE-rWrJf-

# Exploitation des appels d'API



Losque le front du site récupère des données sur une API géré par le back, un appel d'API est réalisé. Cet appel est recensé dans les appels réseaux. Il est alors possible de re-jouer cet appel pour récupérer à nouveau les données. Il est très facile de récupérer ces appels dans l'onglet Network de la console développeur de Chrome ou FireFox. La console vous permet de copier le code CURL pour effectuée et vous pouvez ensuite la transformer en code Python depuis le site https://curl.trillworks.com/.

Souvent les APIs sont bloquées avec certain paramètres. L'API verifie que dans les headers de la requêtes HTTP ces paramètres sont présents : * un token généré à la volée avec des protocole OAuth2 (ou moins développés). * un referer provenant du site web (la source de la requête), très facile à falsifier.



## Exercice 
### Exercice 4

- Utiliser les informations développées plus haut pour récupérer les premiers résultats d'une recherche d'une requête
sur Qwant. 

Tips : 

- Aller sur https://www.qwant.com/
- Ouvrir les outils de développements de Chrome ou Firefox
- Onglet Network
- Fouiller dans les requêtes

>> aller sur qwant, faire une recherche "tennis"
ouvrir la console > network > XHR > webcount > clic droit copy as curl > convertir
xhr correspond aux data

In [138]:
import requests

headers = {
    'Origin': 'https://www.qwant.com',
    'Accept-Encoding': 'gzip, deflate, br',
    'Accept-Language': 'fr-FR,fr;q=0.9,en-US;q=0.8,en;q=0.7',
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36',
    'Content-type': 'application/x-www-form-urlencoded',
    'Accept': '*/*',
    'Referer': 'https://www.qwant.com/',
    'Connection': 'keep-alive',
}

params = (
    ('count', '10'),
    ('q', 'tennis'),
    ('t', 'web'),
    ('device', 'desktop'),
    ('safesearch', '1'),
    ('locale', 'fr_FR'),
    ('uiv', '4'),
)

response = requests.get('https://api.qwant.com/api/search/web', headers=headers, params=params)

#NB. Original query string below. It seems impossible to parse and
#reproduce query strings 100% accurately so the one below is given
#in case the reproduced version is not "correct".
# response = requests.get('https://api.qwant.com/api/search/web?count=10&q=tennis&t=web&device=desktop&safesearch=1&locale=fr_FR&uiv=4', headers=headers)


In [140]:
response.json()

{'status': 'success',
 'data': {'query': {'locale': 'fr_fr', 'query': 'tennis', 'offset': 0},
  'cache': {'key': '9ab20aba52cb9c88e9421a726d4ced52',
   'created': 1543817899,
   'expiration': 604800,
   'status': 'hits',
   'age': 186206,
   'version': 1,
   'system': 'R',
   'mode': 3},
  'result': {'total': 49,
   'items': [{'title': '<b>Tennis</b> : résultats <b>tennis</b> et classement en live ATP des ...',
     'favicon': '//s.qwant.com/fav/e/u/www_eurosport_fr.ico',
     'url': 'https://www.eurosport.fr/tennis/',
     'source': 'https://www.eurosport.fr/<b>tennis</b>',
     'desc': "Retrouvez toute l'actualité du <b>tennis</b> en direct et en vidéos sur Eurosport",
     '_id': '191ba8a9cae76aa35d7defe113c33881',
     'position': 1},
    {'title': '<b>Tennis</b> : Actualités, calendriers et résultats ATP WTA ...',
     'favicon': '//s.qwant.com/fav/l/e/www_lequipe_fr.ico',
     'url': 'https://www.lequipe.fr/Tennis/',
     'source': 'https://www.lequipe.fr/<b>Tennis</b>',
     'de

# Exercice Final  

Exercice Final
Utilisez tout ce que vous avez appris pour récupérer des articles de News avec une catégorie. Il est souvent intéressant de partir des flux RSS pour commencer :

Les données doivent comprendre :
- Le texte important propre
- L'url
- Le domaine
- la catégorie
- Le titre de l'article
- Le titre de la page
- (Facultatif) : les images

Tips : 

- Taper le nom de votre média favoris + RSS (par exemple : https://www.lemonde.fr/rss/)
- Aller dans le DOM de la page 
- Trouver les catégories et les liens vers les articles

In [146]:
import random

def get_articles(url_category):
    article = {}
    
    userAgents = [
        "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36",
        "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36",
        "Mozilla/5.0 (Linux; Android 5.1; A37f Build/LMY47V) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.93 Mobile Safari/537.36",
        "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36"
    ]
    
    x = http_request(url_category, random.choice(userAgents))
    x.url
    soup = x.soup_url()
    article["text"] = soup
    article["url"] = url_category
    return article

In [147]:
article = get_articles("https://www.lemonde.fr/ameriques/rss_full.xml")
print(article)

{'text': <?xml version="1.0" encoding="utf-8"?><html><body><rss version="2.0" xmlns:atom="https://www.w3.org/2005/Atom">
<channel>
<title>AmÃ©riques : Toute l'actualitÃ© sur Le Monde.fr.</title>
<description>AmÃ©riques - DÃ©couvrez gratuitement tous les articles, les vidÃ©os et les infographies de la rubrique AmÃ©riques sur Le Monde.fr.</description>
<copyright>Copyright Le Monde.fr</copyright>
<link/>https://www.lemonde.fr/ameriques/rss_full.xml
    <atom:link href="https://www.lemonde.fr/ameriques/rss_full.xml" rel="self" type="application/rss+xml"></atom:link>
<pubdate>Wed, 05 Dec 2018 11:21:09 +0100</pubdate>
<image>
<url>https://www.lemonde.fr/medias/web/img/export/logo_lmfr_90x20_export.png</url>
<title>AmÃ©riques : Toute l'actualitÃ© sur Le Monde.fr.</title>
<link/>https://www.lemonde.fr/ameriques/rss_full.xml
    </image>
<item>
<link/>https://www.lemonde.fr/international/article/2018/12/05/prudente-sur-l-ukraine-l-otan-met-la-russie-au-pied-du-mur-sur-le-traite-fni_5392896_321