# Introduction

Avant de commencer, parcourer le fichier README.rst

# Requ√™te HTTP 

Un requ√™te HTTP est une requ√™te bas√© sur le protocole TCP, elle fait partie de la couche application de la couche OSI. Elle permet d'acc√©der aux donn√©es mise √† disposition sur une adresse IP (ou url r√©solue par un DNS) et un port. 

Les deux ports les plus utilis√© dans le web sont le 80 pour les sites en HTTP et le 443 pour les sites en HTTPS. HTTPS est une variable du protocole HTTP bas√© sur le protocole TLS.

Il existe de nombreux types de requ√™tes selon la convention `REST`: 
- GET
- POST
- PUT 
- DELETE
- UPDATE.

Dans notre cas nous allons utiliser la plupart du temps des GET et potentiellement des POST. 
- Le GET permet comme sont nom l'indique de r√©cup√©rer des informations en fonction de certain param√®tres. 
- Le POST n√©c√©ssite un envoie de donn√©es pour r√©cup√©rer des donn√©es. Le body du post est, la plupart du temps, envoy√© sous la forme d'un objet JSON.

Ces requ√™tes encapsulent un certain nombre de param√®tres qui permettent soient d'identifier une provenance et un utilisateur ou de r√©aliser diff√©rentes actions.

In [1]:
import requests
import re
from fake_useragent import UserAgent

In [2]:
url = "http://www.esiee.fr/"
response = requests.get(url)
response.status_code

200

Il existe deux m√©thodes pour r√©cup√©rer le contenu de la page :

- `response.text` qui permet de retourner le texte sous la forme d'une chaine de charact√®res.
- `response.content` qui permet de r√©cup√©rer le contenu de la page sous la forme de bytes

In [3]:
type(response.content)

bytes

In [4]:
type(response.text)

str

Pour r√©cup√©rer les 1000 premiers charact√®res de la page :

In [5]:
response.text[0:1000]

'<!DOCTYPE html>\n<!--[if lt IE 7]>      <html class="no-js lt-ie9 lt-ie8 lt-ie7"> <![endif]-->\n<!--[if IE 7]>         <html class="no-js lt-ie9 lt-ie8"> <![endif]-->\n<!--[if IE 8]>         <html class="no-js lt-ie9"> <![endif]-->\n<!--[if IE 9]>         <html class="no-js ie9"> <![endif]-->\n<!--[if gt IE 9]><!--> <html class="no-js"> <!--<![endif]-->\n<head profile="http://www.w3.org/1999/xhtml/vocab">\n\t<!-- Google Tag Manager -->\n\t<script>\n\t\t(function(w,d,s,l,i){\n\t\t\tw[l]=w[l]||[];w[l].push({\'gtm.start\':new Date().getTime(),event:\'gtm.js\'});\n\t\t\tvar f=d.getElementsByTagName(s)[0],\tj=d.createElement(s),dl=l!=\'dataLayer\'?\'&l=\'+l:\'\';\n\t\t\tj.async=true;\n\t\t\tj.src=\'https://www.googletagmanager.com/gtm.js?id=\'+i+dl;f.parentNode.insertBefore(j,f);\n\t\t\t}\n\t\t)\n\t\t(window,document,\'script\',\'dataLayer\',\'GTM-MQF5LJB\');\n\t</script>\n\t<!-- End Google Tag Manager -->\n  <meta name="google-site-verification" content="JnG7DTdhQuWTeSHlWC63CeWpb3WValiOor

Pour r√©cup√©rer les headers HTTP de la r√©ponse :

In [6]:
response.headers

{'Date': 'Wed, 11 Nov 2020 12:40:25 GMT', 'Server': 'Apache/2.4.25 (Debian)', 'Expires': 'Sun, 19 Nov 1978 05:00:00 GMT', 'Cache-Control': 'no-cache, must-revalidate', 'X-Content-Type-Options': 'nosniff', 'Content-Language': 'fr', 'X-Frame-Options': 'SAMEORIGIN', 'X-Generator': 'Drupal 7 (http://drupal.org)', 'Vary': 'Accept-Encoding', 'Content-Encoding': 'gzip', 'Content-Length': '16448', 'Keep-Alive': 'timeout=5, max=150', 'Connection': 'Keep-Alive', 'Content-Type': 'text/html; charset=utf-8'}

On peut modifier les param√™tres de la requ√™te et/ou ses headers. On peut par exemple ajouter un UserAgent et un timeout de 10 secondes:

In [7]:
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}
response = requests.get(url, headers=headers, timeout = 10)
response.content[0:1000]

b'<!DOCTYPE html>\n<!--[if lt IE 7]>      <html class="no-js lt-ie9 lt-ie8 lt-ie7"> <![endif]-->\n<!--[if IE 7]>         <html class="no-js lt-ie9 lt-ie8"> <![endif]-->\n<!--[if IE 8]>         <html class="no-js lt-ie9"> <![endif]-->\n<!--[if IE 9]>         <html class="no-js ie9"> <![endif]-->\n<!--[if gt IE 9]><!--> <html class="no-js"> <!--<![endif]-->\n<head profile="http://www.w3.org/1999/xhtml/vocab">\n\t<!-- Google Tag Manager -->\n\t<script>\n\t\t(function(w,d,s,l,i){\n\t\t\tw[l]=w[l]||[];w[l].push({\'gtm.start\':new Date().getTime(),event:\'gtm.js\'});\n\t\t\tvar f=d.getElementsByTagName(s)[0],\tj=d.createElement(s),dl=l!=\'dataLayer\'?\'&l=\'+l:\'\';\n\t\t\tj.async=true;\n\t\t\tj.src=\'https://www.googletagmanager.com/gtm.js?id=\'+i+dl;f.parentNode.insertBefore(j,f);\n\t\t\t}\n\t\t)\n\t\t(window,document,\'script\',\'dataLayer\',\'GTM-MQF5LJB\');\n\t</script>\n\t<!-- End Google Tag Manager -->\n  <meta name="google-site-verification" content="JnG7DTdhQuWTeSHlWC63CeWpb3WValiOo

## Exercice

## Exercice 1

- Cr√©er une classe Python permettant de faire des requ√™tes HTTP.
- Cette classe doit utiliser toujours le m√™me UserAgent.
- Le TimeOut sera sp√©cifi√© √† chaque appelle avec une valeur par d√©faut.
- Un m√©canisme de retry sera mis en place de fa√ßon recursive.

## Exercice 2

- Faire une fonction permettant de supprimer tous les espaces supperflus d'une string
- Faire une fonction qui prend une string html et renvois une string intelligible (enlever les caract√®res sp√©ciaux,
- R√©cup√©rer le domaine en fonction d'un url

In [61]:
class requeteHTTP :
    
    def __init__(self, url):
         
        ua = UserAgent()
        self.headers = {'User-Agent': ua.random}

        #self.headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}
        self.url = url
        
    #exo 1
    def get(self, timeout = 10, max_retry = 3):
        rep = requests.get(self.url, headers = self.headers, timeout = timeout)
        cpt = 0
        while rep.status_code != 200 and cpt < max_retry :
            rep = requests.get(url, timeout = timeout)
            cpt += 1
        return rep.text
    
    def get_soup(self, text_response):
        return BeautifulSoup(text_response, "lxml")
    
    def remove_white_spaces(self, x):
        return x.strip()
    
    def clean_html_string(self, raw_html):
        cleaner = re.compile('<.*?>')
        cleantext = re.sub(cleaner, '', raw_html)
        return cleantext
    
    def extract_domain_name(self):
        m = re.search('http?://([A-Za-z_0-9.-]+).*', self.url)
        if m:
            return m.group(1)
        

In [25]:
class Scrapper :
    
    def __init__(self, url):
        self.headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}
        self.url = url
        
        
    def get_response(self, timeout = 10, max_retry = 3):
        lastException = None
        for _ in range(max_retry) :
            try : 
                response = request.get(self.url, headers = self.headers, timeout = timeout)
                return response.text
            except Exception as e : 
                lastException = 0
        raise lastException
            

In [26]:
re = Scrapper('https://fr.wikipedia.org/wiki/Liste_des_codes_HTTP/')
print(re.get_response())

TypeError: exceptions must derive from BaseException

In [63]:
requete = requeteHTTP('http://www.esiee.fr/')
raw_html = requete.get()
#print(requete.clean_html_string(raw_html))
print(requete.extract_domain_name())

www.esiee.fr


In [67]:
rip = requeteHTTP('https://fr.wikipedia.org/wiki/Wikip%C3%A9dia:Accueil_principal')
raw_html = rip.get()
print(rip.clean_html_string(raw_html))
#print(rip.extract_domain_name())





Wikip√©dia, l'encyclop√©die libre
document.documentElement.className="client-js";RLCONF={"wgBreakFrames":!1,"wgSeparatorTransformTable":[",\t.","¬†\t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","janvier","f√©vrier","mars","avril","mai","juin","juillet","ao√ªt","septembre","octobre","novembre","d√©cembre"],"wgRequestId":"840932d2-4d95-425a-8d70-9ce2dfa26cd9","wgCSPNonce":!1,"wgCanonicalNamespace":"Project","wgCanonicalSpecialPageName":!1,"wgNamespaceNumber":4,"wgPageName":"Wikip√©dia:Accueil_principal","wgTitle":"Accueil principal","wgCurRevisionId":164303621,"wgRevisionId":164303621,"wgArticleId":10635368,"wgIsArticle":!0,"wgIsRedirect":!1,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":[],"wgPageContentLanguage":"fr","wgPageContentModel":"wikitext","wgRelevantPageName":"Wikip√©dia:Accueil_principal","wgRelevantArticleId":10635368,"wgIsProbablyEditable":!1,"wgRelevantPageIsProbablyEditable":!1,"wgRestrictionEdit":["sysop

# Exploitation du HTML  

Ici, il faut r√©cup√©rer le code HTML d'un site web √† partir d'une requ√™te. Lorsque vous avez r√©cup√©r√© le texte d'un site il faut le parser. Pour cela, on utilise BeautifulSoup qui permet de transformer la structure HTML en objet Python. Cela permet de r√©cup√©rer efficacement les donn√©es qui nous int√©resse.

Pour les webmasters, le blocage le plus souvent mis en place et un blocage sur le User-Agent. Le User-Agent est un param√®tre int√©gr√© dans la requ√™te HTTP r√©alis√© par le Navigateur pour envoyer au front des informations basiques :

- la version du Navigateur,
- la version de l'OS
- Le type de gestionnaire graphique (Gecko)
- le type de device utilis√©

Exemple de User Agent :  

`Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:47.0) Gecko/20100101 Firefox/47.0`

Commen√ßons √† utiliser `BeautifulSoup`, pour l'installer : 

In [9]:
!pip install bs4
!pip install  lxml

Collecting bs4
  Downloading bs4-0.0.1.tar.gz (1.1 kB)
Building wheels for collected packages: bs4
  Building wheel for bs4 (setup.py): started
  Building wheel for bs4 (setup.py): finished with status 'done'
  Created wheel for bs4: filename=bs4-0.0.1-py3-none-any.whl size=1279 sha256=eaf2af3fdaccdbfb23dec39036dbc9c01404c79c7f8edbea688c168d710b0bf7
  Stored in directory: c:\users\xianli.desktop-ii7kspj\appdata\local\pip\cache\wheels\0a\9e\ba\20e5bbc1afef3a491f0b3bb74d508f99403aabe76eda2167ca
Successfully built bs4
Installing collected packages: bs4
Successfully installed bs4-0.0.1


In [27]:
import requests
from bs4 import BeautifulSoup

Pour transformer une requ√™te (requests) en objet BeautifulSoup :

In [28]:
response = requests.get(url)
soup = BeautifulSoup(response.text)

Il se peut qu'un message d'erreur arrive √† ce point l√† si vous n'avez pas la librarie `lxml` install√©e, pour se faire vous avez juste √† lancer la commande suivante : 

In [22]:
!pip install lxml



Pour trouver tous les liens d'une page on r√©cup√®re la balise `a` qui permet de g√©rer les liens en HTML  :

In [29]:
soup.find_all("a")[0:10]

[<a href="#">
 <i class="icon-parametres"></i>
 </a>,
 <a href="https://gmail.com" target="_blank" title="Webmail ESIEE Paris"><i><img alt="" src="https://www.esiee.fr/sites/default/files/menu_icons/menu_icon_950.png"/> </i><span>Webmail ESIEE Paris</span></a>,
 <a href="https://planif.esiee.fr/direct/" target="_blank" title="Emploi du temps g√©n√©ral"><i><img alt="" src="https://www.esiee.fr/sites/default/files/menu_icons/menu_icon_1331.png"/> </i><span>Emploi du temps g√©n√©ral</span></a>,
 <a href="https://planif.esiee.fr/jsp/custom/esiee/easyMyPlanning.jsp" target="_blank" title="Emploi du temps individuel"><i><img alt="" src="https://www.esiee.fr/sites/default/files/menu_icons/menu_icon_1332.png"/> </i><span>Emploi du temps individuel</span></a>,
 <a href="https://intra.esiee.fr" target="_blank" title="Extranet"><i><img alt="" src="https://www.esiee.fr/sites/default/files/menu_icons/menu_icon_951.png"/> </i><span>Extranet</span></a>,
 <a href="https://esiee.blackboard.com" target=

On peut pr√©ciser la classe HTML voulue  pour l'ensemble des `a`:

```python
soup.find_all(class_="<CLASS_NAME>")[0:10]
```

Ici par exemple: 

In [20]:
soup.find_all(class_="slide")[0:5]

[<div class="slide slide-content">
 <span class="slide-content-date inline-block"><span class="date-display-single">19.11.2019</span></span>
 <span class="slide-content-theme inline-block is-uppercase">Ev√®nements</span>
 <div class="clearfix"></div>
 <div class="slide-content-img pull-left"><!-- scald=2387:news_thumbnail --><img alt="Vignette Webserie Episode 1" height="90" src="https://www.esiee.fr/sites/default/files/styles/news/public/thumbnails/image/vignette-episode-1.jpg.png?itok=zxvSPpas" title="Vignette Webserie Episode 1" width="120"/><!-- END scald=2387 --></div>
 <span class="slide-content-title"><a class="is-uppercase" href="/fr/actualite/webserie-yann-lecun-prix-turing">Lancement de la webserie Yann LeCun Prix Turing et ESIEE Paris</a></span>
 <div class="clearfix"></div>
 <p class="slide-content-desc">D√©couvrez la nouvelle Webserie sur l'histoire commune entre Yann LeCun, laur√©at du Prix Turing, et ESIEE Paris.</p> </div>,
 <div class="slide slide-content">
 <span clas

Pour r√©cup√©rer le text sans les balises HTML :

In [21]:
soup.text[0:1000]

"\n\n\n\n\n  \n\n\n\n\n\n\nESIEE Paris, l‚Äô√©cole de l‚Äôinnovation technologique | Grande √©cole d‚Äôing√©nieurs | ESIEE Paris\n\n\n\n\n\n\n\n\n\n\n\n\n \n\n\n\n\n\n\n\n\n\n\n\nLes outils ESIEE Paris Webmail ESIEE Paris Emploi du temps g√©n√©ral Emploi du temps individuel Extranet iCampus Microsoft DreamSpark \n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n menu\nFormations\n\n\nRETOUR menu\nFormations ESIEE ParisIng√©nieur\n\n\nIng√©nieur\nRETOUR Formations\nIng√©nieur ESIEE ParisPremier cycleLe cycle ing√©nieur\n\n\nLe cycle ing√©nieur\nRETOUR Ing√©nieur\nLe cycle ing√©nieur ESIEE ParisEnseignements de 1√®re ann√©eEnseignements de 2e et 3e ann√©eProfils m√©tiersFili√®res\n\n\nFili√®res\nRETOUR Ing√©nieur\n8 fili√®res, 1 dipl√¥meInformatiqueCybers√©curit√© des Syst√®mes d'informationDatascience et intelligence artificielleSyst√®mes embarqu√©sSyst√®mes √©lectroniques intelligentsG√©nie industrielBiotechnologies et e-sant√©EnergieEmplois e

## Exercice
### Exercice 3

Am√©liorer la classe d√©velopp√© pr√©c√©demment.

- Ajouter une m√©thode pour r√©cup√©rer l'objet soup d'un url
- R√©cup√©rer une liste de User Agent et effectuer une rotation al√©atoire sur celui √† utiliser
- Utiliser cette classe pour parser une page HTML et r√©cup√©rer : le titre, tous les H1 (si ils existent), les liens vers les images, les liens sortants vers d'autres sites, et le texte principal.

Parsing d'un sitemaps pour r√©cup√©rer une listes de liens avec les informations disponibles. -> Stocker dans un dictionnaire et dans un fichier JSON local.

In [45]:
!pip install fake_useragent

Collecting fake_useragent
  Downloading fake-useragent-0.1.11.tar.gz (13 kB)
Building wheels for collected packages: fake-useragent
  Building wheel for fake-useragent (setup.py): started
  Building wheel for fake-useragent (setup.py): finished with status 'done'
  Created wheel for fake-useragent: filename=fake_useragent-0.1.11-py3-none-any.whl size=13489 sha256=6178fe32a622049632c5e700a05c8692450221777702abc10b768013c5ec5f8d
  Stored in directory: c:\users\xianli.desktop-ii7kspj\appdata\local\pip\cache\wheels\ed\f7\62\50ab6c9a0b5567267ab76a9daa9d06315704209b2c5d032031
Successfully built fake-useragent
Installing collected packages: fake-useragent
Successfully installed fake-useragent-0.1.11


In [105]:
class requeteHTTP :
    
    def __init__(self, url):
         
        ua = UserAgent()
        self.headers = {'User-Agent': ua.random}

        #self.headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}
        self.url = url
        
    #exo 1
    def get(self, timeout = 10, max_retry = 3):
        rep = requests.get(self.url, headers = self.headers, timeout = timeout)
        cpt = 0
        while rep.status_code != 200 and cpt < max_retry :
            rep = requests.get(url, timeout = timeout)
            cpt += 1
        return rep.text
    
    #exo 2
    def remove_white_spaces(self, x):
        return x.strip()
    
    def clean_html_string(self, raw_html):
        cleaner = re.compile('<.*?>')
        cleantext = re.sub(cleaner, '', raw_html)
        return cleantext
    
    def extract_domain_name(self):
        m = re.search('http?://([A-Za-z_0-9.-]+).*', self.url)
        if m:
            return m.group(1)
    
    #exo 3 
    def get_soup(self, text_response):
        return BeautifulSoup(text_response, "lxml")
    
    #le titre, tous les H1 (si ils existent), les liens vers les images, les liens sortants vers d'autres sites, et le texte principal.
    def get_titre(self, soup):
        return soup.find("title")
    
    def get_H1(self, soup):
        try :
            return soup.find_all("h2")[0:10]
        except :
            return []
    
    def get_lien_image(self, soup):
        try :
            return [element['src'] for element in soup.find_all('img') if element.get('src')]
        except :
            return []
        
    def get_lien_exterieur(self, soup):
        liste_liens = [elt['href'] for elt in soup.find_all('a')]
        return [elt for elt in liste_liens if not elt.startswith(self.extract_domain_name())]
    
    def tag_visible(self, element):
        if element.parent.name in ['style', 'script', 'head', 'title', 'meta', '[document]']:
            return False
        return True
    
    def get_text(self, soup):
        text = soup.find_all(text = True)
        text_visible = filter(self.tag_visible, text)
        return u" ".join(t.strip for t in text_visible)

In [106]:
requete = requeteHTTP('http://www.esiee.fr/')
raw_html = requete.get()
#print(requete.clean_html_string(raw_html))
soup = requete.get_soup(raw_html)
print(requete.get_text(soup))

TypeError: sequence item 0: expected str instance, builtin_function_or_method found

# Exploitation des appels d'API



Losque le front du site r√©cup√®re des donn√©es sur une API g√©r√© par le back, un appel d'API est r√©alis√©. Cet appel est recens√© dans les appels r√©seaux. Il est alors possible de re-jouer cet appel pour r√©cup√©rer √† nouveau les donn√©es. Il est tr√®s facile de r√©cup√©rer ces appels dans l'onglet Network de la console d√©veloppeur de Chrome ou FireFox. La console vous permet de copier le code CURL pour effectu√©e et vous pouvez ensuite la transformer en code Python depuis le site https://curl.trillworks.com/.

Souvent les APIs sont bloqu√©es avec certain param√®tres. L'API verifie que dans les headers de la requ√™tes HTTP ces param√®tres sont pr√©sents : * un token g√©n√©r√© √† la vol√©e avec des protocole OAuth2 (ou moins d√©velopp√©s). * un referer provenant du site web (la source de la requ√™te), tr√®s facile √† falsifier.



## Exercice 
### Exercice 4

- Utiliser les informations d√©velopp√©es plus haut pour r√©cup√©rer les premiers r√©sultats d'une recherche d'une requ√™te
sur Qwant. 

Tips : 

- Aller sur https://www.qwant.com/
- Ouvrir les outils de d√©veloppements de Chrome ou Firefox
- Onglet Network
- Fouiller dans les requ√™tes

# Exercice Final  

Exercice Final
Utilisez tout ce que vous avez appris pour r√©cup√©rer des articles de News avec une cat√©gorie. Il est souvent int√©ressant de partir des flux RSS pour commencer :

Les donn√©es doivent comprendre :
- Le texte important propre
- L'url
- Le domaine
- la cat√©gorie
- Le titre de l'article
- Le titre de la page
- (Facultatif) : les images

Tips : 

- Taper le nom de votre m√©dia favoris + RSS (par exemple : https://www.lemonde.fr/rss/)
- Aller dans le DOM de la page 
- Trouver les cat√©gories et les liens vers les articles