<br>
<div align="right">Enseignant : Aric Wizenberg</div>
<div align="right">E-mail : icarwiz@yahoo.fr</div>
<div align="right">Année : 2018/2019</div><br><br><br>
<div align="center"><span style="font-family:Lucida Caligraphy;font-size:32px;color:darkgreen">Master 2 MASERATI - Cours de Python</span></div><br><br>
<div align="center"><span style="font-family:Lucida Caligraphy;font-size:24px;color:#e60000">Le framework Scrapy et Selenium</span></div><br><br>
<hr>

# Les XPath

## Bases

Un **XPath** est un type de formulation permettant de parcourir l'arborescence d'un fichier ML rapidement.

Soit l'exemple de XML suivant :

In [None]:
xml = '''<?xml version="1.0"?>
<container>
    <data>
        <country name="Liechtenstein">
            <rank>1</rank>
            <year>2008</year>
            <gdppc>141100</gdppc>
            <neighbor name="Austria" direction="E"/>
            <neighbor name="Switzerland" direction="W"/>
        </country>
        <country name="Singapore">
            <rank>4</rank>
            <year>2011</year>
            <gdppc>59900</gdppc>
            <neighbor name="Malaysia" direction="N"/>
        </country>
        <country name="Panama">
            <rank>68</rank>
            <year>2011</year>
            <gdppc>13600</gdppc>
            <neighbor name="Costa Rica" direction="W"/>
            <neighbor name="Colombia" direction="E"/>
        </country>
    </data>
</container>'''

**Beautiful Soup** ne fonctionne pas avec les XPath, utilisons le module **xml** de la bibliothèque standard de Python pour voir comment fonctionne ils fonctionnent.

In [None]:
from xml.etree import ElementTree as et

root = et.fromstring(xml)
root.tag

## Chemin

On peut appliquer un XPath en utilisant la méthode **findall()**. 

Le XPath suivant récuperera :
- l'ensemble des **noeuds** de type ***neighbor*** 
- qui sont enfants de noeuds ***country*** 
- qui sont eux-mêmes enfant d'un noeud ***data*** 
- qui est lui-même un enfant du noeud de départ, que l'on désigne par **__.__** (point)

In [None]:
liste_voisins = root.findall('./data/country/neighbor')
liste_voisins

In [None]:
liste_voisins[0].tag

In [None]:
liste_voisins[0].attrib['name']

<div class="alert alert-block alert-success">
    <b>Rappel :</b> <br>Comme souvent dans un chemin informatique: 
    <ul>    
        <li> le double point ( <b>..</b> ) désigne <b>le parent</b></li> 
        <li> le point unique ( <b>.</b> ) désigne <b>le noeud lui-même</b></li> 
        <li> l'asterisk ( <b>*</b> ) désigne <b>n'importe quel nom</b></li> 
    </ul>   
</div>

Bien sûr, si l'on se trompe de **chemin**, cela ne fonctionne pas :

In [None]:
root.findall('./country/neighbor')

On peut aussi, alternativement, ne pas demander les **enfants** d'un noeud, mais ses **déscendants**, en utilisant le double slash **//**

Le XPath suivant récuperera :
- l'ensemble des **noeuds** de type ***neighbor*** 
- qui sont enfants de noeuds ***country*** 
- qui sont eux-mêmes **descendants** du noeud de départ

In [None]:
root.findall('.//country/neighbor')

Le XPath suivant récuperera :
- l'ensemble des **noeuds** de type ***neighbor*** 
- qui sont **descendants** du noeud de départ

In [None]:
root.findall('.//neighbor')

## Attributs

Il est aussi possible de chercher en utilisant un attribut, on le spécifie alors par 

```[@attribut="valeur"]```

Le XPath suivant récuperera :
- l'ensemble des **noeuds** de type ***neighbor*** 
- qui sont **descendants** du noeud de départ
- qui ont pour attribut ***name***, la valeur ***Austria***

In [None]:
root.findall('.//neighbor[@name="Austria"]')

Le XPath suivant récuperera :
- l'ensemble des **noeuds** de type ***year*** 
- qui sont **descendants** du noeud de départ
- qui ont un **parent** qui a pour attribut ***name***, la valeur ***Singapore***

In [None]:
root.findall('.//year/..[@name="Singapore"]')

Le XPath suivant récuperera :
- l'ensemble des **noeuds** de type ***year***
- qui sont **enfants** d'un **parent** qui peut être de **n'importe quel type** et qui a pour attribut ***name***, la valeur ***Singapore***
- et qui sont eux-mêmes **descendants** du noeud de départ

In [None]:
root.findall(".//*[@name='Singapore']/year")

## Position

On peut aussi rechercher les noeuds par position (attention, en XPath, la première position est 1)

In [None]:
root.findall(".//neighbor[1]")

**Beautiful Soup** dispose aussi d'outils permettant de faire des choses tout à fait équivalentes, mais en utilisant d'autres moyens (class_, attrs...)

<div class="alert alert-block alert-info"><b>Pour aller plus loin :</b> Le <a href=https://www.w3schools.com/xml/xpath_intro.asp>tutorial sur les XPath</a> du site W3Schools</div>

# Scrapy

## Installation

### Installer Scrapy

1. Lancer **Anaconda prompt**
2. Installer le module **scrapy** en exécutant la commande
> conda install -y scrapy

### Création du dossier Scrapy

Créons le dossier Scrapy dans le dossier home

Ejecutando el codigo siguiente va a hacer un dossier scrapy en nuestro user (como pybooks)

In [None]:
import os
import pathlib

DOSSIER_BASE = pathlib.Path.home() / 'Scrapy'

pathlib.Path.home() / 'Scrapy'
try:
    os.mkdir(DOSSIER_BASE)
except FileExistsError:
    pass

os.chdir(DOSSIER_BASE)

os.environ['PATH'] += f';{str(pathlib.Path.home() / "Anaconda3" / "Scripts")}'

## Présentation

### Qu'est-ce qu'un framework ?

Un **framework**, c'est plus qu'un module. C'est un ensemble qui permet d'accélerer grandement le développement d'un programme.

Par exemple le framework **django** permet de développer un site web simple en quelques dizaines de lignes de codes.

Le framework **scrapy** permet lui de développer un scraper simple en quelques lignes de codes.

C'est une **base de programme** pré-organisée, avec :
- un grand nombre de fonctions et de **morceaux de programme** pré-écrits (par exemple les boucles du scraper sont déjà écrites) 
- souvent une **arborescence de dossiers** pré-établie (les sous-dossiers du programme seront crées automatiquement)
- souvent aussi un **programme extérieur** à Python qui permet d'exécuter votre programme

Le grand avantage est que cela accélère grandement le développement.

L'inconvénient principal, c'est que vous êtes moins libre dans le développement.

### Interface de console et IDE

Scrapy fonctionne sur la base d'un programme extérieur (scrapy.exe), pour lancer les scrapers que vous aller coder, il faudra exécuter ce programme. Pour faire cela, vous avez 2 choix :
- utiliser **Anaconda Prompt** et le shell
- utiliser un Notebook qui vous servira d'**interface**

En revanche, il est impossible de coder le coeur du scraper sur Notebook, ni de profiter de l'avantage que représente l'exécution interactive.

D'ailleurs les fichiers de codes seront des scripts Python (des fichiers **.py**) et pas des fichiers Notebook (**.ipynb**).

Il faudra donc aussi utiliser un autre IDE :
- Un simple éditeur de texte comme Notepad++ ou l'éditeur de texte interne de Jupyter
- Visual Studio Code (VSCode)
- Spider
- PyCharm community...

## Le projet Scrapy

Un **projet** est attaché à un **nom de domaine** (et donc un site).

Il faut créer un nouveau projet pour chaque site que vous souhaitez scraper.

### Créer un projet Scrapy

In [None]:
NOM_PROJET = 'imdb'

In [None]:
!scrapy startproject $NOM_PROJET

In [None]:
os.chdir(DOSSIER_BASE / NOM_PROJET)

### Structure d'un projet

Affichons la structure de dossiers du projet

In [None]:
def dispfolders(folder, level=0):
    ELEMENTS_CACHES = ('__pycache__', '__init__.py', '.ipynb_checkpoints')
    
    print((level > 0)*'|' + level*'--' + folder.split('/')[-1] + '/')
    
    for elem in os.listdir(folder):  
        if elem in ELEMENTS_CACHES:
            pass
        elif os.path.isdir(f'{folder}/{elem}') and elem != '__pycache__':            
            dispfolders(f'{folder}/{elem}', level + 1)
        else:
            print('|' + (level + 1)*'--' + elem)

In [None]:
dispfolders('.')

Un dossier du nom du projet, celui-ci contient 2 éléments :
- un fichier **scrapy.cfg** : il contient 2-3 paramètres généraux sur le projet
- un dossier du même nom que le projet qui contient :
    - un fichier **items.py** : le fichier permettant de configurer la structure des données en sortie
    - un fichier **settings.py** : le fichier permettant de vraiment paramètrer le projet
    - un fichier **middlewares.py** : le fichier permettant de coder des Middlewares (avancé)
    - un fichier **pipelines.py** : le fichier permettant de paramètrer la séquence chronologique des scrapers (avancé)
    - un dossier **spiders** : le dossier qui contiendra des unités de scraping individuelles (les spiders)
- nous ajouterons dans le dossier de base nos fichiers de log et de données en sortie.

### Paramétrer le projet

Ensuite il faut paramétrer le projet, on va aller mettre les valeurs suivantes dans le fichier **settings.py** :

- USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:64.0) Gecko/20100101 Firefox/64.0'
- ROBOTSTXT_OBEY = True
- CONCURRENT_REQUESTS = 16
- DOWNLOAD_DELAY = 1

## Les spiders

Une **spider** est un scraper. 

On peut en créer plusieurs pour un même site (et donc dans un même projet)

### Création d'une spider

In [None]:
!scrapy genspider top251 www.imdb.com

In [None]:
dispfolders('.')

Un nouveau fichier Python du nom de la spider a été créé dans le sous-dossier **spiders**.

C'est ce fichier qui contiendra le code de notre scraper.

### Codage d'une spider

Avant toute chose, il faut aller modifier l'attribut **start_urls** en indiquant l'adresse exacte servant de point de départ.

In [None]:
start_urls = ['https://www.imdb.com/chart/top/']

La méthode spider.parse() va être exécutée au démarrage de la spider, c'est le point de départ.

In [None]:
def parse(self, response):
    urls = response.xpath('//tbody[@class="lister-list"]/tr/td[@class="titleColumn"]/a')

    for url in urls:
        yield response.follow(url, callback=self.parse_page_film)
        break # cale

Cette méthode va appeler tour à tour une autre méthode, parse_page_film() qui sera la méthode permettant de traiter une unique page web.

In [None]:
def parse_page_film(self, response):
    item = ImdbItem()
    
    item['url'] = response.url
    subtext = response.xpath('//div[@class="subtext"]/a/text()').extract()        
    item['genres'] = subtext[0].strip()
    
    yield item

Mais pour ça il faut au préalable définit l'objet ImdbItem dont la définition est contenue dans le fichier **items.py**

In [None]:
import scrapy

class ImdbItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    url = scrapy.Field()
    genres = scrapy.Field()

### Test de la spider

In [None]:
try:
    os.remove('log.log')
except FileNotFoundError:
    pass

try:
    os.remove('test.csv')
except FileNotFoundError:
    pass

print('Exécution du crawler...')
print()

! scrapy crawl top250 --logfile=log.log -o test.csv

print()
print('Fin de l\'exécution.')

## Exploitation les données en sortie

In [None]:
import pandas as pd

In [None]:
pd.read_csv('test.csv')

---

<div class="alert alert-block alert-info"><b>Pour aller plus loin :</b> <a href=https://doc.scrapy.org/en/latest/intro/tutorial.html> Tutorial du site officiel de Scrapy </a></div>

# Selenium

**Selenium** est un **émulateur de navigateur web**. Il va passer par un navigateur pour effectuer les actions souhaitées.

## Installation

### Installation du module

1. Lancer **Anaconda prompt**
2. Installer le module **selenium** en exécutant la commande
> conda install -c conda-forge -y selenium

On peut ensuite charger les modules de Selenium

In [None]:
import selenium.webdriver as selweb
import selenium.common as selcom

### Les webdrivers

Il faut mettre les fichiers exécutables dans {dossier Home}/Anaconda3/Scripts

##### Firefox

https://github.com/mozilla/geckodriver/releases

In [None]:
try:
    selweb.Firefox()
except selcom.exceptions.WebDriverException:
    print('Le driver Firefox n\'est pas installé')

##### Chrome

https://sites.google.com/a/chromium.org/chromedriver/downloads

In [None]:
try:
    selweb.Chrome()
except selcom.exceptions.WebDriverException:
    print('Le driver Chrome n\'est pas installé')

## Utilisation

### Premiers essais

In [None]:
browser = selweb.Firefox()

**browser** nous servira de **poignée** (handle en anglais) pour interagir avec la fenêtre qui s'est ouverte.

In [None]:
browser

In [None]:
browser.get('https://duckduckgo.com')

In [None]:
search_form = browser.find_element_by_id('search_form_input_homepage')

In [None]:
search_form

In [None]:
search_form.send_keys('Python')

In [None]:
search_form.submit()

In [None]:
resultats = browser.find_elements_by_class_name('result')
premier_resultat = resultats[0].text

In [None]:
premier_resultat

In [None]:
browser.close()

### Le headless

On parle de **headless** pour désigner l'exécution du navigateur sans fenêtre. C'est plus pratique pour l'automatisation

In [None]:
import time

In [None]:
opts = selweb.firefox.options.Options()
opts.headless = True

browser = selweb.Firefox(options=opts)

browser.get('https://duckduckgo.com')

search_form = browser.find_element_by_id('search_form_input_homepage')
search_form.send_keys('Python')

search_form.submit()
time.sleep(1)

resultats = browser.find_elements_by_class_name('result')
premier_resultat = resultats[0].text

browser.close()

In [None]:
premier_resultat

### Scraper grâce à Selenium

In [None]:
browser = selweb.Firefox()
browser.get('https://www.pagesjaunes.fr/recherche/creteil-94/epicerie')

In [None]:
names = browser.find_elements_by_xpath('//a[@class="denomination-links pj-link"]')
adresses = browser.find_elements_by_xpath('//a[@class="adresse pj-lb pj-link"]')

Pour obtenir le contenu texte

In [None]:
names[0].text

In [None]:
adresses[0].text

Pour obtenir la valeur d'un attribut

In [None]:
adresses[0].get_attribute('data-pjstats')

Pour obtenir le code de la balise

In [None]:
adresses[0].get_attribute('outerHTML')

On peut ensuite traiter et enregistrer les données avec les moyens habituels

In [None]:
import pandas as pd

In [None]:
liste_couples = [(n.text, a.text) for n, a in zip(names, adresses)]

In [None]:
pd.DataFrame(liste_couples)

---

<div class="alert alert-block alert-info"><b>Pour aller plus loin :</b> <a href=https://selenium-python.readthedocs.io/> Doc officielle de Selenium </a></div>