# Exemple de web scrapping avec python
## Récupérer les images du webcomics xkcd

### 0. identifier les composants d'une page statique
`https://xkcd.com/773/`
#### 0.1 ouvrir la page dans un browser correct (firefox, par exemple)
#### 0.2 afficher le code source de la page
Sur firefox, clic droit et sélectionner "Code source de la page"
#### 0.3 utiliser l'inspecteur
sur firefox : Outils > Développement web > Inspecteur
#### 0.4 quelles sont vos remarque sur l'organisation de la page ?
#### 0.5 identifier les informations qui vont vous permettre de trouver l'image

### 1. utiser le module `requests`
Ce module nous permet de récupérer les informations d'une page web sous forme d'objet python  
Documentation : http://requests-fr.readthedocs.io/en/latest/

#### 1.0 import
Comme toujours, on commencer par importer le module dont on a besoin

In [21]:
import requests

#### 1.1 se renseigner sur le module
Pour avoir de l'aide dans un environnement python interactif  
```python
requests?
```

In [22]:
requests?

#### 1.2 recuperer une page avec un URL
Un URL (Uniform Ressource Locator) est une chaîne de caractères.  
Il suffit de faire comme dans l'exemple de la documentation.  
Vous pouvez tout aussi bien utiliser la petite fonction `download` que Constance vous a présenté.

In [23]:
url = 'https://xkcd.com/773'
page = requests.get(url)

In [None]:
page.

#### 1.3 se renseigner sur l'objet récupéré
Puis, pour savoir un peu ce qu'on peut faire avec cet objet, dans un environnement python interactif :    
```python
page.
```

In [24]:
page.encoding

'ISO-8859-1'

In [25]:
page.headers

{'Content-Length': '2943', 'Content-Type': 'text/html', 'Connection': 'keep-alive', 'Vary': 'Accept-Encoding', 'X-Served-By': 'cache-cdg8729-CDG', 'Content-Encoding': 'gzip', 'Expires': 'Tue, 07 Feb 2017 18:15:10 GMT', 'X-Cache-Hits': '0', 'Server': 'nginx', 'Cache-Control': 'max-age=300', 'Date': 'Tue, 07 Feb 2017 18:10:10 GMT', 'Accept-Ranges': 'bytes', 'X-Timer': 'S1486491010.144463,VS0,VE93', 'Last-Modified': 'Mon, 06 Feb 2017 15:54:19 GMT', 'X-Cache': 'MISS', 'Via': '1.1 varnish', 'Age': '0'}

### 2. utiliser le module `Beautiful Soup`
Documentation : https://www.crummy.com/software/BeautifulSoup/bs4/doc/  
Voir aussi : https://sametmax.com/parser-du-html-avec-beautifulsoup/

#### 2.0 Import et informations

In [26]:
from bs4 import BeautifulSoup

In [27]:
BeautifulSoup?

#### 2.1 Parser le contenu d'une page web
Comme on ne sait pas forcément quel parseur utiliser, on va profiter des avertissements de python :

In [28]:
soupe = BeautifulSoup(page.content)



 BeautifulSoup([your markup])

to this:

 BeautifulSoup([your markup], "lxml")

  markup_type=markup_type))


Et voilà !

In [29]:
soupe = BeautifulSoup(page.content, 'lxml')

#### 2.2 S'informer sur notre objet

In [33]:
soupe.

SyntaxError: invalid syntax (<ipython-input-33-2e36a0e25eea>, line 1)

In [34]:
titre = soupe.find("title")
print(titre)

<title>xkcd: University Website</title>


In [35]:
titre.

SyntaxError: invalid syntax (<ipython-input-35-daf33e6582f0>, line 1)

In [36]:
titre.get_text()

'xkcd: University Website'

In [37]:
print(soupe.prettify())

<!DOCTYPE html>
<html>
 <head>
  <script>
   (function(i,s,o,g,r,a,m){i['GoogleAnalyticsObject']=r;i[r]=i[r]||function(){
  (i[r].q=i[r].q||[]).push(arguments)},i[r].l=1*new Date();a=s.createElement(o),
  m=s.getElementsByTagName(o)[0];a.async=1;a.src=g;m.parentNode.insertBefore(a,m)
  })(window,document,'script','https://www.google-analytics.com/analytics.js','ga');

  ga('create', 'UA-25700708-7', 'auto');
  ga('send', 'pageview');
  </script>
  <link href="/s/b0dcca.css" rel="stylesheet" title="Default" type="text/css"/>
  <title>
   xkcd: University Website
  </title>
  <meta content="IE=edge" http-equiv="X-UA-Compatible"/>
  <link href="/s/919f27.ico" rel="shortcut icon" type="image/x-icon"/>
  <link href="/s/919f27.ico" rel="icon" type="image/x-icon"/>
  <link href="/atom.xml" rel="alternate" title="Atom 1.0" type="application/atom+xml"/>
  <link href="/rss.xml" rel="alternate" title="RSS 2.0" type="application/rss+xml"/>
  <script async="" src="/s/b66ed7.js" type="text/javascrip

### 3. Identifier ce qui nous intéresse dans tout ça

#### 3.0 comment pourrait-on logiquement récupérer l'image ?
Allons-y simplement : il y a une balise HTML bien connu : **`img`**

In [38]:
images = soupe.find('img')

In [39]:
images

<img alt="xkcd.com logo" height="83" src="/s/0b7742.png" width="185"/>

Ah, on n'a que la première image.  
Donc astuce :

In [40]:
images = soupe.find_all('img')

In [41]:
images

[<img alt="xkcd.com logo" height="83" src="/s/0b7742.png" width="185"/>,
 <img alt="University Website" src="//imgs.xkcd.com/comics/university_website.png" title="People go to the website because they can't wait for the next alumni magazine, right? What do you mean, you want a campus map? One of our students made one as a CS class project back in '01!  You can click to zoom and everything!"/>,
 <img alt="Selected Comics" height="100" src="//imgs.xkcd.com/s/a899e84.jpg" usemap="#comicmap" width="520"/>]

On pourrait travailler à partir de ça, mais on va faire mieux, en utilisant nos connaissance acquises il y a un instant.

#### 3.1 travailler à partir de la structure de la page web

In [42]:
paragraphes = soupe.find('div')
print(paragraphes)

<div id="topContainer">
<div id="topLeft">
<ul>
<li><a href="/archive">Archive</a></li>
<li><a href="http://what-if.xkcd.com">What If?</a></li>
<li><a href="http://blag.xkcd.com">Blag</a></li>
<li><a href="http://store.xkcd.com/">Store</a></li>
<li><a href="/about" rel="author">About</a></li>
</ul>
</div>
<div id="topRight">
<div id="masthead">
<span><a href="/"><img alt="xkcd.com logo" height="83" src="/s/0b7742.png" width="185"/></a></span>
<span id="slogan">A webcomic of romance,<br/> sarcasm, math, and language.</span>
</div>
<div id="news">
There are <a href="https://store.xkcd.com/collections/featured">four new shirts</a> in <a href="https://store.xkcd.com/">the xkcd store</a>,<br/>
along with <a href="https://store.xkcd.com/collections/posters">posters</a> and <a href="https://store.xkcd.com/collections/everything">lots of other stuff</a>!

</div>
</div>
<div class="bg box" id="bgLeft"></div>
<div class="bg box" id="bgRight"></div>
</div>


#### 3.2 creuser l'information
On peut utiliser non seulement les balises mais aussi plus que ça :

In [59]:
comic = soupe.find('div', id='comic')
print(comic)

<div id="comic">
<img alt="University Website" src="//imgs.xkcd.com/comics/university_website.png" title="People go to the website because they can't wait for the next alumni magazine, right? What do you mean, you want a campus map? One of our students made one as a CS class project back in '01!  You can click to zoom and everything!"/>
</div>


Il faut encore aller un cran plus loin

In [44]:
image = comic.find('img')

In [45]:
image

<img alt="University Website" src="//imgs.xkcd.com/comics/university_website.png" title="People go to the website because they can't wait for the next alumni magazine, right? What do you mean, you want a campus map? One of our students made one as a CS class project back in '01!  You can click to zoom and everything!"/>

In [46]:
print(image.get('src'))

//imgs.xkcd.com/comics/university_website.png


#### 3.3 préparer la récupération du fichier

Pour pouvoir récupérer l'information qui nous intéresse, ici un fichier image, comme tout à l'heure, il faut pouvoir la localiser sur internet.  
On a bien quelque chose qui ressemble a un URL, mais pas encore tout à fait.  
Comme les URL sont des chaînes de caractère, on a depuis l'**atelier OpenGeek \#03 "textmining avec python"** tous les outils en main pour s'en sortir

In [47]:
adresse_pre = image.get('src')

In [48]:
adresse = 'https://' + adresse_pre[2:]
print(adresse)

https://imgs.xkcd.com/comics/university_website.png


In [49]:
nom_image = adresse.split('/')[-1]

Maintenant il va s'agir d'enregistrer cette image  
Nous allons pouvoir mettre à profit les enseignements de l'**atelier OpenGeek \#01 "Ordinateur, programme, fichier, terminal... Kesako ?"** avec le module `os` pour la gestion du systeme de fichier.

In [60]:
import os

In [61]:
print(os.getcwd())

/Users/og/Documents/opengeek/webmining


In [62]:
path = os.path.join( '/Users/og/Documents', 'xkcd')
print(path)

/Users/og/Documents/xkcd


In [63]:
if not os.path.exists(path):
    os.mkdir(path)

In [64]:
fichier = os.path.join(path, '773'.zfill(4) + '-' + nom_image)
print(fichier)

/Users/og/Documents/xkcd/0773-university_website.png


In [65]:
fichier

'/Users/og/Documents/xkcd/0773-university_website.png'

In [66]:
import urllib.request

In [67]:
urllib.request.urlretrieve(adresse, fichier)

('/Users/og/Documents/xkcd/0773-university_website.png',
 <http.client.HTTPMessage at 0x109cd1470>)

Vérifiez que vous avez bien sauvegardé l'image là où vous le souhaitiez.

### 4. Nagivation entre différentes pages

#### 4.0 Essayer de récupérer une information relative à l'URL de la page du comics suivant

### 5. Récupération de plusieurs pages

#### 5.0 Utiliser une boucle pour automatiser tout ça