# Introduction au webscraping

**Objectif** récupérer les informations sur la composition du *CAC40* à partir de la  [fiche wikipédia](https://fr.wikipedia.org/wiki/CAC_40)

In [1]:
from requests import get

In [2]:
from typing import List, Tuple

In [3]:
from dataclasses import dataclass

In [4]:
import re

In [5]:
requete = get("https://fr.wikipedia.org/wiki/CAC_40")

In [6]:
type(requete)

requests.models.Response

In [7]:
dir(requete)

['__attrs__',
 '__bool__',
 '__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__enter__',
 '__eq__',
 '__exit__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__nonzero__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__setstate__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 '_content',
 '_content_consumed',
 '_next',
 'apparent_encoding',
 'close',
 'connection',
 'content',
 'cookies',
 'elapsed',
 'encoding',
 'headers',
 'history',
 'is_permanent_redirect',
 'is_redirect',
 'iter_content',
 'iter_lines',
 'json',
 'links',
 'next',
 'ok',
 'raise_for_status',
 'raw',
 'reason',
 'request',
 'status_code',
 'text',
 'url']

**REMARQUE** code 200 tout s'est bien passé.

In [8]:
requete.status_code

200

In [9]:
requete.encoding

'UTF-8'

In [10]:
requete.apparent_encoding

'utf-8'

In [11]:
type(requete.content)

bytes

In [12]:
type(requete.text)

str

**REMARQUE** ici l'encodage (`utf8`) a été géré automatiquement, on peut devoir le faire soit même en utilisant `encode` de `bytes` vers `str`!

In [13]:
contenu = requete.text

In [14]:
debut = contenu.find("<table class")
print(debut)

97245


In [15]:
print(contenu[debut: debut+1000])

<table class="wikitable sortable">

<tbody><tr>
<th width="15%">Société
</th>
<th width="20%">Secteur
</th>
<th width="9%" data-sort-type="number">Poids indiciel (en&#160;%)<sup id="cite_ref-59" class="reference"><a href="#cite_note-59"><span class="cite_crochet">[</span>27<span class="cite_crochet">]</span></a></sup>
</th>
<th data-sort-type="number" width="9%"><a href="/wiki/Chiffre_d%27affaires" title="Chiffre d&#39;affaires">Chiffre d'affaires</a> 2020 (en milliards d'euros)<sup id="cite_ref-60" class="reference"><a href="#cite_note-60"><span class="cite_crochet">[</span>28<span class="cite_crochet">]</span></a></sup>
</th>
<th data-sort-type="number" width="9%"><a href="/wiki/Capitalisation_boursi%C3%A8re" title="Capitalisation boursière">Capitalisation boursière</a> (en milliards d'euros)<sup id="cite_ref-61" class="reference"><a href="#cite_note-61"><span class="cite_crochet">[</span>29<span class="cite_crochet">]</span></a></sup>
</th>
<th width="9%">Entrée dans l'indice
</th><

In [16]:
auxiliaire = contenu.find("Worldline</a>", debut)
fin = contenu.find("</table>", auxiliaire) + 7
print(fin)

125064


In [17]:
print(contenu[fin-100: fin+100])

ass="cite_crochet">[</span>30<span class="cite_crochet">]</span></a></sup>
</td></tr></tbody></table>
<div style="clear:both;"></div>
<h3><span class="mw-headline" id="Historique_de_la_composition">Hi


In [18]:
table = contenu[debut:fin+1]
print(table)

<table class="wikitable sortable">

<tbody><tr>
<th width="15%">Société
</th>
<th width="20%">Secteur
</th>
<th width="9%" data-sort-type="number">Poids indiciel (en&#160;%)<sup id="cite_ref-59" class="reference"><a href="#cite_note-59"><span class="cite_crochet">[</span>27<span class="cite_crochet">]</span></a></sup>
</th>
<th data-sort-type="number" width="9%"><a href="/wiki/Chiffre_d%27affaires" title="Chiffre d&#39;affaires">Chiffre d'affaires</a> 2020 (en milliards d'euros)<sup id="cite_ref-60" class="reference"><a href="#cite_note-60"><span class="cite_crochet">[</span>28<span class="cite_crochet">]</span></a></sup>
</th>
<th data-sort-type="number" width="9%"><a href="/wiki/Capitalisation_boursi%C3%A8re" title="Capitalisation boursière">Capitalisation boursière</a> (en milliards d'euros)<sup id="cite_ref-61" class="reference"><a href="#cite_note-61"><span class="cite_crochet">[</span>29<span class="cite_crochet">]</span></a></sup>
</th>
<th width="9%">Entrée dans l'indice
</th><

**EXERCICE** Coder une fonction prenant la table et renvoyant la liste des lignes de la table. (les lignes commencent par la balise `<tr>` et finissent pas `</tr>`)

In [19]:
def decoupe_lignes(table: str) -> List[str]:
    lignes = list()
    fin = 0
    while True:
        debut = table.find("<tr>", fin) + 4
        if debut == 3:
            break
        fin = table.find("</tr>", debut)
        lignes.append(table[debut:fin])
    return lignes


In [20]:
entree_test = "<table> blabla <tr> première ligne</tr>\n<tr>deuxième ligne</tr>\n</table>"
sortie_test = [
    " première ligne",
    "deuxième ligne"
]

In [21]:
assert sortie_test == decoupe_lignes(entree_test)

In [22]:
lignes = decoupe_lignes(table)

In [23]:
len(lignes)

41

In [24]:
header, *lignes = lignes

In [25]:
print(lignes[0])


<td><a href="/wiki/Air_liquide" title="Air liquide">Air liquide</a>
</td>
<td><a href="/wiki/Gaz_industriel" title="Gaz industriel">Gaz industriel</a>
</td>
<td>3,50
</td>
<td>20,49
</td>
<td>66,56
</td>
<td><span data-sort-value="19871231 !"></span><time class="nowrap date-lien" datetime="1987-12-31" data-sort-value="1987-12-31"><a href="/wiki/31_d%C3%A9cembre" title="31 décembre">31</a> <a href="/wiki/D%C3%A9cembre_1987" title="Décembre 1987">décembre</a> <a href="/wiki/1987" title="1987">1987</a></time>
</td>


**EXERCICE** coder une fonction qui extrait les éléments des différentes colonnes pour une ligne donnée.

In [48]:
def decoupe_colonnes(ligne: str) -> List[str]:
    colonnes = list()
    fin = 0
    while True:
        debut = ligne.find("<td>", fin) + 4
        if debut == 3:
            break
        fin = ligne.find("</td>", debut)
        colonnes.append(ligne[debut:fin].strip())
    return colonnes

In [51]:
entree = "<td>blabla 12\n</td>...<td>deuxième  </td>"
sortie = [
    "blabla 12",
    "deuxième"
]

In [52]:
assert sortie == decoupe_colonnes(entree)

In [53]:
table2d = [decoupe_colonnes(ligne) for ligne in lignes]

In [54]:
table2d[0]

['<a href="/wiki/Air_liquide" title="Air liquide">Air liquide</a>',
 '<a href="/wiki/Gaz_industriel" title="Gaz industriel">Gaz industriel</a>',
 '3,50',
 '20,49',
 '66,56',
 '<span data-sort-value="19871231 !"></span><time class="nowrap date-lien" datetime="1987-12-31" data-sort-value="1987-12-31"><a href="/wiki/31_d%C3%A9cembre" title="31 décembre">31</a> <a href="/wiki/D%C3%A9cembre_1987" title="Décembre 1987">décembre</a> <a href="/wiki/1987" title="1987">1987</a></time>']

**EXERCICE** En s'inspirant du contenu de `header`, extraire une information complètement structurée de la table.

## Apparté sur les expressions régulières

In [55]:
chaine = "<td> blablabl <a>contenu</a> </td>"

In [56]:
motif = re.compile("<a.*</a>")

In [57]:
motif.match("<a>blabla</a><a>reblabla</a>")

<re.Match object; span=(0, 28), match='<a>blabla</a><a>reblabla</a>'>

In [58]:
motif.findall("<a>blabla</a><a>reblabla</a>")

['<a>blabla</a><a>reblabla</a>']

In [59]:
motif_petit = re.compile("<a.*?</a>")

In [60]:
motif_petit.findall("<a>blabla</a><a>reblabla</a>")

['<a>blabla</a>', '<a>reblabla</a>']

In [61]:
motif.findall(header)

['<a href="#cite_note-59"><span class="cite_crochet">[</span>27<span class="cite_crochet">]</span></a>',
 '<a href="/wiki/Chiffre_d%27affaires" title="Chiffre d&#39;affaires">Chiffre d\'affaires</a> 2020 (en milliards d\'euros)<sup id="cite_ref-60" class="reference"><a href="#cite_note-60"><span class="cite_crochet">[</span>28<span class="cite_crochet">]</span></a>',
 '<a href="/wiki/Capitalisation_boursi%C3%A8re" title="Capitalisation boursière">Capitalisation boursière</a> (en milliards d\'euros)<sup id="cite_ref-61" class="reference"><a href="#cite_note-61"><span class="cite_crochet">[</span>29<span class="cite_crochet">]</span></a>']

## Retour à l'exercice

In [62]:
@dataclass
class Entreprise:
    nom: str
    lien: str
    secteur: str
    poids_indiciel: float
    chiffre_affaire_euros: int
    capitalisation_euros: int
    date_entree: Tuple[int, int, int]

In [63]:
def structure(ligne: str) -> Entreprise:
    ...

In [64]:
for colonne in table2d[0]:
    print(repr(colonne))

'<a href="/wiki/Air_liquide" title="Air liquide">Air liquide</a>'
'<a href="/wiki/Gaz_industriel" title="Gaz industriel">Gaz industriel</a>'
'3,50'
'20,49'
'66,56'
'<span data-sort-value="19871231 !"></span><time class="nowrap date-lien" datetime="1987-12-31" data-sort-value="1987-12-31"><a href="/wiki/31_d%C3%A9cembre" title="31 décembre">31</a> <a href="/wiki/D%C3%A9cembre_1987" title="Décembre 1987">décembre</a> <a href="/wiki/1987" title="1987">1987</a></time>'


In [65]:
nom, secteur, pi, ca, cb, en = table2d[0]

In [42]:
motif_nom = re.compile("<a href=\"(.*?)\".*?>(.*?)</a>")

In [43]:
resultat = motif_nom.match(nom)

In [44]:
resultat.groups()

('/wiki/Air_liquide', 'Air liquide')

In [66]:
motif_secteur = re.compile("<a href=\".*?\".*?>(.*?)</a>")

In [68]:
motif_secteur.match(secteur).groups()

('Gaz industriel',)

In [71]:
motif_nombre = re.compile("([0-9]+),([0-9]+)")

In [72]:
motif_nombre.match(pi).groups()

('3', '50')

In [73]:
motif_nombre.match(ca).groups()

('20', '49')

In [74]:
motif_nombre.match(cb).groups()

('66', '56')

In [75]:
motif_introduction = re.compile(".*datetime=\"([0-9]+)-([0-9]+)-([0-9]+)\".*")

In [77]:
motif_introduction.match(en).groups()

('1987', '12', '31')