# Web scraping pour construire une carte interactive en HTML

Dans cet exercice, vous allez produire une carte interactive en HTML √† partir de donn√©es extraites d'une page web. Pour ce faire, vous allez :
1. Extraire les donn√©es petinentes d'un tableau pr√©sent√© sur une page web.
2. Les stocker dans un format de donn√©es appropri√©.
3. D√©clarer et param√©trer une carte.
4. Cr√©er une couche de donn√©es pour y ajouter les points dont vous avez obtenu les coordonn√©es.

<small>**Les donn√©es utilis√©es sont issues de la page [*Family: Tai-Kadai*](https://glottolog.org/resource/languoid/id/taik1256) de  [Glottolog](https://glottolog.org/)**\
Glottolog 4.5 edited by Hammarstr√∂m, Harald & Forkel, Robert & Haspelmath, Martin & Bank, Sebastian
is licensed under a [Creative Commons Attribution 4.0 International License](https://creativecommons.org/licenses/by/4.0/).</small>

## R√©cup√©rer les coordonn√©es g√©ographiques des points

**Vous trouverez [sur cette page](https://alxdrdelaporte.github.io/works/taik1256_glottolog_table.html) un tableau de donn√©es correspondant aux langues de la famille Tai-Kadai. Chaque ligne du tableau repr√©sente une langue, qui sera repr√©sent√©e par un point sur la carte.**

### Imports

Vous n'avez pas besoin de modifier la cellule ci-dessous, elle contient les modules et librairies Python dont vous aurez besoin pour cette partie du travail. Pour que le programme fonctionne, n'oubliez pas de l'ex√©cuter quand m√™me ! (`ctrl`+`enter` ou `shift`+`enter`)

In [None]:
# Parsing HTML
from bs4 import BeautifulSoup as soup
# Client web
from urllib.request import urlopen as uReq
import urllib.request

### Fonctions

Vous pouvez √©galement laisser telle quelle la cellule suivante.

Elle comporte 2 fonctions que je vous fournis pour faciliter votre travail :
1. `url_ok()` prend en param√®tre une URL et v√©rifie si elle est accessible. Vous n'aurez pas besoin d'appeler directement cette fonction, elle sera utilis√©e par la fonction `good_soup()`.
2. `good_soup()` prend elle aussi une URL en param√®tre. Si l'URL est accessible (= valid√©e par `url_ok()`), cette fonction renvoie le HTML pars√© que vous pourrez ensuite parcourir.

In [None]:
def url_ok(url):
    """Teste si une URL est accessible, param√®tre = URl (str)"""
    request = urllib.request.Request(url)
    request.get_method = lambda: 'HEAD'
    try:
        urllib.request.urlopen(request)
        return True
    except urllib.request.HTTPError:
        return False
    
    
def good_soup(url):
    """Parser le HTML d'une page web avec bs4, param√®tre = URL (str)"""
    if url_ok(url):
        uClient = uReq(url)
        page_html = uClient.read()
        uClient.close()
        page_soup = soup(page_html, "html.parser")
        return page_soup

**Et maintenant, √† vous de jouer !**

### Extraire le tableau de la page

Afin d'explorer le code source d'une page web, il faut pr√©alablement le parser pour pouvoir l'explorer automatiquement. C'est exactement ce que fait la fonction `good_soup()` pr√©sent√©e ci-dessus.

Appelez cette fonction sur l'URL de la page o√π se trouve le tableau, en associant le r√©sultat √† la variable `ma_soupe`.

In [None]:
# Appeler la fonction good_soup() sur l'URL

S'il n'y a pas d'erreur, appeler `ma_soupe`ou utiliser `print(ma_soupe)` devrait afficher le code source de la page HTML.

In [None]:
ma_soupe

La page ne contient pas que le tableau, il va falloir l'isoler du reste du contenu. 

Pour r√©cup√©rer un √©l√©ment unique sur une page, la librairie `bs4` ([documentation](https://www.crummy.com/software/BeautifulSoup/bs4/doc)) dispose d'une fonction `find()`. Elle peut par exemple prendre en argument :
* L'identifiant de l'√©l√©ment avec la syntaxe `objetbs4.find(id="identifiant_element")`
* Le tag de l'√©l√©ment avec la syntaxe `objetbs4.find("tag")`

Dans le second cas, si plusieurs √©l√©ments de la page comportent le m√™me tag, seul le premier sera r√©cup√©r√©.

Ici, il n'y a qu'un tableau sur la page et celui-ci porte un identifiant, les deux solutions m√®neront au m√™me r√©sultat. Le contenu de votre variable `ma_soupe` √©tant un objet `bs4`, vous pouvez appeler la fonction `find()` dessus.

Dans la cellule ci-dessous, appelez `find()` sur `ma_soupe` en renseignant l'argument de fa√ßon √† obtenir le code HTML correspondant uniquement au tableau. Le r√©sultat sera associ√© √† la variable `tableau`.

In [None]:
# isoler le tableau dans le code source de la page (ma_soupe)

Comme pour le parsing de la page dans son ensemble, vous pouvez v√©rifier qu'il n'y a pas de probl√®me :

In [None]:
# v√©rifier le contenu de la variable tableau

### Filtrer le contenu du tableau

Pour produire une carte, les seules donn√©es indispensables sont les coordonn√©es g√©ographiques de chaque point. Il est n√©cessaire de les r√©cup√©rer.

Par ailleurs, pour que les donn√©es restent interpr√©tables, il serait aussi pr√©f√©rable de conserver une indication de ce √† quoi correspond chaque paire de coordonn√©es, comme le nom et/ou l'identifiant de la langue.

Pour parcourir les lignes du tableau, il n'est pas possible d'utiliser `find("tr")` qui ne renverrait que la premi√®re ligne. Heureusement, la fonction `find_all()` s'utilise de fa√ßon similaire et renvoie tous les √©l√©ments correspondant √† la requ√™te. Le r√©sultat de `find_all()` peut √™tre parcouru avec une boucle `for`.

Compl√©tez la cellule ci-dessous pour afficher chacune des lignes du tableau :

In [None]:
for ligne in XXX:
    print(ligne)

La ligne d'√©tiquettes n'est pas une ligne de donn√©es, nous ne voulons pas la r√©cup√©rer ! Si ce n'est pas fait, adaptez le code de la cellule pr√©c√©dente pour n'afficher que les lignes de donn√©es.

Vous l'aviez peut-√™tre devin√© en appliquant la consigne pr√©c√©dente, mais `find_all()` permet d'appliquer un index √† ses r√©sultats. En reprenant la boucle `for` qui parcourt les lignes du tableau, vous pouvez maintenant afficher uniquement les colonnes pertinentes du tableau.

In [None]:
# n'afficher que les lignes correspondant √† la longitude, la latitude, le nom et l'identifiant

Tr√®s bien, les donn√©es que nous cherchons √† r√©cup√©rer sont bien l√†, mais elles sont encore entour√©es de balises `<td>`. Pour les supprimer, vous pouvez faire appel √† l'attribut `.text` des objets `bs4`, qui correspond au contenu textuel de l'√©l√©ment concern√©. Par exemple :

In [None]:
ma_soupe.find("h1").text

### Stocker les donn√©es dans un dictionnaire

Modifier la boucle `for` en appelant l'attribut `.text` des √©l√©ments permettrait d'afficher le texte dans la console, mais en l'√©tat les donn√©es ne seront enregistr√©es nulle part et il ne sera donc pas possible de les r√©utiliser sans devoir les produire √† nouveau.

La solution qui sera utilis√©e ici est la suivante :
* L'ensemble des lignes sera stock√©e dans une [liste](https://docs.python.org/fr/3.10/tutorial/datastructures.html#more-on-lists).
* Dans cette liste, chacune des lignes correspondra √† un [dictionnaire](https://docs.python.org/fr/3.10/tutorial/datastructures.html#dictionaries), c'est-√†-dire une liste associative.

Une liste vide est initi√©e avec `[]`.

Un dictionnaire vide s'initie avec `{}`. Pour d√©clarer un nouveau dictionnaire en ajoutant directement les donn√©es, la syntaxe est la suivante :

```
nom_dictionnaire = {"cl√©1": valeur1, "cl√©2": valeur2, ..., "cl√©X": valeurX}
```

Pour ajouter des donn√©es √† un dictionnaire d√©j√† cr√©√©, vous pouvez utiliser :


```
nom_dictionnaire["cl√©"]= valeur
```

Voici d√©j√† la liste qui va accueillir l'ensemble des donn√©es.

In [None]:
# Liste qui va accueillir les dictionnaires
donnees = []

Il faut maintenant peupler cette liste, en lui ajoutant un dictionnaire pour chaque ligne extraite du tableau.

En vous aidant de la boucle `for` d√©j√† √©crite et de la [documentation](https://docs.python.org/fr/3.10/tutorial/datastructures.html), compl√©tez la fonction ci-dessous pour obtenir la liste des donn√©es :

In [None]:
for ligne in XXX:
    dico_ligne = {
        # longitude
        # latitude
        # nom
        # identifiant
    }
    # ajouter dico_lignes √† la liste donnees

S'il n'y a pas d'erreur, le d√©but du contenu de `donnees` devrait ressembler √† ceci :

```
[{'longitude': '104.812',
  'latitude': '23.2384',
  'nom': 'Pubiao-Qabiao',
  'id': 'qabi1235'},
 {'longitude': '105.754',
  'latitude': '23.342',
  'nom': 'Yerong-Southern Buyang',
  'id': 'yero1238'},
```

Appelez la liste `donnees` pour v√©rifier qu'il n'y a pas de probl√®me.

In [None]:
# v√©rifier le contenu de donnees

## Construire la repr√©sentation cartographique

### Import de la librairie `folium`

Pour produire une carte au format HTML, vous aurez besoin de la librairie `folium`. Celle-ci est import√©e dans la cellule ci-dessous, qui n'a pas besoin d'√™tre modifi√©e.

In [None]:
import folium

### Mettre en place le fond de carte

Avant de repr√©senter les donn√©es, il faut d'abord d√©clarer et param√©trer la carte, via une instance d'objet `Map` de la librairie `folium`. Vous pouvez √©ventuellement initialiser l'objet sans lui attribuer de param√®tre, en l'associant √† la variable `ma_carte`.

In [None]:
# d√©clarez la variable ma_carte en lui associant une instance d'objet folium Map() sans pr√©ciser de param√®tre 

Pour obtenir un aper√ßu de la carte, il suffit d'appeler la variable dans laquelle elle est stock√©e.

In [None]:
# pr√©visualiser la carte

Vous obtenez bien une carte, mais cette vue par d√©faut n'est ni satisfaisante ni optimale pour visualiser des donn√©es.

D√©clarez √† nouveau votre carte, en renseignant au moins les param√®tres `location` (coordonn√©es par d√©faut), `zoom_start` (zoom par d√©faut, bas√© sur la valeur de `location`), et `tiles` (fond de carte par d√©faut).

Pour ce faire, vous pouvez vous aider de [cette page de la documentation de `folium`](https://python-visualization.github.io/folium/modules.html). Si vous ne lisez pas l'anglais, [cet article de *Tekipaki*](https://tekipaki.hypotheses.org/1225) peut √©galement vous apporter des informations.

In [None]:
# d√©clarer √† nouveau la carte avec ses param√®tres

In [None]:
# pr√©visualiser √† nouveau la carte

C'est (normalement) beaucoup mieux comme √ßa !

### D√©clarer une couche de donn√©es

Il est temps d'ajouter √† la carte les donn√©es extraites du tableau HTML. Voici comment proc√©der :
1. D√©clarer une couche de donn√©es
2. Ajouter les donn√©es √† la couche
3. Ajouter la couche √† la carte

La couche de donn√©es correspond √† un objet de `folium` nomm√© `FeatureGroup`. Vous trouverez ses diff√©rents param√®tres dans [la documentation](https://python-visualization.github.io/folium/modules.html#folium.map.FeatureGroup), mais vous pouvez ici l'initialiser avec seulement le param√®tre `name`. 

Pour pouvoir l'ajouter √† la carte ensuite il est indispensable de stocker les informations de la couche de donn√©es dans une variable ; je vous conseille de la nommer de fa√ßon √† identifier quelles sont les donn√©es correspondantes (vous pouvez par exemple reprendre l'identifiant Glottolog de la famille Tai-Kadai).

In [None]:
# d√©clarer une couche de donn√©es en renseignant le param√®tre name, l'associer √† une variable nomm√©e explicitement

### Reporter les coordonn√©es g√©ographiques dans la couche de donn√©es

La couche de donn√©es existe maintenant dans le sens o√π une instance d'objet `FeatureGroup` a √©t√© cr√©√©, mais elle ne comporte aucune information (√† part son nom), et n'est pas reli√©e √† la carte.

Pour rappel, les coordonn√©es sont actuellement stock√©es dans la variable `donnees`, sous forme d'une liste de dictionnaires.

Celles-ci correspondent √† une s√©rie de points. Dans le code, chaque point correspondra √† un objet `folium.CircleMarker()` qui prendra en param√®tre les coordonn√©es g√©ographiques dans une liste `[latitude, longitude]`. 

Vous disposez en fait d√©j√† de tout ce qu'il vous faut pour ajouter vos points √† la couche de donn√©es.\
Sachant qu'un point est ajout√© avec la fonction `.add_to(nom_de_la_couche_de_donnees)`, d√©commentez et compl√©tez le code de la cellule suivante :

In [None]:
"""
for XXX in XXX:
    folium.CircleMarker(
        location=XXX,
    ).add_to(XXX)
"""

### Ajouter la couche de donn√©es √† la carte

Le plus dur est fait. La fonction `.add_to()` permet √©galement d'ajouter une couche de donn√©es √† une carte, en utilisant la syntaxe `nom_de_la_couche_de_donnees.add_to(nom_de_la_carte)`.

In [None]:
# ajouter la couche de donn√©es √† la carte

F√©licitations, vous avez termin√© ! üéâ 

Les point appara√Ætront maintenant lorsque vous visualiserez votre carte. Vous pouvez admirer le r√©sultat de votre travail en appelant la variable correspondant √† la carte.

In [None]:
# visualiser la carte

## Aller plus loin

Si vous voulez continuer √† vous amuser avec les repr√©sentations cartographiques produite par `folium`, voici quelques suggestions sur ce que vous pouvez essayer :

* Exporter la carte dans un fichier HTML
* Tracer d'autres s√©ries de points ou diviser les points en plusieurs s√©ries
* Tracer un ou plusieurs polygones
* Capturer l'image de la carte dans un fichier PNG
* Mettre en place un *layer control*
* D√©finir des fonctions pour r√©p√©ter ais√©ment les traitements

Les diff√©rents [articles consacr√©s √† la cartographie de donn√©es linguistiques sur *Tekipaki*] pourront vous √™tre utiles si besoin.

---

<a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/"><img alt="Licence Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/4.0/88x31.png" /></a><br /><span xmlns:dct="http://purl.org/dc/terms/" href="http://purl.org/dc/dcmitype/InteractiveResource" property="dct:title" rel="dct:type">LTTAC_2021_TP_cartographie_linguistique</span> de <a xmlns:cc="http://creativecommons.org/ns#" href="https://tekipaki.hypotheses.org/" property="cc:attributionName" rel="cc:attributionURL">Alexander Delaporte</a> est mis √† disposition selon les termes de la <a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/">licence Creative Commons Attribution -  Partage dans les M√™mes Conditions 4.0 International</a>.<br />Code source disponible : <a xmlns:dct="http://purl.org/dc/terms/" href="https://github.com/alxdrdelaporte/LTTAC_2021_TP" rel="dct:source">https://github.com/alxdrdelaporte/LTTAC_2021_TP</a>.