# <center> Formation à la manipulation de données textiles en Python </center>
## <center>  Jean-Philippe Magué (ENS de Lyon) <br/> Julien Velcin (Université Lumière Lyon 2) <br/> Orline Poulat (Maison des Sciences de l'Homme - Lyon Saint Etienne) <br/> Alioscha Massein  (Maison des Sciences de l'Homme - Lyon Saint Etienne)</center> 

# 0. Préambule
## 0.1 Les notebooks Jupyter
Ceci est un *[notebook Jupyter](https://jupyter-notebook.readthedocs.io/en/stable/index.html)*. C'est un document, ou plus précisément une application web, permettant d'exécuter du code Python dans un navigateur web. Les notebooks présentent de nombreux intérêts : interactivité, possiblité de mélanger code et texte (et images), possibilité d'exécuter le code sur une machine distante...

Un notebook est une succession de *cellules*. Il y a différents types de cellules, notamment texte (et même [Markdown](https://jupyter-notebook.readthedocs.io/en/stable/examples/Notebook/Working%20With%20Markdown%20Cells.html)) et code. 

Vous êtes en train de lire une cellule Markdown : si vous double-cliquez, vous pourrez l'éditer.

La cellule suivante est une cellule de code : si vous tapez du code dedans, vous pourrez l'exécuter. 

In [2]:
2+2

4

L'exécution d'ne cellule de code affiche toujours le résultat de la dernière instruction. 

## 0.2 Programme de la journée
![](images/img1.png)

# 1. Récupération de données en ligne
Nous allons récupérer 2 types d'information sur le site de la MSH :
* La [liste](https://www.msh-lse.fr/laboratoires/) des tous les laboratoires, avec pour chacun son nom, son acronnyme, son code, sese disciplines et l'adresse de la page le décrivant
* Pour chaque laboratoire, le *Projet scientifique* et les *Compétences, activités valorisables*

Pour cela, nous allons nous appuyer sur 2 packages Python : [urlib](https://docs.python.org/fr/3/library/urllib.html) qui permet, entre autres, de faire des requêtes HTTP et [Beautiful Soup](https://beautiful-soup-4.readthedocs.io/en/latest/) qui permet de parser et d'extraire des partie de documents HTML (et XML)

In [3]:
import requests
from bs4 import BeautifulSoup

## Exemple

In [4]:
url='http://perso.ens-lyon.fr/jean-philippe.mague/other/cours/2021-2022/IXXI/manipText/exemple.html' 
html=requests.get(url).text
#c'est le document html utilisé comme exemple dans la documentation de Beautiful Soup

In [5]:
print(html)#html est une chaîne de caractères

<!DOCTYPE html>
<html lang="fr" >
    <head>
        <title>The Dormouse's story</title>
    </head>
    <body>
        <p class="title"><b>The Dormouse's story</b></p>

        <p class="story">Once upon a time there were three little sisters; and their names were
        <a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
        <a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
        <a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
        and they lived at the bottom of a well.</p>

        <p class="story">...</p>
    </body>
</html>



In [6]:
soup = BeautifulSoup(html, 'html.parser')

In [26]:
print(soup) #soup est un objet complexe qui permet de naviguer dans l'arbre HTML

<!--<!DOCTYPE html-->
<html lang="fr">
<head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
</body>
</html>



In [27]:
soup.title #le premier élément <title>

<title>The Dormouse's story</title>

In [28]:
soup.title.string

"The Dormouse's story"

In [33]:
soup.a #le premier élément <a>

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

In [35]:
print(soup.a['class'])# On peut accéder aux attributs d'un élément
print(soup.a['href'])

['sister']
http://example.com/elsie


In [31]:
soup.find_all('a') #on peut rechercher tous les éléments à partir de leur nom

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [40]:
soup.find_all('p',{"class": "story"}) #on peut également imposer des contraintes sur leurs attributs

[<p class="story">Once upon a time there were three little sisters; and their names were
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
 and they lived at the bottom of a well.</p>,
 <p class="story">...</p>]

## Liste des laboratoires

La liste des laboratoires est disponinble [ici](https://www.msh-lse.fr/laboratoires/). 
### Exercice 1.1
Comment récupérer le code HTML de la page ?

La structure de la page est la suivante :

![](images/img2.png)

### Exercice 1.2
Comment récupérer les cartes qui représentent chaque laboratoire ?

### Exercice 1.3
Etant donnée un carte représentant un laboratoire, comment récupérer son nom, son acronnyme, son code, sese disciplines et l'adresse de la page le décrivant ?

### Exercice 1.4

On va représenter l'ensemble des informations sur tous les labos comme un dictionnaire de dictionnaires : 

```python
{
  "ARAR": {
    "nom": "Arch\u00e9ologie et Arch\u00e9om\u00e9trie",
    "code": "UMR 5138",
    "disciplines": "archeology,economy,history",
    "url": "https://www.msh-lse.fr/laboratoires/arar/"
  },
  "ARCHEORIENT": {
    "nom": "Environnements et soci\u00e9t\u00e9s de l'Orient ancien",
    "code": "UMR 5133",
    "disciplines": "archeology,geography,history",
    "url": "https://www.msh-lse.fr/laboratoires/archeorient/"
  },

```

### Sauvegarde des données

C'est le bon moment pour enregistrer les données que nous venons de récupérer et de structurer. Le format *json* est particulièrement bien adapté. Sous Windows, si l'on souhaite que le fichier soit encodé en Unicode (ce qui est hautement conseillé), on est obligé de préciser explicitement. Sous Mac et Linux, c'est l'encodage par défaut. 

In [2]:
import json

In [65]:
with open('labos.json', 'w', encoding='utf8') as f:
    f.write(json.dumps(labos))
    #f.write(json.dumps(labos, indent=4)) #On peut préférer cette version si l'on souhaite que le fichier soit lisiblement formaté.

## Textes de chaque labo

In [10]:
# Si besoin, on peut recharger les données
with open('labos.json', encoding='utf8') as f:
    labos = json.loads(f.read())

Le principe pour aller récupérer le projet scientifique et les activités valorisables de chaque labo est le même que ce dessus : on récupère le code HTML disponible à l'URL de la page de description de chaque labo, on parse ce code HTML avec Beautiful Soup et on va chercher les informations pertinentes. 

### Exercice 1.5
Compléter la cellule ci-dessous

In [None]:
from tqdm.notebook import tqdm #tqdm est bibliothèque qui permet d'avoir une barre de progression 

projets={}
compétences={}
for labo in tqdm(labos):
    html=urllib.request.urlopen(labos[labo]['url']).read()
    soup = BeautifulSoup(html, 'html.parser')
    try:
        ...
        projets[labo]=...
    except Exception as e:
        print(f"Impossible de récupérer le projet scientifique du laboratoire {labo} : {e}")
    try:    
        ...
        compétences[labo]=...
    except Exception as e:
        print(f"Impossible de récupérer les compétences du laboratoire {labo} : {e}")

### Sauvegarde des données
On veut enregistrer les données que l'onn vient de récupérer. On souhaite la structure de fichiers suivante : 
```
.
├── labos.json
├── labos/
│   ├──ARAR/    
│   │  ├── projet_scientifique.txt
│   │  ├── Compétences_activités_valorisables.txt
│   ├──ARCHEORIENT/   
│   │  ├── projet_scientifique.txt
│   │  ├── Compétences_activités_valorisables.txt
...
```
Python crée automatiquement les fichiers inexistants lorsqu'on les ouvre (en mode écriture), autant il ne crée par les dossiers : il faut le faire explicitement. Le package [pathlib](https://docs.python.org/3/library/pathlib.html) permet ce genre de manipulation.

In [3]:
from pathlib import Path

In [24]:
Path('labos').mkdir(exist_ok=True)
for labo in projets:
    Path(f'labos/{labo}').mkdir(exist_ok=True)
    with open(f'labos/{labo}/projet_scientifique.txt', 'w', encoding='utf8') as f:
        f.write(projets[labo])
for labo in compétences:
    Path(f'labos/{labo}').mkdir(exist_ok=True)
    with open(f'labos/{labo}/Compétences_activités_valorisables.txt', 'w', encoding='utf8') as f:
        f.write(compétences[labo])        

  0%|          | 0/50 [00:00<?, ?it/s]

  0%|          | 0/38 [00:00<?, ?it/s]