# TEI Conference 2019 #
## Préambule ##

Avant de proposer une analyse numérique des thèmes et sujets des Conférences TEI de l'année 2019, nous allons dans un premier temps télécharger toutes les données depuis le site web dédié, les trier et les stocker en local.

Ensuite nous normaliserons les textes, pour enfin les analyser.



## Etape 1 : Le Téléchargement ##

### Les packages ###




Il faut lancer la cellule ci-dessous à chaque fois.

In [1]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
import csv
import json
import os
from tqdm import tqdm
#Créer un certificat SSL pour sécuriser l'accès au site internet.
import ssl 

ssl._create_default_https_context = ssl._create_unverified_context 

### La récupération des liens internes ###

Le site de la Conférence TEI 2019 a stocké les abstracts d'une manière particulière : Une page web renvoie grâce à des liens internes aux différents abstracts encodés en TEI. Ainsi, il faut grâce à la librairie BeautifulSoup parser le code HTML de la page, relever tous les liens internes vers les abstracts en XML, leur adjoindre l'adresse du site web pour obtenir l'URL et les stocker ensuite dans un document JSON en cache. 

In [2]:
content = urlopen('https://gams.uni-graz.at/context:tei2019.papers?context=context:tei2019.papers')
HTML = content.read()

soup = BeautifulSoup(HTML, 'html.parser') # Je parse le code HTML de la page web ci-dessus pour pouvoir le traiter avec Python
listLink = [] # J'instancie une liste dans laquelle j'ajouterai tous les liens internes.
print("Saisie des liens")
for link in tqdm(soup.find_all('a')): # Je cherche dans le code HTML toutes les balises <a>, et cherche la valeur des
    # attributs href, notamment en les triant sur la base d'un motif présent dans tous les liens internes concernés.
    if 'TEI_SOURCE' in link.get('href'):
        lien = link.get('href')
        listLink.append(lien)

# Je crée le dossier cache.
if not os.path.exists("./cache2019"):
    os.makedirs("./cache2019")
if not os.path.exists("./cache2019/cacheXML"):
    os.makedirs("./cache2019/cacheXML")

 #Dans le cache, je crée un fichier JSON dans lequel je stocke les URL des abstracts.
with open('./cache2019/liste_des_liens_internet.json', 'w') as liste_des_liens_internet:
    i = 0 # Je crée un compteur qui servira de clés 
    liste_lien = {} #Je stocke les URL dans un dictionnaire que je vais dump ensuite directement dans le JSON
    print("Stockage des liens")
    for linky in tqdm(listLink):
        lien = 'https://gams.uni-graz.at' + linky #Je rajoute l'adresse du site au lien interne
        liste_lien[i] = lien
        i += 1
    json.dump(liste_lien, liste_des_liens_internet)


100%|██████████| 110/110 [00:00<00:00, 31281.68it/s]
100%|██████████| 46/46 [00:00<00:00, 74579.82it/s]

Saisie des liens
Stockage des liens





### La récupération des contenus ###

Ensuite, on utilise la liste des URL stockées dans le JSON pour télécharger les abstracts dans un dictionnaire qui a en clé un entier.

In [3]:
i = 0
with open('./cache2019/liste_des_liens_internet.json', 'r') as liste_des_liens_internet:
    dicoXML = {}
    liste_liens_lisible = liste_des_liens_internet.read()
    dico_liens = json.loads(liste_liens_lisible)
    print("Téléchargement en cours...")
    for link in tqdm(dico_liens):
        lien = dico_liens[link]
        XML = urlopen(lien).read()
        XML = XML.decode("UTF-8")
        dicoXML[i] = XML
        print("téléchargement accompli : {0}/46".format(i))
        i += 1
    print("Téléchargement terminé.")


  0%|          | 0/46 [00:00<?, ?it/s]

Téléchargement en cours...


  2%|▏         | 1/46 [00:00<00:43,  1.04it/s]

téléchargement accompli : 0/46


  4%|▍         | 2/46 [00:01<00:42,  1.03it/s]

téléchargement accompli : 1/46


  7%|▋         | 3/46 [00:02<00:41,  1.03it/s]

téléchargement accompli : 2/46


  9%|▊         | 4/46 [00:04<00:46,  1.11s/it]

téléchargement accompli : 3/46


 11%|█         | 5/46 [00:05<00:43,  1.07s/it]

téléchargement accompli : 4/46


 13%|█▎        | 6/46 [00:06<00:42,  1.05s/it]

téléchargement accompli : 5/46


 15%|█▌        | 7/46 [00:07<00:40,  1.04s/it]

téléchargement accompli : 6/46


 17%|█▋        | 8/46 [00:08<00:38,  1.01s/it]

téléchargement accompli : 7/46


 20%|█▉        | 9/46 [00:09<00:37,  1.01s/it]

téléchargement accompli : 8/46


 22%|██▏       | 10/46 [00:10<00:35,  1.00it/s]

téléchargement accompli : 9/46


 24%|██▍       | 11/46 [00:11<00:34,  1.00it/s]

téléchargement accompli : 10/46


 26%|██▌       | 12/46 [00:12<00:33,  1.01it/s]

téléchargement accompli : 11/46


 28%|██▊       | 13/46 [00:13<00:32,  1.02it/s]

téléchargement accompli : 12/46


 30%|███       | 14/46 [00:14<00:31,  1.02it/s]

téléchargement accompli : 13/46


 33%|███▎      | 15/46 [00:15<00:30,  1.02it/s]

téléchargement accompli : 14/46


 35%|███▍      | 16/46 [00:16<00:29,  1.02it/s]

téléchargement accompli : 15/46


 37%|███▋      | 17/46 [00:17<00:30,  1.05s/it]

téléchargement accompli : 16/46


 39%|███▉      | 18/46 [00:18<00:28,  1.03s/it]

téléchargement accompli : 17/46


 41%|████▏     | 19/46 [00:19<00:27,  1.01s/it]

téléchargement accompli : 18/46


 43%|████▎     | 20/46 [00:20<00:26,  1.00s/it]

téléchargement accompli : 19/46


 46%|████▌     | 21/46 [00:21<00:24,  1.00it/s]

téléchargement accompli : 20/46


 48%|████▊     | 22/46 [00:22<00:23,  1.01it/s]

téléchargement accompli : 21/46


 50%|█████     | 23/46 [00:23<00:24,  1.05s/it]

téléchargement accompli : 22/46


 52%|█████▏    | 24/46 [00:24<00:24,  1.11s/it]

téléchargement accompli : 23/46


 54%|█████▍    | 25/46 [00:25<00:24,  1.15s/it]

téléchargement accompli : 24/46


 57%|█████▋    | 26/46 [00:26<00:21,  1.10s/it]

téléchargement accompli : 25/46


 59%|█████▊    | 27/46 [00:27<00:20,  1.06s/it]

téléchargement accompli : 26/46


 61%|██████    | 28/46 [00:28<00:18,  1.04s/it]

téléchargement accompli : 27/46


 63%|██████▎   | 29/46 [00:29<00:17,  1.02s/it]

téléchargement accompli : 28/46


 65%|██████▌   | 30/46 [00:30<00:15,  1.00it/s]

téléchargement accompli : 29/46


 67%|██████▋   | 31/46 [00:31<00:14,  1.00it/s]

téléchargement accompli : 30/46


 70%|██████▉   | 32/46 [00:32<00:13,  1.00it/s]

téléchargement accompli : 31/46


 72%|███████▏  | 33/46 [00:34<00:13,  1.06s/it]

téléchargement accompli : 32/46


 74%|███████▍  | 34/46 [00:35<00:13,  1.10s/it]

téléchargement accompli : 33/46


 76%|███████▌  | 35/46 [00:36<00:11,  1.05s/it]

téléchargement accompli : 34/46


 78%|███████▊  | 36/46 [00:37<00:10,  1.04s/it]

téléchargement accompli : 35/46


 80%|████████  | 37/46 [00:38<00:09,  1.02s/it]

téléchargement accompli : 36/46


 83%|████████▎ | 38/46 [00:39<00:08,  1.01s/it]

téléchargement accompli : 37/46


 85%|████████▍ | 39/46 [00:40<00:06,  1.00it/s]

téléchargement accompli : 38/46


 87%|████████▋ | 40/46 [00:41<00:05,  1.01it/s]

téléchargement accompli : 39/46


 89%|████████▉ | 41/46 [00:42<00:04,  1.01it/s]

téléchargement accompli : 40/46


 91%|█████████▏| 42/46 [00:43<00:03,  1.02it/s]

téléchargement accompli : 41/46


 93%|█████████▎| 43/46 [00:44<00:02,  1.01it/s]

téléchargement accompli : 42/46


 96%|█████████▌| 44/46 [00:45<00:02,  1.07s/it]

téléchargement accompli : 43/46


 98%|█████████▊| 45/46 [00:46<00:01,  1.04s/it]

téléchargement accompli : 44/46


100%|██████████| 46/46 [00:47<00:00,  1.03s/it]

téléchargement accompli : 45/46
Téléchargement terminé.





### Extraction de données ###

Dans cette dernière partie, je vais d'abord extraire les noms des auteurs, les titres des abstracts, les mots-clés donnés et les institutions d'origine des auteurs et les stocker dans un fichier csv. J'utilise notamment la librairie BeautifulSoup pour parser les abstracts en XML.

L'objectif pour remplir le fichier csv va être de constituer des listes d'un seul élément (pour chaque case : un élément regroupant tous les noms, un autre regroupant toutes institutions, etc...) et où l'élément à l'intérieur doit être une str, car c'est un format convenable pour remplir du csv.

In [4]:
with open('./cache2019/TEI2019.csv', 'w', newline='') as csvfile:
    writer = csv.writer(csvfile, delimiter=',')
    i = 0
    for key in dicoXML:
        value = dicoXML[i]
        soup = BeautifulSoup(value, 'xml')
        print("Récupération des autorités...")
        for contributeur in tqdm(soup.find_all('author')): #Je récupère tous les noeuds "author"
            for elem in soup.name: #Je vais récupérer ici les éléments de prénom et de nom de chaque auteur
                liste_noms_balise = soup.find_all(['forename', 'surname'])
                noms_a_rassembler = [] #j'instancie une liste dans lequel je vais ranger chaque élément de nom ou de prénom de tous les auteurs d'un seul abstract
                for nom in liste_noms_balise: #ici, je vais normaliser en les transformant en str et en retirant les balises manuellement.
                    nom = str(nom)
                    nom = nom.replace("<forename>", "")
                    nom = nom.replace('<forename full="yes">', "")
                    nom = nom.replace("</forename>", "")
                    nom = nom.replace("</surname>", "")
                    nom = nom.replace("<surname>", "")
                    nom = nom.replace('<surname full="yes">', "")
                    nom = nom.replace('<surname  full="init">', "")
                    nom = nom.replace('<forename full="init">', "")
                    nom = nom.replace('<forename full="abb">', "")
                    noms_a_rassembler.append(nom)
            for elem in soup.publisher: #Ici je récupere directement une str grâce à la méthode .contents.
                organisation = soup.orgName.contents
                orga = organisation[0].split() #Pour éliminer les sauts de lignes, tab et autres espaces gênants, la solution la plus simple fut d'enchaîner un .split et un .join
                orga = ' '.join(orga)
                orga = [orga]
            for elem in soup.titleStmt:
                titre = soup.title.contents #grâce à la méthode .contents, je récupère directement une str, sous condition qu'il n'y ait pas de balises imbriquées (comme pour les noms)
                if len(titre) > 1:
                    titre = titre[0]
                    titre = [titre]
        print("Récupération des mots-clés...")
        for elem in tqdm(soup.keywords):
            liste_motcles = soup.find_all('term') #je récupère tous les mots clés dans une liste
            retypage_liste = [str(i) for i in liste_motcles] #je transforme le type des éléments de la liste en str chacun
            motcles = str(" | ".join(retypage_liste)) #je transforme la liste en str
            motcles = motcles.replace("<term>", "") #je nettoie la str
            motcles = motcles.replace("</term>", "")
            motcles = [motcles] #je passe cette grande str en une liste avec 1 seul élément
        abstract = soup("body") #ici, j'enregistre le contenu de l'abstract, et je ne garde que le premier élément, car les autres éléments capturés sont trop compliqués à traiter, et trop peu intéressants.
        abstract = abstract[0]
        titre_dans_cache = titre[0] #je nomme les abstracts d'après leur titre, cela est utile dans l'étape 2.
        titre_dans_cache = titre_dans_cache.replace(" ", "_") #je supprime les espaces dans les noms de fichier, car ça gêne Python
        with open('./cache2019/cacheXML/%s.xml' % titre_dans_cache, 'w', encoding='UTF-8') as docXML:
            docXML.write(str(abstract))
        titre_dans_cache = titre_dans_cache + ".xml"
        noms_rassembles = ' '.join(noms_a_rassembler) #tous les noms saisis plus haut, chacun étant un élément d'une grande liste, sont rassemblés dans une str, qui est ensuite transformée en une liste d'un seul élément
        noms = [noms_rassembles]
        masterList = noms + orga + titre + motcles #j'assemble chacune des listes composées d'un seul élément en une nested liste. Logiquement, cela ressemble à : [[str], [str], [str], [str]]
        writer.writerow(masterList)
        i += 1 #ceci est le compteur permettant de trouver les clés du dictionnaire, où la valeur est l'abstract en XML


100%|██████████| 1/1 [00:00<00:00, 43.74it/s]

Récupération des autorités...
Récupération des mots-clés...



100%|██████████| 11/11 [00:00<00:00, 3436.16it/s]
 36%|███▋      | 4/11 [00:00<00:00, 34.77it/s]

Récupération des autorités...


100%|██████████| 11/11 [00:00<00:00, 34.86it/s]
100%|██████████| 11/11 [00:00<00:00, 2011.74it/s]
100%|██████████| 1/1 [00:00<00:00, 43.01it/s]
100%|██████████| 9/9 [00:00<00:00, 3120.25it/s]
 50%|█████     | 2/4 [00:00<00:00, 17.20it/s]

Récupération des mots-clés...
Récupération des autorités...
Récupération des mots-clés...
Récupération des autorités...


100%|██████████| 4/4 [00:00<00:00, 16.42it/s]
100%|██████████| 13/13 [00:00<00:00, 1356.13it/s]
100%|██████████| 1/1 [00:00<00:00, 52.21it/s]
100%|██████████| 7/7 [00:00<00:00, 4459.31it/s]
100%|██████████| 1/1 [00:00<00:00, 55.25it/s]
100%|██████████| 11/11 [00:00<00:00, 2514.30it/s]
100%|██████████| 1/1 [00:00<00:00, 41.27it/s]
100%|██████████| 9/9 [00:00<00:00, 3688.56it/s]
  0%|          | 0/10 [00:00<?, ?it/s]

Récupération des mots-clés...
Récupération des autorités...
Récupération des mots-clés...
Récupération des autorités...
Récupération des mots-clés...
Récupération des autorités...
Récupération des mots-clés...
Récupération des autorités...


100%|██████████| 10/10 [00:00<00:00, 55.43it/s]
100%|██████████| 5/5 [00:00<00:00, 1933.04it/s]
100%|██████████| 1/1 [00:00<00:00, 63.55it/s]
100%|██████████| 9/9 [00:00<00:00, 4599.58it/s]
100%|██████████| 1/1 [00:00<00:00, 73.54it/s]
100%|██████████| 11/11 [00:00<00:00, 4491.13it/s]
100%|██████████| 2/2 [00:00<00:00, 38.51it/s]
100%|██████████| 9/9 [00:00<00:00, 3116.90it/s]
100%|██████████| 1/1 [00:00<00:00, 33.25it/s]
100%|██████████| 7/7 [00:00<00:00, 3225.68it/s]


Récupération des mots-clés...
Récupération des autorités...
Récupération des mots-clés...
Récupération des autorités...
Récupération des mots-clés...
Récupération des autorités...
Récupération des mots-clés...
Récupération des autorités...
Récupération des mots-clés...


100%|██████████| 1/1 [00:00<00:00, 53.53it/s]
100%|██████████| 7/7 [00:00<00:00, 1876.77it/s]
100%|██████████| 3/3 [00:00<00:00, 56.17it/s]
100%|██████████| 7/7 [00:00<00:00, 3860.13it/s]
100%|██████████| 1/1 [00:00<00:00, 63.74it/s]
100%|██████████| 9/9 [00:00<00:00, 4924.82it/s]
100%|██████████| 1/1 [00:00<00:00, 64.41it/s]
100%|██████████| 9/9 [00:00<00:00, 4935.12it/s]
  0%|          | 0/7 [00:00<?, ?it/s]

Récupération des autorités...
Récupération des mots-clés...
Récupération des autorités...
Récupération des mots-clés...
Récupération des autorités...
Récupération des mots-clés...
Récupération des autorités...
Récupération des mots-clés...
Récupération des autorités...


100%|██████████| 7/7 [00:00<00:00, 17.84it/s]
100%|██████████| 11/11 [00:00<00:00, 1393.37it/s]
100%|██████████| 4/4 [00:00<00:00, 43.54it/s]
100%|██████████| 11/11 [00:00<00:00, 3711.47it/s]
100%|██████████| 2/2 [00:00<00:00, 46.59it/s]
100%|██████████| 9/9 [00:00<00:00, 3439.21it/s]
  0%|          | 0/1 [00:00<?, ?it/s]

Récupération des mots-clés...
Récupération des autorités...
Récupération des mots-clés...
Récupération des autorités...
Récupération des mots-clés...
Récupération des autorités...


100%|██████████| 1/1 [00:00<00:00, 54.04it/s]
100%|██████████| 11/11 [00:00<00:00, 2402.74it/s]
100%|██████████| 1/1 [00:00<00:00, 55.94it/s]
100%|██████████| 11/11 [00:00<00:00, 2120.77it/s]
100%|██████████| 1/1 [00:00<00:00, 73.50it/s]
100%|██████████| 11/11 [00:00<00:00, 2864.25it/s]
100%|██████████| 1/1 [00:00<00:00, 26.74it/s]
100%|██████████| 11/11 [00:00<00:00, 2101.35it/s]
  0%|          | 0/15 [00:00<?, ?it/s]

Récupération des mots-clés...
Récupération des autorités...
Récupération des mots-clés...
Récupération des autorités...
Récupération des mots-clés...
Récupération des autorités...
Récupération des mots-clés...
Récupération des autorités...


100%|██████████| 15/15 [00:00<00:00, 21.50it/s]
100%|██████████| 9/9 [00:00<00:00, 2135.23it/s]
 57%|█████▋    | 4/7 [00:00<00:00, 37.30it/s]

Récupération des mots-clés...
Récupération des autorités...


100%|██████████| 7/7 [00:00<00:00, 36.91it/s]
100%|██████████| 7/7 [00:00<00:00, 2377.72it/s]
100%|██████████| 1/1 [00:00<00:00, 81.38it/s]
100%|██████████| 9/9 [00:00<00:00, 2227.72it/s]
100%|██████████| 4/4 [00:00<00:00, 55.56it/s]
100%|██████████| 11/11 [00:00<00:00, 2268.19it/s]
100%|██████████| 1/1 [00:00<00:00, 57.07it/s]
100%|██████████| 7/7 [00:00<00:00, 4575.37it/s]
100%|██████████| 1/1 [00:00<00:00, 63.72it/s]
100%|██████████| 9/9 [00:00<00:00, 2453.13it/s]
  0%|          | 0/1 [00:00<?, ?it/s]

Récupération des mots-clés...
Récupération des autorités...
Récupération des mots-clés...
Récupération des autorités...
Récupération des mots-clés...
Récupération des autorités...
Récupération des mots-clés...
Récupération des autorités...
Récupération des mots-clés...
Récupération des autorités...


100%|██████████| 1/1 [00:00<00:00, 53.73it/s]
100%|██████████| 9/9 [00:00<00:00, 3979.84it/s]
100%|██████████| 1/1 [00:00<00:00, 77.57it/s]
100%|██████████| 9/9 [00:00<00:00, 2403.61it/s]
100%|██████████| 1/1 [00:00<00:00, 45.43it/s]
100%|██████████| 7/7 [00:00<00:00, 2854.38it/s]
  0%|          | 0/11 [00:00<?, ?it/s]

Récupération des mots-clés...
Récupération des autorités...
Récupération des mots-clés...
Récupération des autorités...
Récupération des mots-clés...
Récupération des autorités...


100%|██████████| 11/11 [00:00<00:00, 26.35it/s]
100%|██████████| 13/13 [00:00<00:00, 1909.24it/s]
100%|██████████| 6/6 [00:00<00:00, 36.27it/s]
100%|██████████| 11/11 [00:00<00:00, 3119.71it/s]


Récupération des mots-clés...
Récupération des autorités...
Récupération des mots-clés...
Récupération des autorités...


100%|██████████| 7/7 [00:00<00:00, 47.21it/s]
100%|██████████| 9/9 [00:00<00:00, 2028.30it/s]
 21%|██▏       | 3/14 [00:00<00:00, 27.01it/s]

Récupération des mots-clés...
Récupération des autorités...


100%|██████████| 14/14 [00:00<00:00, 26.43it/s]
100%|██████████| 7/7 [00:00<00:00, 1741.61it/s]
100%|██████████| 1/1 [00:00<00:00, 50.86it/s]
100%|██████████| 11/11 [00:00<00:00, 3034.35it/s]
100%|██████████| 1/1 [00:00<00:00, 30.86it/s]
100%|██████████| 11/11 [00:00<00:00, 1917.83it/s]
100%|██████████| 1/1 [00:00<00:00, 46.40it/s]
100%|██████████| 9/9 [00:00<00:00, 2593.52it/s]
100%|██████████| 1/1 [00:00<00:00, 55.73it/s]
100%|██████████| 7/7 [00:00<00:00, 4324.02it/s]
  0%|          | 0/19 [00:00<?, ?it/s]

Récupération des mots-clés...
Récupération des autorités...
Récupération des mots-clés...
Récupération des autorités...
Récupération des mots-clés...
Récupération des autorités...
Récupération des mots-clés...
Récupération des autorités...
Récupération des mots-clés...
Récupération des autorités...


100%|██████████| 19/19 [00:00<00:00, 23.32it/s]
100%|██████████| 7/7 [00:00<00:00, 1729.81it/s]
100%|██████████| 1/1 [00:00<00:00, 58.05it/s]
100%|██████████| 9/9 [00:00<00:00, 3432.02it/s]
100%|██████████| 1/1 [00:00<00:00, 54.36it/s]
100%|██████████| 11/11 [00:00<00:00, 4265.26it/s]
100%|██████████| 2/2 [00:00<00:00, 54.15it/s]
100%|██████████| 7/7 [00:00<00:00, 2481.42it/s]
100%|██████████| 1/1 [00:00<00:00, 63.45it/s]
100%|██████████| 7/7 [00:00<00:00, 3097.39it/s]
100%|██████████| 1/1 [00:00<00:00, 53.95it/s]
100%|██████████| 9/9 [00:00<00:00, 4379.20it/s]

Récupération des mots-clés...
Récupération des autorités...
Récupération des mots-clés...
Récupération des autorités...
Récupération des mots-clés...
Récupération des autorités...
Récupération des mots-clés...
Récupération des autorités...
Récupération des mots-clés...
Récupération des autorités...
Récupération des mots-clés...



