# TEI Conference 2019 #

## Etape 4 : Classification non supervisée ##

### Préambule ###

Nous allons faire ici de la classification non supervisée grâce au package SKLearn, librairie dédiée au Machine Learning.

L'objectif est de soumettre librement le corpus à l'ordinateur et de le laisser créer des clusters, c'est à dire des regroupements de textes. Pour cela, l'ordinateur va vectoriser chaque terme de chaque abstract du corpus, permettant d'attribuer à chaque mot une valeur unique pondérée. Grâce à ces calculs, nous obtenons une représentation des textes dans l'espace, que l'ordinateur peut ensuite réunir en calculant la proximité de chacun des vecteurs / textes depuis certains points (les centroids) disposés aléatoirement. La répétition de cette expérience aléatoire permet de définir une classification supposée objective.

Pour la vectorisation, nous utilisons la méthode TF-IDF de SKLearn. La TF-IDF (Term Frequency-Inverse Document Frequency) est une méthode de calcul de la valeur attribuée à chaque mot qui se différencie d'abord de la fréquence brut (compte du nombre d'occurence) et de la fréquence relative (compte du nombre d'occurence divisé par le nombre de mots du texte) **en divisant la fréquence d'un mot par le nombre de corpus où ce mot est présent**.
Cette méthode a l'avantage de pouvoir résoudre un problème dans la fouille de texte : il a été effectivement remarqué qu'un terme fréquent dans un texte est généralement fréquent également dans les autres documents du corpus. Ainsi, **la TF-IDF permet de relever des termes qui sont fréquents distinctement dans un texte au regard des autres textes du corpus**, et non plus simplement des termes fréquents dans un texte. Nous pouvons alors distinguer un texte des autres, et rassembler des textes ensemble.

La classification que nous obtiendrons nous permettra de comparer avec le plan déterminé par le programme de la conférence TEI 2019, par exemple.

### Les packages ### 


Il faut lancer la cellule ci-dessous pour importer les packages dédiés.

La librairie SKLearn permet, grâce à la TF-IDF, de vectoriser les textes, c'est à dire d'attribuer à chaque mot un vecteur unique le caractérisant dans l'espaces. KMeans permet en outre de définir des clusters.

La librairie spaCy permet de lemmatiser, tandis que la librairie PorterStemmer de NLTK permet de stemmer.

Les librairies Pandas, Numpy et Scipy permettent de traiter la donnée et de produire des tableaux à partir des textes vectorisés.

In [18]:
import os
import csv
import sys

# Vectorisation
import sklearn
from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer
from sklearn.cluster import KMeans
from sklearn.feature_extraction.text import TfidfVectorizer


#Pour la représentation des clusters dans la partie graphique
import pandas as pd
import numpy as np
import scipy as sp

#Pour une ébauche de topic modeling à partir de NMF
from sklearn.decomposition import NMF
from sklearn.preprocessing import normalize

### Choisir son corpus de travail ###

Ensuite, il faut choisir quel set sera loadé et analysé entre les abstracts lemmatisés et les abstracts loadés. Le résultat change entre les deux versions. Pour un premier essai, il est premier de travailler avec la version lemmatisée.

In [19]:
#Pour utiliser les textes stemmés, c'est ici

documents = []
Path = "./cache2019/cacheSTEM/"
filelist = os.listdir(Path) #filelist est une liste regroupant tous les chemins vers les différents abstracts.

for abstract in filelist:
    with open(Path + abstract, "r", encoding="UTF-8") as y:
        texte = y.read()
        documents.append(texte)

In [20]:
#Pour utiliser les textes lemmatisés, c'est ici

documents = []
Path = "./cache2019/cacheLEM/"
filelist = os.listdir(Path) #filelist est une liste regroupant tous les chemins vers les différents abstracts.

for abstract in filelist:
    with open(Path + abstract, "r", encoding="UTF-8") as y:
        texte = y.read()
        documents.append(texte)





## Définir les clusters ##

Après avoir tokennisé et lemmatisé/stemmé nos abstracts, nous allons maintenant les vectoriser (représenter chaque mot sous la forme d'un vecteur sur un plan ordonné en deux dimensions) puis ensuite nous allons laisser la machine définir des clusters, c'est à dire des groupes de mots qui ont un sens commun.

Ici, on associe à chaque mot de tous les abstracts une coordonnée unique à chaque mot utilisé, pour ensuite pouvoir les placer sur un plan en 2D et ainsi relever des ressemblances.

In [23]:
from spacy.lang.fr.stop_words import STOP_WORDS as fr_stop
final_stopwords_list = list(fr_stop)
vectorizer = TfidfVectorizer(stop_words=final_stopwords_list)
X = vectorizer.fit_transform(documents)

  'stop_words.' % sorted(inconsistent))


Ensuite, on réunit les termes vectorisés en cluster, c'est à dire en groupe de ressemblance.

In [30]:
#clusterise les documents, ici 8 clusters
true_k = 2
model = KMeans(n_clusters=true_k, init='k-means++', max_iter=100, n_init=1)
model.fit(X)

ValueError: n_samples=1 should be >= n_clusters=2

Enfin, on montre les termes que l'ordinateur a pu rassembler ensemble.

In [28]:
#montre le top 10 des mot-clés les plus représentatifs de chaque cluster
print("Top terms per cluster:")
order_centroids = model.cluster_centers_.argsort()[:, ::-1]
terms = vectorizer.get_feature_names()
for i in range(true_k):
    print("Cluster %d:" % i)
    for ind in order_centroids[i, :10]:
        print(' %s' % terms[ind])
        

        


Top terms per cluster:
Cluster 0:
 polichinelle
 pierrot
 cassandre
 aller
 faire
 el
 monsieur
 gendarme
 qu
 niflanguille


## Cluster de documents ##

Grâce à un système de prédiction découlant de l'apprentissage et de l'entraînement sur les termes des abstracts, nous pouvons classifier les abstracts en 8 catégories. Nous pourrons ensuite les comparer avec le classement déjà fait par les organisateurs de la conférence TEI 2019.

In [29]:
Path = "./cache2019/cacheLEM/" #On peut remplacer le cache STEM par LEM à la place, pour ainsi comparer les deux sorties.
filelist = os.listdir(Path) #filelist est une liste regroupant tous les chemins vers les différents abstracts.
liste_triee = [] #c'est la liste contenant les infos triées de tous les abstracts


for abstract in filelist:
    reference = abstract.replace('.txt', '') #je normalise le nom du texte pour le faire correpondre avec celui indiqué dans le tableau csv réunissant toutes les informations
    with open(Path + abstract, "r", encoding="UTF-8") as y:
        liste_resultat_unitaire = [] #j'instancie la liste des infos propres à chaque abstract
        texte = y.read()
        X = vectorizer.transform([texte]) #je vectorise le texte de l'abstract
        predicted = model.predict(X)  #j'attribue l'abstract à un cluster. predicted est de la classe numpy array : c'est un vecteur
        with open('./cache2019/TEI2019.csv', 'r') as csvfile:
            read = csv.reader(csvfile, delimiter = ',')
            titre = ''
            auteurs = ''
            for row in read:
                if row[4] == reference:
                    titre = row[2]
                    auteurs = row[0]
        liste_resultat_unitaire.append(titre)
        liste_resultat_unitaire.append(auteurs)
        liste_resultat_unitaire.append(int(predicted))
        liste_triee.append(liste_resultat_unitaire)
        
list_grp1 = []
list_grp2 = []
list_grp3 = []
list_grp4 = []
list_grp5 = []
list_grp6 = []
list_grp7 = []
list_grp8 = []

print("Dans le groupe 1, il y a :")
for elem in liste_triee:
    if elem[2] == 0:
        list_grp1.append(elem[0]) 
        print("\t", elem[0] )
        
print("\n Dans le groupe 2, il y a :")
for elem in liste_triee:
    if elem[2] == 1:
        list_grp2.append(elem[0])
        print("\t", elem[0] )
        
print("\n Dans le groupe 3, il y a :")
for elem in liste_triee:
    if elem[2] == 2:
        list_grp3.append(elem[0])
        print("\t", elem[0] )

print("\n Dans le groupe 4, il y a :")
for elem in liste_triee:
    if elem[2] == 3:
        list_grp4.append(elem[0])
        print("\t", elem[0] )

print("\n Dans le groupe 5, il y a :")
for elem in liste_triee:
    if elem[2] == 4:
        list_grp5.append(elem[0])
        print("\t", elem[0] )
        
print("\n Dans le groupe 6, il y a :")
for elem in liste_triee:
    if elem[2] == 5:
        list_grp6.append(elem[0])
        print("\t", elem[0] )
        
print("\n Dans le groupe 7, il y a :")
for elem in liste_triee:
    if elem[2] == 6:
        list_grp7.append(elem[0])
        print("\t", elem[0] )
        
print("\n Dans le groupe 8, il y a :")
for elem in liste_triee:
    if elem[2] == 7:
        list_grp8.append(elem[0])
        print("\t", elem[0] )


#Des librairies python qui convertissent en table HMTL, faut que je fasse de la dataviz
# chord visualisation est une librairie faisant des dataviz, Seaborn aussi, BOKEH aussi, Plotly (MatPlotLib est la base de tous), Parallel Plot est cool.
# On peut utiliser XSLT via LXML

FileNotFoundError: [Errno 2] No such file or directory: './cache2019/TEI2019.csv'

Voici le plan et l'agencement des conférences tel qu'il est indiqué ici : https://graz-2019.tei-c.org/wp-content/uploads/2019/09/ProgrammheftFINAL.pdf

TEI, formal ontologies,controlled vocabularies and Linked OpenData :
- Making Linkable Data from Account Books: Bookkeeping Ontology in the Digital Edition Publishing Cooperative for Historical Accounts
- Inscriptions, Hieroglyphs, Linguistics and Beyond! The Corpus of Classic Mayan as an Ontological Information Resource
- Modeling FRBR Entities and their Relationships with TEI: A Look at HallerNet Bibliographic Descriptions
- Referencing an editorial ontology from the TEI: An attempt to overcome informal typologies
- Text Graph Ontology. A Semantic Web approach to represent genetic scholarly editions

TEI and models of text :
- A realistic theory of textuality and its consequences on digital text representation
- Genesis and Variance: From Letter to Literature
- Between freedom and formalisation: a hypergraph model for representing the nature of text
- Reflecting the Influence of Technology on Models of Text in Scholarly Digital Editing
- Introducing Objectification: when is an <object> a <place> ?
- An Encoding Strategic Proposal of “Ruby” Texts: Examples from Japanese Texts
- Referencing annotations as a core concept of the hallerNet edition and research platform
- Recreating history through events
- Document Modeling with the TEI Critical Apparatus
- Exploring TEI structures to find distinctive features of text types
- Reconceiving TEI models of theatrical performance text with reference to promptbooks
- What is a Line? Encoding and Counting Lines in Early Modern Dramatic Texts
    
TEI across corpora,languages, and cultures :
- Growing collections of TEI texts: Some lessons from SARIT
- Towards larger corpora of Indic texts: For now, minimize metatext
- Encoding history in TEI: A corpus-oriented approach for investigating Tibetan historiography
- Advantages and challenges of tokenized TEI
- A sign of the times: medieval punctuation, its encoding and its rendition in modern times

TEI annotation and publication :
- Analyzing and Visualizing Uncertain Knowledge: Introducing the PROVIDEDH Open Science Platform
- The Prefabricated Website: Who Needs a Server Anyway?
- correspSearch v2 –New ways of exploring correspondence
- Validating @selector: a regular expression adventure
- TEI encoding of correspondence: A community effort

TEI simplification and extension :
- Opportunities and challenges of the TEI for scholarly journals in the Humanities
- Archiving a TEI project FAIRly
- Creating high-quality print from TEI documents
- Native-TEI dialectal dictionary for Bavarian dialects in Austria: data structure, software and workflow
- An Attempt of Dissemination of TEI in a TEI-underdeveloped country: Activities of the SIG EAJ
- Refining the Current Teaching Methodology of the TEI through the Analysis of Server Logs
- Using Github and its Integrations to Create, Test, and Deploy a Digital Edition

TEI environments and infrastructures :
- Parla-CLARIN: TEI guidelines for corpora of parliamentary proceedings
- Challenges in encoding parliamentary data: between applause and interjections
- A TEI customization for the description of paper and watermarks
- How we tripled our encoding speed in the Digital Victorian Periodical Project
- Manuscripta-The editor from past to future
- Highlighting Our Examples: encoding XML examples in pedagogical contexts
- Case Study TEI Customization: A Restricted TEI Format for Edition Open Access (EOA)
- In search of comity: TEI for distant reading

TEI and beyond :interactions, interchange, integrations and interoperability :
- Using Machine Learning for the Automated Classification of Stage Directions in TEI-Encoded Drama Corpora
- TEI XML and Delta Format Interchangeability

TEI and non-XML technologies :
- Five Centuries of History in a Network
- Introducing an Open, Dynamic and Efficient Lexical Data Access for TEI-encoded Dictionaries on the Internet
- Getting Along with Relational Databases
- Using Microsoft Word for preparing XML TEI-compliant digital editions
- Scaling up Automatic Structuring of Manuscript Sales Catalogues

J'encode la répartition des titres dans les groupes dans des listes :

In [None]:
V_grp1 = ['Making Linkable Data from Account Books: Bookkeeping Ontology in the Digital Edition Publishing Cooperative for Historical Accounts',
'Inscriptions, Hieroglyphs, Linguistics and Beyond! The Corpus of Classic Mayan as an Ontological Information Resource',
'Modeling FRBR Entities and their Relationships with TEI: A Look at HallerNet Bibliographic Descriptions',
'Referencing an editorial ontology from the TEI: An attempt to overcome informal typologies',
'Text Graph Ontology. A Semantic Web approach to represent genetic scholarly editions']
V_grp2 = ['A realistic theory of textuality and its consequences on digital text representation'
'Genesis and Variance: From Letter to Literature',
'Between freedom and formalisation: a hypergraph model for representing the nature of text',
'Reflecting the Influence of Technology on Models of Text in Scholarly Digital Editing',
'Introducing Objectification: when is an <object> a <place> ?',
'An Encoding Strategic Proposal of “Ruby” Texts: Examples from Japanese Texts',
'Referencing annotations as a core concept of the hallerNet edition and research platform',
'Recreating history through events',
'Document Modeling with the TEI Critical Apparatus',
'Exploring TEI structures to find distinctive features of text types',
'Reconceiving TEI models of theatrical performance text with reference to promptbooks',
'What is a Line? Encoding and Counting Lines in Early Modern Dramatic Texts']
V_grp3 = ['Growing collections of TEI texts: Some lessons from SARIT',
'Towards larger corpora of Indic texts: For now, minimize metatext',
'Encoding history in TEI: A corpus-oriented approach for investigating Tibetan historiography',
'Advantages and challenges of tokenized TEI',
'A sign of the times: medieval punctuation, its encoding and its rendition in modern times']
V_grp4 = ['Analyzing and Visualizing Uncertain Knowledge: Introducing the PROVIDEDH Open Science Platform',
'The Prefabricated Website: Who Needs a Server Anyway?',
'correspSearch v2 –New ways of exploring correspondence',
'Validating @selector: a regular expression adventure',
'TEI encoding of correspondence: A community effort']
V_grp5 = ['Opportunities and challenges of the TEI for scholarly journals in the Humanities',
'Archiving a TEI project FAIRly',
'Creating high-quality print from TEI documents',
'Native-TEI dialectal dictionary for Bavarian dialects in Austria: data structure, software and workflow',
'An Attempt of Dissemination of TEI in a TEI-underdeveloped country: Activities of the SIG EAJ',
'Refining the Current Teaching Methodology of the TEI through the Analysis of Server Logs',
'Using Github and its Integrations to Create, Test, and Deploy a Digital Edition']
V_grp6 = ['Parla-CLARIN: TEI guidelines for corpora of parliamentary proceedings',
'Challenges in encoding parliamentary data: between applause and interjections',
'A TEI customization for the description of paper and watermarks',
'How we tripled our encoding speed in the Digital Victorian Periodical Project',
'Manuscripta-The editor from past to future',
'Highlighting Our Examples: encoding XML examples in pedagogical contexts',
'Case Study TEI Customization: A Restricted TEI Format for Edition Open Access (EOA)',
'In search of comity: TEI for distant reading']
V_grp7 = ['Using Machine Learning for the Automated Classification of Stage Directions in TEI-Encoded Drama Corpora',
'TEI XML and Delta Format Interchangeability']
V_grp8 = ['Five Centuries of History in a Network',
'Introducing an Open, Dynamic and Efficient Lexical Data Access for TEI-encoded Dictionaries on the Internet',
'Getting Along with Relational Databases',
'Using Microsoft Word for preparing XML TEI-compliant digital editions',
'Scaling up Automatic Structuring of Manuscript Sales Catalogues']

## Modélisation et comparaison ##

En utilisant la librairie MatPlotLib, nous pouvons faire des graphiques permettant de mieux comprendre ce que nous avons créé. Nous comparerons les résultats obtenus avec les " clusters " créés par les organisateurs.

### Un tableau ###

Tout d'abord, nous allons représenter la liste des attributions sous forme d'un tableau pour comparer les clusters de l'ordinateur et les groupes faits par les organisateurs.

In [None]:
import plotly.graph_objects as go

headerColor = 'grey'
rowEvenColor = 'lightgrey'
rowOddColor = 'white'

fig = go.Figure(data=[go.Table(
  header=dict(
    values=['<b>Groupe 1</b>','<b>Groupe 2</b>','<b>Groupe 3</b>','<b>Groupe 4</b>','<b>Groupe 5</b>','<b>Groupe 6</b>','<b>Groupe 7</b>','<b>Groupe 8</b>'],
    line_color='darkslategray',
    fill_color=headerColor,
    align=['center'],
    font=dict(color='white', size=12)
  ),
  cells=dict(
    values=[
      list_grp1,
      list_grp2,
      list_grp3,
      list_grp4,
      list_grp5,
      list_grp6,
      list_grp7,
      list_grp8],
    line_color='darkslategray',
    # 2-D list of colors for alternating rows
    fill_color = [[rowOddColor,rowEvenColor,rowOddColor, rowEvenColor,rowOddColor]*5],
    align = ['center'],
    font = dict(color = 'darkslategray', size = 9)
    ))
])

fig.show()

fig = go.Figure(data=[go.Table(
  header=dict(
    values=['<b>Groupe 1</b>','<b>Groupe 2</b>','<b>Groupe 3</b>','<b>Groupe 4</b>','<b>Groupe 5</b>','<b>Groupe 6</b>','<b>Groupe 7</b>','<b>Groupe 8</b>'],
    line_color='darkslategray',
    fill_color=headerColor,
    align=['center'],
    font=dict(color='white', size=12)
  ),
  cells=dict(
    values=[
      V_grp1,
      V_grp2,
      V_grp3,
      V_grp4,
      V_grp5,
      V_grp6,
      V_grp7,
      V_grp8],
    line_color='darkslategray',
    # 2-D list of colors for alternating rows
    fill_color = [[rowOddColor,rowEvenColor,rowOddColor, rowEvenColor,rowOddColor]*5],
    align = ['center'],
    font = dict(color = 'darkslategray', size = 9)
    ))
])

fig.show()

### Distribution à l'intérieur des clusters  ###

Nous représentons la distribution des conférences dans un camembert.

In [None]:
import matplotlib.pyplot as plt

labels = 'Groupe 1', 'Groupe 2', 'Groupe 3', 'Groupe 4', 'Groupe 5', 'Groupe 6', 'Groupe 7', 'Groupe 8'
sizes = [len(list_grp1), len(list_grp2), len(list_grp3), len(list_grp4), len(list_grp5), len(list_grp6), len(list_grp7), len(list_grp8)]
colors = ['yellowgreen', 'gold', 'lightskyblue', 'lightcoral', 'blue', 'yellow', 'green', 'red']
explode = (0.2, 0.2, 0.2, 0.2, 0.2, 0.2, 0.2, 0.2)
plt.pie(sizes, explode=explode, labels=labels, colors=colors, autopct='%1.1f%%', shadow=True, startangle=90)
plt.axis('equal')
plt.title("Regroupement des abstracts de la Conference TEI 2019 par thème selon l'ordinateur")
plt.show()

labels = 'Groupe 1', 'Groupe 2', 'Groupe 3', 'Groupe 4', 'Groupe 5', 'Groupe 6', 'Groupe 7', 'Groupe 8'
sizes = [len(V_grp1), len(V_grp2), len(V_grp3), len(V_grp4), len(V_grp5), len(V_grp6), len(V_grp7), len(V_grp8)]
colors = ['yellowgreen', 'gold', 'lightskyblue', 'lightcoral', 'blue', 'yellow', 'green', 'red']
explode = (0.2, 0.2, 0.2, 0.2, 0.2, 0.2, 0.2, 0.2)
plt.pie(sizes, explode=explode, labels=labels, colors=colors, autopct='%1.1f%%', shadow=True, startangle=90)
plt.axis('equal')
plt.title("Regroupement des abstracts de la Conference TEI 2019 par thème selon les organisateurs")
plt.show()

Nous voyons que selon l'ordinateur il existe un gros ensemble massif regroupant au moins la moitié des abstracts, et les autres abstracts sont périphériques. Pour l'ordinateur, la quasi-totalité des conférences seraient donc sur un thème commun. Cela semble cohérent (en effet, c'est une conférence de TEI...), mais peu intéressant.

Par ailleurs, il est à noter que si l'on effectue un certain nombre de reboot et de lancement, les résultats diffèrent sensiblement. La part de l'aléatoire semble donc prédominer, et la machine semble n'être pas tellement fiable. 

A l'inverse, la répartition des organisateurs est plus ou moins égale, ce qui s'explique par exemple par le besoin d'équilibrer les journées.

### Comprendre ses clusters avec NMF ###

Grâce à la librairie NMF (Factorisation Matricielle Non-négative), je peux essayer de comprendre les clusters produits pour la machine en lui demandant de sortir les mots les plus représentatifs de chaque cluster. 

Nous allons donc pouvoir utiliser la librairie NMF qui se base sur la vectorisation de SKLearn pour reconstruire les clusters, mais cette fois-ci en sortant les mot-clés les plus utilisés.

In [None]:
transformer = TfidfTransformer(smooth_idf=True)
x_tfidf = transformer.fit_transform(X) #j'insère X, c'est à dire les documents vectorisés
xtfidf_norm = normalize(x_tfidf, norm='l1', axis=1) #normalisation des vecteurs pour rentrer dans la matrice

In [None]:
num_topics = 8
modelnmf = NMF(n_components=num_topics) #Je construis l'algorithme de NMF
modelnmf.fit(xtfidf_norm) #J'entre mes vecteurs normalisés dans l'algorithme de NMF

In [None]:
def get_nmf_topics(model, n_top_words):
    
    # Je récupère ici un dictionnaire avec le mot en clé et son vecteur en valeur. Permet de récupérer les mots.
    feat_names = vectorizer.get_feature_names()
    
    word_dict = {}
    for i in range(num_topics):
        
        #Pour chaque cluster j'obtiens les plus gros vecteurs, et j'ajoute les mots dans le dictionnaires initialisés "word_dict".
        words_ids = modelnmf.components_[i].argsort()[:-20 - 1:-1]
        words = [feat_names[key] for key in words_ids]
        word_dict['Cluster n° ' + '{:02d}'.format(i+1)] = words
    
    return pd.DataFrame(word_dict);

In [None]:
get_nmf_topics(modelnmf, 10)

Les clusters ainsi formés ont, comme on aurait pu l'imaginer, aucun sens pour un être humain malheureusement.