# Expérimentations - GCN for text classification - Dataset R8

Dans ce notebook, nous allons tenter de recoder l'algorithme décrit dans le papier "GCN for text classification", et d'effectuer des expériences autour de celui-ci.

Notre objectif sera de classifier correctement des textes, en n'ayant qu'une petite base d'entrainement.

A partir d'un corpus de textes, dont seulement un petit pourcentage est labelisé, nous soihaitons attribuer des classes à tous les documents. Le principe sera de répandre les classes des textes labelisés grâce à un GCN. Pour cela, nous devrons donc représenter nos données sous forme d'un graphe.

Nous allons donc construire un graphe hétérogène dont les sommets seront des mots (apparaisant dans les documents) et des documents. Les arêtes représenteront des liens entre des mots, ou bien entre mots et documents, mais il n'y a pas d'arêtes entre documents. 

Le graphe contiendra tous les documents du corpus, c'est à dire autant le test set que le train set. Néanmoins, seul un petit pourcentage de ces documents disposerons de labels.

Une fois le graphe construit nous pourrons lui appliquer un Graph Convolutional Network, dans le but de classifier les documents non labelisés.

## EXPLIQUER ICI FONCTIONNEMENT DU GCN

Nous pourrons donc mesurer les performances de notre modèle en regardant le taux de documents bien classifiés (parmi les documents qui ne disposaient pas de labels avant le GCN bien sur).

Nous pourrons enfin tenter diverses expérimentations, notamment :

    - Essayer plusieurs pourcentages de données labelisées
    - embedding à la place  de pmi (developper)
    - ...

### Table des matières <a name="up"></a>

* [1 Import des textes](#import)
* [2 Préparation des données](#init)
* [3 Calcul du TFIDF et du PMI](#dico)
* [4 Construction du graphe](#tfidf)
* [5 Text Rank](#tr)
* [6 affichage docx](#docx)
* [7 keywords](#keywords)

Nous commençons par importer les librairies dont nous aurons besoin.

Parmi celles-ci, plusieurs librairies de NLP, qui nous servirons notamment pour le pré-processing des données, et la tokenization (c'est à dire pour séparer les documents en mots). Nous aurons également besoin de la librairie networkx qui permet de gérer les graphes.


In [11]:
#math
import numpy as np
import math
import random

#NLP
import gensim
from gensim.models import TfidfModel
from gensim import matutils
from convectors.layers import (Contract, Lemmatize, Phrase, TfIdf,Tokenize)

#Affichage du temps et accès aux données
from tqdm import tqdm
import os

#Structure de données
from scipy.sparse import csc_matrix, lil_matrix, csr_matrix

#Graphes
import networkx as nx
import networkx.algorithms.community as nx_comm
from textgraph.graph import TextGraph

# 1 Import des textes <a name="import"></a>

[Retour table des matières](#up)

Pour importer les textes de notre dataset, nous avons décidé de reprendre et adapter le code des auteurs du papier, afin d'être certains d'avoir exactement les mêmes données et ainsi pouvoir comparer nos résultats.


Nous créons ainsi plusieurs listes.

    - doc_name_list est la liste de tous les triplets (id, test/train, label) en strings.
    - doc_train_list et doc_test_list contiennent, sous la même forme que la liste précédente, les triplets des test et train set respectivement.
    - doc_content_list est la liste des textes.
    - train_ids est la liste des id d'entrainement.
    - train_ids_str est la même chose, mais sous forme de string avec les ids séparés par des \n
    - shuffle_doc_name_list correspond à doc_name_list, mais mélangé aléatoirement.
    - shuffle_doc_words_list correspond à doc_content_list mais mélangé aléatoirement.
    
Cette partie du code (import des données) est fortement inspirée du [github des auteurs](https://github.com/yao8839836/text_gcn).

In [12]:
dataset = 'R8'

In [13]:
# shuffling
doc_name_list = []
doc_train_list = []
doc_test_list = []

f = open(os.path.join('text_gcn','data', 'R8.txt'), 'r')
lines = f.readlines()
for line in lines:
    doc_name_list.append(line.strip())
    temp = line.split("\t")
    if temp[1].find('test') != -1:
        doc_test_list.append(line.strip())
    elif temp[1].find('train') != -1:
        doc_train_list.append(line.strip())
f.close()

In [14]:
doc_content_list = []
f = open('text_gcn/data/corpus/' + dataset + '.clean.txt', 'r')
lines = f.readlines()
for line in lines:
    doc_content_list.append(line.strip())
f.close()
# print(doc_content_list)

train_ids = []
for train_name in doc_train_list:
    train_id = doc_name_list.index(train_name)
    train_ids.append(train_id)
#print(train_ids)
random.shuffle(train_ids)

# partial labeled data
#train_ids = train_ids[:int(0.2 * len(train_ids))]

train_ids_str = '\n'.join(str(index) for index in train_ids)
f = open('text_gcn/data/' + dataset + '.train.index', 'w')
f.write(train_ids_str)
f.close()

test_ids = []
for test_name in doc_test_list:
    test_id = doc_name_list.index(test_name)
    test_ids.append(test_id)
#print(test_ids)
random.shuffle(test_ids)

test_ids_str = '\n'.join(str(index) for index in test_ids)
f = open('text_gcn/data/' + dataset + '.test.index', 'w')
f.write(test_ids_str)
f.close()

ids = train_ids + test_ids
#print(ids)
#print(len(ids))

shuffle_doc_name_list = []
shuffle_doc_words_list = []
for id in ids:
    shuffle_doc_name_list.append(doc_name_list[int(id)])
    shuffle_doc_words_list.append(doc_content_list[int(id)])
shuffle_doc_name_str = '\n'.join(shuffle_doc_name_list)
shuffle_doc_words_str = '\n'.join(shuffle_doc_words_list)

f = open('text_gcn/data/' + dataset + '_shuffle.txt', 'w')
f.write(shuffle_doc_name_str)
f.close()

f = open('text_gcn/data/corpus/' + dataset + '_shuffle.txt', 'w')
f.write(shuffle_doc_words_str)
f.close()

# 2 Préparation des données <a name="init"></a>

[Retour table des matières](#up)

Maintenant que nous avons importé les données sous les formes qui nous conviennent, nous devons les préparer.

Nos données sont déjà partiellement préparées, puisque la ponctuation et les caractères spéciaux ont été retirés, et les textes mis en minuscules. 

En particulier, nous tokenizons les données, c'est à dire que nous séparons chaque document en liste de mots. Parmi ces mots, nous retirons les stopwords, c'est à dire les mots qui apparaissent très souvent et ne porte pas beaucoup de sens. C'est le cas notamment des pronoms, mais aussi de certains verbes comme être, avoir, etc. Il existe des listes de stopwords préfaites. En l'occurence nous utilisons une librairie qui elle même utilise une liste de stopwords issue de la librairie NLTK (spécialisée dans le NLP). Enfin, nous lemmatisons les mots. C'est à dire que nous les ramenons à leur racine. Par exemple, "thinking" et 'thoughts" deviendront "think".

Pour finir, nous retirons les mots qui apparaissent dans plus de 20% des documents. En effet, nous pouvons considérer qu'un mot qui apparait dans plus de 1 document sur 5 (parmi plusieurs milliers de textes) n'apporte pas beaucoup de sens. Il s'agit de stopwords également.

In [15]:
def prep(data, no_below=1, no_above=0.2, max_words=100000):
    
    word_tok = Contract()
    word_tok += Tokenize(stopwords=["en","fr"])
    word_tok += Lemmatize()
    word_tok += Phrase()
    word_tok.verbose=False
    #word_tok += Snowball(lang="french") #stemming
    
    tokens=word_tok(data)
    #print((tokens)) = liste des mots par doc
    
    dictionary = gensim.corpora.Dictionary(tokens)
    #print(dictionary)
    
    #doesn't keep words that appear in less than no_below docs or more than no_above (ratio) docs
    dictionary.filter_extremes(no_below=no_below, no_above=no_above, keep_n=max_words)
    #print(dictionary) 
    
    return word_tok, dictionary

In [16]:
word_tok, dictionary = prep(doc_content_list, 0.2)

In [17]:
print(dictionary)

Dictionary(7088 unique tokens: ['also', 'annual', 'approved', 'approves', 'april']...)


# 3 Calcul du TFIDF et du PMI<a name="dico"></a>

[Retour table des matières](#up)

Nous calculons maintenant le score TFIDF, qui nous servira pour les poids des arêtes entres les liens et documents.

Le score TFIDF traduit l'idée qu'un mot qui apparait beaucoup dans un document mais assez peu dans le corpus est probablement un mot important relativement au document. Un mot qui apparait très peu dans un texte est assez logiquement peu important (sauf s'il n'apparait presque jamais dans le reste du corpus !). Enfin un mot qui apparait souvent dans le document mais qui apparait également souvent dans le corpus n'est pas très important. Il s'agit également d'une forme de stopwords.

Le score TFIDF est donc une mesure statistique basée sur la fréquence des mots.

Il se calcule selon la formule qui suit :

## INSERER FORMULE TFIDF

In [18]:
def compute_tfidf(data, dictionary, word_tok, option=1):
    
    tokenized_data = word_tok(data)
    
    tokenized_data_idx = []
    for i in range(len(data)):
        tokenized_data_idx.append(dictionary.doc2idx(tokenized_data[i]))
    
    if option : #1
        corpus = [dictionary.doc2bow(doc) for doc in tokenized_data]
        tfidf = TfidfModel(corpus) #fit
        X = tfidf[corpus] #transform
        TFIDF = matutils.corpus2csc(X,num_docs=len(X)).T
    
        vocab = list(dictionary.token2id.keys())
        
    else: #0
        vectorizer = TfIdf(
            min_df=1,
            max_df=.5,
            max_features=None,
            verbose=False)

        TFIDF = vectorizer(tokenized_data)
        vocab = vectorizer.vectorizer.get_feature_names_out()
        
    #Version dense et datafrmame
    #mat_dense = TFIDF.toarray()
    #df_tfidf = pd.DataFrame(mat_dense, columns=vocab)    
    
    return TFIDF, tokenized_data, tokenized_data_idx, vocab

In [19]:
TFIDF, tokenized_data, tokenized_data_idx, vocab = compute_tfidf(doc_content_list, dictionary, word_tok, 0)

Nous calculons désormais le PMI (Pointwise Mutual Information). Cela nous servira pour les poids des arêtes entre deux mots. Le PMI mesure à quel point 2 mots sont susceptibles d'apparaitre ensemble. Il s'agit donc d'une mesure de la co-occurence. L'hypothèse faite est que deux mots qui apparaissent souvent ensemble sont susceptibles d'avoir un sens proche.

Pour calculer le PMI, il faut faire glisser une fenêtre sur chacun des textes. La taille de cette fenêtre est un hyper-paramètre à choisir.

En parcourant les documents, nous compterons : 
    - Le nombre total de fenêtres : #W
    - Le nombre de fenêtres qui contiennent le mot i, pour chaque mot i : #W(i)
    - Le nombre de fenêtres qui contiennent 2 mots i et j : #W(i,j)
    
Finalement, le PMI se calcule comme suit : 

# INSERER FORMULE

In [20]:
def ordered_word_pair(a, b):
    if a > b:
        return b, a
    else:
        return a, b
        
def update_word_and_word_pair_occurrence(q, W_i, W_ij):
    '''
    Traitement des mots de une fenêtre
    
    q : set d'indices de mots
    '''
    #On utilise un set pour avoir chaque mot une seule fois
    #L'ordre n'est pas important
    unique_q = list(set(q))
    #On retire les mots qui n'apparaissent pas dans le dictionnaire
    #Cad les mots dont la valeur est -1
    if -1 in unique_q:
        unique_q.remove(-1)
    for w in unique_q:
        #Update du nb de fentres ou apparait chaque mot
        try:
            W_i[w] += 1
        except:
            W_i[w] = 1 #Si la valeur n'existe pas encore
    for i in range(len(unique_q)):
        #update du nb de fenetres ou apparait chaque paire
        for j in range(i+1, len(unique_q)):
            #Pour chaque mot j après i 
            word1 = unique_q[i]
            word2 = unique_q[j]
            #On ne veut update que un coté de la matrice
            word1, word2 = ordered_word_pair(word1, word2)
            try:
                W_ij[word1, word2] += 1
            except:
                W_ij[word1, word2] = 1
    return W_i, W_ij

In [21]:
def compute_pmi(tokenized_data_idx, window_size=10, threshold=0.1, min_count=2, normalize=True):

    W = 0 #compte des fenêtres

    W_ij = dict()
    W_i = dict()

    #tokenized_data = liste des mots pour chaque doc
    for words in tqdm(tokenized_data_idx):
        #Pour chaque document, calcul de toutes les fréquences Wi Wij
        #words = liste des indices des mots de 1 doc

        #Initialisation de la fenêtre
        q = []
        for i in range(min(window_size, len(words))):
            #On ajoute à la queue les indices des mots de la fenetre
            #en partant du début du doc
            q.append(words[i])
        #Update du nb de fenetres
        W+=1
        #Update de W(i) et W(i,j)
        W_i, W_ij = update_word_and_word_pair_occurrence(q, W_i, W_ij)

        next_word_idx = window_size
        #Tant qu'on a pas fini le doc, on décale la fenêtre
        while next_word_idx<len(words):
            #On décale la fenêtre
            #En enlevant le premier mot
            q.pop(0)
            #Et en ajoutant le mot suivant (son indice)
            q.append(words[next_word_idx])
            next_word_idx+=1
            W+=1
            W_i, W_ij = update_word_and_word_pair_occurrence(q, W_i, W_ij)  
    
    PMI = dict()
    #Pour chaque mot qui apparaissent ensemble
    for (i,j), Wij in tqdm(W_ij.items()):
        #On ne garde pas les couple qui apparaissent trop peu
        if Wij < min_count:
            continue
        #word freq
        Wi = W_i[i]
        Wj = W_i[j]
        pij = Wij/W
        pi = Wi/W
        pj = Wj/W

        pmi=math.log(pij/(pi*pj))

        #Normalisation du PMI
        if normalize :
            pmi = pmi/(-math.log(pij))
        if pmi > threshold:
            PMI[i,j]=pmi
    return PMI

In [22]:
PMI = compute_pmi(tokenized_data_idx, window_size=10, threshold=0.2, min_count=20, normalize=True)

100%|█████████████████████████████████████| 7674/7674 [00:05<00:00, 1359.56it/s]
100%|██████████████████████████████| 987432/987432 [00:00<00:00, 3226225.84it/s]


# test pmi importé de la librairie convectors (pour tester seulement et comparer ? a virer apres)

In [23]:
from convectors.linguistics import pmi

In [24]:
_pmi = pmi(tokenized_data,
               normalize=True,
               min_count=2,
               window_size=10,
               undirected=True,
               minimum=0.1)

In [25]:
print(len(PMI))
print(len(_pmi))

29782
23969


# 4 Construction du graphe <a name="tfidf"></a>

[Retour table des matières](#up)

Nous allons maintenant construire le graphe.

Pour cela, nous commençons par créer un sommet par mot du vocabulaire, et une arête par couple de mots (qui ont un score PMI supérieur à un certain seuil) avec comme poids le score PMI.

Ensuite nous créons une arête par couple (document, mot

In [None]:
def create_graph(PMI, TFIDF, vocab):
    nodes = set()
    edges = []
    
    #aretes entre les mots
    #list_pmi = list(PMI.items())
    for (u,v), w in PMI.items():
        mot_u = vocab[u]
        mot_v = vocab[v]
        edges.append((mot_u,mot_v,w))
        nodes.add(mot_u)
        nodes.add(mot_v)
    
    l = len(edges)
        
    #aretes entre mots et doc
    rows, cols = TFIDF.nonzero()
    for r, c in zip(rows, cols):
        #r = doc car ils sont sur les lignes
        #c = mot car sur les colonnes
        mot = vocab[c]
        if mot not in nodes:
            continue
        triplet = (r, mot, TFIDF[r,c])
        edges.append(triplet)  
        
    l1 = len(edges)
    #construction du graphe
    G = nx.Graph()
    G.add_nodes_from(range(TFIDF.shape[0]))
    G.add_weighted_edges_from(edges)

    #Ajout des boucles
    for node in G.nodes:
        G.add_edge(node, node, weight=1)
    
    return G

In [None]:
def build_graph(data,
                no_below=1,
                no_above=0.2,
                max_words=100000,
                window_size=10,
                pmi_threshold=0.2,
                min_count=21,
                normalize=True):
    
    word_tok, dictionary = prep(data, no_below, no_above)
    
    TFIDF, tokenized_data, tokenized_data_idx, vocab = compute_tfidf(data, dictionary, word_tok,0)
    
    n_docs, n_words = TFIDF.shape
    
    PMI = compute_pmi(tokenized_data_idx, window_size, pmi_threshold, min_count, normalize)

    G = create_graph(PMI, TFIDF, vocab)
    
    return G

In [None]:
G = build_graph(doc_content_list)

In [None]:
print(G.number_of_nodes())
print(G.number_of_edges())

In [None]:
TFIDF.shape[0]+TFIDF.shape[1]

In [None]:
commu = louvain(G)
print(len(set(commu.values())))

In [None]:
#nx.draw(G)
print(G.number_of_nodes())
print(G.number_of_edges())

In [None]:
#Test avec librairie textgraph

G2 = TextGraph().fit_transform(doc_content_list)
commu2 = louvain(G2)

print(G2.number_of_nodes())
print(G2.number_of_edges())

print(len(set(commu2.values())))

In [None]:
nx.draw(G2)