In [45]:
from sklearn.feature_extraction.text import TfidfVectorizer
from unidecode import unidecode
import string
import nltk
from nltk.corpus import stopwords
from nltk import word_tokenize
from nltk.stem import WordNetLemmatizer
from french_lefff_lemmatizer.french_lefff_lemmatizer import FrenchLefffLemmatizer
import spacy
import numpy as np
import fr_core_news_sm
from sklearn.model_selection import train_test_split

# <span style="color:green; font-family:Georgia; font-size:2.1m;"> Préparation et nettoyage de données

In [46]:
# Corpus de traitement de données
corpus= open("./CorpusM2-AFD/corpus.tache1.learn","r",encoding="latin-1")

In [47]:
# Methode permettant de retourner la cibre soit C ou M
def get_Target(s):
    for i in range(0,len(s)):
        if s[i]== '>':
            return s[i-1]

# Methode permettant de retourner les données X(entrée) et Y(cible) et le corpus sous forme d'une liste 
def get_X_Y(corpus):
    X=[]
    Y=[]
    Data=[]
    Target=[]
    for ligne in corpus:
        data=ligne.split()
        Target.append(data[0])
        Data.append(ligne)
        X.append(" ".join(data[1:]))
        Y.append(get_Target(Target))
    return X,Y,Data,Target

X,Y,data,target=get_X_Y(corpus)
print(X[0:5])
print(Y[0:5])

["Quand je dis chers amis, il ne s'agit pas là d'une formule diplomatique, mais de l'expression de ce que je ressens.", "D'abord merci de cet exceptionnel accueil que les Congolais, les Brazavillois, nous ont réservé cet après-midi.", "C'est toujours très émouvant de venir en Afrique car c'est probablement l'une des rares terres du monde où l'on ait conservé cette convivialité, cette amitié, ce respect de l'autre qui s'expriment avec chaleur, avec spontanéité et qui réchauffent le coeur de ceux qui arrivent et de ceux qui reçoivent.", 'Aucun citoyen français ne peut être indifférent à un séjour à Brazzaville.', 'Le Congo, que naguère le <nom> qualifia de "refuge pour la liberté", de "base de départ pour la libération", de "môle pour la Résistance", comment ne pas être heureux de s\'y retrouver ?']
[None, None, None, None, None]


In [48]:
# Methode permettant de transformer une lettre en majuscule à une lettre en miniscule  
def Transformer_MajusculesToMinuscules(l):
    X=[]
    for element in l:
            X.append(element.lower())
    return X
print("Transformer_MajusculesToMinuscules: ")
X = Transformer_MajusculesToMinuscules(X)
print(X[0:5])

Transformer_MajusculesToMinuscules: 
["quand je dis chers amis, il ne s'agit pas là d'une formule diplomatique, mais de l'expression de ce que je ressens.", "d'abord merci de cet exceptionnel accueil que les congolais, les brazavillois, nous ont réservé cet après-midi.", "c'est toujours très émouvant de venir en afrique car c'est probablement l'une des rares terres du monde où l'on ait conservé cette convivialité, cette amitié, ce respect de l'autre qui s'expriment avec chaleur, avec spontanéité et qui réchauffent le coeur de ceux qui arrivent et de ceux qui reçoivent.", 'aucun citoyen français ne peut être indifférent à un séjour à brazzaville.', 'le congo, que naguère le <nom> qualifia de "refuge pour la liberté", de "base de départ pour la libération", de "môle pour la résistance", comment ne pas être heureux de s\'y retrouver ?']


In [49]:
# Methode permettant de lemmatiser les mots (verbre conjugué devient infinitif et pluriel devient singulier )
def Lemmatisation(X):
    nlp = spacy.load("fr")
    NewList=[]
    for sentence in X:
        new_sentence=[]
        sentence = nlp(sentence)
        new_sentence =[word.lemma_ for word in sentence]
        NewList.append(' '.join([str(elem) for elem in new_sentence]))
    return NewList

print("Lemmatisation: ")
X = Lemmatisation(X)
print(X[0:5])

Lemmatisation: 
['quand je dis cher ami , il ne se agir pas là de un formule diplomatique , mais de le expression de ce que je ressentir .', 'de abord merci de ce exceptionnel accueil que le congolais , le brazavilloi , nous avoir réserver ce après-midi .', 'ce être toujours très émouvoir de venir en afrique car ce être probablement le un un rare terre de monde où le on avoir conserver ce convivialité , ce amitié , ce respect de le autre qui se exprimer avec chaleur , avec spontanéité et qui réchauffer le coeur de celui qui arriver et de celui qui recevoir .', 'aucun citoyen français ne pouvoir être indifférer à un séjour à brazzaville .', 'le congo , que naguère le < nom > qualifia de " refuge pour le liberté " , de " base de départ pour le libération " , de " môle pour le résistance " , comment ne pas être heureux de se y retrouver ?']


In [50]:
# Methode permettant d'enlever les stop words (de , sur, le, nous, je, déjà, plusieurs) 
def Stop_Words(X):
    stop_words = set(stopwords.words('french'))
    listToStr=[]
    for sentence in X:
        wordsFiltered=[]
        sentence=sentence.split()
        for word in sentence:
            if word not in stop_words:
                wordsFiltered.append(word)
        listToStr.append(' '.join([str(elem) for elem in wordsFiltered]))
    return listToStr

print("Stop_Words: ")
X = Stop_Words(X)
print(X[0:5])

Stop_Words: 
['quand dis cher ami , agir là formule diplomatique , expression ressentir .', 'abord merci exceptionnel accueil congolais , brazavilloi , avoir réserver après-midi .', 'être toujours très émouvoir venir afrique car être probablement rare terre monde où avoir conserver convivialité , amitié , respect autre exprimer chaleur , spontanéité réchauffer coeur celui arriver celui recevoir .', 'aucun citoyen français pouvoir être indifférer séjour brazzaville .', 'congo , naguère < nom > qualifia " refuge liberté " , " base départ libération " , " môle résistance " , comment être heureux retrouver ?']


In [51]:
# Methode permettant d'enlever les ponctuations
def Remove_Punctuation(X):
    list=[]
    for sentence in X:
        stripped=[]
        table = str.maketrans('', '', string.punctuation)
        sentence=sentence.split()
        stripped = [word.translate(table) for word in sentence]
        list.append(' '.join([str(elem) for elem in stripped]))
    return list

print("Remove_Punctuation: ")
X = Remove_Punctuation(X)
print(X[0:5])

Remove_Punctuation: 
['quand dis cher ami  agir là formule diplomatique  expression ressentir ', 'abord merci exceptionnel accueil congolais  brazavilloi  avoir réserver aprèsmidi ', 'être toujours très émouvoir venir afrique car être probablement rare terre monde où avoir conserver convivialité  amitié  respect autre exprimer chaleur  spontanéité réchauffer coeur celui arriver celui recevoir ', 'aucun citoyen français pouvoir être indifférer séjour brazzaville ', 'congo  naguère  nom  qualifia  refuge liberté    base départ libération    môle résistance   comment être heureux retrouver ']


In [52]:
# Methode retourne le TFIDF de chaque phrase ou bien donnée d'entrée
def Tf_IDF(X):
    vectorizer = TfidfVectorizer(ngram_range=(1,5),min_df=2)
    X_tfidf = vectorizer.fit_transform(X)
    return X_tfidf,vectorizer

print("Tf_IDF: ")
X_tfifd,vect = Tf_IDF(X)
print(X_tfifd.shape)
print(np.sum(X_tfifd[0].toarray()))
print(np.sum(X_tfifd[1].toarray()))

print(np.sum(X_tfifd[15].toarray()))
print(np.sum(X_tfifd[16].toarray()))

Tf_IDF: 
(57413, 143983)
4.102251963804088
3.4387924624451607
3.997048371667066
1.920866138884879


In [53]:
# Methode permettant de changer la lettre de target sous forme d'entier soit 1 pour M et -1 pour C
def Convertir_Target_ToBis(Y):
    New_list_Target=[]
    for y in Y:
        if y=='M':
            New_list_Target.append(1)
        else:
            New_list_Target.append(-1)

    return New_list_Target

# Methode permettant de changer l'entier de target sous forme de lettre soit M pour 1 et C pour -1
def Convertir_Target_ToLetter(Y):
    New_list_Target=[]
    for y in Y:
        if y==1:
            New_list_Target.append('M')
        else:
            New_list_Target.append('C')

    return New_list_Target

Y = Convertir_Target_ToBis(Y)
print(Y[0:100])

[-1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1]


In [54]:
# il permet de separer le corpus en deux corpus (corpus d'entrainement et corpus de Test) et recuperer leur valeurs d'entrées et de sorties
X_train, X_test, y_train, y_test = train_test_split(X_tfifd, Y, test_size=0.2,shuffle=False)

print(X_train.shape)
print(X_test.shape)

(45930, 143983)
(11483, 143983)


In [55]:
# Methode permettant de retourner les indices de debut et de fin de chaque allocution 
def discours(data,deb,X_tfifd):
    res = []
    fin = X_tfifd.shape[0]
    ideb = 0
    ifin = -1
    new = 0
    for i in range(deb,fin):
        doc1 = data[i].split(' ')
        doc2 = doc1[0].split(':')
        if(doc2[0][1:] != new):
            ifin += 1
            res.append([ideb,ifin])
            new = doc2[0][1:]
            ideb = ifin
        else:
            ifin += 1
    res.append([ideb,ifin + 1])
    return res[1:]
allocutions = discours(data,X_train.shape[0],X_tfifd)
print("Allocutions: ")
print(allocutions)

Allocutions: 
[[0, 12], [12, 62], [62, 173], [173, 299], [299, 380], [380, 483], [483, 642], [642, 691], [691, 789], [789, 807], [807, 1107], [1107, 1162], [1162, 1262], [1262, 1364], [1364, 1409], [1409, 1509], [1509, 1556], [1556, 1718], [1718, 1791], [1791, 1968], [1968, 2245], [2245, 2306], [2306, 2318], [2318, 2443], [2443, 2466], [2466, 2586], [2586, 2694], [2694, 2724], [2724, 2830], [2830, 2873], [2873, 2932], [2932, 3098], [3098, 3231], [3231, 3295], [3295, 3336], [3336, 3378], [3378, 3397], [3397, 3551], [3551, 3652], [3652, 3849], [3849, 3881], [3881, 3938], [3938, 3976], [3976, 4156], [4156, 4352], [4352, 4572], [4572, 4636], [4636, 4683], [4683, 4815], [4815, 4944], [4944, 5047], [5047, 5092], [5092, 5279], [5279, 5344], [5344, 5421], [5421, 5585], [5585, 5615], [5615, 5671], [5671, 5894], [5894, 5969], [5969, 6005], [6005, 6146], [6146, 6390], [6390, 6504], [6504, 6655], [6655, 6704], [6704, 6815], [6815, 6841], [6841, 6969], [6969, 7111], [7111, 7149], [7149, 7180], [718

In [56]:
# Methode permettant de faire le premier post traitement 
def post_traitement_1(tab):
    res = [tab[0]]
    for i in range(1,len(tab)-1):
        if tab[i+1] == 1 or tab[i-1] == 1:
            res.append(1)
        else:
            res.append(tab[i])
    res.append(tab[len(tab)-1])
    return res

In [57]:
# Python program to print largest contiguous array sum 
from sys import maxsize 

# Methode permettant de trouver le maximum contiguous subarray et afficher ses indices de depart et de fin
def maxSubArraySum(a,size): 

    max_so_far = -maxsize - 1
    max_ending_here = 0
    start = 0
    end = 0
    s = 0

    for i in range(0,size): 

        max_ending_here += a[i] 

        if max_so_far < max_ending_here: 
            max_so_far = max_ending_here 
            start = s 
            end = i 

        if max_ending_here < 0: 
            max_ending_here = 0
            s = i+1
    return start,end

In [58]:
# Methode permettant d'appliquer le maximum contiguous subarray sur une seul allocution
def post_traitement_2_aux(tab):
    deb,fin = maxSubArraySum(tab,len(tab))
    if(deb == 0 and fin == 0):
        return np.asarray(tab)
    else:
        res = []
        for i in range(0,deb):
            res.append(-1)
        for i in range(deb,fin+1):
            res.append(1)
        for i in range(fin+1,len(tab)):
            res.append(-1)
    return res

In [59]:
# Methode permettant d'appliquer le maximum contiguous subarray sur toutes les allocutions
def post_traitement_2(tab):
    res_tot = []
    i = 0
    for t in allocutions:      
        res_t = post_traitement_2_aux(post_traitement_1(tab[t[0]:t[1]]))
        res_tot = np.concatenate([res_tot, res_t]).astype(int)
    return res_tot

# <span style="color:green; font-family:Georgia; font-size:2.1m;"> Classifieur 1

In [None]:
# Premier classifieur sur la regression logistique
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

clf_LOG = LogisticRegression(solver='lbfgs',multi_class='multinomial')
clf_LOG.fit(X_train, y_train)

y_pred_1 = clf_LOG.predict(X_test)
y_pred_1 =post_traitement_2(y_pred_1)

clf_LOG.score(X_test, y_test)
print(classification_report(y_test,y_pred_1))
print(accuracy_score(y_test, y_pred_1))

# <span style="color:green; font-family:Georgia; font-size:2.1m;">  Classifieur 2

In [None]:
# Deuxième classifieur sur le SVM (Séparateur à vaste marge)
from sklearn.svm import LinearSVC

clf_SVC = LinearSVC()
clf_SVC.fit(X_train, y_train)

y_pred_2 = clf_SVC.predict(X_test)
y_pred_2 =post_traitement_2(y_pred_2)

clf_SVC.score(X_test, y_test)
print(classification_report(y_test,y_pred_2))
print(accuracy_score(y_test, y_pred_2))

# <span style="color:green; font-family:Georgia; font-size:2.1m;">  Classifieur 3

In [None]:
# Troisième classifieur sur Linear Discriminant Analysis
from sklearn.linear_model import Perceptron

clf_P = Perceptron(tol=1e-3, random_state=0)
clf_P.fit(X_train, y_train)

y_pred_3 = clf_P.predict(X_test)
y_pred_3 = post_traitement_2(y_pred_3)

clf_P.score(X_test, y_test)
print(classification_report(y_test,y_pred_3))
print(accuracy_score(y_test, y_pred_3))

# <span style="color:green; font-family:Georgia; font-size:2.1m;"> Prédictions sur les données du fichier tache1.test 

In [None]:
####################################
# Corpus de traitement de données
####################################
corpus_tache1_test= open("./CorpusM2-AFD/corpus.tache1.test","r",encoding="latin-1")

In [None]:
##############################
# Recuperation des données
##############################
X_Test_1,Y,data,Target_Test_1=get_X_Y(corpus_tache1_test)

############################
# Traitement des données
############################
print("Transformer_MajusculesToMinuscules: ")
X_Test_1 = Transformer_MajusculesToMinuscules(X_Test_1)

print("Lemmatisation: ")
X_Test_1 = Lemmatisation(X_Test_1)

print("Stop_Words: ")
X_Test_1 = Stop_Words(X_Test_1)

print("Remove_Punctuation: ")
X_Test_1 = Remove_Punctuation(X_Test_1)

print("Tf_IDF: ")
X_Test_1 = vect.transform(X_Test_1)

allocutions = discours(data,0,X_Test_1)

In [None]:
#######################################
# Prédictions du premier classifieur
#######################################
y_pred_1 = clf_LOG.predict(X_Test_1)
y_pred_1 =post_traitement_2(y_pred_1)
y_pred_1=Convertir_Target_ToLetter(y_pred_1)
Classifieur_1_tache1_test = open("corpus.tache1.pred1","w") 

for (t,lettre) in zip(Target_Test_1,y_pred_1):
    t=t.strip(">")
    Classifieur_1_tache1_test.write(t+":"+lettre+">\n") 

Classifieur_1_tache1_test.close() 

########################################
# Prédictions du deuxième classifieur
########################################
y_pred_2 = clf_SVC.predict(X_Test_1)
y_pred_2 =post_traitement_2(y_pred_2)
y_pred_2=Convertir_Target_ToLetter(y_pred_2)

Classifieur_2_tache1_test = open("corpus.tache1.pred2","w") 

for (t,lettre) in zip(Target_Test_1,y_pred_2):
    t=t.strip(">")
    Classifieur_2_tache1_test.write(t+":"+lettre+">\n") 

Classifieur_2_tache1_test.close() 

#########################################
# Prédictions du troisième classifieur
#########################################
y_pred_3 = clf_P.predict(X_Test_1)
y_pred_3 =post_traitement_2(y_pred_3)
y_pred_3=Convertir_Target_ToLetter(y_pred_3)

Classifieur_3_tache1_test = open("corpus.tache1.pred3","w") 

for (t,lettre) in zip(Target_Test_1,y_pred_3):
    t=t.strip(">")
    Classifieur_3_tache1_test.write(t+":"+lettre+">\n") 

Classifieur_3_tache1_test.close() 

# <span style="color:green; font-family:Georgia; font-size:2.1m;"> Prédictions sur les données du fichier tache2.test 

In [None]:
####################################
# Corpus de traitement de données
####################################
corpus_tache2_test= open("./CorpusM2-AFD/corpus.tache2.test","r",encoding="latin-1")

In [None]:
#############################
# Recuperation des données
#############################
X_Test_2,Y,data,Target_Test_2=get_X_Y(corpus_tache2_test)

############################
# Traitement des données
############################
print("Transformer_MajusculesToMinuscules: ")
X_Test_2 = Transformer_MajusculesToMinuscules(X_Test_2)

print("Lemmatisation: ")
X_Test_2 = Lemmatisation(X_Test_2)

print("Stop_Words: ")
X_Test_2 = Stop_Words(X_Test_2)

print("Remove_Punctuation: ")
X_Test_2 = Remove_Punctuation(X_Test_2)

print("Tf_IDF: ")
X_Test_2 = vect.transform(X_Test_2)

allocutions = discours(data)

In [None]:
#########################################
# Prédictions du premier classifieur
#########################################
y_pred_1 = clf_LOG.predict(X_Test_2)
y_pred_1 =post_traitement_2(y_pred_1)
y_pred_1=Convertir_Target_ToLetter(y_pred_1)

Classifieur_1_tache2_test = open("corpus.tache2.pred1","w") 
for (t,lettre) in zip(Target_Test_2,y_pred_1):
    t=t.strip(">")
    Classifieur_1_tache2_test.write(t+":"+lettre+">\n") 
Classifieur_1_tache2_test.close() 

#########################################
# Prédictions du deuxième classifieur
#########################################
y_pred_2 = clf_SVC.predict(X_Test_2)
y_pred_2 =post_traitement_2(y_pred_2)
y_pred_2=Convertir_Target_ToLetter(y_pred_2)

Classifieur_2_tache2_test = open("corpus.tache2.pred2","w") 
for (t,lettre) in zip(Target_Test_2,y_pred_2):
    t=t.strip(">")
    Classifieur_2_tache2_test.write(t+":"+lettre+">\n") 
Classifieur_2_tache2_test.close() 

#########################################
# Prédictions du troisième classifieur
#########################################
y_pred_3 = clf_P.predict(X_Test_2)
y_pred_3 =post_traitement_2(y_pred_3)
y_pred_3=Convertir_Target_ToLetter(y_pred_3)

Classifieur_3_tache2_test = open("corpus.tache2.pred3","w") 
for (t,lettre) in zip(Target_Test_2,y_pred_3):
    t=t.strip(">")
    Classifieur_3_tache2_test.write(t+":"+lettre+">\n") 
Classifieur_3_tache2_test.close() 