##Importations
- codecs pour les encodages
- pandas et numpy pour les calculs sur tableaux
- matplotlib pour les graphiques
- itertools pour les itérateurs sophistiqués (paires sur liste, ...)

In [71]:
# -*- coding: utf8 -*-
import codecs
import features
import re
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import itertools as it
import pickle
import networkx as nx
#%pylab inline
#pd.options.display.mpl_style = 'default'
debug=False
from __future__ import print_function

###Préparation des matrices de traits

In [72]:
features.add_config('bdlexique.ini')
fs=features.FeatureSystem('phonemes')

In [73]:
samplePrefix="MGC-150812-3000-1508140124-paradigmes"
sampleFile=samplePrefix+".csv"
goldFile="MGC-150815-total-1508150555-paradigmes.csv"
analysisPrefix="MGC-150805-total"
logfile_name=analysisPrefix+samplePrefix+".log"
logfile = codecs.open(logfile_name,mode='w',encoding="utf8")

###Préparation des cases du paradigme

In [74]:
casesPrincipales= [
        'inf', 'pi1S', 'pi2S', 'pi3S', 'pi1P', 'pi2P', 'pi3P', 'ii1S',
        'ii2S', 'ii3S', 'ii1P', 'ii2P', 'ii3P', 
        'fi1S', 'fi2S', 'fi3S', 'fi1P', 'fi2P',
        'fi3P', 'pI2S', 'pI1P', 'pI2P', 'ps1S', 'ps2S', 'ps3S', 'ps1P',
        'ps2P', 'ps3P', 
        'pc1S', 'pc2S', 'pc3S', 'pc1P', 'pc2P', 'pc3P', 'pP',
        'ppMS', 'ppMP', 'ppFS', 'ppFP'
            ]
casesSecondaires= [
       'ai1S', 'ai2S', 'ai3S', 'ai1P', 'ai2P', 'ai3P', 'is1S', 'is2S', 'is3S', 'is1P', 'is2P', 'is3P'
            ]
casesTotales=casesPrincipales+casesSecondaires

#Préparation du calcul des analogies

###Calcul de la différence entre deux formes

In [75]:
def diff(mot1,mot2):
    result=[]
    diff1=""
    diff2=""
    same=""
    vide="."
    lmax=max(len(mot1),len(mot2))
    lmin=min(len(mot1),len(mot2))
    for index in range(lmax):
        if index < lmin:
            if mot1[index]!=mot2[index]:
                diff1+=mot1[index]
                diff2+=mot2[index]
                same+=vide
            else:
                same+=mot1[index]
                diff1+=vide
                diff2+=vide
        elif index < len(mot1):
            diff1+=mot1[index]
        elif index < len(mot2):
            diff2+=mot2[index]
    diff1=diff1.lstrip(".")
    diff2=diff2.lstrip(".")
#    return (same,diff1,diff2,diff1+"_"+diff2)
    return (diff1+"-"+diff2)

###Accumulation des paires appartenant à un patron

In [76]:
def rowDiff(row, patrons):
    result=diff(row[0],row[1])
    if not result in patrons:
        patrons[result]=(formesPatron(),formesPatron())
    patrons[result][0].ajouterFormes(row[0])
    patrons[result][1].ajouterFormes(row[1])
    return (result[0],result[1])

###Transformation d'un patron en RegExp

In [77]:
def patron2regexp(morceaux):
    result="^"
    for morceau in morceaux:
        if morceau=="*":
            result+="(.*)"
        elif len(morceau)>1:
            result+="(["+morceau+"])"
        else:
            result+=morceau
    result+="$"
    result=result.replace(")(","")
    return result

###Substitution de sortie 
???

In [78]:
def remplacementSortie(sortie):
    n=1
    nsortie=""
    for lettre in sortie:
        if lettre==".":
            nsortie+="\g<%d>"%n
            n+=1
        else:
            nsortie+=lettre
    return nsortie

In [79]:
class formesPatron:
    '''
    Accumulateur de formes correspondant à un patron pour calcul de la Généralisation Minimale (cf. MGL)
    '''
    def __init__(self):
        self.formes=[]

#    def __repr__(self):
#        return ','.join(self.calculerGM())
        
    def ajouterForme(self,forme):
        self.formes.append(forme)
        
    def calculerGM(self):
        minLongueur=len(min(self.formes, key=len))
        maxLongueur=len(max(self.formes, key=len))
        if debug: print (minLongueur, maxLongueur, file=logfile)
        positions=[]
        if maxLongueur>minLongueur:
            positions.append("*")
        for i in xrange(minLongueur, 0, -1):
            phonemes=set([x[-i] for x in self.formes])
            if debug: print (phonemes, file=logfile)
            if "." in phonemes:
                positions.append(".")
            else:
                positions.append("".join(fs.lattice[phonemes].extent))
        return patron2regexp(positions)

class pairePatrons:
    '''
    Accumulateur de triplets (f1,f2,patron) correspondant à une paire pour calcul des Généralisations Minimales (cf. MGL)
    '''
    def __init__(self,case1,case2):
        self.patrons1={}
        self.patrons2={}
        self.case1=case1
        self.case2=case2

#    def __repr__(self):
#        return ','.join(self.calculerGM())
        
    def ajouterFormes(self,forme1,forme2,patron):
#        print (forme1,forme2,patron, file=logfile)
        patron12=patron
        (pat1,pat2)=patron.split("-")
        patron21=pat2+"-"+pat1
#        print (patron12,patron21, file=logfile)
        if not patron12 in self.patrons1:
            self.patrons1[patron12]=formesPatron()
        self.patrons1[patron12].ajouterForme(forme1)
        if not patron21 in self.patrons2:
            self.patrons2[patron21]=formesPatron()
        self.patrons2[patron21].ajouterForme(forme2)
        
        
    def calculerGM(self):
        resultat1={}
        for patron in self.patrons1:
            if debug: print ("patron1", patron, file=logfile)
            resultat1[patron]=self.patrons1[patron].calculerGM()
        resultat2={}
        for patron in self.patrons2:
            if debug: print ("patron2", patron, file=logfile)
            resultat2[patron]=self.patrons2[patron].calculerGM()
        return (resultat1,resultat2) 

#Classe pour la gestion des patrons, des classes et des transformations

In [80]:
class paireClasses:
    def __init__(self,case1,case2):
        self.case1=case1
        self.case2=case2
        self.nom=case1+"-"+case2
        self.classes1=classesPaire(case1,case2)
        self.classes2=classesPaire(case2,case1)

    def ajouterPatron(self,n,patron,motif):
        if n==1:
            self.classes1.ajouterPatron(patron,motif)
        elif n==2:
            self.classes2.ajouterPatron(patron,motif)
        else:
            print ("le numéro de forme n'est pas dans [1,2]",n,file=logfile)

    def ajouterPaire(self,forme1,forme2):
        self.classes1.ajouterPaire(forme1,forme2)
        self.classes2.ajouterPaire(forme2,forme1)
        
    def calculerClasses(self):
        return(self.classes1,self.classes2)

    
class classesPaire:
    '''
    Gestion des patrons, des classes et des transformations
    
    ajouterPatron : ajoute un patron et son motif associé (MGL)
    ajouterPaire : ajoute une paire de formes, calcule la classe de la forme1 et la règle sélectionnée
    sortirForme : cacule les formes de sortie correspondant à la forme1 avec leurs coefficients respectifs
    '''
    def __init__(self,case1,case2):
        self.case1=case1
        self.case2=case2
        self.nom=case1+"-"+case2
        self.classe={}
        self.nbClasse={}
        self.patrons={}
        self.entree={}
        self.sortie={}
    
    def ajouterPatron(self,patron,motif):
        self.patrons[patron]=motif
        (entree,sortie)=patron.split("-")
        self.entree[patron]=entree.replace(u".",u"(.)")
        self.sortie[patron]=remplacementSortie(sortie)
    
    def ajouterPaire(self,forme1,forme2):
        '''
        on calcule la classe de la paire idClasseForme et la règle sélectionnée
        on incrémente le compteur de la classe et celui de la règle sélectionnée à l'intérieur de la classe
        '''
        classeForme=[]
        regleForme=""
        for patron in self.patrons:
            if re.match(self.patrons[patron],forme1):
                classeForme.append(patron)
                '''
                le +"$" permet de forcer l'alignement à droite pour les transformations suffixales
                '''
                if forme2==re.sub(self.entree[patron]+"$",self.sortie[patron],forme1):
                    regleForme=patron
        idClasseForme=", ".join(classeForme)
        if not idClasseForme in self.classe:
            self.classe[idClasseForme]={}
            self.nbClasse[idClasseForme]=0
        if not regleForme in self.classe[idClasseForme]:
            self.classe[idClasseForme][regleForme]=0
        self.nbClasse[idClasseForme]+=1
        self.classe[idClasseForme][regleForme]+=1

    def sortirForme(self,forme):
        classeForme=[]
        sortieForme={}
        for patron in self.patrons:
            if re.match(self.patrons[patron],forme):
                classeForme.append(patron)
        if classeForme:
            idClasseForme=", ".join(classeForme)
            if idClasseForme in self.nbClasse:
                nTotal=self.nbClasse[idClasseForme]
                for patron in self.classe[idClasseForme]:
                    sortie=re.sub(self.entree[patron]+"$",self.sortie[patron],forme)
                    sortieForme[sortie]=float(self.classe[idClasseForme][patron])/nTotal
            else:
                if debug:
                    print (forme, file=logfile)
                    print ("pas de classe",idClasseForme, file=logfile)
                    print ("%.2f par forme de sortie" % (float(1)/len(classeForme)), file=logfile)
                nTotal=len(classeForme)
                for patron in classeForme:
                    sortie=re.sub(self.entree[patron]+"$",self.sortie[patron],forme)
                    sortieForme[sortie]=float(1)/nTotal
        else:
            print (forme, file=logfile) 
            print ("pas de patron", file=logfile)
        return sortieForme
        

##Appliquer la formule de calcul des différences entre chaines à chaque ligne

>si il y a au moins une ligne

>>on applique la différence à la ligne

>>on calcule les deux patrons par suppression des points initiaux

>>on renvoie le groupement par patrons (1&2)

>sinon

>>on renvoie le paradigme vide d'origine

In [81]:
def OLDrapports(paradigme):
    (case1,case2,lexeme)= paradigme.columns.values.tolist()
    patrons=pairePatrons(case1,case2)
    if len(paradigme)>0:
#        for index, row in paradigme.iterrows():
#            patrons.ajouterFormes(row[0],row[1],diff(row[0],row[1]))
        paradigme.apply(lambda x: patrons.ajouterFormes(x[case1],x[case2],diff(x[case1],x[case2])), axis=1)
        (regles1,regles2)=patrons.calculerGM()
    return patrons.calculerGM()

In [82]:
def rapports(paradigme):
    if len(paradigme.columns.values.tolist())==2:
        (case1,lexeme)= paradigme.columns.values.tolist()
        case2=case1
    else:
        (case1,case2,lexeme)= paradigme.columns.values.tolist()
    patrons=pairePatrons(case1,case2)
    classes=paireClasses(case1,case2)
    if len(paradigme)>0:
        paradigme.apply(lambda x: patrons.ajouterFormes(x[case1],x[case2],diff(x[case1],x[case2])), axis=1)
        (regles1,regles2)=patrons.calculerGM()
        for regle in regles1:
            classes.ajouterPatron(1,regle,regles1[regle])
        for regle in regles2:
            classes.ajouterPatron(2,regle,regles2[regle])
        paradigme.apply(lambda x: classes.ajouterPaire(x[case1],x[case2]), axis=1)
    (classes1,classes2)=classes.calculerClasses()
    return (classes1,classes2)

###Dédoubler les lignes avec des surabondances dans *colonne*
>identifier une ligne avec surabondance

>>ajouter les lignes correspondant à chaque valeur

>>ajouter le numéro de la ligne initiale dans les lignes à supprimer

>supprimer les lignes avec surabondance

NB : il faut préparer le tableau pour avoir une indexation qui permette l'ajout des valeurs individuelles et la suppression des lignes de surabondances

In [83]:
def splitCellMates(df,colonne):
    '''
    Calcul d'une dataframe sans surabondance par dédoublement des valeurs
    '''
    test=df.reset_index()
    del test["index"]
    splitIndexes=[]
    for index,ligne in test.iterrows():
        if "," in ligne[colonne]:
            valeurs=set(ligne[colonne].split(","))
            nouvelleLigne=ligne
            for valeur in valeurs:
                nouvelleLigne[colonne]=valeur
                test=test.append(nouvelleLigne,ignore_index=True)
            splitIndexes.append(index)
    if splitIndexes:
        test=test.drop(test.index[splitIndexes])
    return test


In [84]:
paradigmes=pd.read_csv(sampleFile,sep=";",encoding="utf8")
del paradigmes[u"Unnamed: 0"]

In [85]:
GOLD=pd.read_csv(goldFile,sep=";",encoding="utf8")
del GOLD[u"Unnamed: 0"]
paradigmesGOLD=GOLD[paradigmes.columns.values.tolist()]

- listeCases pour la liste des cases effectivement représentées dans le corpus de départ 

In [86]:
listeCases=paradigmes.columns.values.tolist()
listeCases.remove(u"lexeme")

In [87]:
paradigmes.stack().value_counts(dropna=True).sum()

4000

In [88]:
with open(analysisPrefix+'-Regles.pkl', 'rb') as input:
    resultatsLecture = pickle.load(input)

In [89]:
class paradigmeDistribution:
    '''
    Gestion des distributions dans les cases du paradigme
    '''

    def __init__(self,lexeme):
        self.lexeme=lexeme
        self.formes={i:{} for i in casesTotales}

    def ajouterFormes(self,case,formes,coef=1.0):
        for forme in formes:
            if not forme in self.formes[case]:
                self.formes[case][forme]=0
            self.formes[case][forme]+=formes[forme]*coef
            
    def normaliserDistributions(self,caseListe=casesTotales):
        normalesDistributions={i:{} for i in caseListe}
        for case in caseListe:
            total=0
            for element in self.formes[case]:
                total+=self.formes[case][element]
            for element in self.formes[case]:
                normalesDistributions[case][element]=float(self.formes[case][element])/total
        return normalesDistributions
        

In [90]:
def generateForms(lexeme):
    candidats=paradigmeDistribution(lexeme)
    for forme in listeCases:
        if not pd.isnull(paradigmes[paradigmes["lexeme"]==lexeme][forme].iloc[0]):
            depart=paradigmes[paradigmes["lexeme"]==lexeme][forme].iloc[0]
            if debug: print (forme,depart, file=logfile)
            if depart!="nan":
                for case in casesTotales:
                    if debug: print (case, file=logfile)
                    if not isinstance(resultatsLecture[(forme, case)],str):
                        if "," in depart:
                            departs=depart.split(",")
                            coef=1.0/len(departs)
                            for element in departs:
                                candidats.ajouterFormes(case,resultatsLecture[(forme, case)].sortirForme(element),coef)
                        else:
                            candidats.ajouterFormes(case,resultatsLecture[(forme, case)].sortirForme(depart))
                    else: print ("str", resultatsLecture[(forme, case)], file=logfile)
    return candidats

In [91]:
def ajouterPoint(lexeme,forme,case):
    pointName="%s-%s-%s"%(lexeme,forme,case)
#    if not pointName in digraphe.nodes():
    digraphe.add_node(pointName)
    graphe.add_node(pointName)
    return pointName

def ajouterFleche(depart,sortie,coef):
    digraphe.add_edge(depart,sortie,weight=float(coef))
    if digraphe.has_edge(sortie,depart):
        coefGraphe=float(digraphe.edge[sortie][depart]["weight"]+coef)/2
        graphe.add_edge(depart,sortie,weight=coefGraphe)

In [92]:
def generateParadigms(generation1):
    lexeme=generation1.lexeme
    distributionInitiale=generation1.normaliserDistributions()
    candidats=paradigmeDistribution(lexeme)
    for caseDepart in casesTotales:
        for formeDepart in distributionInitiale[caseDepart]:
            if formeDepart:
                pointDepart=ajouterPoint(lexeme,formeDepart,caseDepart)
                coefDepart=distributionInitiale[caseDepart][formeDepart]
                if debug: print (caseDepart,formeDepart, file=logfile)
                for caseSortie in casesTotales:
                    distributionSortie=resultatsLecture[(caseDepart, caseSortie)].sortirForme(formeDepart)
                    if distributionSortie:
                        if debug: print (caseSortie,distributionSortie,distributionInitiale[caseDepart], file=logfile)
                        candidats.ajouterFormes(caseSortie,distributionSortie,distributionInitiale[caseDepart][formeDepart])
                        for formeSortie in distributionSortie:
                            pointSortie=ajouterPoint(lexeme,formeSortie,caseSortie)
                            coefSortie=distributionSortie[formeSortie]
                            ajouterFleche(pointDepart,pointSortie,float(coefDepart*coefSortie))
    return candidats

In [106]:
def generate(lexeme):
    print ("génération 1",end=", ")
    generation1=generateForms(lexeme)
    print ("génération 2",end=", ")
    generation2=generateParadigms(generation1)
    print ("génération 3")
    return generation2

In [107]:
len(paradigmes.dropna(thresh=3)["lexeme"])

501

In [108]:
%%time
debug=True
listeTest=[u"manger",u"boire",u"dormir",u"aller",u"avoir"]
listeTest=paradigmes.dropna(thresh=3)["lexeme"].values.tolist()
digraphe=nx.DiGraph()
graphe=nx.Graph()
for i,element in enumerate(listeTest):
    print (i,end=", ")
    generate(element)

0, génération 1, génération 2, génération 3
1, génération 1, génération 2, génération 3
2, génération 1, génération 2, génération 3
3, génération 1, génération 2, génération 3
4, génération 1, génération 2, génération 3
5, génération 1, génération 2, génération 3
6, génération 1, génération 2, génération 3
7, génération 1, génération 2, génération 3
8, génération 1, génération 2, génération 3
9, génération 1, génération 2, génération 3
10, génération 1, génération 2, génération 3
11, génération 1, génération 2, génération 3
12, génération 1, génération 2, génération 3
13, génération 1, génération 2, génération 3
14, génération 1, génération 2, génération 3
15, génération 1, génération 2, génération 3
16, génération 1, génération 2, génération 3
17, génération 1, génération 2, génération 3
18, génération 1, génération 2, génération 3
19, génération 1, génération 2, génération 3
20, génération 1, génération 2, génération 3
21, génération 1, génération 2, génération 3
22, génération 1, gé

In [109]:
#nx.write_dot(digraphe,u"digraphe.dot")
#nx.write_dot(graphe,u"graphe.dot")

In [110]:
cliques=list(nx.algorithms.clique.find_cliques(graphe))

In [111]:
for element in listeTest:
    print (element,paradigmes[paradigmes["lexeme"]==element].stack().value_counts(dropna=True).sum()-1)
for element in listeTest:
    print (paradigmes[paradigmes["lexeme"]==element].stack())

abandonner 4
abattre 3
accepter 2
accompagner 2
accomplir 2
accorder 2
accrocher 2
acheter 6
achever 2
admettre 4
admirer 2
adopter 2
adorer 3
adoucir 2
adresser 3
agacer 2
agir 4
agiter 2
aider 11
aimer 22
ajouter 5
aller 23
allonger 3
allumer 2
amener 5
amuser 6
annoncer 3
anéantir 2
apercevoir 6
apparaître 3
appartenir 2
appeler 13
applaudir 2
apporter 7
apprendre 6
approcher 6
approuver 2
apprécier 2
arranger 8
arriver 14
arrêter 15
asseoir 12
assurer 3
attaquer 5
atteindre 3
attendre 16
attirer 2
attraper 2
avancer 4
avertir 3
avoir 25
avouer 2
baigner 3
baiser 3
baptiser 3
basculer 2
battre 3
boire 4
bosser 3
bouffer 2
bouger 5
bousculer 3
briser 2
brûler 6
bâtir 2
bénir 2
cacher 8
calmer 7
caresser 2
casser 6
causer 4
cesser 4
changer 6
chanter 4
charger 4
chasser 3
chercher 12
chier 2
choisir 5
chuchoter 4
claquer 3
cogner 2
coincer 2
coller 2
commander 5
commencer 12
comprendre 13
compter 7
concerner 4
conclure 2
condamner 3
conduire 5
confirmer 3
confondre 5
connaître 14
cons

##Comparer la sortie des cliques avec le tableau de conjugaison normal

In [112]:
seuilClique=40
#paradigmesCLIQUES=pd.DataFrame(columns=paradigmes.columns.values.tolist())
paradigmesListe=[]
for n,clique in enumerate(sorted(cliques,key=lambda x: len(x),reverse=True)):
    if len(clique)>seuilClique:
        paradigmeClique={}
        sampleOK=True
#        print (n, len(clique))
        lexeme=clique[0].split("-")[0]
        paradigmeClique["lexeme"]=lexeme
        for element in clique:
            (lexeme,forme,taminfo)=element.split("-")
            paradigmeClique[taminfo]=forme
            if taminfo in paradigmes.columns:
                if not paradigmes[(paradigmes["lexeme"]==lexeme)][taminfo].isnull().item():
                    if paradigmes[(paradigmes["lexeme"]==lexeme)][taminfo].item()!=forme:
                        sampleOK=False
                        print (paradigmes[(paradigmes["lexeme"]==lexeme)][taminfo].item(),forme,end=", ")
    if sampleOK:
        paradigmesListe.append(paradigmeClique)
    else:
        print ()
paradigmesCLIQUES=pd.DataFrame(paradigmesListe)

asje aswa, asEje aswaje, asEje aswaje, asEjE aswajE, asje aswa, asje,aswa asje, asje,aswa aswa, 
r6sOr r6sOrti, 
tE tEj, tE tEj, tEz tEj, tEz tE, tyr tEjEr, tEzE tEjE, tEze tEje, tE tEj, 
r6kOnEtra r6kOnEra, r6kOnEse r6kOnEje, r6kOnE r6kOnEj, r6kOny r6kOnEje, r6kOnEtra r6kOnEj6ra, 
parEtra parEra, parEsE parEjE, parEtra parEj6ra, parE parEj, 
kOnEsje kOnEje, kOnEtr kOnEje, kOnEse kOnEje, kOnEs kOnE, kOnE kOnEj, kOnEsE kOnEjE, kOnEsje kOnEje, kOny kOnEje, kOnE kOnEj, kOnEsE kOnEjE, kOnEs kOnEj, kOnEsô kOnEjô, kOnE kOnEj, kOnE kOnEj, kOnEse kOnEje, 
EsErE EsEj6rE, EsE EsEj, EsE,EsEj EsEj, EsE EsEj, EsE,EsEj EsEj, EsEj6rE EsErE, EsE,EsEj EsE, EsE,EsEj EsE, 
pE,pEj pE, pE,pEj pE, pEj pE, pE,pEj pE, pE,pEj pEj, pE,pEj pEj, pE pEj, pE,pEj pEj, 
admE admEj, admEtr admEje, admE admEj, admEtâ admEjâ, 
plE plEj, plEzE plEjE, 
plE plEj, plEzE plEjE, 
mE mEj, mEtE mEjE, mEt mE, mEte mEje, mEtrE mErE, mE mEj, mi mEja, mi mEjE, mEte mEje, mi mEja, mEt mEj, mEt mEj, mEtr mEje, mEt mEj, mE mEj, mEtrE 

In [118]:
paradigmesCLIQUES.dropna(thresh=52)

Unnamed: 0,ai1P,ai1S,ai2P,ai2S,ai3P,ai3S,fi1P,fi1S,fi2P,fi2S,...,ppFP,ppFS,ppMP,ppMS,ps1P,ps1S,ps2P,ps2S,ps3P,ps3S
0,EmErvEjam,EmErvEjE,EmErvEjat,EmErvEja,EmErvEjEr,EmErvEja,EmErvEj6rô,EmErvEj6rE,EmErvEj6re,EmErvEj6ra,...,EmErvEje,EmErvEje,EmErvEje,EmErvEje,EmErvEjô,EmErvEj,EmErvEje,EmErvEj,EmErvEj,EmErvEj
1,vEjam,vEjE,vEjat,vEja,vEjEr,vEja,vEj6rô,vEj6rE,vEj6re,vEj6ra,...,vEje,vEje,vEje,vEje,vEjô,vE,vEje,vEj,vE,vE
2,fiSam,fiSE,fiSat,fiSa,fiSEr,fiSa,fiS6rô,fiS6rE,fiS6re,fiS6ra,...,fiSe,fiSe,fiSy,fiSy,fiSjô,fiS,fiSje,fiS,fiS,fiS
3,Ozam,OzE,Ozat,Oza,OzEr,Oza,Oz6rô,Oz6rE,Oz6re,Oz6ra,...,Oze,Oze,Oze,Oze,Ozjô,oz,Ozje,oz,oz,oz
4,rEysim,rEysi,rEysit,rEysi,rEysir,rEysi,rEysirô,rEysirE,rEysire,rEysira,...,rEysi,rEysi,rEysi,rEysi,rEysisjô,rEysis,rEysisje,rEysis,rEysis,rEysis
5,âfôsam,âfôsE,âfôsat,âfôsa,âfôsEr,âfôsa,âfôs6rô,âfôs6rE,âfôs6re,âfôs6ra,...,âfôse,âfôse,âfôse,âfôse,âfôsjô,âfôs,âfôsje,âfôs,âfôs,âfôs
6,m6lam,m6lE,m6lat,m6la,m6lEr,m6la,mEl6rô,mEl6rE,mEl6re,mEl6ra,...,m6le,m6le,m6le,m6le,m6ljô,mEl,m6lje,mEl,mEl,mEl
7,r6fErmam,r6fErmE,r6fErmat,r6fErma,r6fErmEr,r6fErma,r6fErm6rô,r6fErm6rE,r6fErm6re,r6fErm6ra,...,r6fErme,r6fErme,r6fErme,r6fErme,r6fErmjô,r6fErm,r6fErmje,r6fErm,r6fErm,r6fErm
8,sypOzam,sypOzE,sypOzat,sypOza,sypOzEr,sypOza,sypOz6rô,sypOz6rE,sypOz6re,sypOz6ra,...,sypOze,sypOze,sypOze,sypOze,sypOzjô,sypoz,sypOzje,sypoz,sypoz,sypoz
9,âmErdam,âmErdE,âmErdat,âmErda,âmErdEr,âmErda,âmErd6rô,âmErd6rE,âmErd6re,âmErd6ra,...,âmErde,âmErde,âmErde,âmErde,âmErdjô,âmErd,âmErdje,âmErd,âmErd,âmErd


In [29]:
def compareGOLD(row):
    ligne=[]
    lexical=True
    for case in casesTotales:
#        print (case, row)
        if not case in row:
            ligne.append(u"%s : Ø ≠ %s" % (case,GOLD[GOLD["lexeme"]==row["lexeme"]][case].item()))
            lexical=False
        elif row[case]==GOLD[GOLD["lexeme"]==row["lexeme"]][case].item():
            ligne.append(u"%s : %s" % (case,row[case]))
        else:
            ligne.append(u"%s : %s ≠ %s" % (case, row[case],GOLD[GOLD["lexeme"]==row["lexeme"]][case].item()))
            lexical=False
    if lexical:
        print (row["lexeme"], "OK")
    else:
        print (row["lexeme"], "DIFF")
        print (", ".join(ligne))
    print ()

In [55]:
paradigmes

Unnamed: 0,lexeme,ai1S,ai2S,ai3P,ai3S,fi1P,fi1S,fi2P,fi2S,fi3P,...,ppFP,ppFS,ppMP,ppMS,ps1P,ps1S,ps2P,ps2S,ps3P,ps3S
0,abaisser,,,,,,,,,,...,,,,,,,,,,
1,abandonner,,,,,abâdòn6rô,,,,,...,,,,abâdòne,,,,,,
2,abattre,,,,,,,,,,...,,,,abaty,,,,,,
3,aboutir,,,,,,,,,,...,,,,,,,,,,
4,abriter,,,,,,,,,,...,,,,,,,,,,
5,abréger,,,,,,,,,,...,,,,,,,,,,
6,accepter,,,,,,,,,,...,,,,,,,,,,
7,accommoder,,,,,,,,,,...,,,,,,,,,,
8,accompagner,,,,,,,,,,...,,,,,,akôpaJ,,,,
9,accomplir,,,,,,,,,,...,,akôpli,,,,,,,,


In [30]:
paradigmesCLIQUES.apply(compareGOLD,axis=1)

boire OK

avoir OK

avoir DIFF
inf : ave ≠ avwar, pi1S : av ≠ E, pi2S : av ≠ a, pi3S : av ≠ a, pi1P : avô, pi2P : ave, pi3P : av ≠ ô, ii1S : avE, ii2S : avE, ii3S : avE, ii1P : avjô, ii2P : avje, ii3P : avE, fi1S : av6rE ≠ OrE, fi2S : av6ra ≠ Ora, fi3S : av6ra ≠ Ora, fi1P : av6rô ≠ Orô, fi2P : av6re ≠ Ore, fi3P : av6rô ≠ Orô, pI2S : av ≠ E, pI1P : avô ≠ Ejô, pI2P : ave ≠ Eje, ps1S : av ≠ E, ps2S : av ≠ E, ps3S : av ≠ E, ps1P : avjô ≠ Ejô, ps2P : avje ≠ Eje, ps3P : av ≠ E, pc1S : av6rE ≠ OrE, pc2S : av6rE ≠ OrE, pc3S : av6rE ≠ OrE, pc1P : av6rjô ≠ Orjô, pc2P : av6rje ≠ Orje, pc3P : av6rE ≠ OrE, pP : avâ ≠ Ejâ, ppMS : ave ≠ y, ppMP : ave ≠ y, ppFS : ave ≠ y, ppFP : ave ≠ y, ai1S : avE ≠ y, ai2S : ava ≠ y, ai3S : ava ≠ y, ai1P : avam ≠ ym, ai2P : avat ≠ yt, ai3P : avEr ≠ yr, is1S : avas ≠ ys, is2S : avas ≠ ys, is3S : ava ≠ y, is1P : avasjô ≠ ysjô, is2P : avasje ≠ ysje, is3P : avas ≠ ys

aller DIFF
inf : ale, pi1S : al ≠ vE, pi2S : al ≠ va, pi3S : al ≠ va, pi1P : alô, pi2P : ale, pi3P : al

KeyboardInterrupt: 

In [104]:
paradigmesGOLD

Unnamed: 0,lexeme,ai1S,ai2S,ai3P,ai3S,fi1P,fi1S,fi2P,fi2S,fi3P,...,ppFP,ppFS,ppMP,ppMS,ps1P,ps1S,ps2P,ps2S,ps3P,ps3S
0,abaisser,abEsE,abEsa,abEsEr,abEsa,abEs6rô,abEs6rE,abEs6re,abEs6ra,abEs6rô,...,abEse,abEse,abEse,abEse,abEsjô,abEs,abEsje,abEs,abEs,abEs
1,abandonner,abâdOnE,abâdOna,abâdOnEr,abâdOna,abâdOn6rô,abâdOn6rE,abâdOn6re,abâdOn6ra,abâdOn6rô,...,abâdOne,abâdOne,abâdOne,abâdOne,abâdOnjô,abâdOn,abâdOnje,abâdOn,abâdOn,abâdOn
2,abasourdir,abazurdi,abazurdi,abazurdir,abazurdi,abazurdirô,abazurdirE,abazurdire,abazurdira,abazurdirô,...,abazurdi,abazurdi,abazurdi,abazurdi,abazurdisjô,abazurdis,abazurdisje,abazurdis,abazurdis,abazurdis
3,abattre,abati,abati,abatir,abati,abatrô,abatrE,abatre,abatra,abatrô,...,abaty,abaty,abaty,abaty,abatjô,abat,abatje,abat,abat,abat
4,abcéder,absEdE,absEda,absEdEr,absEda,absEd6rô,absEd6rE,absEd6re,absEd6ra,absEd6rô,...,,,,absEde,absEdjô,absEd,absEdje,absEd,absEd,absEd
5,abdiquer,abdikE,abdika,abdikEr,abdika,abdik6rô,abdik6rE,abdik6re,abdik6ra,abdik6rô,...,abdike,abdike,abdike,abdike,abdikjô,abdik,abdikje,abdik,abdik,abdik
6,abecquer,abEkE,abEka,abEkEr,abEka,abEk6rô,abEk6rE,abEk6re,abEk6ra,abEk6rô,...,abEke,abEke,abEke,abEke,abEkjô,abEk,abEkje,abEk,abEk,abEk
7,aberrer,abErE,abEra,abErEr,abEra,abEr6rô,abEr6rE,abEr6re,abEr6ra,abEr6rô,...,,,,abEre,abErjô,abEr,abErje,abEr,abEr,abEr
8,abhorrer,abOrE,abOra,abOrEr,abOra,abOr6rô,abOr6rE,abOr6re,abOr6ra,abOr6rô,...,abOre,abOre,abOre,abOre,abOrjô,abOr,abOrje,abOr,abOr,abOr
9,abjurer,abZyrE,abZyra,abZyrEr,abZyra,abZyr6rô,abZyr6rE,abZyr6re,abZyr6ra,abZyr6rô,...,abZyre,abZyre,abZyre,abZyre,abZyrjô,abZyr,abZyrje,abZyr,abZyr,abZyr


In [80]:
paradigmesGOLD.loc[paradigmesGOLD["lexeme"]=="boire"]["inf"]

627    bwar
Name: inf, dtype: object

##Faire un tableau XML pour la sortie des cliques

class tableauParadigme:
    '''
    Gestion des tableaux de flexion
    '''

    def __init__(self):
        self.paradigme={}
        self.lexeme=""

    def ajouterElement(self,element):
        (lexeme,forme,taminfo)=element.split("-")
        if self.lexeme=="":
            self.lexeme=lexeme
        if self.lexeme==lexeme:
            if len(taminfo)==4:
                (tense,mode,pers,num)=taminfo
            elif taminfo=="inf":
                (tense,mode,pers,num)=("",taminfo,"","")
                
            elif taminfo=="pP":
                (tense,mode,pers,num)=("p","part","","")
            else:
                print("erreur case",element,file=logfile)
            if not mode in self.paradigme:
                self.paradigme[mode]={}
            if not tense in self.paradigme[mode]:
                self.paradigme[mode][tense]={}
            if not pers+num in self.paradigme[mode][tense]:
                self.paradigme[mode][tense][pers+num]=[]
            self.paradigme[mode][tense][pers+num].append(forme)
            
      

seuilClique=25

for n,clique in enumerate(sorted(cliques,key=lambda x: len(x),reverse=True)):
    if len(clique)>seuilClique:
        print (n, len(clique))
        tabParadigme=tableauParadigme()
        for element in clique:
            tabParadigme.ajouterElement(element)
        for mode in ["i","s","c","I"]:
            for tense in tabParadigme.paradigme[mode]:
                if mode=="I":
                    for pers in ["2S", "1P", "2P"]:
                        print ("-".join(tabParadigme.paradigme[mode][tense][pers]), end=", ")
                else:
                    for pers in [str(i+1)+"S" for i in range(3)]+[str(i+1)+"P" for i in range(3)]:
                        print ("-".join(tabParadigme.paradigme[mode][tense][pers]), end=", ")
                print()