##Importations
- codecs pour les encodages
- pandas et numpy pour les calculs sur tableaux
- matplotlib pour les graphiques
- itertools pour les itérateurs sophistiqués (paires sur liste, ...)

In [2]:
# -*- coding: utf8 -*-
import codecs
import features
import re
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import itertools as it
import pickle
import networkx as nx
#%pylab inline
#pd.options.display.mpl_style = 'default'
debug=False
from __future__ import print_function

In [3]:
import yaml

In [4]:
import datetime
def dateheure():
    return datetime.datetime.utcnow().strftime('%y%m%d%H%M')

In [5]:
saut="\n"

###Préparation des matrices de traits

In [6]:
features.add_config('bdlexique.ini')
fs=features.FeatureSystem('phonemes')

In [7]:
samplePrefix="MGC-150815-extend-01-X-paradigmes"
sampleFile=samplePrefix+".csv"
goldFile="MGC-150815-total-1508150555-paradigmes.csv"
analysisPrefix="MGC-150815-extend-01-X"
logfile_name=analysisPrefix+samplePrefix+".log"
logfile = codecs.open("2015-Data/"+logfile_name,mode='w',encoding="utf8")

###Préparation des cases du paradigme

In [8]:
casesPrincipales= [
        'inf', 'pi1S', 'pi2S', 'pi3S', 'pi1P', 'pi2P', 'pi3P', 'ii1S',
        'ii2S', 'ii3S', 'ii1P', 'ii2P', 'ii3P', 
        'fi1S', 'fi2S', 'fi3S', 'fi1P', 'fi2P',
        'fi3P', 'pI2S', 'pI1P', 'pI2P', 'ps1S', 'ps2S', 'ps3S', 'ps1P',
        'ps2P', 'ps3P', 
        'pc1S', 'pc2S', 'pc3S', 'pc1P', 'pc2P', 'pc3P', 'pP',
        'ppMS', 'ppMP', 'ppFS', 'ppFP'
            ]
casesSecondaires= [
       'ai1S', 'ai2S', 'ai3S', 'ai1P', 'ai2P', 'ai3P', 'is1S', 'is2S', 'is3S', 'is1P', 'is2P', 'is3P'
            ]
casesTotales=casesPrincipales+casesSecondaires

#Préparation du calcul des analogies

###Calcul de la différence entre deux formes

In [9]:
def diff(mot1,mot2):
    result=[]
    diff1=""
    diff2=""
    same=""
    vide="."
    lmax=max(len(mot1),len(mot2))
    lmin=min(len(mot1),len(mot2))
    for index in range(lmax):
        if index < lmin:
            if mot1[index]!=mot2[index]:
                diff1+=mot1[index]
                diff2+=mot2[index]
                same+=vide
            else:
                same+=mot1[index]
                diff1+=vide
                diff2+=vide
        elif index < len(mot1):
            diff1+=mot1[index]
        elif index < len(mot2):
            diff2+=mot2[index]
    diff1=diff1.lstrip(".")
    diff2=diff2.lstrip(".")
#    return (same,diff1,diff2,diff1+"_"+diff2)
    return (diff1+"-"+diff2)

###Accumulation des paires appartenant à un patron

In [10]:
def rowDiff(row, patrons):
    result=diff(row[0],row[1])
    if not result in patrons:
        patrons[result]=(formesPatron(),formesPatron())
    patrons[result][0].ajouterFormes(row[0])
    patrons[result][1].ajouterFormes(row[1])
    return (result[0],result[1])

###Transformation d'un patron en RegExp

In [11]:
def patron2regexp(morceaux):
    result="^"
    for morceau in morceaux:
        if morceau=="*":
            result+="(.*)"
        elif len(morceau)>1:
            result+="(["+morceau+"])"
        else:
            result+=morceau
    result+="$"
    result=result.replace(")(","")
    return result

###Substitution de sortie 
???

In [12]:
def remplacementSortie(sortie):
    n=1
    nsortie=""
    for lettre in sortie:
        if lettre==".":
            nsortie+="\g<%d>"%n
            n+=1
        else:
            nsortie+=lettre
    return nsortie

#Classe pour la gestion des patrons, des classes et des transformations

In [13]:
class paireClasses:
    def __init__(self,case1,case2):
        self.case1=case1
        self.case2=case2
        self.nom=case1+"-"+case2
        self.classes1=classesPaire(case1,case2)
        self.classes2=classesPaire(case2,case1)

    def ajouterPatron(self,n,patron,motif):
        if n==1:
            self.classes1.ajouterPatron(patron,motif)
        elif n==2:
            self.classes2.ajouterPatron(patron,motif)
        else:
            print ("le numéro de forme n'est pas dans [1,2]",n,file=logfile)

    def ajouterPaire(self,forme1,forme2):
        self.classes1.ajouterPaire(forme1,forme2)
        self.classes2.ajouterPaire(forme2,forme1)
        
    def calculerClasses(self):
        return(self.classes1,self.classes2)

    
class classesPaire:
    '''
    Gestion des patrons, des classes et des transformations
    
    ajouterPatron : ajoute un patron et son motif associé (MGL)
    ajouterPaire : ajoute une paire de formes, calcule la classe de la forme1 et la règle sélectionnée
    sortirForme : cacule les formes de sortie correspondant à la forme1 avec leurs coefficients respectifs
    '''
    def __init__(self,case1,case2):
        self.case1=case1
        self.case2=case2
        self.nom=case1+"-"+case2
        self.classe={}
        self.nbClasse={}
        self.patrons={}
        self.entree={}
        self.sortie={}
    
    def ajouterPatron(self,patron,motif):
        self.patrons[patron]=motif
        (entree,sortie)=patron.split("-")
        self.entree[patron]=entree.replace(u".",u"(.)")
        self.sortie[patron]=remplacementSortie(sortie)
    
    def ajouterPaire(self,forme1,forme2):
        '''
        on calcule la classe de la paire idClasseForme et la règle sélectionnée
        on incrémente le compteur de la classe et celui de la règle sélectionnée à l'intérieur de la classe
        '''
        classeForme=[]
        regleForme=""
        for patron in self.patrons:
            if re.match(self.patrons[patron],forme1):
                classeForme.append(patron)
                '''
                le +"$" permet de forcer l'alignement à droite pour les transformations suffixales
                '''
                if forme2==re.sub(self.entree[patron]+"$",self.sortie[patron],forme1):
                    regleForme=patron
        idClasseForme=", ".join(classeForme)
        if not idClasseForme in self.classe:
            self.classe[idClasseForme]={}
            self.nbClasse[idClasseForme]=0
        if not regleForme in self.classe[idClasseForme]:
            self.classe[idClasseForme][regleForme]=0
        self.nbClasse[idClasseForme]+=1
        self.classe[idClasseForme][regleForme]+=1

    def sortirForme(self,forme):
        classeForme=[]
        sortieForme={}
        for patron in self.patrons:
            if re.match(self.patrons[patron],forme):
                classeForme.append(patron)
        if classeForme:
            idClasseForme=", ".join(classeForme)
            if idClasseForme in self.nbClasse:
                nTotal=self.nbClasse[idClasseForme]
                for patron in self.classe[idClasseForme]:
                    sortie=re.sub(self.entree[patron]+"$",self.sortie[patron],forme)
                    sortieForme[sortie]=float(self.classe[idClasseForme][patron])/nTotal
            else:
                if debug:
                    print (forme, file=logfile)
                    print ("pas de classe",idClasseForme, file=logfile)
                    print ("%.2f par forme de sortie" % (float(1)/len(classeForme)), file=logfile)
                nTotal=len(classeForme)
                for patron in classeForme:
                    sortie=re.sub(self.entree[patron]+"$",self.sortie[patron],forme)
                    sortieForme[sortie]=float(1)/nTotal
        else:
            print (forme, file=logfile) 
            print ("pas de patron", file=logfile)
        return sortieForme
        

##Appliquer la formule de calcul des différences entre chaines à chaque ligne

>si il y a au moins une ligne

>>on applique la différence à la ligne

>>on calcule les deux patrons par suppression des points initiaux

>>on renvoie le groupement par patrons (1&2)

>sinon

>>on renvoie le paradigme vide d'origine

In [14]:
def OLDrapports(paradigme):
    (case1,case2,lexeme)= paradigme.columns.values.tolist()
    patrons=pairePatrons(case1,case2)
    if len(paradigme)>0:
#        for index, row in paradigme.iterrows():
#            patrons.ajouterFormes(row[0],row[1],diff(row[0],row[1]))
        paradigme.apply(lambda x: patrons.ajouterFormes(x[case1],x[case2],diff(x[case1],x[case2])), axis=1)
        (regles1,regles2)=patrons.calculerGM()
    return patrons.calculerGM()

In [15]:
def rapports(paradigme):
    if len(paradigme.columns.values.tolist())==2:
        (case1,lexeme)= paradigme.columns.values.tolist()
        case2=case1
    else:
        (case1,case2,lexeme)= paradigme.columns.values.tolist()
    patrons=pairePatrons(case1,case2)
    classes=paireClasses(case1,case2)
    if len(paradigme)>0:
        paradigme.apply(lambda x: patrons.ajouterFormes(x[case1],x[case2],diff(x[case1],x[case2])), axis=1)
        (regles1,regles2)=patrons.calculerGM()
        for regle in regles1:
            classes.ajouterPatron(1,regle,regles1[regle])
        for regle in regles2:
            classes.ajouterPatron(2,regle,regles2[regle])
        paradigme.apply(lambda x: classes.ajouterPaire(x[case1],x[case2]), axis=1)
    (classes1,classes2)=classes.calculerClasses()
    return (classes1,classes2)

###Dédoubler les lignes avec des surabondances dans *colonne*
>identifier une ligne avec surabondance

>>ajouter les lignes correspondant à chaque valeur

>>ajouter le numéro de la ligne initiale dans les lignes à supprimer

>supprimer les lignes avec surabondance

NB : il faut préparer le tableau pour avoir une indexation qui permette l'ajout des valeurs individuelles et la suppression des lignes de surabondances

In [16]:
def splitCellMates(df,colonne):
    '''
    Calcul d'une dataframe sans surabondance par dédoublement des valeurs
    '''
    test=df.reset_index()
    del test["index"]
    splitIndexes=[]
    for index,ligne in test.iterrows():
        if "," in ligne[colonne]:
            valeurs=set(ligne[colonne].split(","))
            nouvelleLigne=ligne
            for valeur in valeurs:
                nouvelleLigne[colonne]=valeur
                test=test.append(nouvelleLigne,ignore_index=True)
            splitIndexes.append(index)
    if splitIndexes:
        test=test.drop(test.index[splitIndexes])
    return test


In [17]:
paradigmes=pd.read_csv("2015-Data/"+sampleFile,sep=";",encoding="utf8")
del paradigmes[u"Unnamed: 0"]

In [18]:
phonologicalMap=analysisPrefix[-2:]
if debug: print(phonologicalMap)
neutralisationsNORD=(u"6û",u"9ê")
neutralisationsSUD=(u"e2o",u"E9O")
if phonologicalMap=="-N":
    neutralisations=neutralisationsNORD
elif phonologicalMap=="-S":
    neutralisations=neutralisationsSUD
else:
    neutralisations=(u"",u"")
    phonologicalMap=("-X")
bdlexiqueIn = unicode(u"èò"+neutralisations[0])
bdlexiqueNum = [ord(char) for char in bdlexiqueIn]
neutreOut = unicode(u"EO"+neutralisations[1])
neutralise = dict(zip(bdlexiqueNum, neutreOut))

In [19]:
def recoder(chaine,table=neutralise):
    if type(chaine)==str:
        temp=unicode(chaine.decode('utf8')).translate(table)
        result=temp.encode('utf8')
    elif type(chaine)==unicode:
        result=chaine.translate(table)
    else:
        result=chaine
    return result

In [20]:
GOLD=pd.read_csv("2015-Data/"+goldFile,sep=";",encoding="utf8")
del GOLD[u"Unnamed: 0"]
goldCases=GOLD.columns.tolist()
goldCases.remove(u"lexeme")
for case in goldCases:
    GOLD[case]=GOLD[case].apply(lambda x: recoder(x))
    
paradigmesGOLD=GOLD[paradigmes.columns.values.tolist()]
paradigmesGOLD

Unnamed: 0,lexeme,ai1P,ai1S,ai2P,ai2S,ai3P,ai3S,fi1P,fi1S,fi2P,...,ppFP,ppFS,ppMP,ppMS,ps1P,ps1S,ps2P,ps2S,ps3P,ps3S
0,abaisser,abEsam,abEsE,abEsat,abEsa,abEsEr,abEsa,abEs6rô,abEs6rE,abEs6re,...,abEse,abEse,abEse,abEse,abEsjô,abEs,abEsje,abEs,abEs,abEs
1,abandonner,abâdOnam,abâdOnE,abâdOnat,abâdOna,abâdOnEr,abâdOna,abâdOn6rô,abâdOn6rE,abâdOn6re,...,abâdOne,abâdOne,abâdOne,abâdOne,abâdOnjô,abâdOn,abâdOnje,abâdOn,abâdOn,abâdOn
2,abasourdir,abazurdim,abazurdi,abazurdit,abazurdi,abazurdir,abazurdi,abazurdirô,abazurdirE,abazurdire,...,abazurdi,abazurdi,abazurdi,abazurdi,abazurdisjô,abazurdis,abazurdisje,abazurdis,abazurdis,abazurdis
3,abattre,abatim,abati,abatit,abati,abatir,abati,abatrô,abatrE,abatre,...,abaty,abaty,abaty,abaty,abatjô,abat,abatje,abat,abat,abat
4,abcéder,absEdam,absEdE,absEdat,absEda,absEdEr,absEda,absEd6rô,absEd6rE,absEd6re,...,,,,absEde,absEdjô,absEd,absEdje,absEd,absEd,absEd
5,abdiquer,abdikam,abdikE,abdikat,abdika,abdikEr,abdika,abdik6rô,abdik6rE,abdik6re,...,abdike,abdike,abdike,abdike,abdikjô,abdik,abdikje,abdik,abdik,abdik
6,abecquer,abEkam,abEkE,abEkat,abEka,abEkEr,abEka,abEk6rô,abEk6rE,abEk6re,...,abEke,abEke,abEke,abEke,abEkjô,abEk,abEkje,abEk,abEk,abEk
7,aberrer,abEram,abErE,abErat,abEra,abErEr,abEra,abEr6rô,abEr6rE,abEr6re,...,,,,abEre,abErjô,abEr,abErje,abEr,abEr,abEr
8,abhorrer,abOram,abOrE,abOrat,abOra,abOrEr,abOra,abOr6rô,abOr6rE,abOr6re,...,abOre,abOre,abOre,abOre,abOrjô,abOr,abOrje,abOr,abOr,abOr
9,abjurer,abZyram,abZyrE,abZyrat,abZyra,abZyrEr,abZyra,abZyr6rô,abZyr6rE,abZyr6re,...,abZyre,abZyre,abZyre,abZyre,abZyrjô,abZyr,abZyrje,abZyr,abZyr,abZyr


- sampleCases pour la liste des cases effectivement représentées dans le corpus de départ 

In [21]:
sampleCases=paradigmes.columns.values.tolist()
sampleCases.remove(u"lexeme")

In [22]:
paradigmes.stack().value_counts(dropna=True).sum()

17784

In [23]:
with open("2015-Data/"+analysisPrefix+'-Regles.pkl', 'rb') as input:
    resultatsLecture = pickle.load(input)

###Comparer les cases analysées avec l'ensemble de toutes les cases

In [24]:
analyseCases=list(set([case for (case,autre) in resultatsLecture.keys()]))
if sorted(analyseCases)!=sorted(casesTotales):
    print ("Attention l'analyse ne comprend pas toutes les cases")

Attention l'analyse ne comprend pas toutes les cases


In [25]:
class paradigmeDistribution:
    '''
    Gestion des distributions dans les cases du paradigme
    '''

    def __init__(self,lexeme):
        self.lexeme=lexeme
        self.formes={i:{} for i in analyseCases}

    def ajouterFormes(self,case,formes,coef=1.0):
        for forme in formes:
            if not forme in self.formes[case]:
                self.formes[case][forme]=0
            self.formes[case][forme]+=formes[forme]*coef
            
    def normaliserDistributions(self,caseListe=analyseCases):
        normalesDistributions={i:{} for i in caseListe}
        for case in caseListe:
            total=0
            for element in self.formes[case]:
                total+=self.formes[case][element]
            for element in self.formes[case]:
                normalesDistributions[case][element]=float(self.formes[case][element])/total
        return normalesDistributions
        

In [26]:
def generateForms(lexeme):
    candidats=paradigmeDistribution(lexeme)
    casesSamples=paradigmes[paradigmes["lexeme"]==lexeme].columns[paradigmes[paradigmes["lexeme"]==lexeme].notnull().iloc[0]].tolist()
    casesSamples.remove("lexeme")
    for caseDepart in casesSamples:
        formeDepart=paradigmes[paradigmes["lexeme"]==lexeme][caseDepart].iloc[0]
        if debug: print (caseDepart,formeDepart, file=logfile)
#        if formeDepart!="nan":
        for case in analyseCases:
            if debug: print (case, file=logfile)
            if not isinstance(resultatsLecture[(caseDepart, case)],str):
                if "," in formeDepart:
                    formesDepart=formeDepart.split(",")
                    coef=1.0/len(formesDepart)
                    for element in formesDepart:
                        candidats.ajouterFormes(case,resultatsLecture[(caseDepart, case)].sortirForme(element),coef)
                else:
                    candidats.ajouterFormes(case,resultatsLecture[(caseDepart, case)].sortirForme(formeDepart))
            else: 
                if debug: print ("str", resultatsLecture[(caseDepart, case)], file=logfile)
    return candidats

In [51]:
def ajouterPoint(lexeme,forme,case,digraphe,graphe):
    pointName="%s-%s-%s"%(lexeme,forme,case)
#    if not pointName in digraphe.nodes():
    tam=case[:2]
    if tam=="in": tam="inf"
    digraphe.add_node(pointName, tam='"%s"'%tam)
    graphe.add_node(pointName, tam='"%s"'%tam)
    return pointName

def ajouterFleche(pointDepart,pointSortie,coef,digraphe,graphe):
    digraphe.add_edge(pointDepart,pointSortie,weight=float(coef))
    if digraphe.has_edge(pointSortie,pointDepart):
        coefGraphe=float(digraphe.edge[pointSortie][pointDepart]["weight"]+coef)/2
        graphe.add_edge(pointDepart,pointSortie,weight=coefGraphe)

In [56]:
def generateParadigms(generation1,genDigraphe=True):
    lexeme=generation1.lexeme
    distributionInitiale=generation1.normaliserDistributions()
    candidats=paradigmeDistribution(lexeme)
    digraphe=nx.DiGraph()
    graphe=nx.Graph()    
    for caseDepart in analyseCases:
        for formeDepart in distributionInitiale[caseDepart]:
            if formeDepart:
                pointDepart=ajouterPoint(lexeme,formeDepart,caseDepart,digraphe,graphe)
                coefDepart=distributionInitiale[caseDepart][formeDepart]
                if debug: print (caseDepart,formeDepart, file=logfile)
                for caseSortie in analyseCases:
                    distributionSortieBrute=resultatsLecture[(caseDepart, caseSortie)].sortirForme(formeDepart)
                    if distributionSortieBrute:
                        if not genDigraphe:
#                            print ("brute",distributionSortieBrute)
                            distributionSortie={f:distributionSortieBrute[f] for f in distributionSortieBrute if f in distributionInitiale[caseSortie]}
                        else:
                            distributionSortie=distributionSortieBrute
#                        print ("filtre",distributionSortie)
#                        print (distributionInitiale[caseSortie])
                        if debug: print (caseSortie,distributionSortie,distributionInitiale[caseDepart], file=logfile)
                        candidats.ajouterFormes(caseSortie,distributionSortie,distributionInitiale[caseDepart][formeDepart])
                        for formeSortie in distributionSortie:
                            pointSortie=ajouterPoint(lexeme,formeSortie,caseSortie,digraphe,graphe)
                            coefSortie=distributionSortie[formeSortie]
                            ajouterFleche(pointDepart,pointSortie,float(coefDepart*coefSortie),digraphe,graphe)
    return (candidats,digraphe,graphe)

In [79]:
def generate(lexeme,genDigraphe=True):
#    print (lexeme,end=", ")
    generation1=generateForms(lexeme)
#    print ("génération 2",end=", ")
    (generation2,lexDigraphe,lexGraphe)=generateParadigms(generation1,genDigraphe)
    lexCliques=list(nx.algorithms.clique.find_cliques(lexGraphe))
#    print (lexCliques)
#    print ("génération 3")
    return (generation2,lexDigraphe,lexGraphe,lexCliques)

In [80]:
len(paradigmes.dropna(thresh=3)["lexeme"])

1950

In [86]:
%%time
debug=False
genDigraphe=False
genGraphe=False
listeTest=[u"manger",u"boire",u"dormir",u"aller",u"neiger"]
listeTest=paradigmes.dropna(thresh=3)["lexeme"].values.tolist()
nbVerbes=len(listeTest)
print (nbVerbes)
globDigraphe=nx.DiGraph()
globGraphe=nx.Graph()
cliques=[]
for i,element in enumerate(listeTest):
    if (i%10)==0: print (i, dateheure(), int(100*float(i)/nbVerbes), end=", ")
    result=generate(element,genDigraphe)
    (generation,lexDigraphe,lexGraphe,lexCliques)= result
#    print (generation,lexDigraphe,lexGraphe,lexCliques)
    if genDigraphe:
        globDigraphe=nx.union(digraphe,lexDigraphe)
    if genGraphe:
        globGraphe=nx.union(graphe,lexGraphe)
    cliques.extend(lexCliques)

1950
0 1508210226 0, 10 1508210226 0, 20 1508210227 1, 30 1508210227 1, 40 1508210228 2, 50 1508210228 2, 60 1508210228 3, 70 1508210229 3, 80 1508210229 4, 90 1508210230 4, 100 1508210230 5, 110 1508210230 5, 120 1508210231 6, 130 1508210232 6, 140 1508210232 7, 150 1508210232 7, 160 1508210233 8, 170 1508210233 8, 180 1508210234 9, 190 1508210234 9, 200 1508210234 10, 210 1508210235 10, 220 1508210235 11, 230 1508210236 11, 240 1508210236 12, 250 1508210236 12, 260 1508210237 13, 270 1508210237 13, 280 1508210237 14, 290 1508210238 14, 300 1508210238 15, 310 1508210238 15, 320 1508210239 16, 330 1508210239 16, 340 1508210239 17, 350 1508210240 17, 360 1508210240 18, 370 1508210241 18, 380 1508210241 19, 390 1508210242 20, 400 1508210242 20, 410 1508210242 21, 420 1508210243 21, 430 1508210243 22, 440 1508210244 22, 450 1508210244 23, 460 1508210245 23, 470 1508210245 24, 480 1508210246 24, 490 1508210246 25, 500 1508210246 25, 510 1508210247 26, 520 1508210247 26, 530 1508210248 27, 

In [87]:
%%time
versionStamp=dateheure()
if genDigraphe: 
    nx.write_dot(digraphe,u"2015-Data/digraphe-%s.dot"%versionStamp)
if genGraphe:
    nx.write_dot(graphe,u"2015-Data/graphe-%s.dot"%versionStamp)

CPU times: user 35 µs, sys: 0 ns, total: 35 µs
Wall time: 38.9 µs


In [88]:
#graphe=nx.Graph()
#graphe=nx.read_dot(u"graphe-1508180522.dot")

In [89]:
#%%time
#cliques=list(nx.algorithms.clique.find_cliques(graphe))

In [90]:
print (len(cliques))

242442


In [91]:
longueurCliques={}
for clique in cliques:
    longueur=len(clique)
    if not longueur in longueurCliques:
        longueurCliques[longueur]=1
    else:
        longueurCliques[longueur]+=1
longueurCliques

{1: 5,
 2: 1151,
 3: 1558,
 4: 3607,
 5: 4171,
 6: 5725,
 7: 7742,
 8: 9145,
 9: 11626,
 10: 13720,
 11: 13233,
 12: 11699,
 13: 10779,
 14: 10316,
 15: 9237,
 16: 9137,
 17: 8436,
 18: 8835,
 19: 9714,
 20: 10360,
 21: 10633,
 22: 9713,
 23: 8873,
 24: 8156,
 25: 8162,
 26: 7841,
 27: 6712,
 28: 7178,
 29: 5865,
 30: 4961,
 31: 1965,
 32: 1182,
 33: 351,
 34: 311,
 35: 240,
 36: 56,
 37: 36,
 39: 2,
 40: 1,
 41: 5,
 44: 2,
 45: 1}

###Faire la liste des cases lexicalisées de l'échantillon

In [92]:
nbFormesLexicales={}
casesLexicales={element:paradigmes[paradigmes["lexeme"]==element].columns[paradigmes[paradigmes["lexeme"]==element].notnull().iloc[0]].tolist() for element in listeTest}
for element in casesLexicales:
    casesLexicales[element].remove("lexeme")
    nbFormesLexicales[element]=len(casesLexicales[element])

##Comparer la sortie des cliques avec le paradigme de départ

In [96]:
%%time
seuilClique=1
#paradigmesCLIQUES=pd.DataFrame(columns=paradigmes.columns.values.tolist())
paradigmesListe=[]
for n,clique in enumerate(sorted(cliques,key=lambda x: len(x),reverse=True)):
#    if seuilClique==0:
#        seuilClique=len(clique)-15
    if len(clique)>seuilClique:
        paradigmeClique={}
        sampleOK=True
#        print (n, len(clique))
        point=clique[0].split("-")
        lPoint=len(point)
#        print (point,"-".join(point[0:len(point)-2]))
        if lPoint==3:
            lexeme=point[0]
        else:
            lexeme="-".join(point[0:len(point)-2])
        paradigmeClique["lexeme"]=lexeme
        if n%250==0: print (n,end=", ")
#        casesLexeme=paradigmes[paradigmes["lexeme"]==lexeme].notnull().columns.tolist()
#        casesLexeme=paradigmes[paradigmes["lexeme"]==lexeme].columns[paradigmes[paradigmes["lexeme"]==lexeme].notnull().iloc[0]].tolist()
#        casesLexeme.remove("lexeme")
        casesLexeme=casesLexicales[lexeme]
        if casesLexeme and len(casesLexeme)<=len(clique):
            for element in casesLexeme:
#                print (lexeme,element, paradigmes[paradigmes["lexeme"]==lexeme][element])
                pointCase=u"%s-%s-%s"% (lexeme,paradigmes[paradigmes["lexeme"]==lexeme][element].iloc[0],element)
                if debug: print (pointCase, clique)
                if not pointCase in clique:
                    sampleOK=False
                    break
        else:
            sampleOK=False
        if sampleOK:
            for element in clique:
                elements=element.split("-")
                forme=elements[-2]
                taminfo=elements[-1]
#                try:
#                 (lexeme,forme,taminfo)=element.split("-")
#                except ValueError:
#                    print (element)
                paradigmeClique[taminfo]=forme
#                if taminfo in paradigmes.columns:
#                    if not paradigmes[(paradigmes["lexeme"]==lexeme)][taminfo].isnull().item():
#                        if paradigmes[(paradigmes["lexeme"]==lexeme)][taminfo].item()!=forme:
#                            sampleOK=False
#                            print (paradigmes[(paradigmes["lexeme"]==lexeme)][taminfo].item(),forme,taminfo,end=", ")
            paradigmesListe.append(paradigmeClique)
        else:
            if debug:
                print ()
                print (lexeme,clique)
                print ()
    else:
        break
paradigmesCLIQUES=pd.DataFrame(paradigmesListe,columns=GOLD.columns.values.tolist())
print (seuilClique)

0, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 1100, 1200, 1300, 1400, 1500, 1600, 1700, 1800, 1900, 2000, 2100, 2200, 2300, 2400, 2500, 2600, 2700, 2800, 2900, 3000, 3100, 3200, 3300, 3400, 3500, 3600, 3700, 3800, 3900, 4000, 4100, 4200, 4300, 4400, 4500, 4600, 4700, 4800, 4900, 5000, 5100, 5200, 5300, 5400, 5500, 5600, 5700, 5800, 5900, 6000, 6100, 6200, 6300, 6400, 6500, 6600, 6700, 6800, 6900, 7000, 7100, 7200, 7300, 7400, 7500, 7600, 7700, 7800, 7900, 8000, 8100, 8200, 8300, 8400, 8500, 8600, 8700, 8800, 8900, 9000, 9100, 9200, 9300, 9400, 9500, 9600, 9700, 9800, 9900, 10000, 10100, 10200, 10300, 10400, 10500, 10600, 10700, 10800, 10900, 11000, 11100, 11200, 11300, 11400, 11500, 11600, 11700, 11800, 11900, 12000, 12100, 12200, 12300, 12400, 12500, 12600, 12700, 12800, 12900, 13000, 13100, 13200, 13300, 13400, 13500, 13600, 13700, 13800, 13900, 14000, 14100, 14200, 14300, 14400, 14500, 14600, 14700, 14800, 14900, 15000, 15100, 15200, 15300, 15400, 15500, 15600, 15700, 15800,

In [97]:
paradigmesCLIQUES

Unnamed: 0,lexeme,ai1P,ai1S,ai2P,ai2S,ai3P,ai3S,fi1P,fi1S,fi2P,...,ppFP,ppFS,ppMP,ppMS,ps1P,ps1S,ps2P,ps2S,ps3P,ps3S
0,faire,fim,fi,,fi,fir,fi,f6rô,f6rE,f6re,...,fEt,fEt,fE,fE,fasjô,fas,fasje,fas,fas,fas
1,avoir,ym,y,,,,y,Orô,OrE,Ore,...,y,y,y,y,Ejô,E,Eje,E,E,E
2,devoir,,dy,,,dyr,dy,d6vrô,d6vrE,d6vre,...,dy,dy,dy,dy,,dwav,d6vje,,dwav,dwav
3,dire,dim,di,dit,,dir,di,dirô,dirE,dire,...,dit,dit,di,di,,diz,dizje,diz,diz,diz
4,être,,fy,,fy,fyr,fy,s6rô,s6rE,s6re,...,,,,,swajô,swa,swaje,swa,swa,swa
5,aller,alam,alE,,,alEr,ala,irô,irE,ire,...,ale,ale,ale,ale,,aj,,aj,aj,aj
6,trouver,truvam,truvE,,,truvEr,truva,truv6rô,truv6rE,truv6re,...,truve,truve,truve,truve,,truv,,truv,truv,truv
7,venir,,,,vê,vêr,vê,vjêdrô,vjêdrE,vjêdre,...,v6ny,v6ny,v6ny,v6ny,,vjEn,,vjEn,vjEn,vjEn
8,abriter,,abritE,,,abritEr,abrita,abrit6rô,abrit6rE,abrit6re,...,abrite,abrite,abrite,abrite,,abrit,,abrit,abrit,abrit
9,abuser,,abyzE,,,abyzEr,abyza,abyz6rô,abyz6rE,abyz6re,...,abyze,abyze,abyze,abyze,,abyz,,abyz,abyz,abyz


In [112]:
def compareGOLD(row):
    global n
#    if row["lexeme"]=="dodo": 
#        debug=True
#    else:
#        debug=False
    if n%250==0: print (n,end=", ")
    n+=1
    lexeme=row["lexeme"]
    if not lexeme in conjugaisons:
        conjugaisons[lexeme]={"diff":[],"miss":[],"over":[],"overmiss":[],"ok":[]}
    if not lexeme in cliquesTypes:
        cliquesTypes[lexeme]={"diff":[],"miss":[],"over":[],"overmiss":[],"ok":[]}
    identiques=[]
    differents=[]
    missing=[]
    over=[]
    for case in analyseCases:
        if debug:    
            print (lexeme,case)
            print (GOLD[GOLD["lexeme"]==lexeme][case].item())
            print ((GOLD[GOLD["lexeme"]==lexeme][case].isnull().iloc[0]))
        if not case in row:
            if debug: print ("not case")
            missing.append(u"%s : Ø ≠ %s" % (case,GOLD[GOLD["lexeme"]==lexeme][case].item()))
            lexical=False
            if debug: print ("absence",case)
        elif case in row[row.isnull()] and not GOLD[GOLD["lexeme"]==lexeme][case].isnull().iloc[0]:
            if debug: print ("not case")
            missing.append(u"%s : Ø ≠ %s" % (case,GOLD[GOLD["lexeme"]==lexeme][case].item()))
            lexical=False
            if debug: print ("CLIQUES +NaN",case)
        elif not case in row[row.isnull()] and GOLD[GOLD["lexeme"]==lexeme][case].isnull().iloc[0]:
            if debug: print ("not case")
            over.append(u"%s : %s ≠ Ø" % (case,row[case]))
            lexical=False
            if debug: print ("GOLD -NaN",case)            
        elif (row[case]==GOLD[GOLD["lexeme"]==lexeme][case].item()):
            if debug: print ("egal")
            identiques.append(u"%s : %s" % (case,row[case]))
            if debug: print ("valeurs id")
        elif (case in row[row.isnull()]) and (GOLD[GOLD["lexeme"]==lexeme][case].isnull().iloc[0]):
            if debug: print ("NaNs")
            identiques.append(u"%s : %s" % (case,u"ØØØ"))
            if debug: print ("deux NaN")
        else:
            if debug: print ("else")
            differents.append(u"%s : %s ≠ %s" % (case, row[case],GOLD[GOLD["lexeme"]==lexeme][case].item()))
            lexical=False
            if debug: print (u"différence",case)
    if differents:
        conjugaisons[lexeme]["diff"].append(differents)
        cliquesTypes[lexeme]["diff"].append(row)
        if debug: print ("DIFF",len(differents),"=>", len(identiques), len(identiques)-nombreElements[lexeme], end=saut)
        if debug1: print (", ".join(differents))
    if missing and over:
        conjugaisons[lexeme]["overmiss"].append(over+missing)
        cliquesTypes[lexeme]["overmiss"].append(row)
        if debug: print ("OVERMISS", len(over), len(missing),"=>", len(identiques), len(identiques)-nombreElements[lexeme], end=saut)
        if debug1: 
            print (", ".join(missing))
            print (", ".join(over))
    elif missing:
        conjugaisons[lexeme]["miss"].append(missing)
        cliquesTypes[lexeme]["miss"].append(row)
        if debug: print ("MISS", len(missing),"=>", len(identiques), len(identiques)-nombreElements[lexeme], end=saut)
        if debug1: 
            print (", ".join(missing))
    elif over:
        conjugaisons[lexeme]["over"].append(over)
        cliquesTypes[lexeme]["over"].append(row)
        if debug: print ("OVER", len(over),"=>", len(identiques), len(identiques)-nombreElements[lexeme], end=saut)
        if debug1: 
            print (", ".join(over))
    if identiques:
        conjugaisons[lexeme]["ok"].append(identiques)
        cliquesTypes[lexeme]["ok"].append(row)
        if debug: print ("OK", len(identiques), len(identiques)-nombreElements[lexeme],end=saut)
        if debug1: print (", ".join(identiques))
#    print ()
    return lexical

In [None]:
%%time
debug=False
debug1=False
saut="\n"
n=0
conjugaisons={}
cliquesTypes={}
print (", ".join(sampleCases))
paradigmesCLIQUES.apply(compareGOLD,axis=1)

ai1P, ai1S, ai2P, ai2S, ai3P, ai3S, fi1P, fi1S, fi2P, fi2S, fi3P, fi3S, ii1P, ii1S, ii2P, ii2S, ii3P, ii3S, inf, is1S, is3P, is3S, pI1P, pI2P, pI2S, pP, pc1P, pc1S, pc2P, pc2S, pc3P, pc3S, pi1P, pi1S, pi2P, pi2S, pi3P, pi3S, ppFP, ppFS, ppMP, ppMS, ps1P, ps1S, ps2P, ps2S, ps3P, ps3S
0, 250

with codecs.open("2015-Data/"+samplePrefix+".yaml", 'w', encoding='utf8') as outfile:
    outfile.write(yaml.dump(conjugaisons, default_flow_style=True, encoding='utf8'))

In [109]:
yaml.safe_dump(conjugaisons, file("2015-Data/"+samplePrefix+".yaml",'w'), encoding='utf-8', allow_unicode=True)

In [111]:
pb=[i for i in conjugaisons if conjugaisons[i]["diff"]]
print (len(pb))
for element in pb:
    print (element)
    print ("DIFF",conjugaisons[element]["diff"])
    print ("MISS",conjugaisons[element]["miss"],end="\n\n")

197
divertir
DIFF [[u'ii3S : divErtizE \u2260 divErtisE', u'ii3P : divErtizE \u2260 divErtisE'], [u'ii3P : divErtizE \u2260 divErtisE'], [u'ppFP : divErtit \u2260 divErti'], [u'ppFS : divErtit \u2260 divErti', u'ppFP : divErtit \u2260 divErti'], [u'ii3S : divErtizE \u2260 divErtisE']]
MISS [[u'ii1P : \xd8 \u2260 divErtisj\xf4', u'pP : \xd8 \u2260 divErtis\xe2', u'pc1P : \xd8 \u2260 divErtirj\xf4', u'ii1S : \xd8 \u2260 divErtisE', u'ppMP : \xd8 \u2260 divErti', u'is3P : \xd8 \u2260 divErtis', u'is3S : \xd8 \u2260 divErti', u'ai1P : \xd8 \u2260 divErtim', u'ai1S : \xd8 \u2260 divErti', u'ppFS : \xd8 \u2260 divErti', u'ppFP : \xd8 \u2260 divErti', u'ps1P : \xd8 \u2260 divErtisj\xf4', u'ps3P : \xd8 \u2260 divErtis', u'ps1S : \xd8 \u2260 divErtis', u'pI2S : \xd8 \u2260 divErti', u'fi2P : \xd8 \u2260 divErtire', u'fi2S : \xd8 \u2260 divErtira', u'ps2P : \xd8 \u2260 divErtisje', u'ps2S : \xd8 \u2260 divErtis', u'ai2P : \xd8 \u2260 divErtit', u'ai2S : \xd8 \u2260 divErti', u'pc2P : \xd8 \u2260

In [60]:
good=[i for i in conjugaisons if not conjugaisons[i]["diff"]]
for lexeme in good:
    print (lexeme)
    for ident in conjugaisons[lexeme]:
        for element in conjugaisons[lexeme][ident]:
            print (ident)
            print (", ".join(element))
    print ()

reprendre
miss
ii1P : Ø ≠ r6pr6njô, pc1P : Ø ≠ r6prâdriô, ii1S : Ø ≠ r6pr6nE, ppMP : Ø ≠ r6pri, is3P : Ø ≠ r6pris, is3S : Ø ≠ r6pri, ai1P : Ø ≠ r6prim, ppFS : Ø ≠ r6priz, ppFP : Ø ≠ r6priz, ps1P : Ø ≠ r6pr6njô, ps3P : Ø ≠ r6prEn, fi2P : Ø ≠ r6prâdre, fi2S : Ø ≠ r6prâdra, pI2P : Ø ≠ r6pr6ne, ps2P : Ø ≠ r6pr6nje, ps2S : Ø ≠ r6prEn, ai2P : Ø ≠ r6prit, pc2P : Ø ≠ r6prâdrie, pc2S : Ø ≠ r6prâdrE, ii2P : Ø ≠ r6pr6nje, ppMS : Ø ≠ r6pri, pc3P : Ø ≠ r6prâdrE, is1S : Ø ≠ r6pris, pc1S : Ø ≠ r6prâdrE, fi3P : Ø ≠ r6prâdrô, ai3P : Ø ≠ r6prir, fi1P : Ø ≠ r6prâdrô
ok
pP : r6pr6nâ, ai3S : r6pri, ii3S : r6pr6nE, ps3S : r6prEn, inf : r6prâdr, ii3P : r6pr6nE, pi2S : r6prâ, ai1S : r6pri, pi2P : r6pr6ne, ps1S : r6prEn, pI2S : r6prâ, ai2S : r6pri, pi1S : r6prâ, pi1P : r6pr6nô, ii2S : r6pr6nE, pi3P : r6prEn, pi3S : r6prâ, pc3S : r6prâdrE, fi3S : r6prâdra, fi1S : r6prâdrE, pI1P : r6pr6nô

surprendre
miss
pc1P : Ø ≠ syrprâdriô, ppMP : Ø ≠ syrpri, is3P : Ø ≠ syrpris, is3S : Ø ≠ syrpri, ai1P : Ø ≠ syrprim, ppFP : 

In [None]:
paradigmes[paradigmes["lexeme"]==u"éprouver"].stack()

In [None]:
GOLD[GOLD["lexeme"]==u"éprouver"]

In [None]:
paradigmesCLIQUES[paradigmesCLIQUES["lexeme"]==u"éprouver"].stack()

In [None]:
paradigmesGOLD

In [None]:
paradigmesGOLD.loc[paradigmesGOLD["lexeme"]=="boire"]["inf"]