# Génération des réseaux de formes à partir des règles
- Gén-1 : génération des formes à partir de l'échantillon lexical
- Gén-2 : génération du réseau orienté à partir de Gén-1
- Filt-1 : extraction du sous-réseau symétrique
- Filt-2 : génération du réseau non-orienté correspondant à Filt-1
- Filt-3 : extraction des cliques maximales


## Importations
- codecs pour les encodages
- pandas et numpy pour les calculs sur tableaux
- matplotlib pour les graphiques
- itertools pour les itérateurs sophistiqués (paires sur liste, ...)

In [124]:
# -*- coding: utf8 -*-
import codecs
import features
import re
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import itertools as it
import pickle
import networkx as nx
#%pylab inline
#pd.options.display.mpl_style = 'default'
debug=False
from __future__ import print_function

In [125]:
import yaml

In [126]:
from ipywidgets import FloatProgress
from IPython.display import display, HTML

In [127]:
import datetime
def dateheure():
    return datetime.datetime.utcnow().strftime('%y%m%d%H%M')

In [128]:
saut="\n"

### Préparation des matrices de traits

In [129]:
features.add_config('bdlexique.ini')
fs=features.FeatureSystem('phonemes')

# Choix de l'échantillon et des règles
- *sampleFile* est le nom de l'échantillon de départ
- *analysisPrefix* est une partie du nom des règles

In [130]:
filePrefix="/Users/gilles/Box Sync/2015-Data/MGC-170330"
filePrefix="/Volumes/gilles/Transfert/Copies-iMac-GB/2015-Data/MGC-170330"
sampleNumber="19-100Ko"
sampleType="N"
casesType="-Morphomes"
paperPrefix="-ISMo"
genFormeVotes=True
genCliques=True
listeFormesOutput=["FS","FP"]
genDigraphe=True
genGraphe=True
samplePrefix=filePrefix+"-%s-%s"%(sampleNumber,sampleType)+casesType
sampleFile=samplePrefix+"-paradigmes.csv"
analysisPrefix=samplePrefix
logfile_name=analysisPrefix+"-network.log"
logfile = codecs.open(logfile_name,mode='w',encoding="utf8")

### Préparation des cases du paradigme

# Préparation du calcul des analogies

### Calcul de la différence entre deux formes

In [131]:
def diff(mot1,mot2):
    result=[]
    diff1=""
    diff2=""
    same=""
    vide="."
    lmax=max(len(mot1),len(mot2))
    lmin=min(len(mot1),len(mot2))
    for index in range(lmax):
        if index < lmin:
            if mot1[index]!=mot2[index]:
                diff1+=mot1[index]
                diff2+=mot2[index]
                same+=vide
            else:
                same+=mot1[index]
                diff1+=vide
                diff2+=vide
        elif index < len(mot1):
            diff1+=mot1[index]
        elif index < len(mot2):
            diff2+=mot2[index]
    diff1=diff1.lstrip(".")
    diff2=diff2.lstrip(".")
#    return (same,diff1,diff2,diff1+"_"+diff2)
    return (diff1+"-"+diff2)

### Accumulation des paires appartenant à un patron

In [132]:
def rowDiff(row, patrons):
    result=diff(row[0],row[1])
    if not result in patrons:
        patrons[result]=(formesPatron(),formesPatron())
    patrons[result][0].ajouterFormes(row[0])
    patrons[result][1].ajouterFormes(row[1])
    return (result[0],result[1])

### Transformation d'un patron en RegExp

In [133]:
def patron2regexp(morceaux):
    result="^"
    for morceau in morceaux:
        if morceau=="*":
            result+="(.*)"
        elif len(morceau)>1:
            result+="(["+morceau+"])"
        else:
            result+=morceau
    result+="$"
    result=result.replace(")(","")
    return result

### Substitution de sortie 
???

In [134]:
def remplacementSortie(sortie):
    n=1
    nsortie=""
    for lettre in sortie:
        if lettre==".":
            nsortie+="\g<%d>"%n
            n+=1
        else:
            nsortie+=lettre
    return nsortie

# Classe pour la gestion des patrons, des classes et des transformations

In [135]:
class paireClasses:
    def __init__(self,case1,case2):
        self.case1=case1
        self.case2=case2
        self.nom=case1+"-"+case2
        self.classes1=classesPaire(case1,case2)
        self.classes2=classesPaire(case2,case1)

    def ajouterPatron(self,n,patron,motif):
        if n==1:
            self.classes1.ajouterPatron(patron,motif)
        elif n==2:
            self.classes2.ajouterPatron(patron,motif)
        else:
            print ("le numéro de forme n'est pas dans [1,2]",n,file=logfile)

    def ajouterPaire(self,forme1,forme2):
        self.classes1.ajouterPaire(forme1,forme2)
        self.classes2.ajouterPaire(forme2,forme1)
        
    def calculerClasses(self):
        return(self.classes1,self.classes2)

    
class classesPaire:
    '''
    Gestion des patrons, des classes et des transformations
    
    ajouterPatron : ajoute un patron et son motif associé (MGL)
    ajouterPaire : ajoute une paire de formes, calcule la classe de la forme1 et la règle sélectionnée
    sortirForme : cacule les formes de sortie correspondant à la forme1 avec leurs coefficients respectifs
    '''
    def __init__(self,case1,case2):
        self.case1=case1
        self.case2=case2
        self.nom=case1+"-"+case2
        self.classe={}
        self.nbClasse={}
        self.patrons={}
        self.entree={}
        self.sortie={}
    
    def ajouterPatron(self,patron,motif):
        self.patrons[patron]=motif
        (entree,sortie)=patron.split("-")
        self.entree[patron]=entree.replace(u".",u"(.)")
        self.sortie[patron]=remplacementSortie(sortie)
    
    def ajouterPaire(self,forme1,forme2):
        '''
        on calcule la classe de la paire idClasseForme et la règle sélectionnée
        on incrémente le compteur de la classe et celui de la règle sélectionnée à l'intérieur de la classe
        '''
        classeForme=[]
        regleForme=""
        for patron in self.patrons:
            if re.match(self.patrons[patron],forme1):
                classeForme.append(patron)
                '''
                le +"$" permet de forcer l'alignement à droite pour les transformations suffixales
                '''
                if forme2==re.sub(self.entree[patron]+"$",self.sortie[patron],forme1):
                    regleForme=patron
        idClasseForme=", ".join(classeForme)
        if not idClasseForme in self.classe:
            self.classe[idClasseForme]={}
            self.nbClasse[idClasseForme]=0
        if not regleForme in self.classe[idClasseForme]:
            self.classe[idClasseForme][regleForme]=0
        self.nbClasse[idClasseForme]+=1
        self.classe[idClasseForme][regleForme]+=1

    def sortirForme(self,forme):
        classeForme=[]
        sortieForme={}
        for patron in self.patrons:
            if re.match(self.patrons[patron],forme):
                classeForme.append(patron)
        if classeForme:
            idClasseForme=", ".join(classeForme)
            if idClasseForme in self.nbClasse:
                nTotal=self.nbClasse[idClasseForme]
                for patron in self.classe[idClasseForme]:
                    sortie=re.sub(self.entree[patron]+"$",self.sortie[patron],forme)
                    sortieForme[sortie]=float(self.classe[idClasseForme][patron])/nTotal
            else:
                if debug:
                    print (forme, file=logfile)
                    print ("pas de classe",idClasseForme, file=logfile)
                    print ("%.2f par forme de sortie" % (float(1)/len(classeForme)), file=logfile)
                nTotal=len(classeForme)
                for patron in classeForme:
                    sortie=re.sub(self.entree[patron]+"$",self.sortie[patron],forme)
                    sortieForme[sortie]=float(1)/nTotal
        else:
            print (forme, file=logfile) 
            print ("pas de patron", file=logfile)
        return sortieForme
        

## Appliquer la formule de calcul des différences entre chaines à chaque ligne

>si il y a au moins une ligne

>>on applique la différence à la ligne

>>on calcule les deux patrons par suppression des points initiaux

>>on renvoie le groupement par patrons (1&2)

>sinon

>>on renvoie le paradigme vide d'origine

In [136]:
def rapports(paradigme):
    if len(paradigme.columns.values.tolist())==2:
        (case1,lexeme)= paradigme.columns.values.tolist()
        case2=case1
    else:
        (case1,case2,lexeme)= paradigme.columns.values.tolist()
    patrons=pairePatrons(case1,case2)
    classes=paireClasses(case1,case2)
    if len(paradigme)>0:
        paradigme.apply(lambda x: patrons.ajouterFormes(x[case1],x[case2],diff(x[case1],x[case2])), axis=1)
        (regles1,regles2)=patrons.calculerGM()
        for regle in regles1:
            classes.ajouterPatron(1,regle,regles1[regle])
        for regle in regles2:
            classes.ajouterPatron(2,regle,regles2[regle])
        paradigme.apply(lambda x: classes.ajouterPaire(x[case1],x[case2]), axis=1)
    (classes1,classes2)=classes.calculerClasses()
    return (classes1,classes2)

### Dédoubler les lignes avec des surabondances dans *colonne*
>identifier une ligne avec surabondance

>>ajouter les lignes correspondant à chaque valeur

>>ajouter le numéro de la ligne initiale dans les lignes à supprimer

>supprimer les lignes avec surabondance

NB : il faut préparer le tableau pour avoir une indexation qui permette l'ajout des valeurs individuelles et la suppression des lignes de surabondances

In [137]:
def splitCellMates(df,colonne):
    '''
    Calcul d'une dataframe sans surabondance par dédoublement des valeurs
    '''
    test=df.reset_index()
    del test["index"]
    splitIndexes=[]
    for index,ligne in test.iterrows():
        if "," in ligne[colonne]:
            valeurs=set(ligne[colonne].split(","))
            nouvelleLigne=ligne
            for valeur in valeurs:
                nouvelleLigne[colonne]=valeur
                test=test.append(nouvelleLigne,ignore_index=True)
            splitIndexes.append(index)
    if splitIndexes:
        test=test.drop(test.index[splitIndexes])
    return test


In [138]:
paradigmes=pd.read_csv(sampleFile,sep=";",encoding="utf8")
del paradigmes[u"Unnamed: 0"]
paradigmes=paradigmes.dropna(axis=1,how='all')

In [139]:
phonologicalMap=sampleType
if debug: print(phonologicalMap)
neutralisationsNORD=(u"6û",u"9ê")
neutralisationsSUD=(u"e2o",u"E9O")
if phonologicalMap=="N":
    neutralisations=neutralisationsNORD
elif phonologicalMap=="S":
    neutralisations=neutralisationsSUD
else:
    neutralisations=(u"",u"")
    phonologicalMap=("X")
bdlexiqueIn = unicode(u"èò"+neutralisations[0])
bdlexiqueNum = [ord(char) for char in bdlexiqueIn]
neutreOut = unicode(u"EO"+neutralisations[1])
neutralise = dict(zip(bdlexiqueNum, neutreOut))

In [140]:
def recoder(chaine,table=neutralise):
    if type(chaine)==str:
        temp=unicode(chaine.decode('utf8')).translate(table)
        result=temp.encode('utf8')
    elif type(chaine)==unicode:
        result=chaine.translate(table)
    else:
        result=chaine
    return result

In [141]:
goldCases=paradigmes.columns.tolist()
goldCases.remove("lexeme")
#goldCases

- sampleCases pour la liste des cases effectivement représentées dans le corpus de départ 

In [142]:
sampleCases=paradigmes.columns.values.tolist()
sampleCases.remove(u"lexeme")
#sampleCases

In [143]:
paradigmes.stack().value_counts(dropna=True).sum()

17249

In [144]:
with open(analysisPrefix+'-Regles.pkl', 'rb') as input:
    resultatsLecture = pickle.load(input)

### Comparer les cases analysées avec l'ensemble de toutes les cases

In [145]:
analyseCases=list(set([case for (case,autre) in resultatsLecture.keys()]))
if sorted(analyseCases)!=sorted(goldCases):
    print ("Attention l'analyse ne comprend pas toutes les cases")
    print (sorted(analyseCases))
    print (sorted(goldCases))

In [146]:
class paradigmeDistribution:
    '''
    Gestion des distributions dans les cases du paradigme
    '''

    def __init__(self,lexeme):
        self.lexeme=lexeme
        self.formes={i:{} for i in analyseCases}

    def ajouterFormes(self,case,formes,coef=1.0):
        for forme in formes:
            if not forme in self.formes[case]:
                self.formes[case][forme]=0
            self.formes[case][forme]+=formes[forme]*coef
            
    def normaliserDistributions(self,caseListe=analyseCases):
        normalesDistributions={i:{} for i in caseListe}
        for case in caseListe:
            total=0
            for element in self.formes[case]:
                total+=self.formes[case][element]
            for element in self.formes[case]:
                normalesDistributions[case][element]=float(self.formes[case][element])/total
        return normalesDistributions
        

In [147]:
def generateForms(lexeme):
    candidats=paradigmeDistribution(lexeme)
    casesSamples=paradigmes[paradigmes["lexeme"]==lexeme].columns[paradigmes[paradigmes["lexeme"]==lexeme].notnull().iloc[0]].tolist()
    casesSamples.remove("lexeme")
    for caseDepart in casesSamples:
        formeDepart=paradigmes[paradigmes["lexeme"]==lexeme][caseDepart].iloc[0]
        if debug: print (caseDepart,formeDepart, file=logfile)
#        if formeDepart!="nan":
        for case in analyseCases:
            if debug: print (case, file=logfile)
            if not isinstance(resultatsLecture[(caseDepart, case)],str):
                if "," in formeDepart:
                    formesDepart=formeDepart.split(",")
                    coef=1.0/len(formesDepart)
                    for element in formesDepart:
                        candidats.ajouterFormes(case,resultatsLecture[(caseDepart, case)].sortirForme(element),coef)
                else:
                    candidats.ajouterFormes(case,resultatsLecture[(caseDepart, case)].sortirForme(formeDepart))
            else: 
                if debug: print ("str", resultatsLecture[(caseDepart, case)], file=logfile)
    return candidats

In [148]:
def ajouterPoint(lexeme,forme,case,digraphe,graphe):
    pointName="%s-%s-%s"%(lexeme,forme,case)
#    if not pointName in digraphe.nodes():
    tam=case[:2]
    if tam=="in": tam="inf"
    digraphe.add_node(pointName, tam='"%s"'%tam)
    graphe.add_node(pointName, tam='"%s"'%tam)
    return pointName

def ajouterFleche(pointDepart,pointSortie,coef,digraphe,graphe):
    digraphe.add_edge(pointDepart,pointSortie,weight=float(coef))
    if digraphe.has_edge(pointSortie,pointDepart):
        coefGraphe=float(digraphe.edge[pointSortie][pointDepart]["weight"]+coef)/2
        graphe.add_edge(pointDepart,pointSortie,weight=coefGraphe)

In [149]:
def generateParadigms(generation1,genDigraphe=True):
    lexeme=generation1.lexeme
    distributionInitiale=generation1.normaliserDistributions()
    candidats=paradigmeDistribution(lexeme)
    digraphe=nx.DiGraph()
    graphe=nx.Graph()    
    for caseDepart in analyseCases:
        for formeDepart in distributionInitiale[caseDepart]:
            if formeDepart:
                pointDepart=ajouterPoint(lexeme,formeDepart,caseDepart,digraphe,graphe)
                coefDepart=distributionInitiale[caseDepart][formeDepart]
                if debug: print (caseDepart,formeDepart, file=logfile)
                for caseSortie in analyseCases:
                    distributionSortieBrute=resultatsLecture[(caseDepart, caseSortie)].sortirForme(formeDepart)
                    if distributionSortieBrute:
                        if not genDigraphe:
#                            print ("brute",distributionSortieBrute)
                            distributionSortie={f:distributionSortieBrute[f] for f in distributionSortieBrute if f in distributionInitiale[caseSortie]}
                        else:
                            distributionSortie=distributionSortieBrute
#                        print ("filtre",distributionSortie)
#                        print (distributionInitiale[caseSortie])
                        if debug: print (caseSortie,distributionSortie,distributionInitiale[caseDepart], file=logfile)
                        candidats.ajouterFormes(caseSortie,distributionSortie,distributionInitiale[caseDepart][formeDepart])
                        for formeSortie in distributionSortie:
                            pointSortie=ajouterPoint(lexeme,formeSortie,caseSortie,digraphe,graphe)
                            coefSortie=distributionSortie[formeSortie]
                            ajouterFleche(pointDepart,pointSortie,float(coefDepart*coefSortie),digraphe,graphe)
    return (candidats,digraphe,graphe)

In [150]:
def generate(lexeme,genDigraphe=True):
#    print (lexeme,end=", ")
    generation1=generateForms(lexeme)
#    print ("génération 2",end=", ")
    (generation2,lexDigraphe,lexGraphe)=generateParadigms(generation1,genDigraphe)
    lexCliques=list(nx.algorithms.clique.find_cliques(lexGraphe))
#    print (lexCliques)
#    print ("génération 3")
    return (generation2,lexDigraphe,lexGraphe,lexCliques)

In [151]:
len(paradigmes.dropna(thresh=1)["lexeme"])

3108

In [152]:
#paradigmes
#analyseCases
lexeme=u"découper"
paradigmes[paradigmes["lexeme"]==lexeme].columns[paradigmes[paradigmes["lexeme"]==lexeme].notnull().iloc[0]].tolist()

[u'lexeme',
 u'ii1S',
 u'inf',
 u'pP',
 u'pi1S',
 u'pi2S',
 u'pi3P',
 u'ppFP',
 u'ppMP']

In [153]:
paradigmes.dropna(thresh=1).count().sum()-paradigmes.dropna(thresh=1)["lexeme"].count()

14141

#### Calculer le score de la clique

In [166]:
def cliqueScore(clique,graph):
    score=0
    if len(clique)>1:
        for (depart,arrivee) in it.combinations_with_replacement(clique,2):
            score+=graph[depart][arrivee]["weight"]
    return score

In [155]:
def splitArrivee(arrivee):
    arriveeMorceaux=arrivee.split("-")
    lexeme="-".join(arriveeMorceaux[:-2])
    formeArrivee=arriveeMorceaux[-2]
    caseArrivee=arriveeMorceaux[-1]
    return (lexeme,formeArrivee,caseArrivee)
    
# trouver tous les liens vers FS-* et FP-*
# regrouper par forme 
# calculer les proportions
# renvoyer les proportions par forme
# avec le nombre de forme à l'appui
def formeScore(forme,graph):
    scores={}
    scoresNormes={}
    for depart in graph.edge:
        for arrivee in graph.edge[depart]:
            (lexeme, formeArrivee, caseArrivee)=splitArrivee(arrivee)
            if caseArrivee==forme:
#                print (depart, formeArrivee, graph.edge[depart][arrivee])
                if not formeArrivee in scores:
                    scores[formeArrivee]=0
                scores[formeArrivee]+=graph.edge[depart][arrivee]["weight"]
    totalArrivee=0
    for formeArrivee in scores:
        totalArrivee+=scores[formeArrivee]
    for formeArrivee in scores:
        scoresNormes[formeArrivee]=scores[formeArrivee]/totalArrivee
    return (scores,scoresNormes)
        

## Génération des formes

In [168]:
#%%time
debug=False
listeTest=paradigmes.dropna(thresh=1)["lexeme"].values.tolist()
listeTest=[u"abaisser",u"aboutir",u"abuser",u"accoucher",u"acquiescer",u"acquérir",u"adapter",
           u"administrer",u"affaiblir",u"agenouiller",u"alléger",u"amasser",u"amorcer",u"amplifier",
           u"amputer",u"angoisser",u"appareiller",u"assaillir",u"assombrir",u"attiser",u"attrister",
           u"baser",u"bluffer",u"blâmer",u"botter",u"bousculer",u"branler",u"cambrer",u"chagriner",
           u"chanceler",u"charmer",u"chevaucher",u"choper",u"cligner",u"collaborer",u"compenser",
           u"compléter",u"concevoir",u"confiner",u"consister",u"contester",u"coopérer",u"copier",
           u"corriger",u"courber",u"couronner",u"crisper",u"croquer",u"cultiver",u"dicter",u"diffuser",
           u"digérer",u"diviser",u"doucher",u"draguer",u"droguer",u"débiter",u"déboucher",u"débuter",
           u"déchiffrer",u"déconner",u"décorer",u"dégonfler",u"délaisser",u"délier",u"délirer",
           u"démolir",u"démontrer",u"démêler",u"dépouiller",u"déraper",u"déserter",u"désespérer",
           u"déshonorer",u"détecter",u"déterminer",u"dévaler",u"développer",u"dévoiler",u"effleurer",
           u"effriter",u"embaumer",u"embraser",u"empoisonner",u"emprisonner",u"encadrer",u"encaisser",
           u"encombrer",u"enflammer",u"engraisser",u"engueuler",u"entraver",u"exploiter",u"extraire",
           u"faciliter",u"faucher",u"feuilleter",u"financer",u"flairer",u"fouetter",u"fouler",
           u"fracasser",u"frayer",u"freiner",u"garnir",u"gaspiller",u"glorifier",u"grommeler",u"grouper",
           u"gémir",u"haver",u"hisser",u"hérisser",u"illustrer",u"improviser",u"inaugurer",u"incruster",
           u"infiltrer",u"influencer",u"injecter",u"inspecter",u"intercepter",u"intimider",u"intituler",
           u"investir",u"joncher",u"lisser",u"lorgner",u"louper",u"marteler",u"maudire",u"maîtriser",
           u"mijoter",u"minauder",u"mouler",u"muer",u"méditer",u"mélanger",u"nager",u"naviguer",
           u"obliquer",u"obséder",u"offenser",u"orienter",u"parfaire",u"passionner",u"patauger",u"pavoiser",
           u"percuter",u"photographier",u"picoler",u"piger",u"piloter",u"piéger",u"plisser",u"pressentir",
           u"priser",u"prodiguer",u"profiler",u"progresser",u"provenir",u"préserver",u"présumer",u"puiser",
           u"quadriller",u"racler",u"rajuster",u"rallier",u"rallumer",u"ramer",u"ravaler",u"rebondir",
           u"rebrousser",u"reconstituer",u"refiler",u"relancer",u"relater",u"relayer",u"remporter",
           u"remémorer",u"rendormir",u"reparaître",u"repeindre",u"reproduire",u"restituer",u"retapisser",
           u"retentir",u"revendre",u"revivre",u"rhabiller",u"rincer",u"ronfler",u"ruer",u"ruminer",
           u"répliquer",u"répugner",u"résulter",u"scandaliser",u"scruter",u"simplifier",u"superposer",
           u"surmonter",u"survenir",u"séduire",u"tacher",u"tamponner",u"tapir",u"tapoter",u"terrasser",
           u"tolérer",u"tortiller",u"transmettre",u"tricher",u"trier",u"trimballer",u"trimer",u"trotter",
           u"trouer",u"trébucher",u"vaincre",u"vouer",u"vêtir",u"ébaucher",u"éblouir",u"éclaircir",
           u"écouler",u"égaler",u"égorger",u"éliminer",u"émerger",u"émerveiller",u"émettre",u"émouvoir",
           "épaissir",u"éponger",u"évaluer"]
listeTest=[u"corriger",u"résulter",u"émerger",u"injecter","concevoir","collaborer",u"coopérer",u"méditer"]
listeTest=[u"coopérer"]
nbVerbes=len(listeTest)
print (nbVerbes)
globDigraphe=nx.DiGraph()
globGraphe=nx.Graph()
cliques=[]
cliquesScores={}
cliquesListes={}
numClique=0
formesScores={}
formesScoresNormes={}
progressBar = FloatProgress(min=0, max=nbVerbes)
display(progressBar)
for i,element in enumerate(listeTest):
    cliquesScores[element]={}
    cliquesListes[element]={}
#    if (i%100)==0: print (i, dateheure()[-4:], int(100*float(i)/nbVerbes), end=", ")
    progressBar.value=i
    #print (element)
    result=generate(element,genDigraphe)
    (generation,lexDigraphe,lexGraphe,lexCliques)= result
#    print (generation,lexDigraphe,lexGraphe,lexCliques)
    if genFormeVotes:
        formesScores[element]={}
        formesScoresNormes[element]={}
        for formeOutput in listeFormesOutput:
            (formesScores[element][formeOutput],formesScoresNormes[element][formeOutput])=formeScore(formeOutput,lexDigraphe)
    if genDigraphe:
        globDigraphe=nx.union(globDigraphe,lexDigraphe)
    if genGraphe:
        globGraphe=nx.union(globGraphe,lexGraphe)
    cliques.extend(lexCliques)
    for clique in lexCliques:
        cliquesScores[element][numClique]=cliqueScore(clique,lexGraphe)
        cliquesListes[element][numClique]=clique
        numClique+=1

1


In [174]:
globDigraphe.edges()

[(u'coop\xe9rer-kOOpEr-ps1S', u'coop\xe9rer-kOOpErje-ii2P'),
 (u'coop\xe9rer-kOOpEr-ps1S', u'coop\xe9rer-kOOpEr-pi3P'),
 (u'coop\xe9rer-kOOpEr-ps1S', u'coop\xe9rer-kOOpEr-ps1S'),
 (u'coop\xe9rer-kOOpEr-ps1S', u'coop\xe9rer-kOOpErE-ai1S'),
 (u'coop\xe9rer-kOOpEr-ps1S', u'coop\xe9rer-kOOpEr9ra-fi2S'),
 (u'coop\xe9rer-kOOpEr-ps1S', u'coop\xe9rer-kOOpEr-pi1S'),
 (u'coop\xe9rer-kOOpEr-ps1S', u'coop\xe9rer-kOOpEri-ai2S'),
 (u'coop\xe9rer-kOOpEr-ps1S', u'coop\xe9rer-kOOpErim-ai1P'),
 (u'coop\xe9rer-kOOpEr-ps1S', u'coop\xe9rer-kOOpEr\xf4-pi1P'),
 (u'coop\xe9rer-kOOpEr-ps1S', u'coop\xe9rer-kOOpErir-ai3P'),
 (u'coop\xe9rer-kOOpEr-ps1S', u'coop\xe9rer-kOOpEr-pI2S'),
 (u'coop\xe9rer-kOOpEr-ps1S', u'coop\xe9rer-kOOpEre-ppFP'),
 (u'coop\xe9rer-kOOpEr-ps1S', u'coop\xe9rer-kOOpEr9rE-fi1S'),
 (u'coop\xe9rer-kOOpEr-ps1S', u'coop\xe9rer-kOOpEr\xf4-pI1P'),
 (u'coop\xe9rer-kOOpEr-ps1S', u'coop\xe9rer-kOOpEra-ai2S'),
 (u'coop\xe9rer-kOOpEr-ps1S', u'coop\xe9rer-kOOpEram-ai1P'),
 (u'coop\xe9rer-kOOpEr-ps1S', 

In [169]:
if genFormeVotes:
    fScores=(formesScores,formesScoresNormes)
    with open(analysisPrefix+paperPrefix+'-Scores.pkl', 'wb') as output:
        pickle.dump(fScores, output, pickle.HIGHEST_PROTOCOL)

In [177]:
%%time
versionStamp=dateheure()
if genDigraphe and len(listeTest)==1: 
    nx.readwrite.write_gexf(globDigraphe,analysisPrefix+paperPrefix+u"-digraphe-%s.gexf"%versionStamp)
if genGraphe and len(listeTest)==1:
    nx.readwrite.write_gexf(globGraphe,analysisPrefix+paperPrefix+u"-graphe-%s.gexf"%versionStamp)

CPU times: user 62.7 ms, sys: 3.63 ms, total: 66.3 ms
Wall time: 1.41 s


In [101]:
print (len(cliques))

183


In [102]:
if genCliques:
    infoCliques={"cliques":cliques, "cliquesScores":cliquesScores, "cliquesListes":cliquesListes}
    with open(analysisPrefix+paperPrefix+'-Network.pkl', 'wb') as output:
        pickle.dump(infoCliques, output, pickle.HIGHEST_PROTOCOL)

In [103]:
lexemeMaxCliques={}
for lexeme in cliquesListes:
    maxLen=max([len(c) for c in cliquesListes[lexeme].values()])
    maxCliques=[c for c in cliquesListes[lexeme].values() if len(c)==maxLen]
    lexemeMaxCliques[lexeme]=(maxLen,maxCliques)

In [191]:
def dictCliqueForms(clique):
    result={}
    for element in clique:
        lexeme,forme,case=splitArrivee(element)
        result[case]=forme
    return result

def dictPdRowForms(row):
    result={}
    for case in sampleCases:
        print (case,row[case].values[0])
    return result

def tableZero(case):
    if case in sampleCases:
        return u"Ø"
    else:
        return u"="

def makeTable(dictForms,title=""):
    tabular=[]
    labelTenseCode={"pi":"Present","ii":"Imperfective","ai":"Simple Past","fi":"Future",
                    "ps":"Subjunctive Pres.","is":"Subjunctive Imp.","pc":"Conditional","pI":"Imperative",
                    "inf":"Infinitive",
                    "ppMS":"Past Part. MS","ppMP":"Past Part. MP",
                    "ppFS":"Past Part. FS","ppMP":"Past Part. FP"
                   }
    def makeLine6(tenseCode):
        line=[]
        line.append(r"<th>%s</th>"%labelTenseCode[tenseCode])
        for person in [per+nb for nb in ["S","P"] for per in ["1","2","3"]]:
            case=tenseCode+person
            if (case in dictForms) and (not (type(dictForms[case]) == float and np.isnan(dictForms[case]))):
                line.append(r"<td>%s</td>"%(dictForms[case]))
            else:
                line.append(r"<td>%s</td>"%(tableZero(case)))
        return r"<tr>"+r"".join(line)+r"</tr>"

    def makeLine3(tenseCode):
        line=[]
        line.append(r"<th>%s</th>"%labelTenseCode[tenseCode])
        for person in [per+nb for nb in ["S","P"] for per in ["1","2","3"]]:
            if person in ["2S","1P","2P"]:
                case=tenseCode+person
                if case in dictForms and (not (type(dictForms[case]) == float and np.isnan(dictForms[case]))):
                    line.append(r"<td>%s</td>"%(dictForms[case]))
                else:
                    line.append(r"<td>%s</td>"%(tableZero(case)))
            else:
                line.append(r"<td>%s</td>"%(u"---"))
        return r"<tr>"+r"".join(line)+r"</tr>"
    
    def makeLineNF():
        line=[]
        line.append(r"<th>%s</th>"%"NF")
        for case in ["inf","pP","ppMS","ppMP","ppFS","ppFP"]:
            if case in dictForms and (not (type(dictForms[case]) == float and np.isnan(dictForms[case]))):
                line.append(r"<td>%s</td>"%(dictForms[case]))
            else:
                line.append(r"<td>%s</td>"%(tableZero(case)))
        return r"<tr>"+r"".join(line)+r"</tr>"
    
        
    top=[
        r"<table>",
        r"<caption style='caption-side:bottom;text-align:center'>",
        "Verbe : %s"%title,
        r"</caption>",
#        r"<tr><th/><th>1S</th><th>2S</th><th>3S</th><th>1P</th><th>2P</th><th>3P</th></tr>"
        r"<tr><th/><th>1SG</th><th>2SG</th><th>3SG</th><th>1PL</th><th>2PL</th><th>3PL</th></tr>"
        ]
    bottom=[
        r"</table>"
        ]
    tabular.append("\n".join(top))
    for tenseCode in ["pi","ii","fi","pc", "ps","ai", "is"]:
        tabular.append(makeLine6(tenseCode))
    tabular.append(makeLine3("pI"))
    tabular.append(makeLineNF())
    tabular.append("\n".join(bottom))
    return "\n".join(tabular)    

def diffParadigme(lexeme):
    outLen=lexemeMaxCliques[lexeme][0]
    inLen=paradigmes[paradigmes["lexeme"]==lexeme].notnull().sum(axis=1).values[0]-1
    if outLen>inLen:
        print (lexemeMaxCliques[lexeme][1])
        print (paradigmes[paradigmes["lexeme"]=="grandir"].values)
    return outLen-inLen
    

In [192]:
for lexeme in lexemeMaxCliques:
    for clique in lexemeMaxCliques[lexeme][1]:
        display(HTML(makeTable(dictCliqueForms(clique),title=lexeme)))
lexeme=u"coopérer"

Unnamed: 0,1SG,2SG,3SG,1PL,2PL,3PL
Present,mEdit,mEdit,=,mEditô,mEdite,mEdit
Imperfective,mEditE,=,=,mEditjô,mEditje,=
Future,mEdit9rE,mEdit9ra,=,Ø,mEdit9re,mEdit9rô
Conditional,=,=,=,Ø,Ø,=
Subjunctive Pres.,mEdit,=,=,Ø,Ø,=
Simple Past,mEditE,mEdita,=,Ø,Ø,mEditEr
Subjunctive Imp.,=,=,=,=,=,=
Imperative,---,mEdit,---,mEditô,mEdite,---
NF,mEdite,mEditâ,=,mEdite,=,mEdite


Unnamed: 0,1SG,2SG,3SG,1PL,2PL,3PL
Present,mEdit,mEdit,=,mEditô,mEdite,mEdit
Imperfective,mEditE,=,=,mEditjô,mEditje,=
Future,mEdit9rE,mEdit9ra,=,Ø,mEdit9re,Ø
Conditional,=,=,=,Ø,Ø,=
Subjunctive Pres.,mEdit,=,=,Ø,mEditje,=
Simple Past,mEditE,mEdita,=,Ø,Ø,mEditEr
Subjunctive Imp.,=,=,=,=,=,=
Imperative,---,mEdit,---,mEditô,mEdite,---
NF,mEdite,mEditâ,=,mEdite,=,mEdite


Unnamed: 0,1SG,2SG,3SG,1PL,2PL,3PL
Present,mEdit,mEdit,=,mEditô,mEdite,mEdit
Imperfective,mEditE,=,=,mEditjô,Ø,=
Future,mEdit9rE,mEdit9ra,=,mEdit9rô,mEdit9re,mEdit9rô
Conditional,=,=,=,Ø,Ø,=
Subjunctive Pres.,mEdit,=,=,Ø,Ø,=
Simple Past,mEditE,mEdita,=,Ø,Ø,mEditEr
Subjunctive Imp.,=,=,=,=,=,=
Imperative,---,mEdit,---,mEditô,mEdite,---
NF,mEdite,mEditâ,=,mEdite,=,mEdite


Unnamed: 0,1SG,2SG,3SG,1PL,2PL,3PL
Present,mEdit,mEdit,=,mEditô,mEdite,mEdit
Imperfective,mEditE,=,=,mEditjô,Ø,=
Future,mEdit9rE,mEdit9ra,=,mEdit9rô,mEdit9re,Ø
Conditional,=,=,=,Ø,Ø,=
Subjunctive Pres.,mEdit,=,=,Ø,mEditje,=
Simple Past,mEditE,mEdita,=,Ø,Ø,mEditEr
Subjunctive Imp.,=,=,=,=,=,=
Imperative,---,mEdit,---,mEditô,mEdite,---
NF,mEdite,mEditâ,=,mEdite,=,mEdite


Unnamed: 0,1SG,2SG,3SG,1PL,2PL,3PL
Present,rEzylt,rEzylt,=,Ø,rEzylte,Ø
Imperfective,rEzyltE,=,=,Ø,Ø,=
Future,rEzylt9rE,rEzylt9ra,=,Ø,Ø,Ø
Conditional,=,=,=,Ø,Ø,=
Subjunctive Pres.,rEzylt,=,=,Ø,Ø,=
Simple Past,Ø,rEzylta,=,Ø,Ø,Ø
Subjunctive Imp.,=,=,=,=,=,=
Imperative,---,rEzylt,---,Ø,rEzylte,---
NF,rEzylte,Ø,=,rEzylte,=,rEzylte


Unnamed: 0,1SG,2SG,3SG,1PL,2PL,3PL
Present,EmErZ,EmErZ,=,EmErZô,EmErZe,EmErZ
Imperfective,EmErZE,=,=,EmErZjô,Ø,=
Future,EmErZ9rE,EmErZ9ra,=,EmErZ9rô,EmErZ9re,EmErZ9rô
Conditional,=,=,=,Ø,Ø,=
Subjunctive Pres.,EmErZ,=,=,Ø,Ø,=
Simple Past,EmErZE,EmErZa,=,EmErZam,Ø,EmErZEr
Subjunctive Imp.,=,=,=,=,=,=
Imperative,---,EmErZ,---,EmErZô,EmErZe,---
NF,EmErZe,EmErZâ,=,EmErZe,=,EmErZe


Unnamed: 0,1SG,2SG,3SG,1PL,2PL,3PL
Present,êZEkt,êZEkt,=,êZEktô,êZEkte,êZEkt
Imperfective,êZEktE,=,=,Ø,Ø,=
Future,êZEkt9rE,êZEkt9ra,=,Ø,êZEkt9re,êZEkt9rô
Conditional,=,=,=,Ø,Ø,=
Subjunctive Pres.,êZEkt,=,=,Ø,Ø,=
Simple Past,êZEktE,êZEkta,=,Ø,Ø,êZEktEr
Subjunctive Imp.,=,=,=,=,=,=
Imperative,---,êZEkt,---,êZEktô,êZEkte,---
NF,êZEkte,êZEktâ,=,êZEkte,=,êZEkte


Unnamed: 0,1SG,2SG,3SG,1PL,2PL,3PL
Present,kôswa,kôswa,=,Ø,kôs9ve,Ø
Imperfective,kôs9vE,=,=,kôs9vjô,Ø,=
Future,Ø,kôs9vra,=,Ø,Ø,Ø
Conditional,=,=,=,Ø,Ø,=
Subjunctive Pres.,kôswav,=,=,Ø,Ø,=
Simple Past,kôsy,kôsy,=,Ø,Ø,Ø
Subjunctive Imp.,=,=,=,=,=,=
Imperative,---,kôswa,---,Ø,kôs9ve,---
NF,kôs9vwar,kôs9vâ,=,kôsy,=,kôsy


Unnamed: 0,1SG,2SG,3SG,1PL,2PL,3PL
Present,kôswa,kôswa,=,Ø,kôs9ve,Ø
Imperfective,kôs9vE,=,=,kôs9vjô,Ø,=
Future,Ø,Ø,=,Ø,Ø,Ø
Conditional,=,=,=,Ø,Ø,=
Subjunctive Pres.,kôswav,=,=,Ø,Ø,=
Simple Past,kôsy,kôsy,=,Ø,Ø,kôsyr
Subjunctive Imp.,=,=,=,=,=,=
Imperative,---,kôswa,---,Ø,kôs9ve,---
NF,kôs9vwar,kôs9vâ,=,kôsy,=,kôsy


Unnamed: 0,1SG,2SG,3SG,1PL,2PL,3PL
Present,kOlabOr,kOlabOr,=,kOlabOrô,kOlabOre,kOlabOr
Imperfective,kOlabOrE,=,=,kOlabOrjô,Ø,=
Future,kOlabOr9rE,kOlabOr9ra,=,kOlabOr9rô,Ø,Ø
Conditional,=,=,=,Ø,Ø,=
Subjunctive Pres.,kOlabOr,=,=,Ø,Ø,=
Simple Past,kOlabOrE,kOlabOra,=,kOlabOram,Ø,kOlabOrEr
Subjunctive Imp.,=,=,=,=,=,=
Imperative,---,kOlabOr,---,kOlabOrô,kOlabOre,---
NF,kOlabOre,kOlabOrâ,=,kOlabOre,=,kOlabOre


Unnamed: 0,1SG,2SG,3SG,1PL,2PL,3PL
Present,kOriZ,kOriZ,=,kOriZô,kOriZe,kOriZ
Imperfective,kOriZE,=,=,kOriZjô,Ø,=
Future,kOriZ9rE,kOriZ9ra,=,kOriZ9rô,kOriZ9re,kOriZ9rô
Conditional,=,=,=,Ø,Ø,=
Subjunctive Pres.,kOriZ,=,=,Ø,Ø,=
Simple Past,kOriZE,kOriZa,=,kOriZam,Ø,kOriZEr
Subjunctive Imp.,=,=,=,=,=,=
Imperative,---,kOriZ,---,kOriZô,kOriZe,---
NF,kOriZe,kOriZâ,=,kOriZe,=,kOriZe


Unnamed: 0,1SG,2SG,3SG,1PL,2PL,3PL
Present,kOriZ,kOriZ,=,kOriZô,kOriZe,kOriZ
Imperfective,kOriZE,=,=,Ø,kOriZje,=
Future,kOriZ9rE,kOriZ9ra,=,kOriZ9rô,kOriZ9re,kOriZ9rô
Conditional,=,=,=,Ø,kOriZ9rje,=
Subjunctive Pres.,kOriZ,=,=,Ø,Ø,=
Simple Past,kOriZE,kOriZa,=,Ø,Ø,kOriZEr
Subjunctive Imp.,=,=,=,=,=,=
Imperative,---,kOriZ,---,kOriZô,kOriZe,---
NF,kOriZe,kOriZâ,=,kOriZe,=,kOriZe


Unnamed: 0,1SG,2SG,3SG,1PL,2PL,3PL
Present,kOOpEr,kOOpEr,=,kOOpErô,kOOpEre,kOOpEr
Imperfective,kOOpErE,=,=,kOOpErjô,Ø,=
Future,kOOpEr9rE,kOOpEr9ra,=,kOOpEr9rô,Ø,Ø
Conditional,=,=,=,Ø,Ø,=
Subjunctive Pres.,kOOpEr,=,=,Ø,Ø,=
Simple Past,kOOpErE,kOOpEra,=,kOOpEram,Ø,kOOpErEr
Subjunctive Imp.,=,=,=,=,=,=
Imperative,---,kOOpEr,---,kOOpErô,kOOpEre,---
NF,kOOpEre,kOOpErâ,=,kOOpEre,=,kOOpEre


In [106]:
print (paradigmes[paradigmes["lexeme"]==lexeme].to_latex(na_rep=""))

\begin{tabular}{llllllllllllllllllllllllllllllll}
\toprule
{} &    lexeme & ai1P & ai1S & ai2P & ai2S & ai3P & fi1P & fi1S & fi2P & fi2S & fi3P &      ii1P & ii1S & ii2P &      inf & pI1P & pI2P & pI2S & pP & pc1P & pc2P & pi1P & pi1S &     pi2P & pi2S &    pi3P & ppFP & ppMP & ps1P & ps1S & ps2P \\
\midrule
665 &  coopérer &      &      &      &      &      &      &      &      &      &      &  kOOpErjô &      &      &  kOOpEre &      &      &      &    &      &      &      &      &  kOOpEre &      &  kOOpEr &      &      &      &      &      \\
\bottomrule
\end{tabular}



In [208]:
cliquesBrutes={}
for l in cliquesListes[u"coopérer"].values():
    longueur=len(l)
    if longueur>1:
        if not longueur in cliquesBrutes:
            cliquesBrutes[longueur]=0
        cliquesBrutes[longueur]+=1
cliquesBrutes

{4: 1, 7: 2, 8: 5, 9: 5, 10: 4, 18: 4, 19: 6, 20: 4, 21: 3, 22: 1}

In [231]:
cliquesFideles={}
fidelites=[v+"-"+k for k,v in dictParadigmes[u"coopérer"].iteritems() if isinstance(v,unicode)]
for l in cliquesListes[u"coopérer"].values():
    longueur=len(l)
    if longueur>1:
        fidele=True
        for fidelite in fidelites:
            lFidele=False
            for element in l:
                if fidelite in element:
                    lFidele=True
            if not lFidele:
                fidele=False
                break
        if fidele:
            if not longueur in cliquesFideles:
                cliquesFideles[longueur]=[]
            cliquesFideles[longueur].append(l)
cliquesFideles

{19: [[u'coop\xe9rer-kOOpEre-pi2P',
   u'coop\xe9rer-kOOpErE-ii1S',
   u'coop\xe9rer-kOOpEr-ps1S',
   u'coop\xe9rer-kOOpEre-pI2P',
   u'coop\xe9rer-kOOpEr-pi3P',
   u'coop\xe9rer-kOOpEr\xe2-pP',
   u'coop\xe9rer-kOOpEr\xf4-pi1P',
   u'coop\xe9rer-kOOpEr\xf4-pI1P',
   u'coop\xe9rer-kOOpEre-inf',
   u'coop\xe9rer-kOOpEr9ra-fi2S',
   u'coop\xe9rer-kOOpEr9rE-fi1S',
   u'coop\xe9rer-kOOpEre-ppFP',
   u'coop\xe9rer-kOOpEre-ppMP',
   u'coop\xe9rer-kOOpEra-ai2S',
   u'coop\xe9rer-kOOpEr9r\xf4-fi1P',
   u'coop\xe9rer-kOOpEr9rje-pc2P',
   u'coop\xe9rer-kOOpErj\xf4-ii1P',
   u'coop\xe9rer-kOOpEr-pi2S',
   u'coop\xe9rer-kOOpEr9r\xf4-fi3P'],
  [u'coop\xe9rer-kOOpEre-pi2P',
   u'coop\xe9rer-kOOpErE-ii1S',
   u'coop\xe9rer-kOOpEr-ps1S',
   u'coop\xe9rer-kOOpEre-pI2P',
   u'coop\xe9rer-kOOpEr-pi3P',
   u'coop\xe9rer-kOOpEr\xe2-pP',
   u'coop\xe9rer-kOOpEr\xf4-pi1P',
   u'coop\xe9rer-kOOpEr\xf4-pI1P',
   u'coop\xe9rer-kOOpEre-inf',
   u'coop\xe9rer-kOOpEr9ra-fi2S',
   u'coop\xe9rer-kOOpEr9rE-fi1S',
   

In [230]:
[v+"-"+k for k,v in dictParadigmes[u"coopérer"].iteritems() if isinstance(v,unicode)]
#type(dictParadigmes[u"coopérer"]["ii1P"])
#cliquesListes[u"coopérer"].values()

[u'kOOpErj\xf4-ii1P', u'kOOpEre-inf', u'kOOpEre-pi2P', u'kOOpEr-pi3P']

In [107]:
dictParadigmes=paradigmes.set_index("lexeme").to_dict(orient="index")

In [108]:
HTML(makeTable(dictParadigmes[lexeme],title=lexeme))

Unnamed: 0,1S,2S,3S,1P,2P,3P
pi,Ø,Ø,=,Ø,kOOpEre,kOOpEr
ii,Ø,=,=,kOOpErjô,Ø,=
fi,Ø,Ø,=,Ø,Ø,Ø
pc,=,=,=,Ø,Ø,=
ps,Ø,=,=,Ø,Ø,=
ai,Ø,Ø,=,Ø,Ø,Ø
is,=,=,=,=,=,=
pI,---,Ø,---,Ø,Ø,---
NF,kOOpEre,Ø,=,Ø,=,Ø


In [86]:
print (paradigmes.columns)
len(sampleCases)

Index([u'lexeme', u'ai1P', u'ai1S', u'ai2P', u'ai2S', u'ai3P', u'fi1P',
       u'fi1S', u'fi2P', u'fi2S', u'fi3P', u'ii1P', u'ii1S', u'ii2P', u'inf',
       u'pI1P', u'pI2P', u'pI2S', u'pP', u'pc1P', u'pc2P', u'pi1P', u'pi1S',
       u'pi2P', u'pi2S', u'pi3P', u'ppFP', u'ppMP', u'ps1P', u'ps1S', u'ps2P'],
      dtype='object')


30

In [195]:
tirage='/Volumes/gilles/Transfert/Copies-iMac-GB/2015-Data/MGC-170330-100Ko-19-Tirage.pkl'
with open(tirage, 'rb') as input:
    sampleTirage = pickle.load(input)

In [199]:
sampleTirage[(sampleTirage["lexeme"]==u"coopérer") & (sampleTirage["tir1"]!=0)]

Unnamed: 0,ortho,phono,lexeme,freq,case,freqcum,tir1
85780,coopèrent,kOOpEr,coopérer,56000000.0,pi3P,5948343031202941,1
85815,coopérer,kOOpEre,coopérer,659000000.0,inf,5949102045491941,2
85829,coopérez,kOOpEre,coopérer,63000000.0,pi2P,5949285049388941,1
85832,coopérions,kOOpErjô,coopérer,6000000.0,ii1P,5949310050687941,1
