typeEchantillon : 
- fixe pour utiliser tailleEchantillon
- variable pour utiliser nombre,increment,nombreInitial
- total pour utiliser tout le lexique

In [45]:
typeEchantillon="total"
tailleEchantillon=30000
nombre=1000
increment=250
nombreInitial=20
freqForme=1000000

##Importations
- codecs pour les encodages
- pandas et numpy pour les calculs sur tableaux
- matplotlib pour les graphiques
- itertools pour les itérateurs sophistiqués (paires sur liste, ...)

In [46]:
# -*- coding: utf8 -*-
import codecs
import features
import re
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import itertools as it
import pickle
#%pylab inline
#pd.options.display.mpl_style = 'default'
debug=False

###Préparation des matrices de traits

In [47]:
features.add_config('bdlexique.ini')
fs=features.FeatureSystem('phonemes')
#fs.supremum.concept.extent

In [48]:
bdlexiqueIn = unicode(u"èò")
bdlexiqueNum = [ord(char) for char in bdlexiqueIn]
neutreOut = unicode(u"EO")
neutralise = dict(zip(bdlexiqueNum, neutreOut))

In [49]:
def recoder(chaine,table=neutralise):
    if type(chaine)==str:
        temp=unicode(chaine.decode('utf8')).translate(table)
        result=temp.encode('utf8')
    elif type(chaine)==unicode:
        result=chaine.translate(table)
    return result

In [50]:
filePrefix="MGC-150805"

#Préparation du tableau de VERBES

###Lecture du lexique
- nomLexique pour le fichier
- names pour les noms de colonnes
- élimination des lignes dupliquées éventuelles (p.e. dépendre)

In [51]:
nomLexique="/Users/gilles/Copy/Python/phonemisation/bdlexique-PDM-Resync.txt"
bdlexique=pd.read_csv(nomLexique,sep=";",names=["ortho","phono","ext","cs","ms","vs","lexeme","L23","lemmeFrantext","lemmeFilms","formeFrantext","formeFilms"],encoding="utf8")
bdlexique.loc[(bdlexique["ms"]=="ij")&(bdlexique["cs"].isin(["V","K"])),"ms"]="MS"
bdlexique.drop_duplicates(inplace=True,subset=["phono","ext","cs","ms","vs","lexeme","lemmeFrantext","lemmeFilms","formeFrantext","formeFilms"])

###Définition des cases
- principales pour le paradigme courant
- secondaires pour les cases rares
- totales pour le tout

In [52]:
casesPrincipales= [
        'inf', 'pi1S', 'pi2S', 'pi3S', 'pi1P', 'pi2P', 'pi3P', 'ii1S',
        'ii2S', 'ii3S', 'ii1P', 'ii2P', 'ii3P', 
        'fi1S', 'fi2S', 'fi3S', 'fi1P', 'fi2P',
        'fi3P', 'pI2S', 'pI1P', 'pI2P', 'ps1S', 'ps2S', 'ps3S', 'ps1P',
        'ps2P', 'ps3P', 
        'pc1S', 'pc2S', 'pc3S', 'pc1P', 'pc2P', 'pc3P', 'pP',
        'ppMS', 'ppMP', 'ppFS', 'ppFP'
            ]
casesSecondaires= [
       'ai1S', 'ai2S', 'ai3S', 'ai1P', 'ai2P', 'ai3P', 'is1S', 'is2S', 'is3S', 'is1P', 'is2P', 'is3P'
            ]
casesTotales=casesPrincipales+casesSecondaires
listeCases=casesTotales

###Création de la colonne de fréquence *freq*
- fréquence forme : 1000000x(formeFrantext+formeFilms)
- fréquence lexeme : lemmeFrantext+lemmeFilms
- fréquence inexistante : .01

In [53]:
bdlexique["freq"]=1.0/100
filtreLFrantext=(bdlexique["lemmeFrantext"]!="***") 
filtreLFilms=(bdlexique["lemmeFilms"]!="***")
filtreFFrantext=(bdlexique["formeFrantext"]!="***") 
filtreFFilms=(bdlexique["formeFilms"]!="***")
bdlexique.loc[filtreLFrantext|filtreLFilms,"freq"]=bdlexique[filtreLFrantext]["lemmeFrantext"].astype(float)+bdlexique[filtreLFilms]["lemmeFilms"].astype(float)
bdlexique.loc[filtreFFrantext | filtreFFrantext,"freq"]=bdlexique[filtreFFrantext]["formeFrantext"].astype(float)*freqForme+bdlexique[filtreFFilms]["formeFilms"].astype(float)*freqForme

###Elimination des colonnes inutiles
- indicateur L23
- fréquences brutes

In [54]:
inutilesColonnes=["L23","lemmeFrantext","lemmeFilms","formeFrantext","formeFilms"]
for colonne in inutilesColonnes:
    del bdlexique[colonne]

###Extraction des formes verbales dans une structure *verbes*

In [55]:
verbes=bdlexique[bdlexique["cs"].isin(["V","K"])].copy()

In [56]:
verbes["phono"]=verbes["phono"].apply(lambda x: recoder(x))
verbes[(verbes["cs"]=="K") & (verbes["lexeme"]==u"dépendre")]

Unnamed: 0,ortho,phono,ext,cs,ms,vs,lexeme,freq
133628,dépendu,dEpâdy,,K,MS,,dépendre,9682
133630,dépendue,dEpâdy,,K,FS,,dépendre,9682
133631,dépendues,dEpâdy,"z""",K,FP,,dépendre,9682
133632,dépendus,dEpâdy,"z""",K,MP,,dépendre,9682


In [57]:
verbes.loc[verbes["ms"]=="ij","ms"]="MS"

In [58]:
verbes[(verbes["cs"]=="K") & (verbes["lexeme"]==u"dépendre")]

Unnamed: 0,ortho,phono,ext,cs,ms,vs,lexeme,freq
133628,dépendu,dEpâdy,,K,MS,,dépendre,9682
133630,dépendue,dEpâdy,,K,FS,,dépendre,9682
133631,dépendues,dEpâdy,"z""",K,FP,,dépendre,9682
133632,dépendus,dEpâdy,"z""",K,MP,,dépendre,9682


###Ajout d'une colonne *prob* pour la fréquence relative

In [59]:
verbes["prob"]=verbes["freq"]/verbes["freq"].sum()

###Ajout d'une colonne *case*
- remplir les *ms* vides pour permettre la concaténation sans erreur
- remplir les *vs* vides des participes passés par "pp" pour permettre l'identification de la case
- *case* est la concaténation de *vs* et *ms*

In [60]:
verbes["ms"]=verbes["ms"].fillna("")
verbes["vs"]=verbes["vs"].fillna("pp")
verbes["case"]=verbes["vs"]+verbes["ms"]

#Echantillonage

##Assembler les échantillons correspondant à une étape n

In [61]:
def assemblerExtrait(nombre):
    return verbes.ix[np.sort(np.concatenate(tirages[0:nombre]))]

###Tirage incrémental des formes disponibles
- increment : taille de chaque tirage
- nombre : nombre de tirages

np.random.choice donne une liste d'index de formes tirées dans l'ordre du tirage

on découpe la liste en morceaux de la taille de l'incrément

In [62]:
if typeEchantillon=="variable":
    tirage=np.random.choice(verbes.index,size=nombre*increment,p=verbes["prob"],replace=False)
    tirages=[tirage[increment*x:increment*(x+1)] for x in range(len(tirage)/increment+(len(tirage)%increment!=0))]
    extrait=assemblerExtrait(nombreInitial)
elif typeEchantillon=="fixe":
    tirage=np.random.choice(verbes.index,size=tailleEchantillon,p=verbes["prob"],replace=False)
    extrait=verbes.ix[np.sort(tirage)]
elif typeEchantillon=="total":
    extrait=verbes

In [63]:
#extrait=assemblerExtrait(nEchantillons)

In [64]:
paradigmes=pd.pivot_table(extrait, values='phono', index=['lexeme'], columns=['case'], aggfunc=lambda x: ",".join(x)).reset_index().reindex()

In [65]:
verbes[verbes["lexeme"]=="rouler"]

Unnamed: 0,ortho,phono,ext,cs,ms,vs,lexeme,freq,prob,case
347237,roula,rula,,V,3S,ai,rouler,1259000000,2.598057e-05,ai3S
347242,roulai,rulE,,V,1S,ai,rouler,43000000,8.873427e-07,ai1S
347243,roulaient,rulE,"t""",V,3P,ii,rouler,1075000000,2.218357e-05,ii3P
347244,roulais,rulE,"z""",V,1S,ii,rouler,364000000,7.511459e-06,ii1S
347245,roulais,rulE,"z""",V,2S,ii,rouler,364000000,7.511459e-06,ii2S
347246,roulait,rulE,"t""",V,3S,ii,rouler,2534000000,5.229131e-05,ii3S
347248,roulant,rulâ,"t""",V,,pP,rouler,1353000000,2.792034e-05,pP
347254,roulas,rula,"z""",V,2S,ai,rouler,22526,4.648438e-10,ai2S
347255,roulasse,rulas,@,V,1S,is,rouler,22526,4.648438e-10,is1S
347256,roulassent,rulas,"@t""",V,3P,is,rouler,22526,4.648438e-10,is3P


In [67]:
paradigmes.to_csv(path_or_buf=filePrefix+"-paradigmes.csv",encoding="utf8",sep=";")

In [68]:
def diff(mot1,mot2):
    result=[]
    diff1=""
    diff2=""
    same=""
    vide="."
    lmax=max(len(mot1),len(mot2))
    lmin=min(len(mot1),len(mot2))
    for index in range(lmax):
        if index < lmin:
            if mot1[index]!=mot2[index]:
                diff1+=mot1[index]
                diff2+=mot2[index]
                same+=vide
            else:
                same+=mot1[index]
                diff1+=vide
                diff2+=vide
        elif index < len(mot1):
            diff1+=mot1[index]
        elif index < len(mot2):
            diff2+=mot2[index]
    diff1=diff1.lstrip(".")
    diff2=diff2.lstrip(".")
#    return (same,diff1,diff2,diff1+"_"+diff2)
    return (diff1+"-"+diff2)

def rowDiff(row, patrons):
    result=diff(row[0],row[1])
    if not result in patrons:
        patrons[result]=(formesPatron(),formesPatron())
    patrons[result][0].ajouterFormes(row[0])
    patrons[result][1].ajouterFormes(row[1])
    return (result[0],result[1])


In [69]:
def patron2regexp(morceaux):
    result="^"
    for morceau in morceaux:
        if morceau=="*":
            result+="(.*)"
        elif len(morceau)>1:
            result+="(["+morceau+"])"
        else:
            result+=morceau
    result+="$"
    result=result.replace(")(","")
    return result

In [70]:
def remplacementSortie(sortie):
    n=1
    nsortie=""
    for lettre in sortie:
        if lettre==".":
            nsortie+="\g<%d>"%n
            n+=1
        else:
            nsortie+=lettre
    return nsortie

In [71]:
class formesPatron:
    '''
    Accumulateur de formes correspondant à un patron pour calcul de la Généralisation Minimale (cf. MGL)
    '''
    def __init__(self):
        self.formes=[]

#    def __repr__(self):
#        return ','.join(self.calculerGM())
        
    def ajouterForme(self,forme):
        self.formes.append(forme)
        
    def calculerGM(self):
        minLongueur=len(min(self.formes, key=len))
        maxLongueur=len(max(self.formes, key=len))
        if debug: print minLongueur, maxLongueur
        positions=[]
        if maxLongueur>minLongueur:
            positions.append("*")
        for i in xrange(minLongueur, 0, -1):
            phonemes=set([x[-i] for x in self.formes])
            if debug: print phonemes
            if "." in phonemes:
                positions.append(".")
            else:
                positions.append("".join(fs.lattice[phonemes].extent))
        return patron2regexp(positions)

class pairePatrons:
    '''
    Accumulateur de triplets (f1,f2,patron) correspondant à une paire pour calcul des Généralisations Minimales (cf. MGL)
    '''
    def __init__(self,case1,case2):
        self.patrons1={}
        self.patrons2={}
        self.case1=case1
        self.case2=case2

#    def __repr__(self):
#        return ','.join(self.calculerGM())
        
    def ajouterFormes(self,forme1,forme2,patron):
#        print forme1,forme2,patron
        patron12=patron
        (pat1,pat2)=patron.split("-")
        patron21=pat2+"-"+pat1
#        print patron12,patron21
        if not patron12 in self.patrons1:
            self.patrons1[patron12]=formesPatron()
        self.patrons1[patron12].ajouterForme(forme1)
        if not patron21 in self.patrons2:
            self.patrons2[patron21]=formesPatron()
        self.patrons2[patron21].ajouterForme(forme2)
        
        
    def calculerGM(self):
        resultat1={}
        for patron in self.patrons1:
            if debug: print "patron1", patron
            resultat1[patron]=self.patrons1[patron].calculerGM()
        resultat2={}
        for patron in self.patrons2:
            if debug: print "patron2", patron
            resultat2[patron]=self.patrons2[patron].calculerGM()
        return (resultat1,resultat2) 

#Classe pour la gestion des patrons, des classes et des transformations

In [72]:
class paireClasses:
    def __init__(self,case1,case2):
        self.case1=case1
        self.case2=case2
        self.nom=case1+"-"+case2
        self.classes1=classesPaire(case1,case2)
        self.classes2=classesPaire(case2,case1)

    def ajouterPatron(self,n,patron,motif):
        if n==1:
            self.classes1.ajouterPatron(patron,motif)
        elif n==2:
            self.classes2.ajouterPatron(patron,motif)
        else:
            print "le numéro de forme n'est pas dans [1,2]",n

    def ajouterPaire(self,forme1,forme2):
        self.classes1.ajouterPaire(forme1,forme2)
        self.classes2.ajouterPaire(forme2,forme1)
        
    def calculerClasses(self):
        return(self.classes1,self.classes2)

    
class classesPaire:
    '''
    Gestion des patrons, des classes et des transformations
    
    ajouterPatron : ajoute un patron et son motif associé (MGL)
    ajouterPaire : ajoute une paire de formes, calcule la classe de la forme1 et la règle sélectionnée
    sortirForme : cacule les formes de sortie correspondant à la forme1 avec leurs coefficients respectifs
    '''
    def __init__(self,case1,case2):
        self.case1=case1
        self.case2=case2
        self.nom=case1+"-"+case2
        self.classe={}
        self.nbClasse={}
        self.patrons={}
        self.entree={}
        self.sortie={}
    
    def ajouterPatron(self,patron,motif):
        self.patrons[patron]=motif
        (entree,sortie)=patron.split("-")
        self.entree[patron]=entree.replace(u".",u"(.)")
        self.sortie[patron]=remplacementSortie(sortie)
    
    def ajouterPaire(self,forme1,forme2):
        '''
        on calcule la classe de la paire idClasseForme et la règle sélectionnée
        on incrémente le compteur de la classe et celui de la règle sélectionnée à l'intérieur de la classe
        '''
        classeForme=[]
        regleForme=""
        for patron in self.patrons:
            if re.match(self.patrons[patron],forme1):
                classeForme.append(patron)
                '''
                le +"$" permet de forcer l'alignement à droite pour les transformations suffixales
                '''
                if forme2==re.sub(self.entree[patron]+"$",self.sortie[patron],forme1):
                    regleForme=patron
        idClasseForme=", ".join(classeForme)
        if not idClasseForme in self.classe:
            self.classe[idClasseForme]={}
            self.nbClasse[idClasseForme]=0
        if not regleForme in self.classe[idClasseForme]:
            self.classe[idClasseForme][regleForme]=0
        self.nbClasse[idClasseForme]+=1
        self.classe[idClasseForme][regleForme]+=1

    def sortirForme(self,forme):
        classeForme=[]
        sortieForme={}
        for patron in self.patrons:
            if re.match(self.patrons[patron],forme):
                classeForme.append(patron)
        if classeForme:
            idClasseForme=", ".join(classeForme)
            if idClasseForme in self.nbClasse:
                nTotal=self.nbClasse[idClasseForme]
                for patron in self.classe[idClasseForme]:
                    sortie=re.sub(self.entree[patron]+"$",self.sortie[patron],forme)
                    sortieForme[sortie]=float(self.classe[idClasseForme][patron])/nTotal
            else:
                print forme,
                print "pas de classe",idClasseForme,
                print "%.2f par forme de sortie" % (float(1)/len(classeForme))
                nTotal=len(classeForme)
                for patron in classeForme:
                    sortie=re.sub(self.entree[patron]+"$",self.sortie[patron],forme)
                    sortieForme[sortie]=float(1)/nTotal
        else:
            print forme, 
            print "pas de patron"
        return sortieForme
        

##Appliquer la formule de calcul des différences entre chaines à chaque ligne

>si il y a au moins une ligne

>>on applique la différence à la ligne

>>on calcule les deux patrons par suppression des points initiaux

>>on renvoie le groupement par patrons (1&2)

>sinon

>>on renvoie le paradigme vide d'origine

In [73]:
def OLDrapports(paradigme):
    (case1,case2,lexeme)= paradigme.columns.values.tolist()
    patrons=pairePatrons(case1,case2)
    if len(paradigme)>0:
#        for index, row in paradigme.iterrows():
#            patrons.ajouterFormes(row[0],row[1],diff(row[0],row[1]))
        paradigme.apply(lambda x: patrons.ajouterFormes(x[case1],x[case2],diff(x[case1],x[case2])), axis=1)
        (regles1,regles2)=patrons.calculerGM()
    return patrons.calculerGM()

In [74]:
def rapports(paradigme):
    if len(paradigme.columns.values.tolist())==2:
        (case1,lexeme)= paradigme.columns.values.tolist()
        case2=case1
    else:
        (case1,case2,lexeme)= paradigme.columns.values.tolist()
    patrons=pairePatrons(case1,case2)
    classes=paireClasses(case1,case2)
    if len(paradigme)>0:
        paradigme.apply(lambda x: patrons.ajouterFormes(x[case1],x[case2],diff(x[case1],x[case2])), axis=1)
        (regles1,regles2)=patrons.calculerGM()
        for regle in regles1:
            classes.ajouterPatron(1,regle,regles1[regle])
        for regle in regles2:
            classes.ajouterPatron(2,regle,regles2[regle])
        paradigme.apply(lambda x: classes.ajouterPaire(x[case1],x[case2]), axis=1)
    (classes1,classes2)=classes.calculerClasses()
    return (classes1,classes2)

###Dédoubler les lignes avec des surabondances dans *colonne*
>identifier une ligne avec surabondance

>>ajouter les lignes correspondant à chaque valeur

>>ajouter le numéro de la ligne initiale dans les lignes à supprimer

>supprimer les lignes avec surabondance

NB : il faut préparer le tableau pour avoir une indexation qui permette l'ajout des valeurs individuelles et la suppression des lignes de surabondances

In [75]:
def splitCellMates(df,colonne):
    '''
    Calcul d'une dataframe sans surabondance par dédoublement des valeurs
    '''
    test=df.reset_index()
    del test["index"]
    splitIndexes=[]
    for index,ligne in test.iterrows():
        if "," in ligne[colonne]:
            valeurs=set(ligne[colonne].split(","))
            nouvelleLigne=ligne
            for valeur in valeurs:
                nouvelleLigne[colonne]=valeur
                test=test.append(nouvelleLigne,ignore_index=True)
            splitIndexes.append(index)
    if splitIndexes:
        test=test.drop(test.index[splitIndexes])
    return test


##Calculer les rapports entre formes pour chaque paire

>on fait la liste des cases de *paradigmes*

>pour chaque paire du tableau principal

>>si la paire fait partie des cases de *paradigmes*

>>>on calcule le rapport

>>sinon

>>>on signale que qu'une des cases n'est pas représentée

In [76]:
def evaluerEchantillon(paradigmes):
    result={}
    colonnes=paradigmes.columns.values.tolist()
    for paire in it.combinations_with_replacement(listeCases,2):
        if debug: print paire
#        if paire[0]==paire[1]:
#            paireListe=[paire[0]]
#        else:
#            paireListe=list(paire)
        paireListe=list(paire)
        paireListe.append("lexeme")
        if paire[0] in colonnes and paire[1] in colonnes:
            paradigmePaire=paradigmes[paireListe].dropna(thresh=3, axis=0).reindex()
            if paire[0]==paire[1]:
                paireListe[1]="TEMP"
                paradigmePaire.columns=paireListe
            paradigmePaire=splitCellMates(splitCellMates(paradigmePaire,paireListe[0]),paireListe[1])
            result[paire]=rapports(paradigmePaire)
        else:
            result[paire]=("missing pair", paire)
    return result

###Boucle de calcul des analogies pour l'échantillon

In [77]:
%%time
debug=False
resultats=evaluerEchantillon(paradigmes)

CPU times: user 3h 17min 12s, sys: 55.6 s, total: 3h 18min 8s
Wall time: 3h 35min 33s


In [78]:
classesFinales={}
for resultat in resultats:
    classesFinales[resultat]=resultats[resultat][0]
    classesFinales[(resultat[1],resultat[0])]=resultats[resultat][1]

In [79]:
with open(filePrefix+typeEchantillon+'-Regles.pkl', 'wb') as output:
   pickle.dump(classesFinales, output, pickle.HIGHEST_PROTOCOL)

In [80]:
classesFinales[('pi2S', 'pi3P')].sortirForme("aswa")

{u'asEj': 0.5, 'aswa': 0.5}

In [81]:
with open(filePrefix+typeEchantillon+'-Regles.pkl', 'rb') as input:
    resultatsLecture = pickle.load(input)

In [82]:
resultatsLecture[('fi1P', 'fi2S')].sortirForme(u"kurrô")

{u'kurra': 1.0}

In [88]:
lexemeTest="asseoir"
paradigmes[paradigmes["lexeme"]==lexemeTest].stack()

     case  
398  lexeme            asseoir
     ai1P                 asim
     ai1S                  asi
     ai2P                 asit
     ai2S                  asi
     ai3P                 asir
     ai3S                  asi
     fi1P        asjErô,aswarô
     fi1S        asjErE,aswarE
     fi2P        asjEre,asware
     fi2S        asjEra,aswara
     fi3P        asjErô,aswarô
     fi3S        asjEra,aswara
     ii1P         asEjô,aswajô
     ii1S         asEjE,aswajE
     ii2P         asEje,aswaje
     ii2S         asEjE,aswajE
     ii3P         asEjE,aswajE
     ii3S         asEjE,aswajE
     inf                 aswar
     is1P               asisjô
     is1S                 asis
     is2P               asisje
     is2S                 asis
     is3P                 asis
     is3S                  asi
     pI1P         asEjô,aswajô
     pI2P         asEje,aswaje
     pI2S            asje,aswa
     pP           asEjâ,aswajâ
     pc1P      asjErjô,aswarjô
     pc1S        asjErE,asw

In [89]:
%%time
for forme in listeCases:
    if not pd.isnull(paradigmes[paradigmes["lexeme"]==lexemeTest][forme].iloc[0]):
        depart=paradigmes[paradigmes["lexeme"]==lexemeTest][forme].iloc[0]
        print forme,depart
        if depart!="nan":
            for case in listeCases:
                print case,
                if not isinstance(resultatsLecture[(forme, case)],str):
                    print resultatsLecture[(forme, case)].sortirForme(depart),
            print
            print

inf aswar
inf {u'aswar': 1.0} pi1S {u'aswa': 0.5, u'asje': 0.5} pi2S {u'aswa': 0.5, u'asje': 0.5} pi3S {u'aswa': 0.42857142857142855, u'asje': 0.5714285714285714} pi1P {u'aswaj\xf4': 0.5, u'asEj\xf4': 0.5} pi2P {u'aswaje': 0.5, u'asEje': 0.5} pi3P aswar pas de classe war-Ej, war-je, r- 0.33 par forme de sortie
{u'aswa': 0.3333333333333333, u'asEj': 0.3333333333333333, u'asje': 0.3333333333333333} ii1S {u'aswajE': 0.5, u'asEjE': 0.5} ii2S {u'aswajE': 0.5, u'asEjE': 0.5} ii3S {u'aswajE': 0.42857142857142855, u'asEjE': 0.5714285714285714} ii1P {u'aswaj\xf4': 0.5, u'asEj\xf4': 0.5} ii2P {u'aswaje': 0.5, u'asEje': 0.5} ii3P {u'aswajE': 0.42857142857142855, u'asEjE': 0.5714285714285714} fi1S {u'aswarE': 0.5, u'asjErE': 0.5} fi2S {u'aswara': 0.5, u'asjEra': 0.5} fi3S {u'aswara': 0.42857142857142855, u'asjEra': 0.5714285714285714} fi1P {u'aswar\xf4': 0.5, u'asjEr\xf4': 0.5} fi2P {u'asware': 0.5, u'asjEre': 0.5} fi3P {u'aswar\xf4': 0.42857142857142855, u'asjEr\xf4': 0.5714285714285714} pI2S {u'

In [85]:
verbes[verbes["lexeme"]==u"balayer"]

Unnamed: 0,ortho,phono,ext,cs,ms,vs,lexeme,freq,prob,case
34659,balaie,balE,,V,1S,pi,balayer,483000000,9.967128e-06,pi1S
34660,balaie,balE,,V,1S,ps,balayer,4960,1.023539e-10,ps1S
34661,balaie,balE,,V,2S,pI,balayer,483000000,9.967128e-06,pI2S
34662,balaie,balE,,V,3S,pi,balayer,483000000,9.967128e-06,pi3S
34663,balaie,balE,,V,3S,ps,balayer,4960,1.023539e-10,ps3S
34664,balaient,balE,"t""",V,3P,pi,balayer,121000000,2.496941e-06,pi3P
34665,balaient,balE,"t""",V,3P,ps,balayer,4960,1.023539e-10,ps3P
34666,balaiera,balEra,,V,3S,fi,balayer,52000000,1.073066e-06,fi3S
34667,balaierai,balErE,,V,1S,fi,balayer,28000000,5.778045e-07,fi1S
34668,balaieraient,balErE,"t""",V,3P,pc,balayer,7000000,1.444511e-07,pc3P


In [86]:
paradigmes.stack().value_counts(dropna=True).sum()

333819

In [87]:
#paradigmes[paradigmes["lexeme"]==u"cuire"].stack().value_counts(dropna=True).sum()
paradigmes[paradigmes["lexeme"]==u"dépendre"].stack()

      case  
2039  lexeme     dépendre
      ai1P        dEpâdim
      ai1S         dEpâdi
      ai2P        dEpâdit
      ai2S         dEpâdi
      ai3P        dEpâdir
      ai3S         dEpâdi
      fi1P        dEpâdrô
      fi1S        dEpâdrE
      fi2P        dEpâdre
      fi2S        dEpâdra
      fi3P        dEpâdrô
      fi3S        dEpâdra
      ii1P        dEpâdjô
      ii1S         dEpâdE
      ii2P        dEpâdje
      ii2S         dEpâdE
      ii3P         dEpâdE
      ii3S         dEpâdE
      inf          dEpâdr
      is1P      dEpâdisjô
      is1S        dEpâdis
      is2P      dEpâdisje
      is2S        dEpâdis
      is3P        dEpâdis
      is3S         dEpâdi
      pI1P         dEpâdô
      pI2P         dEpâde
      pI2S           dEpâ
      pP           dEpâdâ
      pc1P       dEpâdriô
      pc1S        dEpâdrE
      pc2P       dEpâdrie
      pc2S        dEpâdrE
      pc3P        dEpâdrE
      pc3S        dEpâdrE
      pi1P         dEpâdô
      pi1S           dEpâ