In [18]:
import pandas as pd
import numpy as np
from IPython.display import display
debug=0

In [19]:
rep="/Users/gilles/Downloads/"
fLexFilms4=rep+"Lexique4_min+filtr+cat+separ+corr4.tsv"
df=pd.read_csv(filepath_or_buffer=fLexFilms4,sep="\t",header=None,skip_blank_lines=True,encoding="utf8")
df.columns="graphie lemme cat infover genre nombre occurrences".split(" ")
print len(df)
df.head()

225133


Unnamed: 0,graphie,lemme,cat,infover,genre,nombre,occurrences
0,fossiles,fossile,ADJ,,,p,41.0
1,clopes,cloper,VER,sub:pre:2,,s,1.0
2,ardeurs,ardeur,NOM,,f,p,143.0
3,translations,translation,NOM,,,,3.0
4,antidrogue,antidrogue,ADJ,,m,s,36.0


# Incohérences globales
- Duplicates  
 - on regoupe les duplicates
- Graphies et Lemmes nuls  
 - on commence par éliminer les élements dont la graphie ou le lemme est nul.


### Duplicates
On utilise *groupby* pour cumuler les occurrences. Comme la méthode *groupby* exclue les éléments contenant des NaN, on fait un remplacement avant et après le regroupement.
1. on remplace les NaN par des "NaN" pour les inclure dans les groupes
1. on cumule les occurrences
1. on remplace les "NaN" par les NaN d'origine

In [20]:
df=df.fillna("NaN").groupby("graphie lemme cat infover genre nombre".split()).sum().reset_index()
df=df.replace(ur"^NaN$",np.nan,regex=True)
print len(df)

218831


### Graphies et Lemmes nuls

In [21]:
condNoLemme=(df.lemme.isnull())
condNoGraphie=(df.graphie.isnull())
nulGraphieLemme=df[condNoLemme|condNoGraphie]
print len(nulGraphieLemme)
display(nulGraphieLemme)
df.drop(nulGraphieLemme.index,inplace=True)
print len(df)

37


Unnamed: 0,graphie,lemme,cat,infover,genre,nombre,occurrences
0,\t,,,,,1,
5,',,ADV,,,,28.0
10,-,,ADV,,,,28.0
118,,,ADV,,,,4728.0
7215,alpha,,ADJ,,m,s,1.0
14330,assis,,VER,par:pas:,m,p,1.0
21155,ben,,ADJ,,m,s,1.0
30705,capote,,ADJ,,m,s,1.0
31744,cartouche,,ADJ,,m,s,1.0
40143,comme,,ADJ,,m,s,1.0


218794


In [22]:
def bilanDF(lDF,title="cas",lines=False):
    print "%s : %d"%(title,len(lDF))
    if lines:
        with pd.option_context('display.max_rows', None, 'display.max_columns', None):  # more options can be specified also
            display(lDF.sort_values("occurrences",ascending=False))
    else:
        display(lDF.sort_values("occurrences",ascending=False).head())
    return 

# Contrôles de cohérence pour le genre et le nombre des substantifs
Dans la première version reçue, il y avait eu un problème de découpage de l'étiquette des participes présent par:pre qui avait donné la répartition suivante :
- infover = par:p
- genre = e
- nombre = r

La première série de test visait à faire la liste des problèmes de valeurs hors norme pour le genre et le nombre.

La deuxième série fait la liste des pluriels qui ne se terminent ni par s, ni par x, ni par z. Ce type de pluriel est atypique mais il est normal pour certains noms composés et les pluriels empruntés.

In [23]:
# Default value of display.max_rows is 10 i.e. at max 10 rows will be printed.
# Set it None to display all rows in the dataframe
pdMaxRows=pd.options.display.max_rows
pd.set_option('display.max_rows', 30)

## Genre & Nombre
Pour les adjectifs et les noms, on cherche toutes les formes qui ont 
- un genre explicite en dehors de m, f 
- un nombre explicite en dehors de s, p

### Genre

In [24]:
condGenre=(df["cat"].isin(["NOM","ADJ"]))&(df["genre"].notnull())&(~df["genre"].isin(["f","m"]))
bilanDF(df[condGenre],"Substantifs hors m/f")

Substantifs hors m/f : 0


Unnamed: 0,graphie,lemme,cat,infover,genre,nombre,occurrences


### Nombre

In [25]:
condNombre=(df["cat"].isin(["NOM","ADJ"]))&(df["nombre"].notnull())&(~df["nombre"].isin(["s","p"]))
bilanDF(df[condNombre],"Substantifs hors s/p")

Substantifs hors s/p : 0


Unnamed: 0,graphie,lemme,cat,infover,genre,nombre,occurrences


Il y avait seulement un problème avec *gluant* et *attrayant*, qui ont été classés comme ADJ, parce que l'étiquette par:pre a été mal traitée. Il y avait un problème plus général avec les participes présents qui avaient aussi un infover par:p avec le genre e et le nombre r, probablement suite à la même erreur.

# Cohérence des formes de substantifs
- Pour les noms sans nombre, on peut comparer le lemme avec la forme de l'élément pour rétablir les éventuels singuliers et pluriels.
- Pour les adjectifs, on peut faire la même chose en incluant le genre

### Extractions (Forme, Lemme)
Pour gérer les structures incohérentes, on extrait les structures partageant la même paire (forme, lemme) pour éventuellement mapper la mauvaise structure vers la bonne.

In [26]:
def getFormeLemme(forme,lemme):
    return df[(df.graphie==forme)&(df.lemme==lemme)]

In [27]:
condFormeNotLemme=df.graphie!=df.lemme
condN=df.cat=="NOM"
condA=df.cat=="ADJ"
condNA=df["cat"].isin(["NOM","ADJ"])
condNoNombreN=condN&(df.nombre.isnull())
condNoNombreA=condA&(df.nombre.isnull())
condNoNombreNA=condNA&(df["nombre"].isnull())
condGenreNombre=(df.genre.notnull())&(df.nombre.notnull())

In [28]:
bilanDF(df[condNoNombreN&condFormeNotLemme],"Noms nombre NaN")

Noms nombre NaN : 997


Unnamed: 0,graphie,lemme,cat,infover,genre,nombre,occurrences
6566,aliens,alien,NOM,,,,2210.0
197296,textos,texto,NOM,,,,1300.0
130550,n,ne,NOM,,m,,1208.0
193052,sushis,sushi,NOM,,,,791.0
183989,shots,shot,NOM,,,,542.0


In [29]:
def cumulerElements(localCond,localChoix,localTest):
    nbGraphieLemme=0
    nbChoixGraphieLemme=0
    formesChoix=[]
    indexDrops=[]
    localDF=df[localCond]
    for index,row in localDF.iterrows():
        mauvaisesOccurrences=row.occurrences
        graphie=row.graphie
        lemme=row.lemme
        if localTest=="lemme+s":
            lemmeTest=(graphie==lemme+"s")
        elif localTest=="lemme":
            lemmeTest=(graphie==lemme)
        if lemmeTest:
            print graphie,lemme,mauvaisesOccurrences
            dfGraphieLemme=getFormeLemme(row.graphie,row.lemme)
            dfChoix=dfGraphieLemme[localChoix]
            if len(dfChoix)==1:
                occurrencesChoix=dfChoix.occurrences.values[0]
                ixChoix=dfChoix.index[0]
                if debug: print ixChoix,occurrencesChoix,occurrencesChoix+mauvaisesOccurrences
                df.loc[df.index==ixChoix,"occurrences"]=occurrencesChoix+mauvaisesOccurrences
                if debug: print df.occurrences.iloc[ixChoix]
                indexDrops.append(index)
                if debug: display(df[df.graphie==graphie])
            else:
#                 display(dfChoix)
                nbChoixGraphieLemme+=1
                formesChoix.append(graphie)
            nbGraphieLemme+=1
    df.drop(indexDrops,inplace=True)
    print len(df)
    print nbChoixGraphieLemme,nbGraphieLemme
    print ", ".join(formesChoix)

In [30]:
cumulerElements(condNoNombreN&condFormeNotLemme,condN&condGenreNombre,"lemme+s")

ables able 2.0
abstinents abstinent 5.0
aces 



ace 4.0
acres acre 20.0
acteurs acteur 1.0
actinomètres actinomètre 1.0
actions action 3.0
addicts addict 26.0
adiposes adipose 1.0
affaires affaire 4.0
africains africain 4.0
agences agence 1.0
ages age 1.0
aidants aidant 12.0
aides aide 3.0
aires aire 3.0
algériens algérien 1.0
aliens alien 2210.0
allemands allemand 7.0
altermondialistes altermondialiste 4.0
amusements amusement 1.0
américains américain 22.0
analystes analyste 1.0
anciens ancien 35.0
ancêtres ancêtre 1.0
angles angle 5.0
antivols antivol 1.0
après-midis après-midi 1.0
armes arme 2.0
armées armée 1.0
arrondis arrondi 1.0
arts art 13.0
associés associé 10.0
athéniens athénien 1.0
attitudes attitude 1.0
auto-stoppeurs auto-stoppeur 5.0
autoportraits autoportrait 1.0
aventures aventure 1.0
aveuglettes aveuglette 1.0
aînés aîné 1.0
baby-sitters baby-sitter 2.0
bahts baht 1.0
bains bain 2.0
baiseurs baiseur 1.0
baisses baisse 1.0
balivernes baliverne 1.0
bals bal 1.0
banjos banjo 1.0
banques banque 1.0
bardas barda 1.0
bar

macros macro 5.0
macs mac 6.0
madrassas madrassa 3.0
mafiosos mafioso 6.0
magazines magazine 1.0
malis mali 1.0
manières manière 3.0
mansions mansion 9.0
manucures manucure 1.0
maquettes maquette 1.0
maquillages maquillage 2.0
marinas marina 1.0
mariés marié 6.0
marques marque 7.0
mascaras mascara 1.0
masers maser 1.0
masques masque 8.0
masses masse 6.0
mayes maye 8.0
meilleurs meilleur 1.0
mementos memento 2.0
mennonites mennonite 2.0
menthols menthol 1.0
messages message 1.0
mexicains mexicain 6.0
milléniums millénium 3.0
mimosas mimosa 1.0
mines mine 4.0
mini-jupes mini-jupe 1.0
minutes minute 5.0
mites mite 2.0
moises moise 1.0
mondes monde 2.0
monitors monitor 1.0
monologues monologue 1.0
monos mono 42.0
montes monte 14.0
mores more 1.0
motos moto 1.0
moufles moufle 1.0
moustiques moustique 1.0
muffins muffin 6.0
munitions munition 1.0
munsters munster 1.0
murmures murmure 2.0
muscles muscle 3.0
muses muse 2.0
musiciens musicien 1.0
mustangs mustang 4.0
musts must 9.0
myrtilles my

In [31]:
fLexFilms4GB=fLexFilms4[:-4]+"-GB.csv"
df.to_csv(path_or_buf=fLexFilms4GB,sep="\t",encoding="utf8",index=False)

In [39]:
df=pd.read_csv(filepath_or_buffer=fLexFilms4GB,sep="\t",skip_blank_lines=True,encoding="utf8")
display(df.head())
condFormeNotLemme=df.graphie!=df.lemme
condLemmeNoSXZ=~df.lemme.str[-1].isin(["s","x","z"])
condN=df.cat=="NOM"
condA=df.cat=="ADJ"
condNA=df["cat"].isin(["NOM","ADJ"])
condNoNombreN=condN&(df.nombre.isnull())
condNoNombreA=condA&(df.nombre.isnull())
condNoNombreNA=condNA&(df["nombre"].isnull())
condGenreNombre=(df.genre.notnull())&(df.nombre.notnull())

Unnamed: 0,graphie,lemme,cat,infover,genre,nombre,occurrences
0,!,!,ADV,,,,10.0
1,$,$,NOM,,m,,53370.0
2,$,$,NOM,,m,p,1.0
3,%,%,NOM,,m,,29248.0
4,(,(,ADV,,,,3.0


In [42]:
cumulerElements(condNoNombreN&~condFormeNotLemme&condLemmeNoSXZ,condN&condGenreNombre,"lemme")

$ $ 53370.0
% % 29248.0
1er 1er 10.0
1re 1re 2.0
2e 2e 10.0
3e 3e 12.0
4e 



4e 8.0
4x4 4x4 15.0
5e 5e 1.0
6e 6e 3.0
7e 7e 4.0
_ _ 4366.0
a a 19905.0
a priori a priori 104.0
abaisse-langue abaisse-langue 25.0
abat abat 1.0
abat-jour abat-jour 112.0
abat-vent abat-vent 3.0
abattant abattant 1.0
abc abc 37.0
abdo abdo 65.0
abimait abimait 1.0
abime abime 79.0
abiment abiment 13.0
abimer abimer 105.0
abimera abimera 7.0
abimerai abimerai 2.0
abimerait abimerait 2.0
abimé abimé 190.0
abimée abimée 85.0
able able 4.0
aboi aboi 1.0
abracadabra abracadabra 4.0
abri abri 1.0
abriver abriver 1.0
abrègerait abrègerait 3.0
abrègeront abrègeront 1.0
abrévier abrévier 1.0
absolut absolut 9.0
abu abu 19.0
abusement abusement 1.0
abusé abusé 1.0
ac ac 1733.0
académie académie 1.0
accastilleur accastilleur 1.0
acceptè acceptè 1.0
accepté accepté 8.0
acceptée acceptée 1.0
accessoirisation accessoirisation 2.0
accessoiriste accessoiriste 2.0
accidentogène accidentogène 1.0
accord accord 1.0
accostement accostement 1.0
accrobranche accrobranche 6.0
accroche accroche 12.0
accroche

assoc assoc 15.0
association association 33.0
assoir assoir 1436.0
assortissement assortissement 2.0
assurance assurance 3.0
assureuse assureuse 2.0
assèchera assèchera 5.0
assècherait assècherait 2.0
assècheront assècheront 4.0
asséchement asséchement 2.0
aster aster 4.0
asthmatiforme asthmatiforme 3.0
astiquè astiquè 1.0
astrobiologiste astrobiologiste 8.0
astrocytome astrocytome 26.0
astromobile astromobile 3.0
astronaute astronaute 1.0
athlé athlé 55.0
atm atm 4.0
atopique atopique 2.0
atrioventriculaire atrioventriculaire 4.0
attachage attachage 1.0
attache attache 2.0
attaque attaque 11.0
atteint atteint 1.0
attitude attitude 3.0
attiéké attiéké 1.0
attorney attorney 6.0
attrape attrape 6.0
attèle attèle 6.0
au au 3.0
au-delà au-delà 21.0
au-delà au-delà 1159.0
auberon auberon 1.0
audimat audimat 313.0
audioguide audioguide 1.0
audiolivre audiolivre 1.0
auditorium auditorium 6.0
aujourd'hui aujourd'hui 224.0
aura aura 17.0
auraient auraient 1.0
aurait aurait 5.0
auteur auteur 1.0

blogue blogue 68.0
bloguent bloguent 7.0
bloguer bloguer 17.0
blogueur blogueur 97.0
blogueuse blogueuse 54.0
blogué blogué 8.0
blond blond 24.0
bloomer bloomer 4.0
bloquage bloquage 12.0
bloquant bloquant 1.0
bloquè bloquè 1.0
bluetooth bluetooth 48.0
bluff bluff 7.0
bluffante bluffante 7.0
blush blush 2.0
blépharospasme blépharospasme 1.0
boa boa 1.0
board board 64.0
boat boat 88.0
boat-people boat-people 1.0
bobologie bobologie 2.0
bodega bodega 3.0
body body 12.0
bodéga bodéga 1.0
boeuf boeuf 8.0
boggie boggie 11.0
bogie bogie 3.0
boiler boiler 3.0
boit-sans-soif boit-sans-soif 4.0
boite boite 73.0
boitier boitier 80.0
bol bol 1.0
bolchévik bolchévik 1.0
bolchévique bolchévique 22.0
bolchévisme bolchévisme 5.0
bolchéviste bolchéviste 2.0
bolduc bolduc 4.0
bolivar bolivar 5.0
bolivarienne bolivarienne 1.0
bollywoodien bollywoodien 2.0
bollywoodienne bollywoodienne 2.0
bombarde bombarde 3.0
bombe bombe 5.0
bombé bombé 7.0
bonbec bonbec 26.0
bondage bondage 1.0
bonjour bonjour 4.0
boo

cargo cargo 3.0
carjacking carjacking 72.0
carlin carlin 9.0
carnage carnage 3.0
carne carne 7.0
carnisme carnisme 5.0
carre carre 3.0
carreauté carreauté 1.0
carreautée carreautée 1.0
carrement carrement 47.0
carry carry 8.0
carré carré 1.0
cart cart 20.0
carte carte 3.0
cartel cartel 2.0
cartomancie cartomancie 1.0
cartoon cartoon 3.0
cartoucher cartoucher 1.0
cascade cascade 7.0
case case 87.0
cash cash 334.0
casino casino 21.0
cassave cassave 1.0
casse-cou casse-cou 150.0
casse-croute casse-croute 33.0
casse-croûte casse-croûte 335.0
casse-cul casse-cul 1.0
casse-dalle casse-dalle 45.0
casse-graine casse-graine 7.0
casse-gueule casse-gueule 1.0
casse-gueule casse-gueule 8.0
casse-pipe casse-pipe 1.0
casse-tout casse-tout 1.0
casse-tête casse-tête 394.0
casse-vitesse casse-vitesse 11.0
cassè cassè 1.0
castine castine 1.0
casting casting 3.0
castrat castrat 1.0
castratrice castratrice 1.0
casus belli casus belli 9.0
catamaran catamaran 4.0
catch catch 9.0
cathéter cathéter 1.0
cathét

coleslaw coleslaw 31.0
colinot colinot 1.0
coll coll 3.0
collant collant 1.0
collection collection 1.0
collectionneur collectionneur 2.0
collective collective 2.0
collector collector 2.0
colletailler colletailler 1.0
colley colley 11.0
collier collier 2.0
collision collision 1.0
collisionneur collisionneur 6.0
collusion collusion 1.0
collège collège 1.0
colo colo 2.0
coloc coloc 1503.0
colonel colonel 1.0
coloration coloration 1.0
coloriste coloriste 1.0
coltan coltan 51.0
comatait comatait 2.0
comate comate 11.0
comatent comatent 2.0
comater comater 8.0
comaté comaté 18.0
combat combat 17.0
combattivité combattivité 1.0
combava combava 2.0
combine combine 1.0
combo combo 3.0
combustion combustion 3.0
come-back come-back 219.0
comeback comeback 98.0
coming-out coming-out 277.0
commandant commandant 371.0
commande commande 3.0
commanditée commanditée 1.0
commencè commencè 7.0
comment comment 5.0
commentateur commentateur 3.0
commerce commerce 7.0
commercial commercial 1.0
commission com

cruzeiro cruzeiro 2.0
cryoglobulinémie cryoglobulinémie 6.0
cryogénisé cryogénisé 28.0
cryogénisée cryogénisée 12.0
cryopréservation cryopréservation 2.0
cryosphère cryosphère 1.0
cryptanalyste cryptanalyste 10.0
cryptand cryptand 1.0
cryptococcose cryptococcose 1.0
cryptologue cryptologue 14.0
cryptomnésie cryptomnésie 2.0
cryptosporidiose cryptosporidiose 2.0
crèmerie crèmerie 32.0
crève crève 2.0
crève-la-faim crève-la-faim 53.0
créateur créateur 3.0
créditation créditation 1.0
crédo crédo 29.0
crématorium crématorium 1.0
crémerie crémerie 1.0
crêpe crêpe 3.0
crûe crûe 5.0
cube cube 86.0
cubicule cubicule 6.0
cuesta cuesta 2.0
cui-cui cui-cui 60.0
cuicui cuicui 1.0
cuiseuse cuiseuse 1.0
cuisine cuisine 6.0
cuite cuite 1.0
cul cul 1.0
cul-de-sac cul-de-sac 1.0
culotte culotte 2.0
cultivation cultivation 2.0
culè culè 1.0
cupcake cupcake 390.0
curriculum vitae curriculum vitae 70.0
curé curé 1.0
custom custom 6.0
cuter cuter 5.0
cutter cutter 9.0
cuvée cuvée 2.0
cyanate cyanate 2.0
cy

débarassent débarassent 16.0
débarassera débarassera 12.0
débarasserai débarasserai 6.0
débarasserait débarasserait 3.0
débarasseront débarasseront 1.0
débarassé débarassé 123.0
débarassée débarassée 34.0
débarrasse débarrasse 4.0
débarrasseur débarrasseur 1.0
débat débat 1.0
débilisant débilisant 1.0
débilise débilise 1.0
déblatèrerai déblatèrerai 1.0
déblatèreront déblatèreront 1.0
débloquage débloquage 1.0
débloqué débloqué 1.0
déc déc 126.0
décaféination décaféination 1.0
décalottage décalottage 6.0
décanoïque décanoïque 1.0
décarre décarre 1.0
décelage décelage 1.0
décembre décembre 3099.0
décervèle décervèle 1.0
déchaina déchaina 1.0
déchainait déchainait 1.0
déchaine déchaine 36.0
déchainement déchainement 6.0
déchainent déchainent 11.0
déchainer déchainer 38.0
déchainera déchainera 6.0
déchainerai déchainerai 2.0
déchainé déchainé 45.0
déchainée déchainée 20.0
déchiquète déchiquète 2.0
déchiquètent déchiquètent 6.0
déchiquètera déchiquètera 1.0
déchiquèterait déchiquèterait 1.0

entraineuse entraineuse 18.0
entrainèrent entrainèrent 1.0
entrainé entrainé 731.0
entrainée entrainée 194.0
entrance entrance 2.0
entrant entrant 3.0
entrave entrave 1.0
entravement entravement 3.0
entre entre 23.0
entrebaille entrebaille 1.0
entrebaillé entrebaillé 1.0
entrebaillée entrebaillée 1.0
entreposement entreposement 1.0
entrepreneure entrepreneure 1.0
entrepreneuriat entrepreneuriat 10.0
entreprise entreprise 7.0
entrée entrée 8.0
entubage entubage 7.0
entâchait entâchait 1.0
entâche entâche 7.0
entâchent entâchent 1.0
entâcher entâcher 8.0
entâché entâché 8.0
entâchée entâchée 2.0
env env 35.0
envahisseuse envahisseuse 3.0
envi envi 96.0
envie envie 1.0
environ environ 1.0
envoutait envoutait 1.0
envoutant envoutant 7.0
envoutante envoutante 9.0
envoute envoute 2.0
envoutement envoutement 11.0
envouter envouter 2.0
envouteront envouteront 1.0
envouteur envouteur 1.0
envouté envouté 19.0
envoutée envoutée 4.0
envoyé envoyé 1.0
epsilon epsilon 144.0
errant errant 1.0
esbrouf

fronceur fronceur 1.0
front front 4.0
frontière frontière 1.0
frontotemporale frontotemporale 3.0
fronçage fronçage 1.0
frotement frotement 1.0
frotte frotte 1.0
frotti-frotta frotti-frotta 42.0
fructose fructose 2.0
fruit fruit 1.0
frutti frutti 4.0
ft ft 8.0
ftp ftp 1.0
fuel fuel 9.0
fugu fugu 1.0
full full 5.0
fulmar fulmar 1.0
fumette fumette 1.0
fumée fumée 1.0
funk funk 205.0
funky funky 53.0
funéraille funéraille 13.0
funéral funéral 1.0
funérale funérale 1.0
fur fur 55.0
furent furent 1.0
fusée fusée 1.0
futsal futsal 1.0
futur futur 1.0
future future 1.0
fédérale fédérale 3.0
féraille féraille 16.0
fétuque fétuque 1.0
février février 2493.0
féérie féérie 10.0
féérique féérique 39.0
féériquement féériquement 1.0
fête fête 27.0
führer führer 4.0
g g 4740.0
gachette gachette 174.0
gadget gadget 1.0
gadji gadji 9.0
gaffe gaffe 1.0
gage gage 61.0
gagnant gagnant 5.0
gagnant-gagnant gagnant-gagnant 1.0
gagne gagne 50.0
gagne-pain gagne-pain 1.0
gagne-pain gagne-pain 645.0
gagne-peti

highlander highlander 1.0
hihihi hihihi 7.0
hijab hijab 1.0
hikikomori hikikomori 5.0
hindie hindie 1.0
hip-hop hip-hop 14.0
hippisme hippisme 1.0
hippocampe hippocampe 1.0
hipster hipster 66.0
histiocytose histiocytose 9.0
histoire histoire 2.0
histopathologique histopathologique 1.0
hit hit 2.0
hit-parade hit-parade 3.0
hl hl 7.0
hm hm 404.0
hmm hmm 1460.0
hobbit hobbit 150.0
hobby hobby 7.0
hoc hoc 22.0
hockey hockey 6.0
hoki hoki 3.0
hola hola 64.0
hold-up hold-up 7.0
hold-up hold-up 1281.0
holding holding 7.0
holdup holdup 11.0
hologrammatique hologrammatique 1.0
holà holà 219.0
homard homard 2.0
hombre hombre 1.0
home-jacking home-jacking 2.0
homespun homespun 4.0
homicidaire homicidaire 3.0
homie homie 10.0
homme homme 1.0
homophobie homophobie 114.0
homéotique homéotique 4.0
honneur honneur 1.0
honte honte 2.0
hooligan hooligan 2.0
hop hop 2.0
hoquète hoquète 2.0
horeca horeca 3.0
horizon horizon 2.0
hors-d'oeuvre hors-d'oeuvre 288.0
hors-jeu hors-jeu 416.0
hors-jeu hors-jeu 65

jeun jeun 21.0
jeuniste jeuniste 2.0
jihadiste jihadiste 24.0
jingle jingle 1.0
jinn jinn 4.0
jiu-jitsu jiu-jitsu 71.0
jiujitsu jiujitsu 4.0
joailler joailler 8.0
jobastre jobastre 5.0
joint joint 14.0
jojo jojo 75.0
joli joli 1.0
jonctionnel jonctionnel 3.0
jordanise jordanise 1.0
joue joue 30.0
joueur joueur 1.0
jour jour 6.0
journal journal 7.0
journalisation journalisation 1.0
journée journée 3.0
jouè jouè 8.0
joystick joystick 1.0
jpeg jpeg 13.0
jpg jpg 9.0
ju-jitsu ju-jitsu 34.0
jubilé jubilé 1.0
judoka judoka 1.0
juge juge 20.0
jugeote jugeote 1.0
juif juif 1.0
juillet juillet 3433.0
juin juin 3087.0
jujitsu jujitsu 40.0
julep julep 6.0
jumbo jumbo 16.0
jumping jumping 1.0
junker junker 3.0
junkie junkie 1.0
juré juré 2.0
jusqu'en jusqu'en 2.0
jusqu'ici jusqu'ici 2.0
jusqu'à jusqu'à 44.0
jusque-là jusque-là 2.0
k k 3758.0
ka ka 2.0
kadi kadi 1.0
kakawi kakawi 1.0
kalachnikov kalachnikov 67.0
kamala kamala 1.0
kan kan 19.0
kangourou kangourou 1.0
kaputt kaputt 30.0
karaoké karaok

maitriser maitriser 173.0
maitrisera maitrisera 2.0
maitriserait maitriserait 1.0
maitrisé maitrisé 61.0
maitrisée maitrisée 17.0
majesté majesté 2.0
majong majong 1.0
majorante majorante 1.0
majorette majorette 2.0
maki maki 14.0
makrout makrout 1.0
mal mal 7.0
malaimé malaimé 1.0
malaimée malaimée 1.0
malard malard 2.0
malbec malbec 1.0
malbouffe malbouffe 120.0
malfonction malfonction 12.0
maliciel maliciel 8.0
maljugé maljugé 1.0
malolactique malolactique 1.0
malt malt 10.0
maltraitante maltraitante 2.0
malware malware 99.0
mamba mamba 25.0
mambo mambo 11.0
mamie mamie 2.0
mamma mamma 24.0
mammographe mammographe 1.0
mammographie mammographie 1.0
mamour mamour 17.0
mamy mamy 1.0
mana mana 1.0
management management 13.0
manageur manageur 1.0
manageuse manageuse 1.0
manchot manchot 3.0
mandala mandala 1.0
mandarin mandarin 1.0
mangaka mangaka 16.0
mange-tout mange-tout 17.0
mangeage mangeage 7.0
mangouste mangouste 10.0
mania mania 10.0
manifesto manifesto 3.0
manifold manifold 1.0
m

médecin-chef médecin-chef 1.0
médecine médecine 3.0
médico-légal médico-légal 16.0
médico-légale médico-légale 2.0
médium médium 1.0
mégabase mégabase 1.0
mégalodon mégalodon 38.0
mégapixel mégapixel 1.0
mégarde mégarde 3.0
mél mél 16.0
mélamine mélamine 1.0
mélangeur mélangeur 1.0
mélanome mélanome 1.0
mélimélo mélimélo 1.0
mémorial mémorial 2.0
mémé mémé 1.0
mémérage mémérage 2.0
ménorah ménorah 17.0
mérite mérite 3.0
méritée méritée 1.0
mérou mérou 1.0
mésadapté mésadapté 3.0
mésocyclone mésocyclone 3.0
mésolimbique mésolimbique 2.0
mésoscopique mésoscopique 2.0
métadonnée métadonnée 5.0
métallurgiste métallurgiste 1.0
métamorphe métamorphe 320.0
métasomatique métasomatique 2.0
méthamphétamine méthamphétamine 278.0
méthaqualone méthaqualone 10.0
méthyl méthyl 6.0
méthylcyclopropane méthylcyclopropane 1.0
méthylmercure méthylmercure 6.0
méthylphénidate méthylphénidate 6.0
méticilline méticilline 1.0
métissé métissé 1.0
métoclopramide métoclopramide 4.0
métriser métriser 1.0
métronida

paparazzi paparazzi 485.0
papaye papaye 2.0
paperback paperback 2.0
papi papi 2.0
paprika paprika 1.0
papèterie papèterie 1.0
par-derrière par-derrière 1.0
par-là par-là 1.0
para para 3.0
parabellum parabellum 1.0
paraben paraben 2.0
parabène parabène 3.0
parade parade 64.0
paraitra paraitra 29.0
paraitrai paraitrai 2.0
paraitrait paraitrait 28.0
paraitre paraitre 632.0
paraitront paraitront 1.0
paralysation paralysation 1.0
paramoteur paramoteur 2.0
paramédic paramédic 3.0
paranoïe paranoïe 1.0
paranoïent paranoïent 2.0
paranoïer paranoïer 5.0
paraphilie paraphilie 10.0
paraphilique paraphilique 1.0
parascève parascève 1.0
parasite parasite 2.0
parasitoïde parasitoïde 1.0
parasomnie parasomnie 11.0
parasurtenseur parasurtenseur 1.0
parasynthèse parasynthèse 2.0
parc parc 2.0
parce que parce que 1.0
pardonnante pardonnante 3.0
pardonnement pardonnement 3.0
pardonné pardonné 1.0
pare-boue pare-boue 18.0
pare-brise pare-brise 1008.0
pare-feu pare-feu 2.0
pare-feu pare-feu 517.0
pare-sole

plupart plupart 44.0
plut plut 1.0
plutoïde plutoïde 1.0
plâtrè plâtrè 1.0
pm pm 11.0
pneumomédiastin pneumomédiastin 2.0
po po 483.0
pochetronne pochetronne 7.0
pochetronné pochetronné 1.0
pochtron pochtron 1.0
pochtronné pochtronné 1.0
podalique podalique 2.0
podcast podcast 149.0
podcaste podcaste 1.0
podcaster podcaster 1.0
podcasteur podcasteur 5.0
podcasting podcasting 2.0
podcasté podcasté 1.0
podiatre podiatre 5.0
podiatrie podiatrie 1.0
pognaient pognaient 1.0
pognait pognait 3.0
pognant pognant 2.0
pognent pognent 14.0
pogner pogner 175.0
pognera pognera 1.0
pognerai pognerai 1.0
pognerait pognerait 1.0
pogneront pogneront 1.0
pogné pogné 153.0
pognée pognée 39.0
pogo pogo 2.0
poignardement poignardement 1.0
poignardé poignardé 1.0
poilade poilade 13.0
poilant poilant 1.0
poilu poilu 1.0
point point 79.0
pointe pointe 32.0
poison poison 1.0
poisson-chat poisson-chat 2.0
poisson-scie poisson-scie 1.0
poivrot poivrot 2.0
poker poker 12.0
polaque polaque 1.0
police police 165.0


pérégrine pérégrine 4.0
pétage pétage 80.0
pétaoctet pétaoctet 2.0
pétasse pétasse 14.0
péteur péteur 2.0
pétillance pétillance 1.0
pétrole pétrole 5.0
pêchu pêchu 11.0
pêchue pêchue 5.0
q q 1718.0
qanat qanat 1.0
qatarienne qatarienne 1.0
qd qd 1.0
qi qi 41.0
qq qq 72.0
qqc qqc 2.0
qqch qqch 90.0
qqchose qqchose 54.0
qqn qqn 36.0
qqpart qqpart 4.0
qu'en-dira-t-on qu'en-dira-t-on 45.0
qua qua 64.0
quad quad 141.0
quadra quadra 1.0
quadrangle quadrangle 2.0
quadrant quadrant 1.0
quadrille quadrille 1.0
qualif qualif 4.0
qualifiant qualifiant 1.0
quant-à-soi quant-à-soi 2.0
quanta quanta 3.0
quanti quanti 4.0
quarante quarante 254.0
quark quark 3.0
quartet quartet 13.0
quartier-maitre quartier-maitre 14.0
quatorze quatorze 237.0
quatre quatre 8601.0
quatre-huit quatre-huit 1.0
quatre-quatre quatre-quatre 25.0
quatre-vingt quatre-vingt 52.0
que que 1.0
queen queen 271.0
queer queer 28.0
quel quel 1.0
quelqu'un quelqu'un 68.0
quesadilla quesadilla 44.0
quetzal quetzal 1.0
qui qui 2.0
qui-v

riffle riffle 4.0
rifle rifle 15.0
rigidification rigidification 2.0
rince-bouche rince-bouche 43.0
rincement rincement 1.0
ring ring 20.0
ringardise ringardise 1.0
ripe ripe 11.0
ripper ripper 12.0
rise rise 95.0
riser riser 1.0
risera risera 1.0
risotto risotto 7.0
rispéridone rispéridone 8.0
risque risque 2.0
risque-tout risque-tout 11.0
ristretto ristretto 5.0
risé risé 1.0
rite rite 1.0
rive rive 5.0
road-movie road-movie 7.0
roadster roadster 7.0
roastbeef roastbeef 10.0
rob rob 19.0
robe robe 6.0
robot robot 4.0
robotique robotique 7.0
rock rock 30.0
rock'n'roll rock'n'roll 3.0
rock'n'roll rock'n'roll 48.0
rockabilly rockabilly 18.0
rocker rocker 2.0
rocket rocket 35.0
rockeuse rockeuse 1.0
rockingchair rockingchair 1.0
rockstar rockstar 63.0
rodeo rodeo 19.0
rodéo rodéo 2.0
roi roi 1.0
roller roller 5.0
rollier rollier 1.0
romancier romancier 3.0
rond-point rond-point 1.0
rondpoint rondpoint 1.0
ronflerie ronflerie 1.0
roof roof 14.0
roofing roofing 1.0
room room 652.0
root roo

seconde seconde 1.0
secouante secouante 1.0
secourante secourante 1.0
secouriste secouriste 1.0
secoué secoué 1.0
secrétaire secrétaire 1.0
seigneur seigneur 1.0
seinen seinen 3.0
seize seize 231.0
sel sel 1.0
self self 1.0
selfie selfie 319.0
sellier sellier 1.0
selon selon 5.0
semi-liberté semi-liberté 1.0
senescence senescence 1.0
senestrorsum senestrorsum 3.0
sensationnalisée sensationnalisée 1.0
senseï senseï 12.0
sensu sensu 1.0
senti senti 1.0
sentience sentience 2.0
seppuku seppuku 3.0
sept sept 2965.0
septembre septembre 1.0
septembre septembre 4810.0
septum septum 1.0
sequoia sequoia 4.0
sera sera 44.0
serait serait 9.0
serbisme serbisme 1.0
sergent-chef sergent-chef 1.0
sergente sergente 8.0
serif serif 7.0
seront seront 2.0
serpent serpent 1.0
serpillère serpillère 109.0
serra serra 35.0
sertraline sertraline 6.0
servant servant 4.0
serve serve 6.0
service service 43.0
set set 1.0
sex-shop sex-shop 1.0
sex-toy sex-toy 21.0
sexappeal sexappeal 1.0
sexe sexe 5.0
sexsomnie sex

suggèrera suggèrera 2.0
suggèrerai suggèrerai 6.0
suggèreraient suggèreraient 2.0
suggèrerait suggèrerait 18.0
suicide suicide 28.0
suintè suintè 1.0
suite suite 1.0
suivant suivant 1.0
sumo sumo 2.0
super-léger super-léger 1.0
superintendant superintendant 1.0
superlourd superlourd 4.0
superman superman 328.0
supermassif supermassif 2.0
supernova supernova 6.0
superprédateur superprédateur 7.0
superstar superstar 40.0
supervisation supervisation 2.0
superviseur superviseur 9.0
superviseure superviseure 11.0
supervision supervision 46.0
superwoman superwoman 13.0
superwomen superwomen 1.0
suppl suppl 3.0
supplémentation supplémentation 2.0
support support 7.0
supprimé supprimé 4.0
suprahumain suprahumain 1.0
supraluminique supraluminique 11.0
supraventriculaire supraventriculaire 11.0
suprémaciste suprémaciste 19.0
suprême suprême 43.0
sur-le-champ sur-le-champ 2.0
suraigüe suraigüe 1.0
surcharge surcharge 1.0
surcroit surcroit 12.0
surentrainé surentrainé 3.0
sureté sureté 171.0
surf 

trainante trainante 4.0
trainard trainard 7.0
trainasser trainasser 6.0
traine traine 726.0
traineau traineau 80.0
trainement trainement 1.0
trainent trainent 183.0
trainer trainer 1613.0
trainera trainera 30.0
trainerai trainerai 22.0
traineraient traineraient 3.0
trainerait trainerait 20.0
traineront traineront 4.0
training training 11.0
traintrain traintrain 3.0
trainé trainé 500.0
trainée trainée 565.0
traitance traitance 2.0
traite traite 2.0
traiteur traiteur 3.0
traitre traitre 700.0
traitresse traitresse 75.0
traitreusement traitreusement 2.0
traitrise traitrise 39.0
tramadol tramadol 4.0
tramp tramp 2.0
trampoline trampoline 1.0
tranche tranche 2.0
trancheur trancheur 1.0
tranquilisant tranquilisant 64.0
tranquillou tranquillou 2.0
transaméricain transaméricain 1.0
transcription transcription 4.0
transcriptrice transcriptrice 1.0
transcrit transcrit 2.0
transfèrera transfèrera 4.0
transfèrerai transfèrerai 8.0
transfèrerait transfèrerait 2.0
transfèreront transfèreront 5.0
tra

village village 6.0
ville ville 2.0
vilénie vilénie 12.0
vina vina 23.0
vinaigrette vinaigrette 1.0
vingt vingt 795.0
vingt-cinq vingt-cinq 1.0
vingt-et-un vingt-et-un 1.0
vingt-et-un vingt-et-un 83.0
vingt-neuf vingt-neuf 4.0
vingt-quatre vingt-quatre 71.0
vintage vintage 11.0
vinyl vinyl 39.0
violence violence 1.0
violent violent 4.0
violoneuse violoneuse 1.0
violée violée 2.0
virelangue virelangue 2.0
virgine virgine 1.0
visa visa 1.0
visage visage 1.0
visio visio 15.0
vision vision 1.0
visite visite 4.0
vison vison 2.0
visu visu 35.0
visualiseur visualiseur 2.0
visuo-spatial visuo-spatial 1.0
vitae vitae 13.0
vitam vitam 34.0
vitro vitro 4.0
vitruvien vitruvien 1.0
vitæ vitæ 1.0
vivarium vivarium 1.0
vivendi vivendi 2.0
vivo vivo 8.0
vlog vlog 42.0
vodka vodka 1.0
voeu voeu 3.0
vogue vogue 12.0
voici voici 2.0
voie voie 1.0
voile voile 1.0
voili voili 5.0
voilou voilou 12.0
voilà voilà 34.0
vol-au-vent vol-au-vent 26.0
volant volant 8.0
volatilisé volatilisé 1.0
vole vole 60.0
voll

In [44]:
fLexFilms4GB2=fLexFilms4GB.replace("GB.csv","GB2.csv")

In [43]:
df.to_csv(path_or_buf=fLexFilms4GB2,sep="\t",encoding="utf8",index=False)

In [46]:
df=pd.read_csv(filepath_or_buffer=fLexFilms4GB2,sep="\t",skip_blank_lines=True,encoding="utf8")
display(df.head())
print len(df)
condFormeNotLemme=df.graphie!=df.lemme
condLemmeNoSXZ=~df.lemme.str[-1].isin(["s","x","z"])
condN=df.cat=="NOM"
condA=df.cat=="ADJ"
condNA=df["cat"].isin(["NOM","ADJ"])
condNoNombreN=condN&(df.nombre.isnull())
condNoNombreA=condA&(df.nombre.isnull())
condNoNombreNA=condNA&(df["nombre"].isnull())
condGenreNombre=(df.genre.notnull())&(df.nombre.notnull())

Unnamed: 0,graphie,lemme,cat,infover,genre,nombre,occurrences
0,!,!,ADV,,,,10.0
1,$,$,NOM,,m,p,53371.0
2,%,%,NOM,,m,,29248.0
3,(,(,ADV,,,,3.0
4,),),ADV,,,,7.0


215563


In [None]:
nbGraphieLemme=0
nbChoixGraphieLemme=0
formesChoix=[]
indexDrops=[]
localDF=df[condNoNombreN&condFormeNotLemme&df.lemme.notnull()]
for index,row in localDF.iterrows():
    mauvaisesOccurrences=row.occurrences
    graphie=row.graphie
    lemme=row.lemme
    if  graphie==lemme+"s":
        print graphie,lemme,mauvaisesOccurrences
        dfGraphieLemme=getFormeLemme(row.graphie,row.lemme)
        dfChoix=dfGraphieLemme[condN&condGenreNombre]
        if len(dfChoix)==1:
            occurrencesChoix=dfChoix.occurrences.values[0]
            ixChoix=dfChoix.index[0]
            if debug: print ixChoix,occurrencesChoix,occurrencesChoix+mauvaisesOccurrences
            df.loc[df.index==ixChoix,"occurrences"]=occurrencesChoix+mauvaisesOccurrences
            if debug: print df.occurrences.iloc[ixChoix]
            indexDrops.append(index)
            display(df[df.graphie==graphie])
        else:
            display(dfChoix)
            nbChoixGraphieLemme+=1
            formesChoix.append(graphie)
        nbGraphieLemme+=1
df.drop(indexDrops,inplace=True)
print nbChoixGraphieLemme,nbGraphieLemme
print ", ".join(formesChoix)

In [None]:
bilanDF(df[condNoNombreN&~condFormeNotLemme&~(df.lemme.str[-1].isin(["s","x","z"]))],"Noms nombre NaN")

#### Pluriels non marqués par s/x/z

In [None]:
condNomPl=(df["cat"].isin(["NOM"]))&(~df["graphie"].str[-1:].isin([u"s",u"x",u"z"]))&(df["nombre"].isin(["p"]))
bilanDF(df[condNomPl],"Noms p",lines=1)

## Contrôles de cohérence pour les verbes
D'après la nomenclature, tous les verbes devraient avoir un champ ***infover*** renseigné et les autres catégories ne devraient pas avoir d'information dans ce champ.

Les premiers tests concernent les infover qui ne sont pas reliés à un verbe.

Les suivants concernent la cohérence des infover avec les formes verbales auxquels ils sont reliés.

### participes présent
Dans la première version reçue, il y avait un problème avec l'étiquette par:pre :
- l'étiquetage des participes présent n'était pas conforme à la nomenclature par:pre (3634 formes)
 - le découpage avait donné infover=par:p et le re s'est retrouvé découpé entre nombre et genre
 
La seconde version ne pose plus ce problème

In [None]:
condParPre=(df["infover"]=="par:p")
bilanDF(df[condParPre],"infover=par:p")

### Infover sans verbe
- infover ne devait pas être présent en dehors des formes verbales
 - pour les adjectifs, il faudrait sans doute prendre une décision pour ceux qui ressemblent à des participes passés
 - pour les noms, il faudrait probablement corriger


In [None]:
condVER=(df.cat.isin(["VER","AUX"]))
condInfover=(df.infover.notnull())
bilanDF(df[~condVER&condInfover],"infover hors formes verbales",lines=1)

### Infover hors verbes
Pour chaque élément incohérent, on cherche les éléments correspondants pour la même graphie et le même lemme.
- si il n'y a qu'une seule correspondance, on ajoute les occurrences incohérentes à la correspondance en question et on supprime l'entrée incohérente
- si il y a plusieurs correspondances, il faut en choisir une
- si il n'y a pas de correspondances, il faut décider de la valeur à assigner pour genre et nombre

In [None]:
nbGraphieLemme=0
nbChoixGraphieLemme=0
formesChoix=[]
for index,row in df[~condVER&condInfover].iterrows():
    mauvaisesOccurrences=row.occurrences
    graphie=row.graphie
    print graphie,mauvaisesOccurrences
    dfGraphieLemme=getFormeLemme(row.graphie,row.lemme)
    condNoInfover=(dfGraphieLemme.infover.isnull())
    dfChoix=dfGraphieLemme[condNoInfover].sort_values("occurrences",ascending=False)
    if len(dfChoix)==1:
        occurrencesChoix=dfChoix.occurrences.values[0]
        ixChoix=dfChoix.index[0]
        print ixChoix,occurrencesChoix,occurrencesChoix+mauvaisesOccurrences
        df.occurrences.iloc[ixChoix]=occurrencesChoix+mauvaisesOccurrences
        df.drop(index,inplace=True)
        display(df[df.graphie==graphie])
    else:
        display(dfChoix)
        nbChoixGraphieLemme+=1
        formesChoix.append(graphie)
    nbGraphieLemme+=1
print nbChoixGraphieLemme,nbGraphieLemme
print ", ".join(formesChoix)

### Verbe sans infover
Toutes les formes verbales devraient avoir un infover mais 2328 formes n'ont aucune information associée

In [None]:
condVerInfover=(df["cat"].isin(["VER","AUX"]))&(df["infover"].isnull())
bilanDF(df[condVerInfover],"formes verbales sans infover",lines=True)

### Cohérence des formes graphiques
Il y a des contraintes de correspondance entre graphie et infover
1. Tester la plausibilité de infover en fonction de la graphie
   - "er" n'est compatible qu'avec inf
1. Tester la graphie en fonction de infover
   - ind:fut
       - 1SG => rai
       - 2SG => ras
       - 3SG => ra
       - 1PL => rons
       - 2PL => rez
       - 3PL => ront
   - cond:pre
       - 1SG, 2SG => rais
       - 3SG => rait
       - 1PL => rions
       - 2PL => riez
       - 3PL => raient
   - ind:imp
       - 1SG, 2SG => ais
       - 3SG => ait
       - 1PL => ions
       - 2PL => iez
       - 3PL => aient
   - ind:pas
       - 1PL => mes
       - 2PL => tes
       - 3PL => rent
   - autres
       - 1PL => ons (sauf passé simple)
       - 2PL => ez (sauf passé simple)
       - 3PL => ent


**⚠️ Problème avec la comparaison de chaine utf8, la condition d'égalité donne un message d'erreur à propos de l'encodage.**
```
condPP=(df["cat"].isin(["VER","AUX"]))&(df["graphie"].str[-1:]==u"é")
```
**La comparaison avec une liste fonctionne...**

In [None]:
condFut=(df.infover.isin(["ind:fut:%d"%(i+1) for i in range(3)]))
condCond=(df.infover.isin(["cnd:pre:%d"%(i+1) for i in range(3)]))
condPers1=(condInfover&(df.infover.str.endswith("1")))
condPers2=(condInfover&(df.infover.str.endswith("2")))
condPers3=(condInfover&(df.infover.str.endswith("3")))
condPers12=(condInfover&(df.infover.str[-1].isin(["1","2"])))
condPersSG=(condInfover&(df.nombre=="s"))
condPersPL=(condInfover&(df.nombre=="p"))
df[condCond&condPersSG&condPers12]

### Infinitif
- la forme en -er doit être associée à inf

In [None]:
condInf=(condVER
         &(df["graphie"].str[-2:]=="er")
         &(~df["infover"].isin(["inf","inf;"]))&df["infover"].notnull())
bilanDF(df[condInf],"infinitifs hors inf",lines=True)

Les 1201 formes en -er précédentes sont classés comme des formes finies.

### Participes passé
- les formes en -é.e.s doivent être associées à par:pas:
 - sauf exception pour les verbes en -éer

In [None]:
condNotPP=((df["cat"].isin(["VER","AUX"]))
           &(~df["infover"].isin(["par:pas:"])
           &(df["infover"].notnull())))

condFinPP=((df["graphie"].str[-1:].isin([u"é"]))
           |(df["graphie"].str[-2:].isin([u"ée",u"és"]))
           |(df["graphie"].str[-3:].isin([u"ées"])))
condLemmeEER=(df["lemme"].str[-3:].isin([u"éer"]))
display(bilanDF(df[condNotPP&condFinPP&~condLemmeEER],"formes en é.e.s hors participes passé, hors verbes en -éer"))
bilanDF(df[condNotPP&condFinPP&condLemmeEER],"formes en é.e.s hors participes passé pour les verbes en -éer")

Sur les 48 formes repérées pour les verbes en -éer, certaines peuvent être incorrectes.

### 2PL et -ez
Pour les formes 2PL, la finale doit être -ez sauf pour le passé simple
- sauf êtes, dites, faites (non traitées)

In [None]:
cond2P=((df["cat"].isin(["VER","AUX"]))
        &(df["infover"].str.contains("2"))
        &(~df["infover"].str.contains("ind:pas", na=False))
        &(df["nombre"]=="p"))

condFin2P=(~df["graphie"].str[-2:].isin([u"ez"]))
bilanDF(df[cond2P&condFin2P],u"2PL hors -ez")

### 1PL et -ons
Pour les formes 1PL, la finale doit être -ons sauf pour le passé simple
 - exception sommes (non traitée)

In [None]:
cond1P=((df["cat"].isin(["VER","AUX"]))
        &(df["infover"].str.contains("1"))
        &(~df["infover"].str.contains("ind:pas", na=False))
        &(df["nombre"]=="p"))

condFin1P=(~df["graphie"].str[-3:].isin([u"ons"]))
bilanDF(df[cond1P&condFin1P],"1PL hors -ons")