In [55]:
# -*- coding: utf8 -*-

In [56]:
debug=False

filePrefix="MGC-160104"
nomLexique="/Users/gilles/Copy/Python/phonemisation/bdlexique-PDM-Resync2.txt"
nomConverts="/Users/gilles/Github/SWIM/2015-Data/VerbesAction-ConvertsPP.txt"
nomAutres="/Users/gilles/Github/SWIM/2015-Data/VerbesAction-Autres2.txt"
nomInconnus="/Users/gilles/Github/SWIM/2015-Data/VerbesAction-DerivesInconnus.csv"
nomManquants="/Users/gilles/Github/SWIM/2015-Data/VerbesAction-BasesManquantes.csv"

freqForme=1000000

## Importations
- codecs pour les encodages
- pandas et numpy pour les calculs sur tableaux
- matplotlib pour les graphiques
- itertools pour les itérateurs sophistiqués (paires sur liste, ...)

In [57]:
import pandas as pd
import pickle
import numpy as np

# Préparation du tableau de VERBES

### Lecture du lexique
- nomLexique pour le fichier
- names pour les noms de colonnes
- élimination des lignes dupliquées éventuelles (p.e. dépendre)

In [58]:
bdlexique=pd.read_csv(nomLexique,sep=";",names=["ortho","phono","ext","cs","ms","vs","lexeme","L23","lemmeFrantext","lemmeFilms","formeFrantext","formeFilms"],encoding="utf8")
bdlexique.loc[(bdlexique["ms"]=="ij")&(bdlexique["cs"].isin(["V","K"])),"ms"]="MS"
bdlexique.drop_duplicates(inplace=True,subset=["phono","ext","cs","ms","vs","lexeme","lemmeFrantext","lemmeFilms","formeFrantext","formeFilms"])

### Création de la colonne de fréquence *freq*

- fréquence forme : 1000000x(formeFrantext+formeFilms)
- fréquence lexeme : lemmeFrantext+lemmeFilms
- fréquence inexistante : .01

In [59]:
bdlexique["freq"]=1.0/100
filtreLFrantext=(bdlexique["lemmeFrantext"]!="***") 
filtreLFilms=(bdlexique["lemmeFilms"]!="***")
filtreFFrantext=(bdlexique["formeFrantext"]!="***") 
filtreFFilms=(bdlexique["formeFilms"]!="***")
bdlexique.loc[filtreLFrantext|filtreLFilms,"freq"]=bdlexique[filtreLFrantext]["lemmeFrantext"].astype(float)+bdlexique[filtreLFilms]["lemmeFilms"].astype(float)
bdlexique.loc[filtreFFrantext | filtreFFrantext,"freq"]=bdlexique[filtreFFrantext]["formeFrantext"].astype(float)*freqForme+bdlexique[filtreFFilms]["formeFilms"].astype(float)*freqForme

### Elimination des colonnes inutiles
- indicateur L23
- fréquences brutes

In [60]:
inutilesColonnes=["L23","lemmeFrantext","lemmeFilms","formeFrantext","formeFilms"]
for colonne in inutilesColonnes:
    del bdlexique[colonne]

In [61]:
convertsPP=pd.read_csv(nomConverts,sep=";",names=["lexeme","base"],encoding="utf8")
autresDerives=pd.read_csv(nomAutres,sep=";",names=["lexeme","base"],encoding="utf8")


In [62]:
derivesLexicaux=pd.concat([convertsPP,autresDerives]).reset_index()
del derivesLexicaux["index"]
derivesLexicaux=derivesLexicaux.drop_duplicates()
listDerives=derivesLexicaux["lexeme"].tolist()

### Extraction des converts dans une structure *derives*

In [63]:
derives=bdlexique[(bdlexique["cs"]=="N") & (bdlexique["ms"].str.startswith("F")) & (bdlexique["lexeme"].isin(listDerives))]

In [64]:
setDerivesBdlexique=set(derives["lexeme"].tolist())
setDerivesLexicaux=set(listDerives)
setDerivesManquants=setDerivesLexicaux-setDerivesBdlexique

In [65]:
derives=derives.merge(derivesLexicaux,on="lexeme",how="left")
#derives

In [66]:
#derivesLexicaux

In [67]:
derivesInconnus=pd.read_csv(nomInconnus,sep=";",encoding="utf8")
#derivesInconnus

In [68]:
basesManquantes=pd.read_csv(nomManquants,sep=";",encoding="utf8")
basesManquantes

Unnamed: 0,ortho,phono,ext,cs,ms,vs,lexeme,freq
0,accalmir,akalmir,,V,,inf,accalmir,0.01
1,buer,bHe,,V,,inf,buer,0.01
2,charpir,Sarpir,,V,,inf,charpir,0.01
3,complaindre,kôplêdr,,V,,inf,complaindre,0.01
4,desservir,desErvir,,V,,inf,desservir,0.01


In [69]:
derives=derives.append(derivesInconnus, ignore_index=True)

In [70]:
derives

Unnamed: 0,ortho,phono,ext,cs,ms,vs,lexeme,freq,base
0,absoute,absut,@,N,FS,,absoute,1.400000e+07,absoudre
1,absoutes,absut,"@z""",N,FP,,absoute,1.400000e+01,absoudre
2,accalmie,akalmi,,N,FS,,accalmie,3.430000e+08,accalmir
3,accalmies,akalmi,"z""",N,FP,,accalmie,7.800000e+07,accalmir
4,accrue,akry,,N,FS,,accrue,7.000000e+06,accroître
5,accrues,akry,"z""",N,FP,,accrue,7.000000e+00,accroître
6,agonie,agòni,,N,FS,,agonie,1.782000e+09,agonir
7,agonies,agòni,"z""",N,FP,,agonie,1.470000e+08,agonir
8,allée,ale,,N,FS,,allée,4.597000e+09,aller
9,allées,ale,"z""",N,FP,,allée,2.855000e+09,aller


### Ajout d'une colonne *prob* pour la fréquence relative

In [71]:
derives["prob"]=derives["freq"]/derives["freq"].sum()

### Ajout d'une colonne *case*
- remplir les *ms* vides pour permettre la concaténation sans erreur
- remplir les *vs* vides des participes passés par "pp" pour permettre l'identification de la case
- *case* est la concaténation de *vs* et *ms*

In [72]:
bdlexiqueIn = unicode(u"èò")
bdlexiqueNum = [ord(char) for char in bdlexiqueIn]
neutreOut = unicode(u"EO")
neutralise = dict(zip(bdlexiqueNum, neutreOut))

def recoder(chaine,table=neutralise):
    if type(chaine)==str:
        temp=unicode(chaine.decode('utf8')).translate(table)
        result=temp.encode('utf8')
    elif type(chaine)==unicode:
        result=chaine.translate(table)
    else:
        result=chaine
    return result

derives["phono"]=derives["phono"].apply(recoder)

In [73]:
with open("2015-Data/"+filePrefix+'-Derives2.pkl', 'wb') as output:
   pickle.dump(derives, output, pickle.HIGHEST_PROTOCOL)

In [74]:
derives.sort_values(by="prob")

Unnamed: 0,ortho,phono,ext,cs,ms,vs,lexeme,freq,base,prob
357,retonte,r6tôt,,N,FS,,retonte,1.000000e-02,retondre,1.281217e-14
331,fessée,fEse,,N,FS,,fessée,1.000000e-02,fesser,1.281217e-14
330,fauchée,foSe,,N,FS,,fauchée,1.000000e-02,faucher,1.281217e-14
329,enceinte,âsêt,,N,FS,,enceinte,1.000000e-02,enceindre,1.281217e-14
328,empilée,âpile,,N,FS,,empilée,1.000000e-02,empiler,1.281217e-14
327,départie,departi,,N,FS,,départie,1.000000e-02,départir,1.281217e-14
326,cueillie,k9ji,,N,FS,,cueillie,1.000000e-02,cueillir,1.281217e-14
325,criée,krije,,N,FS,,criée,1.000000e-02,crier,1.281217e-14
324,coulée,kule,,N,FS,,coulée,1.000000e-02,couler,1.281217e-14
323,brisée,brize,,N,FS,,brisée,1.000000e-02,briser,1.281217e-14


In [75]:
tirage=np.random.choice(derives.index,size=75,p=derives["prob"],replace=False)

In [None]:
extrait=derives.ix[np.sort(tirage)]

In [77]:
extrait

Unnamed: 0,ortho,phono,ext,cs,ms,vs,lexeme,freq,base,prob
3,accalmies,akalmi,"z""",N,FP,,accalmie,7.800000e+07,accalmir,0.000100
8,allée,ale,,N,FS,,allée,4.597000e+09,aller,0.005890
9,allées,ale,"z""",N,FP,,allée,2.855000e+09,aller,0.003658
12,arrivée,arive,,N,FS,,arrivée,1.197400e+10,arriver,0.015341
14,assise,asiz,@,N,FS,,assise,5.110000e+08,asseoir,0.000655
20,attente,atât,@,N,FS,,attente,8.412000e+09,attendre,0.010778
26,buée,bye,,N,FS,,buée,1.343000e+09,buer,0.001721
30,chevauchée,S6vOSe,,N,FS,,chevauchée,2.920000e+08,chevaucher,0.000374
32,chute,Syt,@,N,FS,,chute,5.628000e+09,choir,0.007211
38,conquête,kôkEt,@,N,FS,,conquête,1.473000e+09,conquérir,0.001887


In [47]:
paradigmes=pd.pivot_table(extrait, values='phono', index=['lexeme'], columns=['ms'], aggfunc=lambda x: ",".join(x)).reset_index().reindex()
paradigmes

ms,lexeme,FP,FS
0,allée,,ale
1,arrivée,,arive
2,attente,,atât
3,chevauchée,,S6vOSe
4,chute,,Syt
5,contrainte,,kôtrêt
6,course,kurs,kurs
7,crainte,,krêt
8,descente,,dEsât
9,dictée,dikte,


In [48]:
paradigmes.to_csv(path_or_buf="2015-Data/"+filePrefix+"-derives2.csv",encoding="utf8",sep=";")

In [49]:
GOLD=pd.pivot_table(derives, values='phono', index=['lexeme'], columns=['ms'], aggfunc=lambda x: ",".join(x)).reset_index().reindex()
GOLD.to_csv(path_or_buf="2015-Data/"+filePrefix+"-derives2-GOLD.csv",encoding="utf8",sep=";")

In [80]:
bdlexique[bdlexique["lexeme"]=="surtondre"]

Unnamed: 0,ortho,phono,ext,cs,ms,vs,lexeme,freq
384213,surtond,syrtô,"t""",V,3S,pi,surtondre,0.01
384214,surtondaient,syrtôdè,"t""",V,3P,ii,surtondre,0.01
384215,surtondais,syrtôdè,"z""",V,1S,ii,surtondre,0.01
384216,surtondais,syrtôdè,"z""",V,2S,ii,surtondre,0.01
384217,surtondait,syrtôdè,"t""",V,3S,ii,surtondre,0.01
384218,surtondant,syrtôdâ,"t""",V,,pP,surtondre,0.01
384219,surtonde,syrtôd,@,V,1S,ps,surtondre,0.01
384220,surtonde,syrtôd,@,V,3S,ps,surtondre,0.01
384221,surtondent,syrtôd,"@t""",V,3P,pi,surtondre,0.01
384222,surtondent,syrtôd,"@t""",V,3P,ps,surtondre,0.01
