In [1]:
# -*- coding: utf8 -*-
import codecs
import features
import re
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import itertools as it
import pickle
import datetime

In [2]:
def dateheure():
    return datetime.datetime.utcnow().strftime('%y%m%d%H%M')

typeEchantillon : 
- fixe pour utiliser tailleEchantillon
- variable pour utiliser nombre,increment,nombreInitial
- total pour utiliser tout le lexique

In [3]:
typeEchantillon="total"
tailleEchantillon=50000
nombre=1000
increment=250
nombreInitial=20
freqForme=1000000
if typeEchantillon=="total":
    echantillonPrefix="-total"
elif typeEchantillon=="fixe":
    echantillonPrefix="-%d-%s" % (tailleEchantillon,dateheure())
else:
    echantillonPrefix="XXX"

In [4]:
filePrefix="MGC-150812"

##Importations
- codecs pour les encodages
- pandas et numpy pour les calculs sur tableaux
- matplotlib pour les graphiques
- itertools pour les itérateurs sophistiqués (paires sur liste, ...)

In [5]:
#%pylab inline
#pd.options.display.mpl_style = 'default'
debug=False

###Préparation des matrices de traits

features.add_config('bdlexique.ini')
fs=features.FeatureSystem('phonemes')
#fs.supremum.concept.extent

bdlexiqueIn = unicode(u"èò")
bdlexiqueNum = [ord(char) for char in bdlexiqueIn]
neutreOut = unicode(u"EO")
neutralise = dict(zip(bdlexiqueNum, neutreOut))

def recoder(chaine,table=neutralise):
    if type(chaine)==str:
        temp=unicode(chaine.decode('utf8')).translate(table)
        result=temp.encode('utf8')
    elif type(chaine)==unicode:
        result=chaine.translate(table)
    return result

###Définition des cases
- principales pour le paradigme courant
- secondaires pour les cases rares
- totales pour le tout

In [6]:
casesPrincipales= [
        'inf', 'pi1S', 'pi2S', 'pi3S', 'pi1P', 'pi2P', 'pi3P', 'ii1S',
        'ii2S', 'ii3S', 'ii1P', 'ii2P', 'ii3P', 
        'fi1S', 'fi2S', 'fi3S', 'fi1P', 'fi2P',
        'fi3P', 'pI2S', 'pI1P', 'pI2P', 'ps1S', 'ps2S', 'ps3S', 'ps1P',
        'ps2P', 'ps3P', 
        'pc1S', 'pc2S', 'pc3S', 'pc1P', 'pc2P', 'pc3P', 'pP',
        'ppMS', 'ppMP', 'ppFS', 'ppFP'
            ]
casesSecondaires= [
       'ai1S', 'ai2S', 'ai3S', 'ai1P', 'ai2P', 'ai3P', 'is1S', 'is2S', 'is3S', 'is1P', 'is2P', 'is3P'
            ]
casesTotales=casesPrincipales+casesSecondaires
listeCases=casesTotales

In [7]:
with open('MGC-150812-Verbes.pkl', 'rb') as input:
    verbes = pickle.load(input)

verbes["phono"]=verbes["phono"].apply(lambda x: recoder(x))

#Echantillonage

##Assembler les échantillons correspondant à une étape n

In [8]:
def assemblerExtrait(nombre):
    return verbes.ix[np.sort(np.concatenate(tirages[0:nombre]))]

###Tirage incrémental des formes disponibles
- increment : taille de chaque tirage
- nombre : nombre de tirages

np.random.choice donne une liste d'index de formes tirées dans l'ordre du tirage

on découpe la liste en morceaux de la taille de l'incrément

In [9]:
if typeEchantillon=="variable":
    tirage=np.random.choice(verbes.index,size=nombre*increment,p=verbes["prob"],replace=False)
    tirages=[tirage[increment*x:increment*(x+1)] for x in range(len(tirage)/increment+(len(tirage)%increment!=0))]
    extrait=assemblerExtrait(nombreInitial)
elif typeEchantillon=="fixe":
    tirage=np.random.choice(verbes.index,size=tailleEchantillon,p=verbes["prob"],replace=False)
    extrait=verbes.ix[np.sort(tirage)]
elif typeEchantillon=="total":
    extrait=verbes

In [10]:
paradigmes=pd.pivot_table(extrait, values='phono', index=['lexeme'], columns=['case'], aggfunc=lambda x: ",".join(x)).reset_index().reindex()

In [11]:
paradigmes.to_csv(path_or_buf=filePrefix+echantillonPrefix+"-paradigmes.csv",encoding="utf8",sep=";")

In [12]:
#with open(filePrefix+echantillonPrefix+'-Paradigmes.pkl', 'wb') as output:
#   pickle.dump(paradigmes, output, pickle.HIGHEST_PROTOCOL)

In [13]:
extrait

Unnamed: 0,ortho,phono,ext,cs,ms,vs,lexeme,freq,prob,case
40,a,a,,V,3S,pi,avoir,7.167730e+11,1.329747e-02,pi3S
45,abaissa,abèsa,,V,3S,ai,abaisser,2.640000e+08,4.897689e-06,ai3S
46,abaissai,abèsè,,V,1S,ai,abaisser,1.700000e+07,3.153815e-07,ai1S
47,abaissaient,abèsè,"t""",V,3P,ii,abaisser,4.100000e+07,7.606259e-07,ii3P
48,abaissais,abèsè,"z""",V,1S,ii,abaisser,2.297000e+03,4.261360e-11,ii1S
49,abaissais,abèsè,"z""",V,2S,ii,abaisser,2.297000e+03,4.261360e-11,ii2S
50,abaissait,abèsè,"t""",V,3S,ii,abaisser,2.520000e+08,4.675067e-06,ii3S
52,abaissant,abèsâ,"t""",V,,pP,abaisser,2.510000e+08,4.656515e-06,pP
56,abaissas,abèsa,"z""",V,2S,ai,abaisser,2.297000e+03,4.261360e-11,ai2S
57,abaissasse,abèsas,@,V,1S,is,abaisser,2.297000e+03,4.261360e-11,is1S


In [14]:
extrait[extrait["vs"]=="pp"]

Unnamed: 0,ortho,phono,ext,cs,ms,vs,lexeme,freq,prob,case
101,abaissé,abèse,,K,MS,pp,abaisser,2.090000e+08,3.877337e-06,ppMS
102,abaissée,abèse,,K,FS,pp,abaisser,4.400000e+07,8.162815e-07,ppFS
103,abaissées,abèse,"z""",K,FP,pp,abaisser,1.000000e+06,1.855185e-08,ppFP
104,abaissés,abèse,"z""",K,MP,pp,abaisser,3.700000e+07,6.864185e-07,ppMP
164,abandonné,abâdòne,,K,MS,pp,abandonner,4.648000e+09,8.622901e-05,ppMS
166,abandonnée,abâdòne,,K,FS,pp,abandonner,1.700000e+09,3.153815e-05,ppFS
168,abandonnées,abâdòne,"z""",K,FP,pp,abandonner,3.970000e+08,7.365085e-06,ppFP
170,abandonnés,abâdòne,"z""",K,MP,pp,abandonner,8.480000e+08,1.573197e-05,ppMP
177,abasourdi,abazurdi,,K,MS,pp,abasourdir,2.440000e+08,4.526652e-06,ppMS
179,abasourdie,abazurdi,,K,FS,pp,abasourdir,6.600000e+07,1.224422e-06,ppFS
