# Extraction des attestations de mots en 'age' à partir d'un lexique de référence

Trois étapes principales dans le traitement :
  1. extraire d'un corpus (ici frWaC) la liste des attestations d'un procédé morphologique
  2. comparer les items de cette liste avec les entrées d'un lexique de référence (ici lexique.org) et identifier les mots absents du lexique, candidats à la néologie
  3. échantillonnage des résultats

## Extraction des mots en 'age' de frWaC

Le fichier `FRWAC-FULL-utf8.xml` fait 26 Go, c'est très gros. Plutôt que de l'attaquer en Python direct on passe par noSketchEngine.

### NoSketchEngine

[https://www.clarin.si/noske/run.cgi/first_form?corpname=frwac;align=](https://www.clarin.si/noske/run.cgi/first_form?corpname=frwac;align=), sélectionner 'CQL' puis taper la requête `[word=".{3,}ages?"]`  

On recherche sur les formes (`word=`) plutôt que les lemmes sinon on pourrait passer à côté des mots inconnus. `.{3,}` pour au moins 3 caractères, `ages?` pour le suffixe 'age' avec un 's' à la fin ou non.

Une fois qu'on a la concordance on peut avoir la liste des formes dans le menu à gauche 'Frequency > Node forms' puis cliquer sur 'Save' en haut, avec '100000' pour le nombre maximum de lignes et on télécharge les résultats.

On va lire le fichier résultat et stocker les mots dans un dictionnnaire python. Un dictionnaire pour conserver la fréquence de chaque mot. Le fichier a des lignes de commentaires et d'entête dont on ne veut pas, il y aura une petite regex pour ne pas les prendre en compte.

In [1]:
import re
from collections import Counter

# On utilise un objet Counter, un dérivé de dictonnaire plus efficace pour les valeurs numériques
# https://docs.python.org/3.7/library/collections.html#collections.Counter
words_frwac = Counter()

# changer le nom du fichier le cas échéant
with open('frwac_age.txt', encoding='utf-8') as res_frwac:
    for line in res_frwac:
        line = line.rstrip()
        # On cherche un motif regex du type : "pistonnage    9"
        res_search = re.search('([^\t]+)\t([0-9]+)', line)
        # Si la ligne ne contient pas ce motif c'est une ligne d'entête ou de commentaire
        # (Motif = Au moins un charactère qui n'est pas un tab suivi d'un tab suivi d'au moins un chiffre)
        if res_search:
            word, freq = res_search.groups()
            freq = int(freq) # conversion chaîne de car. en entier
            word = word.lower() # passage en minuscule pour supprimer la variation liée à la casse
            if re.search(r"\W|[0-9]|([a-zA-Z])\1{2}|http|Message|Page|Image", word): # r"\w = tout ce qui n'est pas une lettre, ensuite 3x la même lettre
                # On élimine les mots avec certaines caractéristiques qu'on ne veut pas
                # "-" éliminé car préfixation. On veut que le dernier procédé utilisé soit celui en -age.
                # Elimination de 3 lettres à la suite (éliminer une partie des mots mal orthographiés)
                # Eliminer dD et ii ? Pas dangereux ? Message|Page|Image ?
                continue
            # On supprime les s finaux
            if word[-1] == 's':
                word = word[:-1]
            words_frwac[word] += freq

À l'issue de ce traitement on a en mémoire un structure de données avec les mots en 'age' et leurs fréquences.
On peut afficher les 10 mots les plus fréquents par exemple :

In [2]:
for item in words_frwac.most_common(10):
    print(item)

('message', 334281)
('ouvrage', 253193)
('voyage', 217755)
('passage', 183474)
('village', 163300)
('personnage', 158473)
('apprentissage', 141413)
('avantage', 129163)
('langage', 109369)
('paysage', 98767)


Ou simplement voir combien on a de formes différentes

In [3]:
len(words_frwac.keys())

12421

## Comparaison avec lexique.org

#### Stockage en mémoire des mots de lexique.org

Le fichier ici s'appelle `Lexique382.csv` (téléchargé sur la page http://www.lexique.org).

In [4]:
# Un set pour deux raisons : ne garder que les formes uniques, utiliser les fonctions sur les ensembles pour comparer avec les données de corpus
set_words_lexique = set()

# On va aussi garder les mots en 'age' pour voir
words_age_lexique = set()

with open('Lexique382.csv', encoding='utf-8') as lexique:
    for line in lexique:
        if not line.startswith('1_ortho'):
            word = line.split(';')[0]
           # On supprime les s finaux comme pour frwac
            if word[-1] == 's':
                word = word[:-1]
            set_words_lexique.add(word)
            if re.search('.{3,}ages?$', word):
                words_age_lexique.add(word)

In [5]:
print("{} formes différentes (en virant les 's' finaux) dans lexique.org dont {} en age".format(len(set_words_lexique), len(words_age_lexique)))
words_age_lexique

96012 formes différentes (en virant les 's' finaux) dans lexique.org dont 911 en age


{'abatage',
 'abattage',
 'abordage',
 'abreuvage',
 'accastillage',
 'accostage',
 'accrochage',
 'achalandage',
 'adressage',
 'affacturage',
 'affichage',
 'affinage',
 'affouage',
 'affûtage',
 'agnelage',
 'agrafage',
 'agrainage',
 'aguichage',
 'aiguillage',
 'ajustage',
 'ajutage',
 'alliage',
 'allumage',
 'alpage',
 'alunissage',
 'amarrage',
 'ambage',
 'amerrissage',
 'amorçage',
 'ampérage',
 'aménage',
 'ancrage',
 'anthropophage',
 'anti-blindage',
 'anti-braquage',
 'anti-dopage',
 'anti-flingage',
 'anti-mariage',
 'anti-piratage',
 'antiblocage',
 'antidopage',
 'antidémarrage',
 'antiparasitage',
 'apanage',
 'appareillage',
 'appontage',
 'apprentissage',
 'après-rasage',
 'arbitrage',
 'archivage',
 'arpentage',
 'arrachage',
 'arrimage',
 'arrivage',
 'arrosage',
 'arrérage',
 'aréopage',
 'assemblage',
 'assurage',
 'assurance-chômage',
 'asticotage',
 'astiquage',
 'attelage',
 'atterrage',
 'atterrissage',
 'attrapage',
 'autoguidage',
 'avalage',
 'avantage',


#### Comparaison frWac / lexique

On convertit les mots de frWac en ensemble, on applique l'opération de [différence](https://fr.wikipedia.org/wiki/Alg%C3%A8bre_des_parties_d%27un_ensemble#Diff%C3%A9rence)

In [6]:
set_words_frwac = set(words_frwac.keys())
diff = set_words_frwac.difference(set_words_lexique)
print("il y a {} formes en 'age' absentes de lexique.org".format(len(diff)))

il y a 11546 formes en 'age' absentes de lexique.org


On met d'abord le résultat dans deux listes, triées par fréquence décroissante (la liste des mots `new_words` et la liste des fréquences d'occurences `new_words_counts`)

In [7]:
new_words = sorted(diff, key=lambda x: words_frwac[x], reverse=True)
new_words_counts = [words_frwac[w] for w in new_words]

On peut afficher ces formes et leurs fréquences

In [8]:
for word, freq in zip(new_words, new_words_counts):
    print(word, " : ", freq)

paramétrage  :  7558
maillage  :  7264
language  :  6941
elevage  :  6738
dégroupage  :  6564
compostage  :  4745
eclairage  :  4372
lepage  :  3136
carthage  :  2953
chomage  :  2715
menage  :  2478
domage  :  1795
nommage  :  1760
hokage  :  1751
pélerinage  :  1711
calage  :  1695
façonnage  :  1672
eiffage  :  1570
lesage  :  1565
average  :  1522
prototypage  :  1491
depannage  :  1376
recadrage  :  1309
kurokage  :  1308
hermitage  :  1276
mesurage  :  1214
maraîchage  :  1154
fléchage  :  1105
interfaçage  :  1093
relevage  :  1091
temoignage  :  1085
heritage  :  1081
flocage  :  1075
essaimage  :  1059
ferroutage  :  1049
publipostage  :  1013
frontpage  :  1013
affermage  :  991
monnayage  :  957
ensilage  :  953
fraisage  :  950
paillage  :  946
foutage  :  936
chaînage  :  913
delage  :  899
typage  :  875
homepage  :  852
débauchage  :  842
décolletage  :  806
emboutissage  :  804
cmpage  :  803
orpaillage  :  800
lmimage  :  785
equipage  :  762
destockage  :  757
mizukag

caravanage  :  79
entartage  :  79
manpage  :  79
rabattage  :  79
débouillissage  :  79
reperage  :  79
gerbage  :  78
moignage  :  78
échaudage  :  78
déshuilage  :  78
antiremorquage  :  78
ébavurage  :  78
vérouillage  :  77
encapsulage  :  77
agréage  :  77
verouillage  :  77
affutage  :  77
précâblage  :  76
navimage  :  76
catapultage  :  76
barage  :  76
demarage  :  76
potassage  :  76
temoinage  :  75
partimage  :  75
decollage  :  75
redemarrage  :  75
équarissage  :  75
thermolaquage  :  75
pieddepage  :  74
bionettoyage  :  74
maltage  :  74
subpage  :  74
aerogommage  :  74
marchéage  :  74
sexage  :  74
passerillage  :  74
déflocage  :  73
chambrage  :  73
visionage  :  73
infinitestorage  :  73
rattrappage  :  73
survirage  :  72
antidérapage  :  72
linkage  :  72
chainage  :  72
fossoyage  :  72
dessalage  :  72
parrainnage  :  72
racollage  :  72
carriage  :  71
handiplage  :  71
rebasage  :  71
bourrinage  :  71
decoupage  :  71
médicomage  :  71
contrecollage  :  71

légendage  :  25
minimage  :  25
entubage  :  25
aiguilletage  :  25
préformage  :  25
brulage  :  25
gyrobroyage  :  25
dégrippage  :  24
encourrage  :  24
dévernissage  :  24
décalottage  :  24
kinescopage  :  24
desimlockage  :  24
mélangeage  :  24
débalage  :  24
bottage  :  24
rentrage  :  24
prémontage  :  24
préremplissage  :  24
tracage  :  24
enradiage  :  24
croutage  :  24
conteneurimage  :  24
grimpage  :  24
cyclonage  :  24
repartage  :  24
frisage  :  24
délettrage  :  24
déroctage  :  24
aquaplanage  :  24
decapsulage  :  24
dinklage  :  24
marrage  :  24
networkvantage  :  24
flockage  :  24
unepage  :  24
dragonsage  :  24
embrochage  :  24
animage  :  24
loupage  :  23
plaxage  :  23
talutage  :  23
refendage  :  23
telepeage  :  23
avivage  :  23
depèage  :  23
debridage  :  23
dépolissage  :  23
remoulage  :  23
ratrappage  :  23
microphage  :  23
prélaquage  :  23
hackage  :  23
grundlage  :  23
détatouage  :  23
amerissage  :  23
décortiquage  :  23
actimage  : 

fêtage  :  12
líusage  :  12
traversage  :  12
statophage  :  12
decoffrage  :  12
drageonnage  :  12
girage  :  12
aprendissage  :  12
dlzwencodepage  :  12
grandparentage  :  12
enfouissage  :  12
fouttage  :  12
gratinage  :  12
gimage  :  12
antage  :  12
fouinage  :  12
caryotypage  :  12
leurrage  :  12
resucrage  :  12
cherchage  :  12
bibusage  :  12
bracage  :  12
lusage  :  12
bellimage  :  12
tournassage  :  12
draînage  :  12
croquage  :  12
pupitrage  :  12
crochage  :  12
billonnage  :  12
wallimage  :  12
gardinnage  :  12
vêtage  :  12
aysage  :  12
allogarage  :  12
linchage  :  12
kitage  :  12
paramêtrage  :  12
nextpage  :  12
pivotage  :  12
comatage  :  12
switchage  :  11
farfouillage  :  11
cabanage  :  11
décalquage  :  11
discutage  :  11
spammage  :  11
ecoemballage  :  11
bouffage  :  11
fliquage  :  11
ichtyophage  :  11
haubannage  :  11
défléchage  :  11
touchage  :  11
prenage  :  11
remérage  :  11
ddamage  :  11
saproxylophage  :  11
foulonnage  :  11


autrepage  :  7
déplissage  :  7
jointoyage  :  7
recasage  :  7
forrage  :  7
désenrobage  :  7
pouillage  :  7
strage  :  7
auvetage  :  7
amménage  :  7
breakage  :  7
dõimage  :  7
pucage  :  7
lerinage  :  7
déhoussage  :  7
decrassage  :  7
desménage  :  7
covage  :  7
désamarrage  :  7
automaquillage  :  7
montrage  :  7
driveimage  :  7
garrottage  :  7
monopage  :  7
architecturage  :  7
recylcage  :  7
betonnage  :  7
sculptage  :  7
resquillage  :  7
graphiquage  :  7
prülage  :  7
pressvoyage  :  7
sérogroupage  :  7
mdedressage  :  7
détrancanage  :  7
baissage  :  7
rembarrage  :  7
détritiphage  :  7
taquage  :  7
prérepérage  :  7
boucanage  :  7
kelstage  :  7
ardage  :  7
cinémontage  :  7
étallonage  :  7
surpéage  :  7
revissage  :  7
manuportage  :  7
jumellage  :  7
mélage  :  7
visitage  :  7
atterisage  :  7
pitonnage  :  7
ébousage  :  7
psychosondage  :  7
lézardage  :  7
calinage  :  7
turage  :  7
pelanage  :  7
renomage  :  7
dedommage  :  7
cadmiage  :  7


garançage  :  5
quittage  :  5
réadressage  :  5
microsoudage  :  5
retexturage  :  5
hétérosondage  :  5
olivage  :  5
alvéolage  :  5
lochage  :  5
brodage  :  5
applevage  :  5
sonvisage  :  5
lourdage  :  5
amarsissage  :  5
zinguage  :  5
ganiage  :  5
déchaulage  :  5
machouillage  :  5
dédoublonage  :  5
carvoyage  :  5
blogpage  :  5
inventoriage  :  5
grignage  :  5
magnétoscopage  :  5
dégerbage  :  5
dmnage  :  5
onstartpage  :  5
vigneronnage  :  5
juniorbondage  :  5
cholage  :  5
urinage  :  5
toshopage  :  5
tsukikage  :  5
nationalitätenfrage  :  5
oxydécoupage  :  5
enfoncage  :  5
débâtissage  :  5
défoulage  :  5
ballage  :  5
pesteourage  :  5
pôssage  :  5
reflocage  :  5
demballage  :  5
mazoutage  :  5
voûtage  :  5
pixvillage  :  5
poshvintage  :  5
préstage  :  5
sucage  :  5
debosselage  :  5
réemballage  :  5
boschage  :  5
rédémarrage  :  5
copyrightage  :  5
naugrage  :  5
bloguage  :  5
parrinage  :  5
baffouillage  :  5
microdosage  :  5
bananage  :  5
mo

autocurage  :  4
atterage  :  4
stochage  :  4
moyenage  :  4
moucatage  :  4
aguillage  :  4
ensillage  :  4
chantillonnage  :  4
débombage  :  4
apprantissage  :  4
actualimage  :  4
tutorage  :  4
concoctage  :  4
dusage  :  4
poteyage  :  4
splage  :  4
déoupage  :  4
electrophönvintage  :  4
vosage  :  4
sonentourage  :  4
myheritage  :  4
geoimage  :  4
nuagenuage  :  4
rinage  :  4
antisabotage  :  4
webcollage  :  4
bourlingage  :  4
nanoalliage  :  4
ubistorage  :  4
umbrage  :  4
extensiondatabodylanguage  :  4
embuage  :  4
changerimage  :  4
djrage  :  4
beitrage  :  4
goupillage  :  4
biocompostage  :  4
femmage  :  4
anuageage  :  4
dérayage  :  4
démasclage  :  4
polisage  :  4
mattraquage  :  4
autorentage  :  4
rallage  :  4
csauvage  :  4
reboutage  :  4
rythmage  :  4
brokage  :  4
arrage  :  4
ppassage  :  4
enfûtage  :  4
cloudrage  :  4
xscannimage  :  4
commage  :  4
gouttage  :  4
oeuvrage  :  4
readimage  :  4
prémâchage  :  4
rétrofeuilletage  :  4
anatomimage

retourage  :  3
dépériostage  :  3
carpophage  :  3
suréclairage  :  3
preferredlanguage  :  3
échantilonnage  :  3
désenclavage  :  3
reequilibrage  :  3
dérèglage  :  3
mariiage  :  3
frasage  :  3
gégage  :  3
bufferedimage  :  3
brayage  :  3
kendage  :  3
applicage  :  3
groudronnage  :  3
débondage  :  3
autopointage  :  3
ecrantage  :  3
battelage  :  3
destressage  :  3
hourdage  :  3
duvillage  :  3
greenage  :  3
paufinage  :  3
commerage  :  3
pluscinqpointsdanslessondage  :  3
flipage  :  3
cuisinage  :  3
kickage  :  3
agricolawebvoyage  :  3
zhuquarnage  :  3
horlage  :  3
nomdulangage  :  3
enrubanage  :  3
detramage  :  3
edukimage  :  3
ressemellage  :  3
heximage  :  3
vinimage  :  3
chömage  :  3
dépôtage  :  3
déclage  :  3
remappage  :  3
alèsage  :  3
lepersonnage  :  3
braillage  :  3
bronsage  :  3
kiranvillage  :  3
ogénage  :  3
cettepage  :  3
métamorphage  :  3
pipage  :  3
éreintage  :  3
frametopimage  :  3
bippage  :  3
désiliconage  :  3
interphasage  : 

chaperonnage  :  2
festivillage  :  2
désimloquage  :  2
enterglobalenteretiquetage  :  2
dessanglage  :  2
heliportage  :  2
échantillage  :  2
electrophonvintage  :  2
pluumage  :  2
scrabouillage  :  2
hettlage  :  2
accastilage  :  2
gharbage  :  2
crayage  :  2
chialage  :  2
témgoignage  :  2
puyfage  :  2
antigravillonnage  :  2
ecimage  :  2
demerrage  :  2
samkage  :  2
dévracage  :  2
dabillage  :  2
cäblage  :  2
copélevage  :  2
addpage  :  2
hypercodage  :  2
webtcdorage  :  2
hydroplannage  :  2
honage  :  2
anitpopage  :  2
verrnissage  :  2
healthlanguage  :  2
picdopage  :  2
asemblage  :  2
écrouage  :  2
retalutage  :  2
aquanettoyage  :  2
prévisionnage  :  2
vijage  :  2
filesalvage  :  2
animationsmaquillage  :  2
rncourage  :  2
nunekinkage  :  2
recycylage  :  2
surverrouillage  :  2
réunionportage  :  2
sourcemage  :  2
navigage  :  2
trusquinage  :  2
xilophage  :  2
désembobinage  :  2
stagepilotage  :  2
déprapage  :  2
photodommage  :  2
entaourage  :  2
ep

defrichage  :  2
désserage  :  2
micropaysage  :  2
cetemoignage  :  2
dezippage  :  2
mikrophage  :  2
désorbitage  :  2
boutage  :  2
deremplissage  :  2
taquinage  :  2
cybersabotage  :  2
lestémoignage  :  2
redorage  :  2
déplacage  :  2
mantehage  :  2
embielage  :  2
recousage  :  2
onophage  :  2
électroménage  :  2
emaillotage  :  2
egyptevoyage  :  2
hagiage  :  2
iltrage  :  2
gouglage  :  2
decentrage  :  2
grandgagnage  :  2
pmergeimage  :  2
antipantouflage  :  2
cleardoublepage  :  2
biolage  :  2
siliage  :  2
oepartage  :  2
movingimage  :  2
polybouclage  :  2
collabage  :  2
geocodage  :  2
désage  :  2
thermocyclage  :  2
quiltage  :  2
zabottage  :  2
ecouplage  :  2
perssage  :  2
chinage  :  2
conrage  :  2
houblonage  :  2
réchaffage  :  2
quartilage  :  2
foncage  :  2
lemassage  :  2
gandrage  :  2
désarêtage  :  2
covoyturage  :  2
froamage  :  2
microvantage  :  2
hstage  :  2
rapatriage  :  2
bûcheronage  :  2
affiage  :  2
duitage  :  2
lavagage  :  2
chro

salicylage  :  2
barvardage  :  2
gepetovillage  :  2
démosaïquage  :  2
plomberiechauffage  :  2
rückfrage  :  2
écremage  :  2
mathpage  :  2
limogage  :  2
crapouillotage  :  2
témmoignage  :  2
parmessage  :  2
lésclavage  :  2
surbalayage  :  2
microbilage  :  2
postapprentissage  :  2
lagrandeimage  :  2
classelangage  :  2
postcodage  :  2
réembobinage  :  2
emdomage  :  2
folioencrage  :  2
tigrage  :  2
rejoindage  :  2
tillonnage  :  2
épaississage  :  2
rainuremmalésage  :  2
destroyage  :  2
hydrogénophage  :  2
rebinage  :  2
biétirage  :  2
plaage  :  2
maïeutage  :  2
désoperculage  :  2
désanvantage  :  2
timage  :  2
normage  :  2
échantlillonage  :  2
lesstage  :  2
susage  :  2
teleimage  :  2
défibrosage  :  2
présertissage  :  2
cojettage  :  2
corindonnage  :  2
apprentiddage  :  2
eivillage  :  2
cybercollage  :  2
réarchivage  :  2
combinage  :  2
lentillage  :  2
préchargeage  :  2
carrièreelevage  :  2
dessauvage  :  2
éclipsage  :  2
régulage  :  2
lesplage  

otolithomarquage  :  1
lebrouillage  :  1
pottage  :  1
éssuyage  :  1
lâetmusage  :  1
riophage  :  1
hydrogomage  :  1
agencesvoyage  :  1
masqage  :  1
pchauffage  :  1
debossage  :  1
davaantage  :  1
ramssage  :  1
emessage  :  1
storimage  :  1
édossage  :  1
hydrodécapage  :  1
ebgage  :  1
éditage  :  1
esuyage  :  1
biphasage  :  1
hotikage  :  1
bablatage  :  1
bouillottage  :  1
chryptage  :  1
lothophage  :  1
courvoiturage  :  1
rembobinnage  :  1
openstage  :  1
débraquage  :  1
jardnage  :  1
amopapage  :  1
ouvreage  :  1
dégrivage  :  1
écoussage  :  1
accroochage  :  1
desémaillage  :  1
embouchage  :  1
sentmessage  :  1
capsage  :  1
zymotypage  :  1
dengrenage  :  1
flconnage  :  1
bootlegage  :  1
sursucrage  :  1
réaffutage  :  1
menrage  :  1
délirage  :  1
résumage  :  1
notuclassage  :  1
emploichômage  :  1
réétayage  :  1
premièrepage  :  1
intefaçage  :  1
arbage  :  1
rsquoéquipage  :  1
ventilage  :  1
pshycottage  :  1
dégarrotage  :  1
auiguillage  :  1

encalminage  :  1
clémenitneage  :  1
châage  :  1
désèquilibrage  :  1
sidérophage  :  1
enquillage  :  1
contrage  :  1
dicopage  :  1
multicolisage  :  1
sincavage  :  1
bwananage  :  1
dégoulottage  :  1
tourbillonage  :  1
submitmessage  :  1
rouvrage  :  1
dingage  :  1
balancage  :  1
davidage  :  1
pholage  :  1
érrosage  :  1
chiliconkarnage  :  1
gararage  :  1
follage  :  1
airbage  :  1
graffage  :  1
égrapage  :  1
discuttage  :  1
webyage  :  1
sourcage  :  1
prémachage  :  1
rèchage  :  1
emabllage  :  1
quarissage  :  1
lalatage  :  1
desamorceage  :  1
archeostage  :  1
manipulage  :  1
débélage  :  1
hélicordage  :  1
réessuyage  :  1
resoufflage  :  1
préfléchage  :  1
ressemblage  :  1
autodélestage  :  1
chffage  :  1
rapideverrouillage  :  1
témoigngage  :  1
reséquencage  :  1
astage  :  1
amirage  :  1
detricotage  :  1
affcichage  :  1
rathauspassage  :  1
jadinnage  :  1
allomarquage  :  1
enssilage  :  1
alldvantage  :  1
cliavage  :  1
dècoupage  :  1
lerede

gossage  :  1
unsinage  :  1
disoulage  :  1
geoforage  :  1
parkingsauvage  :  1
arètage  :  1
kilmètrage  :  1
pèresonnage  :  1
epurage  :  1
mayticvillage  :  1
nukuninkage  :  1
sangage  :  1
apprentiissage  :  1
affichaage  :  1
flcage  :  1
mythophage  :  1
tomatage  :  1
leemage  :  1
quotapage  :  1
klaxonnage  :  1
fifivoyage  :  1
palissonage  :  1
interbloquage  :  1
néocartilage  :  1
engaage  :  1
decriptage  :  1
lnpinglage  :  1
décommage  :  1
surkiffage  :  1
multipexage  :  1
rollcage  :  1
couraillage  :  1
easystage  :  1
pénétrage  :  1
lesportugaislabrennesauvage  :  1
pmessage  :  1
galerage  :  1
degivreage  :  1
dépsitage  :  1
depannarage  :  1
monophasage  :  1
pélenirage  :  1
pourentage  :  1
réalèsage  :  1
témoiganage  :  1
ejarrage  :  1
homonage  :  1
déboxage  :  1
moillage  :  1
duparamétrage  :  1
helitreuillage  :  1
sâengage  :  1
revignettage  :  1
hurlage  :  1
oloriage  :  1
flippage  :  1
blériotplage  :  1
vernage  :  1
égaillage  :  1
déquic

kraftage  :  1
avanntage  :  1
scrotophage  :  1
feillage  :  1
reliftage  :  1
autobronzage  :  1
microfimage  :  1
teubitage  :  1
préchauaffage  :  1
rebêchage  :  1
stpckage  :  1
monsevrage  :  1
reagreage  :  1
autoéquilibrage  :  1
sakage  :  1
ecovilage  :  1
marmamassage  :  1
chicotage  :  1
microblindage  :  1
cblage  :  1
suremenage  :  1
sanage  :  1
vientrage  :  1
intimesage  :  1
chôniage  :  1
bissage  :  1
trucquage  :  1
publiphage  :  1
insiderpage  :  1
bizzutage  :  1
numerimage  :  1
bâfrage  :  1
enthomophage  :  1
micromassage  :  1
hertitage  :  1
thermosiphonnage  :  1
ivisage  :  1
larmage  :  1
semoussage  :  1
mutiplexage  :  1
amalgamage  :  1
sogimage  :  1
embellissage  :  1
parétage  :  1
manchplage  :  1
enjonquage  :  1
zarcophage  :  1
apprenbtissage  :  1
dâassemblage  :  1
désargentage  :  1
cronometrage  :  1
decalagescompactage  :  1
mantage  :  1
epissurage  :  1
youvoxvoyage  :  1
polishcage  :  1
nabaztage  :  1
laictage  :  1
calcifrage  :  

candissage  :  1
imbrage  :  1
librage  :  1
vellage  :  1
tripatouilage  :  1
fredonnage  :  1
addictionspage  :  1
jasage  :  1
douillage  :  1
goujonnage  :  1
srremballage  :  1
darosage  :  1
pailletage  :  1
déliérage  :  1
prérincage  :  1
patinnage  :  1
inmage  :  1
glougloutage  :  1
éfficage  :  1
vidangeage  :  1
incroyage  :  1
désentralaçage  :  1
decoolage  :  1
discoursmasquage  :  1
dégrage  :  1
épincetage  :  1
statusage  :  1
recimentage  :  1
seriage  :  1
cromage  :  1
conscientisage  :  1
débasculage  :  1
saussage  :  1
cheminimage  :  1
anrtiblocage  :  1
embrossage  :  1
díespionnage  :  1
winnage  :  1
multinage  :  1
numériscopage  :  1
tatanage  :  1
débourgeonage  :  1
craspouillage  :  1
decordage  :  1
festtage  :  1
enchassage  :  1
fagocitage  :  1
déralinguage  :  1
zozotage  :  1
etincelage  :  1
quayage  :  1
imzage  :  1
fornage  :  1
ossage  :  1
kauage  :  1
etoupage  :  1
dossierspartage  :  1
surmodelage  :  1
fourchetage  :  1
dégrassage  :  1

pourléchage  :  1
dépensage  :  1
distribcodage  :  1
découlage  :  1
bucherônnage  :  1
testboximage  :  1
pétrophage  :  1
relpokage  :  1
montpetitvillage  :  1
ectopage  :  1
remarginage  :  1
dingbatpage  :  1
ciopage  :  1
renettoyage  :  1
dumouillage  :  1
suicidage  :  1
microsevrage  :  1
socotecavantage  :  1
ablage  :  1
danpalmage  :  1
décyptage  :  1
lafilledurivage  :  1
déssappage  :  1
industriespionage  :  1
typesdosage  :  1
retortage  :  1
éhritage  :  1
callipage  :  1
ensemblage  :  1
copurage  :  1
artibrage  :  1
norimage  :  1
gaussage  :  1
visaage  :  1
polyusage  :  1
emboutiellage  :  1
nicoulascage  :  1
desreportage  :  1
rougage  :  1
limonage  :  1
critiquage  :  1
relançage  :  1
volstage  :  1
postimage  :  1
feulletage  :  1
magicomage  :  1
écadrage  :  1
xandercage  :  1
démaraboutage  :  1
ccouplage  :  1
entreillage  :  1
nofilesyspage  :  1
bosage  :  1
maillochage  :  1
auguillage  :  1
désappareillage  :  1
floccage  :  1
sonystage  :  1
cend

updatepage  :  1
cléscourtage  :  1
dépistatage  :  1
korobarrage  :  1
fistockage  :  1
biturage  :  1
malimage  :  1
tandage  :  1
caboage  :  1
bioguidage  :  1
plastronnage  :  1
grinchissage  :  1
crypatage  :  1
rebroussage  :  1
eclissage  :  1
brutage  :  1
butonage  :  1
englobage  :  1
langugage  :  1
maîtimage  :  1
sérotriage  :  1
skuattage  :  1
hiretage  :  1
bringandage  :  1
dupaysage  :  1
quotientage  :  1
doutage  :  1
affachage  :  1
replanissage  :  1
renvidage  :  1
réamménage  :  1
skiage  :  1
clientaffacturage  :  1
tagspage  :  1
comtétemoignage  :  1
ensuquage  :  1
déquipage  :  1
multireportage  :  1
bafouiilage  :  1
éclaiçrage  :  1
alsacerecyclage  :  1
retalcage  :  1
ahbillage  :  1
blaquotage  :  1
assosage  :  1
monéage  :  1
coinsclassepage  :  1
iximage  :  1
degauchissage  :  1
aprilage  :  1
santépage  :  1
ducerage  :  1
parkeergarage  :  1
autogonflage  :  1
pareage  :  1
sclavage  :  1
jonctionnage  :  1
burelage  :  1
loadandcallimage  :  1


On écrit ces résultats dans un fichier, on trie les mots par fréquence décroissante

In [9]:
with open('diff-age-frwac-lexique.txt', 'w') as f_diff:
    for word, freq in zip(new_words, new_words_counts):
        print(word, freq, file=f_diff)

## Comparaison avec le lefff

#### Stockage en mémoire des mots du lefff

Le fichier ici s'appelle `lefff-3.4.elex` (téléchargé sur la page https://www.labri.fr/perso/clement/lefff/)

In [10]:
# Un set pour deux raisons : ne garder que les formes uniques, utiliser les fonctions sur les ensembles pour comparer avec les données de corpus
set_words_lefff = set()

# On va aussi garder les mots en 'age' pour voir
words_age_lefff = set()

with open('lefff-3.4.elex') as lexique:
    for line in lexique:
        word = line.split('\t')[0]
        # On supprime les s finaux comme pour frwac
        if word[-1] == 's':
            word = word[:-1]
        set_words_lefff.add(word)
        if re.search('.{3,}ages?', word):
            words_age_lefff.add(word)

In [11]:
print("{} formes différentes dans le lefff (en virant les 's' finaux) dont {} en age".format(len(set_words_lefff), len(words_age_lefff)))

350813 formes différentes dans le lefff (en virant les 's' finaux) dont 4611 en age


#### Comparaison

In [12]:
diff_lefff = set_words_frwac.difference(set_words_lefff)
print("il y a {} formes en 'age' absentes de lefff".format(len(diff_lefff)))

il y a 9981 formes en 'age' absentes de lefff


Sortie dans un fichier, on trie les mots par fréquence décroissante

In [13]:
with open('diff-age-frwac-lefff.txt', 'w') as f_diff:
    for item in sorted(diff_lefff, key=lambda x: words_frwac[x], reverse=True):
        print(item, words_frwac[item], file=f_diff)

## Echantillonnage

On veut séparer la liste des nouveaux mots en `k` sous-listes. S'il y a `N` nouveaux mots on cherche donc `q` et `r` entier tel que `N == q*k + r`.

In [14]:
k = 20
N = len(new_words)
q = N // k  # Division entière i.e. division arrondie vers zéro
r = N % k   # Modulo i.e. donne le reste de la division entière

On crée une liste de liste pour contenir les sous-listes.

In [15]:
sublists = [new_words[i*q:(i+1)*q] for i in range(k)]  # Réparti les q*k premiers mots en k sous-listes
sublists[-1] += new_words[-r:]  # Ajoute le reste à la dernière sous-liste

On tire désormais 100 mots dans chaque sous-liste et on les écris dans un fichier.

**Note :** On "seed" le générateur de nombre aléatoire pour avoir toujours le même résultat. Utiliser `seed(m)` avec `m` différent changera le résultat, si nécessaire.

In [18]:
from random import seed, sample
seed(0)

with open('sampled_words.txt', 'w') as file:
    for sublist in sublists:
        sampled = sample(sublist, 100)
        for word in sorted(sampled, key=lambda w: -words_frwac[w]):
            print(word, " ", words_frwac[word], file=file)