## French NLP function tests

### Basic imports

In [21]:
import os
import nltk
from nltk import FreqDist

### Download NLTK

In [2]:
#nltk.download()

### Import dataset

In [3]:
datapath = r'C:\Users\peter\Documents\Tools\corpus\french\wikipedia.txt'

### Stanford POS tagger

In [4]:
from nltk.tag.stanford import StanfordPOSTagger as POS_Tag

homepath = r'C:\Users\peter\Documents\Tools\stanford-postagger-full-2017-06-09'
taggerpath = os.path.join(homepath,r'models\french.tagger')
jarpath = os.path.join(homepath,'stanford-postagger.jar')

st = POS_Tag(taggerpath,jarpath)

### Test sent tokenizer

In [11]:
limit = 100
sents = []

with open(datapath, 'r', encoding = 'latin-1') as f:
    for line in range(limit):
        sents.append(nltk.tokenize.sent_tokenize(f.readline()))
        
print(sents[:10])

FileNotFoundError: [Errno 2] No such file or directory: 'C:\\Users\\Gauthier\\Documents\\Tools\\corpus\\french\\wikipedia.txt'

### Test work tokenizer on first x lines

In [9]:
limit = 1000
words = []

with open(datapath, 'r', encoding = 'latin-1') as f:
    for line in range(limit):
        words.append(nltk.tokenize.word_tokenize(f.readline()))

flat_words = [item for sublist in words for item in sublist]

### Test POS tagger

In [5]:
import os
java_path = r"C:\Program Files (x86)\Java\jre1.8.0_144\bin\java.exe"
os.environ['JAVAHOME'] = java_path

text = 'Je vous donne d’abord les ingrédients de la garniture pour huit personnes.Alors, il vous faut deux beaux citrons, bio de préférence, cent grammes de crème fraîche, deux gros oeufs et cent grammes de sucre semoule.Vous allez commencer par préparer une pâte brisée et, une fois prête, vous la laissez reposer au frigo pendant deux heures.Vous préchauffez votre four à 220 degrés. Ensuite, vous prélevez un peu de zeste de citron et vous mettez le zeste dans un bol. Vous pouvez alors éplucher les citrons. Une fois épluchés, vous les coupez en deux et vous prélevez la chair mais pas les peaux blanches. Une fois terminé, vous allez mettre tout ça dans un mixer. Vous mixez et vous mélangez avec la crème fraîche épaisse, le sucre et le zeste des citrons. Ensuite, vous ajoutez les oeufs. Il faut bien battre pour que le mélange soit crémeux.Voilà, c’est presque terminé. Il vous faut maintenant verser votre mélange sur la pâte abaissée, vous enfournez et vous faites cuire. Vous baissez le four à 180 degrés, vous surveillez et vous sortez votre tarte après trente minutes de cuisson. C’est tout.Je vous souhaite un bon appétit !'

tokenized_text = nltk.tokenize.word_tokenize(text)

classified_text = st.tag(tokenized_text)

print(classified_text)

[('Je', 'CLS'), ('vous', 'CLO'), ('donne', 'V'), ('d’abord', 'NC'), ('les', 'DET'), ('ingrédients', 'NC'), ('de', 'P'), ('la', 'DET'), ('garniture', 'NC'), ('pour', 'P'), ('huit', 'DET'), ('personnes.Alors', 'NC'), (',', 'PUNC'), ('il', 'CLS'), ('vous', 'CLO'), ('faut', 'V'), ('deux', 'DET'), ('beaux', 'ADJ'), ('citrons', 'NC'), (',', 'PUNC'), ('bio', 'ADJ'), ('de', 'P'), ('préférence', 'NC'), (',', 'PUNC'), ('cent', 'DET'), ('grammes', 'NC'), ('de', 'P'), ('crème', 'N'), ('fraîche', 'ADJ'), (',', 'PUNC'), ('deux', 'DET'), ('gros', 'ADJ'), ('oeufs', 'NC'), ('et', 'CC'), ('cent', 'DET'), ('grammes', 'NC'), ('de', 'P'), ('sucre', 'NC'), ('semoule.Vous', 'NPP'), ('allez', 'V'), ('commencer', 'VINF'), ('par', 'P'), ('préparer', 'VINF'), ('une', 'DET'), ('pâte', 'NC'), ('brisée', 'VPP'), ('et', 'CC'), (',', 'PUNC'), ('une', 'DET'), ('fois', 'NC'), ('prête', 'ADJ'), (',', 'PUNC'), ('vous', 'CLS'), ('la', 'CLO'), ('laissez', 'V'), ('reposer', 'VINF'), ('au', 'P'), ('frigo', 'NC'), ('pendant',

V			V		indicative verb

VS			V		subjonctive verb

VINF		V		infinitival verb

VPP			V		past participle

VPR			V		present participle

VIMP		V		imperative verb

NC			N		common noun

NPP			N		propoer noun

CS			C		coordinating conjunction

CC			C		subordinating conjunction (complementizer)

CLS			CL		nominative clitic

CLO			CL		accusative or dative clitic

CLR			CL		reflexive clitic (whether its interpretation is truly reflexive or not)

P			P		non amalgamated preposition

P+D			P+D		prep+determiner amalgam

P+PRO		P+PRO	prep+relative pronoun amalgam (auquel (to which))

I			I		interjection

PONCT		PONCT		punctuation

ET			ET		foreign words, with a POS that is not guessable from context

ADJ			A		non interrogative adjectives

ADJWH		A		interrogative adjectives

ADV			ADV		non interrogative adjectives

ADVWH		ADV		interrogative adjectives

PRO			PRO		neither relative nor interrogative pronouns

PROREL		PRO		relative pronouns

PROWH		PRO		interrogative pronouns

DET			D		non interrogative nor relative determiners

DETWH		D		interrogative or relative determiners

### Lemma's
Might prove a bit difficult, so let's try with Treetagger, which supposedly both tags and lemmatizes your text:

In [8]:
import os
import pprint
import treetaggerwrapper
tagger = treetaggerwrapper.TreeTagger(TAGLANG='fr')
lemma_docs= []

recipe_path = r'C:\Users\peter\Documents\GitHub\datascience\nlp\French NLP\marmitton'
for filename in os.listdir(recipe_path):
    with open(os.path.join(recipe_path,filename),'r') as f:
        tags = treetaggerwrapper.make_tags(tagger.tag_text(f.read()))
        lemmas = [tag.lemma.lower() for tag in tags if (tag.pos == 'NOM' or tag.pos =='ADJ')]
        lemma_docs.append(lemmas)
        
print(lemma_docs)


[['etape', 'blanc', 'poulet', 'petit', 'morceau', 'etape', 'pendant', 'temps', 'champignon', 'foi|fois', 'tête', 'petit', 'morceau', 'etape', 'faire', 'poulet', 'beurre', 'cesse', 'etape', 'fin', 'cuisson', 'beurre', 'champignon', 'etape', 'riz', 'purée', 'etape', 'roux', 'farine', 'beurre', 'etape', 'litre', 'bouillon', 'poule', 'bouillon', 'litre', 'eau', 'bouillant', 'jus', 'citron', 'etape', 'poêlon', 'beurre', 'farine', 'grumeau', 'etape', 'rajouter', 'petit', 'petit', 'bouillon', 'sauce', 'jus', 'citron', 'sel', 'poivre', 'etape', 'foi|fois', 'viande', 'champignon', 'feu', 'sauce', 'etape', 'bouchée', 'préparation', 'four', 'min', 'etape', 'garniture', 'bol', 'riz', 'purée'], ['etape', 'four', 'thermostat', 'etape', 'aubergine', 'minute', 'four', 'foi|fois', 'chair', 'etape', 'bol', 'chair', 'persil', 'tomate', 'poivron', 'morcaux', 'mayonnaise', 'amora', 'etape', 'aubergine', 'mélange', 'four', 'minute'], ['etape', 'casserole', 'eau', 'bouillant', 'cube', 'bouillon', 'filet', 'p

Apply metric

In [173]:
import collections
import numpy as np
import pandas as pd


def calc_metric(application,applications):
    
    # calc P(ingr)
    
    flat_list = [item for sublist in applications for item in sublist]
    cnt_freqdist = collections.Counter(flat_list)
    
    metrics = []
    
    # calc P(ingr|application)
    
    application_freqdist = collections.Counter(application)
        
    for ingredient in application_freqdist.keys():
            
        p_ingr_app = (application_freqdist[ingredient] / len(application))
        p_ingr = (cnt_freqdist[ingredient] / len(flat_list))
            
        metric = p_ingr_app * ((p_ingr_app - p_ingr) / (1 - p_ingr))
        
        metrics.append([ingredient,metric])
        
    headers = ["ingredient",'score']
    df = pd.DataFrame(metrics, columns=headers).sort_values(by = 'score',ascending = False)
    return df

In [176]:
for application in lemma_docs:
    print(calc_metric(application,lemma_docs))


     ingredient     score
0         etape  0.005901
11       beurre  0.002313
3         petit  0.002187
7    champignon  0.001507
20     bouillon  0.001130
25       citron  0.000668
15          riz  0.000668
19        litre  0.000668
24          jus  0.000605
16        purée  0.000605
18       farine  0.000542
8      foi|fois  0.000478
2        poulet  0.000414
29        sauce  0.000350
4       morceau  0.000221
21        poule  0.000167
28     rajouter  0.000167
27      grumeau  0.000167
26       poêlon  0.000167
38    garniture  0.000167
6         temps  0.000167
34      bouchée  0.000167
35  préparation  0.000167
14      cuisson  0.000167
13          fin  0.000167
12        cesse  0.000167
10        faire  0.000167
9          tête  0.000167
37          min  0.000167
31       poivre  0.000135
5       pendant  0.000135
30          sel  0.000135
1         blanc  0.000135
23    bouillant  0.000103
17         roux  0.000103
39          bol  0.000071
33          feu  0.000038
22          

### Test wordnet and synsets in French

In [200]:
from nltk.corpus import wordnet as wn
syns = wn.synsets('anacardier',lang='fra')
print(syns)

[Synset('cashew.n.02'), Synset('cashew.n.01')]


In [198]:
from nltk.corpus import wordnet as wn

cashew = wn.synset("cashew.n.01")
ingredient = wn.synset("nut_tree.n.01")

cashew.path_similarity(ingredient)

OSError: No such file or directory: 'C:\\Users\\peter\\Documents\\Tools\\nltk\\corpora\\wordnet_ic\\ic-brown.dat'