## French NLP function tests

### Basic imports

In [3]:
import os
import nltk

### Download NLTK

In [4]:
nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


True

### Import dataset

In [6]:
datapath = r'C:\Users\Gauthier\Documents\Tools\corpus\french\wikipedia.txt'

### Stanford POS tagger

In [7]:
from nltk.tag.stanford import StanfordPOSTagger as POS_Tag

nltk.data.path.append(r'C:\Users\dehaeth\Documents\Tools\nltk')

homepath = r'C:\Users\Gauthier\Documents\Tools\stanford-postagger-full-2017-06-09\stanford-postagger-full-2017-06-09'
taggerpath = os.path.join(homepath,r'models\french.tagger')
jarpath = os.path.join(homepath,'stanford-postagger.jar')

st = POS_Tag(taggerpath,jarpath)

### Test sent tokenizer

In [8]:
limit = 100
sents = []

with open(datapath, 'r', encoding = 'latin-1') as f:
    for line in range(limit):
        sents.append(nltk.tokenize.sent_tokenize(f.readline()))
        
print(sents[:10])

[[], ['<#1>'], ['Åge Hareide'], [], [], ['\t|'], ['\t|'], ['Cet article est une ébauche concernant un footballeurnorvégien et un entraîneurnorvégien de football.'], ["Vous pouvez partager vos connaissances en l'améliorant.", '(Comment ?).', '|'], []]


### Test work tokenizer on first x lines

In [9]:
limit = 1000
words = []

with open(datapath, 'r', encoding = 'latin-1') as f:
    for line in range(limit):
        words.append(nltk.tokenize.word_tokenize(f.readline()))

flat_words = [item for sublist in words for item in sublist]

### Test POS tagger

In [10]:
import os
java_path = r"C:\Program Files (x86)\Java\jre1.8.0_144\bin\java.exe"
os.environ['JAVAHOME'] = java_path

text = 'Je vous donne d’abord les ingrédients de la garniture pour huit personnes.Alors, il vous faut deux beaux citrons, bio de préférence, cent grammes de crème fraîche, deux gros oeufs et cent grammes de sucre semoule.Vous allez commencer par préparer une pâte brisée et, une fois prête, vous la laissez reposer au frigo pendant deux heures.Vous préchauffez votre four à 220 degrés. Ensuite, vous prélevez un peu de zeste de citron et vous mettez le zeste dans un bol. Vous pouvez alors éplucher les citrons. Une fois épluchés, vous les coupez en deux et vous prélevez la chair mais pas les peaux blanches. Une fois terminé, vous allez mettre tout ça dans un mixer. Vous mixez et vous mélangez avec la crème fraîche épaisse, le sucre et le zeste des citrons. Ensuite, vous ajoutez les oeufs. Il faut bien battre pour que le mélange soit crémeux.Voilà, c’est presque terminé. Il vous faut maintenant verser votre mélange sur la pâte abaissée, vous enfournez et vous faites cuire. Vous baissez le four à 180 degrés, vous surveillez et vous sortez votre tarte après trente minutes de cuisson. C’est tout.Je vous souhaite un bon appétit !'

tokenized_text = nltk.tokenize.word_tokenize(text)

classified_text = st.tag(tokenized_text)

print(classified_text)

[('Je', 'CLS'), ('vous', 'CLO'), ('donne', 'V'), ('d’abord', 'NC'), ('les', 'DET'), ('ingrédients', 'NC'), ('de', 'P'), ('la', 'DET'), ('garniture', 'NC'), ('pour', 'P'), ('huit', 'DET'), ('personnes.Alors', 'NC'), (',', 'PUNC'), ('il', 'CLS'), ('vous', 'CLO'), ('faut', 'V'), ('deux', 'DET'), ('beaux', 'ADJ'), ('citrons', 'NC'), (',', 'PUNC'), ('bio', 'ADJ'), ('de', 'P'), ('préférence', 'NC'), (',', 'PUNC'), ('cent', 'DET'), ('grammes', 'NC'), ('de', 'P'), ('crème', 'N'), ('fraîche', 'ADJ'), (',', 'PUNC'), ('deux', 'DET'), ('gros', 'ADJ'), ('oeufs', 'NC'), ('et', 'CC'), ('cent', 'DET'), ('grammes', 'NC'), ('de', 'P'), ('sucre', 'NC'), ('semoule.Vous', 'NPP'), ('allez', 'V'), ('commencer', 'VINF'), ('par', 'P'), ('préparer', 'VINF'), ('une', 'DET'), ('pâte', 'NC'), ('brisée', 'VPP'), ('et', 'CC'), (',', 'PUNC'), ('une', 'DET'), ('fois', 'NC'), ('prête', 'ADJ'), (',', 'PUNC'), ('vous', 'CLS'), ('la', 'CLO'), ('laissez', 'V'), ('reposer', 'VINF'), ('au', 'P'), ('frigo', 'NC'), ('pendant',

V			V		indicative verb

VS			V		subjonctive verb

VINF		V		infinitival verb

VPP			V		past participle

VPR			V		present participle

VIMP		V		imperative verb

NC			N		common noun

NPP			N		propoer noun

CS			C		coordinating conjunction

CC			C		subordinating conjunction (complementizer)

CLS			CL		nominative clitic

CLO			CL		accusative or dative clitic

CLR			CL		reflexive clitic (whether its interpretation is truly reflexive or not)

P			P		non amalgamated preposition

P+D			P+D		prep+determiner amalgam

P+PRO		P+PRO	prep+relative pronoun amalgam (auquel (to which))

I			I		interjection

PONCT		PONCT		punctuation

ET			ET		foreign words, with a POS that is not guessable from context

ADJ			A		non interrogative adjectives

ADJWH		A		interrogative adjectives

ADV			ADV		non interrogative adjectives

ADVWH		ADV		interrogative adjectives

PRO			PRO		neither relative nor interrogative pronouns

PROREL		PRO		relative pronouns

PROWH		PRO		interrogative pronouns

DET			D		non interrogative nor relative determiners

DETWH		D		interrogative or relative determiners

### Lemma's
Might prove a bit difficult, so let's try with Treetagger, which supposedly both tags and lemmatizes your text:

In [33]:
import os
import pprint
import treetaggerwrapper
tagger = treetaggerwrapper.TreeTagger(TAGLANG='fr')
lemma_docs= []

recipe_path = r'C:\Users\Gauthier\Documents\GitHub\datascience\nlp\French NLP\marmitton'
for filename in os.listdir(recipe_path):
    with open(os.path.join(recipe_path,filename),'r') as f:
        tags = treetaggerwrapper.make_tags(tagger.tag_text(f.read()))
        lemmas = [tag.lemma.lower() for tag in tags if (tag.pos == 'NOM' or tag.pos =='ADJ')]
        lemma_docs.append(lemmas)
        


Apply metric