In [2]:
# French Tokenization, Lemmatization, POS tagging,  DEP tagger, stop words

In [3]:
# Example taken from the given dataset , col = RESULTAT_2013

# One tool we can use is nltk wordnet: it contains synsets that 

import nltk 
from nltk.corpus import wordnet as wn 

text = "En moyenne, les parents d'enfants du niveau préscolaire ont davantage participé aux ateliers. Le fait de réunir des parents d'enfants de mêmes catégories d'âges scolaires, permet d'orienter l'accompagnement au regard de défis propres aux différents degrés scolaires et vise à maintenir le rapprochement école-famille jusqu'à l'entrée au secondaire de l'enfant. "

print(text)

En moyenne, les parents d'enfants du niveau préscolaire ont davantage participé aux ateliers. Le fait de réunir des parents d'enfants de mêmes catégories d'âges scolaires, permet d'orienter l'accompagnement au regard de défis propres aux différents degrés scolaires et vise à maintenir le rapprochement école-famille jusqu'à l'entrée au secondaire de l'enfant. 


In [7]:
### Tokenization ### 

## nltk ## 
print("***nltk tokenization*** \n")

from nltk import word_tokenize
from nltk import sent_tokenize

word_tokens = [token for token in word_tokenize(text, language='french')] # tokenize by words
sent_tokens = [sent for sent in sent_tokenize(text, language='french')] # tokenize by sentence
print(word_tokens, "\n") 
print(sent_tokens, "\n")


## spacy ## 

print("***spacy tokenization*** \n")

import spacy

nlp = spacy.load("fr_core_news_sm")
# NOTE: A more comprehensive model is available: fr_core_news_md
# NOTE: Make sure to install required spaCy dependencies

doc = nlp(text)

sp_word_tokens = [token.text for token in doc if token.text.isalpha()]
sp_sent_tokens = [sent for sent in doc.sents]
print(sp_word_tokens, "\n")
print(sp_sent_tokens, "\n")

***nltk tokenization*** 

['En', 'moyenne', ',', 'les', 'parents', "d'enfants", 'du', 'niveau', 'préscolaire', 'ont', 'davantage', 'participé', 'aux', 'ateliers', '.', 'Le', 'fait', 'de', 'réunir', 'des', 'parents', "d'enfants", 'de', 'mêmes', 'catégories', "d'âges", 'scolaires', ',', 'permet', "d'orienter", "l'accompagnement", 'au', 'regard', 'de', 'défis', 'propres', 'aux', 'différents', 'degrés', 'scolaires', 'et', 'vise', 'à', 'maintenir', 'le', 'rapprochement', 'école-famille', "jusqu'à", "l'entrée", 'au', 'secondaire', 'de', "l'enfant", '.'] 

["En moyenne, les parents d'enfants du niveau préscolaire ont davantage participé aux ateliers.", "Le fait de réunir des parents d'enfants de mêmes catégories d'âges scolaires, permet d'orienter l'accompagnement au regard de défis propres aux différents degrés scolaires et vise à maintenir le rapprochement école-famille jusqu'à l'entrée au secondaire de l'enfant."] 

***spacy tokenization*** 

['En', 'moyenne', 'les', 'parents', 'enfants', 

In [9]:
### Lemmatization ### 

# Lemmatization is essentially getting the word in its base form (ie no conjugations, regular forms, etc)

print("***spacy lemmatization***\n")

import spacy

nlp = spacy.load("fr_core_news_sm")

doc = nlp(text)
doc_lemmas = [(token.text, token.lemma_) for token in doc if token.text.isalpha()]
print(doc_lemmas)

print("Lemma: ", doc_lemmas[0][1])


***spacy lemmatization***

[('En', 'en'), ('moyenne', 'moyenne'), ('les', 'le'), ('parents', 'parent'), ('enfants', 'enfant'), ('du', 'de'), ('niveau', 'niveau'), ('préscolaire', 'préscolaire'), ('ont', 'avoir'), ('davantage', 'davantage'), ('participé', 'participer'), ('aux', 'al'), ('ateliers', 'atelier'), ('Le', 'le'), ('fait', 'fait'), ('de', 'de'), ('réunir', 'réunir'), ('des', 'un'), ('parents', 'parent'), ('enfants', 'enfant'), ('de', 'de'), ('mêmes', 'même'), ('catégories', 'catégorie'), ('âges', 'âge'), ('scolaires', 'scolaire'), ('permet', 'permettre'), ('orienter', 'orienter'), ('accompagnement', 'accompagnement'), ('au', 'au'), ('regard', 'regard'), ('de', 'de'), ('défis', 'défi'), ('propres', 'propre'), ('aux', 'al'), ('différents', 'différent'), ('degrés', 'degré'), ('scolaires', 'scolaire'), ('et', 'et'), ('vise', 'vise'), ('à', 'à'), ('maintenir', 'maintenir'), ('le', 'le'), ('rapprochement', 'rapprochement'), ('école', 'école'), ('famille', 'famille'), ('à', 'à'), ('en