In [2]:
# French Tokenization, Lemmatization, POS tagging,  DEP tagger, stop words, word vectors
""" 
        @author: Hair Albeiro Parra Barrera (Jair)
        Dependencies: nltk, spaCy, gensim, googletrans
        Copyright: This work is licensed under a Creative Commons 
                    Attribution-NonCommercial-NoDerivatives 4.0 International License.
                    Please see https://creativecommons.org/licenses/by-nc-nd/4.0/
                    Contact https://blog.jairparraml.com/ for information.
        
        """

In [95]:
# Example taken from the given dataset , col = RESULTAT_2013

# One tool we can use is nltk wordnet: it contains synsets that 

import nltk 
from nltk.corpus import wordnet as wn 

text = "En moyenne, les parents d'enfants du niveau préscolaire ont davantage participé aux ateliers. Le fait de réunir des parents d'enfants de mêmes catégories d'âges scolaires, permet d'orienter l'accompagnement au regard de défis propres aux différents degrés scolaires et vise à maintenir le rapprochement école-famille jusqu'à l'entrée au secondaire de l'enfant. "

print(text)

En moyenne, les parents d'enfants du niveau préscolaire ont davantage participé aux ateliers. Le fait de réunir des parents d'enfants de mêmes catégories d'âges scolaires, permet d'orienter l'accompagnement au regard de défis propres aux différents degrés scolaires et vise à maintenir le rapprochement école-famille jusqu'à l'entrée au secondaire de l'enfant. 


In [97]:
### Tokenization ### 

## nltk ## 
print("***nltk tokenization*** \n")

from nltk import word_tokenize
from nltk import sent_tokenize

word_tokens = [token for token in word_tokenize(text, language='french')] # tokenize by words
sent_tokens = [sent for sent in sent_tokenize(text, language='french')] # tokenize by sentence
print(word_tokens, "\n") 
print(sent_tokens, "\n")


## spacy ## 

print("***spacy tokenization*** \n")

import spacy

nlp = spacy.load("fr_core_news_sm")
# NOTE: A more comprehensive model is available: fr_core_news_md
# NOTE: Make sure to install required spaCy dependencies

doc = nlp(text)

sp_word_tokens = [token.text for token in doc if token.text.isalpha()]
sp_sent_tokens = [sent for sent in doc.sents]
print(sp_word_tokens, "\n")
print(sp_sent_tokens, "\n")



***nltk tokenization*** 

['En', 'moyenne', ',', 'les', 'parents', "d'enfants", 'du', 'niveau', 'préscolaire', 'ont', 'davantage', 'participé', 'aux', 'ateliers', '.', 'Le', 'fait', 'de', 'réunir', 'des', 'parents', "d'enfants", 'de', 'mêmes', 'catégories', "d'âges", 'scolaires', ',', 'permet', "d'orienter", "l'accompagnement", 'au', 'regard', 'de', 'défis', 'propres', 'aux', 'différents', 'degrés', 'scolaires', 'et', 'vise', 'à', 'maintenir', 'le', 'rapprochement', 'école-famille', "jusqu'à", "l'entrée", 'au', 'secondaire', 'de', "l'enfant", '.'] 

["En moyenne, les parents d'enfants du niveau préscolaire ont davantage participé aux ateliers.", "Le fait de réunir des parents d'enfants de mêmes catégories d'âges scolaires, permet d'orienter l'accompagnement au regard de défis propres aux différents degrés scolaires et vise à maintenir le rapprochement école-famille jusqu'à l'entrée au secondaire de l'enfant."] 

***spacy tokenization*** 

['En', 'moyenne', 'les', 'parents', 'enfants', 

In [98]:
### Lemmatization ### 

# Lemmatization is essentially getting the word in its base form (ie no conjugations, regular forms, etc)

print("***spacy lemmatization***\n")

import spacy

nlp = spacy.load("fr_core_news_sm")

doc = nlp(text)
doc_lemmas = [(token.text, token.lemma_) for token in doc if token.text.isalpha()]
print(doc_lemmas)

print("Lemma: ", doc_lemmas[0][1])



***spacy lemmatization***

[('En', 'en'), ('moyenne', 'moyenne'), ('les', 'le'), ('parents', 'parent'), ('enfants', 'enfant'), ('du', 'de'), ('niveau', 'niveau'), ('préscolaire', 'préscolaire'), ('ont', 'avoir'), ('davantage', 'davantage'), ('participé', 'participer'), ('aux', 'al'), ('ateliers', 'atelier'), ('Le', 'le'), ('fait', 'fait'), ('de', 'de'), ('réunir', 'réunir'), ('des', 'un'), ('parents', 'parent'), ('enfants', 'enfant'), ('de', 'de'), ('mêmes', 'même'), ('catégories', 'catégorie'), ('âges', 'âge'), ('scolaires', 'scolaire'), ('permet', 'permettre'), ('orienter', 'orienter'), ('accompagnement', 'accompagnement'), ('au', 'au'), ('regard', 'regard'), ('de', 'de'), ('défis', 'défi'), ('propres', 'propre'), ('aux', 'al'), ('différents', 'différent'), ('degrés', 'degré'), ('scolaires', 'scolaire'), ('et', 'et'), ('vise', 'vise'), ('à', 'à'), ('maintenir', 'maintenir'), ('le', 'le'), ('rapprochement', 'rapprochement'), ('école', 'école'), ('famille', 'famille'), ('à', 'à'), ('en

In [187]:
### Synsets ### 

# Synsets are sets of synonyms for a word. 

from nltk.corpus import wordnet as wn  

## spacy + nltk ##

print("\n***spacy + nltk synsets***\n")

# Define function to display output
def print_synsets(synset, num_synsets=10):
    """ expects a dictionary with synsets. 
        prints num_synsets number of synsets in the dictionary"""
    i = 0
    for key, val in synset.items():
        if i < num_synsets: 
            print("word : {}".format(key))
            print(val)
            i += 1
            print()

            
# create a filtered lemmas to exclude determiners (DET), adpositions(aka prepositions) (ADP), 
# punctuation (PUNCT), conjuctions (CONJ,CCONJ), numerals (NUM), symbols (SYM), spaces (NUM), 
# and non-alpha tokens. 
# Full list can be found at https://spacy.io/api/annotation

tags = ["DET","ADP","PUNCT","CONJ","CCONJ","NUM","SYM","SPACE"]
flt_doc_lemmas = [(token.text, token.lemma_) for token in doc if token.pos_ not in tags and token.text.isalpha()]

print("**filtered doc lemmas**\n")

# dictionary comprehension of lemmatized words
flt_synsets_fr = {tup[1]: wn.synsets(tup[1], lang='fra') for tup in flt_doc_lemmas}
print_synsets(flt_synsets_fr)

# Single example  of synsets:  

print("\nSingle example:\n")
print("\n",wn.synsets("confiance", lang="fra"),"\n")


###  Converting the synsets back to French ### 

# NOTE: We have limited amount of translations per ip address per day!! 
from googletrans import Translator
translator = Translator()

def get_french_synsets(synset_dict): 
    output_dict = {}
    for key, value_list in synset_dict.items(): 
        if(len(value_list) > 0): 
            eng_words = [synset.lemmas()[0].name() for synset in value_list]
            # output_dict[key] = [ translator.translate(word, dest='fr').text for word in eng_words]
        
    return(output_dict)

# Example usage: 
translated = get_french_synsets(flt_synsets_fr)
print(translated)
            


***spacy + nltk synsets***

**filtered doc lemmas**

word : moyenne
[Synset('average.s.02'), Synset('average.v.03'), Synset('average.s.04'), Synset('average.s.01'), Synset('median.s.01'), Synset('modal.s.01'), Synset('average.s.03'), Synset('average.v.02'), Synset('average.v.01'), Synset('arithmetic.n.01'), Synset('average.n.01'), Synset('mean.n.01')]

word : parent
[Synset('relative.a.01'), Synset('proportional.s.01'), Synset('relative.n.02'), Synset('related.a.02'), Synset('cognate.s.02'), Synset('akin.s.01'), Synset('rear.v.02'), Synset('kith.n.01'), Synset('relative.n.01'), Synset('kin.n.01'), Synset('kinsman.n.01'), Synset('parent.n.01')]

word : enfant
[Synset('pull_the_leg_of.v.01'), Synset('kid.v.02'), Synset('baby.n.06'), Synset('kid.n.05'), Synset('baby.n.01'), Synset('babysitter.n.01'), Synset('bairn.n.01'), Synset('child.n.01'), Synset('child.n.02'), Synset('child.n.03'), Synset('child.n.04'), Synset('offspring.n.01'), Synset('kyd.n.01'), Synset('kid.n.02')]

word : niveau

In [100]:
### spaCy dependency parser & visualiztion ### 

import spacy
from spacy import displacy

# Initialize the pipeline
nlp = spacy.load("fr_core_news_sm")

# Obtain the sentences 
text = "En moyenne, les parents d'enfants du niveau préscolaire ont davantage participé aux ateliers. Le fait de réunir des parents d'enfants de mêmes catégories d'âges scolaires, permet d'orienter l'accompagnement au regard de défis propres aux différents degrés scolaires et vise à maintenir le rapprochement école-famille jusqu'à l'entrée au secondaire de l'enfant. "
doc = nlp(text)
sentences = [sent for sent in doc.sents]
print(sentences)

# Now we will derive the dependency for each of these sentences: 

#  Kind of big
for sent in sentences: 
    doc = nlp(str(sent))
    displacy.render(doc, style="dep")




[En moyenne, les parents d'enfants du niveau préscolaire ont davantage participé aux ateliers., Le fait de réunir des parents d'enfants de mêmes catégories d'âges scolaires, permet d'orienter l'accompagnement au regard de défis propres aux différents degrés scolaires et vise à maintenir le rapprochement école-famille jusqu'à l'entrée au secondaire de l'enfant.]


In [65]:

displacy.render(doc, style="dep")


In [147]:
### Noun Chunking ## 

import spacy
from spacy import displacy

# Initialize the pipeline
nlp = spacy.load("fr_core_news_sm")

# Obtain the sentences 
text = "En moyenne, les parents d'enfants du niveau préscolaire ont davantage participé aux ateliers. Le fait de réunir des parents d'enfants de mêmes catégories d'âges scolaires, permet d'orienter l'accompagnement au regard de défis propres aux différents degrés scolaires et vise à maintenir le rapprochement école-famille jusqu'à l'entrée au secondaire de l'enfant. "
doc = nlp(text)
sentences = [sent for sent in doc.sents]

# Now we will do noun chunking on each of the sentences 
def extract_noun_chunks(sentences_list): 
    for doc in nlp.pipe([str(sent) for sent in sentences_list]):
        for chunk in doc.noun_chunks: 
            print("\n[CHUNK:{}][ROOT:{}][ROOT DEP:{}][ROOT HEAD:{}]\n".format(
                chunk.text, chunk.root.text, chunk.root.dep_, chunk.root.head.text))
            
extract_noun_chunks(sentences)



[CHUNK:les parents d'enfants du niveau préscolaire][ROOT:parents][ROOT DEP:nsubj][ROOT HEAD:participé]


[CHUNK:Le fait de réunir des parents d'enfants de mêmes catégories d'âges scolaires, permet d'orienter l'accompagnement au regard de défis propres aux différents degrés scolaires et vise à maintenir le rapprochement école-famille jusqu'à l'entrée au secondaire de l'enfant.][ROOT:fait][ROOT DEP:ROOT][ROOT HEAD:fait]



In [189]:
print("none")

none


In [190]:
## Word Vectors and Semantic Similarity ### 

import spacy 
from collections import Counter
from nltk.corpus import stopwords

# We will use this to filter french words
french_stopwords = stopwords.words('french')


#  Load the pipeline
nlp = spacy.load("fr_core_news_md")

text2 = """Pour les animation d'ateliers - 51 ateliers offerts et 1164 jeunes qui ont participé et complété le formulaire. Les résultats permettent de croire que la majorité des participant-e-s ont acquis des connaissances sur l'exploitation sexuelle et la notion du consentement.
Pour les animations/interventions de groupe - 2 groupes de filles (24 participantes) X 10 séances ont participé aux interventions. Les résultats démontrent que les participantes ont fait beaucoup de progrès et ont grandement amélioré leurs connaissances sur les relations saines, l'exploitation sexuelle et le consentement. """

sent_toks = [sent for sent in nlp(text2).sents]
print(sent_toks)

doc = sent_toks[2]
print("\ndoc: \n", doc, "\n")

print("Token vector information: \n")
"""
for token in doc:
    print(token.text, token.has_vector, token.vector_norm, token.is_oov)
"""
    
## Similarity ### 

# Filter tokens and stop words 
tags = ["DET","ADP","PUNCT","CONJ","CCONJ","NUM","SYM","SPACE"]
flt_doc_tokens = [token for token in doc if token.pos_ not in tags and token.text.isalpha()
                     and token.text not in french_stopwords]
print("\n Filtered token list: \n", flt_doc_tokens)
    
print("\nToken Similarity: \n")

# Remove stopwords
# Get 10 most common 

# Obtain a list comprehension of words similairty using word2vec algorithm
tokens_similarity_dict = {token1.text: ([token1.text, token2.text],token1.similarity(token2)) 
                     for token1 in flt_doc_tokens for token2 in flt_doc_tokens
                     if token1.text != token2.text}

# Convert to a list: These will be ordered by the most similar to the least. 
tokens_similarity_list = [value for value in tokens_similarity_dict.values()]
tokens_similarity_list = sorted(tokens_similarity_list, key = lambda x: x[1], reverse = True)
print(tokens_similarity_list)
"""
for token1 in flt_doc_tokens:
    for token2 in flt_doc_tokens: 
        print(token1.text, token2.text, token1.similarity(token2))
"""

[Pour les animation d'ateliers, - 51 ateliers offerts et 1164 jeunes qui ont participé et complété le formulaire., Les résultats permettent de croire que la majorité des participant-e-s ont acquis des connaissances sur l'exploitation sexuelle et la notion du consentement.
, Pour les animations/interventions de groupe, - 2 groupes de filles (24 participantes) X 10 séances ont participé aux interventions., Les résultats démontrent que les participantes ont fait beaucoup de progrès et ont grandement amélioré leurs connaissances sur les relations saines, l'exploitation sexuelle et le consentement.]

doc: 
 Les résultats permettent de croire que la majorité des participant-e-s ont acquis des connaissances sur l'exploitation sexuelle et la notion du consentement.
 

Token vector information: 


 Filtered token list: 
 [résultats, permettent, croire, majorité, participant, acquis, connaissances, exploitation, sexuelle, notion, consentement]

Token Similarity: 

[(['majorité', 'consentement'],

'\nfor token1 in flt_doc_tokens:\n    for token2 in flt_doc_tokens: \n        print(token1.text, token2.text, token1.similarity(token2))\n'