


<font size='10' color = 'E3A440'>**Mégadonnées et techniques avancées démystifiées**</font>
=======
<font color = 'E3A440'>*Nouvelles méthodes d’analyse et leur implication quant à la gestion des mégadonnées en SSH (partie 1)*</font>
=============


Cet atelier s’inscrit dans le cadre de la formation [Mégadonnées et techniques avancées démystifiées](https://www.4point0.ca/2022/08/22/formation-megadonnees-demystifiees/) (séance 6).

Les sciences humaines et sociales sont souvent confrontées à l’analyse de données non structurées, comme le texte. Après avoir préparé les données, plusieurs techniques d’analyse venant de l’apprentissage automatique peuvent être utilisées. Pendant cet atelier, les participants seront initiés aux méthodes supervisées et non supervisées à des buts d’analyse avec Python.

Note : Cet atelier se poursuit lors d’une 2e séance le 10 novembre.

Structure de l'atelier :
1. Presentation of sections 1 and 2 in a plenary mode (20 minutes)
2. Individual work on section 3 (20 minutes)
3. Group work on section 4 (60 minutes)
4. Plenary session with groups presentations (20 minutes)

Ce tutoriel ne peut pas être consideré exaustif .... 

### Authors: 
- Bruno Agard <bruno.agard@polymtl.ca>
- Davide Pulizzotto <davide.pulizzotto@polymtl.ca>

### Table of Contents
Bruno Agard

Département de Mathématiques et de génie Industriel

École Polytechnique de Montréal

# Préparation environnement

In [1]:
# Downloading of data from the GitHub project
!rm -rf Donnees_demystifiees_seance_6/
!git clone https://github.com/puli83/Donnees_demystifiees_seance_6

Cloning into 'Donnees_demystifiees_seance_6'...
fatal: could not read Username for 'https://github.com': No such device or address


In [None]:
# Install packages
!pip install nltk

In [21]:
# Import modules
import nltk
import pandas as pd
import numpy as np
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('omw-1.4')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...


True

# 1 er 45 minutes préparation des textes
# <font color = 'E3A440'>*Préparation des données textulles*</font>

L'analyse de données textuelles implique la transformation d'un texte en un objet mathematique qui peut être utilisé par des algorithmes et des modèles statistique. Cette étape est importante car permet de **structurer** des données non structurées, comme le texte.


###  <font color = 'E3A440'>**Exemple d'analyse d'une phrase**</font>

Prenons une phrase pour decortiquer les passages que nous pemrettent de la transformer en information structurée.

In [3]:
sentence = """At eight o'clock, on Thursday morning, the great Arthur didn't feel VERY good."""

In [4]:
len(sentence)

78

#### <font color = 'E3A440'>*1. Tokenisation*</font>

Cette étape consiste à couper la phrase en unités linguistiques élémantaire et dotées de sens, ce qui est gnralement appelé le "mot".

Dans le module `nltk`, il existe une fonction qui permet cette opération, soit `word_tokenize()`.

In [7]:
# La function word_tokenize() prend la phrase comme argument.
words = nltk.word_tokenize(sentence)
print(words)
len(words)

['At', 'eight', "o'clock", ',', 'on', 'Thursday', 'morning', ',', 'the', 'great', 'Arthur', 'did', "n't", 'feel', 'VERY', 'good', '.']


17

#### <font color = 'E3A440'>*2. Retirer la ponctuation*</font>

Une autre opération consiste à retirer la ponctuation. Ce type de filtrage reduit le nombre de sugne graphique qui participent le moin à la constructuion de la sémantique de la prhase. 
Dans certain contexte, comme en stylometrie, ce processus est appliquée avec de terchniques plus sofistiquées. 

In [8]:
# La ligne de code suivant itére sur chaque signe graphique et retient ceux qui contiennet de caracteres alphanumérique.
words = [w for w in words if w.isalnum()]
print(words)
len(words)

['At', 'eight', 'on', 'Thursday', 'morning', 'the', 'great', 'Arthur', 'did', 'feel', 'VERY', 'good']


12

#### <font color = 'E3A440'>*3. Convertir chaque caractère en minuscule*</font>

Cette étape constitue une première opéraiton de normalisation des mots et leur réduction à une forme graphique unique. Ce genre d'étape permet de regrouper chaque occurence d'un mot sous une seule forme.

In [10]:
# La ligne de code suivant itére sur chaque signe graphique et le transforme en minuscule.
words = [w.lower() for w in words]
print(words)

['at', 'eight', 'on', 'thursday', 'morning', 'the', 'great', 'arthur', 'did', 'feel', 'very', 'good']


#### <font color = 'E3A440'>*4. retirer les stopwrods (mots vides)*</font>

Une autre opération de filtrage constitue dan l'élimination de mots fonctionnels. Cette liste de mots contient tout les connecteurs de phrase, comme "et", "mais", "toutefois" et de mots avec faible valeur sémantique, comem les verbes modaux. 
Comme d'autres opéraiton de filtrage, l'enjeuy est celui de nettoyer le plus possible le vocabulaire et de reduyire toutes les occurrences d'un mot sous une forme graphique unique.

In [14]:
# Nous importons la liste de stopword en anglais
from nltk.corpus import stopwords
print(stopwords.words("english"))

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than', '

In [15]:
# La ligne de code suivant itére sur chaque signe graphique et garde ce qui n sont pas dans la liste de stopword.
words = [w for w in words if w not in stopwords.words("english")]
print(words)
len(words)

['eight', 'thursday', 'morning', 'great', 'arthur', 'feel', 'good']


7

#### <font color = 'E3A440'>*5. Rammener les mots à leur racine*</font> 

En suivant le même objectif, nous retirons le suffixe morphologique des mots, ce qui augmente le niveau de réduction de chaque occurrence d'un mot à une unique forme graphique.

Ils existent deux méthode fondamentales: la racinisaiton et la lemmatisation.
La première reduit les occurence à une racine qui est inférée au moyen de plusieur techniques, l'autre est la réduciton de l'occurrence à son lemme. 

In [16]:
# Racinisation: technique Porter
from nltk.stem.porter import PorterStemmer
# Reduce words to their stems
stemmed = [PorterStemmer().stem(w) for w in words]
print(stemmed)

['eight', 'thursday', 'morn', 'great', 'arthur', 'feel', 'good']


In [17]:
# Racinisation: technique Lancaster
from nltk.stem import LancasterStemmer
# Reduce words to their stems
stemmed = [LancasterStemmer().stem(w) for w in words]
print(stemmed)

['eight', 'thursday', 'morn', 'gre', 'arth', 'feel', 'good']


In [22]:
# Lemmatisaiton: utilisant le thesaurus wordnet
from nltk.stem.wordnet import WordNetLemmatizer
# Reduce words to their root form
lemmed = [WordNetLemmatizer().lemmatize(w) for w in words]
print(lemmed)

['eight', 'thursday', 'morning', 'great', 'arthur', 'feel', 'good']


# Analyse d'un texte

In [23]:
text = """At eight o'clock, on Thursday morning, the great Arthur didn't feel VERY good.
          The following morning, at nine, Arthur felt better.
          A dog run in the street."""
len(text)

175

In [None]:
words_in_text = nltk.word_tokenize(text)
print(words_in_text)
len(words_in_text)

['At', 'eight', "o'clock", ',', 'on', 'Thursday', 'morning', ',', 'the', 'great', 'Arthur', 'did', "n't", 'feel', 'VERY', 'good', '.', 'The', 'following', 'morning', ',', 'at', 'nine', ',', 'Arthur', 'felt', 'better', '.', 'A', 'dog', 'run', 'in', 'the', 'street', '.']


35

In [None]:
# ponctuation
words_in_text = [w for w in words_in_text if w.isalnum()]
print(words_in_text)
len(words_in_text)

['At', 'eight', 'on', 'Thursday', 'morning', 'the', 'great', 'Arthur', 'did', 'feel', 'VERY', 'good', 'The', 'following', 'morning', 'at', 'nine', 'Arthur', 'felt', 'better', 'A', 'dog', 'run', 'in', 'the', 'street']


26

In [None]:
freqs_in_text = nltk.FreqDist(words_in_text)
freqs_in_text

FreqDist({'morning': 2, 'the': 2, 'Arthur': 2, 'At': 1, 'eight': 1, 'on': 1, 'Thursday': 1, 'great': 1, 'did': 1, 'feel': 1, ...})

In [None]:
# majuscules : The/the
words_in_text = [w.lower() for w in words_in_text]
freqs_in_text = nltk.FreqDist(words_in_text)
freqs_in_text

FreqDist({'the': 3, 'at': 2, 'morning': 2, 'arthur': 2, 'eight': 1, 'on': 1, 'thursday': 1, 'great': 1, 'did': 1, 'feel': 1, ...})

### Couper les Phrases

In [24]:
sentence = nltk.sent_tokenize(text)
print(sentence)
len(sentence)

["At eight o'clock, on Thursday morning, the great Arthur didn't feel VERY good.", 'The following morning, at nine, Arthur felt better.', 'A dog run in the street.']


3

In [25]:
print(sentence[0])
len(sentence[0])

At eight o'clock, on Thursday morning, the great Arthur didn't feel VERY good.


78

In [26]:
# majuscules / minuscules
sentence = [w.lower() for w in sentence]
# mots par phrase
words_in_sentence = [nltk.word_tokenize(s) for s in sentence]
print(words_in_sentence)

[['at', 'eight', "o'clock", ',', 'on', 'thursday', 'morning', ',', 'the', 'great', 'arthur', 'did', "n't", 'feel', 'very', 'good', '.'], ['the', 'following', 'morning', ',', 'at', 'nine', ',', 'arthur', 'felt', 'better', '.'], ['a', 'dog', 'run', 'in', 'the', 'street', '.']]


In [None]:
# ponctuation
words_in_sentence = [[w for w in words if w.isalnum()] for words in words_in_sentence]
print(words_in_sentence)  

[['at', 'eight', 'on', 'thursday', 'morning', 'the', 'great', 'arthur', 'did', 'feel', 'very', 'good'], ['the', 'following', 'morning', 'at', 'nine', 'arthur', 'felt', 'better'], ['a', 'dog', 'run', 'in', 'the', 'street']]


In [None]:
# stop words
words_in_sentence = [[w for w in words if w not in stopwords.words("english")] for words in words_in_sentence]
print(words_in_sentence) 

[['eight', 'thursday', 'morning', 'great', 'arthur', 'feel', 'good'], ['following', 'morning', 'nine', 'arthur', 'felt', 'better'], ['dog', 'run', 'street']]


on peut alors :
 - analyser la frequence d'apparition de chaque terme dans chaque phrase,

In [None]:
freqs_in_sentence = [nltk.FreqDist(s) for s in words_in_sentence]
print(freqs_in_sentence)

[FreqDist({'eight': 1, 'thursday': 1, 'morning': 1, 'great': 1, 'arthur': 1, 'feel': 1, 'good': 1}), FreqDist({'following': 1, 'morning': 1, 'nine': 1, 'arthur': 1, 'felt': 1, 'better': 1}), FreqDist({'dog': 1, 'run': 1, 'street': 1})]


In [None]:
stats sur les mots

# En francais

In [None]:
texte="Bonjour, les gentils étudiants. Comment allez vous ?"

In [None]:
phrases=nltk.sent_tokenize(texte,"french")

In [None]:
print(phrases)

['Bonjour, les gentils étudiants.', 'Comment allez vous ?']


In [None]:
mots=nltk.word_tokenize(texte,"french")
print(mots)

['Bonjour', ',', 'les', 'gentils', 'étudiants', '.', 'Comment', 'allez', 'vous', '?']


In [None]:
mots= [w for w in mots if w.isalnum()] # garde seulement if contain alphanumeric characters
print(mots)

['Bonjour', 'les', 'gentils', 'étudiants', 'Comment', 'allez', 'vous']


In [None]:
mots = [w.lower() for w in mots]
print(mots)

['bonjour', 'les', 'gentils', 'étudiants', 'comment', 'allez', 'vous']


In [None]:
from nltk.corpus import stopwords
mots = [w for w in mots if w not in stopwords.words("french")]
print(mots)

['bonjour', 'gentils', 'étudiants', 'comment', 'allez']


In [None]:
#racine
from nltk.stem import SnowballStemmer

stemmer = SnowballStemmer('french')

stemmed = [stemmer.stem(w) for w in mots]
print(stemmed)

['bonjour', 'gentil', 'étudi', 'comment', 'allez']


Actuellement, pas de tag en francais dans NLTK, mais il y en a un ici:
https://nlp.stanford.edu/software/tagger.shtml

# 2ème 45 minutes apprentissage non supervisé et supervisé

In [None]:
vrai ensemble de textes

# Data mining

In [None]:
#pip install wordcloud

In [None]:
#from wordcloud import WordCloud

In [None]:
#from wordcloud import WordCloud

# Create and generate a word cloud image:
#wordcloud = WordCloud().generate_from_frequencies(freqs_in_sentence)
# Display the generated image:
#plt.imshow(wordcloud, interpolation='bilinear')
#plt.axis("off")
#plt.show()

In [None]:
from mlxtend.preprocessing import TransactionEncoder
te = TransactionEncoder()

In [None]:
te_ary = te.fit(words_in_sentence).transform(words_in_sentence)
df = pd.DataFrame(te_ary, columns=te.columns_)

print(te_ary.shape)
te_ary.astype("int")

(3, 14)


array([[1, 0, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 0, 1],
       [1, 1, 0, 0, 0, 1, 1, 0, 0, 1, 1, 0, 0, 0],
       [0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0]])

In [None]:
# tf_idf

on peut alors :
 
 - évaluer la similitude des phrases,
 - faire des regroupements de textes,
 - faire de la prédiction de contenu, de mots clefs, de thèmes ...

# non suppervisé

## distance entre mots

## distance entre phrases

## classifier des textes

## regles d association

# Supervisé

## classification de texte

## Sentiment analysis

In [None]:
from nltk.sentiment import SentimentIntensityAnalyzer
sia = SentimentIntensityAnalyzer()
sia.polarity_scores("Wow, NLTK is really powerful!")

{'neg': 0.0, 'neu': 0.295, 'pos': 0.705, 'compound': 0.8012}

In [None]:
sia.polarity_scores("Wow, NLTK is REALLY powerful!")

{'neg': 0.0, 'neu': 0.275, 'pos': 0.725, 'compound': 0.8367}

In [None]:
sia.polarity_scores("NLTK is not bad!")

{'neg': 0.0, 'neu': 0.488, 'pos': 0.512, 'compound': 0.484}

In [None]:
sia.polarity_scores("NLTK is bad!")

{'neg': 0.655, 'neu': 0.345, 'pos': 0.0, 'compound': -0.5848}

In [None]:
sia.polarity_scores("NLTK is AWFUL!")

{'neg': 0.668, 'neu': 0.332, 'pos': 0.0, 'compound': -0.6155}

### Structure d'une phrase (retirer pour le séminaire ?)

In [None]:
sentence = """At eight o'clock, on Thursday morning, the great Arthur didn't feel VERY good."""

from nltk import pos_tag, word_tokenize, RegexpParser

# Find all parts of speech in above sentence
tagged = pos_tag(word_tokenize(sentence))

grammar = r"""
  NP: {<DT|JJ|NN.*>+} # Chunk sequences of DT, JJ, NN
  PP: {<IN><NP>} # Chunk prepositions followed by NP
  VP: {<VB.*><NP|PP|CLAUSE>+$} # Chunk verbs and their arguments
"""

chunker = RegexpParser(grammar)

output = chunker.parse(tagged)

output.draw()