In [1]:
import pandas as pd
import spacy
import nltk
from spacy import displacy  # outil de visualisation intégré de spaCy


#from PyPDF2 import PdfReader pour les fichiers pdf


# pour la partie sklearn

from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer


from sklearn.model_selection import train_test_split
# pour entraîner un modèle
from sklearn.naive_bayes import MultinomialNB 
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation


from sklearn import metrics




### NLTK

In [None]:
nltk.download('punkt')  #Télécharge le tokenizer de phrases et de mots. Il permet à nltk de découper un texte en phrases ou en mots


nltk.download('stopwords') # Télécharge la liste des stopwords (mots très fréquents comme "le", "et", "de", "the", "is", etc.). 
#Ces mots sont souvent supprimés en prétraitement car ils n'apportent pas d'information significative


nltk.download('wordnet') #Télécharge WordNet, une base de données lexicales de l’anglais.
#Elle est utilisée pour des tâches comme la lemmatisation (trouver la forme de base d’un mot) ou la recherche de synonymes


[nltk_data] Downloading package punkt to /Users/g.palacio/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/g.palacio/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package wordnet to
[nltk_data]     /Users/g.palacio/nltk_data...


True

In [None]:
nlp = spacy.load("en_core_web_sm") # Charge le modèle de langue anglais "en_core_web_sm" de spaCy

doc = nlp("Hello! This is a test")  # Applique le pipeline NLP au texte "Hello! This is a test

print([token.text for token in doc]) #  liste de mots (ou tokens) extraits du texte

['Hello', '!', 'This', 'is', 'a', 'test', '.']


Résultat : un objet Doc contenant des tokens (= mots, ponctuation, etc)

### Tokenisation  exemple :

In [None]:
doc = nlp(u'Tesla is looking at buying U.N.A. startup for $6 million')  # u (optionnel ici) indique que la chaîne est en Unicode (utile en Python 2, mais pas nécessaire en Python 3)


# tokenisation (token.text)
for token in doc:
    print(token. text)  #Affiche chaque token (mot, ponctuation, symbole) un par un


# fonctions grammaticales
for token in doc:
    print(token.text,token.pos_)  # Affiche chaque token avec sa catégorie grammaticale (pos_ = part of speech)



nlp.pipeline  #   liste des composants du pipeline NLP chargé


Tesla
is
looking
at
buying
U.N.A.
startup
for
$
6
million
Tesla PROPN
is AUX
looking VERB
at ADP
buying VERB
U.N.A. PROPN
startup NOUN
for ADP
$ SYM
6 NUM
million NUM


[('tok2vec', <spacy.pipeline.tok2vec.Tok2Vec at 0x17b8c36a0>),
 ('tagger', <spacy.pipeline.tagger.Tagger at 0x17b8c3a60>),
 ('parser', <spacy.pipeline.dep_parser.DependencyParser at 0x17bb6a190>),
 ('attribute_ruler',
  <spacy.pipeline.attributeruler.AttributeRuler at 0x17bbe6d40>),
 ('lemmatizer', <spacy.lang.en.lemmatizer.EnglishLemmatizer at 0x17bbe9980>),
 ('ner', <spacy.pipeline.ner.EntityRecognizer at 0x17b858660>)]

## Exemple displacy

Outil de visualisation intégré de spaCy, pour représenter :

- les relations grammaticales (avec style='dep') ;

- les entités nommées (avec style='ent').

In [None]:
#Dépendances grammaticales (style='dep')

nlp = spacy.load("en_core_web_sm")

sentence = "Microsoft plans to acquire a French AI startup in 2025."
doc = nlp(sentence)

displacy.render(doc, style='dep', jupyter=True, options={'distance': 120})

In [10]:
#Entités nommées (style='ent')

text = "Amazon made $9.4 billion in profit in Q1 2023, largely driven by AWS and advertising."
doc = nlp(text)

displacy.render(doc, style='ent', jupyter=True)


## Pipeline NLP avec spaCy :

Le pipeline NLP est une suite d'étapes automatiques appliquées à un texte pour en extraire des informations linguistiques utiles.
Voici les principales étapes réalisées par spaCy lors du traitement d'un texte :

1. Tokenisation : découpe le texte en unités appelées tokens (mots, ponctuation, etc.)

2. POS Tagging : assigne à chaque token sa catégorie grammaticale (nom, verbe, adjectif...)

3. Lemmatization : réduit chaque mot à sa forme de base (ex : "was" → "be")  // Stemming (via NLTK) ( plus simple que la lemmatisation : on coupe la fin des mots)

4. Stop Words : identifie les mots fréquents peu informatifs (ex : "the", "and") que l'on peut ignorer

5. Named Entity Recognition (NER) : détecte les entités nommées comme les noms de personnes, dates, lieux, etc
6. Sentence Segmentation : découpe le texte en phrases

Toutes ces opérations sont automatiquement appliquées dès qu'on passe un texte à nlp()



## Exemple pipeline :

In [12]:

import spacy

# Charger le modèle linguistique anglais
nlp = spacy.load("en_core_web_sm")

# Exemple de texte
text = "Barack Obama was born in Hawaii in 1961. He was elected president in 2008."

# Appliquer le pipeline NLP
doc = nlp(text)

# 1. Tokenisation
print("Tokens:")
for token in doc:
    print(f"{token.text}")

# 2. POS Tagging + Lemmatisation + Stop words
print("\nToken - POS - Lemma - Is Stopword:")
for token in doc:
    print(f"{token.text} - {token.pos_} - {token.lemma_} - {token.is_stop}")

# 3. Entités nommées (NER)
print("\nEntités nommées:")
for ent in doc.ents:
    print(f"{ent.text} ({ent.label_})")

# 4. Segmentation en phrases
print("\nPhrases:")
for sent in doc.sents:
    print(sent)



Tokens:
Barack
Obama
was
born
in
Hawaii
in
1961
.
He
was
elected
president
in
2008
.

Token - POS - Lemma - Is Stopword:
Barack - PROPN - Barack - False
Obama - PROPN - Obama - False
was - AUX - be - True
born - VERB - bear - False
in - ADP - in - True
Hawaii - PROPN - Hawaii - False
in - ADP - in - True
1961 - NUM - 1961 - False
. - PUNCT - . - False
He - PRON - he - True
was - AUX - be - True
elected - VERB - elect - False
president - NOUN - president - False
in - ADP - in - True
2008 - NUM - 2008 - False
. - PUNCT - . - False

Entités nommées:
Barack Obama (PERSON)
Hawaii (GPE)
1961 (DATE)
2008 (DATE)

Phrases:
Barack Obama was born in Hawaii in 1961.
He was elected president in 2008.


## Gestion des stop words

In [None]:
print(nlp.Defaults.stop_words) # Affiche tous les stop words par défaut de spaCy (en anglais)


{'ourselves', 'last', 'former', 'until', 'his', 'otherwise', 'one', 'no', 'either', 'never', 'after', 'everyone', 'move', 'somewhere', 'several', 'might', 'regarding', 'seeming', 'front', 'us', 'whenever', 'across', 'give', 'whoever', 'seemed', 'without', 'whereupon', 'others', 'now', 'your', 'have', 'amount', 'everything', 'throughout', 'off', 'none', 'why', 'two', 'often', 'using', 'themselves', 'even', 'name', 'or', 'only', 'did', 'and', 'namely', 'on', '‘ll', 'whereafter', 'they', 'was', 'least', 'may', 'first', 'perhaps', 'all', 'almost', 'whereby', 'much', 'keep', 'while', 'through', 'her', 'via', 'sixty', 'however', 'should', 'whatever', 'where', 'were', 'between', 'four', 'say', 'among', 'he', 'such', 'already', 'nevertheless', 'own', 'are', 'over', 'anyhow', 'below', 'this', 'nowhere', 'thereby', '’ll', 'within', 'because', 'fifteen', 'before', 'alone', 'therefore', 'whether', 'whose', 'does', 'its', 'with', 'well', 'since', 'itself', 'still', 'then', 'full', 'once', 'whither'

In [14]:
# Vérifie si "myself" et "mystery" sont considérés comme stop words (True ou False)
nlp.vocab['myself'].is_stop
nlp.vocab['mystery'].is_stop

False

In [15]:
# Ajoute "btw" (by the way) à la liste des stop words
nlp.Defaults.stop_words.add('btw')
nlp.vocab['btw'].is_stop = True
nlp.vocab['btw'].is_stop

True

In [16]:
# Retire "beyond" de la liste des stop words
nlp.Defaults.stop_words.remove('beyond')
nlp.vocab['beyond'].is_stop = False
nlp.vocab['beyond'].is_stop

False

### Lemmatisation (forme de base des mots)

In [17]:
doc1 = nlp(u"I am a runner running in a race because I love to run since I ran today") # on crée un Doc spaCy contenant une phrase avec plusieurs variations du mot run


for token in doc1:
    print(token.text, '\t', token.pos_, '\t', '\t', token.lemma_) #Affiche chaque mot (token), sa catégorie grammaticale (POS), et son lemme (forme de base)


I 	 PRON 	 	 I
am 	 AUX 	 	 be
a 	 DET 	 	 a
runner 	 NOUN 	 	 runner
running 	 VERB 	 	 run
in 	 ADP 	 	 in
a 	 DET 	 	 a
race 	 NOUN 	 	 race
because 	 SCONJ 	 	 because
I 	 PRON 	 	 I
love 	 VERB 	 	 love
to 	 PART 	 	 to
run 	 VERB 	 	 run
since 	 SCONJ 	 	 since
I 	 PRON 	 	 I
ran 	 VERB 	 	 run
today 	 NOUN 	 	 today


Fonction personnalisée pour afficher les lemmes

In [18]:
def show_lemmas(text):
    for token in text:
        print(f'{token.text:{12}} {token.pos_:{6}} {token.lemma_}')


In [19]:
doc2 = nlp(u"I am a runner running in a race because I love to run since I ran today easily and fairly")
show_lemmas(doc2)


I            PRON   I
am           AUX    be
a            DET    a
runner       NOUN   runner
running      VERB   run
in           ADP    in
a            DET    a
race         NOUN   race
because      SCONJ  because
I            PRON   I
love         VERB   love
to           PART   to
run          VERB   run
since        SCONJ  since
I            PRON   I
ran          VERB   run
today        NOUN   today
easily       ADV    easily
and          CCONJ  and
fairly       ADV    fairly


# Scikit-Learn 
3 outils servent à transformer du texte brut en vecteurs numériques exploitables par un modèle de Machine Learning


### 1. CountVectorizer : 

Compte le nombre d’occurrences de chaque mot dans chaque document.Produit une matrice document-terme (DTM) avec des comptages simples
Limite : ne tient pas compte de la pertinence des mots fréquents dans tous les documents (ex. "the", "is", etc.)

###  Technique TF-IDF (Term Frequency - Inverse Document Frequency) : 

 Pénalise les mots trop fréquents (comme "the", "is") : Mieux adapté à des textes longs et variés. Elle est intégrée dans Scikit-Learn via :

### 2. TfidfTransformer:  

Transforme une matrice de comptage (CountVectorizer) en une matrice pondérée TF-IDF.

TF-IDF = Term Frequency-Inverse Document Frequency :

Accentue les mots rares (plus informatifs) et  réduit le poids des mots très fréquents (peu discriminants)

Besoin de deux étapes : fit_transform de CountVectorizer, puis fit_transform de TfidfTransformer

### 3. TfidfVectorizer

C’est une version combinée des deux précédents.

Elle compte les mots ET applique directement la transformation TF-IDF, en une seule étape

In [None]:
# Avec CountVectorizer

from sklearn.feature_extraction.text import CountVectorizer

corpus = ["Email spam is annoying", "Spam emails should be blocked", "I love emails from friends"]
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)

print(vectorizer.get_feature_names_out())
print(X.toarray())

"""
Necessaire car le texte est non-structuré, alors que tous les 
modèles Scikit-Learn (Naive Bayes, SVM, LogisticRegression, etc.) attendent des tableaux de 
nombres comme entrée (numpy array, DataFrame, sparse matrix
"""


['annoying' 'be' 'blocked' 'email' 'emails' 'friends' 'from' 'is' 'love'
 'should' 'spam']
[[1 0 0 1 0 0 0 1 0 0 1]
 [0 1 1 0 1 0 0 0 0 1 1]
 [0 0 0 0 1 1 1 0 1 0 0]]


'\nNecessaire car le texte est non-structuré, alors que tous les \nmodèles Scikit-Learn (Naive Bayes, SVM, LogisticRegression, etc.) attendent des tableaux de \nnombres comme entrée (numpy array, DataFrame, sparse matrix\n'

In [None]:
#We can also use TF-IDF to control for the frequency of words used in the data frame.
from sklearn.feature_extraction.text import TfidfTransformer
tfidf_transformer = TfidfTransformer()

X_train_tfidf = tfidf_transformer.fit_transform(X_train_counts)
X_train_tfidf.shape

In [None]:
#You can also combine the two approaches in a single step 
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer()

X_train_tfidf = vectorizer.fit_transform(X_train) # remember to use the original X_train set
X_train_tfidf.shape

 ## Analyse de sentiment avec VADER (NLTK)

In [None]:
from nltk.sentiment.vader import SentimentIntensityAnalyzer

In [24]:
#Let's download the VADER lexicon
nltk.download('vader_lexicon')
from nltk.sentiment.vader import SentimentIntensityAnalyzer
sid = SentimentIntensityAnalyzer()

# On télécharge le lexique VADER et on instancie l’analyseur.

[nltk_data] Downloading package vader_lexicon to
[nltk_data]     /Users/g.palacio/nltk_data...


In [25]:
a = "This was the best, most awesome class EVER!!!"
sid.polarity_scores(a)


{'neg': 0.0, 'neu': 0.388, 'pos': 0.612, 'compound': 0.8877}

In [None]:

""""
df = pd.read_csv('amazon.tsv', sep='\t')

df['scores'] = df['review'].apply(lambda review: sid.polarity_scores(review))
df['compound'] = df['scores'].apply(lambda d: d['compound'])
df['comp_score'] = df['compound'].apply(lambda score: 'pos' if score >= 0 else 'neg')


Calcule les scores VADER pour chaque review

Extrait le score compound

Génère une prédiction (comp_score) basée sur ce score



accuracy_score(df['label'], df['comp_score'])
print(classification_report(df['label'], df['comp_score']))
print(confusion_matrix(df['label'], df['comp_score']))


On compare les prédictions VADER avec les étiquettes réelles via :

Accuracy

Rapport de classification (précision, rappel, F1)

Matrice de confusion


"""

On teste la phrase avec VADER, qui retourne un dictionnaire de scores :

pos : score de positivité

neg : score de négativité

neu : neutralité

compound : score global de sentiment (entre -1 et 1)

##  Modélisation de sujets avec LDA (Latent Dirichlet Allocation)


Découvrir automatiquement les thèmes cachés dans un corpus de documents.

Hypothèses : Un document est un mélange de K thèmes latents. Un thème est une distribution de mots.

Processus :
On choisit le nombre de thèmes.
Chaque mot d’un document est associé aléatoirement à un thème.

On améliore l'affectation avec des probabilités conditionnelles :

P(thème | document)

P(mot | thème)

On répète l’algorithme jusqu’à stabilisation


Dans l'exemple du cours, on utilise LDA (Latent Dirichlet Allocation) pour faire du topic modeling sur des articles de presse Reuters.
Le but est de découvrir automatiquement des thématiques dans un corpus non étiqueté (apprentissage non supervisé)


In [None]:
from sklearn.feature_extraction.text import CountVectorizer


reuters = pd.read_csv('Reuters2.csv')


#####  Prétraitement et vectorisation
cv = CountVectorizer(max_df=0.9, min_df=2, stop_words='english')
dtm = cv.fit_transform(reuters['Article'])

# On crée une matrice document-terme



### Modelisation 
from sklearn.decomposition import LatentDirichletAllocation

LDA = LatentDirichletAllocation(n_components=3, random_state=42)
LDA.fit(dtm)
# On ajuste le modèle LDA avec 3 topics. Chaque article devient un mélange de ces topics


#### Exploration des topics

LDA.components_[0]  # Scores de chaque mot pour le topic 0
top_ten_words = single_topic.argsort()[-10:]
for index in top_ten_words:
    print(cv.get_feature_names_out()[index])
## On extrait les mots les plus représentatifs de chaque topic

for i, topic in enumerate(LDA.components_):
    print(f'THE TOP 15 WORDS FOR TOPIC #{i}')
    print([cv.get_feature_names_out()[j] for j in topic.argsort()[-15:]])
    #On affiche les 15 mots les plus probables pour chaque topic


#### Affectation d’un topic dominant à chaque article

topic_results = LDA.transform(dtm)
reuters['Topic'] = topic_results.argmax(axis=1)

# On ajoute une colonne Topic qui contient le topic dominant de chaque article