In [None]:
# Corrections

# 1. Prétraitement du texte

Le prétraitement du texte aide à améliorer la qualité et la fiabilité des résultats des analyses NLP en nettoyant et en normalisant les données textuelles. Cela peut également accélérer les analyses en réduisant la taille des données à analyser.

Le prétraitement du texte est une étape importante dans le traitement du langage naturel (NLP) pour plusieurs raisons :
1. **Conversion de la casse** : La conversion de la casse peut être importante pour garantir la cohérence des données et éviter les problèmes liés à la casse dans les algorithmes de NLP.


2. **Nettoyage de données** : Les données textuelles brutes peuvent contenir des erreurs, des abréviations, des symboles et d'autres caractéristiques qui peuvent affecter la qualité des résultats des analyses NLP. Le prétraitement du texte aide à nettoyer ces données en supprimant les caractères indésirables, en corrigeant les erreurs et en normalisant les données.

3. **Tokenisation** : La tokenisation est l'étape cruciale de la division du texte en unités plus petites pour une analyse ultérieure. La tokenisation peut être utilisée pour diviser les données textuelles en mots, phrases, symboles et autres unités pertinentes.

4. **Suppression des Stop words** : Les stop words peuvent affecter négativement les performances des algorithmes NLP en ajoutant du bruit aux données. La suppression des stop words aide à filtrer les données et à améliorer les résultats de l'analyse.

5. **Stemming et Lemmatisation** : Le stemming et la lemmatisation sont des techniques importantes pour normaliser les mots et les réduire à leur forme de base pour une analyse plus cohérente.

Nous utiliserons par la suite le vocabulaire suivant :
- **Corpus** : Un corpus est un ensemble de documents textuels rassemblés en vu d'un traitement.
- **Document** : Document : Un document est une unité de texte distincte, telle qu'un livre, un article de journal ou une page web.
- **Text** : Le texte est un ensemble de mots et de phrases utilisés pour communiquer des informations et des idées.
- **Token** : Un token est une unité d'information dans un texte, qui peut être un mot, un symbole, une poctuation ou tout autre élément pertinent.
- **Vocabulaire** : C'est l'ensemble des tokens individuels présents dans l'ensemble du corpus.

### 1.1 Tokenisation

<img src='https://miro.medium.com/max/1050/0*EKgminT7W-0R4Iae.png'>

La tokenisation est un processus dans le traitement du langage naturel (NLP) qui consiste à diviser un texte en unités plus petites appelées tokens.

Les tokens peuvent être des mots, des phrases, des symboles ou des caractères. La tokenisation est souvent la première étape dans le traitement des données textuelles, car elle permet de préparer le texte pour les analyses ultérieures telles que la reconnaissance de la signification, la classification, la génération de résumés, etc.

In [1]:
import warnings

# Désactiver les avertissements
warnings.filterwarnings("ignore")

In [4]:
pip install spacy



In [2]:
import spacy
from spacy.lang.fr import French



# Création d'un objet Spacy
nlp = French()


# Création de la fonction de tokenisation
tokenizer = nlp.tokenizer

In [4]:
tokenizer("Hello")[0]

Hello

In [5]:
# Transformation d'un texte sous forme de token
doc = tokenizer("Le chien mange ses croquettes")
doc

Le chien mange ses croquettes

In [6]:
tokens = [token.text for token in doc]
tokens

['Le', 'chien', 'mange', 'ses', 'croquettes']

### 1.2 Stemming & Lemmatization

<img src='https://d2mk45aasx86xg.cloudfront.net/difference_between_Stemming_and_lemmatization_8_11zon_452539721d.webp'>

**Stemming** et **lemmatisation** sont deux techniques utilisées dans le traitement du langage naturel pour réduire les mots à leur forme de base.

**Stemming** : Le stemming est une technique pour extraire la racine d'un mot en enlevant les suffixes, les préfixes et autres modifications morphologiques. L'objectif du stemming est de réduire les mots à leur forme de base pour une analyse plus cohérente. Par exemple, les mots "runner", "running", "ran" peuvent être réduits à la forme de base "run".

**Lemmatisation** : La lemmatisation est similaire au stemming, mais elle vise à produire un lemme ou un mot normalisé, qui est une forme valide de dictionnaire pour un mot donné. La lemmatisation implique une analyse morphologique plus avancée pour déterminer la forme correcte d'un mot, en prenant en compte son contexte et sa définition. Par exemple, le mot "running" peut être lemmatisé en "run", tandis que le mot "better" peut être lemmatisé en "good".

En général, la lemmatisation est considérée comme une technique plus précise que le stemming, mais elle est également plus lente et plus complexe à implémenter. Les deux techniques peuvent être utiles pour normaliser les mots et améliorer les résultats des analyses NLP, mais le choix entre les deux dépend des besoins spécifiques d'un projet NLP particulier.

A noter que le mot : `And` n'ont pas été supprimés car python est sensible à la casse :

`'And' != 'and' `

In [5]:
!python -m spacy download fr_core_news_sm

Collecting fr-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/fr_core_news_sm-3.8.0/fr_core_news_sm-3.8.0-py3-none-any.whl (16.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m16.3/16.3 MB[0m [31m77.1 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: fr-core-news-sm
Successfully installed fr-core-news-sm-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('fr_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [6]:
import spacy
# Charger le modèle français pré-entraîné :
nlp = spacy.load("fr_core_news_sm")

# Tokenisation de la phrase :
doc = nlp("Le chien mange ses croquettes")

# Affichage des lemmes :
doc = [token.lemma_ for token in doc]
doc

['le', 'chien', 'manger', 'son', 'croquette']

### 1.2 Traitement des Stop Words


Un stop word désigne des mots qui sont souvent ignorés ou filtrés lors de l'analyse de données textuelles. Les stop words sont considérés comme des mots peu informatifs et ne sont généralement pas pris en compte lors de l'analyse de la signification des textes.

Ils peuvent être des prépositions, des conjonctions et d'autres mots communs qui ne contribuent pas de manière significative à la signification d'une phrase ou d'un document.

La liste des stop words peut varier en fonction de la langue, du domaine et des objectifs de l'analyse.

In [9]:
from spacy.lang.fr import stop_words as stop_words

stop_words.STOP_WORDS

{'a',
 'abord',
 'afin',
 'ah',
 'ai',
 'aie',
 'ainsi',
 'ait',
 'allaient',
 'allons',
 'alors',
 'anterieur',
 'anterieure',
 'anterieures',
 'antérieur',
 'antérieure',
 'antérieures',
 'apres',
 'après',
 'as',
 'assez',
 'attendu',
 'au',
 'aupres',
 'auquel',
 'aura',
 'auraient',
 'aurait',
 'auront',
 'aussi',
 'autre',
 'autrement',
 'autres',
 'autrui',
 'aux',
 'auxquelles',
 'auxquels',
 'avaient',
 'avais',
 'avait',
 'avant',
 'avec',
 'avoir',
 'avons',
 'ayant',
 'bas',
 'basee',
 'bat',
 "c'",
 'car',
 'ce',
 'ceci',
 'cela',
 'celle',
 'celle-ci',
 'celle-la',
 'celle-là',
 'celles',
 'celles-ci',
 'celles-la',
 'celles-là',
 'celui',
 'celui-ci',
 'celui-la',
 'celui-là',
 'cent',
 'cependant',
 'certain',
 'certaine',
 'certaines',
 'certains',
 'certes',
 'ces',
 'cet',
 'cette',
 'ceux',
 'ceux-ci',
 'ceux-là',
 'chacun',
 'chacune',
 'chaque',
 'chez',
 'ci',
 'cinq',
 'cinquantaine',
 'cinquante',
 'cinquantième',
 'cinquième',
 'combien',
 'comme',
 'comment',

In [10]:
len(stop_words.STOP_WORDS)

507

➡️ Supprimons ces mots de nos jetons en utilisant NLTK :

In [11]:
# Filtrage des tokens en fonction des stop words :
tokens_filtres = []
for token in doc:
  if token not in stop_words.STOP_WORDS:
    tokens_filtres.append(token)
tokens_filtres

['chien', 'manger', 'croquette']

In [12]:
[token for token in doc if token not in stop_words.STOP_WORDS]

['chien', 'manger', 'croquette']

---

# Projet 1 - Prétraitement de texte

1. Creéez une classe `Processing` contenant une méthode `tokenization` qui tranfome un document en liste de token.
Cette méthode possède é arguments :
- `document : str`  --> Le document sous forme de str,
- `stem:bool=False` --> Si True, la méthode applique la transformation stemming,

La méthode garde dans un attribut data, l'ensemble des précédents traitement : le document et la liste des tokens.

La méthode retourne la liste de token.

In [9]:
import spacy
from spacy.lang.fr import stop_words as stop_words

class Processing:
    # Charger le modèle français pré-entraîné :
    nlp = spacy.load("fr_core_news_sm")
    stop_words = stop_words.STOP_WORDS

    def tokenizer(self, text:str, lemma_=True) -> str:
        text = text.lower()
        doc = self.nlp(text)

        if lemma_:
            tokens = [token.lemma_ for token in doc if token.lemma_ not in self.stop_words]
        else:
            tokens = [token.text for token in doc if token.text not in self.stop_words]
        return " ".join(tokens)

Processing().tokenizer("Bonjour tout le monde !", lemma_=False)

'bonjour monde !'

# 2. Words Vectorisation - Introduction & TF-IDF

<img src='https://www.gstatic.com/aihub/tfhub/universal-sentence-encoder/example-similarity.png'>

L'analyse de la similarité entre textes consiste à mesurer la ressemblance ou la proximité entre deux ou plusieurs textes en utilisant des algorithmes mathématiques et des métriques spécifiques, cette analyse permet :
- la **classification de documents** : Elle peut être utilisée pour classer des documents en fonction de leur ressemblance, ce qui est utile pour organiser et classer des documents en fonction de leur sujet ou de leur contenu.

- la **détection de doublons** : Elle peut être utilisée pour détecter les documents en double ou similaires, ce qui est utile pour nettoyer les bases de données ou les archives de documents.

- la **recommandation de contenu** : Elle peut être utilisée pour recommander du contenu similaire à l'utilisateur, basé sur son historique de recherche ou de lecture.

- la **dettection de contenu** : Elle consiste à trouver et à identifier les textes ou les parties de textes qui sont identiques ou très similaires entre eux. Cela peut être utile pour de nombreuses tâches, telles que la suppression de doublons dans les bases de données, la détection de plagiat dans les travaux académiques, la vérification de l'originalité des articles de presse, et la mise en place de contrôles de qualité pour les sites Web et les applications.

### 2.1 Bag Of Word

Un **Bag of Words** (BoW) est une représentation fréquentielle des mots d'un document. Il s'agit d'un modèle simpliste qui se concentre sur la fréquence d'apparition de chaque mot dans le document psans prendre en compte l'ordre des mots.

Il suffit de compter le nombre d'occurrences de chaque mot dans le document et stocker ces informations dans un vecteur. Chaque élément du vecteur représente le nombre d'occurrences d'un mot donné dans le document.

Les **BoW** sont souvent utilisés en NLP pour la vectorisation des textes, ce qui signifie qu'ils sont transformés en vecteurs numériques pouvant être utilisés pour les algorithmes de classification et de clustering.

In [14]:
import pandas as pd
import numpy as np
# Import de la fonction CountVectorizer depuis la bibliothèque sklearn
from sklearn.feature_extraction.text import CountVectorizer

corpus = """Le traitement du langage naturel (NLP) est un domaine de l'informatique, de l'intelligence artificielle et de la linguistique qui s'intéresse aux interactions entre les ordinateurs et les langues humaines (naturelles). L'objectif du NLP est de permettre aux ordinateurs de comprendre, d'interpréter et de générer le langage humain.
Les applications du NLP incluent la classification de texte, l'analyse de sentiment, la traduction automatique, la reconnaissance d'entités nommées, la reconnaissance vocale et les chatbots. Les techniques de NLP reposent sur des algorithmes d'apprentissage automatique, tels que les arbres de décision, les forêts aléatoires, les réseaux neuronaux et l'apprentissage profond, pour analyser et modéliser la structure et la signification du langage.
Le NLP est un domaine complexe, car le langage humain est très ambigu et dépend fortement du contexte. Pour surmonter ces défis, les modèles de NLP s'appuient souvent sur de grandes quantités de données annotées et des algorithmes sophistiqués pour apprendre les schémas et les relations dans le langage.
Malgré ces défis, le NLP a le potentiel de révolutionner notre manière d’interagir avec les ordinateurs et d’ouvrir de nouvelles possibilités en matière de communication, d’éducation et bien plus encore.""".split("\n")


corpus

["Le traitement du langage naturel (NLP) est un domaine de l'informatique, de l'intelligence artificielle et de la linguistique qui s'intéresse aux interactions entre les ordinateurs et les langues humaines (naturelles). L'objectif du NLP est de permettre aux ordinateurs de comprendre, d'interpréter et de générer le langage humain.",
 "Les applications du NLP incluent la classification de texte, l'analyse de sentiment, la traduction automatique, la reconnaissance d'entités nommées, la reconnaissance vocale et les chatbots. Les techniques de NLP reposent sur des algorithmes d'apprentissage automatique, tels que les arbres de décision, les forêts aléatoires, les réseaux neuronaux et l'apprentissage profond, pour analyser et modéliser la structure et la signification du langage.",
 "Le NLP est un domaine complexe, car le langage humain est très ambigu et dépend fortement du contexte. Pour surmonter ces défis, les modèles de NLP s'appuient souvent sur de grandes quantités de données annoté

In [15]:
# Document 1
corpus[0]

"Le traitement du langage naturel (NLP) est un domaine de l'informatique, de l'intelligence artificielle et de la linguistique qui s'intéresse aux interactions entre les ordinateurs et les langues humaines (naturelles). L'objectif du NLP est de permettre aux ordinateurs de comprendre, d'interpréter et de générer le langage humain."

In [16]:
for doc in corpus:
  print(Processing().tokenizer(doc,False))

le traitement du langage naturel ( nlp ) est un domaine de l' informatique , de l' intelligence artificielle et de la linguistique qui s' intéresse aux interactions entre les ordinateurs et les langues humaines ( naturelles ) . l' objectif du nlp est de permettre aux ordinateurs de comprendre , d' interpréter et de générer le langage humain .
les applications du nlp incluent la classification de texte , l' analyse de sentiment , la traduction automatique , la reconnaissance d' entités nommées , la reconnaissance vocale et les chatbots . les techniques de nlp reposent sur des algorithmes d' apprentissage automatique , tels que les arbres de décision , les forêts aléatoires , les réseaux neuronaux et l' apprentissage profond , pour analyser et modéliser la structure et la signification du langage .
le nlp est un domaine complexe , car le langage humain est très ambigu et dépend fortement du contexte . pour surmonter ces défis , les modèles de nlp s' appuient souvent sur de grandes quanti

In [17]:
corpus = [Processing().tokenizer(doc) for doc in corpus]
corpus[0]

'traitement langage naturel ( nlp ) domaine informatique , intelligence artificiel linguistique intéresser interaction entrer ordinateur langue humain ( naturel ) . objectif nlp permettre ordinateur comprendre , interpréter générer langage humain .'

In [18]:
# Create a CountVectorizer object
vectorizer = CountVectorizer()
BOW = vectorizer.fit_transform(corpus).toarray()

# Convert the BOW array to a DataFrame
BOW = pd.DataFrame(data=BOW, columns=vectorizer.get_feature_names_out())
BOW

Unnamed: 0,algorithme,aléatoire,ambigu,analyse,analyser,annoter,application,apprendre,apprentissage,appuyer,...,signification,sophistiqué,structure,surmonter,technique,texte,traduction,traitement,vocal,éducation
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
1,1,1,0,1,1,0,1,0,2,0,...,1,0,1,0,1,1,1,0,1,0
2,1,0,1,0,0,1,0,1,0,1,...,0,1,0,1,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1


In [19]:
# Nombre de fois que le mot "nlp" apparait dans le corpus
BOW.iloc[0].values

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0,
       0, 0, 0, 0, 1, 0, 0, 0, 1, 2, 0, 1, 1, 1, 0, 1, 1, 2, 1, 1, 0, 0,
       0, 0, 2, 0, 2, 0, 1, 2, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 0, 0])


### 2.2 Term Frequency (TF)

La fréquence des termes est le nombre d'occurrences d'un terme (par exemple un mot) dans un échantillon de texte, mais normalisé par le nombre de mots dans cet échantillon. C'est très proche d'un Bag Of Words (BOW) : la principale différence est la normalisation.

👉🏻 Voyons un exemple pour comprendre pourquoi nous aurions besoin de la normalisation. Supposons que nous recherchions la requête "amour", et que nous souhaitions trouver la citation la plus pertinente parmi 3 citations différentes :

In [20]:
TF = BOW.divide(BOW.sum(axis=1), axis=0)
TF

Unnamed: 0,algorithme,aléatoire,ambigu,analyse,analyser,annoter,application,apprendre,apprentissage,appuyer,...,signification,sophistiqué,structure,surmonter,technique,texte,traduction,traitement,vocal,éducation
0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.04,0.0,0.0
1,0.029412,0.029412,0.0,0.029412,0.029412,0.0,0.029412,0.0,0.058824,0.0,...,0.029412,0.0,0.029412,0.0,0.029412,0.029412,0.029412,0.0,0.029412,0.0
2,0.041667,0.0,0.041667,0.0,0.0,0.041667,0.0,0.041667,0.0,0.041667,...,0.0,0.041667,0.0,0.041667,0.0,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.076923


In [21]:
BOW.sum(axis=1)

Unnamed: 0,0
0,25
1,34
2,24
3,13



### 2.3 Inverse Document Frequency (IDF)

**Inverse Document Frequency (IDF)** représente l'inverse de la fréquence à laquelle un terme apparaît dans nos documents. Fondamentalement, l'IDF donnera donc un poids plus élevé aux mots qui apparaissent rarement dans nos documents et réduira le poids des mots qui apparaissent fréquemment.

<img src='https://wikimedia.org/api/rest_v1/media/math/render/svg/0f1b67e328e503d7dd2d10fdfff9ee75df88032a'>

Où D est le nombre total de documents dans le corpus et le dénominateur : nombre de documents où le terme t apparaît.

In [22]:
BOW.sum(axis=0)

Unnamed: 0,0
algorithme,2
aléatoire,1
ambigu,1
analyse,1
analyser,1
...,...
texte,1
traduction,1
traitement,1
vocal,1


In [23]:
np.log(1)

np.float64(0.0)

In [24]:
bow = BOW
bow[bow>1] = 1
IDF = np.log(len(bow)/bow.sum(axis=0) +1)
IDF

Unnamed: 0,0
algorithme,1.098612
aléatoire,1.609438
ambigu,1.609438
analyse,1.609438
analyser,1.609438
...,...
texte,1.609438
traduction,1.609438
traitement,1.609438
vocal,1.609438



### 2.4 **TF-IDF** (Term Frequency - Inverse Document Frequency)

|       **`TF-IDF = TF × IDF`** |


Pourquoi est-ce une bonne fonctionnalité ?

D'une part, si vous recherchez un mot dans un corpus, plus ce mot apparaît, plus il a de chances d'être pertinent : cela s'exprime par le Terme Fréquence.

En revanche, si ce mot particulier apparaît dans tous les documents du corpus, il n'est peut-être pas opportun de discriminer les différents documents : cela s'exprime par la Fréquence Inverse des Documents.

➡️ En conséquence, la combinaison de TF et IDF semble être un bon compromis et est une fonctionnalité largement utilisée dans le traitement du langage naturel.

👉🏻 Suite à notre exemple précédent, nous pouvons calculer le TF-IDF manuellement :

In [25]:
TF*IDF

Unnamed: 0,algorithme,aléatoire,ambigu,analyse,analyser,annoter,application,apprendre,apprentissage,appuyer,...,signification,sophistiqué,structure,surmonter,technique,texte,traduction,traitement,vocal,éducation
0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.064378,0.0,0.0
1,0.032312,0.047336,0.0,0.047336,0.047336,0.0,0.047336,0.0,0.094673,0.0,...,0.047336,0.0,0.047336,0.0,0.047336,0.047336,0.047336,0.0,0.047336,0.0
2,0.045776,0.0,0.06706,0.0,0.0,0.06706,0.0,0.06706,0.0,0.06706,...,0.0,0.06706,0.0,0.06706,0.0,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.123803


## 2. 5 Matrice TF-IDF avec la bibliothèque SKLearn

Avec la bibliothèque **scikit-learn (SKLearn)**, il est possible de générer cette matrice grâce à [`TfidfVectorizer`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html). Cet outil transforme un ensemble de documents textuels en une matrice creuse où chaque ligne représente un document et chaque colonne un mot, pondéré par son score TF-IDF. L'utilisation de **`TfidfVectorizer`** permet d'automatiser le prétraitement, incluant la suppression des mots courants (`stop_words`), la normalisation et le filtrage des mots rares. Cette méthode est particulièrement efficace pour des tâches de **classification de texte, recherche d’information ou clustering**, car elle atténue l'impact des mots fréquents tout en mettant en valeur les termes les plus significatifs.



In [26]:
corpus

['traitement langage naturel ( nlp ) domaine informatique , intelligence artificiel linguistique intéresser interaction entrer ordinateur langue humain ( naturel ) . objectif nlp permettre ordinateur comprendre , interpréter générer langage humain .',
 'application nlp inclure classification texte , analyse sentiment , traduction automatique , reconnaissance entité nommer , reconnaissance vocal chatbot . technique nlp reposer algorithme apprentissage automatique , arbre décision , forêt aléatoire , réseau neuronal apprentissage profond , analyser modéliser structure signification langage .',
 'nlp domaine complexe , langage humain ambigu dépendre fortement contexte . surmonter défi , modèle nlp appuyer grand quantité donnée annoter algorithme sophistiqué apprendre schéma relation langage .',
 'défi , nlp potentiel révolutionner manière interagir ordinateur ouvrir possibilité matière communication , éducation bien .']

In [27]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Initialisation du vectoriseur TF-IDF
tfidf_vectorizer = TfidfVectorizer()

# Transformation du corpus en matrice TF-IDF
X_tfidf = tfidf_vectorizer.fit_transform(corpus)

# Conversion en DataFrame pour visualisation
df_tfidf = pd.DataFrame(X_tfidf.toarray(), columns=tfidf_vectorizer.get_feature_names_out())
df_tfidf

Unnamed: 0,algorithme,aléatoire,ambigu,analyse,analyser,annoter,application,apprendre,apprentissage,appuyer,...,signification,sophistiqué,structure,surmonter,technique,texte,traduction,traitement,vocal,éducation
0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.194945,0.0,0.0
1,0.127699,0.16197,0.0,0.16197,0.16197,0.0,0.16197,0.0,0.323939,0.0,...,0.16197,0.0,0.16197,0.0,0.16197,0.16197,0.16197,0.0,0.16197,0.0
2,0.171211,0.0,0.217159,0.0,0.0,0.217159,0.0,0.217159,0.0,0.217159,...,0.0,0.217159,0.0,0.217159,0.0,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.294685


# Projet 2 : Analyse de Sentiment avec TF-IDF et Machine Learning

Dans ce projet, nous allons analyser des textes pour prédire leur sentiment (positif, négatif, neutre) en utilisant une approche de Machine Learning. L’objectif est de transformer un corpus de texte en une matrice TF-IDF puis d’entraîner un modèle de classification pour détecter le sentiment des textes.

In [32]:
import pandas as pd

# Création d'un dataset avec 20 exemples de textes et leur classification de sentiment
data = {
    "texte": [
        "J'adore cette journée ensoleillée, elle me remplit de joie !",  # Positif
        "Ce film était vraiment génial, je le recommande à tout le monde.",  # Positif
        "Je suis tellement déçu par ce produit, il ne fonctionne pas du tout.",  # Négatif
        "Rien de spécial aujourd'hui, juste une journée comme les autres.",  # Neutre
        "Ce restaurant offre un excellent service et des plats délicieux !",  # Positif
        "Le service client était horrible, je ne reviendrai jamais ici.",  # Négatif
        "Un jour normal, rien de particulier à signaler.",  # Neutre
        "J'ai adoré ma visite au musée, c'était une expérience inoubliable.",  # Positif
        "Je suis frustré par la lenteur du service, c'était une perte de temps.",  # Négatif
        "Cette application est utile mais pas révolutionnaire.",  # Neutre
        "Le livre était captivant, je ne pouvais pas m'arrêter de lire.",  # Positif
        "L'hôtel était bruyant et inconfortable, je ne le recommande pas.",  # Négatif
        "Une journée ordinaire avec du travail et quelques tâches ménagères.",  # Neutre
        "Super concert hier soir ! Une ambiance incroyable.",  # Positif
        "La connexion Internet coupe sans arrêt, c'est très agaçant.",  # Négatif
        "J'ai passé un bon moment avec mes amis, c'était agréable.",  # Positif
        "Ce café est correct mais il y a de meilleurs endroits en ville.",  # Neutre
        "L'attente était interminable et le personnel peu aimable.",  # Négatif
        "Un bon repas en famille, ça fait toujours plaisir.",  # Positif
        "Je suis ni satisfait ni déçu, c'était juste moyen.",  # Neutre
    ],
    "sentiment": [
        1, 1, -1, 0, 1,
        -1, 0, 1, -1, 0,
        1, -1, 0, 1, -1,
        1, 0, -1, 1, 0
    ]
}

# Création du DataFrame
df = pd.DataFrame(data)
df

Unnamed: 0,texte,sentiment
0,"J'adore cette journée ensoleillée, elle me rem...",1
1,"Ce film était vraiment génial, je le recommand...",1
2,"Je suis tellement déçu par ce produit, il ne f...",-1
3,"Rien de spécial aujourd'hui, juste une journée...",0
4,Ce restaurant offre un excellent service et de...,1
5,"Le service client était horrible, je ne revien...",-1
6,"Un jour normal, rien de particulier à signaler.",0
7,"J'ai adoré ma visite au musée, c'était une exp...",1
8,"Je suis frustré par la lenteur du service, c'é...",-1
9,Cette application est utile mais pas révolutio...,0


In [33]:
precessing = Processing()

In [34]:
# 0. Nettoyage du texte (Stopword, tokenisation, lemming) :

df.texte = df.texte.apply(lambda x: precessing.tokenizer(x, lemma_=True))
df

Unnamed: 0,texte,sentiment
0,"adorer journée ensoleillée , remplir joie !",1
1,"film vraiment génial , recommande monde .",1
2,"décevoir produit , fonctionner .",-1
3,"rien spécial aujourd'hui , journée .",0
4,restaurant offrir excellent service plat délic...,1
5,"service client horrible , revenir jamais ici .",-1
6,"jour normal , rien particulier signaler .",0
7,"adorer visite musée , expérience inoubliable .",1
8,"frustrer lenteur service , perte temps .",-1
9,application utile révolutionnaire .,0


In [35]:
# 1. Transformation du texte en matrice TFIDF
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd


# Initialisation du vectoriseur TF-IDF
tfidf_vectorizer = TfidfVectorizer()


# Transformation du corpus en matrice TF-IDF
tfidf = tfidf_vectorizer.fit_transform(df.texte)


# Conversion en DataFrame pour visualisation
tfidf = pd.DataFrame(tfidf.toarray(), columns=tfidf_vectorizer.get_feature_names_out())
tfidf

Unnamed: 0,adorer,agaçant,agréable,aimable,ambiance,ami,application,arrêt,arrêter,attente,...,soir,spécial,super,temps,travail,tâche,utile,ville,visite,vraiment
0,0.418969,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.447214
2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.476634,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
5,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
6,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
7,0.402361,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.457741,0.0
8,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.464783,0.0,0.0,0.0,0.0,0.0,0.0
9,0.0,0.0,0.0,0.0,0.0,0.0,0.57735,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.57735,0.0,0.0,0.0


In [36]:
df.sentiment

Unnamed: 0,sentiment
0,1
1,1
2,-1
3,0
4,1
5,-1
6,0
7,1
8,-1
9,0


In [37]:
!pip install xgboost




In [38]:
# 2. Entrainement d'un algorytme de machine Learning
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

# Import d'un modèle de machine Learning pour de la classification :
model = LogisticRegression(
    solver="liblinear",
    penalty="l2",
    C=1.0,
    random_state=42
)

# Données d'entraînement :
X_train, X_test, y_train, y_test = train_test_split(
    tfidf,
    df.sentiment,
    stratify=df.sentiment,
    test_size=0.2,
    random_state=42
)

# Entrainement du modèle :
model.fit(X_train, y_train)

In [39]:
model.score(X_test, y_test)

0.5

In [40]:
# 3. Prédiction du modèle
doc = "adorer journée ensoleillée"

# Prétrainement du texte
doc = Processing().tokenizer(doc)
print(doc)


# Transformation en vecteur TFIDF
x = tfidf_vectorizer.transform([doc]).toarray()
x

adorer journée ensoleillée


array([[0.56718988, 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.64525598,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.5118011 , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.  

In [41]:

# Prédiction du modèle (1-> Positif, 0 -> Neutre, -1 -> Négatif)
model.predict(x)

array([1])

In [43]:
phrase = "agaçant"

# Transformation et prédiction
X_new = tfidf_vectorizer.transform([phrase])
pred = model.predict(X_new)[0]

# Affichage du résultat
label_map = {-1: "Négatif", 0: "Neutre", 1: "Positif"}
print(label_map[pred])


Négatif


# Projet 3 : Classification d'articles

Ce projet consiste à classifier automatiquement des titres d'articles en trois catégories distinctes : Technologie, Santé et Juridique, en utilisant des techniques de Machine Learning pour l'analyse et la prédiction de la thématique associée à chaque titre.

In [11]:
import pandas as pd

data = {
    "titre": [
        # Technologie ==> 0
        "Les dernières avancées en intelligence artificielle",
        "L'impact de la 5G sur l'industrie des télécommunications",
        "Les nouvelles générations de processeurs pour le gaming",
        "La montée en puissance du cloud computing",
        "L'importance de la cybersécurité dans les entreprises",
        "Les véhicules autonomes et leur technologie embarquée",
        "L'essor des cryptomonnaies et la technologie blockchain",

        # Santé ==> 1
        "Les effets du sommeil sur la santé cognitive",
        "Comment l'alimentation influence le système immunitaire",
        "Les progrès récents dans le traitement du diabète",
        "L'impact de l'exercice physique sur la longévité",
        "Les bienfaits de la méditation sur le stress",
        "La recherche sur les vaccins contre les maladies émergentes",
        "Le rôle des probiotiques dans la digestion",

        # Juridique ==> 2
        "Les défis du droit numérique dans un monde connecté",
        "Les implications du RGPD pour les entreprises européennes",
        "Le rôle des avocats face à l'automatisation juridique",
        "Les nouvelles réglementations sur la propriété intellectuelle",
        "L'impact des contrats intelligents sur le droit des affaires",
        "La responsabilité légale des entreprises face aux cyberattaques"
    ],
    "theme": [
        0, 0, 0, 0, 0,
       0, 0,
        1, 1, 1, 1, 1,
        1, 1,
        2, 2,2, 2, 2, 2
    ]
}

# Création du DataFrame
df = pd.DataFrame(data)

df

Unnamed: 0,titre,theme
0,Les dernières avancées en intelligence artific...,0
1,L'impact de la 5G sur l'industrie des télécomm...,0
2,Les nouvelles générations de processeurs pour ...,0
3,La montée en puissance du cloud computing,0
4,L'importance de la cybersécurité dans les entr...,0
5,Les véhicules autonomes et leur technologie em...,0
6,L'essor des cryptomonnaies et la technologie b...,0
7,Les effets du sommeil sur la santé cognitive,1
8,Comment l'alimentation influence le système im...,1
9,Les progrès récents dans le traitement du diabète,1


In [13]:
# Nettoyage des Stop Words & Tokenization
processing = Processing()
df.titre = df.titre.apply(lambda x: processing.tokenizer(x, True))
df

Unnamed: 0,titre,theme
0,dernier avancée intelligence artificiel,0
1,impact 5 gramme industrie télécommunications,0
2,génération processeur gaming,0
3,montée puissance cloud computing,0
4,importance cybersécurité entreprise,0
5,véhicule autonome technologie embarquer,0
6,essor cryptomonnaie technologie blockchain,0
7,sommeil santé cognitif,1
8,alimentation influenc système immunitaire,1
9,progrès récent traitement diabète,1


In [14]:
# Création de la matrice TF-IDF
from sklearn.feature_extraction.text import TfidfVectorizer


# Initialisation du vectoriseur TF-IDF
vectoriser = TfidfVectorizer()

# Transformation du corpus en matrice TF-IDF
tfidf = vectoriser.fit_transform(df.titre)

# Conversion en DataFrame pour visualisation
tfidf_df = pd.DataFrame(tfidf.toarray(), columns = vectoriser.get_feature_names_out())
tfidf_df

Unnamed: 0,affaire,alimentation,artificiel,automatisation,autonome,avancée,avocat,bienfait,blockchain,cloud,cognitif,computing,connecter,contrat,contre,cryptomonnaie,cyberattaque,cybersécurité,dernier,diabète,digestion,droit,défi,embarquer,entreprise,essor,européen,exercice,face,gaming,gramme,génération,immunitaire,impact,implication,importance,industrie,influenc,intellectuel,intelligence,intelligent,juridique,longévité,légal,maladie,monde,montée,méditation,numérique,physique,probiotique,processeur,progrès,propriété,puissance,recherche,responsabilité,rgpd,récent,réglementation,rôle,santé,sommeil,stress,système,technologie,traitement,télécommunications,vaccin,véhicule,émergent
0,0.0,0.0,0.5,0.0,0.0,0.5,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.5,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.5,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.524927,0.0,0.0,0.416359,0.0,0.0,0.524927,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.524927,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.57735,0.0,0.57735,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.57735,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.5,0.0,0.5,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.5,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.5,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.616729,0.0,0.0,0.0,0.0,0.0,0.0,0.489174,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.616729,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
5,0.0,0.0,0.0,0.0,0.514844,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.514844,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.452556,0.0,0.0,0.0,0.514844,0.0
6,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.514844,0.0,0.0,0.0,0.0,0.0,0.0,0.514844,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.514844,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.452556,0.0,0.0,0.0,0.0,0.0
7,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.57735,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.57735,0.57735,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
8,0.0,0.5,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.5,0.0,0.0,0.0,0.0,0.5,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.5,0.0,0.0,0.0,0.0,0.0,0.0
9,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.5,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.5,0.0,0.0,0.0,0.0,0.0,0.5,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.5,0.0,0.0,0.0,0.0


In [16]:
df.theme

Unnamed: 0,theme
0,0
1,0
2,0
3,0
4,0
5,0
6,0
7,1
8,1
9,1


In [48]:
# Entraînement d'un modèle de machine Learning
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split

model = RandomForestClassifier(n_estimators=100, max_depth=10, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(tfidf_df, df["theme"], test_size=0.2, random_state=42, stratify=df["theme"])
model.fit(X_train, y_train)

In [49]:
model.score(X_test, y_test)

0.25

In [23]:
# Prédiction du modèle


titre = "La santé au coeur du projet"


titre = Processing().tokenizer(titre)
titre

'santé coeur projet'

In [18]:
print(df["titre"].value_counts())


titre
dernier avancée intelligence artificiel              1
impact 5 gramme industrie télécommunications         1
génération processeur gaming                         1
montée puissance cloud computing                     1
importance cybersécurité entreprise                  1
véhicule autonome technologie embarquer              1
essor cryptomonnaie technologie blockchain           1
sommeil santé cognitif                               1
alimentation influenc système immunitaire            1
progrès récent traitement diabète                    1
impact exercice physique longévité                   1
bienfait méditation stress                           1
recherche vaccin contre maladie émergent             1
rôle probiotique digestion                           1
défi droit numérique monde connecter                 1
implication rgpd entreprise européen                 1
rôle avocat face automatisation juridique            1
réglementation propriété intellectuel                1
impa