<a href="https://colab.research.google.com/github/Wahiba275/TP1-NLP/blob/main/TP1_NLP.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#  **Natural Language Processing**

# Partie 1 : Pré-traitement de texte

In [79]:
corpus = [
    "Le chat dort sur le tapis.",
    "Les oiseaux chantent le matin.",
    "Le chien court dans le jardin.",
    "Mangeons des pommes délicieuses.",
    "Je mange une orange fraîche."
]
for phrase in corpus:
    print(phrase)

Le chat dort sur le tapis.
Les oiseaux chantent le matin.
Le chien court dans le jardin.
Mangeons des pommes délicieuses.
Je mange une orange fraîche.


In [80]:
import pandas as pd
df = pd.DataFrame(corpus, columns=['Texte'])
print(df)

                              Texte
0        Le chat dort sur le tapis.
1    Les oiseaux chantent le matin.
2    Le chien court dans le jardin.
3  Mangeons des pommes délicieuses.
4      Je mange une orange fraîche.


 Les approches courantes pour le prétraitement d'un corpus de textes:


1. **Tokenization**: Il s'agit de diviser un texte en unités plus petites, généralement des mots ou des phrases. Il Permet de travailler avec des unités de texte individuelles, facilitant ainsi l'analyse et la manipulation.
2. **Stemming**: Processus par lequel les mots sont réduits à leur forme de base ou racine. Il facilite la généralisation et la comparaison.
3. **Lemmatisation**: Semblable au stemming, mais utilise une approche basée sur le dictionnaire pour réduire les mots à leur forme canonique. Il offre une normalisation plus précise que le stemming.
4. **Stop-words**: Il s'agit de supprimer les mots courants qui sont généralement considérés comme non pertinents pour l'analyse, tels que "et", "le", "à", etc. Il Réduit la dimensionnalité du texte et met l'accent sur les mots pertinents.



In [81]:
import string
print (string.punctuation )
def code ( texte ) :
    text_s_pon = [ c for c in texte if c not in string.punctuation ]
    return text_s_pon

!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~


Le code ci-dessus utilise le module `string` pour identifier et supprimer tous les signes de ponctuation d'un texte donné. La fonction `code` prend une chaîne en entrée et renvoie une liste de caractères, excluant tout signe de ponctuation rencontré.

In [82]:
#Il faut modifier la fonction code pour ajouter un colonne à notre corpus
def code(texte):
    return ''.join([c for c in texte if c not in string.punctuation])
df['t_s_p'] = df['Texte'].apply(code)
print(df)

                              Texte                            t_s_p
0        Le chat dort sur le tapis.        Le chat dort sur le tapis
1    Les oiseaux chantent le matin.    Les oiseaux chantent le matin
2    Le chien court dans le jardin.    Le chien court dans le jardin
3  Mangeons des pommes délicieuses.  Mangeons des pommes délicieuses
4      Je mange une orange fraîche.      Je mange une orange fraîche


In [83]:
!pip install nltk



In [84]:
from nltk.tokenize import word_tokenize
import nltk
nltk.download('punkt')
nltk.download('wordnet')
nltk.download('omw-1.4')
nltk.download('stopwords')
def tokenize(text):
    return word_tokenize(text)
df['t_s_p'] = df['t_s_p'].apply(tokenize)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [85]:
print(df)

                              Texte                                 t_s_p
0        Le chat dort sur le tapis.      [Le, chat, dort, sur, le, tapis]
1    Les oiseaux chantent le matin.   [Les, oiseaux, chantent, le, matin]
2    Le chien court dans le jardin.  [Le, chien, court, dans, le, jardin]
3  Mangeons des pommes délicieuses.  [Mangeons, des, pommes, délicieuses]
4      Je mange une orange fraîche.     [Je, mange, une, orange, fraîche]


In [86]:
from nltk.corpus import stopwords
def remove_stopwords(tokens):
    stop_words = set(stopwords.words('french'))
    return [token for token in tokens if token.lower() not in stop_words]
df['t_s_p'] = df['t_s_p'].apply(remove_stopwords)
print(df)

                              Texte                            t_s_p
0        Le chat dort sur le tapis.              [chat, dort, tapis]
1    Les oiseaux chantent le matin.       [oiseaux, chantent, matin]
2    Le chien court dans le jardin.           [chien, court, jardin]
3  Mangeons des pommes délicieuses.  [Mangeons, pommes, délicieuses]
4      Je mange une orange fraîche.         [mange, orange, fraîche]


In [87]:
from nltk.stem import WordNetLemmatizer, PorterStemmer
lemmatizer = WordNetLemmatizer()
stemmer = PorterStemmer()

def lemmatize_and_stem(tokens):
    lemmatized = [lemmatizer.lemmatize(token) for token in tokens]
    stemmed = [stemmer.stem(token) for token in lemmatized]
    return stemmed
df['t_s_p'] = df['t_s_p'].apply(lemmatize_and_stem)
print(df)

                              Texte                       t_s_p
0        Le chat dort sur le tapis.          [chat, dort, tapi]
1    Les oiseaux chantent le matin.  [oiseaux, chantent, matin]
2    Le chien court dans le jardin.      [chien, court, jardin]
3  Mangeons des pommes délicieuses.  [mangeon, pomm, délicieus]
4      Je mange une orange fraîche.       [mang, orang, fraîch]


Au finale notre dataframe contiendra les colonnes originales et les nouvelles colonnes.

#Partie 2 : CountVectorizer

In [88]:
# Représentation vectorielle par comptage
from sklearn.feature_extraction.text import CountVectorizer

In [89]:
df['t_s_p'] = df['t_s_p'].apply(' '.join)
# Initialiser le CountVectorizer
vect = CountVectorizer()
# Adapter le modèle et transformer les données
X_vect = vect.fit_transform(df['t_s_p'])


In [90]:
print(X_vect)

  (0, 1)	1
  (0, 4)	1
  (0, 14)	1
  (1, 11)	1
  (1, 0)	1
  (1, 10)	1
  (2, 2)	1
  (2, 3)	1
  (2, 7)	1
  (3, 9)	1
  (3, 13)	1
  (3, 5)	1
  (4, 8)	1
  (4, 12)	1
  (4, 6)	1


In [91]:
print(df)

                              Texte                   t_s_p
0        Le chat dort sur le tapis.          chat dort tapi
1    Les oiseaux chantent le matin.  oiseaux chantent matin
2    Le chien court dans le jardin.      chien court jardin
3  Mangeons des pommes délicieuses.  mangeon pomm délicieus
4      Je mange une orange fraîche.       mang orang fraîch


In [92]:
import sklearn
print(vect.get_feature_names_out())

['chantent' 'chat' 'chien' 'court' 'dort' 'délicieus' 'fraîch' 'jardin'
 'mang' 'mangeon' 'matin' 'oiseaux' 'orang' 'pomm' 'tapi']


In [93]:
# Afficher la matrice sous forme dense
print(X_vect.todense())


[[0 1 0 0 1 0 0 0 0 0 0 0 0 0 1]
 [1 0 0 0 0 0 0 0 0 0 1 1 0 0 0]
 [0 0 1 1 0 0 0 1 0 0 0 0 0 0 0]
 [0 0 0 0 0 1 0 0 0 1 0 0 0 1 0]
 [0 0 0 0 0 0 1 0 1 0 0 0 1 0 0]]


In [94]:
vect_binary = CountVectorizer(binary=True)
X_vect_binary = vect_binary.fit_transform(df['t_s_p'])
# Afficher la matrice binaire
print(X_vect_binary.todense())


[[0 1 0 0 1 0 0 0 0 0 0 0 0 0 1]
 [1 0 0 0 0 0 0 0 0 0 1 1 0 0 0]
 [0 0 1 1 0 0 0 1 0 0 0 0 0 0 0]
 [0 0 0 0 0 1 0 0 0 1 0 0 0 1 0]
 [0 0 0 0 0 0 1 0 1 0 0 0 1 0 0]]


# Partie 3 : TfidfVectorizer

In [95]:
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf_vect = TfidfVectorizer()
tfidf_vect.fit(df['t_s_p'])
X_tfidf = tfidf_vect.transform(df['t_s_p'])


In [96]:
print(X_tfidf)

  (0, 14)	0.5773502691896258
  (0, 4)	0.5773502691896258
  (0, 1)	0.5773502691896258
  (1, 11)	0.5773502691896258
  (1, 10)	0.5773502691896258
  (1, 0)	0.5773502691896258
  (2, 7)	0.5773502691896258
  (2, 3)	0.5773502691896258
  (2, 2)	0.5773502691896258
  (3, 13)	0.5773502691896258
  (3, 9)	0.5773502691896258
  (3, 5)	0.5773502691896258
  (4, 12)	0.5773502691896258
  (4, 8)	0.5773502691896258
  (4, 6)	0.5773502691896258


In [97]:
# Affichage du vocabulaire
print(tfidf_vect.get_feature_names_out())

# Affichage de la matrice sous forme dense
print(X_tfidf.todense())


['chantent' 'chat' 'chien' 'court' 'dort' 'délicieus' 'fraîch' 'jardin'
 'mang' 'mangeon' 'matin' 'oiseaux' 'orang' 'pomm' 'tapi']
[[0.         0.57735027 0.         0.         0.57735027 0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.57735027]
 [0.57735027 0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.57735027 0.57735027
  0.         0.         0.        ]
 [0.         0.         0.57735027 0.57735027 0.         0.
  0.         0.57735027 0.         0.         0.         0.
  0.         0.         0.        ]
 [0.         0.         0.         0.         0.         0.57735027
  0.         0.         0.         0.57735027 0.         0.
  0.         0.57735027 0.        ]
 [0.         0.         0.         0.         0.         0.
  0.57735027 0.         0.57735027 0.         0.         0.
  0.57735027 0.         0.        ]]


In [98]:
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np
# Représentation vectorielle des mots "chat" et "chien"
chat_vector = np.asarray(tfidf_vect.transform(['chat']).todense())
chien_vector = np.asarray(tfidf_vect.transform(['chien']).todense())

# Similarité cosinus entre "chat" et "chien"
similarity_chat_chien = cosine_similarity(chat_vector, chien_vector)

# Représentation vectorielle des mots "pomme" et "orange"
pomme_vector = np.asarray(tfidf_vect.transform(['pomme']).todense())
orange_vector = np.asarray(tfidf_vect.transform(['orange']).todense())

# Similarité cosinus entre "pomme" et "orange"
similarity_pomme_orange = cosine_similarity(pomme_vector, orange_vector)

print(f'Similarité entre "chat" et "chien": {similarity_chat_chien[0][0]}')
print(f'Similarité entre "pomme" et "orange": {similarity_pomme_orange[0][0]}')


Similarité entre "chat" et "chien": 0.0
Similarité entre "pomme" et "orange": 0.0
