<a href="https://colab.research.google.com/github/Wahiba275/TP1-NLP/blob/main/TP1_NLP.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#  **Natural Language Processing**

# Partie 1 : Pré-traitement de texte

In [76]:
corpus = [
    "Le chat dort sur le tapis.",
    "Les oiseaux chantent le matin.",
    "Le chien court dans le jardin.",
    "Mangeons des pommes délicieuses.",
    "Je mange une orange fraîche."
]
for phrase in corpus:
    print(phrase)

Le chat dort sur le tapis.
Les oiseaux chantent le matin.
Le chien court dans le jardin.
Mangeons des pommes délicieuses.
Je mange une orange fraîche.


In [77]:
import pandas as pd
df = pd.DataFrame(corpus, columns=['Texte'])
print(df)

                              Texte
0        Le chat dort sur le tapis.
1    Les oiseaux chantent le matin.
2    Le chien court dans le jardin.
3  Mangeons des pommes délicieuses.
4      Je mange une orange fraîche.


 Les approches courantes pour le prétraitement d'un corpus de textes:


1. **Tokenization**: Il s'agit de diviser un texte en unités plus petites, généralement des mots ou des phrases. Il Permet de travailler avec des unités de texte individuelles, facilitant ainsi l'analyse et la manipulation.
2. **Stemming**: Processus par lequel les mots sont réduits à leur forme de base ou racine. Il facilite la généralisation et la comparaison.
3. **Lemmatisation**: Semblable au stemming, mais utilise une approche basée sur le dictionnaire pour réduire les mots à leur forme canonique. Il offre une normalisation plus précise que le stemming.
4. **Stop-words**: Il s'agit de supprimer les mots courants qui sont généralement considérés comme non pertinents pour l'analyse, tels que "et", "le", "à", etc. Il Réduit la dimensionnalité du texte et met l'accent sur les mots pertinents.



In [78]:
import string
print (string.punctuation )
def code ( texte ) :
    text_s_pon = [ c for c in texte if c not in string.punctuation ]
    return text_s_pon

!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~


Le code ci-dessus utilise le module `string` pour identifier et supprimer tous les signes de ponctuation d'un texte donné. La fonction `code` prend une chaîne en entrée et renvoie une liste de caractères, excluant tout signe de ponctuation rencontré.

In [79]:
#Il faut modifier la fonction code pour ajouter un colonne à notre corpus
def code(texte):
    return ''.join([c for c in texte if c not in string.punctuation])
df['t_s_p'] = df['Texte'].apply(code)
print(df)

                              Texte                            t_s_p
0        Le chat dort sur le tapis.        Le chat dort sur le tapis
1    Les oiseaux chantent le matin.    Les oiseaux chantent le matin
2    Le chien court dans le jardin.    Le chien court dans le jardin
3  Mangeons des pommes délicieuses.  Mangeons des pommes délicieuses
4      Je mange une orange fraîche.      Je mange une orange fraîche


In [80]:
!pip install nltk



In [81]:
from nltk.tokenize import word_tokenize
import nltk
nltk.download('punkt')
nltk.download('wordnet')
nltk.download('omw-1.4')
nltk.download('stopwords')
def tokenize(text):
    return word_tokenize(text)
df['t_s_p'] = df['t_s_p'].apply(tokenize)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [82]:
print(df)

                              Texte                                 t_s_p
0        Le chat dort sur le tapis.      [Le, chat, dort, sur, le, tapis]
1    Les oiseaux chantent le matin.   [Les, oiseaux, chantent, le, matin]
2    Le chien court dans le jardin.  [Le, chien, court, dans, le, jardin]
3  Mangeons des pommes délicieuses.  [Mangeons, des, pommes, délicieuses]
4      Je mange une orange fraîche.     [Je, mange, une, orange, fraîche]


In [83]:
from nltk.corpus import stopwords
def remove_stopwords(tokens):
    stop_words = set(stopwords.words('french'))
    return [token for token in tokens if token.lower() not in stop_words]
df['t_s_p'] = df['t_s_p'].apply(remove_stopwords)
print(df)

                              Texte                            t_s_p
0        Le chat dort sur le tapis.              [chat, dort, tapis]
1    Les oiseaux chantent le matin.       [oiseaux, chantent, matin]
2    Le chien court dans le jardin.           [chien, court, jardin]
3  Mangeons des pommes délicieuses.  [Mangeons, pommes, délicieuses]
4      Je mange une orange fraîche.         [mange, orange, fraîche]


In [84]:
from nltk.stem import WordNetLemmatizer, PorterStemmer
lemmatizer = WordNetLemmatizer()
stemmer = PorterStemmer()

def lemmatize_and_stem(tokens):
    lemmatized = [lemmatizer.lemmatize(token) for token in tokens]
    stemmed = [stemmer.stem(token) for token in lemmatized]
    return stemmed
df['t_s_p'] = df['t_s_p'].apply(lemmatize_and_stem)
print(df)

                              Texte                       t_s_p
0        Le chat dort sur le tapis.          [chat, dort, tapi]
1    Les oiseaux chantent le matin.  [oiseaux, chantent, matin]
2    Le chien court dans le jardin.      [chien, court, jardin]
3  Mangeons des pommes délicieuses.  [mangeon, pomm, délicieus]
4      Je mange une orange fraîche.       [mang, orang, fraîch]


Au finale notre dataframe contiendra les colonnes originales et les nouvelles colonnes.

#Partie 2 : CountVectorizer

In [85]:
# Représentation vectorielle par comptage
from sklearn.feature_extraction.text import CountVectorizer

In [86]:
df['t_s_p'] = df['t_s_p'].apply(' '.join)
# Initialiser le CountVectorizer
vect = CountVectorizer()
# Adapter le modèle et transformer les données
X_vect = vect.fit_transform(df['t_s_p'])


In [87]:
print(X_vect)

  (0, 1)	1
  (0, 4)	1
  (0, 14)	1
  (1, 11)	1
  (1, 0)	1
  (1, 10)	1
  (2, 2)	1
  (2, 3)	1
  (2, 7)	1
  (3, 9)	1
  (3, 13)	1
  (3, 5)	1
  (4, 8)	1
  (4, 12)	1
  (4, 6)	1


In [88]:
print(df)

                              Texte                   t_s_p
0        Le chat dort sur le tapis.          chat dort tapi
1    Les oiseaux chantent le matin.  oiseaux chantent matin
2    Le chien court dans le jardin.      chien court jardin
3  Mangeons des pommes délicieuses.  mangeon pomm délicieus
4      Je mange une orange fraîche.       mang orang fraîch


In [89]:
import sklearn
print(vect.get_feature_names_out())

['chantent' 'chat' 'chien' 'court' 'dort' 'délicieus' 'fraîch' 'jardin'
 'mang' 'mangeon' 'matin' 'oiseaux' 'orang' 'pomm' 'tapi']


In [90]:
# Afficher la matrice sous forme dense
print(X_vect.todense())


[[0 1 0 0 1 0 0 0 0 0 0 0 0 0 1]
 [1 0 0 0 0 0 0 0 0 0 1 1 0 0 0]
 [0 0 1 1 0 0 0 1 0 0 0 0 0 0 0]
 [0 0 0 0 0 1 0 0 0 1 0 0 0 1 0]
 [0 0 0 0 0 0 1 0 1 0 0 0 1 0 0]]


In [91]:
vect_binary = CountVectorizer(binary=True)
X_vect_binary = vect_binary.fit_transform(df['t_s_p'])
# Afficher la matrice binaire
print(X_vect_binary.todense())


[[0 1 0 0 1 0 0 0 0 0 0 0 0 0 1]
 [1 0 0 0 0 0 0 0 0 0 1 1 0 0 0]
 [0 0 1 1 0 0 0 1 0 0 0 0 0 0 0]
 [0 0 0 0 0 1 0 0 0 1 0 0 0 1 0]
 [0 0 0 0 0 0 1 0 1 0 0 0 1 0 0]]


# Partie 3 : TfidfVectorizer

In [92]:
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf_vect = TfidfVectorizer()
tfidf_vect.fit(df['t_s_p'])
X_tfidf = tfidf_vect.transform(df['t_s_p'])


In [93]:
print(X_tfidf)

  (0, 14)	0.5773502691896258
  (0, 4)	0.5773502691896258
  (0, 1)	0.5773502691896258
  (1, 11)	0.5773502691896258
  (1, 10)	0.5773502691896258
  (1, 0)	0.5773502691896258
  (2, 7)	0.5773502691896258
  (2, 3)	0.5773502691896258
  (2, 2)	0.5773502691896258
  (3, 13)	0.5773502691896258
  (3, 9)	0.5773502691896258
  (3, 5)	0.5773502691896258
  (4, 12)	0.5773502691896258
  (4, 8)	0.5773502691896258
  (4, 6)	0.5773502691896258


In [94]:
# Affichage du vocabulaire
print(tfidf_vect.get_feature_names_out())

# Affichage de la matrice sous forme dense
print(X_tfidf.todense())


['chantent' 'chat' 'chien' 'court' 'dort' 'délicieus' 'fraîch' 'jardin'
 'mang' 'mangeon' 'matin' 'oiseaux' 'orang' 'pomm' 'tapi']
[[0.         0.57735027 0.         0.         0.57735027 0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.57735027]
 [0.57735027 0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.57735027 0.57735027
  0.         0.         0.        ]
 [0.         0.         0.57735027 0.57735027 0.         0.
  0.         0.57735027 0.         0.         0.         0.
  0.         0.         0.        ]
 [0.         0.         0.         0.         0.         0.57735027
  0.         0.         0.         0.57735027 0.         0.
  0.         0.57735027 0.        ]
 [0.         0.         0.         0.         0.         0.
  0.57735027 0.         0.57735027 0.         0.         0.
  0.57735027 0.         0.        ]]


In [95]:
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np
# Représentation vectorielle des mots "chat" et "chien"
chat_vector = np.asarray(tfidf_vect.transform(['chat']).todense())
chien_vector = np.asarray(tfidf_vect.transform(['chien']).todense())

# Similarité cosinus entre "chat" et "chien"
similarity_chat_chien = cosine_similarity(chat_vector, chien_vector)

# Représentation vectorielle des mots "pomme" et "orange"
pomme_vector = np.asarray(tfidf_vect.transform(['pomme']).todense())
orange_vector = np.asarray(tfidf_vect.transform(['orange']).todense())

# Similarité cosinus entre "pomme" et "orange"
similarity_pomme_orange = cosine_similarity(pomme_vector, orange_vector)

print(f'Similarité entre "chat" et "chien": {similarity_chat_chien[0][0]}')
print(f'Similarité entre "pomme" et "orange": {similarity_pomme_orange[0][0]}')


Similarité entre "chat" et "chien": 0.0
Similarité entre "pomme" et "orange": 0.0


In [96]:
import pandas as pd

In [97]:
data = pd.read_csv("Youtube02-KatyPerry.csv")
data.head(2)

Unnamed: 0,COMMENT_ID,AUTHOR,DATE,CONTENT,CLASS
0,z12pgdhovmrktzm3i23es5d5junftft3f,lekanaVEVO1,2014-07-22T15:27:50,i love this so much. AND also I Generate Free ...,1
1,z13yx345uxepetggz04ci5rjcxeohzlrtf4,Pyunghee,2014-07-27T01:57:16,http://www.billboard.com/articles/columns/pop-...,1


In [98]:
df=pd.DataFrame(data["CONTENT"])
df.head()

Unnamed: 0,CONTENT
0,i love this so much. AND also I Generate Free ...
1,http://www.billboard.com/articles/columns/pop-...
2,Hey guys! Please join me in my fight to help a...
3,http://psnboss.com/?ref=2tGgp3pV6L this is the...
4,Hey everyone. Watch this trailer!!!!!!!! http...


In [99]:
import re
def nettoyer_texte(texte):
    if isinstance(texte, str):
        # Supprimer la ponctuation et les caractères spéciaux
        texte = re.sub(r'[^\w\s]', '', texte)

        # Supprimer les liens (URLs)
        texte = re.sub(r'http\S+', '', texte)

    return texte

In [100]:
df['CONTENT'] = df['CONTENT'].apply(nettoyer_texte)
print(df)

                                               CONTENT
0    i love this so much AND also I Generate Free L...
1     Vote for SONES pleasewere against vipsplease ...
2    Hey guys Please join me in my fight to help ab...
3                                     this is the song
4                    Hey everyone Watch this trailer  
..                                                 ...
345  This song means so much to me thank you  soooo...
346                                                lt3
347  KATY PERRY I AM THE DÉCIO CABELO DECIO HAIR I ...
348  Honestly speaking except taylor swift and adel...
349  who is going to reach the billion first  katy ...

[350 rows x 1 columns]


In [101]:
df['CONTENT'] = df['CONTENT'].apply(tokenize)

In [102]:
print(df)

                                               CONTENT
0    [i, love, this, so, much, AND, also, I, Genera...
1    [Vote, for, SONES, pleasewere, against, vipspl...
2    [Hey, guys, Please, join, me, in, my, fight, t...
3                                [this, is, the, song]
4                [Hey, everyone, Watch, this, trailer]
..                                                 ...
345  [This, song, means, so, much, to, me, thank, y...
346                                              [lt3]
347  [KATY, PERRY, I, AM, THE, DÉCIO, CABELO, DECIO...
348  [Honestly, speaking, except, taylor, swift, an...
349  [who, is, going, to, reach, the, billion, firs...

[350 rows x 1 columns]


In [103]:
print(stopwords.words('english'))

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than', '

In [104]:
def remove_stopwords1(text):
    stop_words = set(stopwords.words('english'))
    filtered_words = [word for word in text if word.lower() not in stop_words]
    return filtered_words

In [105]:
df['CONTENT'] = df['CONTENT'].apply(remove_stopwords1)
print(df)

                                               CONTENT
0    [love, much, also, Generate, Free, Leads, Auto...
1    [Vote, SONES, pleasewere, vipsplease, help, us...
2    [Hey, guys, Please, join, fight, help, abusedm...
3                                               [song]
4                      [Hey, everyone, Watch, trailer]
..                                                 ...
345  [song, means, much, thank, soooooooooooooooooo...
346                                              [lt3]
347  [KATY, PERRY, DÉCIO, CABELO, DECIO, HAIR, 60, ...
348  [Honestly, speaking, except, taylor, swift, ad...
349       [going, reach, billion, first, katy, taylor]

[350 rows x 1 columns]


In [106]:
df['CONTENT'] = df['CONTENT'].apply(lemmatize_and_stem)
print(df)

                                               CONTENT
0    [love, much, also, gener, free, lead, auto, pi...
1    [vote, sone, pleasewer, vipspleas, help, u, gtlt]
2    [hey, guy, pleas, join, fight, help, abusedmis...
3                                               [song]
4                       [hey, everyon, watch, trailer]
..                                                 ...
345  [song, mean, much, thank, sooooooooooooooooooo...
346                                              [lt3]
347  [kati, perri, décio, cabelo, decio, hair, 60, ...
348  [honestli, speak, except, taylor, swift, adel,...
349          [go, reach, billion, first, kati, taylor]

[350 rows x 1 columns]


In [107]:
df['CONTENT'] = df['CONTENT'].apply(' '.join)
# Initialiser le CountVectorizer
vect = CountVectorizer()
# Adapter le modèle et transformer les données
X_vect = vect.fit_transform(df['CONTENT'])


In [108]:
print(X_vect)

  (0, 590)	1
  (0, 652)	1
  (0, 70)	1
  (0, 403)	1
  (0, 390)	1
  (0, 563)	1
  (0, 101)	1
  (0, 730)	1
  (0, 77)	1
  (1, 1033)	1
  (1, 876)	1
  (1, 739)	1
  (1, 1027)	1
  (1, 469)	1
  (1, 442)	1
  (2, 469)	4
  (2, 470)	1
  (2, 447)	1
  (2, 738)	2
  (2, 541)	1
  (2, 364)	1
  (2, 44)	1
  (2, 81)	3
  (2, 397)	1
  (2, 415)	1
  :	:
  (348, 856)	1
  (348, 465)	1
  (348, 290)	1
  (348, 515)	1
  (348, 818)	1
  (348, 360)	1
  (348, 482)	1
  (348, 944)	1
  (348, 935)	1
  (348, 634)	1
  (348, 892)	1
  (348, 333)	1
  (348, 54)	1
  (348, 576)	1
  (348, 640)	1
  (348, 656)	1
  (348, 1054)	1
  (348, 422)	1
  (348, 772)	1
  (349, 415)	1
  (349, 546)	1
  (349, 781)	1
  (349, 374)	1
  (349, 137)	1
  (349, 944)	1


In [109]:
print(df)

                                               CONTENT
0        love much also gener free lead auto pilot amp
1            vote sone pleasewer vipspleas help u gtlt
2    hey guy pleas join fight help abusedmistr anim...
3                                                 song
4                            hey everyon watch trailer
..                                                 ...
345  song mean much thank soooooooooooooooooooooooo...
346                                                lt3
347  kati perri décio cabelo decio hair 60 year age...
348  honestli speak except taylor swift adel dont l...
349                 go reach billion first kati taylor

[350 rows x 1 columns]


In [110]:
import sklearn
print(vect.get_feature_names_out())

['00' '04' '10' ... 'youtub' 'youtubefacebook' 'οh']


In [111]:
# Afficher la matrice sous forme dense
print(X_vect.todense())


[[0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 ...
 [0 0 0 ... 1 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]]


In [112]:
vect_binary = CountVectorizer(binary=True)
X_vect_binary = vect_binary.fit_transform(df['CONTENT'])
# Afficher la matrice binaire
print(X_vect_binary.todense())


[[0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 ...
 [0 0 0 ... 1 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]]


In [113]:
tfidf_vect1 = TfidfVectorizer()
tfidf_vect1.fit(df['CONTENT'])
X_tfidf1 = tfidf_vect1.transform(df['CONTENT'])

In [114]:
print(X_tfidf1)

  (0, 730)	0.4030558191912025
  (0, 652)	0.25258165647546416
  (0, 590)	0.1995872869395365
  (0, 563)	0.3577585826413426
  (0, 403)	0.4030558191912025
  (0, 390)	0.27138170825736024
  (0, 101)	0.4030558191912025
  (0, 77)	0.3312613978733787
  (0, 70)	0.3124613460914826
  (1, 1033)	0.33821531584069
  (1, 1027)	0.44729546753584537
  (1, 876)	0.44729546753584537
  (1, 739)	0.44729546753584537
  (1, 469)	0.2920915250710644
  (1, 442)	0.44729546753584537
  (2, 1069)	0.11906364968963955
  (2, 1018)	0.17683320357038285
  (2, 866)	0.17683320357038285
  (2, 768)	0.15056210949500456
  (2, 738)	0.17387005942262154
  (2, 732)	0.15695988808750344
  (2, 716)	0.17683320357038285
  (2, 706)	0.17683320357038285
  (2, 704)	0.17683320357038285
  (2, 698)	0.12795614310463507
  :	:
  (348, 892)	0.23741693391579186
  (348, 877)	0.10585505350403472
  (348, 856)	0.18919310939650194
  (348, 818)	0.18919310939650194
  (348, 772)	0.23741693391579186
  (348, 722)	0.11428729567257438
  (348, 656)	0.237416933915791

In [115]:
# Affichage du vocabulaire
print(tfidf_vect1.get_feature_names_out())

# Affichage de la matrice sous forme dense
print(X_tfidf1.todense())

['00' '04' '10' ... 'youtub' 'youtubefacebook' 'οh']
[[0.        0.        0.        ... 0.        0.        0.       ]
 [0.        0.        0.        ... 0.        0.        0.       ]
 [0.        0.        0.        ... 0.        0.        0.       ]
 ...
 [0.        0.        0.        ... 0.1104885 0.        0.       ]
 [0.        0.        0.        ... 0.        0.        0.       ]
 [0.        0.        0.        ... 0.        0.        0.       ]]
