<a href="https://colab.research.google.com/github/Moh2106/nlp_atelier1/blob/main/nlp_atelier1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

OBJECTIF:
Le but de cet atelier est de mettre en pratique et comprendre les différentes étapes afin de
préparer un texte pour la machine. C’est-à-dire appliquer des techniques pour rendre un texte
sous forme des vecteurs numériques exploitables par des modèles de machine learning(représentation vectorielle). Pour cela, on va utiliser les bibliothèques de Python, à savoir
CountVectorizer et TfidfVectorizer.

### Partie 1 : Pré-traitement de texte

In [None]:
import pandas as pd
import string
import nltk
from nltk import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer, WordNetLemmatizer

In [None]:
# corpus
corpus = [
    "Le chat dort sur le tapis.",
    "Les Oiseaux Chantent Le Matin.",
    " Le chien court dans le jardin. ",
    "Mangeons des pommes délicieuses.",
    "Je mange une orange fraîche."
    ]

In [None]:
# convert corpus to dataframe
df = pd.DataFrame(corpus, columns=['text'])
df

Unnamed: 0,text
0,Le chat dort sur le tapis.
1,Les Oiseaux Chantent Le Matin.
2,Le chien court dans le jardin.
3,Mangeons des pommes délicieuses.
4,Je mange une orange fraîche.


In [None]:
# string punctuation
string.punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [None]:
def deletePunctuation(texte):
  result = [word for word in texte if word not in string.punctuation]
  return "".join(result)

In [None]:
deletePunctuation("Bonjour math..")

'Bonjour math'

In [None]:
df['t_s_p'] = df['text'].apply(deletePunctuation)
df

Unnamed: 0,text,t_s_p
0,Le chat dort sur le tapis.,Le chat dort sur le tapis
1,Les Oiseaux Chantent Le Matin.,Les Oiseaux Chantent Le Matin
2,Le chien court dans le jardin.,Le chien court dans le jardin
3,Mangeons des pommes délicieuses.,Mangeons des pommes délicieuses
4,Je mange une orange fraîche.,Je mange une orange fraîche


In [None]:
# Ecrire une fonction pour tokinezer le corpus de colonne « t_s_p ».
def tokenizeTexte(texte):
  texte = texte.lower()
  return word_tokenize(texte, language="french")

In [None]:
# download stopwords
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [None]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [None]:
french = set(stopwords.words('french'))
print(french)

{'eus', 'eûtes', 'étés', 'suis', 'étants', 'leur', 'lui', 'ne', 'te', 'serais', 'serait', 'avez', 'eurent', 'd', 'serions', 'fusse', 'une', 'tes', 'notre', 'eusses', 'ait', 'eûmes', 'soit', 'eux', 'n', 'étantes', 'ce', 'même', 'se', 'eût', 'ma', 'avait', 'étées', 'j', 'aux', 'furent', 'pour', 'seront', 'serons', 'ont', 'seriez', 'que', 'seras', 'aurais', 'étaient', 'ton', 'étant', 'étions', 'qui', 'au', 'il', 'es', 'sommes', 'elle', 'vos', 'étée', 'l', 'fus', 'êtes', 'avec', 'soyons', 'toi', 'ai', 'ayant', 'eut', 'ou', 'mais', 'du', 'étante', 'étais', 'soient', 'serez', 'me', 'fussions', 'son', 'avaient', 'qu', 'avons', 'auras', 'nos', 'mes', 'avais', 'mon', 'as', 'aurons', 'fûtes', 'tu', 'eusse', 's', 'ils', 'dans', 'eussions', 'des', 'auront', 'à', 'y', 'un', 'auraient', 'fussent', 'sera', 'sa', 'aurions', 'et', 'eussiez', 'avions', 'aurai', 'votre', 'moi', 'les', 'seraient', 'sont', 'ces', 'm', 'est', 'aura', 'aurez', 'aurait', 'nous', 'de', 'eues', 'fussiez', 'eussent', 'ayantes', 

In [None]:
def deleteStopWord(texte):
  result = [word for word in texte if word not in french]
  return result

In [None]:
result = deleteStopWord(['nous', 'chat', 'leur'])
result

['chat']

In [None]:
df['t_token'] = df['t_s_p'].apply(tokenizeTexte)
df

Unnamed: 0,text,t_s_p,t_token
0,Le chat dort sur le tapis.,Le chat dort sur le tapis,"[le, chat, dort, sur, le, tapis]"
1,Les Oiseaux Chantent Le Matin.,Les Oiseaux Chantent Le Matin,"[les, oiseaux, chantent, le, matin]"
2,Le chien court dans le jardin.,Le chien court dans le jardin,"[le, chien, court, dans, le, jardin]"
3,Mangeons des pommes délicieuses.,Mangeons des pommes délicieuses,"[mangeons, des, pommes, délicieuses]"
4,Je mange une orange fraîche.,Je mange une orange fraîche,"[je, mange, une, orange, fraîche]"


In [None]:
df['t_without_stopword'] = df['t_token'].apply(deleteStopWord)
df

Unnamed: 0,text,t_s_p,t_token,t_without_stopword
0,Le chat dort sur le tapis.,Le chat dort sur le tapis,"[le, chat, dort, sur, le, tapis]","[chat, dort, tapis]"
1,Les Oiseaux Chantent Le Matin.,Les Oiseaux Chantent Le Matin,"[les, oiseaux, chantent, le, matin]","[oiseaux, chantent, matin]"
2,Le chien court dans le jardin.,Le chien court dans le jardin,"[le, chien, court, dans, le, jardin]","[chien, court, jardin]"
3,Mangeons des pommes délicieuses.,Mangeons des pommes délicieuses,"[mangeons, des, pommes, délicieuses]","[mangeons, pommes, délicieuses]"
4,Je mange une orange fraîche.,Je mange une orange fraîche,"[je, mange, une, orange, fraîche]","[mange, orange, fraîche]"


In [None]:
stemming = PorterStemmer()
def applyStemming(texte):
  result = [stemming.stem(word) for word in texte]
  return result

In [None]:
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /root/nltk_data...


True

In [None]:
lemmatizer = WordNetLemmatizer()
def applyLemmetizer(texte):
  result = [lemmatizer.lemmatize(word) for word in texte]
  return result

In [None]:
df['t_stemming'] = df['t_without_stopword'].apply(applyStemming)
df['t_lemmatize'] = df['t_without_stopword'].apply(applyLemmetizer)
df

Unnamed: 0,text,t_s_p,t_token,t_without_stopword,t_stemming,t_lemmatize
0,Le chat dort sur le tapis.,Le chat dort sur le tapis,"[le, chat, dort, sur, le, tapis]","[chat, dort, tapis]","[chat, dort, tapi]","[chat, dort, tapis]"
1,Les Oiseaux Chantent Le Matin.,Les Oiseaux Chantent Le Matin,"[les, oiseaux, chantent, le, matin]","[oiseaux, chantent, matin]","[oiseaux, chantent, matin]","[oiseaux, chantent, matin]"
2,Le chien court dans le jardin.,Le chien court dans le jardin,"[le, chien, court, dans, le, jardin]","[chien, court, jardin]","[chien, court, jardin]","[chien, court, jardin]"
3,Mangeons des pommes délicieuses.,Mangeons des pommes délicieuses,"[mangeons, des, pommes, délicieuses]","[mangeons, pommes, délicieuses]","[mangeon, pomm, délicieus]","[mangeons, pommes, délicieuses]"
4,Je mange une orange fraîche.,Je mange une orange fraîche,"[je, mange, une, orange, fraîche]","[mange, orange, fraîche]","[mang, orang, fraîch]","[mange, orange, fraîche]"


### Partie 2 : CountVectorizer

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

In [None]:
count_vectorizer = CountVectorizer()
count_vectorizer.fit(corpus)

In [None]:
vectorizer = count_vectorizer.transform(corpus)
word_matrix = vectorizer.toarray()
word_matrix

array([[0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 2, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0],
       [1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0],
       [0, 0, 1, 1, 1, 0, 0, 0, 0, 1, 0, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1]])

### Partie 3 : TfidfVectorizer

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [None]:
tdidfvectorizer = TfidfVectorizer()

In [None]:
tdidfvectorizer.fit(corpus)

In [None]:
tdidf_matrix = tdidfvectorizer.transform(corpus)
tdidf_matrix = tdidf_matrix.toarray()
tdidf_matrix

array([[0.        , 0.41544037, 0.        , 0.        , 0.        ,
        0.        , 0.41544037, 0.        , 0.        , 0.        ,
        0.        , 0.55645052, 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.41544037,
        0.41544037, 0.        ],
       [0.47412465, 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.3175268 , 0.47412465, 0.        , 0.        ,
        0.47412465, 0.47412465, 0.        , 0.        , 0.        ,
        0.        , 0.        ],
       [0.        , 0.        , 0.41544037, 0.41544037, 0.41544037,
        0.        , 0.        , 0.        , 0.        , 0.41544037,
        0.        , 0.55645052, 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.        , 0.        ,
        0.5      

### Partie 4 : Application sur dataset YourubeSpam collection

In [78]:
psy_dataset = pd.read_csv('/content/Youtube01-Psy.csv')
psy_dataset

Unnamed: 0,COMMENT_ID,AUTHOR,DATE,CONTENT,CLASS
0,LZQPQhLyRh80UYxNuaDWhIGQYNQ96IuCg-AYWqNPjpU,Julius NM,2013-11-07T06:20:48,"Huh, anyway check out this you[tube] channel: ...",1
1,LZQPQhLyRh_C2cTtd9MvFRJedxydaVW-2sNg5Diuo4A,adam riyati,2013-11-07T12:37:15,Hey guys check out my new channel and our firs...,1
2,LZQPQhLyRh9MSZYnf8djyk0gEF9BHDPYrrK-qCczIY8,Evgeny Murashkin,2013-11-08T17:34:21,just for test I have to say murdev.com,1
3,z13jhp0bxqncu512g22wvzkasxmvvzjaz04,ElNino Melendez,2013-11-09T08:28:43,me shaking my sexy ass on my channel enjoy ^_^ ﻿,1
4,z13fwbwp1oujthgqj04chlngpvzmtt3r3dw,GsMega,2013-11-10T16:05:38,watch?v=vtaRGgvGtWQ Check this out .﻿,1
...,...,...,...,...,...
345,z13th1q4yzihf1bll23qxzpjeujterydj,Carmen Racasanu,2014-11-14T13:27:52,How can this have 2 billion views when there's...,0
346,z13fcn1wfpb5e51xe04chdxakpzgchyaxzo0k,diego mogrovejo,2014-11-14T13:28:08,I don't now why I'm watching this in 2014﻿,0
347,z130zd5b3titudkoe04ccbeohojxuzppvbg,BlueYetiPlayz -Call Of Duty and More,2015-05-23T13:04:32,subscribe to me for call of duty vids and give...,1
348,z12he50arvrkivl5u04cctawgxzkjfsjcc4,Photo Editor,2015-06-05T14:14:48,hi guys please my android photo editor downloa...,1
