# Partie 1 : Pré-traitement de texte

# 1. Créer un corpus qui contient les textes :

In [1]:
corpus = ["Le chat dort sur le tapis.",
          "Les Oiseaux Chantent Le Matin.",
          "Le chien court dans le jardin.",
          "Mangeons des pommes délicieuses.",
          "Je mange une orange fraîche."]

# 2. Convertir le corpus en type DataFrame :

In [2]:
import pandas as pd
df = pd.DataFrame(corpus, columns=['texte_original'])

# 3 Ecrire code suivant : 

In [3]:
import string
print(string.punctuation)

!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~


In [4]:
def code(texte):
    text_s_pon = [c for c in texte if c not in string.punctuation]
    return ''.join(text_s_pon)

# 5. Ajouter une colonne dans l’objet corpus nommée « t_s_p » en utilisant la fonction de Q.4

In [5]:
df['t_s_p'] = df['texte_original'].apply(code)

In [6]:
df

Unnamed: 0,texte_original,t_s_p
0,Le chat dort sur le tapis.,Le chat dort sur le tapis
1,Les Oiseaux Chantent Le Matin.,Les Oiseaux Chantent Le Matin
2,Le chien court dans le jardin.,Le chien court dans le jardin
3,Mangeons des pommes délicieuses.,Mangeons des pommes délicieuses
4,Je mange une orange fraîche.,Je mange une orange fraîche


# 6. Ecrire une fonction pour tokenizer le corpus de colonne « t_s_p » :

In [7]:
import nltk
from nltk.tokenize import word_tokenize

nltk.download('punkt')

def tokenization_and_preprocessing_function(text):
    tokens = word_tokenize(text.lower())  # Tokenization et conversion en minuscules
    return tokens  # Rejoindre les tokens en une seule chaîne de texte

[nltk_data] Downloading package punkt to C:\Users\Lehcene
[nltk_data]     Mohamed\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [8]:
df['t_tokenize'] = df['t_s_p'].apply(tokenization_and_preprocessing_function)

In [9]:
df

Unnamed: 0,texte_original,t_s_p,t_tokenize
0,Le chat dort sur le tapis.,Le chat dort sur le tapis,"[le, chat, dort, sur, le, tapis]"
1,Les Oiseaux Chantent Le Matin.,Les Oiseaux Chantent Le Matin,"[les, oiseaux, chantent, le, matin]"
2,Le chien court dans le jardin.,Le chien court dans le jardin,"[le, chien, court, dans, le, jardin]"
3,Mangeons des pommes délicieuses.,Mangeons des pommes délicieuses,"[mangeons, des, pommes, délicieuses]"
4,Je mange une orange fraîche.,Je mange une orange fraîche,"[je, mange, une, orange, fraîche]"


# 7. Ecrire une fonction qui élimine les stop words :

In [10]:
from nltk.corpus import stopwords
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to C:\Users\Lehcene
[nltk_data]     Mohamed\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [11]:
def remove_stopwords(tokens):
    stop_words = set(stopwords.words('french'))
    filtered_tokens = [word for word in tokens if word.lower() not in stop_words]
    return filtered_tokens

In [12]:
df["text_after_remove_stop_word"] = df["t_tokenize"].apply(remove_stopwords)  # Appliquez remove_stopwords sur les listes de tokens

In [14]:
df.head(1)

Unnamed: 0,texte_original,t_s_p,t_tokenize,text_after_remove_stop_word
0,Le chat dort sur le tapis.,Le chat dort sur le tapis,"[le, chat, dort, sur, le, tapis]","[chat, dort, tapis]"


In [15]:
from nltk.stem import WordNetLemmatizer
from nltk.stem import PorterStemmer
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to C:\Users\Lehcene
[nltk_data]     Mohamed\AppData\Roaming\nltk_data...


True

In [24]:
def apply_lemmatization_and_stemming(text):
    text = ' '.join(text)
    lemmatizer = WordNetLemmatizer()
    stemmer = PorterStemmer()
    tokens = word_tokenize(text)
    lemmatized_tokens = [lemmatizer.lemmatize(stemmer.stem(word)) for word in tokens]
    return lemmatized_tokens

In [25]:
df["lemmatization_and_stemming_with_corpus_with_have_any_stop_words"]=df["text_after_remove_stop_word"].apply(apply_lemmatization_and_stemming)

In [26]:
df.head(1)

Unnamed: 0,texte_original,t_s_p,t_tokenize,text_after_remove_stop_word,lemmatization_and_stemming_with_corpus_with_have_any_stop_words
0,Le chat dort sur le tapis.,Le chat dort sur le tapis,"[le, chat, dort, sur, le, tapis]","[chat, dort, tapis]","[chat, dort, tapi]"


# Partie 2 : CountVectorizer

# 9. Initialiser et ajuster le CountVectorizer à votre corpus :

In [27]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(df['t_s_p'])

# 10. Transformer le corpus en une matrice de comptage de tokens :


In [30]:
count_matrix = X.toarray()

# 11. Explorer la matrice résultante pour comprendre comment les tokens sont représentés en vecteurs binaires :

In [29]:
feature_names = vectorizer.get_feature_names_out()
count_df = pd.DataFrame(count_matrix, columns=feature_names)
print(count_df)

   chantent  chat  chien  court  dans  des  dort  délicieuses  fraîche  \
0         0     1      0      0     0    0     1            0        0   
1         1     0      0      0     0    0     0            0        0   
2         0     0      1      1     1    0     0            0        0   
3         0     0      0      0     0    1     0            1        0   
4         0     0      0      0     0    0     0            0        1   

   jardin  ...  les  mange  mangeons  matin  oiseaux  orange  pommes  sur  \
0       0  ...    0      0         0      0        0       0       0    1   
1       0  ...    1      0         0      1        1       0       0    0   
2       1  ...    0      0         0      0        0       0       0    0   
3       0  ...    0      0         1      0        0       0       1    0   
4       0  ...    0      1         0      0        0       1       0    0   

   tapis  une  
0      1    0  
1      0    0  
2      0    0  
3      0    0  
4      0    

# Partie 3 : TfidfVectorizer

# 1. Initialiser et ajuster le TfidfVectorizer à votre corpus :

In [31]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(df['t_s_p'])

# 2. Transformer le corpus en une matrice de poids de tokens dans le corpus :

In [33]:
tfidf_matrix = X.toarray()

# 3. Explorer la matrice résultante pour comprendre comment les tokens sont représentés :

In [34]:
tfidf_df = pd.DataFrame(tfidf_matrix, columns=feature_names)
print(tfidf_df)

   chantent     chat    chien    court     dans  des     dort  délicieuses  \
0  0.000000  0.41544  0.00000  0.00000  0.00000  0.0  0.41544          0.0   
1  0.474125  0.00000  0.00000  0.00000  0.00000  0.0  0.00000          0.0   
2  0.000000  0.00000  0.41544  0.41544  0.41544  0.0  0.00000          0.0   
3  0.000000  0.00000  0.00000  0.00000  0.00000  0.5  0.00000          0.5   
4  0.000000  0.00000  0.00000  0.00000  0.00000  0.0  0.00000          0.0   

    fraîche   jardin  ...       les     mange  mangeons     matin   oiseaux  \
0  0.000000  0.00000  ...  0.000000  0.000000       0.0  0.000000  0.000000   
1  0.000000  0.00000  ...  0.474125  0.000000       0.0  0.474125  0.474125   
2  0.000000  0.41544  ...  0.000000  0.000000       0.0  0.000000  0.000000   
3  0.000000  0.00000  ...  0.000000  0.000000       0.5  0.000000  0.000000   
4  0.447214  0.00000  ...  0.000000  0.447214       0.0  0.000000  0.000000   

     orange  pommes      sur    tapis       une  
0  0.0

# 4. Appliquer la métrique similarité de cosinus entre les tokens « chat et chien », puis après « pomme et orange » sur les deux représentations vectorielles. Conclure ?

In [37]:
from sklearn.metrics.pairwise import cosine_similarity

cosine_similarity_chat_chien = cosine_similarity(tfidf_df[['chat']], tfidf_df[['chien']])[0][0]
cosine_similarity_pomme_orange = cosine_similarity(tfidf_df[['pommes']], tfidf_df[['orange']])[0][0]

print("Similarité de cosinus entre 'chat' et 'chien':", cosine_similarity_chat_chien)
print("Similarité de cosinus entre 'pomme' et 'orange':", cosine_similarity_pomme_orange)

Similarité de cosinus entre 'chat' et 'chien': 0.0
Similarité de cosinus entre 'pomme' et 'orange': 0.0
