https://www.kaggle.com/datasets/ramjasmaurya/poem-classification-nlp?select=Poem_classification+-+train_data.csv

In [1]:
import numpy as np
import pandas as pd

In [2]:
data = pd.read_csv("Essai.csv")

In [3]:
data.head()

Unnamed: 0,Text,Language
0,"Nature, in the broadest sense, is the natural...",English
1,"""Nature"" can refer to the phenomena of the phy...",English
2,"The study of nature is a large, if not the onl...",English
3,"Although humans are part of nature, human acti...",English
4,[1] The word nature is borrowed from the Old F...,English


> ### Suppression des doublons

In [4]:
data['Text'].duplicated().sum()

70

In [5]:
data = data.drop_duplicates(subset=['Text'])

In [6]:
data['Text'].duplicated().sum()

0

> ### Suppression des valeurs manquantes (NaNs)

In [7]:
display(pd.DataFrame(data.isna().sum(), columns=['NaN(s) (data)']))

Unnamed: 0,NaN(s) (data)
Text,0
Language,0


In [8]:
data = data.dropna(axis=0).reset_index(drop = True)

In [9]:
display(pd.DataFrame(data.isna().sum(), columns=['NaN(s) (data)']))

Unnamed: 0,NaN(s) (data)
Text,0
Language,0


># Creation du dataset English

In [10]:
english_data = data[data['Language'] == 'English'].reset_index(drop = True)
english_data.head()

Unnamed: 0,Text,Language
0,"Nature, in the broadest sense, is the natural...",English
1,"""Nature"" can refer to the phenomena of the phy...",English
2,"The study of nature is a large, if not the onl...",English
3,"Although humans are part of nature, human acti...",English
4,[1] The word nature is borrowed from the Old F...,English


> # Bag-Of-Words
>
>C'est une méthode consiste principalement à nettoyer les données textuelles à notre disposition d’une certaine manière afin de pouvoir ensuite les fournir en entrée de modèles d’apprentissage automatique 

>Un bag-of-words est une représentation du texte qui décrit la présence de mots dans un document. Cela implique deux choses :
>
>un vocabulaire de mots connus,
>une mesure de la présence des mots connus.
>
>
>Le premier point lié au vocabulaire repose sur des étapes de :
>
>normalisation du texte
>tokenization
>suppression des stopwords
>lemmatization (ou stemming)
>Le second point consacrée à la mesure peut être calculé de plusieurs manières différentes :
>
>le comptage (compter le nombre de fois que chaque mot apparaît dans un document),
>les fréquences (calculer la fréquence à laquelle chaque mot apparaît dans un document parmi tous les mots du document. La métrique la plus connue étant TF-IDF,
>le hachage.

># Stopwords
>
>Les stopwords, ou mots vides en français, désignent les mots qui n’apporte pas de valeur dans la compréhension d’un texte.

In [1]:
import nltk
from nltk.corpus import stopwords
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/emilienbonhomme/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [12]:
english_stop_words = stopwords.words ('english')

In [13]:
english_data['NoStopwords'] = english_data['Text'].apply(lambda x: ' '.join([word for word in x.split() if word not in (english_stop_words)]))


In [14]:
print(f"{english_data.iloc[833,[0,2]]}")


Text           Positive results show that a certain class of ...
NoStopwords    Positive results show certain class functions ...
Name: 833, dtype: object


># Count Vectorizer
>
>C'est une fonction qui va découper (via expression régulière) la phrase. Ici nous allons créer un vocabulaire à partir de la colonne Description et « tokenizer » toutes les colonnes.



In [15]:
english_vectorized_data = english_data.iloc[[800],0]
english_vectorized_data

800    It shifted focus away from the symbolic approa...
Name: Text, dtype: object

In [16]:
from sklearn.feature_extraction.text import CountVectorizer

In [17]:
vectorizer = CountVectorizer()

In [18]:
vectorized = vectorizer.fit_transform(english_vectorized_data)

In [19]:
pd.DataFrame(vectorizer.get_feature_names_out())

Unnamed: 0,0
0,ai
1,and
2,approaches
3,away
4,borrowed
5,focus
6,from
7,had
8,inherited
9,it


In [20]:
vectorized.toarray()

array([[1, 3, 1, 1, 1, 1, 3, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1]])

In [21]:
print(vectorizer.vocabulary_)

{'it': 9, 'shifted': 13, 'focus': 5, 'away': 3, 'from': 6, 'the': 16, 'symbolic': 15, 'approaches': 2, 'had': 7, 'inherited': 8, 'ai': 0, 'and': 1, 'toward': 18, 'methods': 10, 'models': 11, 'borrowed': 4, 'statistics': 14, 'probability': 12, 'theory': 17}


># TF-IDF
>
>c'est une méthode de pondération souvent utilisée en recherche d'information et en particulier dans la fouille de textes. Cette mesure statistique permet d'évaluer l'importance d'un terme contenu dans un document, relativement à une collection ou un corpus

In [22]:
english_tfidf_data = english_data.iloc[[800],0]
english_tfidf_data

800    It shifted focus away from the symbolic approa...
Name: Text, dtype: object

In [23]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [24]:
tfidf = TfidfVectorizer()

In [25]:
vectorized = tfidf.fit_transform(english_tfidf_data)

In [26]:
pd.DataFrame(tfidf.get_feature_names_out())

Unnamed: 0,0
0,ai
1,and
2,approaches
3,away
4,borrowed
5,focus
6,from
7,had
8,inherited
9,it


In [27]:
vectorized.toarray()

array([[0.16222142, 0.48666426, 0.16222142, 0.16222142, 0.16222142,
        0.16222142, 0.48666426, 0.16222142, 0.16222142, 0.32444284,
        0.16222142, 0.16222142, 0.16222142, 0.16222142, 0.16222142,
        0.16222142, 0.16222142, 0.16222142, 0.16222142]])

In [28]:
print(tfidf.vocabulary_)

{'it': 9, 'shifted': 13, 'focus': 5, 'away': 3, 'from': 6, 'the': 16, 'symbolic': 15, 'approaches': 2, 'had': 7, 'inherited': 8, 'ai': 0, 'and': 1, 'toward': 18, 'methods': 10, 'models': 11, 'borrowed': 4, 'statistics': 14, 'probability': 12, 'theory': 17}


># Tokenisation
>
>La tokenisation cherche à transformer un texte en une série de tokens individuels. Dans l’idée, chaque token représente un mot, et identifier des mots semble être une tâche relativement simple.

In [29]:
english_tokenized_data = english_data.iloc[800,0]
english_tokenized_data

'It shifted focus away from the symbolic approaches it had inherited from AI, and toward methods and models borrowed from statistics and probability theory.'

In [30]:
from nltk.tokenize import word_tokenize, wordpunct_tokenize

In [31]:
word_tokenize(english_tokenized_data)

['It',
 'shifted',
 'focus',
 'away',
 'from',
 'the',
 'symbolic',
 'approaches',
 'it',
 'had',
 'inherited',
 'from',
 'AI',
 ',',
 'and',
 'toward',
 'methods',
 'and',
 'models',
 'borrowed',
 'from',
 'statistics',
 'and',
 'probability',
 'theory',
 '.']

In [32]:
english_tokenized_data = wordpunct_tokenize(english_tokenized_data)
english_tokenized_data

['It',
 'shifted',
 'focus',
 'away',
 'from',
 'the',
 'symbolic',
 'approaches',
 'it',
 'had',
 'inherited',
 'from',
 'AI',
 ',',
 'and',
 'toward',
 'methods',
 'and',
 'models',
 'borrowed',
 'from',
 'statistics',
 'and',
 'probability',
 'theory',
 '.']

> # FreqDist
>
>Il peut être intéressant d’avoir la fréquence de distribution des valeurs.
>
>Cette fonction renvoit un Tableau a deux dimensions dans lequel on trouve chaque valeur du corpus avec sa fréquence de distribution. A titre d’exemple, le mot "from est placé 3 fois dans le texte.

In [33]:
english_freq_data = english_data.iloc[800,0]
english_freq_data

'It shifted focus away from the symbolic approaches it had inherited from AI, and toward methods and models borrowed from statistics and probability theory.'

In [34]:
from nltk import FreqDist

In [35]:
freq = FreqDist()

In [36]:
fdist = FreqDist(word.lower() for word in word_tokenize(english_freq_data))
fdist

FreqDist({'from': 3, 'and': 3, 'it': 2, 'shifted': 1, 'focus': 1, 'away': 1, 'the': 1, 'symbolic': 1, 'approaches': 1, 'had': 1, ...})

># Stemming ou Stemmatisation et Lemmatisation

>Le stemming (racinisation en français) vise à garder la racine du mot, c’est à dire le tronquer de toute déclinaison, accord (flexions) et dérivations. Quand il est fait automatiquement (en français et anglais en tout cas je dirais), il consiste la plupart du temps à enlever une partie de la fin du terme, quitte à en enlever trop ou pas assez.

>La lemmatisation, consiste à ramener un terme, quels que soient ses accords, déclinaisons, etc. à sa forme la plus simple (pour le français infinitif/masculin-singulier).

>### Porter_Stemmer vs Snowball_Stemmer vs Lancaster_Stemmer vs Lemmatizer

In [37]:
from nltk.stem.porter import PorterStemmer
from nltk.stem.snowball import SnowballStemmer
from nltk.stem.lancaster import LancasterStemmer
from nltk.stem import WordNetLemmatizer

In [38]:
porter = PorterStemmer()
snowball = SnowballStemmer('english')
lancaster = LancasterStemmer()
lemmatizer = WordNetLemmatizer()

In [40]:
print(f"{'ORIGINAL': <20}{'PORTER': <20}{'SNOWBALL': <20}{'LANCASTER': <20}{'LEMMATIZER'}")
for w in word_tokenize(english_data.iloc[800,0]):
    print(f"{w: <20}{porter.stem(w): <20}{snowball.stem(w): <20}{lancaster.stem(w): <20}{lemmatizer.lemmatize(w): <20}")

ORIGINAL            PORTER              SNOWBALL            LANCASTER           LEMMATIZER
It                  it                  it                  it                  It                  
shifted             shift               shift               shift               shifted             
focus               focu                focus               foc                 focus               
away                away                away                away                away                
from                from                from                from                from                
the                 the                 the                 the                 the                 
symbolic            symbol              symbol              symbol              symbolic            
approaches          approach            approach            approach            approach            
it                  it                  it                  it                  it                  


># N-Grams
>
>C'est des sequences de mots

In [41]:
english_ngrams_data = english_data.iloc[832:834,0]
english_ngrams_data

832      There are two kinds of time complexity results.
833    Positive results show that a certain class of ...
Name: Text, dtype: object

In [42]:
from nltk import ngrams

In [43]:
for sentence in english_ngrams_data:
    n_grams = ngrams(sentence.split(), 3)
    for grams in n_grams:
        print (grams)
    print("\n")


('There', 'are', 'two')
('are', 'two', 'kinds')
('two', 'kinds', 'of')
('kinds', 'of', 'time')
('of', 'time', 'complexity')
('time', 'complexity', 'results.')


('Positive', 'results', 'show')
('results', 'show', 'that')
('show', 'that', 'a')
('that', 'a', 'certain')
('a', 'certain', 'class')
('certain', 'class', 'of')
('class', 'of', 'functions')
('of', 'functions', 'can')
('functions', 'can', 'be')
('can', 'be', 'learned')
('be', 'learned', 'in')
('learned', 'in', 'polynomial')
('in', 'polynomial', 'time.')




> # Part-Of-Speech Tag (POS Tag)
>
>POS tagging (part-of-speech tagging) en anglais) est le processus qui consiste à associer aux mots d'un texte les informations grammaticales correspondantes comme la partie du discours, le genre, le nombre, etc. à l'aide d'un outil informatique.

In [44]:
import spacy

In [45]:
nlp = spacy.load("en_core_web_sm")

In [46]:
english_pos_data = english_data.iloc[832:834,0]
english_pos_data

832      There are two kinds of time complexity results.
833    Positive results show that a certain class of ...
Name: Text, dtype: object

In [47]:
for text in english_pos_data:
    doc = nlp(text)
    for token in doc:
        print(token.text, "|", token.pos_)
    print("\n")

There | PRON
are | VERB
two | NUM
kinds | NOUN
of | ADP
time | NOUN
complexity | NOUN
results | NOUN
. | PUNCT


Positive | ADJ
results | NOUN
show | VERB
that | SCONJ
a | DET
certain | ADJ
class | NOUN
of | ADP
functions | NOUN
can | AUX
be | AUX
learned | VERB
in | ADP
polynomial | ADJ
time | NOUN
. | PUNCT


