In [2]:
import nltk
from nltk.corpus import stopwords
from nltk.stem.porter import PorterStemmer
from nltk.stem.lancaster import LancasterStemmer

"""
Testing della funzionalità dello Stemmer.
Gli stemmer più noti sono Porter e Lancaster, entrambi implementati nella libreria nltk.
"""

if __name__ == "__main__":

""" Fase 1: Tokenizzazione """

# Definizione della frase di esempio
sentence = "At eight o'clock on Thursday morning Arthur didn't feel very good."

# Tokenizzazione della frase in parole (token)
tokens = nltk.word_tokenize(sentence)

# Conversione di tutti i token in minuscolo
tokens = [token.lower() for token in tokens]

""" Fase 2: Rimozione delle stopwords """

# Recupero delle stopwords in inglese
stop_words = set(stopwords.words('english'))

# Rimozione delle stopwords dai token
non_stopword_tokens = [token for token in tokens if token not in stop_words]

""" Fase 3a: Lemmatizzazione dei token """

# Crea un'istanza del lemmatizzatore
wnl = nltk.WordNetLemmatizer()

# Lemmatizzazione dei token non stopwords
lemmatized_tokens = [wnl.lemmatize(token) for token in non_stopword_tokens]

""" Fase 3b: Stemming dei token """

# Crea le istanze degli stemmer
porter_stemmer = PorterStemmer()  # Porter Stemmer
lancaster_stemmer = LancasterStemmer()  # Lancaster Stemmer

# Variabile per scegliere lo stemmer da utilizzare
use_porter_stemmer = True

# Stemming dei token lemmatizzati utilizzando lo Stemmer scelto
if use_porter_stemmer:
    stemmed_tokens = [porter_stemmer.stem(token) for token in lemmatized_tokens]
else:
    stemmed_tokens = [lancaster_stemmer.stem(token) for token in lemmatized_tokens]

# Stampa dei token dopo il processo di Stemming
print(stemmed_tokens)

In [4]:
""" Fase 1: Tokenizzazione """
    
# Definizione della frase di esempio
sentence = "At eight o'clock on Thursday morning Arthur didn't feel very good."

# Tokenizzazione della frase in parole (token)
tokens = nltk.word_tokenize(sentence)

# Conversione di tutti i token in minuscolo
tokens = [token.lower() for token in tokens]

# Stampa dei token
print(sentence)
print(tokens)

At eight o'clock on Thursday morning Arthur didn't feel very good.
['at', 'eight', "o'clock", 'on', 'thursday', 'morning', 'arthur', 'did', "n't", 'feel', 'very', 'good', '.']


In [6]:
""" Fase 2: Rimozione delle stopwords """
    
# Recupero delle stopwords in inglese
stop_words = set(stopwords.words('english'))

# Rimozione delle stopwords dai token
non_stopword_tokens = [token for token in tokens if token not in stop_words]

# Stampa dei token senza stopwords
print(stop_words)
print(non_stopword_tokens)

{'do', 'this', 'below', "isn't", 'we', 'our', 'their', 'having', 'who', 'him', 'when', 'some', 'just', 'wasn', 'through', 'at', "mustn't", 'any', 'once', 'had', 'by', 'few', 'needn', "you'd", 'where', 'won', "needn't", 'only', 'out', 'himself', 'while', 'hers', 'were', 'does', 't', 'if', 'very', 'ourselves', 'been', 'so', "didn't", 'under', "doesn't", 'each', 'than', 'ours', "wouldn't", 'from', 'how', 'off', 'doesn', 'both', "mightn't", 'same', 'it', 'whom', 'are', 'a', 'more', 'nor', "aren't", 'all', 'me', 'over', 'now', 'haven', 'further', "weren't", 'what', 'll', 'you', 'being', 'up', 'too', 're', 'against', 'most', "you've", 'she', 'of', 'into', 'own', 'or', 'with', 'yourselves', 'down', 'itself', 'such', 'theirs', "shouldn't", 'until', 'its', 'but', 'her', 'on', 'because', 'ain', 'don', 'aren', 'y', 'the', 'yours', 'in', "it's", "should've", "you'll", "you're", 'above', 'mightn', 'those', "hasn't", 'there', 'can', 'for', 'he', 'o', 'they', 'i', 'that', 'm', 'an', "won't", "haven't

In [12]:
""" Fase 3a: Lemmatizzazione dei token """

# Crea un'istanza del lemmatizzatore
wnl = nltk.WordNetLemmatizer()

# Lemmatizzazione dei token non stopwords
lemmatized_tokens = [wnl.lemmatize(token) for token in non_stopword_tokens]

print(non_stopword_tokens)
print(lemmatized_tokens)

['eight', "o'clock", 'thursday', 'morning', 'arthur', "n't", 'feel', 'good', '.']
['eight', "o'clock", 'thursday', 'morning', 'arthur', "n't", 'feel', 'good', '.']


In [11]:
""" Fase 3b: Stemming dei token """

# Crea le istanze degli stemmer
porter_stemmer = PorterStemmer()  # Porter Stemmer
lancaster_stemmer = LancasterStemmer()  # Lancaster Stemmer

# Variabile per scegliere lo stemmer da utilizzare
use_porter_stemmer = True

# Stemming dei token lemmatizzati utilizzando lo Stemmer scelto
if use_porter_stemmer:
    stemmed_tokens = [porter_stemmer.stem(token) for token in lemmatized_tokens]
else:
    stemmed_tokens = [lancaster_stemmer.stem(token) for token in lemmatized_tokens]

# Stampa dei token dopo il processo di Stemming
print(lemmatized_tokens)
print(stemmed_tokens)

['eight', "o'clock", 'thursday', 'morning', 'arthur', "n't", 'feel', 'good', '.']
['eight', "o'clock", 'thursday', 'morn', 'arthur', "n't", 'feel', 'good', '.']


Stop words

In [13]:
import nltk
from nltk.corpus import stopwords

In [16]:
""" Fase 1: Tokenizzazione """
    
# Definizione della frase di esempio
sentence = "At eight o'clock on Thursday morning Arthur didn't feel very good."

# Tokenizzazione della frase in parole (token)
tokens = nltk.word_tokenize(sentence)

# Conversione di tutti i token in minuscolo
tokens = [token.lower() for token in tokens]

print(f"sentence: {sentence}")
print(f"tokens: {tokens}")

""" Fase 2: Rimozione delle stopwords """

# Recupero delle stopwords in inglese
stop_words = set(stopwords.words('english'))

print(f"stop_words: {stop_words}")
# Rimozione delle stopwords dai token
non_stopword_tokens = [token for token in tokens if token not in stop_words]

# Stampa dei token senza le stopwords
print(f"non_stopword_tokens: {non_stopword_tokens}")

sentence: At eight o'clock on Thursday morning Arthur didn't feel very good.
tokens: ['at', 'eight', "o'clock", 'on', 'thursday', 'morning', 'arthur', 'did', "n't", 'feel', 'very', 'good', '.']
stop_words: {'do', 'this', 'below', "isn't", 'we', 'our', 'their', 'having', 'who', 'him', 'when', 'some', 'just', 'wasn', 'through', 'at', "mustn't", 'any', 'once', 'had', 'by', 'few', 'needn', "you'd", 'where', 'won', "needn't", 'only', 'out', 'himself', 'while', 'hers', 'were', 'does', 't', 'if', 'very', 'ourselves', 'been', 'so', "didn't", 'under', "doesn't", 'each', 'than', 'ours', "wouldn't", 'from', 'how', 'off', 'doesn', 'both', "mightn't", 'same', 'it', 'whom', 'are', 'a', 'more', 'nor', "aren't", 'all', 'me', 'over', 'now', 'haven', 'further', "weren't", 'what', 'll', 'you', 'being', 'up', 'too', 're', 'against', 'most', "you've", 'she', 'of', 'into', 'own', 'or', 'with', 'yourselves', 'down', 'itself', 'such', 'theirs', "shouldn't", 'until', 'its', 'but', 'her', 'on', 'because', 'ain'

Tokens