# **Stemming**
É o processo de reduzir palavras flexinadas para um radical, uma forma mais básica da palavra. Diferente da lemmarização, não temos obrigação de transformar uma palavra na sua raiz. É um processo mais barato e rápido, além de permitir o matching mais facilmente. Sua desvantagem é que o radical pode não fazer sentidona linguagem.

### **Example**

In [1]:
text_normalized = 'its true ms martha topfer black are you arguing that $5.00 on 3/21/2023 in cash for an icecream and a black coffe in the us market is an absurd truth'
text_normalized

'its true ms martha topfer black are you arguing that $5.00 on 3/21/2023 in cash for an icecream and a black coffe in the us market is an absurd truth'

### **White Space Tokenization**

In [2]:
text_tokenized = text_normalized.split()
text_tokenized

['its',
 'true',
 'ms',
 'martha',
 'topfer',
 'black',
 'are',
 'you',
 'arguing',
 'that',
 '$5.00',
 'on',
 '3/21/2023',
 'in',
 'cash',
 'for',
 'an',
 'icecream',
 'and',
 'a',
 'black',
 'coffe',
 'in',
 'the',
 'us',
 'market',
 'is',
 'an',
 'absurd',
 'truth']

### **Stop Words Removal**

In [3]:
import nltk
from nltk.corpus import stopwords
nltk.download('stopwords')

stopwords = stopwords.words('english')

no_stopwords_text = [word for word in text_tokenized if word not in stopwords]
no_stopwords_text

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Daniel\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


['true',
 'ms',
 'martha',
 'topfer',
 'black',
 'arguing',
 '$5.00',
 '3/21/2023',
 'cash',
 'icecream',
 'black',
 'coffe',
 'us',
 'market',
 'absurd',
 'truth']

### **Porter Stemmer**

In [4]:
from nltk.stem.porter import PorterStemmer

stemmer = PorterStemmer()

stemmed_text = [stemmer.stem(word) for word in no_stopwords_text]

stemmed_text

['true',
 'ms',
 'martha',
 'topfer',
 'black',
 'argu',
 '$5.00',
 '3/21/2023',
 'cash',
 'icecream',
 'black',
 'coff',
 'us',
 'market',
 'absurd',
 'truth']

### **Snowball Stemmer**

In [6]:
from nltk.stem.snowball import SnowballStemmer

stemmer = SnowballStemmer('english')

stemmed_text = [stemmer.stem(word) for word in no_stopwords_text]

stemmed_text

['true',
 'ms',
 'martha',
 'topfer',
 'black',
 'argu',
 '$5.00',
 '3/21/2023',
 'cash',
 'icecream',
 'black',
 'coff',
 'us',
 'market',
 'absurd',
 'truth']