# Stemming

Stemming is the process of reducing a word to its word stem that affixes to suffixes and prefixes or to the roots of words known as a lemma.
Stemming is important in natural language understanding (NLU) and natural learning processing (NLP)

In [4]:
from nltk.stem import PorterStemmer

In [1]:
words=["eating","eats","eaten","writing","writes","programming","programs","history","finally","finalized"]

In [8]:
stemming = PorterStemmer()
for word in words:
    print(word + '--->' + stemming.stem(word))

eating--->eat
eats--->eat
eaten--->eaten
writing--->write
writes--->write
programming--->program
programs--->program
history--->histori
finally--->final
finalized--->final


In [15]:
print(stemming.stem('congratulations'))
print(stemming.stem('sitting'))
print(stemming.stem('better'))
print(stemming.stem('organização'))
print(stemming.stem('organize'))

congratul
sit
better
organização
organ


Stemming has some disadvantages because, in some cases, it changes the meaning of words when reducing them to their stems

## Desvantagens do PorterStemming
1) Perda de Precisão Semântica:

- Descrição: Stemming pode alterar o significado das palavras ao reduzi-las às suas raízes, levando a possíveis mal-entendidos.
- Exemplo: "Better" pode ser reduzido a "bet", que tem um significado completamente diferente.
2) Problemas com Homônimos:

- Descrição: Palavras diferentes que compartilham a mesma raiz podem ser tratadas como equivalentes, causando confusão.
- Exemplo: "Organização" (substantivo) e "organizar" (verbo) podem ser reduzidos à mesma raiz, apesar de terem usos diferentes.
3) Limitações em Idiomas Complexos:

- Descrição: Em idiomas com morfologia complexa, o stemming pode ser menos eficaz e mais propenso a erros.
- Exemplo: Idiomas como o finlandês ou o húngaro têm formas de palavras altamente inflexionadas que podem não ser tratadas adequadamente por técnicas simples de stemming.
## Considerações Finais
- Contexto de Uso: A utilidade do stemming depende fortemente do contexto. Em sistemas de busca e análise de texto onde a eficiência é crucial, as vantagens podem superar as desvantagens.
- Alternativas: Técnicas mais avançadas, como lematização, podem ser preferíveis em contextos onde a precisão semântica é crucial. A lematização considera o contexto e a gramática para reduzir palavras à sua forma base (lema), o que pode mitigar alguns dos problemas do stemming.

## RegexpStemmer class

NLTK has regexpstemmer class with the help of which we can easily implement regular expressions stemmer algorithms.
It basically takes a single regular expression and removes any prefix or suffix that matches the expression.

In [16]:
from nltk.stem import RegexpStemmer

In [28]:
reg_stemmer = RegexpStemmer('ing$|s$|e$|able$', min=4)
# o $ no final significa que ele vai excluir o ing que estiver no final da palavra. Exemplo bom é a palavra "singing"

In [42]:
reg_stemmer.stem('better')

'better'

# Snowball Stemmer

In [30]:
from nltk.stem import SnowballStemmer

In [40]:
snowballstemmer = SnowballStemmer('english')
snowballstemmer.stem('better')

'better'

In [35]:
for word in words:
    print(word + '---->' + snowballstemmer.stem(word))

eating---->eat
eats---->eat
eaten---->eaten
writing---->write
writes---->write
programming---->program
programs---->program
history---->histori
finally---->final
finalized---->final
