In [1]:
%pip install nltk spacy



In [11]:
import nltk
import spacy

from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

nltk.download('punkt_tab')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


True

In [12]:
texto = "Mais vale um asno que me carregue que um cavalo que me derrube."
print(texto)

Mais vale um asno que me carregue que um cavalo que me derrube.


## Tokenização com NLTK

In [13]:
tokens_nltk = word_tokenize(texto, language='portuguese')
print(tokens_nltk)

['Mais', 'vale', 'um', 'asno', 'que', 'me', 'carregue', 'que', 'um', 'cavalo', 'que', 'me', 'derrube', '.']


## Remoção de Stopwords

Stopwords são palavras comuns em textos, como "o", "é", "sou", que têm pouco valor semântico. Elas são filtradas no pré-processamento para melhorar a eficiência
e a precisão nas tarefas de PLN.

In [37]:
stopwords_pt = stopwords.words('portuguese')
filtered = [w for w in tokens_nltk if w not in stopwords_pt]
print(filtered)

['Mais', 'vale', 'asno', 'carregue', 'cavalo', 'derrube', '.']


## Stemming com NLTK

Stemming são técnicas que reduz às suas raízes (radicais), cortando sufixos. Por exemplo, "amado", "amarei", viram "am". Obs.: o radical pode não ser uma palabra correta e não é a mesma coisa que o lema.

In [38]:
from nltk.stem import PorterStemmer
stemmer = PorterStemmer()

stems = [stemmer.stem(word) for word in filtered]
print(stems)

['mai', 'vale', 'asno', 'carregu', 'cavalo', 'derrub', '.']


## Instalação da lib

> pt_core_news_sm

In [45]:
!python -m spacy download pt_core_news_sm

Collecting pt-core-news-sm==3.8.0
  Using cached https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.8.0/pt_core_news_sm-3.8.0-py3-none-any.whl (13.0 MB)
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


## SpaCy – Tokenização e Lematização

In [61]:
nlp = spacy.load("pt_core_news_sm")

doc = nlp(texto)

print(f"{'Texto':<10} | {'Lema':<10} | {'Gramática':<10}")
print("-" * 35)

for token in doc:
  print(f"{token.text:<10} | {token.lemma_:<10} | {token.pos_:<10}")

Texto      | Lema       | Gramática 
-----------------------------------
Mais       | mais       | ADV       
vale       | valer      | VERB      
um         | um         | DET       
asno       | asno       | NOUN      
que        | que        | PRON      
me         | eu         | PRON      
carregue   | carregar   | VERB      
que        | que        | SCONJ     
um         | um         | DET       
cavalo     | cavalo     | NOUN      
que        | que        | PRON      
me         | eu         | PRON      
derrube    | derrube    | PROPN     
.          | .          | PUNCT     
