In [None]:
'''
O que é Stemming?
Stemming corta o final das palavras pra chegar à raiz.
👉 Não se preocupa com a gramática nem se a palavra resultante existe.

✅ Rápido
❌ Pode gerar palavras estranhas ou inválidas
'''

In [1]:
from nltk.stem import PorterStemmer

stemmer = PorterStemmer()
print(stemmer.stem("running"))   # run
print(stemmer.stem("studies"))   # studi
print(stemmer.stem("happiness")) # happi


run
studi
happi


In [None]:
'''
O que é Lemmatization?
Lemmatization reduz as palavras à sua forma dicionarizada (o lema).
👉 Leva em conta o contexto e a gramática da palavra.

✅ Mais preciso
✅ Gera palavras reais
❌ Mais lento (precisa saber o tipo da palavra - POS tagging)
'''

In [2]:
import spacy

nlp = spacy.load("en_core_web_sm")
doc = nlp("The cats are running and studying happily.")

for token in doc:
    print(f"{token.text} --> {token.lemma_}")


The --> the
cats --> cat
are --> be
running --> run
and --> and
studying --> study
happily --> happily
. --> .


In [None]:
'''
Quando usar cada um?

✅ Stemming:
Quando precisa de velocidade
Quando pequenas imprecisões não afetam o resultado (ex: busca simples, contagem de palavras)

✅ Lemmatization:
Quando precisa de precisão
Para modelos de linguagem, NER, POS Tagging, Parsing
Quando o resultado precisa fazer sentido gramatical
'''

In [6]:
!python -m spacy download pt_core_news_sm

Collecting pt-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.8.0/pt_core_news_sm-3.8.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m72.3 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pt-core-news-sm
Successfully installed pt-core-news-sm-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [7]:
'''
Lemmatização em português
'''

import spacy

# Baixe o modelo antes com: python -m spacy download pt_core_news_sm
nlp = spacy.load("pt_core_news_sm")

texto = "Os meninos estavam correndo e brincando alegremente"
doc = nlp(texto)

for token in doc:
    print(f"{token.text} --> {token.lemma_}")

'''
✅ Vantagens:
Lematização decente
Já faz POS tagging junto
Fácil de usar

❌ Desvantagens:
Modelo mais "básico"
Nem sempre acerta verbos complexos ou gírias
'''

Os --> o
meninos --> menino
estavam --> estar
correndo --> correr
e --> e
brincando --> brincar
alegremente --> alegremente


In [9]:
!pip install stanza

Collecting stanza
  Downloading stanza-1.10.1-py3-none-any.whl.metadata (13 kB)
Collecting emoji (from stanza)
  Downloading emoji-2.14.1-py3-none-any.whl.metadata (5.7 kB)
Collecting nvidia-cuda-nvrtc-cu12==12.4.127 (from torch>=1.3.0->stanza)
  Downloading nvidia_cuda_nvrtc_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-runtime-cu12==12.4.127 (from torch>=1.3.0->stanza)
  Downloading nvidia_cuda_runtime_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-cupti-cu12==12.4.127 (from torch>=1.3.0->stanza)
  Downloading nvidia_cuda_cupti_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cudnn-cu12==9.1.0.70 (from torch>=1.3.0->stanza)
  Downloading nvidia_cudnn_cu12-9.1.0.70-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cublas-cu12==12.4.5.8 (from torch>=1.3.0->stanza)
  Downloading nvidia_cublas_cu12-12.4.5.8-py3-none-manylinux2014_x86_64.whl.metadata 

In [11]:
'''
Usando Stanza (Stanford NLP)
O Stanza tem um modelo treinado pra português e manda bem na lematização.
'''

import stanza

# Baixe o modelo só na primeira vez
stanza.download('pt')
nlp = stanza.Pipeline('pt', processors='tokenize,mwt,pos,lemma')

texto = "Os meninos estavam correndo e brincando alegremente"
doc = nlp(texto)

for sent in doc.sentences:
    for word in sent.words:
        print(f"{word.text} --> {word.lemma}")


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.10.0.json:   0%|  …

INFO:stanza:Downloaded file to /root/stanza_resources/resources.json
INFO:stanza:Downloading default packages for language: pt (Portuguese) ...
INFO:stanza:File exists: /root/stanza_resources/pt/default.zip
INFO:stanza:Finished downloading models and saved to /root/stanza_resources
INFO:stanza:Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.10.0.json:   0%|  …

INFO:stanza:Downloaded file to /root/stanza_resources/resources.json
INFO:stanza:Loading these models for language: pt (Portuguese):
| Processor | Package         |
-------------------------------
| tokenize  | bosque          |
| mwt       | bosque          |
| pos       | bosque_charlm   |
| lemma     | bosque_nocharlm |

INFO:stanza:Using device: cpu
INFO:stanza:Loading: tokenize
INFO:stanza:Loading: mwt
INFO:stanza:Loading: pos
INFO:stanza:Loading: lemma
INFO:stanza:Done loading processors!


Os --> o
meninos --> menino
estavam --> estar
correndo --> correr
e --> e
brincando --> brincar
alegremente --> alegremente


In [None]:
'''
✅ Vantagens:
Lematização mais precisa
Melhor com verbos complexos
Ótimo pra NLP robusto

❌ Desvantagens:
Mais pesado que o spaCy
'''

In [12]:
'''
Conectar Lemmatização/Stemming com TF-IDF ou BoW

Agora sim você começa a montar o pipeline clássico de NLP:
Lemmatização/Stemming → Vetorização (TF-IDF ou BoW) → Modelo de ML
'''

import spacy
from sklearn.feature_extraction.text import TfidfVectorizer

# Carregando o modelo spaCy em português
nlp = spacy.load("pt_core_news_sm")

# Função que faz lematização
def lemmatize_text(texto):
    doc = nlp(texto)
    lemas = [token.lemma_ for token in doc if not token.is_stop and not token.is_punct]
    return ' '.join(lemas)

# Exemplo de textos
corpus = [
    "Os meninos estavam correndo e brincando alegremente",
    "As meninas estudavam na biblioteca silenciosa"
]

# Lematizando o corpus inteiro
corpus_lemmatizado = [lemmatize_text(texto) for texto in corpus]

print("\nCorpus Lematizado:")
print(corpus_lemmatizado)

# Aplicando TF-IDF
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(corpus_lemmatizado)

print("\nPalavras do vocabulário TF-IDF:")
print(vectorizer.get_feature_names_out())

print("\nMatriz TF-IDF:")
print(X.toarray())



Corpus Lematizado:
['menino estar correr brincar alegremente', 'menina estudar biblioteca silencioso']

Palavras do vocabulário TF-IDF:
['alegremente' 'biblioteca' 'brincar' 'correr' 'estar' 'estudar' 'menina'
 'menino' 'silencioso']

Matriz TF-IDF:
[[0.4472136 0.        0.4472136 0.4472136 0.4472136 0.        0.
  0.4472136 0.       ]
 [0.        0.5       0.        0.        0.        0.5       0.5
  0.        0.5      ]]


In [None]:
'''
O que esse código faz (linha a linha):
✅ Carrega o modelo do spaCy pt
✅ Lematiza cada texto (remove stopwords e pontuação)
✅ Monta o corpus lematizado
✅ Calcula a matriz TF-IDF
✅ Mostra o vocabulário gerado
✅ Imprime a matriz numérica (pronta pra treinar ML)
'''

In [13]:
'''
Se quiser BoW (Bag of Words)
'''

from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus_lemmatizado)
