In [1]:
!python -m spacy download pt_core_news_sm

Collecting pt-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.8.0/pt_core_news_sm-3.8.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m16.1 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pt-core-news-sm
Successfully installed pt-core-news-sm-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [3]:
# Lematização + Stopwords + POS Tagging + TF-IDF (em português)

import spacy
from sklearn.feature_extraction.text import TfidfVectorizer

# Carrega o modelo de português do spaCy
nlp = spacy.load("pt_core_news_sm")

# Função completa de pré-processamento
def preprocessar(texto):
    doc = nlp(texto)
    # Lematiza, remove stopwords e pontuação, *e filtra só substantivos e adjetivos*
    tokens_filtrados = [
        token.lemma_ for token in doc
        if not token.is_stop and not token.is_punct #and token.pos_ in ['NOUN', 'ADJ']
    ]
    return ' '.join(tokens_filtrados)

# Exemplo de textos
corpus = [
    "Os meninos estavam correndo e brincando alegremente no parque.",
    "As meninas estudavam na biblioteca silenciosa e organizada."
]

# Aplica o pré-processamento
corpus_preprocessado = [preprocessar(texto) for texto in corpus]

print("\nCorpus Pré-processado:")
print(corpus_preprocessado)

# Aplica TF-IDF
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(corpus_preprocessado)

print("\nVocabulário TF-IDF:")
print(vectorizer.get_feature_names_out())

print("\nMatriz TF-IDF:")
print(X.toarray())



Corpus Pré-processado:
['menino estar correr brincar alegremente parque', 'menina estudar biblioteca silencioso organizar']

Vocabulário TF-IDF:
['alegremente' 'biblioteca' 'brincar' 'correr' 'estar' 'estudar' 'menina'
 'menino' 'organizar' 'parque' 'silencioso']

Matriz TF-IDF:
[[0.40824829 0.         0.40824829 0.40824829 0.40824829 0.
  0.         0.40824829 0.         0.40824829 0.        ]
 [0.         0.4472136  0.         0.         0.         0.4472136
  0.4472136  0.         0.4472136  0.         0.4472136 ]]


In [None]:
'''
📌 Explicação do fluxo:
✅ spaCy faz:
Tokenização
POS Tagging
Remoção de Stopwords e pontuação
Filtragem só por substantivos e adjetivos (depois eu tirei isso)
Lematização

✅ TF-IDF transforma o texto limpo em vetores numéricos.
'''