In [2]:
!python -m spacy download pt_core_news_sm

Collecting pt-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.8.0/pt_core_news_sm-3.8.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m57.3 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pt-core-news-sm
Successfully installed pt-core-news-sm-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [3]:
'''
Stopwords — O que são?
São palavras muito comuns que geralmente não carregam muito significado no texto, como:
✅ artigos (o, a, os, as)
✅ preposições (de, do, da, em, com)
✅ pronomes (eu, tu, ele, nós, vocês)

📌 Por que remover?
Porque elas poluem o modelo sem agregar muito à compreensão ou previsão.
'''

import spacy

nlp = spacy.load("pt_core_news_sm")
texto = "Os meninos estavam correndo e brincando alegremente"

doc = nlp(texto)

# Removendo stopwords
tokens_sem_stopwords = [token.text for token in doc if not token.is_stop]
print(tokens_sem_stopwords)


['meninos', 'estavam', 'correndo', 'brincando', 'alegremente']


In [4]:
#Como ver a lista de stopwords do spaCy (Português)
print(nlp.Defaults.stop_words)

#✅ Você pode adicionar ou remover palavras da lista também:
nlp.Defaults.stop_words.add('alegre')
nlp.Defaults.stop_words.remove('os')

{'nesse', 'fazes', 'que', 'o', 'talvez', 'tente', 'possível', 'tivestes', 'novos', 'fazeis', 'apoio', 'só', 'doze', 'foram', 'quem', 'seis', 'numa', 'tu', 'portanto', 'em', 'nenhuma', 'sétima', 'estas', 'nossas', 'posição', 'somente', 'catorze', 'fomos', 'tiveste', 'grupo', 'sexta', 'sim', 'conhecido', 'vais', 'mas', 'querem', 'quinze', 'sete', 'mal', 'tão', 'cinco', 'pouca', 'cá', 'ao', 'é', 'deve', 'desta', 'conhecida', 'foste', 'após', 'treze', 'deverá', 'ontem', 'tudo', 'esse', 'valor', 'vem', 'pouco', 'quarta', 'ambas', 'vossos', 'debaixo', 'bastante', 'novo', 'nove', 'devem', 'podia', 'certeza', 'suas', 'tarde', 'favor', 'quinta', 'nas', 'são', 'seu', 'segundo', 'foi', 'com', 'eles', 'nada', 'contudo', 'dez', 'vós', 'ela', 'mesmo', 'fazia', 'do', 'estava', 'quer', 'dezasseis', 'neste', 'da', 'duas', 'apontar', 'outros', 'agora', 'dar', 'nunca', 'à', 'corrente', 'sempre', 'menor', 'num', 'adeus', 'vinte', 'usa', 'próximo', 'seria', 'era', 'onde', 'breve', 'parte', 'mais', 'zero', 

In [5]:
'''
POS Tagging
É o processo de marcar cada palavra com sua "classe gramatical": substantivo, verbo, adjetivo, etc.
'''

for token in doc:
    print(f"{token.text} --> {token.pos_}")


Os --> DET
meninos --> NOUN
estavam --> AUX
correndo --> VERB
e --> CCONJ
brincando --> VERB
alegremente --> ADV


In [None]:
'''
📌 Pra que serve POS Tagging na prática?
✅ Melhorar lematização (verbo vs substantivo)
✅ Filtrar só substantivos e adjetivos para modelos de tópicos
✅ Treinar classificadores mais precisos
✅ Reconhecer nomes próprios
'''

In [6]:
'''
Exemplo combinando Stopwords + POS Tagging (só pegar substantivos):
'''
substantivos = [token.text for token in doc if token.pos_ == "NOUN" and not token.is_stop]
print(substantivos)


['meninos']
