In [None]:
'''
✅ Ordem ideal de uma pipeline de NLP para o seu caso:

Pré-processamento básico:
Normalização (lowercase, remoção de símbolos, etc.)
Tokenização
Part-of-Speech (POS) Tagging
Lemmatização (usando os POS tags para ser mais preciso)
Remoção de Stopwords
Dependency Parsing
Word Embeddings ou vetorização final (TF-IDF, BoW ou Embeddings)
'''

#

'''
🧠 Por quê essa ordem?

Etapa	Por quê aqui?

Tokenização - Sem tokens, não dá pra fazer nada depois.
POS Tagging - Ajuda a melhorar a lematização — "amando" pode ser verbo ou substantivo.
Lemmatização - Com POS, a lematização fica mais precisa. Ex: "melhores" → "bom" se for adjetivo.
Stopwords - Após a lematização, você remove palavras já na forma correta. Ex: "fui" → "ir".
Dependency Parsing - Faz mais sentido com o texto limpo, sem stopwords, e tokens lematizados.
Word Embeddings - Sempre no final, para trabalhar com o texto vetorizado, pronto para machine learning ou deep learning.
'''

In [1]:
!python -m spacy download pt_core_news_md

Collecting pt-core-news-md==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_md-3.8.0/pt_core_news_md-3.8.0-py3-none-any.whl (42.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m42.4/42.4 MB[0m [31m12.6 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pt-core-news-md
Successfully installed pt-core-news-md-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_md')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [2]:
# Exemplo de Pipeline Completa (usando SpaCy - português)

import spacy

# Carrega o modelo do spaCy para português
nlp = spacy.load("pt_core_news_md")

# Exemplo de texto
texto = "Os meninos estavam jogando futebol na praça ontem à tarde."

# Passa o texto pelo pipeline do spaCy (Tokenização, POS, Parsing automáticos)
doc = nlp(texto)

# Lista para armazenar tokens finais após lematização e stopword removal
tokens_processados = []

for token in doc:
    # Exibe informações básicas de cada token
    print(f"TOKEN: {token.text} | LEMMA: {token.lemma_} | POS: {token.pos_} | DEP: {token.dep_}")

    # Remove stopwords e pontuações
    if not token.is_stop and not token.is_punct:
        # Lematiza o token
        tokens_processados.append(token.lemma_)

print("\nTokens finais após lematização e stopwords:")
print(tokens_processados)

# Dependency Parsing - visualiza a relação de dependência de cada token
for token in doc:
    print(f"{token.text} <--{token.dep_}-- {token.head.text}")

# Embedding de cada token (vetor denso)
print("\nExemplo de vetor do primeiro token útil:")
print(tokens_processados[0], ":", doc[0].vector)


TOKEN: Os | LEMMA: o | POS: DET | DEP: det
TOKEN: meninos | LEMMA: menino | POS: NOUN | DEP: nsubj
TOKEN: estavam | LEMMA: estar | POS: AUX | DEP: aux
TOKEN: jogando | LEMMA: jogar | POS: VERB | DEP: ROOT
TOKEN: futebol | LEMMA: futebol | POS: NOUN | DEP: obj
TOKEN: na | LEMMA: em o | POS: ADP | DEP: case
TOKEN: praça | LEMMA: praça | POS: NOUN | DEP: obl
TOKEN: ontem | LEMMA: ontem | POS: ADV | DEP: advmod
TOKEN: à | LEMMA: a o | POS: ADP | DEP: case
TOKEN: tarde | LEMMA: tarde | POS: NOUN | DEP: obl
TOKEN: . | LEMMA: . | POS: PUNCT | DEP: punct

Tokens finais após lematização e stopwords:
['menino', 'estar', 'jogar', 'futebol', 'praça']
Os <--det-- meninos
meninos <--nsubj-- jogando
estavam <--aux-- jogando
jogando <--ROOT-- jogando
futebol <--obj-- jogando
na <--case-- praça
praça <--obl-- jogando
ontem <--advmod-- jogando
à <--case-- tarde
tarde <--obl-- ontem
. <--punct-- jogando

Exemplo de vetor do primeiro token útil:
menino : [ -5.3293    10.735     15.596    -13.801     -8.59

In [None]:
'''
🔎 O que está acontecendo (linha por linha)
´nlp = spacy.load("pt_core_news_md")´: Carrega o modelo pré-treinado de português com embeddings.
´doc = nlp(texto)´: O texto passa pela pipeline padrão do SpaCy: tokenização, POS tagging e dependency parsing.

Loop em doc:
  Mostra o token original, sua lematização, classe gramatical (POS) e dependência sintática.
´if not token.is_stop and not token.is_punct´: Remove palavras irrelevantes e pontuação.
´.lemma_´: Lematiza cada token para obter sua forma base.
´token.dep_´: Mostra a dependência sintática, ou seja, quem depende de quem na frase.
´token.vector´: Retorna o vetor embedding denso para o token.

---------- ---------- ----------

✅ Resultado final esperado
Lista limpa de tokens lematizados
Relação sintática entre palavras (Dependency Parsing)
Vetores prontos para serem input em modelos de ML/DL
'''