In [None]:
'''
‚úÖ Ordem ideal de uma pipeline de NLP para o seu caso:

Pr√©-processamento b√°sico:
Normaliza√ß√£o (lowercase, remo√ß√£o de s√≠mbolos, etc.)
Tokeniza√ß√£o
Part-of-Speech (POS) Tagging
Lemmatiza√ß√£o (usando os POS tags para ser mais preciso)
Remo√ß√£o de Stopwords
Dependency Parsing
Word Embeddings ou vetoriza√ß√£o final (TF-IDF, BoW ou Embeddings)
'''

#

'''
üß† Por qu√™ essa ordem?

Etapa	Por qu√™ aqui?

Tokeniza√ß√£o - Sem tokens, n√£o d√° pra fazer nada depois.
POS Tagging - Ajuda a melhorar a lematiza√ß√£o ‚Äî "amando" pode ser verbo ou substantivo.
Lemmatiza√ß√£o - Com POS, a lematiza√ß√£o fica mais precisa. Ex: "melhores" ‚Üí "bom" se for adjetivo.
Stopwords - Ap√≥s a lematiza√ß√£o, voc√™ remove palavras j√° na forma correta. Ex: "fui" ‚Üí "ir".
Dependency Parsing - Faz mais sentido com o texto limpo, sem stopwords, e tokens lematizados.
Word Embeddings - Sempre no final, para trabalhar com o texto vetorizado, pronto para machine learning ou deep learning.
'''

In [1]:
!python -m spacy download pt_core_news_md

Collecting pt-core-news-md==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_md-3.8.0/pt_core_news_md-3.8.0-py3-none-any.whl (42.4 MB)
[2K     [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m42.4/42.4 MB[0m [31m12.6 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pt-core-news-md
Successfully installed pt-core-news-md-3.8.0
[38;5;2m‚úî Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_md')
[38;5;3m‚ö† Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [2]:
# Exemplo de Pipeline Completa (usando SpaCy - portugu√™s)

import spacy

# Carrega o modelo do spaCy para portugu√™s
nlp = spacy.load("pt_core_news_md")

# Exemplo de texto
texto = "Os meninos estavam jogando futebol na pra√ßa ontem √† tarde."

# Passa o texto pelo pipeline do spaCy (Tokeniza√ß√£o, POS, Parsing autom√°ticos)
doc = nlp(texto)

# Lista para armazenar tokens finais ap√≥s lematiza√ß√£o e stopword removal
tokens_processados = []

for token in doc:
    # Exibe informa√ß√µes b√°sicas de cada token
    print(f"TOKEN: {token.text} | LEMMA: {token.lemma_} | POS: {token.pos_} | DEP: {token.dep_}")

    # Remove stopwords e pontua√ß√µes
    if not token.is_stop and not token.is_punct:
        # Lematiza o token
        tokens_processados.append(token.lemma_)

print("\nTokens finais ap√≥s lematiza√ß√£o e stopwords:")
print(tokens_processados)

# Dependency Parsing - visualiza a rela√ß√£o de depend√™ncia de cada token
for token in doc:
    print(f"{token.text} <--{token.dep_}-- {token.head.text}")

# Embedding de cada token (vetor denso)
print("\nExemplo de vetor do primeiro token √∫til:")
print(tokens_processados[0], ":", doc[0].vector)


TOKEN: Os | LEMMA: o | POS: DET | DEP: det
TOKEN: meninos | LEMMA: menino | POS: NOUN | DEP: nsubj
TOKEN: estavam | LEMMA: estar | POS: AUX | DEP: aux
TOKEN: jogando | LEMMA: jogar | POS: VERB | DEP: ROOT
TOKEN: futebol | LEMMA: futebol | POS: NOUN | DEP: obj
TOKEN: na | LEMMA: em o | POS: ADP | DEP: case
TOKEN: pra√ßa | LEMMA: pra√ßa | POS: NOUN | DEP: obl
TOKEN: ontem | LEMMA: ontem | POS: ADV | DEP: advmod
TOKEN: √† | LEMMA: a o | POS: ADP | DEP: case
TOKEN: tarde | LEMMA: tarde | POS: NOUN | DEP: obl
TOKEN: . | LEMMA: . | POS: PUNCT | DEP: punct

Tokens finais ap√≥s lematiza√ß√£o e stopwords:
['menino', 'estar', 'jogar', 'futebol', 'pra√ßa']
Os <--det-- meninos
meninos <--nsubj-- jogando
estavam <--aux-- jogando
jogando <--ROOT-- jogando
futebol <--obj-- jogando
na <--case-- pra√ßa
pra√ßa <--obl-- jogando
ontem <--advmod-- jogando
√† <--case-- tarde
tarde <--obl-- ontem
. <--punct-- jogando

Exemplo de vetor do primeiro token √∫til:
menino : [ -5.3293    10.735     15.596    -13.80

In [None]:
'''
üîé O que est√° acontecendo (linha por linha)
¬¥nlp = spacy.load("pt_core_news_md")¬¥: Carrega o modelo pr√©-treinado de portugu√™s com embeddings.
¬¥doc = nlp(texto)¬¥: O texto passa pela pipeline padr√£o do SpaCy: tokeniza√ß√£o, POS tagging e dependency parsing.

Loop em doc:
  Mostra o token original, sua lematiza√ß√£o, classe gramatical (POS) e depend√™ncia sint√°tica.
¬¥if not token.is_stop and not token.is_punct¬¥: Remove palavras irrelevantes e pontua√ß√£o.
¬¥.lemma_¬¥: Lematiza cada token para obter sua forma base.
¬¥token.dep_¬¥: Mostra a depend√™ncia sint√°tica, ou seja, quem depende de quem na frase.
¬¥token.vector¬¥: Retorna o vetor embedding denso para o token.

---------- ---------- ----------

‚úÖ Resultado final esperado
Lista limpa de tokens lematizados
Rela√ß√£o sint√°tica entre palavras (Dependency Parsing)
Vetores prontos para serem input em modelos de ML/DL
'''