# **1. Tokenização e Remoção de Stopwords**


In [None]:
#pip install nltk



In [None]:
import nltk
import string
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

# Baixar recursos do NLTK (executar uma vez)
nltk.download('punkt')
nltk.download('punkt_tab')
nltk.download('stopwords')

# Texto de exemplo
texto = "Olá! Tudo bem com você? Estou aprendendo Processamento de Linguagem Natural."

# Tokenização
tokens = word_tokenize(texto, language='portuguese')

# Lista de stopwords em português
stopwords_pt = set(stopwords.words('portuguese'))

# Remover stopwords
tokens_sem_stopwords = [palavra for palavra in tokens if palavra.lower() not in stopwords_pt]

# Remover pontuação
tokens_sem_stopwords = [
    palavra for palavra in tokens
    if palavra.lower() not in stopwords_pt and palavra not in string.punctuation
]


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [None]:
# Exibir resultado
print("Tokens:")
print(tokens)
print("-------------------------------------------------------------------------------------------------------------")
print("Tokens sem stopwords:")
print(tokens_sem_stopwords)


Tokens:
['Olá', '!', 'Tudo', 'bem', 'com', 'você', '?', 'Estou', 'aprendendo', 'Processamento', 'de', 'Linguagem', 'Natural', '.']
-------------------------------------------------------------------------------------------------------------
Tokens sem stopwords:
['Olá', 'Tudo', 'bem', 'aprendendo', 'Processamento', 'Linguagem', 'Natural']


# **2. Lematização e Stemização**

##**Stemização com NLTK**

In [None]:
from nltk.stem import RSLPStemmer
from nltk.tokenize import word_tokenize
import nltk

# Baixar recursos necessários
nltk.download('rslp')  # Stemmer para português
nltk.download('punkt')

# Texto exemplo
texto = "Correram correndo corredores"

# Tokenização
tokens = word_tokenize(texto, language='portuguese')

# Stemmer para português
stemmer = RSLPStemmer()

# Aplicar stemização
stems = [stemmer.stem(palavra) for palavra in tokens]



[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Package rslp is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [None]:
# Exibir resultado
print("Tokens originais:", tokens)
print("Stems:", stems)

Tokens originais: ['Correram', 'correndo', 'corredores']
Stems: ['corr', 'corr', 'corr']


## **Lematização com spaCy**

O NLTK não tem um lematizador robusto para português. Para isso, usamos o spaCy, que é moderno e mais completo.

In [None]:
!pip install spacy
!python -m spacy download pt_core_news_sm

Traceback (most recent call last):
  File "<frozen runpy>", line 189, in _run_module_as_main
  File "<frozen runpy>", line 148, in _get_module_details
  File "<frozen runpy>", line 112, in _get_module_details
  File "/usr/local/lib/python3.11/dist-packages/spacy/__init__.py", line 6, in <module>
  File "/usr/local/lib/python3.11/dist-packages/spacy/errors.py", line 3, in <module>
    from .compat import Literal
  File "/usr/local/lib/python3.11/dist-packages/spacy/compat.py", line 4, in <module>
    from thinc.util import copy_array
  File "/usr/local/lib/python3.11/dist-packages/thinc/__init__.py", line 5, in <module>
    from .config import registry
  File "/usr/local/lib/python3.11/dist-packages/thinc/config.py", line 1, in <module>
    import catalogue
  File "/usr/local/lib/python3.11/dist-packages/catalogue/__init__.py", line 11, in <module>
    AVAILABLE_ENTRY_POINTS = importlib_metadata.entry_points()  # type: ignore
                             ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^

In [None]:
import spacy

# Carregar o modelo em português
nlp = spacy.load("pt_core_news_sm")

# Texto de exemplo
texto = "Os meninos correram rapidamente para as casas."

# Processar o texto
doc = nlp(texto)


In [None]:
# Mostrar lemas
print("Tokens e seus lemas:")
for token in doc:
    print(f"{token.text} → {token.lemma_}")


Tokens e seus lemas:
Os → o
meninos → menino
correram → correr
rapidamente → rapidamente
para → para
as → o
casas → casa
. → .


# **3. Análise Morfológica e Sintática**

*   Análise Morfológica (ou morfossintática): identifica a classe gramatical de cada palavra (substantivo, verbo, adjetivo, etc.) — também chamada de POS tagging.
*   Análise Sintática: mostra a função sintática e as relações entre as palavras na frase (quem é sujeito, objeto, etc.) — conhecida como dependency parsing.

In [None]:
#!pip install spacy
#!python -m spacy download pt_core_news_sm

Collecting pt-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.8.0/pt_core_news_sm-3.8.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m43.8 MB/s[0m eta [36m0:00:00[0m
[?25h[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [None]:
import spacy

# Carregar o modelo em português
nlp = spacy.load("pt_core_news_sm")

# Frase de exemplo
frase = "O menino chutou a bola com força."

# Processar a frase
doc = nlp(frase)

# Exibir análise morfológica e sintática
print(f"{'TOKEN':<12} {'LEMMA':<12} {'POS':<10} {'TAG':<10} {'DEP':<15} {'HEAD'}")
print("-" * 70)
for token in doc:
    print(f"{token.text:<12} {token.lemma_:<12} {token.pos_:<10} {token.tag_:<10} {token.dep_:<15} {token.head.text}")

TOKEN        LEMMA        POS        TAG        DEP             HEAD
----------------------------------------------------------------------
O            o            DET        DET        det             menino
menino       menino       NOUN       NOUN       nsubj           chutou
chutou       chutar       VERB       VERB       ROOT            chutou
a            o            DET        DET        det             bola
bola         bola         NOUN       NOUN       obj             chutou
com          com          ADP        ADP        case            força
força        força        NOUN       NOUN       obl             chutou
.            .            PUNCT      PUNCT      punct           chutou


## **Explicação das colunas principais:**

TOKEN: Palavra original.

LEMMA: Forma de dicionário da palavra.

POS: Classe gramatical (substantivo, verbo etc.).

TAG: Etiqueta gramatical mais detalhada.

DEP: Função sintática (ex: nsubj = sujeito, obj = objeto direto, obl = adjunto).

HEAD: Palavra à qual esse token está relacionado (o "núcleo" da dependência).

# **4. Reconhecimento de Entidades Nomeadas (NER - Named Entity Recognition)**

In [None]:
#!pip install spacy
#!python -m spacy download pt_core_news_sm

In [None]:
import spacy

# Carregar modelo de português
nlp = spacy.load("pt_core_news_sm")

# Texto de exemplo
texto = "A Microsoft anunciou um novo produto em São Paulo no dia 15 de março de 2024."

# Processar o texto
doc = nlp(texto)

# Exibir entidades reconhecidas
print("Entidades Nomeadas Encontradas:")
for ent in doc.ents:
    print(f"- {ent.text} → {ent.label_}")


Entidades Nomeadas Encontradas:
- Microsoft → ORG
- São Paulo → LOC


**Possíveis tipos de entidade (ent.label_):**

| Label | Significado            |
| ----- | ---------------------- |
| PER   | Pessoa                 |
| LOC   | Local                  |
| ORG   | Organização            |
| DATE  | Data                   |
| TIME  | Hora                   |
| MONEY | Quantidade em dinheiro |
| GPE   | País, cidade, estado   |
| MISC  | Diversos               |


"15 de março de 2024" não está sendo reconhecido como uma entidade do tipo DATE — mesmo sendo uma data clara — porque o modelo não tem esse tipo de anotação bem treinada para português.

## **Exemplo com spaCy em inglês reconhecendo uma data**

In [None]:
import spacy

# Carrega o modelo em inglês
nlp = spacy.load("en_core_web_sm")

# Texto de exemplo
text = "Microsoft announced a new product in São Paulo on March 15, 2024."

# Processar o texto
doc = nlp(text)

# Mostrar entidades
print("Named Entities:")
for ent in doc.ents:
    print(f"- {ent.text} → {ent.label_}")


Named Entities:
- Microsoft → ORG
- São Paulo → GPE
- March 15, 2024 → DATE


# **5. Análise Semântica**

Vamos calcular a similaridade semântica entre duas frases em português, como:

"Eu comprei um carro novo ontem."
"Ontem adquiri um automóvel."

Mesmo com palavras diferentes ("carro" vs "automóvel", "comprei" vs "adquiri"), o modelo deve reconhecer que o significado é similar.


In [None]:
#!pip install spacy
#!python -m spacy download pt_core_news_lg

Collecting pt-core-news-lg==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_lg-3.8.0/pt_core_news_lg-3.8.0-py3-none-any.whl (568.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m568.2/568.2 MB[0m [31m3.0 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pt-core-news-lg
Successfully installed pt-core-news-lg-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_lg')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [None]:
import spacy

# Carregar modelo grande com vetores semânticos
nlp = spacy.load("pt_core_news_lg")

# Frases de exemplo
frase1 = nlp("Eu comprei um carro novo ontem.")
frase2 = nlp("Ontem adquiri um automóvel.")

# Calcular similaridade
similaridade = frase1.similarity(frase2)

print("Frase 1:", frase1.text)
print("Frase 2:", frase2.text)
print(f"Similaridade semântica: {similaridade:.2f}")


Frase 1: Eu comprei um carro novo ontem.
Frase 2: Ontem adquiri um automóvel.
Similaridade semântica: 0.75


**Observação**

*   O modelo pt_core_news_sm (versão pequena) não calcula similaridade corretamente, pois não tem vetores de palavras.
*   O pt_core_news_lg é maior, mas mais preciso para análise semântica.

# **6. Análise de Sentimentos**


É o processo de classificar o sentimento de um texto como:

* Positivo

* Negativo

* (às vezes) Neutro


Exemplo:

Texto: "O produto é maravilhoso!" → Sentimento: Positivo

Vamos usar a biblioteca transformers da Hugging Face com um modelo de BERT em português pré-treinado para Análise de Sentimentos.

In [None]:
#!pip install transformers torch

Collecting nvidia-cuda-nvrtc-cu12==12.4.127 (from torch)
  Downloading nvidia_cuda_nvrtc_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-runtime-cu12==12.4.127 (from torch)
  Downloading nvidia_cuda_runtime_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-cupti-cu12==12.4.127 (from torch)
  Downloading nvidia_cuda_cupti_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cudnn-cu12==9.1.0.70 (from torch)
  Downloading nvidia_cudnn_cu12-9.1.0.70-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cublas-cu12==12.4.5.8 (from torch)
  Downloading nvidia_cublas_cu12-12.4.5.8-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cufft-cu12==11.2.1.3 (from torch)
  Downloading nvidia_cufft_cu12-11.2.1.3-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-curand-cu12==10.3.5.147 (from torch)
  Downloading nvidia_curand_cu12-10.3.5

In [None]:
from transformers import pipeline

# Criar pipeline de análise de sentimentos com modelo multilingue
analisador = pipeline("sentiment-analysis", model="nlptown/bert-base-multilingual-uncased-sentiment")

# Frases de exemplo
frases = [
    "Este filme foi incrível, amei cada momento!",
    "O atendimento foi péssimo e a comida estava fria.",
    "O produto chegou, mas não era exatamente o que eu esperava."
]


config.json:   0%|          | 0.00/953 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/669M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/39.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/872k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

Device set to use cpu


In [None]:
# Analisar cada frase
for frase in frases:
    resultado = analisador(frase)[0]
    print(f"Frase: \"{frase}\" → Sentimento: {resultado['label']} (confiança: {resultado['score']:.2f})")

Frase: "Este filme foi incrível, amei cada momento!" → Sentimento: 5 stars (confiança: 0.85)
Frase: "O atendimento foi péssimo e a comida estava fria." → Sentimento: 1 star (confiança: 0.67)
Frase: "O produto chegou, mas não era exatamente o que eu esperava." → Sentimento: 2 stars (confiança: 0.45)
