# Aula 12 - Programação de Linguagem Natural - 31/10/25

# O que é Programação de Linguagem Natural (PLN)

**PLN (ou NLP - Natural Language Processing)** é uma subárea da Inteligência Artificial que permite aos computadores **entenderem, interpretarem e gerarem linguagem humana** de forma útil.

Ela une **linguística computacional**, **estatística**, **aprendizado de máquina** e **ciência de dados** para extrair valor da linguagem humana.

**Ex.:**
1. **Chatbots (ex. atendimento automático no whatsapp ou sites)**
- **Como é feito**: O chatbot utiliza PLN para entender as intenções do usuário. Ele identifica palavras-chave, faz análise sintática e semântica e aciona uma resposta.
- **Etapas usadas**:
    - **Tokenização**: quebra a frase em palavras.
    - **Reconhecimento de intenções (intent detection)**: identifica o que o usuário quer (ex: “quero pagar minha fatura” → intenção = pagamento).
    - **Extração de entidades (NER)**: reconhece dados como datas, nomes, números.
- **Exemplo real**:
    - Entrada: *"Quero saber meu saldo."*
    - O chatbot detecta a intenção "consultar_saldo" e busca a informação no sistema.
---
2. **Corretores ortográficos**

- **Como é feito**: O sistema compara as palavras escritas com um dicionário. Se uma palavra não está no vocabulário, o sistema sugere a mais parecida usando algoritmos como distância de Levenshtein.
- **Etapas usadas**:
    - **Tokenização**: identifica cada palavra digitada.
    - **Verificação de vocabulário**: confere se a palavra existe.
    - **Sugerir correção**: calcula quais palavras são mais próximas.
- **Exemplo real**:
    - Entrada: *"Recomendo esse filmee."*
    - Saída: “Você quis dizer: *filme*?”
---
3. **Análise de sentimentos**

- **Como é feito**: O sistema identifica se um texto expressa opinião positiva, negativa ou neutra.
- **Etapas usadas**:
    - **Remoção de stop words**, stemming.
    - **Vetorização** e uso de modelos (estatísticos ou redes neurais).
- **Exemplo real**:
    - Comentário: *"O filme foi incrível!"*
    - Saída: sentimento = *positivo*
---
4. **Tradução automática (Google Tradutor, DeepL)**

- **Como é feito**: Utiliza redes neurais treinadas com milhões de pares de frases em dois idiomas.
- **Etapas usadas**:
    - **Tokenização e análise gramatical**.
    - **Mapeamento semântico**: entender o significado e a função de cada palavra.
    - **Geração de texto no idioma de destino**.
- **Exemplo real**:
    - Entrada: *"I love programming."*
    - Tradução: *"Eu amo programar."*
---

# Etapas de Implementação

1. **Tokenização**
    
    Vamos dividir um texto em **palavras separadas (tokens)**, retirando pontuações e deixando tudo em minúsculas. Isso ajuda o sistema a identificar as partes do texto de forma organizada.
    
2. **Remoção de Stop Words**
    
    Em seguida, vamos remover palavras muito comuns como "de", "o", "e", que geralmente não têm valor para a análise de sentimento ou classificação.
    
3. **Stemming**
    
    Essa etapa reduz as palavras à sua **forma básica ou raiz**, por exemplo, transformando “amando”, “amou” e “amor” todos em algo como “am”. Isso evita que o sistema trate como palavras diferentes o que tem o mesmo sentido.
    
4. **Vetorização**
    
    Por fim, vamos converter as palavras em **números**. Isso é necessário porque os algoritmos de IA e aprendizado de máquina só entendem dados numéricos. Vamos criar uma estrutura chamada **"Bag of Words"**, que mostra quantas vezes cada palavra aparece no texto.

## Etapa 1: Tokentização

Sem biblioteca:

In [2]:
# Texto de exemplo
texto = "O filme foi muito bom, adorei a atuação e o final surpreendente!"

# Importa a lista de pontuação para ajudar a limpar o texto
import string

# Remove os sinais de pontuação do texto
texto_limpo = ''.join([char for char in texto if char not in string.punctuation])

# Converte o texto para minúsculas e separa por espaços
tokens = texto_limpo.lower().split()

# Mostra os tokens gerados
print("Tokens (sem biblioteca):", tokens)

Tokens (sem biblioteca): ['o', 'filme', 'foi', 'muito', 'bom', 'adorei', 'a', 'atuação', 'e', 'o', 'final', 'surpreendente']


Com biblioteca (NLTK):

In [4]:
import nltk
from nltk.tokenize import word_tokenize

# Usa a função word_tokenize para quebrar o texto em palavras
tokens_nltk = word_tokenize(texto.lower())

# Mostra os tokens
print("Tokens (com NLTK):", tokens_nltk)


LookupError: 
**********************************************************************
  Resource [93mpunkt_tab[0m not found.
  Please use the NLTK Downloader to obtain the resource:

  [31m>>> import nltk
  >>> nltk.download('punkt_tab')
  [0m
  For more information see: https://www.nltk.org/data.html

  Attempted to load [93mtokenizers/punkt_tab/english/[0m

  Searched in:
    - '/home/codespace/nltk_data'
    - '/usr/local/python/3.12.1/nltk_data'
    - '/usr/local/python/3.12.1/share/nltk_data'
    - '/usr/local/python/3.12.1/lib/nltk_data'
    - '/usr/share/nltk_data'
    - '/usr/local/share/nltk_data'
    - '/usr/lib/nltk_data'
    - '/usr/local/lib/nltk_data'
**********************************************************************


## Etapa 2: Remoção de Stop Words

Sem Biblioteca:

In [7]:
# Lista básica de stop words manuais
stop_words = ['o', 'foi', 'a', 'e', 'de', 'do', 'da', 'os', 'as', 'um', 'uma', 'muito']

# Remove as palavras da lista de stop words
tokens_filtrados = [palavra for palavra in tokens if palavra not in stop_words]

print("Tokens sem stop words (sem biblioteca):", tokens_filtrados)


Tokens sem stop words (sem biblioteca): ['filme', 'bom', 'adorei', 'atuação', 'final', 'surpreendente']


Com Biblioteca (NLTK):

In [5]:
from nltk.corpus import stopwords

# Pega a lista de stop words do português
stopwords_pt = set(stopwords.words('portuguese'))

# Filtra os tokens, removendo os que estão na lista de stop words
tokens_filtrados_nltk = [palavra for palavra in tokens_nltk if palavra not in stopwords_pt]

print("Tokens sem stop words (com NLTK):", tokens_filtrados_nltk)

Tokens sem stop words (com NLTK): ['filme', 'bom', ',', 'adorei', 'atuação', 'final', 'surpreendente', '!']


## Etapa 3: Stemming

Sem biblioteca (heurpistica simples):

In [9]:
# Função simples para remover sufixos comuns
def stem(palavra):
    sufixos = ['mente', 'ção', 'ções', 'nte', 'ndo', 'ado', 'ido', 'ados', 'idos', 'ei', 'ou']
    for sufixo in sufixos:
        if palavra.endswith(sufixo):
            return palavra[:-len(sufixo)]
    return palavra

# Aplica o stemming em cada token
tokens_stemmed = [stem(p) for p in tokens_filtrados]

print("Stemming (sem biblioteca):", tokens_stemmed)

Stemming (sem biblioteca): ['filme', 'bom', 'ador', 'atua', 'final', 'surpreende']


Com biblioteca (NLTK):

In [6]:
from nltk.stem import RSLPStemmer

# Inicializa o stemmer para português
stemmer = RSLPStemmer()

# Aplica o stemming em cada token
tokens_stemmed_nltk = [stemmer.stem(p) for p in tokens_filtrados_nltk]

print("Stemming (com NLTK):", tokens_stemmed_nltk)

Stemming (com NLTK): ['film', 'bom', ',', 'ador', 'atu', 'final', 'surpreend', '!']


## Etapa 4: Vetorização (Bag of Words)

Sem biblioteca:

In [11]:
# Criar um vocabulário com palavras únicas
vocabulario = sorted(list(set(tokens_stemmed)))

# Cria o vetor com a frequência de cada palavra
vetor = [tokens_stemmed.count(palavra) for palavra in vocabulario]

# Exibe o vocabulário e o vetor
print("Vocabulário:", vocabulario)
print("Vetor (sem biblioteca):", vetor)


Vocabulário: ['ador', 'atua', 'bom', 'filme', 'final', 'surpreende']
Vetor (sem biblioteca): [1, 1, 1, 1, 1, 1]


Com biblioteca (Scitik-learn):


In [None]:
from sklearn.feature_extraction.text import CountVectorizer

# Corpus com o texto original para vetorização
corpus = ["O filme foi muito bom, adorei a atuação e o final surpreendente!, foi muito bom tudo"]

# Inicializa o vetorizador
vectorizer = CountVectorizer()

# Gera a matriz de frequência das palavras
X = vectorizer.fit_transform(corpus)

# Exibe o vocabulário e a matriz
print("Vocabulário (com sklearn):", vectorizer.get_feature_names_out())
print("Vetor (com sklearn):", X.toarray()[0])


## Resumindo as etapas de Implementação

| Etapa | Sem Biblioteca | Com Biblioteca |
|-------------|--------------|--------------|
| Tokenização  | split() + string.punctuation   | nltk.tokenize.word_tokenize()   |
| Stop Words  | lista manual + filtro   | nltk.corpus.stopwords.words()   |
| Stemming  | função que corta sufixos   | nltk.stem.RSLPStemmer()   |
| Vetorização  | set(), count()   | sklearn.feature_extraction.CountVectorizer   |

# O que é Naive Bayes

O Naive Bayes é um algoritmo de classificação probabilística baseado no Teorema de Bayes. Ele é chamado de "naive" (ingênuo) porque assume que todas as palavras do texto são independentes entre si, o que nem sempre é verdade — mas essa simplificação funciona muito bem na prática, principalmente para PLN.

## Fórmula do Teorema de Bayes

$$P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}$$

Na classificação de texto, ela é adaptada para:

$$P(classe|documento) \propto P(classe) \cdot \prod_{i=1}^{n} P(palavra_i|classe)$$

**Explicando os termos:**
- **P(classe∣documento)**: Probabilidade do documento pertencer a uma classe (ex: *bom* ou *ruim*).
- **P(classe)**: Probabilidade da classe ocorrer (ex: frequência de comentários positivos no treino).
- **P(palavrai∣classe)**: Probabilidade da palavra aparecer em textos daquela classe.
- **∏**: Produto das probabilidades de todas as palavras do documento (assumindo independência).

---

**Como ele funciona ? (parte prática)**
**Exemplo:**
Vamos dizer que queremos classificar o comentário:

"filme ótimo"


Nos dados de treino temos:
- 3 exemplos da classe **bom**
- 3 exemplos da classe **ruim**

---

**Passo a passo do algoritmo:**
1. **Calcula P(bom) e P(ruim)**
    - P(bom)=3/6=0.5
    - P(ruim)=3/6=0.5
2. **Calcula P(filme∣bom), P(ótimo|bom)**
    - Contamos quantas vezes "filme" aparece nos comentários bons, dividimos pelo total de palavras em "bom"
    - Se não aparece, usamos **suavização de Laplace** para evitar zero.
3. **Faz o mesmo para a classe ruim**
4. **Multiplica tudo** para cada classe:
$$P(bom∣comentario)∝P(bom)⋅P(filme∣bom)⋅P(ótimo∣bom)$$
$$P(ruim∣comentario)∝P(ruim)⋅P(filme∣ruim)⋅P(ótimo∣ruim)$$

Escolhe a maior probabilidade

---

**O que é Suavização de Laplace?**  
Quando uma palavra **não aparece** nos dados de uma classe, a probabilidade **P(palavra∣classe)** vira **zero** — o que anula toda a multiplicação.

Para evitar isso, usamos Laplace:
$$P(palavra|classe) = \frac{contagem(palavra) + 1}{total\_palavras + vocabulário\_tamanho}$$

---

**Vantagens do Naive Bayes:**  
- Rápido e eficiente para grandes volumes de texto.
- Funciona bem mesmo com dados simples.
- Fácil de entender e explicar (ótimo para iniciar em PLN).

"O Naive Bayes aprende com exemplos, analisa cada palavra do comentário novo, calcula a chance dele ser positivo ou negativo com base nas palavras que aprendeu, e decide qual é a mais provável."

# Implementação da classificação de palavras

## 1 - Implementação sem biblioteca

### 1. Base de treino (comentários e sentimentos)

In [2]:
base_treino = [
    ("gostei do filme", "bom"),
    ("não gostei do filme", "ruim"),
    ("ótimo filme", "bom"),
    ("péssimo e longo", "ruim"),
    ("amei a história", "bom"),
    ("foi horrível", "ruim")
]

### 2. Base de Teste (sem sentimento conhecido)

In [3]:
comentarios_teste = [
    "o filme foi ótimo",
    "não gostei do final",
    "adorei a trilha sonora",
    "filme muito ruim"
]


### 3. Classificador manual (baseado em palavras positivas/negativas)

In [4]:
# Palavras associadas a sentimentos
palavras_bom = ["gostei", "ótimo", "amei", "adorei", "bom", "excelente"]
palavras_ruim = ["não", "péssimo", "horrível", "ruim", "detestei"]

def classificar(comentario):
    tokens = comentario.lower().split()
    score = 0
    for token in tokens:
        if token in palavras_bom:
            score += 1
        elif token in palavras_ruim:
            score -= 1
    if score > 0:
        return "bom"
    elif score < 0:
        return "ruim"
    else:
        return "neutro"

### 4. Aplicar classificado e calcular porcentagem

In [5]:
# Classifica cada comentário
resultados = [(comentario, classificar(comentario)) for comentario in comentarios_teste]

# Exibe os resultados
for c, r in resultados:
    print(f"'{c}' => {r}")

# Calcula porcentagem
from collections import Counter

contagem = Counter([r for _, r in resultados])
total = sum(contagem.values())

print("\nResumo de Sentimentos:")
for sentimento, qtd in contagem.items():
    print(f"{sentimento.capitalize()}: {qtd / total * 100:.2f}%")

'o filme foi ótimo' => bom
'não gostei do final' => neutro
'adorei a trilha sonora' => bom
'filme muito ruim' => ruim

Resumo de Sentimentos:
Bom: 50.00%
Neutro: 25.00%
Ruim: 25.00%


## 2. Com biblioteca (Scikit-learn)

### 1. Base de Treinamento (comentários e sentimentos)

In [6]:
# Comentários de treino e seus respectivos sentimentos
comentarios_treino = [
    "gostei do filme",
    "não gostei do filme",
    "ótimo filme",
    "péssimo e longo",
    "amei a história",
    "foi horrível"
]

sentimentos_treino = [
    "bom",
    "ruim",
    "bom",
    "ruim",
    "bom",
    "ruim"
]


### 2. Base de Teste (sem sentimento conhecido)

In [None]:
comentarios_teste = [
    "o filme foi ótimo",
    "não gostei do final",
    "adorei a trilha sonora",
    "filme muito ruim"
]


### 3. Modelo com CountVectorizer + MultinomialNB

In [8]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import make_pipeline

# Cria o pipeline: vetorização das palavras + classificador Naive Bayes
modelo = make_pipeline(CountVectorizer(), MultinomialNB())

# Treina o modelo com os dados de treino
modelo.fit(comentarios_treino, sentimentos_treino)

# Aplica o modelo nos comentários de teste
previsoes = modelo.predict(comentarios_teste)

# Exibe os resultados
for comentario, sentimento in zip(comentarios_teste, previsoes):
    print(f"{comentario} => {sentimento}")

o filme foi ótimo => bom
não gostei do final => ruim
adorei a trilha sonora => bom
filme muito ruim => bom


### 4. Porcentagem dos sentimentos classificados

In [9]:
from collections import Counter

# Conta quantos comentários foram classificados em cada categoria
contagem = Counter(previsoes)
total = sum(contagem.values())

# Calcula e mostra a porcentagem
print("\nResumo de Sentimentos:")
for sentimento, qtd in contagem.items():
    percentual = (qtd / total) * 100
    print(f"{sentimento.capitalize()}: {percentual:.2f}%")


Resumo de Sentimentos:
Bom: 75.00%
Ruim: 25.00%


## Observações

- **`CountVectorizer()`** transforma o texto em vetores numéricos (bag-of-words).
- **`MultinomialNB()`** é um modelo de classificação adequado para dados de frequência (como palavras).
- A **pipeline** garante que os dados passem pelas etapas certas na ordem correta.