# Aula 12 - Programação de Linguagem Natural - 31/10/25

# O que é Programação de Linguagem Natural (PLN)

**PLN (ou NLP - Natural Language Processing)** é uma subárea da Inteligência Artificial que permite aos computadores **entenderem, interpretarem e gerarem linguagem humana** de forma útil.

Ela une **linguística computacional**, **estatística**, **aprendizado de máquina** e **ciência de dados** para extrair valor da linguagem humana.

**Ex.:**
1. **Chatbots (ex. atendimento automático no whatsapp ou sites)**
- **Como é feito**: O chatbot utiliza PLN para entender as intenções do usuário. Ele identifica palavras-chave, faz análise sintática e semântica e aciona uma resposta.
- **Etapas usadas**:
    - **Tokenização**: quebra a frase em palavras.
    - **Reconhecimento de intenções (intent detection)**: identifica o que o usuário quer (ex: “quero pagar minha fatura” → intenção = pagamento).
    - **Extração de entidades (NER)**: reconhece dados como datas, nomes, números.
- **Exemplo real**:
    - Entrada: *"Quero saber meu saldo."*
    - O chatbot detecta a intenção "consultar_saldo" e busca a informação no sistema.
---
2. **Corretores ortográficos**

- **Como é feito**: O sistema compara as palavras escritas com um dicionário. Se uma palavra não está no vocabulário, o sistema sugere a mais parecida usando algoritmos como distância de Levenshtein.
- **Etapas usadas**:
    - **Tokenização**: identifica cada palavra digitada.
    - **Verificação de vocabulário**: confere se a palavra existe.
    - **Sugerir correção**: calcula quais palavras são mais próximas.
- **Exemplo real**:
    - Entrada: *"Recomendo esse filmee."*
    - Saída: “Você quis dizer: *filme*?”
---
3. **Análise de sentimentos**

- **Como é feito**: O sistema identifica se um texto expressa opinião positiva, negativa ou neutra.
- **Etapas usadas**:
    - **Remoção de stop words**, stemming.
    - **Vetorização** e uso de modelos (estatísticos ou redes neurais).
- **Exemplo real**:
    - Comentário: *"O filme foi incrível!"*
    - Saída: sentimento = *positivo*
---
4. **Tradução automática (Google Tradutor, DeepL)**

- **Como é feito**: Utiliza redes neurais treinadas com milhões de pares de frases em dois idiomas.
- **Etapas usadas**:
    - **Tokenização e análise gramatical**.
    - **Mapeamento semântico**: entender o significado e a função de cada palavra.
    - **Geração de texto no idioma de destino**.
- **Exemplo real**:
    - Entrada: *"I love programming."*
    - Tradução: *"Eu amo programar."*
---

# Etapas de Implementação

1. **Tokenização**
    
    Vamos dividir um texto em **palavras separadas (tokens)**, retirando pontuações e deixando tudo em minúsculas. Isso ajuda o sistema a identificar as partes do texto de forma organizada.
    
2. **Remoção de Stop Words**
    
    Em seguida, vamos remover palavras muito comuns como "de", "o", "e", que geralmente não têm valor para a análise de sentimento ou classificação.
    
3. **Stemming**
    
    Essa etapa reduz as palavras à sua **forma básica ou raiz**, por exemplo, transformando “amando”, “amou” e “amor” todos em algo como “am”. Isso evita que o sistema trate como palavras diferentes o que tem o mesmo sentido.
    
4. **Vetorização**
    
    Por fim, vamos converter as palavras em **números**. Isso é necessário porque os algoritmos de IA e aprendizado de máquina só entendem dados numéricos. Vamos criar uma estrutura chamada **"Bag of Words"**, que mostra quantas vezes cada palavra aparece no texto.

## Etapa 1: Tokentização

Sem biblioteca:

In [1]:
# Texto de exemplo
texto = "O filme foi muito bom, adorei a atuação e o final surpreendente!"

# Importa a lista de pontuação para ajudar a limpar o texto
import string

# Remove os sinais de pontuação do texto
texto_limpo = ''.join([char for char in texto if char not in string.punctuation])

# Converte o texto para minúsculas e separa por espaços
tokens = texto_limpo.lower().split()

# Mostra os tokens gerados
print("Tokens (sem biblioteca):", tokens)

Tokens (sem biblioteca): ['o', 'filme', 'foi', 'muito', 'bom', 'adorei', 'a', 'atuação', 'e', 'o', 'final', 'surpreendente']


Com biblioteca (NLTK):

In [6]:
import nltk
from nltk.tokenize import word_tokenize
#nltk.download() pega uma memoria horrivel do pc

# Usa a função word_tokenize para quebrar o texto em palavras
tokens_nltk = word_tokenize(texto.lower())

# Mostra os tokens
print("Tokens (com NLTK):", tokens_nltk)


Tokens (com NLTK): ['o', 'filme', 'foi', 'muito', 'bom', ',', 'adorei', 'a', 'atuação', 'e', 'o', 'final', 'surpreendente', '!']


## Etapa 2: Remoção de Stop Words

Sem Biblioteca:

In [7]:
# Lista básica de stop words manuais
stop_words = ['o', 'foi', 'a', 'e', 'de', 'do', 'da', 'os', 'as', 'um', 'uma', 'muito']

# Remove as palavras da lista de stop words
tokens_filtrados = [palavra for palavra in tokens if palavra not in stop_words]

print("Tokens sem stop words (sem biblioteca):", tokens_filtrados)


Tokens sem stop words (sem biblioteca): ['filme', 'bom', 'adorei', 'atuação', 'final', 'surpreendente']


Com Biblioteca (NLTK):

In [8]:
from nltk.corpus import stopwords

# Pega a lista de stop words do português
stopwords_pt = set(stopwords.words('portuguese'))

# Filtra os tokens, removendo os que estão na lista de stop words
tokens_filtrados_nltk = [palavra for palavra in tokens_nltk if palavra not in stopwords_pt]

print("Tokens sem stop words (com NLTK):", tokens_filtrados_nltk)

Tokens sem stop words (com NLTK): ['filme', 'bom', ',', 'adorei', 'atuação', 'final', 'surpreendente', '!']


## Etapa 3: Stemming

Sem biblioteca (heurpistica simples):

In [9]:
# Função simples para remover sufixos comuns
def stem(palavra):
    sufixos = ['mente', 'ção', 'ções', 'nte', 'ndo', 'ado', 'ido', 'ados', 'idos', 'ei', 'ou']
    for sufixo in sufixos:
        if palavra.endswith(sufixo):
            return palavra[:-len(sufixo)]
    return palavra

# Aplica o stemming em cada token
tokens_stemmed = [stem(p) for p in tokens_filtrados]

print("Stemming (sem biblioteca):", tokens_stemmed)

Stemming (sem biblioteca): ['filme', 'bom', 'ador', 'atua', 'final', 'surpreende']


Com biblioteca (NLTK):

In [10]:
from nltk.stem import RSLPStemmer

# Inicializa o stemmer para português
stemmer = RSLPStemmer()

# Aplica o stemming em cada token
tokens_stemmed_nltk = [stemmer.stem(p) for p in tokens_filtrados_nltk]

print("Stemming (com NLTK):", tokens_stemmed_nltk)

Stemming (com NLTK): ['film', 'bom', ',', 'ador', 'atu', 'final', 'surpreend', '!']


## Etapa 4: Vetorização (Bag of Words)

Sem biblioteca:

In [11]:
# Criar um vocabulário com palavras únicas
vocabulario = sorted(list(set(tokens_stemmed)))

# Cria o vetor com a frequência de cada palavra
vetor = [tokens_stemmed.count(palavra) for palavra in vocabulario]

# Exibe o vocabulário e o vetor
print("Vocabulário:", vocabulario)
print("Vetor (sem biblioteca):", vetor)


Vocabulário: ['ador', 'atua', 'bom', 'filme', 'final', 'surpreende']
Vetor (sem biblioteca): [1, 1, 1, 1, 1, 1]


Com biblioteca (Scitik-learn):


In [12]:
from sklearn.feature_extraction.text import CountVectorizer

# Corpus com o texto original para vetorização
corpus = ["O filme foi muito bom, adorei a atuação e o final surpreendente!"]

# Inicializa o vetorizador
vectorizer = CountVectorizer()

# Gera a matriz de frequência das palavras
X = vectorizer.fit_transform(corpus)

# Exibe o vocabulário e a matriz
print("Vocabulário (com sklearn):", vectorizer.get_feature_names_out())
print("Vetor (com sklearn):", X.toarray()[0])


Vocabulário (com sklearn): ['adorei' 'atuação' 'bom' 'filme' 'final' 'foi' 'muito' 'surpreendente']
Vetor (com sklearn): [1 1 1 1 1 1 1 1]
