# Processamento de Linguagem Natural (PLN)

## **5. Modelos de Aprendizado de Máquina no PLN**

Com os vetores criados, podemos aplicar modelos de **Machine Learning** para tarefas como:

- Classificação de textos
- Detecção de sentimento
- Sumarização
- Geração de texto

### **5.1 Exemplo Simples: Classificação de Sentimento**
- Este código implementa um classificador de sentimentos simples em português usando técnicas de processamento de linguagem natural (PLN) e aprendizado de máquina

#### 🐍 Código - Carregando as Bibliotecas

In [1]:
# 1. Importar as bibliotecas necessárias
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import re
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.pipeline import make_pipeline
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report


#### 🔖 Explicações

1. **Importação de Bibliotecas**
- **nltk**: Para tokenização e remoção de stopwords.
- **re**: Para limpeza de texto com expressões regulares.
- **sklearn**: Para vetorização (TfidfVectorizer, mas usa CountVectorizer no pipeline), divisão de dados, pipeline, modelo Naive Bayes e métricas de avaliação.

#### 🐍 Código - Download de Recursos

In [2]:
# 2. Garantir que recursos da NLTK estão baixados
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\nickolas.sa\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\nickolas.sa\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

#### 🔖 Explicações

2. Download de Recursos da NLTK
- **punkt**: Ferramenta de tokenização.
- **stopwords**: Lista de palavras comuns em português (ex.: "e", "ou") a serem removidas.

#### 🐍 Código - Obtendo/Gerando dados

In [3]:
# 3. Dataset artificial para classificação de sentimentos
# Cada texto tem uma etiqueta: 'positivo' ou 'negativo'
dados = [
    ("Eu amo programar em Python!", "positivo"),
    ("Python é incrível e muito útil.", "positivo"),
    ("Adorei este tutorial!", "positivo"),
    ("Não gosto desse sistema.", "negativo"),
    ("Essa experiência foi horrível.", "negativo"),
    ("Nunca mais usarei esse produto.", "negativo"),
    ("O suporte foi rápido e eficiente.", "positivo"),
    ("Tudo funciona bem aqui.", "positivo"),
    ("A interface é confusa.", "negativo"),
    ("Estou decepcionado.", "negativo"),
    ("Adorei o filme!", "positivo"),
    ("Muito bom!","positivo" ),
    ("Excelente serviço!", "positivo"),
    ("Recomendo muito!", "positivo"),
    ("Ótima qualidade!", "positivo"),
    ("Maravilhoso!", "positivo"),
    ("Fantástico!", "positivo"),
    ("Incrível experiência!", "positivo"),
    ("Perfeito!", "positivo"), 
    ("Surpreendente!", "positivo"),
    ("Vale cada centavo!", "positivo"),
    ("Impecável!", "positivo"),
    ("Nota 10!", "positivo"),
    ("Superou expectativas!", "positivo"),
    ("Encantado!","positivo"),
    ("Sensacional!", "positivo"),
    ("Estou impressionado!", "positivo"),
    ("Melhor que esperava!", "positivo"),
    ("Divertido demais!", "positivo"),
    ("Amei!","positivo"),
    ("Top de linha!", "positivo"),
    ("Simplesmente perfeito!", "positivo"),
    ("Recomendo sem dúvidas!", "positivo"),
    ("Produto excelente!", "positivo"),
    ("Atendimento maravilhoso!","positivo"),
    ("Muito chato.", "negativo"), 
    ("Péssimo filme.", "negativo"), 
    ("Horrível experiência.", "negativo"), 
    ("Não recomendo.", "negativo"), 
    ("Terrível.", "negativo"), 
    ("Desapontado.", "negativo"), 
    ("Ruim demais.", "negativo"), 
    ("Lamentável.", "negativo"), 
    ("Fraco.", "negativo"), 
    ("Decepcionante.", "negativo"), 
    ("Perda de tempo.", "negativo"), 
    ("Não vale o preço.", "negativo"), 
    ("Horroroso.", "negativo"), 
    ("Péssimo atendimento.", "negativo"), 
    ("Arrependido.", "negativo"), 
    ("Muito ruim.", "negativo"), 
    ("Nunca mais compro.", "negativo"), 
    ("Qualidade inferior.", "negativo"), 
    ("Não funciona.", "negativo"), 
    ("Enganação.", "negativo"), 
    ("Pior experiência.", "negativo"), 
    ("Tive problemas.", "negativo"), 
    ("Não atendeu expectativas.", "negativo"), 
    ("Fiquei insatisfeito.", "negativo"), 
    ("Produto defeituoso.", "negativo"),     
]

print(f"\n\nDados: \n\t{dados[0:3]}\n")



Dados: 
	[('Eu amo programar em Python!', 'positivo'), ('Python é incrível e muito útil.', 'positivo'), ('Adorei este tutorial!', 'positivo')]



#### 🔖 Explicações

**3. Dataset Artificial**
- Uma lista de tuplas com textos e rótulos ("positivo" ou "negativo"), como "Eu amo programar em Python!" (positivo) e "Não gosto desse sistema." (negativo).

#### 🐍 Código - Separando os dados

In [4]:
# 4. Separar textos e rótulos
textos = [t[0] for t in dados]
rotulos = [t[1] for t in dados]


#### 🔖 Explicações

**4. Separação de Textos e Rótulos**
- Extrai textos e rótulos do dataset em listas separadas usando list comprehensions.

#### 🐍 Código - Função de pré-processamento

In [5]:
# 5. Função de pré-processamento
def preprocessar(texto):
    # Remover pontuação e caracteres não alfanuméricos
    texto = re.sub(r'[^\w\s]', '', texto)

    # Tokenização
    tokens = word_tokenize(texto.lower())

    # Remover stopwords
    stop_words = set(stopwords.words('portuguese'))
    tokens_filtrados = [t for t in tokens if t not in stop_words]

    # retorna os dados processados
    return ' '.join(tokens_filtrados)

#### 🔖 Explicações

**5. Função de Pré-processamento**
- **Limpa o texto**:
    - Remove pontuação e caracteres não alfanuméricos.
    - Converte para minúsculas.
    - Tokeniza (divide em palavras).
    - Remove stopwords.
    - Junta as palavras em uma string novamente.

#### 🐍 Código - realizando o pré-processamento

In [6]:
# 6. Aplicar pré-processamento
textos_limpos = [preprocessar(t) for t in textos]

#### 🔖 Explicações

**6. Aplicação do Pré-processamento**
- Aplica a função de pré-processamento a todos os textos, gerando uma lista de textos limpos.

#### 🐍 Código - Separando os dados de treino e teste

In [7]:
# 7. Dividir em treino e teste
X_treino, X_teste, y_treino, y_teste = train_test_split(textos_limpos, rotulos, test_size=0.2, random_state=42)

#### 🔖 Explicações

**7. Divisão em Treino e Teste**
- Divide os dados em 80% para treino e 20% para teste com train_test_split, usando random_state=42 para reprodutibilidade.

#### 🐍 Código

In [8]:
# 8. Treinar o modelo (Multinomial Naive Bayes)
modelo = make_pipeline(CountVectorizer(), MultinomialNB())
modelo.fit(X_treino, y_treino)

NameError: name 'CountVectorizer' is not defined

#### 🔖 Explicações

**8. Treinamento do Modelo**
- Cria um pipeline com:
    - CountVectorizer: Transforma textos em vetores de contagem de palavras.
    - MultinomialNB: Classificador Naive Bayes para dados de contagem.
- Treina o modelo com os dados de treino.

#### 🐍 Código

In [None]:
# 9. Fazer previsões
y_pred = modelo.predict(X_teste)

#### 🔖 Explicações

**9. Previsões**
- Usa o modelo treinado para prever os rótulos dos dados de teste.

#### 🐍 Código

In [None]:
# 10. Fazer previsões
y_pred = modelo.predict(X_teste)

# 11. Avaliar o modelo
print("Acurácia:", accuracy_score(y_teste, y_pred))
print("\nRelatório de classificação:")
print(classification_report(y_teste, y_pred))

#### 🔖 Explicações

**10. Avaliação do Modelo**
- Calcula a acurácia (percentual de acertos).
- Gera um relatório de classificação com precisão, recall e f1-score para "positivo" e "negativo".

#### 🐍 Código

In [None]:
# Testando com mais casos
test_cases = [
    "Adorei o filme!",
    "Péssimo serviço.",
    "Excelente experiência!",
    "Não gostei nada.",
    "Super recomendo!",
    "Produto horrível",
    "Atendimento perfeito",
    "Completamente insatisfeito"
]

print("\nPredições:")
for case in test_cases:
    print(f"{case:30} → {modelo.predict([case])[0]}")

#### 🔖 Explicações

**11. Testes Adicionais**
- Testa o modelo com novos textos (ex.: "Adorei o filme!" → positivo, "Péssimo serviço." → negativo).
- Imprime as predições para cada caso.
- Reavalia a acurácia no conjunto de teste.
- Faz predições individuais para exemplos como "Adorável!" (positivo), "Serviço ruim." (negativo).

#### 🐍 Código

In [None]:
# Métricas de avaliação
print("\nAcurácia no teste:", modelo.score(X_test, y_test))

print(modelo.predict(["Adorável!"])[0])  # Saída esperada: positivo
print(modelo.predict(["Serviço ruim."])[0])  # Saída esperada: negativo
print(modelo.predict(["Deveria ser melhor"])[0])  # Saída esperada: negativo

#### 🔖 Resumo


O código cria um classificador de sentimentos que:
- Processa textos em português removendo ruídos.
- Treina um modelo Naive Bayes com um dataset artificial.
- Avalia o desempenho e testa com novos exemplos, classificando sentimentos como positivos ou negativos.