# Processamento de Linguagem Natural (PLN)

## **5. Modelos de Aprendizado de M√°quina no PLN**

Com os vetores criados, podemos aplicar modelos de **Machine Learning** para tarefas como:

- Classifica√ß√£o de textos
- Detec√ß√£o de sentimento
- Sumariza√ß√£o
- Gera√ß√£o de texto

### **5.1 Exemplo Simples: Classifica√ß√£o de Sentimento**
- Este c√≥digo implementa um classificador de sentimentos simples em portugu√™s usando t√©cnicas de processamento de linguagem natural (PLN) e aprendizado de m√°quina

#### üêç C√≥digo - Carregando as Bibliotecas

In [1]:
# 1. Importar as bibliotecas necess√°rias
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import re
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.pipeline import make_pipeline
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report


#### üîñ Explica√ß√µes

1. **Importa√ß√£o de Bibliotecas**
- **nltk**: Para tokeniza√ß√£o e remo√ß√£o de stopwords.
- **re**: Para limpeza de texto com express√µes regulares.
- **sklearn**: Para vetoriza√ß√£o (TfidfVectorizer, mas usa CountVectorizer no pipeline), divis√£o de dados, pipeline, modelo Naive Bayes e m√©tricas de avalia√ß√£o.

#### üêç C√≥digo - Download de Recursos

In [2]:
# 2. Garantir que recursos da NLTK est√£o baixados
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\nickolas.sa\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\nickolas.sa\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

#### üîñ Explica√ß√µes

2. Download de Recursos da NLTK
- **punkt**: Ferramenta de tokeniza√ß√£o.
- **stopwords**: Lista de palavras comuns em portugu√™s (ex.: "e", "ou") a serem removidas.

#### üêç C√≥digo - Obtendo/Gerando dados

In [3]:
# 3. Dataset artificial para classifica√ß√£o de sentimentos
# Cada texto tem uma etiqueta: 'positivo' ou 'negativo'
dados = [
    ("Eu amo programar em Python!", "positivo"),
    ("Python √© incr√≠vel e muito √∫til.", "positivo"),
    ("Adorei este tutorial!", "positivo"),
    ("N√£o gosto desse sistema.", "negativo"),
    ("Essa experi√™ncia foi horr√≠vel.", "negativo"),
    ("Nunca mais usarei esse produto.", "negativo"),
    ("O suporte foi r√°pido e eficiente.", "positivo"),
    ("Tudo funciona bem aqui.", "positivo"),
    ("A interface √© confusa.", "negativo"),
    ("Estou decepcionado.", "negativo"),
    ("Adorei o filme!", "positivo"),
    ("Muito bom!","positivo" ),
    ("Excelente servi√ßo!", "positivo"),
    ("Recomendo muito!", "positivo"),
    ("√ìtima qualidade!", "positivo"),
    ("Maravilhoso!", "positivo"),
    ("Fant√°stico!", "positivo"),
    ("Incr√≠vel experi√™ncia!", "positivo"),
    ("Perfeito!", "positivo"), 
    ("Surpreendente!", "positivo"),
    ("Vale cada centavo!", "positivo"),
    ("Impec√°vel!", "positivo"),
    ("Nota 10!", "positivo"),
    ("Superou expectativas!", "positivo"),
    ("Encantado!","positivo"),
    ("Sensacional!", "positivo"),
    ("Estou impressionado!", "positivo"),
    ("Melhor que esperava!", "positivo"),
    ("Divertido demais!", "positivo"),
    ("Amei!","positivo"),
    ("Top de linha!", "positivo"),
    ("Simplesmente perfeito!", "positivo"),
    ("Recomendo sem d√∫vidas!", "positivo"),
    ("Produto excelente!", "positivo"),
    ("Atendimento maravilhoso!","positivo"),
    ("Muito chato.", "negativo"), 
    ("P√©ssimo filme.", "negativo"), 
    ("Horr√≠vel experi√™ncia.", "negativo"), 
    ("N√£o recomendo.", "negativo"), 
    ("Terr√≠vel.", "negativo"), 
    ("Desapontado.", "negativo"), 
    ("Ruim demais.", "negativo"), 
    ("Lament√°vel.", "negativo"), 
    ("Fraco.", "negativo"), 
    ("Decepcionante.", "negativo"), 
    ("Perda de tempo.", "negativo"), 
    ("N√£o vale o pre√ßo.", "negativo"), 
    ("Horroroso.", "negativo"), 
    ("P√©ssimo atendimento.", "negativo"), 
    ("Arrependido.", "negativo"), 
    ("Muito ruim.", "negativo"), 
    ("Nunca mais compro.", "negativo"), 
    ("Qualidade inferior.", "negativo"), 
    ("N√£o funciona.", "negativo"), 
    ("Engana√ß√£o.", "negativo"), 
    ("Pior experi√™ncia.", "negativo"), 
    ("Tive problemas.", "negativo"), 
    ("N√£o atendeu expectativas.", "negativo"), 
    ("Fiquei insatisfeito.", "negativo"), 
    ("Produto defeituoso.", "negativo"),     
]

print(f"\n\nDados: \n\t{dados[0:3]}\n")



Dados: 
	[('Eu amo programar em Python!', 'positivo'), ('Python √© incr√≠vel e muito √∫til.', 'positivo'), ('Adorei este tutorial!', 'positivo')]



#### üîñ Explica√ß√µes

**3. Dataset Artificial**
- Uma lista de tuplas com textos e r√≥tulos ("positivo" ou "negativo"), como "Eu amo programar em Python!" (positivo) e "N√£o gosto desse sistema." (negativo).

#### üêç C√≥digo - Separando os dados

In [4]:
# 4. Separar textos e r√≥tulos
textos = [t[0] for t in dados]
rotulos = [t[1] for t in dados]


#### üîñ Explica√ß√µes

**4. Separa√ß√£o de Textos e R√≥tulos**
- Extrai textos e r√≥tulos do dataset em listas separadas usando list comprehensions.

#### üêç C√≥digo - Fun√ß√£o de pr√©-processamento

In [5]:
# 5. Fun√ß√£o de pr√©-processamento
def preprocessar(texto):
    # Remover pontua√ß√£o e caracteres n√£o alfanum√©ricos
    texto = re.sub(r'[^\w\s]', '', texto)

    # Tokeniza√ß√£o
    tokens = word_tokenize(texto.lower())

    # Remover stopwords
    stop_words = set(stopwords.words('portuguese'))
    tokens_filtrados = [t for t in tokens if t not in stop_words]

    # retorna os dados processados
    return ' '.join(tokens_filtrados)

#### üîñ Explica√ß√µes

**5. Fun√ß√£o de Pr√©-processamento**
- **Limpa o texto**:
    - Remove pontua√ß√£o e caracteres n√£o alfanum√©ricos.
    - Converte para min√∫sculas.
    - Tokeniza (divide em palavras).
    - Remove stopwords.
    - Junta as palavras em uma string novamente.

#### üêç C√≥digo - realizando o pr√©-processamento

In [6]:
# 6. Aplicar pr√©-processamento
textos_limpos = [preprocessar(t) for t in textos]

#### üîñ Explica√ß√µes

**6. Aplica√ß√£o do Pr√©-processamento**
- Aplica a fun√ß√£o de pr√©-processamento a todos os textos, gerando uma lista de textos limpos.

#### üêç C√≥digo - Separando os dados de treino e teste

In [7]:
# 7. Dividir em treino e teste
X_treino, X_teste, y_treino, y_teste = train_test_split(textos_limpos, rotulos, test_size=0.2, random_state=42)

#### üîñ Explica√ß√µes

**7. Divis√£o em Treino e Teste**
- Divide os dados em 80% para treino e 20% para teste com train_test_split, usando random_state=42 para reprodutibilidade.

#### üêç C√≥digo

In [8]:
# 8. Treinar o modelo (Multinomial Naive Bayes)
modelo = make_pipeline(CountVectorizer(), MultinomialNB())
modelo.fit(X_treino, y_treino)

NameError: name 'CountVectorizer' is not defined

#### üîñ Explica√ß√µes

**8. Treinamento do Modelo**
- Cria um pipeline com:
    - CountVectorizer: Transforma textos em vetores de contagem de palavras.
    - MultinomialNB: Classificador Naive Bayes para dados de contagem.
- Treina o modelo com os dados de treino.

#### üêç C√≥digo

In [None]:
# 9. Fazer previs√µes
y_pred = modelo.predict(X_teste)

#### üîñ Explica√ß√µes

**9. Previs√µes**
- Usa o modelo treinado para prever os r√≥tulos dos dados de teste.

#### üêç C√≥digo

In [None]:
# 10. Fazer previs√µes
y_pred = modelo.predict(X_teste)

# 11. Avaliar o modelo
print("Acur√°cia:", accuracy_score(y_teste, y_pred))
print("\nRelat√≥rio de classifica√ß√£o:")
print(classification_report(y_teste, y_pred))

#### üîñ Explica√ß√µes

**10. Avalia√ß√£o do Modelo**
- Calcula a acur√°cia (percentual de acertos).
- Gera um relat√≥rio de classifica√ß√£o com precis√£o, recall e f1-score para "positivo" e "negativo".

#### üêç C√≥digo

In [None]:
# Testando com mais casos
test_cases = [
    "Adorei o filme!",
    "P√©ssimo servi√ßo.",
    "Excelente experi√™ncia!",
    "N√£o gostei nada.",
    "Super recomendo!",
    "Produto horr√≠vel",
    "Atendimento perfeito",
    "Completamente insatisfeito"
]

print("\nPredi√ß√µes:")
for case in test_cases:
    print(f"{case:30} ‚Üí {modelo.predict([case])[0]}")

#### üîñ Explica√ß√µes

**11. Testes Adicionais**
- Testa o modelo com novos textos (ex.: "Adorei o filme!" ‚Üí positivo, "P√©ssimo servi√ßo." ‚Üí negativo).
- Imprime as predi√ß√µes para cada caso.
- Reavalia a acur√°cia no conjunto de teste.
- Faz predi√ß√µes individuais para exemplos como "Ador√°vel!" (positivo), "Servi√ßo ruim." (negativo).

#### üêç C√≥digo

In [None]:
# M√©tricas de avalia√ß√£o
print("\nAcur√°cia no teste:", modelo.score(X_test, y_test))

print(modelo.predict(["Ador√°vel!"])[0])  # Sa√≠da esperada: positivo
print(modelo.predict(["Servi√ßo ruim."])[0])  # Sa√≠da esperada: negativo
print(modelo.predict(["Deveria ser melhor"])[0])  # Sa√≠da esperada: negativo

#### üîñ Resumo


O c√≥digo cria um classificador de sentimentos que:
- Processa textos em portugu√™s removendo ru√≠dos.
- Treina um modelo Naive Bayes com um dataset artificial.
- Avalia o desempenho e testa com novos exemplos, classificando sentimentos como positivos ou negativos.