<a href="https://colab.research.google.com/github/Xketh/Fatec_PLN/blob/main/Aula_10_Naive%20Bayes_An%C3%A1lise_de_Sentimentos_e_Classifica%C3%A7%C3%A3o_de_Texto.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Objetivo**
---

Entender como a Análise de Sentimentos é aplicada em várias áreas, aprender os algoritmos básicos como Naive Bayes e Árvores de Decisão para classificar textos, e explorar diferentes técnicas usadas para identificar emoções em mensagens.


* **Explorar como a Análise de Sentimentos é usada em várias áreas:** Como atendimento ao cliente, marketing, e redes sociais.

* **Entender o algoritmo Naive Bayes:** Conhecer como este método básico funciona para classificar textos e identificar sentimentos.

* **Compreender Árvores de Decisão:** Descobrir como este algoritmo organiza informações para ajudar na classificação de textos.

* **Conhecer abordagens variadas para Análise de Sentimentos:** Entender que existem diferentes formas e técnicas para analisar sentimentos em textos.

#**O algoritmo Naive Bayes**
---

O Naive Bayes é um método estatístico baseado no Teorema de Bayes, que calcula a probabilidade de algo acontecer com base em evidências anteriores. Ele é chamado de "naive" (ingênuo) porque assume que todas as palavras em um texto são independentes entre si, o que nem sempre é verdade, mas funciona bem na prática.

Na classificação de textos, o Naive Bayes determina a probabilidade de um texto pertencer a uma categoria específica (como "Positivo" ou "Negativo") analisando as palavras que ele contém.

O código a seguir, analisa as palavras de uma frase e determina se o sentimento dela é "Positivo" ou "Negativo" com base em exemplos simples usando o método de Naive Bayes.

In [1]:
# (Exemplo retirado da internet) //


# Dados simples de treinamento
avaliacoes = [
    ("Adorei o filme", "Positivo"),
    ("Horrível e chato", "Negativo"),
    ("Ótimo e divertido", "Positivo"),
    ("Não gostei", "Negativo"),
]

# Função para contar palavras
def contar_palavras(avaliacoes, sentimento):
    palavras = {}
    for frase, sent in avaliacoes:
        if sent == sentimento:
            for palavra in frase.split():
                palavras[palavra] = palavras.get(palavra, 0) + 1
    return palavras

# Função para classificar uma frase
def classificar_avaliacao(frase, avaliacoes):
    positivo = contar_palavras(avaliacoes, "Positivo")
    negativo = contar_palavras(avaliacoes, "Negativo")

    # Inicializa probabilidades
    prob_positivo = 1
    prob_negativo = 1

    for palavra in frase.split():
        # Calcula probabilidade de cada palavra (Laplace adiciona 1 para evitar zero)
        prob_positivo *= (positivo.get(palavra, 0) + 1) / (sum(positivo.values()) + len(positivo))
        prob_negativo *= (negativo.get(palavra, 0) + 1) / (sum(negativo.values()) + len(negativo))

    # Retorna o maior sentimento
    return "Positivo" if prob_positivo > prob_negativo else "Negativo"

# Teste com uma nova avaliação
nova_avaliacao = "Ótimo filme"
resultado = classificar_avaliacao(nova_avaliacao, avaliacoes)
print(f"A frase '{nova_avaliacao}' foi classificada como: {resultado}")


A frase 'Ótimo filme' foi classificada como: Positivo


# **Exemplos do roteiro**
---

Os códigos preparam e usam ferramentas de processamento de linguagem para identificar se textos têm sentimentos positivos, negativos ou neutros, seja com um modelo pré-treinado (VADER) ou com aprendizado a partir de exemplos (Naive Bayes).


### Exemplo 1 - Análise de sentimentos com a biblioteca NLTK

O código está configurando o ambiente para análise de sentimentos ao importar a biblioteca NLTK, incluindo o analisador de sentimentos VADER, baixando os recursos necessários e analisa o sentimento (positivo, negativo ou neutro) de uma lista de textos utilizando o modelo pré-treinado VADER do NLTK.





In [5]:
from nltk.sentiment import SentimentIntensityAnalyzer
import nltk
nltk.download('vader_lexicon')

sid = SentimentIntensityAnalyzer()

textos = [
    "Este filme é incrível! Eu adorei cada minuto",
    "Odiei este filme. Foi uma perda de tempo.",
    "O filme foi ok, nada de especial",
    "Estou muito feliz com o produto, funciona perfeitamente!",
    "Que serviço horrível! Nunca mais compro nessa loja."
]

for texto in textos:
    print(f"Texto: {texto}")
    ss = sid.polarity_scores(texto)
    print(f"Pontuação: {ss}")
    if ss['compound'] >= 0.05:
        print("Sentimento: Positivo")
    elif ss['compound'] <= -0.05:
        print("Sentimento: Negativo")
    else:
        print("Sentimento: Neutro")
    print("\n")


Texto: Este filme é incrível! Eu adorei cada minuto
Pontuação: {'neg': 0.0, 'neu': 1.0, 'pos': 0.0, 'compound': 0.0}
Sentimento: Neutro


Texto: Odiei este filme. Foi uma perda de tempo.
Pontuação: {'neg': 0.0, 'neu': 1.0, 'pos': 0.0, 'compound': 0.0}
Sentimento: Neutro


Texto: O filme foi ok, nada de especial
Pontuação: {'neg': 0.0, 'neu': 0.694, 'pos': 0.306, 'compound': 0.296}
Sentimento: Positivo


Texto: Estou muito feliz com o produto, funciona perfeitamente!
Pontuação: {'neg': 0.0, 'neu': 1.0, 'pos': 0.0, 'compound': 0.0}
Sentimento: Neutro


Texto: Que serviço horrível! Nunca mais compro nessa loja.
Pontuação: {'neg': 0.0, 'neu': 1.0, 'pos': 0.0, 'compound': 0.0}
Sentimento: Neutro




[nltk_data] Downloading package vader_lexicon to /root/nltk_data...
[nltk_data]   Package vader_lexicon is already up-to-date!


### Exemplo 2 - Análise de sentimentos de Avaliação de Filmes com Naives Bayes

Este código utiliza um método chamado Naive Bayes para analisar frases fornecidas e determinar automaticamente se o sentimento delas é "Positivo" ou "Negativo" com base em exemplos anteriores de avaliações classificadas.




In [6]:
# Primeira etapa: Criação de funções que calculam a quantidade de palavras, e as probabilidades

import numpy as np

def contar_palavras(avaliacoes, sentimento):
  """Conta a frequência de cada palavra em avaliação de um dado sentimento."""
  contagem ={}
  for avaliacao, sent in avaliacoes:
    if sent == sentimento:
      for palavra in avaliacao.lower().split():
        if palavra in contagem:
          contagem[palavra] += 1
        else:
          contagem[palavra] = 1
  return contagem

def calcular_probabilidade_sentimento(avaliacoes, sentimento):
  """Calcula a probabilidade de uma avaliação ser de um dado sentimento."""

  total_avaliacoes = len(avaliacoes)
  contagem_sentimento = sum(1 for _, sent in avaliacoes if sent == sentimento)
  return contagem_sentimento / total_avaliacoes

def calcular_probabilidade_palavra_dado_sentimento(palavra, contagem_palavras, total_palavras_sentimento, total_palavras_vocabulario, alpha=1):
  """ Calcula a probabilidade de uma palavra aparecer dado um sentimento (com suavização Laplace)."""
  contagem_palavra = contagem_palavras.get(palavra, 0)
  return (contagem_palavra + alpha) / (total_palavras_sentimento + alpha * total_palavras_vocabulario)

In [None]:
# Segunda etapa: Criação da função que calcula a classificação da palavra pertencer a um sentimento

def classificar_avaliacao(avaliacao, avaliacoes):
  """Classifica o sentimento de uma nova avaliação usando Naive Bayes."""

  sentimentos = ["Positivo", "Negativo"]
  probabilidades_sentimento = {}

  # Calcular probabilidades a priori dos sentimentos
  probabilidades_sentimento["Positivo"] = calcular_probabilidade_sentimento(avaliacoes, "Positivo")
  probabilidades_sentimento["Negativo"] = calcular_probabilidade_sentimento(avaliacoes, "Negativo")

  # Contar palavras em cada sentimento
  contagem_palavras_positivo = contar_palavras(avaliacoes, "Positivo")
  contagem_palavras_negativo = contar_palavras(avaliacoes, "Negativo")

  # Calcular total de palavras em cada sentimento
  total_palavras_positivo = sum(contagem_palavras_positivo.values())
  total_palavras_negativo = sum(contagem_palavras_negativo.values())

  # Calcular tamanho do vocabulário
  vocabulario = set()
  for avaliacao, _ in avaliacoes:
    for palavra in avaliacao.lower().split():
      vocabulario.add(palavra)
  total_palavras_vocabulario = len(vocabulario)

  # Calcular probabilidade para cada sentimento:
  for sentimento in sentimentos:
    probabilidade_total = probabilidades_sentimento[sentimento]
    contagem_palavras_sentimento = contagem_palavras_positivo if sentimento == "Positivo" else contagem_palavras_negativo
    total_palavras_sentimento = total_palavras_positivo if sentimento == "Positivo" else total_palavras_negativo

    for palavra in avaliacao.lower().split():
      probabilidade_palavra = calcular_probabilidade_palavra_dado_sentimento(
          palavra, contagem_palavras_sentimento, total_palavras_sentimento, total_palavras_vocabulario
      )
      probabilidade_total *= probabilidade_palavra
    probabilidades_sentimento[sentimento] = probabilidade_total

  # Classificar com base na maior probabilidade
  melhor_sentimento = max(probabilidades_sentimento, key=probabilidades_sentimento.get)
  return melhor_sentimento





In [None]:
# Terceira Etapa – Fornecimento de um modelo para treinamento

avaliacoes = [
  ("Filme incrível! Adorei a atuação.", "Positivo"),
  ("Roteiro fraco, não recomendo.", "Negativo"),
  ("Atuação boa, mas filme longo.", "Positivo"),
  ("Péssimo! Perdi meu tempo.", "Negativo"),
]

In [8]:
# Quarta etapa  - Fornecendo uma frase para ser avaliada

# Nova avaliação a ser classificada

nova_avaliacao=input("O que você achou do filme 101 Dalmatas? ")

# Classificar a nova avaliação
sentimento = classificar_avaliacao(nova_avaliacao, avaliacoes)
print(f"A avaliação '{nova_avaliacao}' foi classificada como: {sentimento}")

O que você achou do filme 101 Dalmatas? Não gostei
A avaliação 'Não gostei' foi classificada como: Negativo


In [None]:
# Quinta etapa - Treine com um novo modelo de dados

avaliacoes = [
  ("Filme incrível! Adorei a atuação, roteiro e direção.", "Positivo"),
  ("Roteiro fraco, atuação ruim, não recomendo. Perda de tempo.", "Negativo"),
  ("Atuação boa, mas filme um pouco longo e arrastado.", "Positivo"),
  ("Péssimo! Perdi meu tempo, dinheiro e paciência. Horrível.", "Negativo"),
  ("Amei! Elenco maravilhoso, fotografia impecável. Recomendo muito!", "Positivo"),
  ("Chato, previsível e sem graça. Saí no meio do filme.", "Negativo"),
  ("Uma obra-prima! Roteiro inteligente, atuações memoráveis.", "Positivo"),
  ("Cansativo, atuações forçadas, final decepcionante.", "Negativo"),
  ("Divertido e emocionante! Ótimo para assistir com a família.", "Positivo"),
  ("Clichê, sem originalidade, diálogos fracos. Não vale a pena.", "Negativo"),
  ("Surpreendente e envolvente! Me prendeu do início ao fim.", "Positivo"),
  ("Confuso, mal dirigido, edição amadora. Um desastre.", "Negativo"),
  ("Atuação excelente, história cativante, trilha sonora perfeita.", "Positivo"),
  ("Atuações medianas, história arrastada, trilha sonora irritante.", "Negativo"),
  ("Roteiro bem construído, diálogos afiados, direção impecável.", "Positivo"),
  ("Roteiro fraco, diálogos bobos, direção perdida.", "Negativo"),
  ("Uma experiência cinematográfica única! Recomendo a todos os amantes do cinema.", "Positivo"),
  ("Um filme esquecível, sem emoção e sem impacto.", "Negativo"),
  ("Comovente e inspirador! Me fez refletir sobre a vida.", "Positivo"),
  ("Decepcionante e frustrante! Não recomendo nem para passar o tempo.", "Negativo"),
  ("Ótimo, gostei muito",'Positivo')
]
