<a href="https://colab.research.google.com/github/bellDataSc/Analise-de-Sentimentos/blob/main/An%C3%A1lise_de_Sentimentos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# IMPORTANT: RUN THIS CELL IN ORDER TO IMPORT YOUR KAGGLE DATA SOURCES,
# THEN FEEL FREE TO DELETE THIS CELL.
# NOTE: THIS NOTEBOOK ENVIRONMENT DIFFERS FROM KAGGLE'S PYTHON
# ENVIRONMENT SO THERE MAY BE MISSING LIBRARIES USED BY YOUR
# NOTEBOOK.
import kagglehub
isabelgonalves_categorizao_de_sentimentos_path = kagglehub.dataset_download('isabelgonalves/categorizao-de-sentimentos')
isabelgonalves_roteiros_de_rick_and_morty_path = kagglehub.dataset_download('isabelgonalves/roteiros-de-rick-and-morty')

print('Data source import complete.')


![cov](https://substackcdn.com/image/fetch/w_1456,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F6e963c60-36c8-4503-a2ba-578a03ae07cf_1333x750.jpeg)

<h1>Análise de Sentimentos com os Scripts de Rick and Morty</h1>

# Introdução

Este conjunto de dados **[CATEGORIZAÇÃO DE SENTIMENTOS]** é ideal para realizar análises de texto e investigações de sentimentos. Pode ser explorado em projetos de processamento de linguagem natural (NLP), mineração de dados textuais e outras abordagens analíticas envolvendo roteiros e diálogos.

Conjuntos de léxicos **["bing", "nrc", e "afinn"]**, presentes no dataset como arquivos CSV, para análise de sentimentos geralmente são criados a partir de estudos linguísticos, corpus de texto anotados manualmente ou gerados por meio de algoritmos de aprendizado de máquina. Eles são disponibilizados por universidades, pesquisadores, e projetos de software livre. Aqui estão alguns exemplos de fontes populares para esses conjuntos:

Léxicos Integrados em Bibliotecas e Pacotes
tidytext (R): Oferece os léxicos "bing", "nrc", e "afinn" prontos para uso. Eles são amplamente utilizados para análises de sentimento e emoção. Exemplo: get_sentiments("bing")




Antes de começar, deixo aqui algumas inspirações geek :)


<div class="alert alert-block alert-success">  
<p>1. <a link=https://www.kaggle.com/xvivancos/analyzing-the-lord-of-the-rings-data/data>Senhor dos Aneis</a></p>
<p>2. <a link=https://www.kaggle.com/xvivancos/analyzing-star-wars-movie-scripts>Star Wars scripts</a>.</p>
    

</div>


# 1. Data 📁

## 1.1 Bibliotecas 📚
Primeiro, *carregamos as bibliotecas* e obtemos os dados. Os dados foram pré-processados ​​de antemão de arquivos txt para um dataframe abrangente que contém 6 colunas:

  * `Index`
  * `Season No.`
  * `Episode No.`
  * `Episode Name`
  * `Character Name`
  * `Dialog`

In [None]:
import pandas as pd
import plotly.graph_objects as go

# Ler os dados dos scripts
scripts = pd.read_csv("../input/roteiros-de-rick-and-morty/RickAndMortyScripts.csv", encoding='utf-8')

# Ler os lexicons para classificação de sentimentos
bing = pd.read_csv("../input/categorizao-de-sentimentos/Bing.csv", encoding='utf-8')
nrc = pd.read_csv("../input/categorizao-de-sentimentos/NRC.csv", encoding='utf-8')
afinn = pd.read_csv("../input/categorizao-de-sentimentos/Afinn.csv", encoding='ISO-8859-1')  # Alterada a codificação para resolver o erro

# Renomear as colunas
scripts = scripts.rename(columns={
    "index": "Index",
    "season no.": "Season.No",
    "episode no.": "Episode.No",
    "episode name": "Episode.Name",
    "name": "Character.Name",
    "line": "Dialog"
})


import plotly.io as pio
pio.renderers.default = 'notebook'  # Ou tente 'png' se o notebook não renderizar

from IPython.display import display
display(scripts.head(10))  # Exibir as primeiras 10 linhas como uma tabela



## Nuvem de Palavras dos Diálogos de Rick and Morty

In [None]:
import pandas as pd
import plotly.graph_objects as go

# Ler os dados dos scripts
scripts = pd.read_csv("../input/roteiros-de-rick-and-morty/RickAndMortyScripts.csv", encoding='utf-8')

# Ler os lexicons para classificação de sentimentos
bing = pd.read_csv("../input/categorizao-de-sentimentos/Bing.csv", encoding='utf-8')
nrc = pd.read_csv("../input/categorizao-de-sentimentos/NRC.csv", encoding='utf-8')
afinn = pd.read_csv("../input/categorizao-de-sentimentos/Afinn.csv", encoding='ISO-8859-1')  # Alterada a codificação para resolver o erro

# Renomear as colunas
scripts = scripts.rename(columns={
    "index": "Index",
    "season no.": "Season.No",
    "episode no.": "Episode.No",
    "episode name": "Episode.Name",
    "name": "Character.Name",
    "line": "Dialog"
})




from wordcloud import WordCloud
import matplotlib.pyplot as plt

# Concatenar todos os diálogos em um único texto
all_dialogs = " ".join(scripts["Dialog"].dropna())

# Criar a nuvem de palavras
wordcloud = WordCloud(width=800, height=400, background_color="black", colormap="coolwarm").generate(all_dialogs)

# Exibir a nuvem de palavras
plt.figure(figsize=(12, 6))
plt.imshow(wordcloud, interpolation="bilinear")
plt.axis("off")
plt.title("Nuvem de Palavras dos Diálogos de Rick and Morty", fontsize=14)
plt.show()


# 1. Análise de Sentimentos por Epsodio
Usando uma analise simples para aexemplo.

No proximo grafico inclio os dataset presente no notebook.

## Primeiro exemplo de grafico de semtimentos por episodio



In [None]:
import matplotlib.pyplot as plt
import numpy as np

# Dados dos roteiros (Exemplo fictício de dados de episódios e sentimentos)
episodios = [
    {"season": 1, "episode": 1, "name": "Pilot", "sentimento": 2.5},
    {"season": 1, "episode": 2, "name": "Lawn Mower Dog", "sentimento": -1.2},
    {"season": 1, "episode": 3, "name": "Anatomy Park", "sentimento": 1.8},
    {"season": 1, "episode": 4, "name": "M. Night Shaym-Aliens!", "sentimento": 0.0},
    {"season": 2, "episode": 1, "name": "A Rickle in Time", "sentimento": -3.1},
    {"season": 2, "episode": 2, "name": "Mortynight Run", "sentimento": 3.2},
    {"season": 2, "episode": 3, "name": "Auto Erotic Assimilation", "sentimento": 1.0},
    {"season": 2, "episode": 4, "name": "Total Rickall", "sentimento": -2.5},
    {"season": 3, "episode": 1, "name": "The Ricklantis Mixup", "sentimento": 4.5},
    {"season": 3, "episode": 2, "name": "Rickmurai Jack", "sentimento": -4.0},
]

# Preparar os dados para o gráfico
episodios_ordenados = sorted(episodios, key=lambda x: (x['season'], x['episode']))  # Ordenar por temporada e episódio
episodios_nomes = [ep['name'] for ep in episodios_ordenados]
episodios_sentimentos = [ep['sentimento'] for ep in episodios_ordenados]

# Criar o gráfico
plt.figure(figsize=(12, 6))
plt.plot(episodios_nomes, episodios_sentimentos, marker='o', color='b', linestyle='-', linewidth=2, markersize=8)

# Adicionar título e rótulos aos eixos
plt.title("Evolução dos Sentimentos nos Episódios de Rick and Morty", fontsize=16)
plt.xlabel("Episódio", fontsize=12)
plt.ylabel("Sentimento Médio", fontsize=12)

# Exibir valores nos pontos do gráfico
for i, sentimento in enumerate(episodios_sentimentos):
    plt.text(episodios_nomes[i], sentimento, f'{sentimento:.1f}', ha='center', va='bottom', fontsize=10)

# Melhorar o layout para o gráfico
plt.xticks(rotation=45, ha='right', fontsize=10)
plt.grid(True)

# Exibir o gráfico
plt.tight_layout()
plt.show()


# Evolução dos Sentimentos por Temporada

## Explicação do código

Leitura dos dados CSV: A função read_csv é utilizada para ler os arquivos CSV de scripts e lexicons. Ela usa a codificação correta para lidar com caracteres especiais.

Função de Sentimento: A função get_sentiment_from_lexicon recebe uma palavra e um léxico (como o Afinn) e retorna o valor de sentimento associado a essa palavra.

Processamento do Roteiro: O código percorre cada linha de diálogo, divide o texto em palavras e calcula o sentimento médio da linha. O resultado é armazenado em uma nova chave sentiment no dicionário de cada script.

Cálculo de Sentimento Médio por Temporada: O código agrupa os diálogos por temporada e calcula o sentimento médio para cada temporada.

Visualização: O gráfico é gerado usando matplotlib, mostrando a evolução do sentimento médio por temporada.

## Como funciona o gráfico:
O eixo x representa as temporadas.

O eixo y mostra o sentimento médio calculado para cada temporada.

As linhas e pontos são desenhados para visualizar a evolução do sentimento.


In [None]:
import csv
import matplotlib.pyplot as plt

# Função para ler os dados CSV
def read_csv(file_path, encoding='utf-8'):
    with open(file_path, encoding=encoding) as f:
        reader = csv.DictReader(f)
        return list(reader)

# Ler os lexicons para classificação de sentimentos
bing = read_csv("../input/categorizao-de-sentimentos/Bing.csv")
nrc = read_csv("../input/categorizao-de-sentimentos/NRC.csv")
afinn = read_csv("../input/categorizao-de-sentimentos/Afinn.csv", encoding='ISO-8859-1')

# Ler os dados dos scripts de Rick and Morty
scripts = read_csv("../input/roteiros-de-rick-and-morty/RickAndMortyScripts.csv")

# Função para procurar o valor de sentimento no léxico Afinn
def get_sentiment_from_lexicon(word, lexicon):
    for entry in lexicon:
        if entry['word'] == word:
            return float(entry['value'])  # Valor do sentimento no Afinn
    return 0  # Caso a palavra não seja encontrada, retorna 0 (sentimento neutro)

# Adicionar coluna de sentimento no dataset dos scripts com o léxico Afinn
for script in scripts:
    # Extrair as palavras do diálogo (dividir por espaço)
    words = script['line'].split()
    sentiment_total = 0
    word_count = 0

    for word in words:
        sentiment = get_sentiment_from_lexicon(word, afinn)
        sentiment_total += sentiment
        word_count += 1

    # Calcular o sentimento médio da linha
    if word_count > 0:
        script['sentiment'] = sentiment_total / word_count
    else:
        script['sentiment'] = 0

# Organizar os dados por temporada
sentiments_by_season = {}
for script in scripts:
    season = int(script['season no.'])
    if season not in sentiments_by_season:
        sentiments_by_season[season] = []
    sentiments_by_season[season].append(script['sentiment'])

# Calcular o sentimento médio por temporada
avg_sentiments_by_season = {season: sum(sentiments) / len(sentiments)
                            for season, sentiments in sentiments_by_season.items()}

# Criar o gráfico com matplotlib
plt.figure(figsize=(10, 6))
plt.plot(avg_sentiments_by_season.keys(), avg_sentiments_by_season.values(), marker='o', color='b', linestyle='-', linewidth=2, markersize=8)

# Ajustar o gráfico
plt.title("Evolução dos Sentimentos por Temporada", fontsize=16)
plt.xlabel("Temporada", fontsize=12)
plt.ylabel("Sentimento Médio", fontsize=12)
plt.xticks(list(avg_sentiments_by_season.keys()), ['Temporada {}'.format(i) for i in avg_sentiments_by_season.keys()])
plt.grid(True)
plt.tight_layout()

# Exibir o gráfico
plt.show()



## Para uma análise mais sofisticada

Para uma análise mais sofisticada, podemos aprimorar o gráfico com visualizações mais detalhadas, como gráficos de dispersão, com diferentes cores e tamanhos para representar a intensidade dos sentimentos, ou até mesmo gráficos de violino ou boxplot para comparar a distribuição dos sentimentos entre diferentes episódios.

Aqui está um exemplo de como fazer isso utilizando matplotlib e seaborn, com um gráfico de violino e dispersão para uma análise mais profunda:

## Explicação:

## Gráfico de violino:

Mostra a distribuição dos sentimentos dentro de cada temporada. Ele nos dá uma visão sobre a dispersão e a presença de valores extremos.

## Gráfico de dispersão:

Apresenta como os sentimentos variam ao longo dos episódios, coloridos por temporada. Ele também destaca a relação entre episódio e intensidade do sentimento.

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

# Simular a estrutura dos dados como já feito
# Vamos juntar a temporada com o sentimento para análises mais detalhadas
data = []

for season in range(1, 4):
    for episode in range(1, 11):
        for line in ["dialog1", "dialog2", "dialog3"]:  # Supondo que existam diferentes falas
            sentiment_value = np.random.uniform(-5, 5)  # Sentimento simulado para exemplo
            data.append([season, episode, line, sentiment_value])

# Transformar os dados em um formato adequado para o gráfico
import pandas as pd
df_sentiments = pd.DataFrame(data, columns=["Season", "Episode", "Line", "Sentiment"])

# Gráfico de violino para análise da distribuição dos sentimentos por temporada
plt.figure(figsize=(12, 6))
sns.violinplot(x="Season", y="Sentiment", data=df_sentiments, inner="quart", palette="coolwarm")
plt.title("Distribuição dos Sentimentos por Temporada", fontsize=16)
plt.xlabel("Temporada", fontsize=12)
plt.ylabel("Sentimento", fontsize=12)
plt.show()

# Gráfico de dispersão para ver a relação entre episódios, temporada e sentimento
plt.figure(figsize=(12, 6))
sns.scatterplot(x="Episode", y="Sentiment", hue="Season", data=df_sentiments, palette="coolwarm", s=100, alpha=0.7)
plt.title("Sentimento por Episódio e Temporada", fontsize=16)
plt.xlabel("Episódio", fontsize=12)
plt.ylabel("Sentimento", fontsize=12)
plt.legend(title="Temporada")
plt.show()


## 📊 1. Evolução do Sentimento por Episódio (Afinn)

📌 Gráfico de linha mostrando a média do sentimento dos episódios ao longo das temporadas.

In [None]:
import csv
import matplotlib.pyplot as plt
import seaborn as sns
from collections import defaultdict

# Carregar os datasets
with open("../input/roteiros-de-rick-and-morty/RickAndMortyScripts.csv", encoding="utf-8") as f:
    scripts = list(csv.DictReader(f))

with open("../input/categorizao-de-sentimentos/Afinn.csv", encoding="ISO-8859-1") as f:
    afinn = list(csv.DictReader(f))

# Criar dicionário do léxico Afinn
afinn_dict = {linha["word"]: int(linha["value"]) for linha in afinn}

# Calcular sentimento médio por episódio
sentimentos_por_episodio = defaultdict(list)

for linha in scripts:
    episodio = (linha["season no."], linha["episode no."])
    palavras = linha["line"].split()
    sentimentos = [afinn_dict.get(palavra.lower(), 0) for palavra in palavras]
    if sentimentos:
        sentimentos_por_episodio[episodio].append(sum(sentimentos) / len(sentimentos))

# Criar listas ordenadas para o gráfico
episodios = sorted(sentimentos_por_episodio.keys())
valores = [sum(sentimentos_por_episodio[ep]) / len(sentimentos_por_episodio[ep]) for ep in episodios]

# Plotando gráfico
plt.figure(figsize=(12, 6))
sns.lineplot(x=range(len(episodios)), y=valores, marker="o", color="blue")
plt.xticks(range(len(episodios)), [f"S{ep[0]}E{ep[1]}" for ep in episodios], rotation=90)
plt.title("Evolução do Sentimento por Episódio (Afinn)")
plt.xlabel("Episódio")
plt.ylabel("Sentimento Médio")
plt.grid()
plt.show()





## 🎭 2. Análise de Emoções por Personagem (NRC)

📌 Gráfico de barras mostrando a quantidade de palavras associadas a cada emoção por personagem.

In [None]:
# Carregar o dataset NRC
with open("../input/categorizao-de-sentimentos/NRC.csv", encoding="utf-8") as f:
    nrc = list(csv.DictReader(f))

# Criar dicionário do NRC
nrc_dict = defaultdict(list)
for linha in nrc:
    nrc_dict[linha["word"]].append(linha["sentiment"])

# Contar emoções por personagem
emocao_personagem = defaultdict(lambda: defaultdict(int))

for linha in scripts:
    personagem = linha["name"]
    palavras = linha["line"].split()
    for palavra in palavras:
        if palavra.lower() in nrc_dict:
            for emocao in nrc_dict[palavra.lower()]:
                emocao_personagem[personagem][emocao] += 1

# Filtrar personagens com mais falas
top_personagens = sorted(emocao_personagem.keys(), key=lambda x: sum(emocao_personagem[x].values()), reverse=True)[:10]

# Criar listas para plot
personagens = []
emoções = []
valores = []

for personagem in top_personagens:
    for emocao, valor in emocao_personagem[personagem].items():
        personagens.append(personagem)
        emoções.append(emocao)
        valores.append(valor)

# Criar gráfico
plt.figure(figsize=(14, 6))
sns.barplot(x=personagens, y=valores, hue=emoções, palette="viridis")
plt.title("Distribuição de Emoções por Personagem (NRC)")
plt.xlabel("Personagem")
plt.ylabel("Frequência")
plt.legend(title="Emoções", bbox_to_anchor=(1.05, 1))
plt.show()


## 🎙 3. Personagem com Mais Falas Positivas e Negativas (Bing)

📌 Gráfico de barras comparando quais personagens tiveram mais falas positivas e negativas.

In [None]:
# Carregar o dataset Bing
with open("../input/categorizao-de-sentimentos/Bing.csv", encoding="utf-8") as f:
    bing = list(csv.DictReader(f))

# Criar dicionário do Bing
bing_dict = {linha["word"]: linha["sentiment"] for linha in bing}

# Contar falas positivas e negativas por personagem
sentimento_personagem = defaultdict(lambda: {"positive": 0, "negative": 0})

for linha in scripts:
    personagem = linha["name"]
    palavras = linha["line"].split()
    for palavra in palavras:
        sentimento = bing_dict.get(palavra.lower())
        if sentimento:
            sentimento_personagem[personagem][sentimento] += 1

# Ordenar por quantidade total de falas
top_personagens = sorted(sentimento_personagem.keys(), key=lambda x: sum(sentimento_personagem[x].values()), reverse=True)[:10]

# Criar listas para plot
personagens = []
positivos = []
negativos = []

for personagem in top_personagens:
    personagens.append(personagem)
    positivos.append(sentimento_personagem[personagem]["positive"])
    negativos.append(sentimento_personagem[personagem]["negative"])

# Criar gráfico de barras
plt.figure(figsize=(12, 6))
plt.bar(personagens, positivos, color="green", label="Positivo")
plt.bar(personagens, negativos, color="red", bottom=positivos, label="Negativo")
plt.title("Falas Positivas e Negativas por Personagem (Bing)")
plt.xlabel("Personagem")
plt.ylabel("Número de Falas")
plt.legend()
plt.xticks(rotation=45)
plt.show()


## 📌 4. Nuvem de Palavras das Palavras Mais Negativas e Positivas (Afinn)

📌 Criar duas wordclouds – uma para palavras mais negativas e outra para mais positivas.

In [None]:
from wordcloud import WordCloud

# Separar palavras negativas e positivas
afinn_neg = {linha["word"] for linha in afinn if int(linha["value"]) < 0}
afinn_pos = {linha["word"] for linha in afinn if int(linha["value"]) > 0}

# Criar texto para wordclouds
texto_neg = " ".join(afinn_neg)
texto_pos = " ".join(afinn_pos)

# Criar wordclouds
wc_neg = WordCloud(width=600, height=300, background_color="black", colormap="Reds").generate(texto_neg)
wc_pos = WordCloud(width=600, height=300, background_color="white", colormap="Blues").generate(texto_pos)

# Plotar lado a lado
fig, ax = plt.subplots(1, 2, figsize=(14, 6))
ax[0].imshow(wc_neg)
ax[0].set_title("Palavras Mais Negativas")
ax[0].axis("off")

ax[1].imshow(wc_pos)
ax[1].set_title("Palavras Mais Positivas")
ax[1].axis("off")

plt.show()


# 📊 1. Evolução do Sentimento por Episódio (Afinn)
📌 Gráfico de linha interativo mostrando a média do sentimento por episódio ao longo das temporadas.

In [None]:
import csv
import plotly.express as px
from collections import defaultdict

# Carregar os datasets
with open("../input/roteiros-de-rick-and-morty/RickAndMortyScripts.csv", encoding="utf-8") as f:
    scripts = list(csv.DictReader(f))

with open("../input/categorizao-de-sentimentos/Afinn.csv", encoding="ISO-8859-1") as f:
    afinn = list(csv.DictReader(f))

# Criar dicionário do léxico Afinn
afinn_dict = {linha["word"]: int(linha["value"]) for linha in afinn}

# Calcular sentimento médio por episódio
sentimentos_por_episodio = defaultdict(list)

for linha in scripts:
    episodio = f"S{linha['season no.']}E{linha['episode no.']}"
    palavras = linha["line"].split()
    sentimentos = [afinn_dict.get(palavra.lower(), 0) for palavra in palavras]
    if sentimentos:
        sentimentos_por_episodio[episodio].append(sum(sentimentos) / len(sentimentos))

# Criar listas ordenadas para o gráfico
episodios = sorted(sentimentos_por_episodio.keys())
valores = [sum(sentimentos_por_episodio[ep]) / len(sentimentos_por_episodio[ep]) for ep in episodios]

# Criar gráfico interativo com Plotly
fig = px.line(x=episodios, y=valores, markers=True, title="Evolução do Sentimento por Episódio (Afinn)")
fig.update_traces(line_color='blue', marker=dict(size=8))
fig.update_layout(xaxis_title="Episódio", yaxis_title="Sentimento Médio", hovermode="x unified")
fig.show()


# 🎭 2. Análise de Emoções por Personagem (NRC)
📌 Gráfico de barras interativo mostrando a quantidade de palavras associadas a cada emoção por personagem.

In [None]:
import plotly.graph_objects as go

# Carregar o dataset NRC
with open("../input/categorizao-de-sentimentos/NRC.csv", encoding="utf-8") as f:
    nrc = list(csv.DictReader(f))

# Criar dicionário do NRC
nrc_dict = defaultdict(list)
for linha in nrc:
    nrc_dict[linha["word"]].append(linha["sentiment"])

# Contar emoções por personagem
emocao_personagem = defaultdict(lambda: defaultdict(int))

for linha in scripts:
    personagem = linha["name"]
    palavras = linha["line"].split()
    for palavra in palavras:
        if palavra.lower() in nrc_dict:
            for emocao in nrc_dict[palavra.lower()]:
                emocao_personagem[personagem][emocao] += 1

# Filtrar personagens mais falantes
top_personagens = sorted(emocao_personagem.keys(), key=lambda x: sum(emocao_personagem[x].values()), reverse=True)[:10]

# Criar dados para gráfico
fig = go.Figure()
for emocao in ["joy", "anger", "fear", "sadness", "surprise", "trust"]:  # Emoções principais
    fig.add_trace(go.Bar(
        x=top_personagens,
        y=[emocao_personagem[personagem][emocao] for personagem in top_personagens],
        name=emocao
    ))

# Configurar layout
fig.update_layout(
    title="Distribuição de Emoções por Personagem (NRC)",
    xaxis_title="Personagem",
    yaxis_title="Frequência",
    barmode="stack",
    hovermode="x"
)
fig.show()


# 🎙 3. Comparação de Falas Positivas e Negativas (Bing)
📌 Gráfico de barras interativo mostrando quais personagens tiveram mais falas positivas e negativas.

In [None]:
# Carregar o dataset Bing
with open("../input/categorizao-de-sentimentos/Bing.csv", encoding="utf-8") as f:
    bing = list(csv.DictReader(f))

# Criar dicionário do Bing
bing_dict = {linha["word"]: linha["sentiment"] for linha in bing}

# Contar falas positivas e negativas por personagem
sentimento_personagem = defaultdict(lambda: {"positive": 0, "negative": 0})

for linha in scripts:
    personagem = linha["name"]
    palavras = linha["line"].split()
    for palavra in palavras:
        sentimento = bing_dict.get(palavra.lower())
        if sentimento:
            sentimento_personagem[personagem][sentimento] += 1

# Ordenar por número total de falas
top_personagens = sorted(sentimento_personagem.keys(), key=lambda x: sum(sentimento_personagem[x].values()), reverse=True)[:10]

# Criar gráfico interativo
fig = go.Figure()

fig.add_trace(go.Bar(
    x=top_personagens,
    y=[sentimento_personagem[personagem]["positive"] for personagem in top_personagens],
    name="Positivas",
    marker_color="green"
))

fig.add_trace(go.Bar(
    x=top_personagens,
    y=[sentimento_personagem[personagem]["negative"] for personagem in top_personagens],
    name="Negativas",
    marker_color="red"
))

fig.update_layout(
    title="Falas Positivas e Negativas por Personagem (Bing)",
    xaxis_title="Personagem",
    yaxis_title="Número de Falas",
    barmode="group",
    hovermode="x"
)
fig.show()


# ☁️ 4. Nuvem de Palavras Interativa
📌 Gerando duas nuvens de palavras para as palavras mais negativas e positivas (Afinn).

In [None]:
from wordcloud import WordCloud
import matplotlib.pyplot as plt

# Separar palavras negativas e positivas
afinn_neg = {linha["word"] for linha in afinn if int(linha["value"]) < 0}
afinn_pos = {linha["word"] for linha in afinn if int(linha["value"]) > 0}

# Criar texto para wordclouds
texto_neg = " ".join(afinn_neg)
texto_pos = " ".join(afinn_pos)

# Criar wordclouds
wc_neg = WordCloud(width=600, height=300, background_color="black", colormap="Reds").generate(texto_neg)
wc_pos = WordCloud(width=600, height=300, background_color="white", colormap="Blues").generate(texto_pos)

# Plotar lado a lado
fig, ax = plt.subplots(1, 2, figsize=(14, 6))
ax[0].imshow(wc_neg, interpolation="bilinear")
ax[0].set_title("Palavras Mais Negativas")
ax[0].axis("off")

ax[1].imshow(wc_pos, interpolation="bilinear")
ax[1].set_title("Palavras Mais Positivas")
ax[1].axis("off")

plt.show()
