Desenvolva um produto prático utilizando uma das ferramentas ou métodos apresentados na
 disciplina (ex: Zotero, Omeka, Tropy, StoryMap, OCR, NLP, GitHub, IA generativa, etc).
 O trabalho deve incluir:
 �. Produto final – site, visualização, protótipo, script, exposição virtual, base de dados, relatório
 ou outro formato digital.
 �. Relatório metodológico (2–3 páginas) explicando:
 ◦ Objetivo e contexto do trabalho;
 ◦ Ferramentas e métodos utilizados;
 ◦ Fontes e dados empregados;
 ◦ Dificuldades e soluções encontradas;
 ◦ Reflexão crítica sobre o processo.
Critérios de Avaliação


Trabalho apresentado pela aluna Laís Menezes de Souza Silva para obtenção parcial de nota na disciplina Introdução à História Digital, do Programa de Pós-Graduação Interdisciplinar em Humanidades Digitais do Instituto Multidisciplinar da Universidade Federal Rural do Rio de Janeiro, ministrada pelo Prof. Dr.  Eric Brasil.
Data: 15/11/2025

Relatório metodológico


Para instalar bibliotecas Python no Colab, você pode usar o comando `pip install` seguido do nome da biblioteca. O `pip` é o sistema de gerenciamento de pacotes padrão usado para instalar e gerenciar pacotes de software escritos em Python.

In [None]:
# Exemplo: Instalar a biblioteca pandas
!pip install pandas

In [None]:
!pip install ebooklib beautifulsoup4

In [None]:
import ebooklib
from ebooklib import epub
from bs4 import BeautifulSoup
from google.colab import files

# 1. Pedir para fazer o upload do arquivo .epub
print("Por favor, faça o upload do seu arquivo .epub...")
uploaded = files.upload()

# Pega o nome do arquivo que você acabou de enviar
# O nome do arquivo real será a chave do dicionário 'uploaded'
epub_filename = list(uploaded.keys())[0]

# Define o nome do arquivo .txt de saída
txt_name = epub_filename.replace('.epub', '.txt') # Usar replace para criar o nome do arquivo .txt

print(f"\nArquivo '{epub_filename}' carregado. Iniciando conversão...")

# 2. Abrir o livro
book = epub.read_epub(epub_filename)
full_text = ""

# 3. Iterar por todos os "documentos" (capítulos) do livro
for item in book.get_items_of_type(ebooklib.ITEM_DOCUMENT):
    # Pega o conteúdo do item (que é HTML)
    content = item.get_body_content() # Não requer argumento

    # Usa o BeautifulSoup para limpar o HTML e extrair apenas o texto
    soup = BeautifulSoup(content, 'html.parser')
    text_only = soup.get_text(separator=' ', strip=True) # Pode-se usar separator e strip para melhor formatação
    # Adiciona o texto limpo ao nosso texto completo
    full_text += text_only + "\n\n" # (Adiciona quebra de linha entre capítulos)

# 4. Salvar o texto completo em um arquivo .txt
with open(txt_name, 'w', encoding='utf-8') as f:
    f.write(full_text)

print(f"\nSucesso! O arquivo '{txt_name}' foi criado no seu ambiente Colab.")
print("Você pode vê-lo no painel 'Arquivos' à esquerda.")

In [None]:
from collections import Counter
import re

# Define o nome do arquivo de texto que foi criado
text_filename = 'Klara e o Sol - Kazuo Ishiguro.txt'

# Abre e lê o conteúdo do arquivo
with open(text_filename, 'r', encoding='utf-8') as f:
    content = f.read()

# Pré-processamento do texto:
# 1. Converte para minúsculas para tratar palavras como 'Sol' e 'sol' como a mesma.
# 2. Remove pontuações e caracteres especiais, mantendo apenas letras e espaços.
# 3. Divide o texto em palavras.

cleaned_content = content.lower()
words = re.findall(r'\b[a-zãáàéêíóôõúüç]+\b', cleaned_content)

# Conta a frequência de cada palavra
word_counts = Counter(words)

# Exibe as 20 palavras mais comuns
print("As 20 palavras mais comuns no texto são:")
for word, count in word_counts.most_common(20):
    print(f"'{word}': {count}")

# Você também pode acessar o total de palavras únicas e o total de palavras:
print(f"\nTotal de palavras únicas: {len(word_counts)}")
print(f"Total de palavras (incluindo repetições): {sum(word_counts.values())}")

# Task
Analyze the emotional journey of Klara in the book "Klara e o Sol" by performing sentiment analysis on its text content, visualizing the sentiment scores across different sections, and interpreting the findings. The analysis should utilize the `Klara e o Sol - Kazuo Ishiguro.txt` file.

## Instalar e configurar uma biblioteca de análise de sentimento

### Subtask:
Instalar a biblioteca `transformers` do Hugging Face e configurar um modelo de análise de sentimento pré-treinado para português.


**Reasoning**:
The subtask requires installing the `transformers` library, importing the `pipeline` function, and initializing a sentiment analysis pipeline for Portuguese. This step will install the library and initialize the pipeline as instructed.



In [None]:
print("Instalando a biblioteca transformers...")
!pip install transformers
print("Biblioteca transformers instalada. Importando pipeline e configurando modelo de análise de sentimento...")

from transformers import pipeline

# Crie um objeto pipeline para análise de sentimento, especificando o modelo adequado para português
sentiment_pipeline = pipeline("sentiment-analysis", model="finiteautomata/beto-sentiment-analysis")

print("Pipeline de análise de sentimento configurada com o modelo 'finiteautomata/beto-sentiment-analysis'.")

**Reasoning**:
The previous step successfully installed the `transformers` library and initialized the sentiment analysis pipeline. The next logical step is to load the book's text and prepare it for sentiment analysis, which involves segmenting the text into manageable chunks.



In [None]:
print(f"Lendo o arquivo de texto: {text_filename}")

with open(text_filename, 'r', encoding='utf-8') as f:
    book_text = f.read()

# Quebrar o texto em seções para análise, pois o modelo tem um limite de tokens.
# Vamos tentar quebrar por parágrafos ou um número fixo de caracteres.
# Para simplificar, vamos dividir em pedaços de 512 caracteres, que é um tamanho comum para modelos BERT.

def split_text_into_chunks(text, chunk_size=512, overlap=50):
    chunks = []
    start = 0
    while start < len(text):
        end = start + chunk_size
        if end > len(text):
            chunks.append(text[start:])
            break
        else:
            # Encontrar o último espaço em branco para não cortar palavras ao meio
            split_point = text.rfind(' ', start, end)
            if split_point == -1 or split_point < start + chunk_size / 2: # Se não houver espaço ou for muito perto do início
                split_point = end
            chunks.append(text[start:split_point])
            start = split_point + 1 - overlap # Adiciona um pequeno overlap para contexto
            if start < 0: start = 0 # Evita índices negativos
    return chunks


text_chunks = split_text_into_chunks(book_text)

print(f"Texto dividido em {len(text_chunks)} pedaços para análise.")

**Reasoning**:
Now that the text is chunked, the next step is to apply the `sentiment_pipeline` to each chunk to get sentiment scores. This will generate a list of dictionaries, where each dictionary contains the label (e.g., 'POSITIVO', 'NEGATIVO') and the score for that chunk.



In [None]:
print("Realizando análise de sentimento nos pedaços de texto...")
sentiment_results = sentiment_pipeline(text_chunks)

print(f"Análise de sentimento concluída para {len(sentiment_results)} pedaços de texto.")
# print(sentiment_results[:5]) # Display first 5 results to check structure

**Reasoning**:
The sentiment analysis results are currently in a list of dictionaries. To facilitate visualization and further analysis of the emotional journey, it's beneficial to convert these results into a structured format like a Pandas DataFrame. This DataFrame will contain the sentiment label and score for each text chunk.



In [None]:
import pandas as pd

# Criar um DataFrame a partir dos resultados da análise de sentimento
df_sentiment = pd.DataFrame(sentiment_results)

# Adicionar o índice do chunk como uma coluna para representar a progressão do texto
df_sentiment['chunk_index'] = df_sentiment.index

# Exibir as primeiras linhas do DataFrame e informações gerais
print("DataFrame de sentimentos criado:")
print(df_sentiment.head())
print(f"\nTotal de chunks analisados: {len(df_sentiment)}")

## Visualizar a jornada emocional

### Subtask:
Plotar as pontuações de sentimento ao longo das seções do livro para criar um gráfico que represente visualmente a "jornada emocional" de Klara.


**Reasoning**:
To visualize the emotional journey, I will import the necessary plotting libraries, create a new column in the DataFrame to represent the sentiment value numerically, and then generate a line plot to show the sentiment progression across the book.



In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# 2. Crie uma nova coluna no df_sentiment chamada sentiment_value.
# 3. Preencha a coluna sentiment_value da seguinte forma:
#    se a label for 'POS', use o valor da coluna score;
#    se a label for 'NEG', use o valor negativo da coluna score;
#    se a label for 'NEU', use 0.
df_sentiment['sentiment_value'] = df_sentiment.apply(
    lambda row: row['score'] if row['label'] == 'POS' else
                -row['score'] if row['label'] == 'NEG' else 0,
    axis=1
)

# 4. Crie um gráfico de linha usando seaborn.lineplot() onde o eixo X seja chunk_index e o eixo Y seja sentiment_value.
plt.figure(figsize=(15, 7))
sns.lineplot(x='chunk_index', y='sentiment_value', data=df_sentiment)

# 5. Adicione um título ao gráfico e rótulos para os eixos X e Y.
plt.title('Jornada Emocional de Klara (Análise de Sentimento)')
plt.xlabel('Índice do Pedaço do Texto')
plt.ylabel('Pontuação de Sentimento')

# 6. Adicione uma linha horizontal em y=0 para indicar o ponto neutro do sentimento.
plt.axhline(0, color='gray', linestyle='--', linewidth=0.8)

# 7. Exiba o gráfico.
plt.grid(True, linestyle=':', alpha=0.7)
plt.show()

print("Gráfico da jornada emocional de Klara gerado com sucesso.")

## Interpretar os resultados

### Subtask:
Analisar os padrões no gráfico e discutir o que as mudanças de sentimento podem indicar sobre a evolução emocional de Klara na história.


Resumo:

Principais Descobertas da Análise de Dados
O texto de "Klara e o Sol" foi processado com sucesso utilizando a biblioteca transformers e um modelo de análise de sentimentos em português (finiteautomata/beto-sentiment-analysis).

O livro foi dividido em 1162 trechos de texto para avaliação de sentimento.

As pontuações de sentimento foram calculadas para cada trecho, categorizadas em rótulos positivos, negativos ou neutros. Um sentiment_value (valor de sentimento) foi derivado, atribuindo pontuações positivas para sentimento positivo, pontuações negativas para sentimento negativo e zero para sentimento neutro.

Um gráfico de linha representou visualmente a "jornada emocional" de Klara, mostrando flutuações no valor do sentimento ao longo da progressão do livro. O gráfico permite a observação de períodos onde o sentimento é predominantemente positivo, negativo ou oscila, indicando mudanças na experiência emocional de Klara conforme a história se desenrola.
visualização do sentimento ao longo do tempo fornece uma visão geral de alto nível do arco emocional de Klara. Observar quedas ou picos significativos no sentimento pode ter correlação com pontos principais da trama ou interações entre personagens, sugerindo um cenário emocional dinâmico em vez de estático.

# Task
The following describes the user's goal.
Analyze the emotional journey of Klara in the book "Klara e o Sol" by segmenting the text into logical parts (e.g., chapters), mapping the existing sentiment-analyzed text chunks to these parts, calculating the average sentiment for each part, visualizing the sentiment progression across these parts, and interpreting the emotional shifts in relation to the story's events.

## Identificar e Extrair Partes do Livro

### Subtask:
Dividir o texto completo do livro em partes lógicas (por exemplo, capítulos ou seções principais) com base em marcadores textuais.


**Reasoning**:
To divide the book into logical sections, I will split the `book_text` by double newlines (`\n\n`), as specified in the instructions. This is a common heuristic for separating paragraphs or major sections in plain text.



In [None]:
print("Dividindo o texto do livro em partes lógicas...")

# 1. Divida o texto completo do livro em partes lógicas
# Usar o delimitador de duas quebras de linha (\n\n) como um indicador de nova seção.
# O regex r'\n\n+' garante que múltiplos \n\n sejam tratados como um único delimitador e remove seções vazias.
parts = re.split(r'\n\n+', book_text)

# Remover quaisquer partes que sejam apenas espaços em branco ou vazias após a divisão
parts = [part.strip() for part in parts if part.strip()]

# 2. Inspecione as primeiras e últimas partes resultantes
print(f"\nTotal de partes identificadas: {len(parts)}")
print("\nPrimeiras 3 partes:")
for i, part in enumerate(parts[:3]):
    print(f"Parte {i+1}:\n{part[:200]}...") # Limita a exibição para 200 caracteres

print("\nÚltimas 3 partes:")
for i, part in enumerate(parts[-3:]):
    print(f"Parte {len(parts)-3+i+1}:\n{part[:200]}...") # Limita a exibição para 200 caracteres

# 3. Crie uma lista de dicionários com 'text', 'start_index' e 'end_index'
book_parts = []
current_index = 0
for part in parts:
    start_index = book_text.find(part, current_index) # Encontra a parte no texto original a partir do current_index
    if start_index == -1:
      # Se não encontrar, pode haver um problema de sanitização ou espaços brancos, tentaremos a partir do início
      start_index = book_text.find(part)
      if start_index == -1:
        print(f"Aviso: Não foi possível encontrar a parte no texto original: {part[:50]}...")
        continue # Pula esta parte se não puder ser encontrada

    end_index = start_index + len(part)
    book_parts.append({
        'text': part,
        'start_index': start_index,
        'end_index': end_index
    })
    current_index = end_index # Atualiza o índice para a próxima busca

print(f"\nLista 'book_parts' criada com {len(book_parts)} dicionários.")
# print(book_parts[:2]) # Opcional: Para verificar a estrutura dos primeiros dicionários

**Reasoning**:
Now that the book is divided into logical parts, I need to associate each sentiment-analyzed text chunk with its corresponding part. This requires iterating through the `book_parts` and `df_sentiment` to assign a 'part_index' to each sentiment entry.



In [None]:
print("Mapeando os pedaços de texto analisados para as partes lógicas do livro...")

# Adicionar uma coluna 'part_index' ao df_sentiment
df_sentiment['part_index'] = -1

# Acompanhar a posição atual no texto original para os chunks
current_chunk_start_index = 0

# Calcular os índices de início e fim para cada chunk no texto original
chunk_info = []
for i, chunk_text in enumerate(text_chunks):
    chunk_length = len(chunk_text)
    chunk_end_index = current_chunk_start_index + chunk_length
    chunk_info.append({
        'chunk_index': i,
        'start_in_book_text': current_chunk_start_index,
        'end_in_book_text': chunk_end_index
    })
    # A lógica de split_text_into_chunks usa overlap. Precisamos replicar essa lógica
    # para calcular corretamente o `current_chunk_start_index` para o próximo chunk.
    # Por simplicidade, assumimos que `text_chunks` já foi gerado e agora estamos
    # apenas "realocando" seus offsets no texto original.
    # Uma abordagem mais precisa seria recalcular os `start_in_book_text` e `end_in_book_text`
    # usando o `book_text` e o `text_chunks` diretamente, mas para evitar complexidade
    # e dado que `text_chunks` já existe, faremos uma atribuição simples aqui.
    # A maneira mais robusta seria ter armazenado esses índices junto com a geração dos chunks.
    # Para este propósito, vamos simplesmente iterar e assumir que o chunk_info está correto
    # se a lógica de geração dos chunks for mantida.
    # Se a função split_text_into_chunks usa overlap, os índices de start_in_book_text
    # precisam ser ajustados para cada chunk.


# Uma forma mais robusta de fazer a atribuição de parte para cada chunk
for i, chunk_text in enumerate(text_chunks):
    # Encontrar a posição inicial real do chunk no book_text
    # Isso pode ser complexo devido ao 'overlap' e 'strip' na função split_text_into_chunks
    # Uma abordagem é iterar sobre as partes e verificar quais chunks caem dentro delas.

    # Para simplificar e evitar recalcular os índices de cada chunk no texto original
    # com a lógica exata de overlap, vamos aproximar a atribuição.
    # Vamos atribuir o chunk a uma parte se a maior parte do chunk estiver dentro da parte.

    # Para uma atribuição mais precisa, o ideal seria que a função split_text_into_chunks
    # retornasse também os índices de start/end de cada chunk no texto original.

    # Sem os índices exatos de cada chunk, a atribuição pode ser imprecisa.
    # Vamos criar uma aproximação baseada na proporção do texto total que cada chunk representa.

    # A forma mais simples de mapear chunks para partes é assumir uma distribuição uniforme
    # ou iterar e verificar o conteúdo.

    # Vamos refinar a lógica: cada chunk tem um `chunk_index`.
    # Precisamos saber onde cada `chunk` começa e termina no `book_text`.
    # A função `split_text_into_chunks` não retorna esses índices diretamente,
    # então faremos uma re-localização aproximada.

    # Calcula o ponto médio do chunk para atribuí-lo a uma parte
    # Esta é uma estimativa, pois 'text_chunks' não tem os índices de início/fim diretamente.
    # Para a melhor precisão, é necessário re-gerar `text_chunks` com seus índices originais.

    # No entanto, temos `text_chunks` e sabemos que eles foram gerados sequencialmente.
    # Vamos usar uma abordagem que mapeia a proporção do texto total:
    # Se `book_parts` representa grandes seções, e `text_chunks` são pequenos pedaços,
    # podemos estimar o `part_index` para cada `chunk_index`.

    # O `df_sentiment` já tem `chunk_index`. Precisamos associar `part_index` a ele.

    # Abordagem: Para cada chunk, vamos tentar encontrar a parte a que ele pertence
    # baseando-nos na sua posição relativa no texto total.

    # Criar uma lista de offsets para o início de cada chunk no `book_text`
    # Isso requer re-simular a lógica de `split_text_into_chunks` para obter os offsets.
    chunk_start_offsets = []
    current_offset = 0
    for chunk_text in text_chunks:
        chunk_start_offsets.append(current_offset)
        current_offset += len(chunk_text)
        # Se houver overlap, a lógica de `current_offset` precisa ser ajustada
        # A função original `split_text_into_chunks` subtrai `overlap` para o próximo `start`.
        # Para simular isso:
        # `start = split_point + 1 - overlap`
        # Então, o `current_offset` para o próximo chunk seria `split_point + 1 - overlap`.
        # Como não temos `split_point` e `overlap` aqui, esta é uma aproximação.

    # Mapear `chunk_index` para `part_index`
    chunk_to_part_map = {}
    part_start_chars = [p['start_index'] for p in book_parts]
    part_end_chars = [p['end_index'] for p in book_parts]

    for chunk_idx, chunk_offset in enumerate(chunk_start_offsets):
        # Assumir que o chunk pertence à parte em que seu início está contido
        assigned_part_idx = -1
        for part_idx, (p_start, p_end) in enumerate(zip(part_start_chars, part_end_chars)):
            # Simplificando: se o início do chunk está dentro da parte
            if p_start <= chunk_offset < p_end:
                assigned_part_idx = part_idx
                break
        chunk_to_part_map[chunk_idx] = assigned_part_idx

    # Atribuir o part_index ao DataFrame de sentimentos
    df_sentiment['part_index'] = df_sentiment['chunk_index'].map(chunk_to_part_map)


print("Mapeamento concluído. Verificando as primeiras entradas:")
print(df_sentiment.head())

print(f"Número de chunks não atribuídos a uma parte: {(df_sentiment['part_index'] == -1).sum()}")

**Reasoning**:
Now that the sentiment analysis results are mapped to logical parts of the book, I will calculate the average sentiment score for each part. This will provide a summarized emotional value for each section of the book, which is essential for visualizing the overall emotional journey.



In [None]:
print("Calculando o sentimento médio por parte do livro...")

# Filtrar chunks que foram atribuídos a uma parte (-1 significa não atribuído)
df_sentiment_assigned = df_sentiment[df_sentiment['part_index'] != -1]

# Calcular o sentimento médio por parte
average_sentiment_per_part = df_sentiment_assigned.groupby('part_index')['sentiment_value'].mean().reset_index()
average_sentiment_per_part.rename(columns={'sentiment_value': 'average_sentiment'}, inplace=True)

print("Sentimento médio por parte calculado:")
print(average_sentiment_per_part.head())
print(f"\nTotal de partes com sentimento médio calculado: {len(average_sentiment_per_part)}")

**Reasoning**:
To visualize the emotional journey across the logical parts of the book, I will use `seaborn.lineplot` to plot the `average_sentiment` against the `part_index`.



In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

print("Gerando o gráfico da jornada emocional de Klara por partes lógicas...")

plt.figure(figsize=(15, 7))
sns.lineplot(x='part_index', y='average_sentiment', data=average_sentiment_per_part)

plt.title('Jornada Emocional de Klara por Partes do Livro')
plt.xlabel('Índice da Parte do Livro')
plt.ylabel('Sentimento Médio')
plt.axhline(0, color='gray', linestyle='--', linewidth=0.8)
plt.grid(True, linestyle=':', alpha=0.7)
plt.xticks(average_sentiment_per_part['part_index'])
plt.show()

print("Gráfico da jornada emocional de Klara por partes lógicas gerado com sucesso.")

### Interpretação da Jornada Emocional de Klara por Partes do Livro

O gráfico da "Jornada Emocional de Klara por Partes do Livro" apresenta as seguintes observações e interpretações:

1.  **Variação de Sentimento:** O gráfico mostra flutuações no sentimento médio ao longo das diferentes partes do livro. Isso sugere que a narrativa de Klara não mantém um tom emocional constante, mas sim evolui através de picos e vales.

2.  **Partes Iniciais (Índices 0-4):** As primeiras partes do livro tendem a ter sentimentos neutros ou levemente negativos. A parte de índice 0 mostra um sentimento neutro. A parte 4 já registra um sentimento levemente negativo, o que pode indicar um início da história onde Klara está se adaptando ou observando seu novo ambiente sem grandes emoções positivas ou enfrentando desafios sutis.

3.  **Queda Significativa de Sentimento (Índice 12 e 17):** Há quedas notáveis no sentimento médio em torno das partes 12 e 17. A parte 12 exibe um sentimento negativo mais pronunciado, e a parte 17 é a que mostra a maior pontuação negativa. Essas quedas podem corresponder a momentos críticos na trama, onde Klara enfrenta dificuldades, desilusões, perdas ou situações angustiantes que impactam profundamente sua percepção e bem-estar emocional.

4.  **Recuperação e Neutralidade:** Em alguns pontos, como nas partes 15, 16 e 18, o sentimento retorna a um estado neutro ou se aproxima de zero. Isso pode indicar períodos de estabilidade, aceitação ou momentos de pausa na narrativa onde a intensidade emocional diminui, ou Klara encontra alguma forma de resolução ou compreensão.

5.  **Final do Livro (Índices 19-21):** O final do gráfico, representando as últimas partes do livro, mostra sentimentos negativos contínuos (partes 19 e 20) com a parte 21 voltando a um sentimento neutro. Esta tendência pode refletir temas como sacrifício, melancolia ou a complexidade das relações e escolhas feitas por Klara, que não necessariamente terminam em um clímax de felicidade, mas sim em uma aceitação resignada ou uma nova forma de entendimento.

**Conclusão Parcial:** A jornada emocional de Klara, conforme visualizada, é complexa e dinâmica. Os períodos de sentimento negativo profundo são intercalados com momentos de neutralidade. Para uma interpretação mais aprofundada, seria ideal correlacionar esses picos e vales emocionais com eventos específicos na trama, o que permitiria entender os gatilhos por trás das mudanças no estado emocional de Klara.

## Summary:

### Q&A
The emotional journey of Klara is complex and dynamic, characterized by fluctuations in sentiment throughout the book.
*   **Initial Parts (Indices 0-4):** Start with neutral sentiment (part 0) and gradually shift to slightly negative (part 4).
*   **Significant Declines:** Notable drops in sentiment occur around part 12 and particularly at part 17, which exhibits the most pronounced negative sentiment. These likely correspond to critical or distressing events in the narrative.
*   **Periods of Recovery:** The sentiment recovers to neutral or near-zero levels in parts 15, 16, and 18, suggesting moments of stability or resolution.
*   **Later Parts (Indices 19-21):** The journey concludes with continued negative sentiments in parts 19 and 20, eventually returning to a neutral state in part 21. This suggests themes of sacrifice, melancholy, or a resigned acceptance rather than a purely positive resolution.

### Data Analysis Key Findings
*   The book text was successfully divided into 22 logical parts.
*   A total of 112 sentiment-analyzed chunks could not be mapped to any specific book part, potentially due to the chunking strategy or text discrepancies, leading to sentiment analysis being performed on 14 distinct parts instead of the full 22.
*   The average sentiment for Klara shows a fluctuating pattern, indicating a dynamic emotional journey.
*   The most negative sentiment experienced by Klara is observed around part 17 of the book.
*   The emotional journey does not end on an overwhelmingly positive note, with sentiment returning to neutral in the final part (index 21) after periods of negativity.

### Insights or Next Steps
*   To gain a deeper understanding, it would be beneficial to correlate the observed emotional peaks and valleys with specific plot events. This would help identify the narrative triggers for Klara's emotional shifts.
*   Investigate the 112 unassigned chunks to understand why they weren't mapped to book parts. This could involve refining the chunking and mapping logic to ensure comprehensive coverage of the book's sentiment.


# Task
Identify the start and end boundaries of the main narrative in `book_text` for 'Klara e o Sol', excluding any introductory, summary, dedicatory, or promotional content. The start of the narrative is expected to be marked by "Parte um" and the end before any promotional material for other books. Extract the pure narrative text into a new variable, `narrative_text`.

## Identificar Limites da Narrativa

### Subtask:
Detectar o início e o fim da narrativa principal de 'Klara e o Sol' no `book_text`, excluindo prefácios, sumários, e conteúdos promocionais que não se referem diretamente à história.


# Task
```python
print("Detectando o início e o fim da narrativa principal no 'book_text'...")

# 1. Detectar o início da narrativa principal
# A narrativa principal geralmente começa após o sumário e dedicatórias,
# e é marcada pela primeira ocorrência de "Parte um" (ou similar).
start_marker = "Parte um"
start_index = book_text.find(start_marker)

if start_index == -1:
    print(f"Erro: O marcador de início da narrativa '{start_marker}' não foi encontrado.")
    # Tentativa de fallback para um ponto conhecido se o marcador exato não for encontrado
    # Para este livro específico, a "Parte um" é o primeiro capítulo.
    # Se não for encontrada, a estratégia precisa ser revisada.
    narrative_text = book_text # Retorna o texto completo se não encontrar
else:
    # Ajustar o start_index para o início da "Parte um"
    start_index_of_narrative = start_index

    # 2. Detectar o fim da narrativa principal
    # A narrativa principal termina antes de quaisquer materiais promocionais, apêndices ou créditos finais.
    # Baseado na inspeção prévia de book_parts, os materiais promocionais começam na Parte 20 (índice 19).
    # Vamos usar o `start_index` da parte que contém "A palavra que resta Gardel" como o marcador de fim.
    end_marker_part_index = 19 # Corresponde à "Parte 20" nos dicionários gerados
    if end_marker_part_index < len(book_parts):
        end_index_of_narrative = book_parts[end_marker_part_index]['start_index']
    else:
        print("Aviso: Índice da parte de fim da narrativa fora dos limites de book_parts. Usando o fim do livro.")
        end_index_of_narrative = len(book_text)

    # 3. Extrair a narrativa pura
    narrative_text = book_text[start_index_of_narrative:end_index_of_narrative].strip()

print(f"\nComprimento do 'book_text' original: {len(book_text)} caracteres.")
print(f"Comprimento do 'narrative_text' extraído: {len(narrative_text)} caracteres.")

print("\nInício da narrativa extraída (primeiros 500 caracteres):")
print(narrative_text[:500])

print("\nFim da narrativa extraída (últimos 500 caracteres):")
print(narrative_text[-500:])
```

## Extrair Nomes de Personagens

### Subtask:
Identificar e extrair os nomes dos personagens principais do texto narrativo (`narrative_text`).


**Reasoning**:
To identify the main characters mentioned in the narrative, I will define a list of known main characters, then iterate through this list to check if each character's name appears in the `narrative_text`. I will convert both the character names and the narrative text to lowercase for a case-insensitive search and store the found characters in a new list, finally displaying them and their count.



In [None]:
print("Iniciando a extração de nomes de personagens do texto narrativo...")

# Certifique-se de que 'narrative_text' está definida a partir do passo anterior.
# Se 'narrative_text' não estiver definida, este código pode falhar.
# Assumindo que a célula anterior criou a variável 'narrative_text'.

# 1. Defina uma lista Python chamada main_characters contendo os nomes dos personagens principais do livro.
# A lista é baseada nos personagens conhecidos de 'Klara e o Sol'.
main_characters = ['Klara', 'Josie', 'Rick', 'Melania Housekeeper', 'Padre', 'Mãe', 'Pai', 'Sr. Capaldi', 'O Coletor', 'B-2', 'B-1']

# 2. Crie uma lista vazia chamada found_characters para armazenar os nomes dos personagens encontrados.
found_characters = []

# 3. Itere sobre cada nome na lista main_characters.
for character_name in main_characters:
    # 4. Para cada nome de personagem, verifique se ele está presente no narrative_text.
    # Converta tanto o nome do personagem quanto o narrative_text para minúsculas antes de realizar a busca.
    if character_name.lower() in narrative_text.lower():
        # 5. Se o nome do personagem for encontrado no narrative_text, adicione-o à lista found_characters.
        found_characters.append(character_name)

# 6. Exiba a lista found_characters para verificar quais personagens foram identificados na narrativa.
print("\nPersonagens principais identificados na narrativa:")
if found_characters:
    for character in found_characters:
        print(f"- {character}")
else:
    print("Nenhum personagem principal da lista foi encontrado na narrativa. Verifique a lista ou o texto.")

# 7. Exiba o número total de personagens únicos encontrados.
unique_found_characters = list(set(found_characters))
print(f"\nTotal de personagens únicos encontrados: {len(unique_found_characters)}")


**Reasoning**:
The previous code failed because `narrative_text` was not defined. This variable was meant to be created in a prior step (cell `8dc8d6b0`), which was a text cell with commented code and thus not executed. To resolve this, I will incorporate the logic for defining `narrative_text` directly into the current code block, ensuring it is available before the character extraction process begins.



In [None]:
import re

print("Detectando o início e o fim da narrativa principal no 'book_text'...")

# 1. Detectar o início da narrativa principal
# A narrativa principal geralmente começa após o sumário e dedicatórias,
# e é marcada pela primeira ocorrência de "Parte um" (ou similar).
start_marker = "Parte um"
start_index = book_text.find(start_marker)

if start_index == -1:
    print(f"Erro: O marcador de início da narrativa '{start_marker}' não foi encontrado.")
    # Tentativa de fallback para um ponto conhecido se o marcador exato não for encontrado
    # Para este livro específico, a "Parte um" é o primeiro capítulo.
    # Se não for encontrada, a estratégia precisa ser revisada.
    narrative_text = book_text # Retorna o texto completo se não encontrar
else:
    # Ajustar o start_index para o início da "Parte um"
    start_index_of_narrative = start_index

    # 2. Detectar o fim da narrativa principal
    # A narrativa principal termina antes de quaisquer materiais promocionais, apêndices ou créditos finais.
    # Baseado na inspeção prévia de book_parts, os materiais promocionais começam na Parte 20 (índice 19).
    # Vamos usar o `start_index` da parte que contém "A palavra que resta Gardel" como o marcador de fim.
    end_marker_part_index = 19 # Corresponde à "Parte 20" nos dicionários gerados
    if end_marker_part_index < len(book_parts):
        end_index_of_narrative = book_parts[end_marker_part_index]['start_index']
    else:
        print("Aviso: Índice da parte de fim da narrativa fora dos limites de book_parts. Usando o fim do livro.")
        end_index_of_narrative = len(book_text)

    # 3. Extrair a narrativa pura
    narrative_text = book_text[start_index_of_narrative:end_index_of_narrative].strip()

print(f"\nComprimento do 'book_text' original: {len(book_text)} caracteres.")
print(f"Comprimento do 'narrative_text' extraído: {len(narrative_text)} caracteres.")

print("\nInício da narrativa extraída (primeiros 500 caracteres):")
print(narrative_text[:500])

print("\nFim da narrativa extraída (últimos 500 caracteres):")
print(narrative_text[-500:])


print("\nIniciando a extração de nomes de personagens do texto narrativo...")

# 1. Defina uma lista Python chamada main_characters contendo os nomes dos personagens principais do livro.
# A lista é baseada nos personagens conhecidos de 'Klara e o Sol'.
main_characters = ['Klara', 'Josie', 'Rick', 'Melania Housekeeper', 'Padre', 'Mãe', 'Pai', 'Sr. Capaldi', 'O Coletor', 'B-2', 'B-1']

# 2. Crie uma lista vazia chamada found_characters para armazenar os nomes dos personagens encontrados.
found_characters = []

# 3. Itere sobre cada nome na lista main_characters.
for character_name in main_characters:
    # 4. Para cada nome de personagem, verifique se ele está presente no narrative_text.
    # Converta tanto o nome do personagem quanto o narrative_text para minúsculas antes de realizar a busca.
    if character_name.lower() in narrative_text.lower():
        # 5. Se o nome do personagem for encontrado no narrative_text, adicione-o à lista found_characters.
        found_characters.append(character_name)

# 6. Exiba a lista found_characters para verificar quais personagens foram identificados na narrativa.
print("\nPersonagens principais identificados na narrativa:")
if found_characters:
    for character in found_characters:
        print(f"- {character}")
else:
    print("Nenhum personagem principal da lista foi encontrado na narrativa. Verifique a lista ou o texto.")

# 7. Exiba o número total de personagens únicos encontrados.
unique_found_characters = list(set(found_characters))
print(f"\nTotal de personagens únicos encontrados: {len(unique_found_characters)}")

**Reasoning**:
The previous code failed because `book_text` was not defined. This variable needs to be reloaded from the text file. Additionally, `book_parts` also needs to be recreated as it depends on `book_text`. I will re-include the necessary steps to load the book text, split it into parts, and then extract the narrative and identify characters, ensuring all variables are defined in the correct order.



In [None]:
import re

# Re-load book_text (from earlier step, e.g., cell 4b894719)
text_filename = 'Klara e o Sol - Kazuo Ishiguro.txt'
print(f"Re-lendo o arquivo de texto: {text_filename}")
with open(text_filename, 'r', encoding='utf-8') as f:
    book_text = f.read()

# Re-create book_parts (from earlier step, e.g., cell d21440c9)
print("Re-dividindo o texto do livro em partes lógicas...")
parts = re.split(r'\n\n+', book_text)
parts = [part.strip() for part in parts if part.strip()]

book_parts = []
current_index = 0
for part in parts:
    start_index_part = book_text.find(part, current_index)
    if start_index_part == -1:
      start_index_part = book_text.find(part)
      if start_index_part == -1:
        continue
    end_index_part = start_index_part + len(part)
    book_parts.append({
        'text': part,
        'start_index': start_index_part,
        'end_index': end_index_part
    })
    current_index = end_index_part

print(f"Re-criada 'book_parts' com {len(book_parts)} dicionários.")

# Now, proceed with the narrative extraction logic
print("Detectando o início e o fim da narrativa principal no 'book_text'...")

# 1. Detectar o início da narrativa principal
start_marker = "Parte um"
start_index = book_text.find(start_marker)

if start_index == -1:
    print(f"Erro: O marcador de início da narrativa '{start_marker}' não foi encontrado.")
    narrative_text = book_text # Fallback
else:
    start_index_of_narrative = start_index

    # 2. Detectar o fim da narrativa principal
    end_marker_part_index = 19
    if end_marker_part_index < len(book_parts):
        end_index_of_narrative = book_parts[end_marker_part_index]['start_index']
    else:
        print("Aviso: Índice da parte de fim da narrativa fora dos limites de book_parts. Usando o fim do livro.")
        end_index_of_narrative = len(book_text)

    # 3. Extrair a narrativa pura
    narrative_text = book_text[start_index_of_narrative:end_index_of_narrative].strip()

print(f"\nComprimento do 'book_text' original: {len(book_text)} caracteres.")
print(f"Comprimento do 'narrative_text' extraído: {len(narrative_text)} caracteres.")

print("\nInício da narrativa extraída (primeiros 500 caracteres):")
print(narrative_text[:500])

print("\nFim da narrativa extraída (últimos 500 caracteres):")
print(narrative_text[-500:])


print("\nIniciando a extração de nomes de personagens do texto narrativo...")

# 1. Defina uma lista Python chamada main_characters contendo os nomes dos personagens principais do livro.
main_characters = ['Klara', 'Josie', 'Rick', 'Melania Housekeeper', 'Padre', 'Mãe', 'Pai', 'Sr. Capaldi', 'O Coletor', 'B-2', 'B-1']

# 2. Crie uma lista vazia chamada found_characters para armazenar os nomes dos personagens encontrados.
found_characters = []

# 3. Itere sobre cada nome na lista main_characters.
for character_name in main_characters:
    # 4. Para cada nome de personagem, verifique se ele está presente no narrative_text.
    # Converta tanto o nome do personagem quanto o narrative_text para minúsculas antes de realizar a busca.
    if character_name.lower() in narrative_text.lower():
        # 5. Se o nome do personagem for encontrado no narrative_text, adicione-o à lista found_characters.
        found_characters.append(character_name)

# 6. Exiba a lista found_characters para verificar quais personagens foram identificados na narrativa.
print("\nPersonagens principais identificados na narrativa:")
if found_characters:
    for character in found_characters:
        print(f"- {character}")
else:
    print("Nenhum personagem principal da lista foi encontrado na narrativa. Verifique a lista ou o texto.")

# 7. Exiba o número total de personagens únicos encontrados.
unique_found_characters = list(set(found_characters))
print(f"\nTotal de personagens únicos encontrados: {len(unique_found_characters)}")

**Reasoning**:
The previous code failed because the text file `Klara e o Sol - Kazuo Ishiguro.txt` was not found. This file was generated earlier by converting an EPUB. I will re-include the necessary steps to upload the EPUB file again and convert it to a `.txt` file, ensuring the `book_text` variable is properly loaded and `book_parts` is recreated, before proceeding with the character extraction logic.



In [None]:
import ebooklib
from ebooklib import epub
from bs4 import BeautifulSoup
from google.colab import files
import re

# 1. Pedir para fazer o upload do arquivo .epub novamente, se necessário.
# Este passo é crucial para garantir que o arquivo .txt existe se o runtime foi resetado.
# Se o arquivo já existir, a mensagem de upload será exibida mas o usuário pode ignorar.
print("Por favor, certifique-se que o arquivo .epub foi carregado. Se não, faça o upload agora.")

# Define o nome do arquivo .txt de saída
text_filename = 'Klara e o Sol - Kazuo Ishiguro.txt'
epub_filename = text_filename.replace('.txt', '.epub')

# Check if the .txt file already exists to avoid unnecessary re-upload/conversion
try:
    with open(text_filename, 'r', encoding='utf-8') as f:
        book_text = f.read()
    print(f"Arquivo '{text_filename}' já existe e foi carregado.")
except FileNotFoundError:
    print(f"Arquivo '{text_filename}' não encontrado. Por favor, faça o upload do arquivo .epub...")
    uploaded = files.upload()

    if not uploaded:
        print("Nenhum arquivo .epub foi carregado. Não é possível prosseguir.")
        # Handle the error or exit gracefully
        book_text = ""
    else:
        epub_filename = list(uploaded.keys())[0]
        print(f"Arquivo '{epub_filename}' carregado. Iniciando conversão...")

        # 2. Abrir o livro
        book = epub.read_epub(epub_filename)
        full_text = ""

        # 3. Iterar por todos os "documentos" (capítulos) do livro
        for item in book.get_items_of_type(ebooklib.ITEM_DOCUMENT):
            content = item.get_body_content()
            soup = BeautifulSoup(content, 'html.parser')
            text_only = soup.get_text(separator=' ', strip=True)
            full_text += text_only + "\n\n"

        # 4. Salvar o texto completo em um arquivo .txt
        with open(text_filename, 'w', encoding='utf-8') as f:
            f.write(full_text)
        book_text = full_text
        print(f"\nSucesso! O arquivo '{text_filename}' foi criado no seu ambiente Colab.")


# Re-create book_parts (from earlier step, e.g., cell d21440c9)
print("Dividindo o texto do livro em partes lógicas...")
parts = re.split(r'\n\n+', book_text)
parts = [part.strip() for part in parts if part.strip()]

book_parts = []
current_index = 0
for part in parts:
    start_index_part = book_text.find(part, current_index)
    if start_index_part == -1:
      start_index_part = book_text.find(part)
      if start_index_part == -1:
        continue
    end_index_part = start_index_part + len(part)
    book_parts.append({
        'text': part,
        'start_index': start_index_part,
        'end_index': end_index_part
    })
    current_index = end_index_part

print(f"'book_parts' criada com {len(book_parts)} dicionários.")

# Now, proceed with the narrative extraction logic
print("Detectando o início e o fim da narrativa principal no 'book_text'...")

# 1. Detectar o início da narrativa principal
start_marker = "Parte um"
start_index = book_text.find(start_marker)

if start_index == -1:
    print(f"Erro: O marcador de início da narrativa '{start_marker}' não foi encontrado.")
    narrative_text = book_text # Fallback
else:
    start_index_of_narrative = start_index

    # 2. Detectar o fim da narrativa principal
    end_marker_part_index = 19
    if end_marker_part_index < len(book_parts):
        end_index_of_narrative = book_parts[end_marker_part_index]['start_index']
    else:
        print("Aviso: Índice da parte de fim da narrativa fora dos limites de book_parts. Usando o fim do livro.")
        end_index_of_narrative = len(book_text)

    # 3. Extrair a narrativa pura
    narrative_text = book_text[start_index_of_narrative:end_index_of_narrative].strip()

print(f"\nComprimento do 'book_text' original: {len(book_text)} caracteres.")
print(f"Comprimento do 'narrative_text' extraído: {len(narrative_text)} caracteres.")

print("\nInício da narrativa extraída (primeiros 500 caracteres):")
print(narrative_text[:500])

print("\nFim da narrativa extraída (últimos 500 caracteres):")
print(narrative_text[-500:])


print("\nIniciando a extração de nomes de personagens do texto narrativo...")

# 1. Defina uma lista Python chamada main_characters contendo os nomes dos personagens principais do livro.
main_characters = ['Klara', 'Josie', 'Rick', 'Melania Housekeeper', 'Padre', 'Mãe', 'Pai', 'Sr. Capaldi', 'O Coletor', 'B-2', 'B-1']

# 2. Crie uma lista vazia chamada found_characters para armazenar os nomes dos personagens encontrados.
found_characters = []

# 3. Itere sobre cada nome na lista main_characters.
for character_name in main_characters:
    # 4. Para cada nome de personagem, verifique se ele está presente no narrative_text.
    # Converta tanto o nome do personagem quanto o narrative_text para minúsculas antes de realizar a busca.
    if character_name.lower() in narrative_text.lower():
        # 5. Se o nome do personagem for encontrado no narrative_text, adicione-o à lista found_characters.
        found_characters.append(character_name)

# 6. Exiba a lista found_characters para verificar quais personagens foram identificados na narrativa.
print("\nPersonagens principais identificados na narrativa:")
if found_characters:
    for character in found_characters:
        print(f"- {character}")
else:
    print("Nenhum personagem principal da lista foi encontrado na narrativa. Verifique a lista ou o texto.")

# 7. Exiba o número total de personagens únicos encontrados.
unique_found_characters = list(set(found_characters))
print(f"\nTotal de personagens únicos encontrados: {len(unique_found_characters)}")


**Reasoning**:
The previous cell failed because `ebooklib` was not found, indicating that the package was not installed or the runtime reset. I will re-install `ebooklib` and `beautifulsoup4` to ensure all necessary libraries are available for the subsequent steps.



In [None]:
!pip install ebooklib beautifulsoup4

**Reasoning**:
The `ebooklib` library has been re-installed. Now, I need to re-execute the full code block that handles loading the text file (converting EPUB if necessary), recreating `book_parts`, extracting the narrative text, and finally identifying the main characters to ensure all dependencies and variables are correctly set up and the character extraction is performed.



In [None]:
import ebooklib
from ebooklib import epub
from bs4 import BeautifulSoup
from google.colab import files
import re

# 1. Pedir para fazer o upload do arquivo .epub novamente, se necessário.
# Este passo é crucial para garantir que o arquivo .txt existe se o runtime foi resetado.
# Se o arquivo já existir, a mensagem de upload será exibida mas o usuário pode ignorar.
print("Por favor, certifique-se que o arquivo .epub foi carregado. Se não, faça o upload agora.")

# Define o nome do arquivo .txt de saída
text_filename = 'Klara e o Sol - Kazuo Ishiguro.txt'
epub_filename = text_filename.replace('.txt', '.epub')

# Check if the .txt file already exists to avoid unnecessary re-upload/conversion
try:
    with open(text_filename, 'r', encoding='utf-8') as f:
        book_text = f.read()
    print(f"Arquivo '{text_filename}' já existe e foi carregado.")
except FileNotFoundError:
    print(f"Arquivo '{text_filename}' não encontrado. Por favor, faça o upload do arquivo .epub...")
    uploaded = files.upload()

    if not uploaded:
        print("Nenhum arquivo .epub foi carregado. Não é possível prosseguir.")
        # Handle the error or exit gracefully
        book_text = ""
    else:
        epub_filename = list(uploaded.keys())[0]
        print(f"Arquivo '{epub_filename}' carregado. Iniciando conversão...")

        # 2. Abrir o livro
        book = epub.read_epub(epub_filename)
        full_text = ""

        # 3. Iterar por todos os "documentos" (capítulos) do livro
        for item in book.get_items_of_type(ebooklib.ITEM_DOCUMENT):
            content = item.get_body_content()
            soup = BeautifulSoup(content, 'html.parser')
            text_only = soup.get_text(separator=' ', strip=True)
            full_text += text_only + "\n\n"

        # 4. Salvar o texto completo em um arquivo .txt
        with open(text_filename, 'w', encoding='utf-8') as f:
            f.write(full_text)
        book_text = full_text
        print(f"\nSucesso! O arquivo '{text_filename}' foi criado no seu ambiente Colab.")


# Re-create book_parts (from earlier step, e.g., cell d21440c9)
print("Dividindo o texto do livro em partes lógicas...")
parts = re.split(r'\n\n+', book_text)
parts = [part.strip() for part in parts if part.strip()]

book_parts = []
current_index = 0
for part in parts:
    start_index_part = book_text.find(part, current_index)
    if start_index_part == -1:
      start_index_part = book_text.find(part)
      if start_index_part == -1:
        continue
    end_index_part = start_index_part + len(part)
    book_parts.append({
        'text': part,
        'start_index': start_index_part,
        'end_index': end_index_part
    })
    current_index = end_index_part

print(f"'book_parts' criada com {len(book_parts)} dicionários.")

# Now, proceed with the narrative extraction logic
print("Detectando o início e o fim da narrativa principal no 'book_text'...")

# 1. Detectar o início da narrativa principal
start_marker = "Parte um"
start_index = book_text.find(start_marker)

if start_index == -1:
    print(f"Erro: O marcador de início da narrativa '{start_marker}' não foi encontrado.")
    narrative_text = book_text # Fallback
else:
    start_index_of_narrative = start_index

    # 2. Detectar o fim da narrativa principal
    end_marker_part_index = 19
    if end_marker_part_index < len(book_parts):
        end_index_of_narrative = book_parts[end_marker_part_index]['start_index']
    else:
        print("Aviso: Índice da parte de fim da narrativa fora dos limites de book_parts. Usando o fim do livro.")
        end_index_of_narrative = len(book_text)

    # 3. Extrair a narrativa pura
    narrative_text = book_text[start_index_of_narrative:end_index_of_narrative].strip()

print(f"\nComprimento do 'book_text' original: {len(book_text)} caracteres.")
print(f"Comprimento do 'narrative_text' extraído: {len(narrative_text)} caracteres.")

print("\nInício da narrativa extraída (primeiros 500 caracteres):")
print(narrative_text[:500])

print("\nFim da narrativa extraída (últimos 500 caracteres):")
print(narrative_text[-500:])


print("\nIniciando a extração de nomes de personagens do texto narrativo...")

# 1. Defina uma lista Python chamada main_characters contendo os nomes dos personagens principais do livro.
main_characters = ['Klara', 'Josie', 'Rick', 'Melania Housekeeper', 'Padre', 'Mãe', 'Pai', 'Sr. Capaldi', 'O Coletor', 'B-2', 'B-1']

# 2. Crie uma lista vazia chamada found_characters para armazenar os nomes dos personagens encontrados.
found_characters = []

# 3. Itere sobre cada nome na lista main_characters.
for character_name in main_characters:
    # 4. Para cada nome de personagem, verifique se ele está presente no narrative_text.
    # Converta tanto o nome do personagem quanto o narrative_text para minúsculas antes de realizar a busca.
    if character_name.lower() in narrative_text.lower():
        # 5. Se o nome do personagem for encontrado no narrative_text, adicione-o à lista found_characters.
        found_characters.append(character_name)

# 6. Exiba a lista found_characters para verificar quais personagens foram identificados na narrativa.
print("\nPersonagens principais identificados na narrativa:")
if found_characters:
    for character in found_characters:
        print(f"- {character}")
else:
    print("Nenhum personagem principal da lista foi encontrado na narrativa. Verifique a lista ou o texto.")

# 7. Exiba o número total de personagens únicos encontrados.
unique_found_characters = list(set(found_characters))
print(f"\nTotal de personagens únicos encontrados: {len(unique_found_characters)}")

## Detectar Co-ocorrências de Personagens

### Subtask:
Percorrer o `narrative_text` e registrar as vezes em que pares de personagens aparecem juntos em um mesmo segmento de texto (por exemplo, dentro da mesma frase ou parágrafo). Isso será a base para as conexões do nosso grafo.


**Reasoning**:
To begin detecting co-occurrences, I need to import the `nltk` library and download its 'punkt' tokenizer. Then, I will tokenize the `narrative_text` into sentences to process them individually for character presence, ensuring case-insensitive matching by converting the text to lowercase.



In [None]:
import nltk
from nltk.tokenize import sent_tokenize
from collections import defaultdict

print("Baixando o tokenizador 'punkt' do NLTK (se necessário)...")
try:
    nltk.data.find('tokenizers/punkt')
except nltk.downloader.DownloadError:
    nltk.download('punkt', quiet=True)
print("Tokenizador 'punkt' do NLTK pronto.")

print("Tokenizando o texto narrativo em frases...")
# Convert narrative_text to lowercase for case-insensitive processing
lower_narrative_text = narrative_text.lower()
sentences = sent_tokenize(lower_narrative_text, language='portuguese')

print(f"Narrativa dividida em {len(sentences)} frases.")

# Initialize co-occurrence dictionary
# Using defaultdict to automatically handle new keys with a default value of 0
co_occurrence_counts = defaultdict(int)

# Prepare character names for case-insensitive search
# Convert unique_found_characters to a set of lowercase names for efficient lookup
# and store original names to map back if needed, but for co-occurrence, lowercase is fine
lower_unique_found_characters = [char.lower() for char in unique_found_characters]

print("Iniciando a detecção de co-ocorrências de personagens por frase...")

# Step 4-7: Iterate over each tokenized sentence
for sentence in sentences:
    present_characters = []
    for character_name_orig in unique_found_characters: # Use original names for display later
        # Check for the presence of the character name in the lowercase sentence
        # Using word boundaries to avoid matching parts of other words (e.g., 'josie' in 'josiel')
        if re.search(r'\b' + re.escape(character_name_orig.lower()) + r'\b', sentence):
            present_characters.append(character_name_orig)

    # If more than one character is found in the sentence, increment co-occurrence counts
    if len(present_characters) > 1:
        # Generate all unique pairs of characters found in this sentence
        for i in range(len(present_characters)):
            for j in range(i + 1, len(present_characters)):
                char1 = present_characters[i]
                char2 = present_characters[j]
                # Ensure the pair is stored in alphabetical order to avoid duplicates (e.g., ('A', 'B') vs ('B', 'A'))
                pair = tuple(sorted((char1, char2)))
                co_occurrence_counts[pair] += 1

print("Detecção de co-ocorrências concluída.")

# Step 8: Display the 10 greatest co-occurrence counts
print("\nAs 10 maiores contagens de co-ocorrência:")
sorted_co_occurrences = sorted(co_occurrence_counts.items(), key=lambda item: item[1], reverse=True)
for pair, count in sorted_co_occurrences[:10]:
    print(f"Par: {pair[0]} e {pair[1]} - Co-ocorrências: {count}")

**Reasoning**:
The previous code failed because `nltk.downloader.DownloadError` is not the correct exception type to catch for a missing resource. The `LookupError` is raised when the resource is not found. The fix is to directly call `nltk.download('punkt', quiet=True)` if a `LookupError` occurs, as suggested by the traceback.



In [None]:
import nltk
from nltk.tokenize import sent_tokenize
from collections import defaultdict
import re

print("Baixando o tokenizador 'punkt' do NLTK (se necessário)...")
try:
    nltk.data.find('tokenizers/punkt')
except LookupError:
    nltk.download('punkt', quiet=True)
print("Tokenizador 'punkt' do NLTK pronto.")

print("Tokenizando o texto narrativo em frases...")
# Convert narrative_text to lowercase for case-insensitive processing
lower_narrative_text = narrative_text.lower()
sentences = sent_tokenize(lower_narrative_text, language='portuguese')

print(f"Narrativa dividida em {len(sentences)} frases.")

# Initialize co-occurrence dictionary
# Using defaultdict to automatically handle new keys with a default value of 0
co_occurrence_counts = defaultdict(int)

# Prepare character names for case-insensitive search
# Convert unique_found_characters to a set of lowercase names for efficient lookup
# and store original names to map back if needed, but for co-occurrence, lowercase is fine
lower_unique_found_characters = [char.lower() for char in unique_found_characters]

print("Iniciando a detecção de co-ocorrências de personagens por frase...")

# Step 4-7: Iterate over each tokenized sentence
for sentence in sentences:
    present_characters = []
    for character_name_orig in unique_found_characters: # Use original names for display later
        # Check for the presence of the character name in the lowercase sentence
        # Using word boundaries to avoid matching parts of other words (e.g., 'josie' in 'josiel')
        if re.search(r'\b' + re.escape(character_name_orig.lower()) + r'\b', sentence):
            present_characters.append(character_name_orig)

    # If more than one character is found in the sentence, increment co-occurrence counts
    if len(present_characters) > 1:
        # Generate all unique pairs of characters found in this sentence
        for i in range(len(present_characters)):
            for j in range(i + 1, len(present_characters)):
                char1 = present_characters[i]
                char2 = present_characters[j]
                # Ensure the pair is stored in alphabetical order to avoid duplicates (e.g., ('A', 'B') vs ('B', 'A'))
                pair = tuple(sorted((char1, char2)))
                co_occurrence_counts[pair] += 1

print("Detecção de co-ocorrências concluída.")

# Step 8: Display the 10 greatest co-occurrence counts
print("\nAs 10 maiores contagens de co-ocorrência:")
sorted_co_occurrences = sorted(co_occurrence_counts.items(), key=lambda item: item[1], reverse=True)
for pair, count in sorted_co_occurrences[:10]:
    print(f"Par: {pair[0]} e {pair[1]} - Co-ocorrências: {count}")

**Reasoning**:
The previous code failed to find the 'punkt_tab' resource required for Portuguese sentence tokenization, leading to a `LookupError`. I will modify the NLTK download logic to explicitly download 'punkt' and 'punkt_tab' if a `LookupError` occurs, ensuring all necessary resources for Portuguese are available.



In [None]:
import nltk
from nltk.tokenize import sent_tokenize
from collections import defaultdict
import re

print("Baixando o tokenizador 'punkt' do NLTK (se necessário)...")
try:
    nltk.data.find('tokenizers/punkt')
except LookupError:
    nltk.download('punkt', quiet=True)
print("Tokenizador 'punkt' do NLTK pronto.")

print("Baixando o tokenizador 'punkt_tab' do NLTK para português (se necessário)...")
try:
    nltk.data.find('tokenizers/punkt_tab/portuguese') # Check for the Portuguese-specific resource
except LookupError:
    nltk.download('punkt_tab', quiet=True)
print("Tokenizador 'punkt_tab' do NLTK pronto para português.")

print("Tokenizando o texto narrativo em frases...")
# Convert narrative_text to lowercase for case-insensitive processing
lower_narrative_text = narrative_text.lower()
sentences = sent_tokenize(lower_narrative_text, language='portuguese')

print(f"Narrativa dividida em {len(sentences)} frases.")

# Initialize co-occurrence dictionary
# Using defaultdict to automatically handle new keys with a default value of 0
co_occurrence_counts = defaultdict(int)

# Prepare character names for case-insensitive search
# Convert unique_found_characters to a set of lowercase names for efficient lookup
# and store original names to map back if needed, but for co-occurrence, lowercase is fine
lower_unique_found_characters = [char.lower() for char in unique_found_characters]

print("Iniciando a detecção de co-ocorrências de personagens por frase...")

# Step 4-7: Iterate over each tokenized sentence
for sentence in sentences:
    present_characters = []
    for character_name_orig in unique_found_characters: # Use original names for display later
        # Check for the presence of the character name in the lowercase sentence
        # Using word boundaries to avoid matching parts of other words (e.g., 'josie' in 'josiel')
        if re.search(r'\b' + re.escape(character_name_orig.lower()) + r'\b', sentence):
            present_characters.append(character_name_orig)

    # If more than one character is found in the sentence, increment co-occurrence counts
    if len(present_characters) > 1:
        # Generate all unique pairs of characters found in this sentence
        for i in range(len(present_characters)):
            for j in range(i + 1, len(present_characters)):
                char1 = present_characters[i]
                char2 = present_characters[j]
                # Ensure the pair is stored in alphabetical order to avoid duplicates (e.g., ('A', 'B') vs ('B', 'A'))
                pair = tuple(sorted((char1, char2)))
                co_occurrence_counts[pair] += 1

print("Detecção de co-ocorrências concluída.")

# Step 8: Display the 10 greatest co-occurrence counts
print("\nAs 10 maiores contagens de co-ocorrência:")
sorted_co_occurrences = sorted(co_occurrence_counts.items(), key=lambda item: item[1], reverse=True)
for pair, count in sorted_co_occurrences[:10]:
    print(f"Par: {pair[0]} e {pair[1]} - Co-ocorrências: {count}")

## Construir o Grafo de Co-ocorrência

### Subtask:
Utilizar a biblioteca `networkx` para criar um grafo onde cada nó representa um personagem e cada aresta entre dois nós indica que esses dois personagens co-ocorreram no texto. O peso da aresta pode ser a frequência com que co-ocorreram.


**Reasoning**:
To build the co-occurrence graph, I need to import `networkx`, create a graph, add the characters as nodes, and then add edges between co-occurring characters with their respective counts as weights, as specified in the instructions.



In [None]:
import networkx as nx

print("Criando o grafo de co-ocorrência...")

# 1. Crie um grafo vazio usando nx.Graph()
G = nx.Graph()

# 2. Adicione os personagens identificados como nós ao grafo G
# unique_found_characters é a lista de personagens encontrados no narrative_text
for character in unique_found_characters:
    G.add_node(character)

# 3. Itere sobre o dicionário co_occurrence_counts
# 4. Para cada par de personagens e sua contagem de co-ocorrência, adicione uma aresta entre os dois personagens no grafo G.
#    Defina o atributo `weight` da aresta com o valor da contagem de co-ocorrência.
for pair, count in co_occurrence_counts.items():
    char1, char2 = pair
    G.add_edge(char1, char2, weight=count)

# 5. Exiba o número de nós e arestas no grafo para verificar a sua criação.
print(f"Grafo criado com {G.number_of_nodes()} nós e {G.number_of_edges()} arestas.")

print("Nós do grafo (personagens):", G.nodes())
print("Arestas do grafo (co-ocorrências) com seus pesos (Top 10):")
# Sorting edges by weight to show the most significant co-occurrences
sorted_edges = sorted(G.edges(data=True), key=lambda x: x[2]['weight'], reverse=True)
for edge in sorted_edges[:10]:
    print(f"  {edge[0]} -- {edge[1]} (Peso: {edge[2]['weight']})")

## Visualizar o Grafo da Rede

### Subtask:
Gerar uma visualização interativa do grafo de co-ocorrência de personagens usando a biblioteca `pyvis`.


**Reasoning**:
To visualize the co-occurrence graph interactively, I will first install the `pyvis` library, then create a `Network` instance, add nodes and edges from the existing `networkx` graph `G` with appropriate attributes, and finally save the visualization to an HTML file.



In [None]:
print("Instalando a biblioteca pyvis...")
!pip install pyvis
print("Biblioteca pyvis instalada. Gerando visualização interativa do grafo...")

from pyvis.network import Network

# 1. Crie uma instância da classe Network
# notebook=True é crucial para exibir corretamente no Google Colab
# cdn_resources='remote' garante que os recursos JS/CSS são carregados da CDN
net = Network(notebook=True, height='750px', width='100%', cdn_resources='remote')

# 2. Itere sobre os nós do grafo G e adicione-os à rede pyvis
for node in G.nodes():
    # Usando o nome do personagem como id e label
    net.add_node(node, label=node, title=node) # title adiciona tooltip ao passar o mouse

# 3. Itere sobre as arestas do grafo G e adicione-as à rede pyvis
for source, target, data in G.edges(data=True):
    weight = data['weight']
    net.add_edge(source, target, value=weight, title=f"Co-ocorrências: {weight}")

# 4. Adicione opções de física para melhor visualização (opcional, mas recomendado)
# net.toggle_physics(True) # A física é ativada por padrão com `notebook=True` para auto-layout

# Você pode ajustar as opções de física para otimizar a visualização, por exemplo:
net.set_options("""
var options = {
  "physics": {
    "enabled": true,
    "barnesHut": {
      "gravitationalConstant": -2000,
      "centralGravity": 0.3,
      "springLength": 95,
      "springConstant": 0.04,
      "damping": 0.09,
      "avoidOverlap": 0
    },
    "maxVelocity": 50,
    "minVelocity": 0.1,
    "solver": "barnesHut",
    "stabilization": {
      "enabled": true,
      "iterations": 1000,
      "updateInterval": 25,
      "fit": true
    },
    "timestep": 0.5
  }
}
""")

# 5. Salve o gráfico interativo em um arquivo HTML
html_file_path = 'klara_co_occurrence_graph.html'
net.show(html_file_path)

print(f"Visualização interativa do grafo salva em '{html_file_path}'.")
print("Você pode abrir este arquivo HTML em seu navegador para explorar o grafo.")

## Interpretar a Análise da Rede

### Subtask:
Analisar a estrutura do grafo gerado, identificando os personagens mais centrais (com mais conexões), os grupos de personagens que interagem frequentemente e o que essas relações podem revelar sobre a dinâmica da história e a jornada de Klara.


## Summary:

### Data Analysis Key Findings

*   **Character Extraction and Narrative Segmentation**: The main narrative text was successfully extracted, spanning from "Parte um" to the beginning of promotional materials. From this narrative, six key characters were identified: Klara, Josie, Rick, Mãe, Pai, and Sr. Capaldi.
*   **Character Co-occurrence Detection**: The narrative was tokenized into 5740 sentences. Analysis of these sentences revealed significant co-occurrence patterns between characters. The most frequent co-occurring pairs were "Josie" and "Mãe" (143 times), followed by "Josie" and "Rick" (122 times).
*   **Co-occurrence Graph Construction**: A graph was successfully constructed with 6 nodes (representing the identified characters) and 15 edges (representing co-occurrences). The edges are weighted by their co-occurrence frequency, with "Mãe -- Josie" having the strongest connection (weight: 143).
*   **Interactive Graph Visualization**: An interactive visualization of the character co-occurrence graph was generated using `pyvis` and saved as an HTML file. This visualization allows for an intuitive exploration of the relationships between characters based on their interactions within the narrative.

### Insights or Next Steps

*   **Relationship Centrality**: The high co-occurrence counts for "Josie" with "Mãe" and "Rick" suggest that Josie is a central figure in the narrative, around whom many interactions revolve. This aligns with Klara's role as an Artificial Friend observing Josie. Further analysis of Klara's direct co-occurrences would be valuable.
*   **Deepen Network Analysis**: To understand the dynamics of the story and Klara's journey more fully, compute centrality measures (e.g., degree centrality, betweenness centrality) for each character in the graph. This will quantify their importance and influence within the network of interactions.
