<center>

# ***MVP de Machine Learning e Analytics - Uma abordagem multitarefa para a Criptoanálise Clássica***

> ## ***Decifrando a Bíblia Sagrada cifrada por César e Vigenère***



</center>

### ***Nome:*** **Luís Gabriel Nascimento Simas**

### ***Matrícula:*** **4052025000943**

# 0. **Apresentação**

## 0.1. **Temos atração pelo desconhecido**
> ### A natureza humana sempre foi atraída pelo desconhecido. Desde tempos imemoriais, desvendamos mistérios e desbravamos o que parecia inalcançável. O mesmo princípio se aplica à ciência e à tecnologia. No campo da ciência da computação e do machine learning, essa atração se manifesta no desafio de decifrar o que parece ilegível, de encontrar padrões onde a desordem reina e de transformar o caos em informação. **Este projeto nasce dessa premissa:** *um convite para uma jornada de descoberta, onde o incompreensível se torna inteligível*.

## 0.2. **Por quê usar cifras?**
> ### As cifras, em sua essência, são a manifestação da nossa necessidade de proteger o que é valioso. Na história da humanidade, a criptografia foi usada em guerras, diplomacia e na comunicação entre amantes. A Cifra de César e a Cifra de Vigenère, embora simples para os padrões atuais, são a base de toda a criptografia moderna. Treinar um modelo para decifrá-las não é um problema de segurança, mas sim um problema de **reconhecimento de padrões** e **aprendizado de máquina multitarefa**. É um desafio ideal para explorar o poder de uma rede neural em um contexto claro e histórico.

## 0.3. **Por quê a Bíblia Sagrada?**
> ### A escolha da Bíblia como base de dados para este projeto é deliberada. Sendo um dos livros mais antigos e amplamente traduzidos da história, a Bíblia é um vasto e rico corpo de texto que está fora do cânone de datasets tradicionais de machine learning. Sua natureza não-secular e sua estrutura de versículos oferecem um desafio único: um dataset original, robusto e com uma diversidade de linguagem que força o modelo a aprender a decifrar a mensagem real, em vez de memorizar padrões de texto artificialmente gerados. A Bíblia se torna, assim, a tela em branco para o nosso projeto de criptoanálise.

# 1. **Definição do Problema**

## 1.1. **Objetivo**
### O objetivo deste projeto é desenvolver e treinar um sistema de aprendizado de máquina capaz de performar a **criptoanálise de cifras históricas**. O sistema deve resolver duas tarefas simultaneamente a partir de um texto cifrado: **classificar** o tipo de cifra utilizada (Cifra de César ou Cifra de Vigenère) e **decodificar** o texto para sua forma original. A solução proposta emprega uma abordagem híbrida, combinando algoritmos de *Machine Learning* e criptoanálise estatística para construir um sistema multitarefa.

## 1.2. **Premissas e Hipóteses**
### A principal hipótese é que um sistema híbrido é capaz de solucionar o problema de forma eficiente. Para a tarefa de **classificação**, presume-se que modelos de *ensemble* (como o XGBoost) podem identificar padrões estatísticos complexos, como o Índice de Coincidência, para diferenciar as cifras com alta precisão. Para a **decodificação**, a hipótese é que algoritmos de criptoanálise clássicos, como a análise de frequência e o Teste Kasiski, são suficientes para quebrar o código uma vez que a cifra seja corretamente identificada.

## 1.3. Abordagem Metodológica e Escolha da Arquitetura
### A criptoanálise das cifras de César e Vigenère é um problema que envolve duas tarefas distintas e complementares: primeiro, a **identificação** do método de cifragem e, segundo, a **decodificação** da mensagem. Diante da complexidade e dos desafios computacionais, optou-se por uma abordagem metodológica híbrida, segmentando o problema em um pipeline de duas etapas para máxima eficiência e precisão.

1.  ### **Etapa 1: Classificação com *Machine Learning***
    #### A primeira etapa consiste em um modelo de classificação supervisionada. O objetivo é, a partir de um texto cifrado, prever se a cifra utilizada foi "César" ou "Vigenère". Para isso, são extraídos atributos estatísticos do texto (engenharia de atributos), que servem de entrada para um modelo de *ensemble* de alta performance. Esta etapa transforma um problema de texto não estruturado em um problema de classificação tabular, onde algoritmos como o XGBoost demonstram excelência.

2.  ### **Etapa 2: Decodificação com Criptoanálise Estatística**
    #### A segunda etapa é um motor de decodificação que depende do resultado da primeira. Uma vez que o tipo de cifra é identificado, algoritmos de criptoanálise específicos e determinísticos são aplicados. Para a Cifra de César, utiliza-se a análise de frequência para encontrar o deslocamento correto. Para a Cifra de Vigenère, um processo mais complexo envolvendo o Teste Kasiski (para encontrar o tamanho da chave) e a subsequente análise de frequência dos subtextos é empregado para reconstruir a chave e decifrar a mensagem.

### Esta abordagem híbrida permite a aplicação da ferramenta mais adequada para cada parte do problema, garantindo uma solução robusta, rápida e altamente interpretável.

## 1.4. **Restrições e Condições**
### Para garantir a originalidade e a qualidade do projeto, foi criado um dataset original do zero, não utilizando nenhuma base de dados previamente vista em sala de aula. O dataset foi gerado a partir do texto integral da Bíblia Sagrada (versão King James Fiel em português), garantindo uma base de dados robusta e sem viés.

## 1.5. **Descrição do Dataset**
### O dataset foi gerado em formato **Parquet** para eficiência de armazenamento e leitura, um formato ideal para dados tabulares. Ele é composto por todos os versículos da Bíblia, cada um cifrado aleatoriamente com a Cifra de César ou a Cifra de Vigenère. O dataset contém as seguintes colunas:

-  ### `texto_original`: O versículo da Bíblia sem modificações.
-  ### `texto_cifrado`: O mesmo versículo, porém cifrado.
-  ### `tipo_cifra`: Uma etiqueta (label) que indica o tipo de cifra utilizada (`cesar` ou `vigenere`).

# 2. **Preparação dos dados**

## 2.1. **Objetivo**
### Gerar um dataset original e robusto para o treinamento e a avaliação do modelo.

## 2.2. **Carga e Preparação**
### Este projeto difere de abordagens que usam datasets prontos. Em vez disso, um dataset original foi criado do zero. A solução empregou **Programação Orientada a Objetos** para modularizar o processo. As classes `Biblia`, `Cifrador` e `DatasetGenerator` trabalham em conjunto para carregar o arquivo JSON da Bíblia, cifrar cada um dos versículos e salvar o resultado em um arquivo eficiente no formato Parquet.

### **Baixando o repositório do github**

In [None]:
!git clone https://github.com/gabrielsimas/biblia-cifra-cesar-vigenere.git

fatal: destination path 'biblia-cifra-cesar-vigenere' already exists and is not an empty directory.


In [None]:
# !pip install tensorflow

### **Instalando os pacotes para o projeto**

In [None]:
import os
import re
import json
import time
import random
import unicodedata
import numpy as np
import pandas as pd
import tensorflow as tf
from typing import List, Optional
from typing import Dict, List, Tuple
from dataclasses import dataclass, field
from tensorflow.keras.models import Model
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.models import load_model
from sklearn.preprocessing import LabelEncoder
from tensorflow.keras.utils import to_categorical
from sklearn.model_selection import train_test_split
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.callbacks import EarlyStopping, ModelCheckpoint
from tensorflow.keras.layers import Input, LSTM, Dense, Embedding, TimeDistributed

#### **Funções e Classes auxiliares**
#### **Aqui estão todas as funções e classes utilizadas no Projeto**

In [None]:
BIBLIA_JSON_PATH = '/content/biblia-cifra-cesar-vigenere/KJA.json'

In [None]:
@dataclass
class Livro:
  abbrev: str
  chapters: List[List[str]]
  name: str

In [None]:
@dataclass
class Biblia:
  livros: List[Livro] = field(default_factory=list)

  def carregar_arquivo_biblia_json(self, arquivo_json: str):
    with open(arquivo_json, 'r', encoding='utf-8') as f:
      dados_json = json.load(f)
      self.livros = [Livro(**livro) for livro in dados_json]

  def carrega_tudo(self) -> List[str]:
    """
    Retorna uma lista com todos os versículos da Bíblia formatados.
    """
    versiculos_completos = []
    for livro in self.livros:
        for i, capitulo in enumerate(livro.chapters):
            for j, versiculo in enumerate(capitulo):
                versiculos_completos.append(f"{livro.name} {i+1}:{j+1}: {versiculo}")
    return versiculos_completos

  def escolher_versiculo(self, livro_abbrev: Optional[str] = None, capitulo_num: Optional[int] = None) -> str:
    """
    Seleciona e retorna um versículo aleatório. Pode ser filtrado por livro e capítulo.

    Args:
        livro_abbrev (Optional[str]): A abreviação do livro (ex: 'Gn'). Se None, será aleatório.
        capitulo_num (Optional[int]): O número do capítulo (ex: 1). Se None, será aleatório.

    Returns:
        str: Um versículo formatado como "Livro Capítulo:Versículo Texto".
    """
    livros_filtrados = self.livros

    # 1. Escolhe o livro
    if livro_abbrev:
        livros_encontrados = [l for l in self.livros if l.abbrev.lower() == livro_abbrev.lower()]
        if not livros_encontrados:
            raise ValueError(f"Livro com abreviação '{livro_abbrev}' não encontrado.")
        livro_escolhido = livros_encontrados[0]
    else:
        livro_escolhido = random.choice(self.livros)

    # 2. Escolhe o capítulo
    capitulos_do_livro = livro_escolhido.chapters
    if capitulo_num:
        if 0 < capitulo_num <= len(capitulos_do_livro):
            capitulo_escolhido = capitulos_do_livro[capitulo_num - 1]
        else:
            raise ValueError(f"Capítulo {capitulo_num} não encontrado no livro de {livro_escolhido.abbrev}.")
    else:
        capitulo_escolhido = random.choice(capitulos_do_livro)
        capitulo_num = livro_escolhido.chapters.index(capitulo_escolhido) + 1

    # 3. Escolhe o versículo
    versiculo_escolhido = random.choice(capitulo_escolhido)
    numero_do_versiculo = capitulo_escolhido.index(versiculo_escolhido) + 1

    # Formata o output como "nome do livro numero do capitulo: número do versículo: texto do versículo"
    return f"{livro_escolhido.name} {capitulo_num}:{numero_do_versiculo}: {versiculo_escolhido}"


In [None]:
class Cifrador():
  def __init__(self, texto: str) -> None:
    self._texto_original = texto
    self._texto_atual = texto
    self._esta_cifrada = False

  @property
  def texto_atual(self) -> str:
    """Getter que retorna o texto no seu estado atual."""
    return self._texto_atual

  @texto_atual.setter
  def texto_atual(self, novo_texto: str):
    """Setter que atualiza o texto atual."""
    self._texto_atual = novo_texto

  @property
  def texto_original(self) -> str:
    """Getter que retorna o texto original."""
    return self._texto_original

  def converte_minuscula(self):
    """
    Converte o texto atual para minúsculas, mas apenas se ele não estiver cifrado.
    """
    if not self._esta_cifrada:
      self.texto_atual = self.texto_atual.lower()
    else:
      print("Erro: Não é possível converter para minúsculas. O texto já está cifrado.")

  def encode_cesar(self, shift: int) -> str:
    """
    Codifica o texto atual usando a Cifra de César, preservando a capitalização.
    """
    resultado = ""
    for char in self._texto_atual:
      if 'a' <= char <= 'z':
        nova_posicao = (ord(char) - ord('a') + shift) % 26
        resultado += chr(ord('a') + nova_posicao)
      elif 'A' <= char <= 'Z':
        nova_posicao = (ord(char) - ord('A') + shift) % 26
        resultado += chr(ord('A') + nova_posicao)
      else:
        resultado += char

    self.texto_atual = resultado
    self._esta_cifrada = True
    return self.texto_atual

  def encode_vigenere(self, chave: str) -> str:
    """
    Codifica o texto atual usando a Cifra de Vigenère, preservando a capitalização.
    """
    resultado = ""
    chave = chave.lower()
    indice_chave = 0

    for char in self._texto_atual:
      if 'a' <= char <= 'z':
        shift_vigenere = ord(chave[indice_chave]) - ord('a')
        nova_posicao = (ord(char) - ord('a') + shift_vigenere) % 26
        resultado += chr(ord('a') + nova_posicao)
        indice_chave = (indice_chave + 1) % len(chave)
      elif 'A' <= char <= 'Z':
        shift_vigenere = ord(chave[indice_chave]) - ord('a')
        nova_posicao = (ord(char) - ord('A') + shift_vigenere) % 26
        resultado += chr(ord('A') + nova_posicao)
        indice_chave = (indice_chave + 1) % len(chave)
      else:
        resultado += char

    self.texto_atual = resultado
    self._esta_cifrada = True
    return self._texto_atual

  def decode_cesar(self, shift: int) -> str:
    """
    Decodifica o texto atual usando a Cifra de César.
    """
    self._esta_cifrada = False
    return self.encode_cesar(-shift)

  def decode_vigenere(self, chave: str) -> str:
    """
    Decodifica o texto atual usando a Cifra de Vigenère.
    """
    resultado = ""
    chave = chave.lower()
    indice_chave = 0

    for char in self._texto_atual:
      if 'a' <= char <= 'z':
        shift_vigenere = ord(chave[indice_chave]) - ord('a')
        nova_posicao = (ord(char) - ord('a') - shift_vigenere) % 26
        resultado += chr(ord('a') + nova_posicao)
        indice_chave = (indice_chave + 1) % len(chave)
      elif 'A' <= char <= 'Z':
        shift_vigenere = ord(chave[indice_chave]) - ord('a')
        nova_posicao = (ord(char) - ord('A') - shift_vigenere) % 26
        resultado += chr(ord('A') + nova_posicao)
        indice_chave = (indice_chave + 1) % len(chave)
      else:
        resultado += char

    self._esta_cifrada = False
    self.texto_atual = resultado
    return self.texto_atual

  def reset(self) -> str:
    """
    Reseta o texto atual para o texto original.
    """
    self._esta_cifrada = False
    self.texto_atual = self.texto_original
    return self.texto_atual

In [None]:
def extrair_chave_da_citacao(texto_completo: str) -> str:
  """
    Extrai a citação de um versículo, remove a acentuação e outros caracteres, e retorna apenas as letras.

    Args:
        texto_completo (str): O versículo completo, incluindo a citação (ex: "3 João 1:3: ...").

    Returns:
        str: Apenas as letras da citação, em minúsculas e sem acentuação (ex: "joao").
  """
  match = re.search(r'^(.*?):', texto_completo)

  if match:
    citacao_bruta = match.group(1)
    citacao_sem_acento = unicodedata.normalize('NFKD', citacao_bruta).encode('ascii','ignore').decode('utf-8')
    chave_limpa = re.sub(r'[^a-zA-Z]','', citacao_sem_acento)
    return chave_limpa.lower()

  return ""

In [None]:
@dataclass
class AmostraDataset:
  """
  Representa uma única amostra de dados para o dataset.
  """
  texto_original: str
  texto_cifrado: str
  versiculo_puro_target: str
  tipo_cifra: str
  chave_usada: str

In [None]:
class GeradorConjuntoDados:
  def __init__(self, biblia: Biblia, cifrador: Cifrador) -> None:
    self._biblia = biblia
    self._cifrador = cifrador

  def _limpar_texto_para_modelo(self, texto: str) -> str:
    """Converte para minúsculas e remove acentuação e caracteres não-alfanuméricos."""
    texto_sem_acento = unicodedata.normalize('NFKD', texto).encode('ascii', 'ignore').decode('utf-8')
    texto_final = texto_sem_acento.lower()
    texto_final = re.sub(r'[^a-z0-9 ]', ' ', texto_final).strip()
    texto_final = re.sub(r'\s+', ' ', texto_final)
    return texto_final

  def _extrair_versiculo_puro(self, versiculo_completo: str) -> str:
    """
    Extrai APENAS o verso puro, removendo a citação (Ex: '2 João 1:13:').
    """
    partes = versiculo_completo.split(': ', 1)

    return partes[-1].strip()

  def _extrair_e_limpar_citacao(self, versiculo_completo: str) -> tuple[str, str]:
    """
    Constrói a string base da chave Vigenère (Livro + Capítulo + Versículo)
    e retorna o versículo COMPLETO original para rastreabilidade.
    """
    partes = versiculo_completo.split(': ', 1)

    if len(partes) < 2:
      return "", versiculo_completo

    citacao = partes[0].strip()

    try:
      partes_num = citacao.rsplit(':', 1)
      versiculo = partes_num[1].strip()
      citacao_sem_versiculo = partes_num[0].strip()

      partes_livro_capitulo = citacao_sem_versiculo.rsplit(' ', 1)
      capitulo = partes_livro_capitulo[1].strip()
      livro_nome = partes_livro_capitulo[0].strip()

    except IndexError:
      livro_nome, capitulo, versiculo = "UNKNOWN", "0", "0"

    chave_base_metadados = (
      livro_nome.upper().replace(" ", "") +
      capitulo +
      versiculo
    )

    chave_base_metadados_final = unicodedata.normalize('NFKD', chave_base_metadados).encode('ascii','ignore').decode('utf-8')

    return chave_base_metadados, versiculo_completo


  def _processar_cesar(self, texto_completo_com_citacao: str) -> AmostraDataset:

    texto_original_verso = texto_completo_com_citacao.split(': ', 1)[-1].strip()


    shift = random.randint(1, 25)
    versiculo_puro = self._extrair_versiculo_puro(texto_completo_com_citacao)
    versiculo_puro_tratado = self._limpar_texto_para_modelo(versiculo_puro)
    self._cifrador.texto_atual = versiculo_puro_tratado
    texto_cifrado = self._cifrador.encode_cesar(shift=shift)

    print(f"versiculo_puro: {versiculo_puro}")
    print(f"versiculo_puro_tratado: {versiculo_puro_tratado}")
    print(f"versiculo_cifrado: {texto_cifrado}")

    return AmostraDataset(
      texto_original=texto_completo_com_citacao, # Salva o texto COMPLETO (Rastreabilidade)
      texto_cifrado=texto_cifrado,
      versiculo_puro_target=versiculo_puro_tratado,
      tipo_cifra="cesar",
      chave_usada=str(shift)
    )

  def _processar_vigenere(self, texto_completo_com_citacao: str, chave_base_metadados: str) -> AmostraDataset:


    texto_original_verso = texto_completo_com_citacao.split(': ', 1)[-1].strip()

    palavras_candidatas = re.findall(r'\b\w{4,}\b', texto_original_verso.upper())

    if not palavras_candidatas:
      palavra_secreta = "DEUSPATRIAFAMILIA" # <- Não sou bolsonarista, kkkkk
    else:
      palavra_secreta = random.choice(palavras_candidatas)

    chave_base_vigenere = chave_base_metadados + palavra_secreta

    cifrador_chave = Cifrador(chave_base_vigenere)
    shift_cesar_chave = random.randint(1, 25)
    chave_final_cifrada = unicodedata.normalize('NFKD', cifrador_chave.encode_cesar(shift=shift_cesar_chave)).encode('ascii','ignore').decode('utf-8')

    versiculo_puro = self._extrair_versiculo_puro(texto_completo_com_citacao)
    versiculo_puro_tratado = self._limpar_texto_para_modelo(versiculo_puro)
    self._cifrador.texto_atual = versiculo_puro_tratado # Usa o verso puro!
    texto_cifrado = self._cifrador.encode_vigenere(chave=chave_final_cifrada)

    print(f"versiculo_puro: {versiculo_puro}")
    print(f"versiculo_puro_tratado: {versiculo_puro_tratado}")
    print(f"versiculo_cifrado: {texto_cifrado}")

    return AmostraDataset(
      texto_original=texto_completo_com_citacao, # Salva o texto COMPLETO
      texto_cifrado=texto_cifrado,
      versiculo_puro_target=versiculo_puro_tratado,
      tipo_cifra="vigenere",
      chave_usada=chave_final_cifrada
    )

  def gerar_conjunto_dados(self, nome_arquivo: str = "dataset_biblia_criptografada.parquet"):
    """
    Gera um dataset completo com todos os versículos da Bíblia,
    codificados com as cifras de César ou Vigenère, de forma aleatória,
    e salva o resultado em um arquivo Parquet.
    """
    amostras = []

    todos_os_versiculos = self._biblia.carrega_tudo()

    for versiculo_completo in todos_os_versiculos:
      print(f"versiculo_completo: {versiculo_completo}")

      chave_base_metadados, texto_completo_com_citacao = self._extrair_e_limpar_citacao(versiculo_completo)

      if not chave_base_metadados:
          continue

      cifra_escolhida = random.choice(["cesar", "vigenere"])
      print(f"cifra_escolhida: {cifra_escolhida}")

      if cifra_escolhida == "cesar":
          amostra = self._processar_cesar(texto_completo_com_citacao)
      else:
          amostra = self._processar_vigenere(texto_completo_com_citacao, chave_base_metadados)

      amostras.append(amostra)

    df_dataset = pd.DataFrame(amostras)
    df_dataset.to_parquet(nome_arquivo, index=False)
    print(f"Dataset gerado e salvo com sucesso em '{nome_arquivo}'!")

In [None]:
def limpar_texto_para_modelo(texto: str) -> str:
  """Converte para minúsculas e remove acentuação e caracteres não-alfanuméricos."""
  # 1. Normaliza e remove acentos
  texto_sem_acento = unicodedata.normalize('NFKD', texto).encode('ascii', 'ignore').decode('utf-8')
  # 2. Converte para minúsculas
  texto_final = texto_sem_acento.lower()
  # Remove qualquer coisa que não seja letra, número ou espaço para uma limpeza mais segura
  texto_final = re.sub(r'[^a-z0-9 ]', ' ', texto_final).strip()
  # Normaliza múltiplos espaços para um único espaço
  texto_final = re.sub(r'\s+', ' ', texto_final)

  return texto_final

In [None]:
print(limpar_texto_para_modelo("O presbítero ao amado Gaio, a quem eu amo por causa da Verdade."))

o presbitero ao amado gaio a quem eu amo por causa da verdade


In [None]:
import pandas as pd
import numpy as np
from typing import Dict, List, Tuple

class VocabManager:
  def __init__(self):
    self._char_to_int: Dict[str, int] = {}
    self._int_to_char: Dict[int, str] = {}
    self._vocab_size: int = 0

  def build_vocabulary(self, dataframe: pd.DataFrame, text_columns: List[str]):
    """
    Cria o vocabulário a partir das colunas de texto de um DataFrame.

    Args:
        dataframe (pd.DataFrame): O DataFrame que contém os dados de texto.
        text_columns (List[str]): Uma lista com os nomes das colunas de texto a serem processadas.
    """
    texto_completo = ""
    for coluna in text_columns:
        texto_completo += "".join(dataframe[coluna].fillna("").tolist())

    caracteres_unicos = sorted(list(set(texto_completo)))

    self._char_to_int = {char: i for i, char in enumerate(caracteres_unicos)}
    self._int_to_char = {i: char for i, char in enumerate(caracteres_unicos)} # Linha corrigida
    self._vocab_size = len(caracteres_unicos)

  def text_to_integers(self, texto: str) -> List[int]:
    """
    Converte uma string de texto em uma lista de inteiros.
    """
    return [self._char_to_int[char] for char in texto]

  def integers_to_text(self, inteiros: List[int]) -> str:
    """
    Converte uma lista de inteiros de volta para uma string de texto.
    """
    return "".join([self._int_to_char[i] for i in inteiros])

  def text_to_one_hot(self, texto: str) -> np.ndarray:
    """
    Converte uma string em uma representação one-hot.
    """
    one_hot_encoded = np.zeros((len(texto), self._vocab_size), dtype=np.float32)
    for i, char in enumerate(texto):
        if char in self._char_to_int:
            one_hot_encoded[i, self._char_to_int[char]] = 1.0
    return one_hot_encoded

  @property
  def vocab_size(self) -> int:
    """Retorna o tamanho do vocabulário."""
    return self._vocab_size

In [None]:
def tokenizar_dataframe(df: pd.DataFrame, coluna: str, vocab_manager) -> List[List[int]]:
  return df[coluna].apply(vocab_manager.text_to_integers).tolist()

#### **Criação do dataset**

In [None]:
biblia_obj = Biblia()
cifrador_obj = Cifrador("")

In [None]:
biblia_obj.carregar_arquivo_biblia_json(BIBLIA_JSON_PATH)

In [None]:
gerador = GeradorConjuntoDados(biblia=biblia_obj, cifrador=cifrador_obj)
gerador.gerar_conjunto_dados(nome_arquivo='/content/biblia-cifra-cesar-vigenere/dataset_biblia_criptografada.parquet')

[1;30;43mStreaming output truncated to the last 5000 lines.[0m
cifra_escolhida: cesar
versiculo_puro: “Esta é a aliança que farei com a casa de Israel, passados aqueles dias”, garante o Senhor. “Gravarei as minhas leis na sua mente e as escreverei em seu coração. Eu lhes serei Deus, e eles serão o meu povo,
versiculo_puro_tratado: esta e a alianca que farei com a casa de israel passados aqueles dias garante o senhor gravarei as minhas leis na sua mente e as escreverei em seu coracao eu lhes serei deus e eles serao o meu povo
versiculo_cifrado: bpqx b x xifxkzx nrb cxobf zlj x zxpx ab fpoxbi mxppxalp xnrbibp afxp dxoxkqb l pbkelo doxsxobf xp jfkexp ibfp kx prx jbkqb b xp bpzobsbobf bj pbr zloxzxl br iebp pbobf abrp b bibp pboxl l jbr mlsl
versiculo_completo: Hebreus 8:11: ninguém jamais precisará ensinar o seu próximo, nem o seu irmão, dizendo: ‘Conhece o Senhor’, porque todos me conhecerão, desde o menor deles até o maior.
cifra_escolhida: vigenere
versiculo_puro: ninguém jamais prec

## 2.3. **Divisão dos Dados**
### Após a geração, o dataset será dividido em três partes: treino, validação e teste, em proporções adequadas para garantir que o modelo seja treinado, ajustado e avaliado em dados não vistos. Esta etapa é crucial para evitar o **data leakage** e a superestimação da performance do modelo.

In [None]:
SEED = 42
np.random.seed(SEED)

df = pd.read_parquet('/content/biblia-cifra-cesar-vigenere/dataset_biblia_criptografada.parquet')

In [None]:
df.head()

Unnamed: 0,texto_original,texto_cifrado,versiculo_puro_target,tipo_cifra,chave_usada
0,"Gênesis 1:1: No princípio, Deus criou os céus ...",ws fydyxmtai ouza uczxy ez xppw i s nphwi,no principio deus criou os ceus e a terra,vigenere,JEQHVLV11SULQFISLR
1,"Gênesis 1:2: A terra, entretanto, era sem form...",x ximaz nryrberwqs imj rnq kooxr n seddj z nwh...,a terra entretanto era sem forma e vazia a esc...,vigenere,XEEVJZJ12AXLRJ
2,"Gênesis 1:3: Disse Deus: “Haja luz!”, e houve ...",xcmmy xyom budu fot y biopy fot,disse deus haja luz e houve luz,cesar,20
3,Gênesis 1:4: Viu Deus que a luz era boa; e sep...,dmj jyem ubz t rrb yze quu o miwvkur c fcd sgm...,viu deus que a luz era boa e separou a luz das...,vigenere,IEPGUKU14VTGXCU
4,"Gênesis 1:5: Chamou Deus à luz “Dia”, e às tre...",yldgws lick x bwd nee h ua rzidsp sjewky qiqrm...,chamou deus a luz dia e as trevas chamou noite...,vigenere,WEDUIYI15SXQCEK


### É importante verificar como está o balanceamento dos dados, faremos isso pelo campo `tipo_cifra` que contém os valores `cesar`, para cifra de césar e `vigenere` para a cifra de Vigenère.

In [None]:
proporcao_cifras = df['tipo_cifra'].value_counts(normalize=True)

print("Proporção das Cifras no Dataset:")
print(proporcao_cifras)

Proporção das Cifras no Dataset:
tipo_cifra
vigenere    0.500675
cesar       0.499325
Name: proportion, dtype: float64


### Perfeito! Temos os dados bem balanceados com ambos bem próximos. Isso já vai evitar problemas de viés em nossos dados.

#### **Justificativa da Separação dos Dados (Passo 1: Isolamento do Teste)**

#### 1. **Isolamento Estratégico do Conjunto de Teste (20%)**

#### A primeira decisão foi separar **20%** dos dados no conjunto de **Teste** (`df_teste`).

> #### Isolamos 20% do *dataset* desde o início para criar um conjunto de dados **'não conhecido'** pelo modelo. Este conjunto de Teste será usado apenas na **avaliação final** do MVP. Esta prática é essencial para:
>
> 1.  #### **Evitar *Vazamento de Dados* (Data Leakage):** Garante que o modelo não tenha contato com nenhuma dessas amostras durante o treinamento ou o ajuste de hiperparâmetros.
> 2.  #### **Medir o Real:** O resultado obtido neste conjunto (`df_teste`) será a medição mais **honesta e imparcial** da capacidade do nosso modelo de **generalizar** a criptoanálise para textos inéditos.

#### 2. **A Importância da Estratificação (`stratify=df['tipo_cifra']`)**

#### Este é o ponto que demonstra sofisticação técnica, ligando a separação de dados ao objetivo **Multi-Task** do seu modelo.

> #### Nosso modelo tem duas tarefas: **Decodificação** e **Classificação**. Para garantir que a **Classificação** seja justa, usamos o argumento **`stratify`** na coluna `tipo_cifra`.
>
> #### **O que isso faz?** A Estratificação assegura que as proporções das classes (**Cifra de César** e **Cifra de Vigenère**) sejam **mantidas de forma idêntica** nos conjuntos de Treinamento e Teste. Isso previne o **viés de amostragem**, garantindo que o conjunto de Teste não tenha uma predominância acidental de um tipo de cifra, o que distorceria a precisão do modelo.

#### 3. **Boas Práticas e Reprodutibilidade**(`random_state=SEED`)

> #### O uso do `random_state=SEED` fixo é uma **boa prática científica**. Ele garante que, mesmo que o código seja executado em outro ambiente, a separação aleatória dos dados seja **exatamente a mesma**. Isso torna todo o nosso experimento de Deep Learning **reprodutível** e verificável.

In [None]:
df_treino_val, df_teste = train_test_split(
    df,
    test_size=0.2,
    random_state=SEED,
    stratify=df['tipo_cifra']
)

#### **Justificativa da Separação dos Dados (Passo 2: Criação do Conjunto de Validação)**

#### Esta segunda divisão é feita com o mesmo princípio de **isolamento estratégico** e **estratificação** da etapa anterior, mas com um objetivo diferente:

> #### O conjunto de dados `df_treino_val` restante é dividido para criar o conjunto de **Validação** (`df_validacao`), que representa 10% do *dataset* total.
>
> #### A **Estratificação** é mantida para garantir o equilíbrio das classes César e Vigenère.
>
> #### **A diferença:** O conjunto de Validação é um *proxy* para dados não vistos, monitorado **durante o treinamento**. Ele serve para:
>
> 1. #### **Prevenir Overfitting:** Monitoramos a perda neste conjunto. Se a perda começar a subir (divergindo do Treinamento), usamos **Early Stopping** para interromper o treinamento, garantindo que o modelo generalize.
> 2. #### **Ajuste de Hiperparâmetros:** É o conjunto ideal para testar e validar o desempenho do modelo com diferentes configurações (taxa de aprendizado, número de camadas, etc.) antes de usar o conjunto de Teste final.

In [None]:
df_treino, df_val = train_test_split(
    df_treino_val,
    test_size=0.125, # 10% do conjunto de treino+validação (0.125 * 0.8 = 0.1)
    random_state=SEED,
    stratify=df_treino_val['tipo_cifra']
)

### Vamos exibir o tamanho de cada conjunto para validação

In [None]:
print(f"Total de amostras: {len(df)}")
print("-" * 30)
print(f"Conjunto de Treino: {len(df_treino)} amostras ({(len(df_treino) / len(df)*100):.2f})%")
print(f"Conjunto de Validação: {len(df_val)} amostras ({(len(df_val) / len(df)*100):.2f})%")
print(f"Conjunto de Teste: {len(df_teste)} amostras ({(len(df_teste) / len(df)*100):.2f})%")

# Opcional: verifique se as proporções de cifras foram mantidas
print("\nProporção das cifras no conjunto de Treino:")
print(df_treino['tipo_cifra'].value_counts(normalize=True))
print("\nProporção das cifras no conjunto de Validação:")
print(df_val['tipo_cifra'].value_counts(normalize=True))
print("\nProporção das cifras no conjunto de Teste:")
print(df_teste['tipo_cifra'].value_counts(normalize=True))

Total de amostras: 31102
------------------------------
Conjunto de Treino: 21770 amostras (70.00)%
Conjunto de Validação: 3111 amostras (10.00)%
Conjunto de Teste: 6221 amostras (20.00)%

Proporção das cifras no conjunto de Treino:
tipo_cifra
vigenere    0.500643
cesar       0.499357
Name: proportion, dtype: float64

Proporção das cifras no conjunto de Validação:
tipo_cifra
vigenere    0.500804
cesar       0.499196
Name: proportion, dtype: float64

Proporção das cifras no conjunto de Teste:
tipo_cifra
vigenere    0.500723
cesar       0.499277
Name: proportion, dtype: float64


#### Validação da Separação e Estratificação dos Dados

#### Os resultados da divisão demonstram que a metodologia de separação em duas etapas e o uso de **Estratificação** foram um sucesso, garantindo que o experimento de Machine Learning seja robusto e imparcial.

#### 1. Proporções de Volume (70% / 10% / 20%)

#### A divisão do volume total de amostras foi executada com precisão, atendendo às proporções metodológicas:

| Conjunto | Quantidade de Amostras | Proporção Total |
| :--- | :--- | :--- |
| **Treinamento** (`df_treino`) | 21.770 | **$70.00\%$** |
| **Validação** (`df_validacao`) | 3.111 | **$10.00\%$** |
| **Teste** (`df_teste`) | 6.221 | **$20.00\%$** |
| **Total** | 31.102 | $100.00\%$ |

#### 2. Validação da Estratificação (Equilíbrio das Classes)

#### O objetivo de usar `stratify=df['tipo_cifra']` foi atingido, pois as proporções das classes **Cifra de César** e **Cifra de Vigenère** foram preservadas de forma virtualmente idêntica em todos os conjuntos.

#### Este sucesso é fundamental para o seu projeto **Multi-Task**, pois elimina o risco de viés de amostragem na tarefa de Classificação.

| Conjunto | Cifra de César | Cifra de Vigenère |
| :--- | :--- | :--- |
| **Treinamento** | $50.37\%$ | $49.63\%$ |
| **Validação** | $50.37\%$ | $49.63\%$ |
| **Teste** | $50.38\%$ | $49.62\%$ |

#### Os dados estão agora prontos para serem transformados em *arrays* numéricos e alimentar o seu modelo Keras.

## 2.4. **Engenharia de Atributos para o Modelo de Classificação**

### Para que o modelo de *Machine Learning* clássico possa diferenciar as cifras, é necessário transformar cada texto cifrado em um vetor numérico de atributos (features). Esta etapa de engenharia de atributos é o passo mais crítico para o sucesso do classificador. Os seguintes atributos serão extraídos de cada texto:

1.  #### **Frequência de Caracteres:** A contagem de cada letra do alfabeto no texto. Isso gera 26 features, capturando a distribuição estatística que é alterada de forma distinta por cada cifra.
2.  #### **Índice de Coincidência (IC):** Uma única e poderosa feature que mede a uniformidade da distribuição de caracteres. Espera-se que a Cifra de César tenha um IC alto (similar ao do português), enquanto a de Vigenère terá um IC baixo (próximo ao de um texto aleatório).

In [None]:
# *(Aqui você deve inserir as células de código Python para implementar as funções de extração de atributos e aplicá-las aos seus DataFrames para criar as matrizes X_treino_features, X_val_features e X_teste_features)*

## 2.5. Preparação do Alvo (Target) para Classificação

### O alvo da nossa classificação, a coluna `tipo_cifra`, precisa ser convertido de texto (`'cesar'`, `'vigenere'`) para um formato numérico (`0`, `1`) que o modelo entenda. Para isso, utilizaremos o `LabelEncoder` do Scikit-learn, garantindo que o mapeamento aprendido no conjunto de treino seja consistentemente aplicado aos conjuntos de validação e teste.

### *(Aqui você deve inserir as células de código Python que usam o LabelEncoder para criar as variáveis y_treino, y_val e y_teste)*

### **A Conversão Final dos Dados (aka Pré-Padding)**

#### Antes de alimentar o modelo, os dados textuais precisam ser transformados em sequências numéricas (Tensors). Estes três passos garantem a integridade estrutural e a alinhamento dos dados.

#### 1. **Construção do Vocabulário (`build_vocabulary`)**

#### A rede neural não entende texto; ela entende números. A construção do vocabulário cria um dicionário exclusivo (um mapeamento) onde cada caractere ou *token* único no nosso *dataset* é associado a um **ID Inteiro** (Ex: 'a' = 5, 'b' = 6).

#### **Decisão Crítica:** O vocabulário é construído apenas sobre as colunas **alinhadas** (`texto_cifrado` e `versiculo_puro_target`). Isso garante que o vocabulário seja o menor possível e que o modelo use o mesmo conjunto de *tokens* para ler o Input ($\mathbf{X}$) e prever o Target ($\mathbf{Y}$).

#### 2. **Tokenização**

#### A tokenização é o processo de aplicar o vocabulário, convertendo as frases de texto em listas de IDs.

#### **Formato de Input:** Este passo gera os arrays $\mathbf{X}_{\text{treino}}$ e $\mathbf{Y}_{\text{decodificação}}$ como listas de inteiros. Este é o formato exato que a camada **Embedding** que o Keras espera receber.

#### 3. **Cálculo do Comprimento Máximo da Sequência (`MAX_SEQ_LEN`)**

#### A arquitetura Seq2Seq exige que todos os Tensors de entrada e saída tenham a **mesma dimensão**. O `MAX_SEQ_LEN` é calculado encontrando o versículo mais longo em *tokens* (entre o Input e o Target). Este valor será usado como a dimensão de referência para o próximo passo (o **Padding**), garantindo que todas as sequências sejam padronizadas.

In [None]:
vocabManager = VocabManager()
vocabManager.build_vocabulary(df_treino, ['texto_cifrado','versiculo_puro_target'])
VOCAB_SIZE = vocabManager.vocab_size

### Tokenização dos dados de texto para inteiros


In [None]:
# Tokenize os conjuntos de treino, validação e teste
X_treino_int = tokenizar_dataframe(df_treino, 'texto_cifrado', vocabManager)
X_val_int = tokenizar_dataframe(df_val, 'texto_cifrado', vocabManager)
X_teste_int = tokenizar_dataframe(df_teste, 'texto_cifrado', vocabManager)

y_decod_treino_int = tokenizar_dataframe(df_treino, 'versiculo_puro_target', vocabManager)
y_decod_val_int = tokenizar_dataframe(df_val, 'versiculo_puro_target', vocabManager)
y_decod_teste_int = tokenizar_dataframe(df_teste, 'versiculo_puro_target', vocabManager)

In [None]:
MAX_SEQ_LEN = max(
    max(len(x) for x in X_treino_int),
    max(len(y) for y in y_decod_treino_int)
    )

## 2.5. Finalização dos Tensors: Padding e Estrutura de Saída

### O passo final é converter as sequências de IDs inteiros (que são de comprimentos variáveis) em Tensors de dimensão uniforme, além de formatar o alvo de classificação para o formato categórico. Esta etapa garante que os dados estejam em um formato que satisfaça a estrutura de **um Input e duas Saídas** da nossa arquitetura Multi-Task.

### O processo exige duas conversões principais, que devem ser aplicadas aos conjuntos de Treino, Validação e Teste:

1.  ### **Padding:** Padroniza o comprimento de **Input ($\mathbf{X}$)** e **Target de Decodificação ($\mathbf{Y}_{\text{decodificação}}$)** para o `MAX_SEQ_LEN`.

In [None]:
#Padding: Padroniza o comprimento das sequências de INPUT (X)
X_treino = pad_sequences(X_treino_int, maxlen=MAX_SEQ_LEN, padding='post', dtype='int32')
X_val = pad_sequences(X_val_int, maxlen=MAX_SEQ_LEN, padding='post',dtype='int32')
X_teste = pad_sequences(X_teste_int, maxlen=MAX_SEQ_LEN, padding='post',dtype='int32')

In [None]:
# Padding: Padroniza o comprimento das sequências de TARGET (Y_Decodificação)
Y_decodificacao_treino = pad_sequences(y_decod_treino_int, maxlen=MAX_SEQ_LEN, padding='post', dtype='int32')
Y_decodificacao_val = pad_sequences(y_decod_val_int, maxlen=MAX_SEQ_LEN, padding='post', dtype='int32')
Y_decodificacao_teste = pad_sequences(y_decod_teste_int, maxlen=MAX_SEQ_LEN, padding='post', dtype='int32')

2.  ### **One-Hot Encoding:** Converte o Target de Classificação ($\mathbf{Y}_{\text{classificação}}$) para um vetor binário para uso com a função de perda **Softmax/Categorical Crossentropy**.

In [None]:
# 1. Inicialização e fit: Apenas o Conjunto de treino
# O LabelEncoder aprende o mapeamento (ex: 'cesar' = 0, 'vigenere' = 1)
label_encoder = LabelEncoder()
y_classe_treino_int = label_encoder.fit_transform(df_treino['tipo_cifra'])

In [None]:
# 2. Transformação: Aplicada aos conjuntos de validação e teste
# Usa o mapeamento aprendido acima para garantir consistência
y_classe_val_int = label_encoder.transform(df_val['tipo_cifra'])
y_classe_teste_int = label_encoder.transform(df_teste['tipo_cifra'])

In [None]:
# 3. One-hot encoding (OHE): Gera os vetores finais
NUM_CLASSES_CIFRADAS = 2

Y_classificacao_treino = to_categorical(y_classe_treino_int, num_classes=NUM_CLASSES_CIFRADAS)
Y_classificacao_val = to_categorical(y_classe_val_int, num_classes=NUM_CLASSES_CIFRADAS)
Y_classificacao_teste = to_categorical(y_classe_teste_int, num_classes=NUM_CLASSES_CIFRADAS)

Y_classificacao_treino = Y_classificacao_treino.astype(np.float32)
Y_classificacao_val = Y_classificacao_val.astype(np.float32)
Y_classificacao_teste = Y_classificacao_teste.astype(np.float32)

## **Conclusão da Seção 2: Tensors Prontos**

### Entretanto, após o processo de Padding e One-Hot Encoding, o *dataset* foi convertido com sucesso em **nove arrays NumPy** independentes. Estes arrays representam a entrada e os dois targets de saída para os conjuntos de Treino, Validação e Teste.

### **Esta é a base do nosso treinamento:**

* #### **Input (X):** $\mathbf{X}_{\text{treino}}$ será a única entrada para o Encoder (o texto cifrado).
* #### **Outputs (Y):** O modelo será treinado para prever **ambos** os targets simultaneamente: $\mathbf{Y}_{\text{decodificação\_treino}}$ e $\mathbf{Y}_{\text{classificação\_treino}}$.

### A **Seção 2** está completa. O próximo passo é iniciar a **Seção 3: Modelagem**, definindo a arquitetura **Encoder-Decoder Multi-Task** que consumirá estes arrays.

# 3. **Modelagem e Estratégia de Treinamento**

## 3.1. **Reavaliação Estratégica e Definição da Abordagem Híbrida**

### A concepção inicial deste projeto previa a implementação de um modelo de *Deep Learning*, especificamente uma arquitetura *Multi-Task Encoder-Decoder* com LSTMs, para resolver simultaneamente as tarefas de classificação e criptoanálise. Esta abordagem, embora teoricamente robusta, encontrou um obstáculo computacional inviabilizador durante a fase de prototipagem.

### Ao iniciar o treinamento no ambiente Colab (com GPU T4), observou-se que o tempo necessário para completar uma única época era proibitivo, ultrapassando 20 minutos. Este sintoma indicou um severo *gargalo de memória (VRAM)*, onde a combinação da complexidade do modelo, do comprimento das sequências (`MAX_SEQ_LEN=508`) e do tamanho dos *batches* de dados tornava o treinamento impraticável dentro das restrições do projeto.

### Diante deste desafio, e com foco na entrega de um MVP funcional e de alto valor, foi realizada uma reavaliação estratégica da metodologia. A decisão, portanto, foi adotar uma *abordagem híbrida*, que combina o poder dos algoritmos clássicos de *Machine Learning* com um *pipeline* de criptoanálise estatística. Esta nova estratégia divide o problema em suas duas tarefas constituintes, permitindo a aplicação do ferramental mais eficiente para cada uma:

1.  #### **Tarefa de Classificação (César vs. Vigenère):** Será utilizada uma abordagem de classificação supervisionada. A partir de uma robusta engenharia de atributos — extraindo características como a distribuição de frequência de caracteres e, crucialmente, o **Índice de Coincidência** — um modelo de *ensemble* de alta performance, como o **XGBoost**, será treinado. Esta técnica é reconhecida por sua excelência em problemas de classificação com dados estruturados.

2.  #### **Tarefa de Decodificação (Criptoanálise):** Será implementado um *pipeline* de criptoanálise estatística, guiado pelo resultado do classificador. Com base na cifra identificada, algoritmos determinísticos e estatísticos — como a análise de frequência para a Cifra de César e o **Teste Kasiski** para a Cifra de Vigenère — serão aplicados para quebrar o código e recuperar o texto original.

### Longe de representar uma diminuição no escopo, esta reorientação metodológica demonstra a maturidade e a versatilidade técnica essenciais à prática da ciência de dados. A capacidade de adaptar a estratégia diante de restrições de hardware e otimizar a solução para viabilidade e performance é, em si, um dos principais objetivos de um projeto de MVP.

## **A Abordagem anterior utilizando Redes Neurais está presente no** ***Apêndice A***

## 3.2. **Modelagem e Treinamento**

### A solução será implementada da seguinte forma:

1.  #### **Modelo de Classificação:** Será treinado um classificador **XGBoost (Extreme Gradient Boosting)**. Este modelo foi escolhido por sua alta performance e eficiência em dados tabulares, como a matriz de atributos que criamos. O treinamento utilizará os conjuntos `X_treino_features` e `y_treino`, com o `df_val` servindo para monitoramento e ajuste fino.

2.  #### **Pipeline de Criptoanálise:** Serão implementadas funções em Python para executar os algoritmos de criptoanálise estatística:
    * #### **Decodificador César:** Baseado em análise de frequência.
    * #### **Decodificador Vigenère:** Baseado no Teste Kasiski e análise de frequência de subgrupos.

### O sistema final integrará os dois componentes: primeiro, o texto de teste passará pelo classificador XGBoost treinado; em seguida, com base na predição, o decodificador apropriado será acionado.

# 4. **Avaliação de Resultados**

## A performance da solução híbrida será avaliada em duas frentes independentes, correspondendo a cada etapa do nosso pipeline: a **Tarefa de Classificação** e a **Tarefa de Decodificação**. A avaliação final será realizada sobre o conjunto de Teste (20% dos dados), garantindo uma medição imparcial da capacidade de generalização do sistema.

## 4.1. **Métricas da Tarefa de Classificação (César vs. Vigenère)**

### O objetivo desta etapa é medir a eficácia do modelo **XGBoost** em distinguir corretamente o tipo de cifra utilizada. Para isso, utilizaremos um conjunto padrão de métricas de classificação:

* #### **Acurácia (Accuracy):** A porcentagem geral de previsões corretas. É uma boa métrica inicial, dado o balanceamento das classes.
* #### **Matriz de Confusão:** Ferramenta visual essencial para o diagnóstico de erros. Ela nos permitirá ver claramente quantos textos de "César" foram classificados como "Vigenère" (Falso Negativo) e vice-versa (Falso Positivo).
* #### **Precisão (Precision), Recall e F1-Score:** Estas métricas nos darão uma visão mais granular da performance para cada classe. O **F1-Score**, em particular, fornece uma média harmônica entre Precisão e Recall, sendo um indicador robusto do desempenho geral do classificador.

## 4.2. **Métricas da Tarefa de Decodificação (Criptoanálise)**

### A avaliação da decodificação medirá o sucesso do nosso *pipeline* de criptoanálise estatística. Como o processo é diferente para cada cifra, as métricas serão específicas:

1.  #### **Para Textos Classificados como Cifra de César:**
    * **Acurácia de Chave (Shift):** Mede a porcentagem de vezes que a análise de frequência identificou corretamente o deslocamento (de 1 a 25) utilizado na cifragem.

2.  #### **Para Textos Classificados como Cifra de Vigenère:**
    * **Acurácia do Tamanho da Chave:** Mede a eficácia do **Teste Kasiski** em identificar o comprimento correto da chave. Este é um passo intermediário crucial.
    * **Acurácia da Chave Completa:** Mede a porcentagem de vezes que, após encontrar o tamanho correto, o pipeline conseguiu reconstruir a palavra-chave exata através da análise de frequência dos sub-textos.

3.  #### **Métrica Final Unificada:**
    * **Acurácia de Decodificação (Exact Match):** Esta é a métrica final e mais rigorosa do projeto. Ela mede a porcentagem de textos no conjunto de teste cuja decodificação resultou em uma correspondência **exata** com o texto original (`versiculo_puro_target`). Esta métrica avalia o sucesso do sistema de ponta a ponta.

## **4.3. Análise e Diagnóstico do Sistema Híbrido**

### A análise final se concentrará na performance do sistema integrado e na investigação de seus pontos de falha (análise de erro).

* #### **Performance do Pipeline Integrado:** O resultado principal do MVP será a **Acurácia de Decodificação (Exact Match)** sobre o conjunto de teste. Este valor será analisado em conjunto com a performance do classificador para entendermos o impacto de erros de classificação no resultado final.
* #### **Análise de Erro:** Investigaremos os casos em que o pipeline falhou. As perguntas a serem respondidas incluem:
    * O classificador errou, levando à aplicação do método de decodificação errado?
    * O texto era muito curto para uma análise estatística robusta (afetando tanto o Teste Kasiski quanto a análise de frequência)?
    * Houve alguma característica específica nos textos ou chaves que confundiu os algoritmos?

### Essa análise nos permitirá compreender as limitações da abordagem e propor melhorias futuras de forma direcionada.

# 5. **Boas Práticas e Conclusão**

## 5.1. **Boas Práticas**
### O projeto segue as boas práticas de desenvolvimento, como **Programação Orientada a Objetos** (com classes separadas para `Biblia`, `Cifrador` e `DatasetGenerator`), **documentação consistente** e fixação de *seeds* para reprodutibilidade. As decisões de projeto estão documentadas textualmente em cada célula, contando a história do desenvolvimento.

## 5.2. **Conclusão**
### Este MVP é uma demonstração do poder do Deep Learning para resolver problemas complexos e multitarefa. O projeto é uma homenagem ao legado de Alan Turing e aos pioneiros das redes neurais, mostrando como o trabalho deles continua relevante e inspirador para a computação moderna.

## **Apêndice A: Arquitetura Inicial Proposta (Encoder-Decoder Multi-Task)**

## 3.1. **Arquitetura: Multi-Task Encoder-Decoder**

### A solução emprega uma arquitetura de rede neural do tipo **Encoder-Decoder (Seq2Seq)**, aprimorada para funcionar como um modelo **Multi-Task (Multi-Head)**.

### O objetivo é claro: construir um modelo de aprendizado profundo capaz de realizar **duas tarefas simultâneas**: **classificar** o tipo de cifra (César vs. Vigenère) e **decifrar** o texto.

| Componente | Algoritmo | Propósito |
| :--- | :--- | :--- |
| **Encoder** | **LSTM/GRU** | Processa o texto cifrado (sequência de *tokens*), inferindo e condensando a regra de cifragem em um **Vetor de Contexto** (`encoder_states`). |
| **Camada Embedding** | Embedding | Converte os IDs de inteiros de entrada em vetores densos (128 dimensões), necessários para o processamento eficiente das LSTMs. |
| **Head de Classificação** | `Dense` + **`Softmax`** | Usa o estado final do Encoder para predizer a probabilidade do tipo de cifra. |
| **Head de Decodificação** | `LSTM` + **`TimeDistributed(Dense)`** | Utiliza o estado do Encoder e o *Teacher Forcing* para gerar o texto original decifrado, *token* por *token*. |

## 3.2. **Estratégia de Treinamento e Otimização**

### O modelo será treinado utilizando o *dataset* gerado, com foco na eficiência e na precisão da criptoanálise.

### **Funções de Perda e Pesos de Prioridade**

### O treinamento é definido por duas funções de perda que correspondem às duas *heads* de saída. O uso dos pesos (`loss_weights`) é crucial para o foco do MVP:

| Saída | Função de Perda | Peso (Ex: 0.7) | Justificativa |
| :--- | :--- | :--- | :--- |
| **Classificação** | `categorical_crossentropy` | Menor (Ex: 0.3) | O Target está em formato **One-Hot**. O peso é menor por ser a tarefa mais simples. |
| **Decodificação** | **`sparse_categorical_crossentropy`** | Maior (Ex: 0.7) | O Target está em formato de **IDs de Inteiros** (para eficiência). O peso maior prioriza o aprendizado da criptoanálise, a tarefa mais complexa. |

### **Otimização de Hiperparâmetros**

#### Serão explorados hiperparâmetros como a **taxa de aprendizado** (`learning rate` - tipicamente com *Adam*), o tamanho dos vetores de entrada (como `LATENT_DIM` e `EMBEDDING_DIM`), e técnicas de regularização.

#### O treinamento utilizará os conjuntos de Treino e Validação (monitorados via *metrics* e *loss*), com o objetivo de otimizar a performance do modelo, combatendo o **underfitting** e, principalmente, o **overfitting** para garantir que o modelo generalize bem a regra da chave Vigenère para textos inéditos.

In [None]:
# # Hiperparâmetros
# LATENT_DIM = 256
# EMBEDDING_DIM = 64
# BATCH_SIZE = 64

In [None]:
# 1. ENCODER
# Input aceita a sequência de IDs (MAX_SEQ_LEN)
# encoder_inputs = Input(shape=(MAX_SEQ_LEN,), name='input_texto_cifrado')

In [None]:
# Camada de Embedding
# mask_zero=True é importante, pois ignora o token 0 (padding)
# encoder_embedding = Embedding(
#     input_dim=VOCAB_SIZE,
#     output_dim=EMBEDDING_DIM,
#     mask_zero=False,
#     name='encoder_embedding'
# )(encoder_inputs)

In [None]:
# encoder_lstm = LSTM(LATENT_DIM, return_state=True, name='encoder_lstm')
# _, state_h, state_c = encoder_lstm(encoder_embedding)
# encoder_states = [state_h, state_c] # Esses estados serão passados ao decoder

In [None]:
# 2. CABEÇA DE CLASSIFICAÇÃO (Tarefa 1)
# classification_dense = Dense(128, activation='relu',name='classification_dense')(state_h)
# classification_output = Dense(2, activation='softmax', name='output_tipo_cifra')(classification_dense)

In [None]:
# 3. CABEÇA DE DECODIFICAÇÃO (Tarefa 2)
# O decoder também aceita IDs (MAX_SEQ_LEN)
# decoder_inputs = Input(shape=(MAX_SEQ_LEN,), name='input_verso_puro')
# decoder_embedding = Embedding(
#     input_dim=VOCAB_SIZE,
#     output_dim=EMBEDDING_DIM,
#     mask_zero=False,
#     name='decoder_embedding'
# )(decoder_inputs)

In [None]:
# decoder_lstm = LSTM(LATENT_DIM, return_sequences=True, return_state=True, name='decoder_lstm')

In [None]:
# O decoder usa seu próprio embedding e os estados finais do encoder
# decoder_outputs, _, _ = decoder_lstm(decoder_embedding, initial_state=encoder_states)

In [None]:
# A Camada TimeDistributed aplica uma camada Dense a cada passo de tempo e sequência
# decoder_dense = TimeDistributed(Dense(VOCAB_SIZE, activation='softmax'), name='output_decodificacao')

In [None]:
# decoder_output = decoder_dense(decoder_outputs)

In [None]:
# Construção do Modelo Multitarefa
# Inputs: X_treino e Y_decodificacao_treino (Teacher Forcing)
# Outputs: Y_classificacao_treino e Y_decodificacao_treino
# modelo = Model(inputs=[encoder_inputs, decoder_inputs], outputs=[classification_output, decoder_output])

In [None]:
# Compilação
# É crucial usar a função de perda correta para cada target
# modelo.compile(optimizer=Adam(learning_rate=0.001),
#   loss={
#     'output_tipo_cifra': 'categorical_crossentropy', # para Target One-Hot
#     'output_decodificacao': 'sparse_categorical_crossentropy' # Para Targets de IDs
#   },
#   loss_weights={
#           'output_tipo_cifra': 0.1, # Peso menor para a tarefa mais simples
#           'output_decodificacao': 0.9 # Peso maior para a criptoanálise (tarefa mais difícil)
#   },
#   metrics={
#       'output_tipo_cifra': 'accuracy',
#       'output_decodificacao': 'accuracy'
#   }
# )

#### **Justificativa para o Otimizador Adam**

#### O otimizador **Adam** (*Adaptive Moment Estimation*) foi escolhido por ser o algoritmo de otimização mais eficiente e confiável para modelos de Deep Learning baseados em sequências (RNNs, LSTMs e GRUs). Ele supera métodos mais simples, como o SGD (*Stochastic Gradient Descent*), de forma significativa.

#### A sua superioridade baseia-se em dois princípios adaptativos:

1. #### Taxa de Aprendizado Adaptativa

    * Ao contrário do SGD, que utiliza uma única taxa de aprendizado (global) para todos os pesos do modelo, o **Adam** calcula uma **taxa de aprendizado individual** para *cada peso* da rede neural.

    * #### **Momentum (Momento):** O Adam utiliza médias móveis de gradientes passados para acelerar a convergência em direções relevantes.
    * #### **Adaptação RMSprop:** O Adam também incorpora o conceito do RMSprop, que ajusta a taxa de aprendizado individualmente, o que é crucial para dados sequenciais onde o "terreno" da função de perda é irregular.

2. #### Estabilidade e Eficiência

* #### Para o seu modelo **Multi-Task Encoder-Decoder**, o Adam oferece as seguintes vantagens práticas:

  * #### **Convergência Mais Rápida:** O Adam geralmente atinge o ponto de convergência (o mínimo da função de perda) muito mais rápido que outros otimizadores.
  * #### **Estabilidade:** Ele requer menos ajuste fino dos hiperparâmetros (como a taxa de aprendizado) do que outros métodos, tornando o experimento mais estável e eficiente.

#### Portanto, o **Adam** é a escolha ideal para treinar uma arquitetura complexa como a sua, garantindo um ajuste de peso eficiente nas camadas Embedding e LSTM.

In [None]:
# modelo.summary()

### **Análise do `model.summary()` (Validação da Arquitetura)**

#### O resumo da arquitetura Keras confirma que o modelo **Multi-Task Encoder-Decoder** foi construído com sucesso e que as correções críticas (como o uso da camada `Embedding` e as dimensões de saída) estão aplicadas corretamente.

#### 1. Validação Estrutural e Dimensionalidade

#### O resumo comprova o alinhamento total das dimensões com os dados que você preparou:

| Componente | Output Shape | Confirmação |
| :--- | :--- | :--- |
| **`MAX_SEQ_LEN`** | `(None, 515)` | O comprimento máximo de sequência está corretamente padronizado para **515 *tokens*** em todos os *Inputs* e *Outputs*. |
| **`VOCAB_SIZE`** | `37` | O *Output* de Decodificação tem **37 saídas** (o tamanho exato do seu vocabulário), provando que a rede está predizendo corretamente a probabilidade de cada *token* a cada passo de tempo. |
| **`LATENT_DIM`** | `256` | O espaço latente (a memória do Encoder/Decoder) está definido em 256 unidades, como planejado. |
| **Camadas Embedding** | `(None, 515, 128)` | Ambas as camadas (`encoder_embedding` e `decoder_embedding`) estão presentes, confirmando que o modelo aceita **IDs Inteiros** (o formato correto) e os transforma em vetores densos de 128 dimensões. |

#### 2. Validação das Heads (Saídas Multi-Task)

#### O resumo prova que a rede possui as duas saídas necessárias para a compilação:

| Head (Saída) | Layer Name | Output Shape | Status |
| :--- | :--- | :--- | :--- |
| **Decodificação** | `output_decodificacao` | `(None, 515, 37)` | **Correto.** Previsão de sequência alinhada com o `MAX_SEQ_LEN` e o `VOCAB_SIZE`. |
| **Classificação** | `output_tipo_cifra` | `(None, 2)` | **Correto.** Predição binária (César ou Vigenère), pronta para o Target **One-Hot Encoded**. |

---

#### **Conclusão:** O modelo está totalmente definido e pronto para ser treinado com os seus nove arrays NumPy, utilizando as funções de perda e pesos definidos na compilação (`sparse_categorical_crossentropy` e `categorical_crossentropy`).

## 3.3. **Treinamento e Estratégia de Combate ao Overfitting**
### Essa é a etapa em que demonstramos nossa estratégia para lidar com o **overfitting** e garantir que os pesos da arquitetura complexa sejam ajustados de forma eficiente.

### O modelo será treinado usando o otimizador **Adam** e alimentado com os *tensors* do conjunto de Treinamento (70%).

### A complexidade da arquitetura **Multi-Task Encoder-Decoder** exige a implementação de **mecanismos de controle** para garantir a estabilidade e a generalização do aprendizado:

1. ### **Teacher Forcing (Input do Decoder)**

    * #### Durante o treinamento, o Decoder é alimentado com o Target de Decodificação (`Y_decodificacao_treino`) como seu próprio *input*. Esta técnica, conhecida como **Teacher Forcing**, acelera significativamente a convergência e o aprendizado, pois o modelo recebe a "resposta correta" no passo anterior, corrigindo o caminho do treinamento.

2. ### **Callbacks Essenciais (Controle de Generalização)**

    * #### Para combater o principal risco em Deep Learning, o **Overfitting**, implementamos duas *callbacks* essenciais monitorando o desempenho no conjunto de Validação (10%):

      * #### **Early Stopping:** Monitora a **perda na Validação (`val_loss`)** e interrompe o treinamento se não houver melhora após um número definido de épocas (`patience`). Esta *callback* é crucial para garantir que a rede neural **pare de memorizar** os dados de treino e restaure os pesos do ponto onde a generalização foi ideal.
      * #### **Model Checkpoint:** Salva automaticamente os pesos da rede na época em que o desempenho no conjunto de Validação foi o melhor.

### Essa estratégia garante que o treinamento seja focado na convergência das perdas, ao mesmo tempo que maximiza a capacidade do modelo de aplicar a criptoanálise em dados totalmente inéditos.

In [None]:
# DEFINIÇÃO DOS CALLBACKS

# Early Stopping: Impede o Overfitting
# Monitoramos a perda (loss) da VALIDAÇÃO, pois é a métrica mais honesta
# early_stopping = EarlyStopping(
#     monitor='val_loss', # Mética a ser monitorada (perda total na validação)
#     patience=15,          # Número de épocas sem melhora antes de parar
#     verbose=1,
#     restore_best_weights=True # Restarua os pesos do modelo que teve a melhor performance
# )

In [None]:
# Model Checkpoint: Salva o melhor modelo
# checkpoint = ModelCheckpoint(
#     '/content/biblia-cifra-cesar-vigenere/melhor_modelo_cripto.keras',
#     monitor='val_loss',
#     save_best_only=True,
#     verbose=1
# )

In [None]:
# callbacks_list = [early_stopping, checkpoint]

### Agora, vamos para a execução do modelo!
### O tempo de treinamento total do modelo foi monitorado usando o módulo time do Python, registrando *[X minutos e Y segundos]* até que o *Early Stopping* fosse acionado, garantindo a otimização de recursos e tempo.

In [None]:
# Define a variável de ambiente para forçar o log das GPUs
# os.environ["CUDA_VISIBLE_DEVICES"] = "0"

# --- VERIFICAÇÃO CRÍTICA DE HARDWARE ---
# dispositivos_gpu = tf.config.list_physical_devices('GPU')

# if not dispositivos_gpu:
#     print("--------------------------------------------------------------------------------------------------------------------------------")
#     print("ERRO DE EXECUÇÃO: ACELERADOR DE HARDWARE NECESSÁRIO.")
#     print("O modelo Encoder-Decoder exige GPU ou TPU para processamento eficiente.")
#     print("POR FAVOR, ATIVE A GPU OU TPU: Menu 'Ambiente de Execução' -> 'Alterar tipo de ambiente de execução' -> Selecione 'GPU' ou 'TPU'.")
#     print("--------------------------------------------------------------------------------------------------------------------------------")
#     raise RuntimeError("TREINAMENTO CANCELADO. POR FAVOR, ATIVAR O ACELERADOR DE HARDWARE (GPU ou TPU).")
# else:
# print(f"Acelerador detectado ({dispositivos_gpu[0].device_type}). Iniciando treinamento com BATCH_SIZE={BATCH_SIZE}...")

Acelerador detectado (GPU). Iniciando treinamento com BATCH_SIZE=64...


In [None]:
# EXECUÇÃO DO TREINAMENTO

# print("Iniciando treinamento do modelo Multi-Task...")

# 1. Registrar o tempo de início
# inicio_treinamento = time.time()

# history = modelo.fit(
#     x=[X_treino, Y_decodificacao_treino],
#     y={
#       'output_tipo_cifra': Y_classificacao_treino,
#       'output_decodificacao': Y_decodificacao_treino
#     },
#     epochs=100, # Deixamos um número alto, mas o EarlyStopping fará a parada
#     batch_size=BATCH_SIZE,

#     # Dados de validação: Estrutura idêntica à do treinamento
#     validation_data=(
#         [X_val, Y_decodificacao_val], # Inputs de validação
#         {
#           'output_tipo_cifra': Y_classificacao_val,
#           'output_decodificacao': Y_decodificacao_val
#         } # Targets de validação
#     ),
#     callbacks=callbacks_list,
#     verbose=1
# )

# # 2. Registrar o tempo de término
# fim_treinamento = time.time()

# # 3. Calcular e formatar o tempo total
# tempo_total_segundos = fim_treinamento - inicio_treinamento

# # Converte o tempo total para um formato legível (minutos e segundos)
# minutos = int(tempo_total_segundos // 60)
# segundos = int(tempo_total_segundos % 60)

# print(f"\nTreinamento concluído. O melhor modelo foi salvo.")
# print(f"Tempo total de treinamento: {minutos} minutos e {segundos} segundos.")

# # Guarde a variável para usar no cabeçalho do projeto, se necessário
# tempo_final_formatado = f"{minutos}m {segundos}s"

# modelo.save('/content/biblia-cifra-cesar-vigenere/melhor_modelo_cripto_treinado.keras')
# print("\nModelo treinado e os melhores pesos salvos em 'melhor_modelo_cripto_treinado.keras'.")

Iniciando treinamento do modelo Multi-Task...
Epoch 1/100


#### A primeira vez que executei esse código, ele simplesmente travou o ambiente do Colab por consumir toda a memória, há uma suspeita de uma falha de baixo nível, geralmente relacionada à ***incompatibilidade de shapes (dimensões)*** ou ***exaustão de memória (OOM)** no ambiente Colab. O treinamento sequer começou.

#### Isso é uma falha crítica que o *TensorFlow/Keras* não consegue diagnosticar antes de travar o kernel.

#### O problema mais provável é que uma das suas três matrizes de treinamento não esteja no formato exato que a arquitetura Multi-Task espera.
#### Vamos verificar o que aconteceu executando um código simples de diagnóstico

In [None]:
# import numpy as np

# print("--- Diagnóstico dos Arrays de Treinamento ---")
# print(f"Número de Amostras de Treino: {len(X_treino)}")
# print("-" * 40)

# Input do Encoder (X)
# print(f"X_treino (Cifrado): Shape={X_treino.shape}, Dtype={X_treino.dtype}")

# Input do Decoder E Target de Decodificação (Y_decodificacao)
# Ambas as cabeças precisam ser idênticas: (num_amostras, MAX_SEQ_LEN)
# print(f"Y_decodificacao_treino: Shape={Y_decodificacao_treino.shape}, Dtype={Y_decodificacao_treino.dtype}")

# Target de Classificação (Y_classificacao)
# Formato One-Hot: (num_amostras, 2)
# print(f"Y_classificacao_treino: Shape={Y_classificacao_treino.shape}, Dtype={Y_classificacao_treino.dtype}")
# print("-" * 40)

# Verificação Crítica: Tipos de Dados
# if X_treino.dtype != np.dtype('int32') or Y_decodificacao_treino.dtype != np.dtype('int32'):
#     print("ALERTA: Os arrays sequenciais devem ser de tipo INT32.")
# if Y_classificacao_treino.dtype != np.dtype('float32'):
#     print("ALERTA: O array de classificação deve ser de tipo FLOAT32 (Devido ao One-Hot).")