In [8]:
# Célula 1: Setup Completo para o Notebook de Testes

import sys
import os
import pandas as pd
import numpy as np
import time
import joblib # Importa a biblioteca para carregar o modelo

# --- 1. Configuração do Path ---
project_root = os.path.abspath(os.path.join(os.getcwd(), os.pardir))
if project_root not in sys.path:
    sys.path.append(project_root)
    print(f"Adicionado ao path: {project_root}")

# --- 2. Imports das suas Estruturas ---
from src.estrutura_de_dados.arvore_avl import AVLTree
# ... importe outras se precisar ...

# --- 3. Preparação dos Dados (Precisamos de X_test_scaled e y_test) ---
df = pd.read_csv("../dataset/heart_attack_prediction_dataset.csv")
if 'Patient ID' in df.columns: df = df.drop('Patient ID', axis=1)

nome_coluna_alvo = 'Heart Attack Risk'
X = df.drop(nome_coluna_alvo, axis=1)
y = df[nome_coluna_alvo]

X_encoded = pd.get_dummies(X, drop_first=True)

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

X_train, X_test, y_train, y_test = train_test_split(X_encoded, y, test_size=0.2, random_state=42)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)


# --- 4. CARREGAR O MODELO TREINADO ---
try:
    modelo_final = joblib.load('../models/modelo_arvore_final.joblib')
    print("\n✅ Modelo pré-treinado carregado com sucesso!")
except FileNotFoundError:
    print("\n❌ ERRO: Arquivo do modelo não encontrado. Certifique-se de executar o Passo 1 no outro notebook para salvá-lo.")


✅ Modelo pré-treinado carregado com sucesso!


In [9]:
# Célula 1: Configuração do Ambiente e Imports
import sys
import os
import pandas as pd
import numpy as np
import time

# Adiciona a raiz do projeto ao Python Path para que possamos importar de 'src'
project_root = os.path.abspath(os.path.join(os.getcwd(), os.pardir))
if project_root not in sys.path:
    sys.path.append(project_root)
    print(f"Adicionado ao path: {project_root}")

# Agora você pode importar suas estruturas e carregar os dados
# ATENÇÃO: Usei os nomes das suas pastas que apareceram no erro. Verifique se estão corretos.
from src.estrutura_de_dados.arvore_avl import AVLTree
from src.estrutura_de_dados.lista_encadeada import LinkedList
from src.estrutura_de_dados.tabela_hash import HashTable
# ... importe as outras estruturas que precisar

# Carrega o dataframe
df = pd.read_csv("../dataset/heart_attack_prediction_dataset.csv") 

print("\nAmbiente configurado e dados carregados!")


Ambiente configurado e dados carregados!


In [10]:
# Célula 1: Teste de Restrição de Memória (R3)
import pandas as pd
import numpy as np

# Carregue o dataset original
caminho_do_arquivo = "../dataset/heart_attack_prediction_dataset.csv" 
df_original = pd.read_csv(caminho_do_arquivo)
memoria_antes = df_original.memory_usage(deep=True).sum()

print(f"Uso de memória original: {memoria_antes / 1024 / 1024:.2f} MB")

# Cria uma cópia para compactar
df_compactado = df_original.copy()

# Percorre as colunas numéricas e tenta diminuir o tipo de dado
for col in df_compactado.select_dtypes(include=np.number).columns:
    # Downcast para o menor tipo de inteiro ou float possível
    df_compactado[col] = pd.to_numeric(df_compactado[col], downcast='integer')
    df_compactado[col] = pd.to_numeric(df_compactado[col], downcast='float')

memoria_depois = df_compactado.memory_usage(deep=True).sum()
reducao = (1 - memoria_depois / memoria_antes) * 100

print(f"Uso de memória compactado: {memoria_depois / 1024 / 1024:.2f} MB")
print(f"Redução de memória: {reducao:.2f}%")

print("\nTipos de dados antes:")
print(df_original.info())
print("\nTipos de dados depois:")
print(df_compactado.info())

Uso de memória original: 4.64 MB
Uso de memória compactado: 3.64 MB
Redução de memória: 21.45%

Tipos de dados antes:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8763 entries, 0 to 8762
Data columns (total 26 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   Patient ID                       8763 non-null   object 
 1   Age                              8763 non-null   int64  
 2   Sex                              8763 non-null   object 
 3   Cholesterol                      8763 non-null   int64  
 4   Blood Pressure                   8763 non-null   object 
 5   Heart Rate                       8763 non-null   int64  
 6   Diabetes                         8763 non-null   int64  
 7   Family History                   8763 non-null   int64  
 8   Smoking                          8763 non-null   int64  
 9   Obesity                          8763 non-null   int64  
 10  Alcohol Consumption       

In [43]:
# Célula para Teste de Restrição de Processamento (R9) - VERSÃO ROBUSTA

print("\n--- Iniciando Teste de Processamento (R9) - Versão Robusta com Múltiplas Rodadas ---")
NUM_ITENS = 3000
N_RODADAS = 5 # Vamos executar cada cenário 5 vezes e tirar a média
dados_teste = df['Age'].head(NUM_ITENS)

tempos_normais = []
tempos_carga = []

print(f"Executando {N_RODADAS} rodadas de cada teste...")

for i in range(N_RODADAS):
    # --- Teste Normal ---
    avl_normal = AVLTree()
    start_normal = time.perf_counter()
    for item in dados_teste:
        avl_normal.insert(item)
    tempos_normais.append(time.perf_counter() - start_normal)

    # --- Teste com Carga Extra ---
    avl_carga = AVLTree()
    start_carga = time.perf_counter()
    for item in dados_teste:
        avl_carga.insert(item)
        [(_**2) for _ in range(10)] # Carga extra
    tempos_carga.append(time.perf_counter() - start_carga)
    
    print(f"Rodada {i+1}/{N_RODADAS} concluída...")

# Calcula a média dos resultados, ignorando a primeira rodada (que serviu de aquecimento)
avg_normal = np.mean(tempos_normais[1:])
avg_carga = np.mean(tempos_carga[1:])

print("\n--- Resultados Médios ---")
print(f"Tempo médio de inserção normal: {avg_normal:.4f} segundos")
print(f"Tempo médio com carga extra:   {avg_carga:.4f} segundos")

if avg_normal > 0 and avg_carga > avg_normal:
    aumento_percentual = ((avg_carga - avg_normal) / avg_normal) * 100
    print(f"\nA carga extra aumentou o tempo médio de execução em: {aumento_percentual:.2f}%")
else:
    print("\nResultado do teste inconsistente. A carga extra não demonstrou um aumento de tempo.")


--- Iniciando Teste de Processamento (R9) - Versão Robusta com Múltiplas Rodadas ---
Executando 5 rodadas de cada teste...
Rodada 1/5 concluída...
Rodada 2/5 concluída...
Rodada 3/5 concluída...
Rodada 4/5 concluída...
Rodada 5/5 concluída...

--- Resultados Médios ---
Tempo médio de inserção normal: 0.0211 segundos
Tempo médio com carga extra:   0.0247 segundos

A carga extra aumentou o tempo médio de execução em: 17.04%


In [28]:
# Célula para Teste de Restrição de Latência (R11) - Comparativo

print("\n--- Iniciando Teste de Latência (R11) Comparativo ---")
NUM_BUSCAS = 2000
LATENCIA_SIMULADA = 0.0001 # 0.1 ms

# Prepara os dados uma única vez
dados_numericos = df['Age'].head(NUM_BUSCAS).tolist()
dados_chave_valor = df['Age'].head(NUM_BUSCAS).to_dict()

# Popula as estruturas que vamos testar
ll = LinkedList(); [ll.insert(item) for item in dados_numericos]
avl = AVLTree(); [avl.insert(item) for item in dados_numericos]
ht = HashTable(size=NUM_BUSCAS * 2); [ht.insert(k, v) for k, v in dados_chave_valor.items()]

estruturas_para_teste = {
    "Lista Encadeada": ll,
    "Árvore AVL": avl,
    "Tabela Hash": ht
}

resultados_lat = []

for nome, instancia in estruturas_para_teste.items():
    print(f"\nTestando: {nome}")
    
    # Teste Normal (sem latência)
    start_normal = time.perf_counter()
    if nome == "Tabela Hash": [instancia.search(k) for k in dados_chave_valor.keys()]
    else: [instancia.search(item) for item in dados_numericos]
    tempo_normal = time.perf_counter() - start_normal
    print(f"  Tempo para {NUM_BUSCAS} buscas (sem latência): {tempo_normal:.4f} segundos")

    # Teste com Latência
    start_latencia = time.perf_counter()
    if nome == "Tabela Hash":
        for k in dados_chave_valor.keys(): instancia.search(k); time.sleep(LATENCIA_SIMULADA)
    else:
        for item in dados_numericos: instancia.search(item); time.sleep(LATENCIA_SIMULADA)
    tempo_latencia = time.perf_counter() - start_latencia
    print(f"  Tempo com latência: {tempo_latencia:.4f} segundos")
    
    resultados_lat.append({
        "Estrutura": nome,
        "Tempo Sem Latência (s)": tempo_normal,
        "Tempo Com Latência (s)": tempo_latencia,
        "Sobrecarga Total (s)": tempo_latencia - tempo_normal
    })
    
# Exibe a tabela de resultados
df_lat = pd.DataFrame(resultados_lat).set_index('Estrutura')
print("\n--- Resultados do Teste de Latência ---")
display(df_lat.style.format('{:.4f}'))


--- Iniciando Teste de Latência (R11) Comparativo ---

Testando: Lista Encadeada
  Tempo para 2000 buscas (sem latência): 0.0083 segundos
  Tempo com latência: 1.2049 segundos

Testando: Árvore AVL
  Tempo para 2000 buscas (sem latência): 0.0012 segundos
  Tempo com latência: 1.2082 segundos

Testando: Tabela Hash
  Tempo para 2000 buscas (sem latência): 0.0013 segundos
  Tempo com latência: 1.3395 segundos

--- Resultados do Teste de Latência ---


Unnamed: 0_level_0,Tempo Sem Latência (s),Tempo Com Latência (s),Sobrecarga Total (s)
Estrutura,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Lista Encadeada,0.0083,1.2049,1.1966
Árvore AVL,0.0012,1.2082,1.207
Tabela Hash,0.0013,1.3395,1.3381


In [None]:
# Célula para Teste de Restrição de Dados (R18) - VERSÃO CORRIGIDA

# --- 1. Imports e Carregamento de Recursos ---
import pandas as pd
import numpy as np
import joblib
import os
from sklearn.model_selection import train_test_split

print("\n--- Iniciando Teste de Dados (R18) ---")

try:
    # Carrega o modelo e o scaler salvos
    modelo_final = joblib.load(os.path.join("..", "models", "modelo_arvore_final.joblib"))
    scaler = joblib.load(os.path.join("..", "models", "scaler.joblib"))
    
    # Carrega o dataset cru
    df = pd.read_csv(os.path.join("..", "dataset", "heart_attack_prediction_dataset.csv"))
    print("✅ Modelo, scaler e dataset carregados.")

except FileNotFoundError as e:
    print(f"❌ ERRO: Arquivo não encontrado: {e.filename}")
    assert False, "Certifique-se de que os modelos foram salvos e o dataset existe."


# --- 2. Pipeline de Preparação de Dados (IDÊNTICO AO DO main.py) ---
print("Preparando dados para o formato esperado pelo modelo...")

# Processa colunas complexas
if 'Blood Pressure' in df.columns:
    split_bp = df['Blood Pressure'].str.split('/', expand=True)
    df['Pressao_Sistolica'] = pd.to_numeric(split_bp[0], errors='coerce')
    df['Pressao_Diastolica'] = pd.to_numeric(split_bp[1], errors='coerce')
    df = df.drop(columns=['Blood Pressure'])
df.fillna(df.median(numeric_only=True), inplace=True)

# Seleciona exatamente as mesmas features usadas no treinamento
colunas_para_modelo = [
    'Age', 'Sex', 'Cholesterol', 'Heart Rate', 'Diabetes', 'Family History', 
    'Smoking', 'Obesity', 'Alcohol Consumption', 'Exercise Hours Per Week', 'Diet', 
    'Previous Heart Problems', 'Medication Use', 'Stress Level', 'Sedentary Hours Per Day', 
    'Income', 'BMI', 'Triglycerides', 'Physical Activity Days Per Week', 'Sleep Hours Per Day', 
    'Pressao_Sistolica', 'Pressao_Diastolica'
]
colunas_para_modelo = [col for col in colunas_para_modelo if col in df.columns]

X = df[colunas_para_modelo]
y = df['Heart Attack Risk']

# One-Hot Encoding apenas nas features selecionadas
X_encoded = pd.get_dummies(X, drop_first=True)

# Divisão em treino/teste (só para simular e obter um X_test)
_, X_test, _, y_test = train_test_split(X_encoded, y, test_size=0.2, random_state=42)

# Garante que as colunas do X_test sejam EXATAMENTE as mesmas que o scaler espera
expected_features = scaler.feature_names_in_
X_test_alinhado = X_test.reindex(columns=expected_features, fill_value=0)

# Aplica o scaling
X_test_scaled = scaler.transform(X_test_alinhado)
print("✅ Dados de teste preparados e sincronizados com o modelo.")


# --- 3. Execução do Teste ---

# Acurácia original
acuracia_original = modelo_final.score(X_test_scaled, y_test)
print(f"\nAcurácia do modelo em dados limpos: {acuracia_original:.2%}")

# Corrompendo 15% dos dados de teste
X_test_corrompido = X_test_scaled.copy()
# Encontra o índice da coluna 'Age' no array numpy para corromper
coluna_age_index = list(X_test_alinhado.columns).index('Age')
indices_corrompidos = np.random.choice(X_test_corrompido.shape[0], size=int(X_test_corrompido.shape[0] * 0.15), replace=False)
X_test_corrompido[indices_corrompidos, coluna_age_index] = 99 # Injeta valor anômalo

# Acurácia com dados corrompidos
acuracia_corrompida = modelo_final.score(X_test_corrompido, y_test)
print(f"Acurácia do modelo em dados corrompidos: {acuracia_corrompida:.2%}")

degradacao = abs(acuracia_original - acuracia_corrompida) / acuracia_original * 100
print(f"A performance do modelo degradou em: {degradacao:.2f}%")


--- Iniciando Teste de Dados (R18) ---
✅ Modelo, scaler e dataset carregados.
Preparando dados para o formato esperado pelo modelo...
✅ Dados de teste preparados e sincronizados com o modelo.

Acurácia do modelo em dados limpos: 64.18%
Acurácia do modelo em dados corrompidos: 64.18%
A performance do modelo degradou em: 0.00%




In [14]:
# Célula para Teste de Restrição Algorítmica (R23) - Carga de Encriptação

import hashlib
import time

def encrypt_data(data):
    """
    Simula uma operação de encriptação usando um hash SHA-256.
    Retorna a representação hexadecimal do hash.
    """
    # Converte o dado para string, depois para bytes, para poder usar o hash
    return hashlib.sha256(str(data).encode()).hexdigest()

print("\n--- Iniciando Teste de Restrição Algorítmica (R23) ---")
print("Tarefa: Medir a sobrecarga de uma operação de 'encriptação' em inserções.")

NUM_ITENS_ENCRIPTACAO = 5000
dados_para_inserir = df['Age'].head(NUM_ITENS_ENCRIPTACAO).to_dict()
print(f"Número de inserções a serem testadas: {NUM_ITENS_ENCRIPTACAO}\n")


# --- Método 1: Inserção Normal (Sem Encriptação) ---
print("--- Testando Inserção Normal ---")
ht_normal = HashTable(size=NUM_ITENS_ENCRIPTACAO * 2)

start_normal = time.perf_counter()
for key, value in dados_para_inserir.items():
    ht_normal.insert(key, value)
tempo_normal = time.perf_counter() - start_normal
print(f"Tempo de inserção normal: {tempo_normal:.4f} segundos")


# --- Método 2: Inserção com Carga de "Encriptação" ---
print("\n--- Testando Inserção com 'Encriptação' ---")
ht_encriptada = HashTable(size=NUM_ITENS_ENCRIPTACAO * 2)

start_encriptada = time.perf_counter()
for key, value in dados_para_inserir.items():
    # Passo extra: "encripta" o valor antes de inserir
    valor_encriptado = encrypt_data(value)
    ht_encriptada.insert(key, valor_encriptado)
tempo_encriptada = time.perf_counter() - start_encriptada
print(f"Tempo de inserção com 'encriptação': {tempo_encriptada:.4f} segundos")


# --- Conclusão do Teste ---
print("\n--- Conclusão ---")
sobrecarga = tempo_encriptada - tempo_normal
aumento_percentual = (sobrecarga / tempo_normal) * 100

print(f"A sobrecarga da 'encriptação' foi de {sobrecarga:.4f} segundos.")
print(f"Isso representa um aumento de {aumento_percentual:.2f}% no tempo total de inserção.")


--- Iniciando Teste de Restrição Algorítmica (R23) ---
Tarefa: Medir a sobrecarga de uma operação de 'encriptação' em inserções.
Número de inserções a serem testadas: 5000

--- Testando Inserção Normal ---
Tempo de inserção normal: 0.0061 segundos

--- Testando Inserção com 'Encriptação' ---
Tempo de inserção com 'encriptação': 0.0143 segundos

--- Conclusão ---
A sobrecarga da 'encriptação' foi de 0.0082 segundos.
Isso representa um aumento de 133.13% no tempo total de inserção.
