# MVP: Modelagem de Ameaças com IA (STRIDE)

Este notebook cria um MVP para detectar componentes em diagramas de arquitetura e gerar ameaças e contramedidas baseadas em STRIDE.

## 1) Setup

In [None]:
!apt-get -qq update && apt-get -qq install -y tesseract-ocr
!pip -q install ultralytics opencv-python pytesseract

In [None]:
from pathlib import Path
import zipfile
from google.colab import files
import cv2
import pytesseract
from ultralytics import YOLO

## 2) Escolha do modo
Use `treino` quando tiver dataset anotado (YOLO/COCO).
Use `inferencia` quando tiver apenas uma imagem do diagrama.

In [None]:
MODO = 'inferencia'  # 'treino' ou 'inferencia'
print('Modo selecionado:', MODO)

## 3A) Upload do dataset (somente treino)
Envie um .zip contendo o dataset. Estruturas aceitas:
- YOLO padrão: images/train, images/val, labels/train, labels/val
- YOLO sem splits: images/ e labels/ (o notebook cria train/val)
- Pasta única com imagens + .txt (o notebook organiza em YOLO)

Exemplo comum: `src/dataset/dataset_augmented` com arquivos `.png/.jpg` e `.txt`.

In [None]:
# Se o zip estiver no repositório clonado, informe o caminho aqui
CAMINHO_ZIP = '/content/fiap-fase-5-hackaton/arqsof_dataset.zip'

if MODO != 'treino':
    print('Pulando upload de dataset (modo não é treino).')
else:
    if CAMINHO_ZIP:
        NOME_ZIP = CAMINHO_ZIP
        print('Usando zip local:', NOME_ZIP)
    else:
        ARQUIVOS = files.upload()
        NOME_ZIP = next(iter(ARQUIVOS))

    DIR_EXTRACAO = Path('/content/dataset_zip')
    DIR_EXTRACAO.mkdir(parents=True, exist_ok=True)

    with zipfile.ZipFile(NOME_ZIP, 'r') as zf:
        zf.extractall(DIR_EXTRACAO)

    print('Dataset extraído em:', DIR_EXTRACAO)

In [None]:
# Preparação automática do dataset para YOLO
import random
import shutil

EXTENSOES_IMAGEM = {'.jpg', '.jpeg', '.png', '.bmp'}

def possui_estrutura_yolo(dir_base):
    return all((dir_base / p).exists() for p in [
        'images/train', 'images/val', 'labels/train', 'labels/val'
    ])

def possui_images_labels_sem_split(dir_base):
    return (dir_base / 'images').exists() and (dir_base / 'labels').exists()

def listar_imagens(pasta):
    return [p for p in pasta.rglob('*') if p.suffix.lower() in EXTENSOES_IMAGEM]

def encontrar_pasta_com_pares(dir_base):
    melhores = (0, None)
    for pasta in [dir_base] + [p for p in dir_base.rglob('*') if p.is_dir()]:
        imgs = [p for p in pasta.iterdir() if p.is_file() and p.suffix.lower() in EXTENSOES_IMAGEM]
        if not imgs:
            continue
        pares = [img for img in imgs if (pasta / f'{img.stem}.txt').exists()]
        if len(pares) > melhores[0]:
            melhores = (len(pares), pasta)
    return melhores[1]

def criar_estrutura_yolo(pares, dir_destino, proporcao_treino=0.8, seed=42):
    random.seed(seed)
    random.shuffle(pares)
    corte = int(len(pares) * proporcao_treino)
    treino, validacao = pares[:corte], pares[corte:]

    (dir_destino / 'images/train').mkdir(parents=True, exist_ok=True)
    (dir_destino / 'images/val').mkdir(parents=True, exist_ok=True)
    (dir_destino / 'labels/train').mkdir(parents=True, exist_ok=True)
    (dir_destino / 'labels/val').mkdir(parents=True, exist_ok=True)

    def copiar(pares, split):
        for img, label in pares:
            shutil.copy2(img, dir_destino / f'images/{split}/{img.name}')
            shutil.copy2(label, dir_destino / f'labels/{split}/{label.name}')

    copiar(treino, 'train')
    copiar(validacao, 'val')

def preparar_dataset_yolo(dir_base):
    # 1) Se já está no padrão YOLO, usa direto
    if possui_estrutura_yolo(dir_base):
        return dir_base

    # 2) Se tem images/ e labels/ sem split, cria split
    if possui_images_labels_sem_split(dir_base):
        imgs = listar_imagens(dir_base / 'images')
        pares = []
        for img in imgs:
            label = (dir_base / 'labels' / f'{img.stem}.txt')
            if label.exists():
                pares.append((img, label))
        if not pares:
            raise FileNotFoundError('Nenhum par imagem/label encontrado em images/ e labels/.')

        dir_yolo = Path('/content/data_yolo')
        criar_estrutura_yolo(pares, dir_yolo)
        return dir_yolo

    # 3) Procura pasta única com imagens + labels
    pasta_pares = encontrar_pasta_com_pares(dir_base)
    if pasta_pares is None:
        raise FileNotFoundError('Nenhuma pasta com imagens e labels (.txt) encontrada.')

    imgs = [p for p in pasta_pares.iterdir() if p.is_file() and p.suffix.lower() in EXTENSOES_IMAGEM]
    pares = []
    for img in imgs:
        label = (pasta_pares / f'{img.stem}.txt')
        if label.exists():
            pares.append((img, label))

    if not pares:
        raise FileNotFoundError('Nenhum par imagem/label encontrado na pasta detectada.')

    dir_yolo = Path('/content/data_yolo')
    criar_estrutura_yolo(pares, dir_yolo)
    return dir_yolo

def gerar_data_yaml(dir_base, nomes_classes):
    caminho = dir_base / 'data.yaml'
    linhas = [
        f'path: {dir_base}',
        'train: images/train',
        'val: images/val',
        '',
        'names:'
    ]
    for i, nome in enumerate(nomes_classes):
        linhas.append(f'  {i}: {nome}')
    caminho.write_text('\n'.join(linhas), encoding='utf-8')
    return caminho

if MODO == 'treino':
    DIR_DATASET_TREINO = preparar_dataset_yolo(DIR_EXTRACAO)
    print('Dataset preparado em:', DIR_DATASET_TREINO)

    NOMES_CLASSES = [
        'user', 'server', 'database', 'api', 'gateway', 'queue',
        'storage', 'third_party', 'auth', 'frontend', 'backend', 'network'
    ]
    CAMINHO_DATA_YAML = gerar_data_yaml(DIR_DATASET_TREINO, NOMES_CLASSES)
    print('data.yaml gerado em:', CAMINHO_DATA_YAML)

## 3B) Upload de imagem única (somente inferência)
Envie uma imagem (.png ou .jpg) do diagrama de arquitetura.

In [None]:
if MODO != 'inferencia':
    print('Pulando upload de imagem (modo não é inferência).')
else:
    ARQUIVOS_IMG = files.upload()
    NOME_IMG = next(iter(ARQUIVOS_IMG))
    CAMINHO_IMAGEM = str(Path(NOME_IMG).resolve())
    print('Imagem carregada:', CAMINHO_IMAGEM)

## 4) Treinamento do detector (YOLOv8) — opcional

In [None]:
PESOS_BASE = 'yolov8n.pt'
modelo = YOLO(PESOS_BASE)

if MODO == 'treino':
    if 'CAMINHO_DATA_YAML' not in globals():
        raise ValueError('CAMINHO_DATA_YAML não definido. Verifique a preparação do dataset.')
    # modelo.train(data=CAMINHO_DATA_YAML, epochs=50, imgsz=640)


## 5) Inferência

In [None]:
if MODO == 'inferencia':
    PESOS_INFERENCIA = 'yolov8n.pt'  # ou '/content/runs/detect/train/weights/best.pt'
    modelo = YOLO(PESOS_INFERENCIA)

    resultados = modelo.predict(source=CAMINHO_IMAGEM, conf=0.25)
    deteccoes = []
    for r in resultados:
        for c in r.boxes.cls.tolist():
            deteccoes.append(modelo.names[int(c)])

    MAPA_COMPONENTES = {
        'user': 'usuário',
        'server': 'servidor',
        'database': 'base de dados',
        'api': 'api',
        'gateway': 'gateway',
        'queue': 'fila',
        'storage': 'armazenamento',
        'third_party': 'terceiros',
        'auth': 'autenticação',
        'frontend': 'frontend',
        'backend': 'backend',
        'network': 'rede'
    }

    deteccoes_pt = [MAPA_COMPONENTES.get(d, d) for d in deteccoes]
    print('Detecções (bruto):', deteccoes)
    print('Detecções (PT-BR):', deteccoes_pt)


In [None]:
# Visualização das detecções
import matplotlib.pyplot as plt

if 'resultados' in globals() and resultados:
    img_plot = resultados[0].plot()
    img_plot = cv2.cvtColor(img_plot, cv2.COLOR_BGR2RGB)

    plt.figure(figsize=(10, 10))
    plt.imshow(img_plot)
    plt.axis('off')
else:
    print('Sem resultados para visualizar.')


## 6) Mapeamento STRIDE

In [None]:
MAPA_COMPONENTES = {
    'user': 'usuário',
    'server': 'servidor',
    'database': 'base de dados',
    'api': 'api',
    'gateway': 'gateway',
    'queue': 'fila',
    'storage': 'armazenamento',
    'third_party': 'terceiros',
    'auth': 'autenticação',
    'frontend': 'frontend',
    'backend': 'backend',
    'network': 'rede'
}

MAPA_STRIDE = {
    'user': ['Falsificação de identidade', 'Elevação de privilégio'],
    'auth': ['Falsificação de identidade', 'Elevação de privilégio', 'Repúdio'],
    'api': ['Violação (manipulação)', 'Repúdio', 'Negação de serviço'],
    'gateway': ['Violação (manipulação)', 'Repúdio', 'Negação de serviço'],
    'database': ['Divulgação de informação', 'Violação (manipulação)'],
    'storage': ['Divulgação de informação', 'Violação (manipulação)'],
    'queue': ['Violação (manipulação)', 'Negação de serviço'],
    'frontend': ['Falsificação de identidade', 'Violação (manipulação)', 'Divulgação de informação'],
    'backend': ['Violação (manipulação)', 'Repúdio', 'Negação de serviço'],
    'network': ['Falsificação de identidade', 'Divulgação de informação', 'Negação de serviço'],
    'server': ['Violação (manipulação)', 'Negação de serviço', 'Elevação de privilégio'],
    'third_party': ['Falsificação de identidade', 'Divulgação de informação', 'Repúdio']
}

def mapear_stride(componentes):
    saida = {}
    for c in componentes:
        saida[c] = MAPA_STRIDE.get(c, [])
    return saida

## 7) Geração de relatório

In [None]:
componentes = []
if 'deteccoes' in globals() and deteccoes:
    componentes = deteccoes
else:
    componentes = ['api', 'database', 'user']

mapeamento = mapear_stride(componentes)

linhas = ['# Relatório de Modelagem de Ameaças', '']
for comp in componentes:
    comp_label = MAPA_COMPONENTES.get(comp, comp)
    ameacas = mapeamento.get(comp, [])
    linhas.append(f'## {comp_label}')
    if ameacas:
        for a in ameacas:
            linhas.append(f'- {a}')
    else:
        linhas.append('- Nenhuma ameaça mapeada')
    linhas.append('')

relatorio = '\n'.join(linhas)
print(relatorio)

with open('relatorio.md', 'w', encoding='utf-8') as f:
    f.write(relatorio)