In [1]:
import os
import pandas as pd

# Configurações
ICONS_DIR = "new_icons"  # Pasta onde estão seus 3 ícones
OUTPUT_CSV = "aws_labels.csv"

# Mapeamento manual (já que os nomes dos arquivos não seguem padrão AWS)
SERVICE_MAP = {
    "Aurora.png": "Amazon Aurora",
    "DynamoDB.png": "Amazon DynamoDB",
    "RDS-on-VMware.png": "Amazon RDS on VMware"
}

# Gera o CSV de labels
labels = []
for filename in os.listdir(ICONS_DIR):
    if filename.endswith(".png"):
        label = SERVICE_MAP.get(filename, "unknown")
        labels.append({"file": filename, "label": label})

pd.DataFrame(labels).to_csv(OUTPUT_CSV, index=False)
print(f"Labels gerados em {OUTPUT_CSV}!")

Labels gerados em aws_labels.csv!


# **Etapa 1: Labeling de Ícones AWS**
*(Geração do arquivo `aws_labels.csv`)*

## **Objetivo**
Criar um mapeamento entre os arquivos de ícones AWS e seus respectivos serviços para uso no pipeline de análise de ameaças STRIDE.

## **Método**
1. **Mapeamento Manual**:
   - Associamos cada ícone a um serviço AWS usando um dicionário Python:
     ```python
     SERVICE_MAP = {
         "Aurora.png": "Amazon Aurora",
         "DynamoDB.png": "Amazon DynamoDB",
         "RDS-on-VMware.png": "Amazon RDS on VMware"
     }
     ```
2. **Geração do CSV**:
   - Script `1_labeling.py` converte o dicionário em um arquivo `aws_labels.csv`:
     ```csv
     file,label
     Aurora.png,Amazon Aurora
     DynamoDB.png,Amazon DynamoDB
     RDS-on-VMware.png,Amazon RDS on VMware
     ```

## **Próximas Etapas**
- **Etapa 2 (Pré-processamento)**:
  - Usará `aws_labels.csv` para processar os ícones (redimensionamento, fundo branco).
- **Etapa 3 (Treinamento)**:
  - Utilizará os labels para treinar o modelo YOLOv8 na detecção de componentes.


## **Desafios: Abordagem Tradicional vs LLMs**

| Desafio na Abordagem Tradicional | Solução com LLMs |
|----------------------------------|------------------|
| **Labels inconsistentes** - Erros humanos na nomeação de componentes | **Classificação contextualizada** - LLMs entendem o contexto do ícone/serviço |
| **Manutenção demorada** - Requer atualização manual para novos serviços | **Zero-shot learning** - Classifica novos serviços sem retreinamento |
| **Requer dataset grande** - Centenas de exemplos para treinar modelos CV | **Funciona com poucos exemplos** - Basta descrição textual do componente |