# M√©todologia de Avalia√ß√£o de Ferramentas AutoML

## üìä Sistema de Pontua√ß√£o

O modelo utiliza uma abordagem quantitativa padronizada para avaliar ferramentas de AutoML em cinco dimens√µes cr√≠ticas:

1. **Descri√ß√£o Funcional**
2. **An√°lise Estat√≠stica** 
3. **Transpar√™ncia Algor√≠tmica**
4. **Interpretabilidade**
5. **An√°lise Interna**

### üî¢ M√©trica de Avalia√ß√£o

$$
S = \begin{cases} 
0 & \text{if } N = 0 \\
1 & \text{if } N = 1 \\
2 & \text{if } N \geq 2 
\end{cases}
$$

Para cada crit√©rio de avalia√ß√£o, √© atribu√≠do um valor **N** que representa o n√∫mero de maneiras como a ferramenta atende ao requisito:

| Avalia√ß√£o | Pontua√ß√£o (P·µ¢) | Significado |
|-----------|----------------|-------------|
| N = 0     | 0 pontos       | N√£o atende ao crit√©rio |
| N = 1     | 1 ponto        | Atendimento parcial |
| N ‚â• 2     | 2 pontos       | Atendimento total |

### üìà F√≥rmula de Normaliza√ß√£o

O score normalizado por categoria √© calculado como:

$$
S = \left( \frac{\sum_{i=1}^{N} P_i}{N \cdot W} \right) \times 100
$$

Onde:
- **S**: Score normalizado (0-100%)
- **P·µ¢**: Pontua√ß√£o da i-√©sima pergunta (0, 1 ou 2)
- **N**: N√∫mero total de perguntas na categoria
- **W**: Pontua√ß√£o m√°xima por pergunta (W=2)

## üñ•Ô∏è Como Usar o Modelo

1. **Sele√ß√£o da Ferramenta**
   - Escolha a ferramenta no menu suspenso
   - Para novas ferramentas, digite o nome no campo "Outra"

2. **Processo de Avalia√ß√£o**
   ```python
   Clique em "Iniciar Nova Avalia√ß√£o"
   Para cada pergunta:
   - Selecione N=0 (N√£o atende)
   - Selecione N=1 (Parcial)
   - Selecione N‚â•2 (Total)
   Clique em "Calcular Scores"



# üìä Visualiza√ß√£o de Resultados

## Tabelas
- **Tabelas detalhadas** por crit√©rio
- **Gr√°ficos comparativos** autom√°ticos

---

## üìã Sa√≠das do Modelo

### 1. Tabela Resumo
Mostra por categoria:
- Score normalizado (%)
- Pontua√ß√£o total
- N√∫mero de perguntas

### 2. Tabela Detalhada
Apresenta todas as avalia√ß√µes individuais com:
- Crit√©rio avaliado
- Valor de N atribu√≠do
- Pontua√ß√£o calculada
- Score da categoria

### 3. Visualiza√ß√µes Gr√°ficas

| Tipo de Gr√°fico | Utilidade | Exemplo |
|-----------------|-----------|---------|
| ![Barras](https://matplotlib.org/stable/_images/sphx_glr_bar_001.png) | Compara√ß√£o direta entre categorias | `plt.bar()` |
| ![Radar](https://matplotlib.org/stable/_images/sphx_glr_radar_chart_001.png) | Vis√£o hol√≠stica do desempenho | `plt.polar()` |

---

## üìå Considera√ß√µes Metodol√≥gicas

‚úî **Objetividade**: Pontua√ß√£o baseada em crit√©rios mensur√°veis  
‚úî **Normaliza√ß√£o**: Compara√ß√£o entre categorias com diferentes n√∫meros de crit√©rios  
‚úî **Reprodutibilidade**: Aplic√°vel a qualquer ferramenta AutoML  
‚úî **Abordagem Quantitativa**: Reduz subjetividade na avalia√ß√£o  

---

## üîÑ Fluxo de Trabalho Recomendado

1. Avalie todas as ferramentas de interesse
2. Consulte a an√°lise comparativa
3. Identifique pontos fortes e fracos
4. Repita para novas vers√µes

> **Nota**: Os resultados s√£o salvos automaticamente permitindo:
> - An√°lises temporais
> - Consolida√ß√£o de dados
> - Compara√ß√£o hist√≥rica

In [20]:
%%javascript
// Mant√©m os outputs vis√≠veis
Jupyter.notebook.get_cells().forEach(function(cell) {
    if (cell.cell_type === 'code') {
        cell.output_area.outputs = cell.output_area.outputs || [];
    }
});

import ipywidgets as widgets
from IPython.display import display, clear_output
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from math import pi
import pickle
import os

# Configura√ß√µes de estilo
plt.style.use('seaborn')
primary_color = '#1f77b4'
palette = ['#1f77b4', '#ff7f0e', '#2ca02c', '#d62728', '#9467bd', '#8c564b', '#e377c2', '#7f7f7f', '#bcbd22', '#17becf']

## Dados das Perguntas por Categoria
questions = {
    "Descri√ß√£o Funcional": [
        "√â poss√≠vel identificar quais s√£o as etapas do pipeline?",
        "√â poss√≠vel identificar os componentes utilizados em cada etapa?",
        "Est√° claro quais s√£o as entradas e sa√≠das?",
        "Est√° claro como o processo √© executado na pr√°tica?"
    ],
    "An√°lise Estat√≠stica": [
        "As previs√µes do modelo s√£o apresentadas para as classes (malwares e benignos)?",
        "Mantem o hist√≥rico dos dados utilizados para treinar e testar o modelo?",
        "Na sele√ß√£o de caracter√≠sticas √© informado ao usuario quais s√£o as mais relevantes?",
        "As m√©tricas de desempenho do modelo s√£o apresentadas?",
        "Existem formas de visualizar os resultados (gr√°ficos, tabelas)?"
    ],
    "Transpar√™ncia Algor√≠tmica": [
        "√â poss√≠vel identificar quais modelos s√£o utilizados?",
        "√â possivel identificar avisos, informa√ß√µes e erros registrados nos logs do sistema?",
        "√â poss√≠vel identificar os hiperparametros dos modelos gerados?",
        "√â poss√≠vel identificar se os dados s√£o balanceados?"
    ],
    "Interpretabilidade": [
        "O motivo da redu√ß√£o da dimensionalidade √© explicado? (Pr√©-Modelo)",
        "Existem t√©cnicas espec√≠ficas de redu√ß√£o de dimensionalidade para o dom√≠nio? (Pr√©-Modelo)",
        "H√° m√©todos de interpretabilidade global dispon√≠veis?",
        "O framework oferece modelos com interpretabilidade intr√≠nseca? (In-Modelo)",
        "√â poss√≠vel avaliar a diferen√ßa entre previs√µes e valores reais?",
        "H√° m√©todos de interpretabilidade independentes do modelo? (P√≥s-Modelo)"
    ],
    "An√°lise Interna": [
        "Existem m√©todos para visualizar a estrutura do modelo? (P√≥s-Modelo)"
    ]
}

# Arquivo para salvar os resultados
RESULTS_FILE = 'automl_evaluations.pkl'

class AutoMLComparativeEvaluation:
    def __init__(self):
        self.all_results = pd.DataFrame()
        self.load_existing_data()
    
    def load_existing_data(self):
        if os.path.exists(RESULTS_FILE):
            with open(RESULTS_FILE, 'rb') as f:
                self.all_results = pickle.load(f)
    
    def save_results(self):
        with open(RESULTS_FILE, 'wb') as f:
            pickle.dump(self.all_results, f)
    
    def add_evaluation(self, tool_name, results_df):
        results_df['Ferramenta'] = tool_name
        self.all_results = pd.concat([self.all_results, results_df], ignore_index=True)
        self.save_results()
    
    def get_comparison_data(self):
        if self.all_results.empty:
            return pd.DataFrame()
        
        comparison_df = self.all_results.groupby(['Ferramenta', 'Categoria']).agg({
            'Pontua√ß√£o': 'sum',
            'Score': 'first'
        }).reset_index()
        
        pivot_df = comparison_df.pivot(index='Ferramenta', columns='Categoria', values='Score')
        total_scores = self.all_results.groupby('Ferramenta')['Pontua√ß√£o'].sum()
        pivot_df['Pontua√ß√£o Total'] = total_scores
        
        return pivot_df.sort_values('Pontua√ß√£o Total', ascending=False)
    
    def plot_comparison_radar(self):
        comparison_data = self.get_comparison_data()
        if comparison_data.empty:
            print("Nenhum dado dispon√≠vel para compara√ß√£o")
            return
        
        categories = list(questions.keys())
        N = len(categories)
        angles = [n / float(N) * 2 * pi for n in range(N)]
        angles += angles[:1]
        
        fig, ax = plt.subplots(figsize=(10, 10), subplot_kw=dict(polar=True))
        
        tools = comparison_data.index.tolist()
        for idx, tool in enumerate(tools):
            values = comparison_data.loc[tool, categories].values.flatten().tolist()
            values += values[:1]
            ax.plot(angles, values, color=palette[idx % len(palette)], linewidth=2, 
                    linestyle='solid', label=f"{tool} ({int(comparison_data.loc[tool, 'Pontua√ß√£o Total'])} pts)")
            ax.fill(angles, values, color=palette[idx % len(palette)], alpha=0.1)
        
        plt.xticks(angles[:-1], categories, color='grey', size=12)
        ax.set_rlabel_position(30)
        plt.yticks([20, 40, 60, 80, 100], ["20%", "40%", "60%", "80%", "100%"], color="grey", size=10)
        plt.ylim(0, 100)
        
        plt.title("Compara√ß√£o entre Ferramentas AutoML\n(Score Normalizado por Categoria)", size=15, y=1.1)
        plt.legend(loc='upper right', bbox_to_anchor=(1.3, 1.1))
        plt.show()
    
    def plot_comparison_bars(self):
        comparison_data = self.get_comparison_data()
        if comparison_data.empty:
            print("Nenhum dado dispon√≠vel para compara√ß√£o")
            return
        
        categories = list(questions.keys())
        tools = comparison_data.index.tolist()
        bar_width = 0.15
        index = np.arange(len(categories))
        
        plt.figure(figsize=(15, 8))
        
        for i, tool in enumerate(tools):
            values = comparison_data.loc[tool, categories].values
            plt.bar(index + i*bar_width, values, bar_width, 
                    color=palette[i % len(palette)], label=f"{tool} ({int(comparison_data.loc[tool, 'Pontua√ß√£o Total'])} pts)")
        
        plt.xlabel('Categorias')
        plt.ylabel('Score Normalizado (%)')
        plt.title('Compara√ß√£o de Ferramentas por Categoria')
        plt.xticks(index + bar_width*(len(tools)-1)/2, categories, rotation=45)
        plt.ylim(0, 110)
        plt.legend(bbox_to_anchor=(1.05, 1), loc='upper left')
        plt.grid(axis='y', linestyle='--', alpha=0.7)
        plt.tight_layout()
        plt.show()

class ToolEvaluator:
    def __init__(self, comparative_system, tool_name):
        self.comparative_system = comparative_system
        self.tool_name = tool_name
        self.results = pd.DataFrame(columns=['Categoria', 'Pergunta', 'N', 'Pontua√ß√£o', 'Score'])
        self.W = 2
        
        self.create_widgets()
    
    def create_widgets(self):
        self.widgets = {}
        
        for category, q_list in questions.items():
            for question in q_list:
                key = f"{category} | {question}"
                self.widgets[key] = widgets.Dropdown(
                    options=[
                        ('N√£o atende (N=0)', 0),
                        ('Parcial (N=1)', 1),
                        ('Total (N‚â•2)', 2)
                    ],
                    description=question,
                    style={'description_width': 'initial'},
                    layout={'width': '800px'}
                )
        
        self.submit_button = widgets.Button(
            description="Salvar Avalia√ß√£o",
            button_style='success',
            icon='save'
        )
        self.submit_button.on_click(self.save_evaluation)
    
    def display_interface(self):
        display(widgets.HTML(f"<h2 style='color:{primary_color};'>Avalia√ß√£o: {self.tool_name}</h2>"))
        
        accordion = widgets.Accordion(children=[
            widgets.VBox([self.widgets[key] for key in self.widgets if key.startswith(category)])
            for category in questions.keys()
        ])
        
        for i, category in enumerate(questions.keys()):
            accordion.set_title(i, f"{category} ({len(questions[category])} perguntas)")
        
        display(accordion)
        display(self.submit_button)
    
    def save_evaluation(self, b):
        self.results = pd.DataFrame(columns=['Categoria', 'Pergunta', 'N', 'Pontua√ß√£o', 'Score'])
        
        for key, widget in self.widgets.items():
            category, question = key.split(" | ")
            N = widget.value
            points = min(N, 2)
            
            self.results.loc[len(self.results)] = {
                'Categoria': category,
                'Pergunta': question,
                'N': N,
                'Pontua√ß√£o': points,
                'Score': None
            }
        
        for category in questions.keys():
            cat_data = self.results[self.results['Categoria'] == category]
            sum_Pi = cat_data['Pontua√ß√£o'].sum()
            N_questions = len(cat_data)
            
            S = (sum_Pi / (N_questions * self.W)) * 100 if N_questions > 0 else 0
            
            self.results.loc[self.results['Categoria'] == category, 'Score'] = S
        
        self.comparative_system.add_evaluation(self.tool_name, self.results)
        
        clear_output()
        display(widgets.HTML(f"<div style='color:green; font-weight:bold;'>Avalia√ß√£o para {self.tool_name} salva com sucesso!</div>"))
        self.display_results()
    
    def display_results(self):
        display(widgets.HTML(f"<h3>Resumo para {self.tool_name}</h3>"))
        
        summary = self.results.groupby('Categoria').agg({
            'Pontua√ß√£o': 'sum',
            'Score': 'first'
        })
        summary['Perguntas'] = self.results.groupby('Categoria').size()
        display(summary)
        
        display(widgets.HTML(f"<p><b>Pontua√ß√£o Total:</b> {self.results['Pontua√ß√£o'].sum()} pontos</p>"))

class AutoMLEvaluationUI:
    def __init__(self):
        self.comparative_system = AutoMLComparativeEvaluation()
        self.create_ui()
    
    def create_ui(self):
        self.tool_selector = widgets.Dropdown(
            options=['AutoSklearn', 'AutoGloun', 'TPOT', 'LinghtAutoML', 'MlJar', 
                    'AutoPyTorch', 'HyperGBM', 'MH-AutoML', 'Nova Ferramenta'],
            description='Ferramenta:',
            style={'description_width': 'initial'}
        )
        
        self.new_tool_text = widgets.Text(
            placeholder="Digite o nome de uma nova ferramenta",
            description='Outra:',
            disabled=False
        )
        
        self.start_button = widgets.Button(
            description="Iniciar Avalia√ß√£o",
            button_style='primary',
            icon='play'
        )
        
        self.compare_button = widgets.Button(
            description="Comparar Ferramentas",
            button_style='info',
            icon='bar-chart'
        )
        
        self.output = widgets.Output()
        
        self.start_button.on_click(self.start_evaluation)
        self.compare_button.on_click(self.show_comparison)
        
        tools_box = widgets.HBox([self.tool_selector, self.new_tool_text])
        buttons_box = widgets.HBox([self.start_button, self.compare_button])
        
        self.ui = widgets.VBox([
            widgets.HTML("<h1 style='text-align: center; color: #1f77b4;'>Sistema de Avalia√ß√£o Comparativa de AutoML</h1>"),
            widgets.HTML("""
            <div style='background-color: #f7f7f7; padding: 15px; border-radius: 5px; margin-bottom: 20px;'>
                <h3 style='color: #333;'>Como usar:</h3>
                <ol>
                    <li>Selecione uma ferramenta ou digite o nome de uma nova</li>
                    <li>Clique em <b>Iniciar Avalia√ß√£o</b> para avaliar a ferramenta</li>
                    <li>Para cada crit√©rio, indique <b>N</b> (n√∫mero de maneiras que a ferramenta atende):</li>
                    <ul>
                        <li><b>N=0</b>: N√£o atende (0 pontos)</li>
                        <li><b>N=1</b>: Atende parcialmente (1 ponto)</li>
                        <li><b>N‚â•2</b>: Atende totalmente (2 pontos)</li>
                    </ul>
                    <li>Clique em <b>Comparar Ferramentas</b> para ver gr√°ficos comparativos</li>
                </ol>
            </div>
            """),
            tools_box,
            buttons_box,
            self.output
        ])
    
    def display(self):
        display(self.ui)
    
    def start_evaluation(self, b):
        with self.output:
            clear_output()
            tool_name = self.new_tool_text.value if self.new_tool_text.value else self.tool_selector.value
            if not tool_name:
                print("Por favor, selecione ou digite o nome de uma ferramenta")
                return
                
            evaluator = ToolEvaluator(self.comparative_system, tool_name)
            evaluator.display_interface()
    
    def show_comparison(self, b):
        with self.output:
            clear_output()
            if self.comparative_system.all_results.empty:
                print("Nenhuma ferramenta avaliada ainda. Por favor, avalie pelo menos uma ferramenta.")
                return
                
            display(widgets.HTML("<h2 style='color:#1f77b4;'>Compara√ß√£o entre Ferramentas</h2>"))
            
            comparison_data = self.comparative_system.get_comparison_data()
            display(comparison_data)
            
            self.comparative_system.plot_comparison_radar()
            self.comparative_system.plot_comparison_bars()



<IPython.core.display.Javascript object>

In [22]:
# Iniciar a interface
ui = AutoMLEvaluationUI()
ui.display()

VBox(children=(HTML(value="<h1 style='text-align: center; color: #1f77b4;'>Sistema de Avalia√ß√£o Comparativa de‚Ä¶