# Projeto de Sinais e Sistemas para Computa√ß√£o (SSC)

## III - Algoritmo de Classifica√ß√£o

Este notebook implementa o algoritmo de classifica√ß√£o:
- **Random Forest**

### Objetivos:
- 

In [None]:
# Imports necess√°rios


## 1. Carregamento e Prepara√ß√£o dos Dados

Carregamos o dataset de caracter√≠sticas gerado no notebook anterior e preparamos os dados para classifica√ß√£o.

## 2. Pr√©-processamento dos Dados

Preparamos os dados para os algoritmos de classifica√ß√£o: divis√£o treino/teste, normaliza√ß√£o e codifica√ß√£o de labels.

## 3. Implementa√ß√£o dos Algoritmos de Classifica√ß√£o


In [None]:
# Configurar modelos com hiperpar√¢metros otimizados
modelos = {
    'üå≤ Random Forest': {
        'estimador': RandomForestClassifier(
            n_estimators=100,
            max_depth=10,
            min_samples_split=5,
            min_samples_leaf=2,
            random_state=42,
            n_jobs=-1
        ),
        'params_grid': {
            'n_estimators': [50, 100, 200],
            'max_depth': [5, 10, 15, None],
            'min_samples_split': [2, 5, 10]
        }
    }
}

# Dicion√°rio para armazenar resultados
resultados = {
    'modelo': [],
    'acuracia_cv': [],
    'std_cv': [],
    'acuracia_teste': [],
    'tempo_treino': [],
    'melhor_params': []
}

Um exemplo

In [None]:
# Loop de treinamento com otimiza√ß√£o de hiperpar√¢metros
    
    # Medir tempo de execu√ß√£o
    inicio = time.time()
    
    # Grid Search com valida√ß√£o cruzada
    try:
        grid_search = GridSearchCV(
            estimator=config['estimador'],
            param_grid=config['params_grid'],
            cv=cv_folds,
            scoring='accuracy',
            n_jobs=-1,
            verbose=0
        )
        
        # Treinar com grid search
        grid_search.fit(X_train_scaled, y_train_encoded)
        
        # Melhor modelo
        melhor_modelo = grid_search.best_estimator_
        
        # Avalia√ß√£o com valida√ß√£o cruzada
        scores_cv = cross_val_score(
            melhor_modelo, X_train_scaled, y_train_encoded, 
            cv=cv_folds, scoring='accuracy'
        )
        
        # Previs√µes no conjunto de teste
        y_pred = melhor_modelo.predict(X_test_scaled)
        acuracia_teste = accuracy_score(y_test_encoded, y_pred)
        
        # Tempo de execu√ß√£o
        tempo_execucao = time.time() - inicio
        
        # Armazenar resultados
        resultados['modelo'].append(nome)
        resultados['acuracia_cv'].append(scores_cv.mean())
        resultados['std_cv'].append(scores_cv.std())
        resultados['acuracia_teste'].append(acuracia_teste)
        resultados['tempo_treino'].append(tempo_execucao)
        resultados['melhor_params'].append(grid_search.best_params_)
        
        # Mostrar progresso
        print(f"  ‚úÖ Conclu√≠do em {tempo_execucao:.2f}s")
        print(f"  üìä CV Accuracy: {scores_cv.mean():.4f} (¬±{scores_cv.std():.4f})")
        print(f"  üéØ Test Accuracy: {acuracia_teste:.4f}")
        print(f"  ‚öôÔ∏è Melhores par√¢metros: {grid_search.best_params_}")
        
    except Exception as e:
        print(f" Erro no treinamento: {str(e)}")
        # Adicionar valores padr√£o em caso de erro
        resultados['modelo'].append(nome)
        resultados['acuracia_cv'].append(0.0)
        resultados['std_cv'].append(0.0)
        resultados['acuracia_teste'].append(0.0)
        resultados['tempo_treino'].append(0.0)
        resultados['melhor_params'].append({})

print(f"\nüèÅ Treinamento conclu√≠do!")
print("=" * 50)

# Criar DataFrame com resultados
df_resultados = pd.DataFrame(resultados)
df_resultados = df_resultados.sort_values('acuracia_teste', ascending=False)

## 4. Avalia√ß√£o Detalhada dos Modelos
Gerar os gr√°ficos (nesse c√≥digo ele est√° comparando valores, √© s√≥ um exemplo)

In [None]:
# Visualiza√ß√µes comparativas

# 1. Gr√°fico de barras - Acur√°cia
axes[0, 0].bar(range(len(df_resultados)), df_resultados['acuracia_teste'], 
               color=['#FF6B6B', '#4ECDC4', '#45B7D1', '#96CEB4', '#FFEAA7'], alpha=0.8)
axes[0, 0].set_title('üéØ Acur√°cia no Conjunto de Teste', fontweight='bold')
axes[0, 0].set_ylabel('Acur√°cia')
axes[0, 0].set_xticks(range(len(df_resultados)))
axes[0, 0].set_xticklabels([m.replace('üå≤ ', '').replace('üöÄ ', '').replace('üìè ', '').replace('üìä ', '').replace('üß† ', '') 
                           for m in df_resultados['modelo']], rotation=45, ha='right')
axes[0, 0].grid(True, alpha=0.3)
for i, v in enumerate(df_resultados['acuracia_teste']):
    axes[0, 0].text(i, v + 0.005, f'{v:.3f}', ha='center', va='bottom', fontweight='bold')

# 2. Valida√ß√£o Cruzada com barras de erro
x_pos = range(len(df_resultados))
axes[0, 1].bar(x_pos, df_resultados['acuracia_cv'], 
               yerr=df_resultados['std_cv'], capsize=5,
               color=['#FF6B6B', '#4ECDC4', '#45B7D1', '#96CEB4', '#FFEAA7'], alpha=0.8)
axes[0, 1].set_title('üìä Valida√ß√£o Cruzada (5-fold)', fontweight='bold')
axes[0, 1].set_ylabel('Acur√°cia CV')
axes[0, 1].set_xticks(x_pos)
axes[0, 1].set_xticklabels([m.replace('üå≤ ', '').replace('üöÄ ', '').replace('üìè ', '').replace('üìä ', '').replace('üß† ', '') 
                           for m in df_resultados['modelo']], rotation=45, ha='right')
axes[0, 1].grid(True, alpha=0.3)

# 3. Tempo de treinamento
axes[1, 0].bar(range(len(df_resultados)), df_resultados['tempo_treino'], 
               color=['#FF6B6B', '#4ECDC4', '#45B7D1', '#96CEB4', '#FFEAA7'], alpha=0.8)
axes[1, 0].set_title('‚è±Ô∏è Tempo de Treinamento', fontweight='bold')
axes[1, 0].set_ylabel('Tempo (segundos)')
axes[1, 0].set_xticks(range(len(df_resultados)))
axes[1, 0].set_xticklabels([m.replace('üå≤ ', '').replace('üöÄ ', '').replace('üìè ', '').replace('üìä ', '').replace('üß† ', '') 
                           for m in df_resultados['modelo']], rotation=45, ha='right')
axes[1, 0].grid(True, alpha=0.3)
for i, v in enumerate(df_resultados['tempo_treino']):
    axes[1, 0].text(i, v + max(df_resultados['tempo_treino'])*0.01, f'{v:.1f}s', 
                    ha='center', va='bottom', fontweight='bold')

# 4. Compara√ß√£o Acur√°cia vs Tempo
scatter = axes[1, 1].scatter(df_resultados['tempo_treino'], df_resultados['acuracia_teste'], 
                            s=200, alpha=0.7, c=['#FF6B6B', '#4ECDC4', '#45B7D1', '#96CEB4', '#FFEAA7'])
axes[1, 1].set_title('‚öñÔ∏è Acur√°cia vs Tempo de Treinamento', fontweight='bold')
axes[1, 1].set_xlabel('Tempo de Treinamento (s)')
axes[1, 1].set_ylabel('Acur√°cia')
axes[1, 1].grid(True, alpha=0.3)

# Adicionar labels aos pontos
for i, (x, y, nome) in enumerate(zip(df_resultados['tempo_treino'], 
                                    df_resultados['acuracia_teste'], 
                                    df_resultados['modelo'])):
    nome_curto = nome.replace('üå≤ ', '').replace('üöÄ ', '').replace('üìè ', '').replace('üìä ', '').replace('üß† ', '')
    axes[1, 1].annotate(nome_curto, (x, y), xytext=(5, 5), textcoords='offset points',
                       fontsize=9, ha='left')

plt.tight_layout()
plt.show()

# Tabela resumo
print("üìã TABELA RESUMO DOS RESULTADOS:")
print("=" * 80)
print(f"{'Modelo':<20} {'Acur√°cia CV':<12} {'Std CV':<10} {'Acur√°cia Teste':<15} {'Tempo (s)':<10}")
print("-" * 80)
for _, row in df_resultados.iterrows():
    nome_limpo = row['modelo'].replace('üå≤ ', '').replace('üöÄ ', '').replace('üìè ', '').replace('üìä ', '').replace('üß† ', '')
    print(f"{nome_limpo:<20} {row['acuracia_cv']:<12.4f} {row['std_cv']:<10.4f} {row['acuracia_teste']:<15.4f} {row['tempo_treino']:<10.2f}")

print("\nüèÜ MELHOR MODELO:", df_resultados.iloc[0]['modelo'])
print(f"   üéØ Acur√°cia: {df_resultados.iloc[0]['acuracia_teste']:.4f}")
print(f"   ‚öôÔ∏è  Par√¢metros: {df_resultados.iloc[0]['melhor_params']}")

In [None]:
# An√°lise detalhada do melhor modelo
melhor_modelo_nome = df_resultados.iloc[0]['modelo']
melhor_params = df_resultados.iloc[0]['melhor_params']

print(f"üîç AN√ÅLISE DETALHADA - {melhor_modelo_nome}")
print("=" * 60)

# Retreinar o melhor modelo para an√°lise detalhada
melhor_config = modelos[melhor_modelo_nome]
modelo_final = melhor_config['estimador'].set_params(**melhor_params)
modelo_final.fit(X_train_scaled, y_train_encoded)

# Previs√µes
y_pred_final = modelo_final.predict(X_test_scaled)
y_pred_proba = modelo_final.predict_proba(X_test_scaled) if hasattr(modelo_final, 'predict_proba') else None

# Matriz de confus√£o
cm = confusion_matrix(y_test_encoded, y_pred_final)
class_names = label_encoder.classes_

# Visualiza√ß√£o da matriz de confus√£o
plt.figure(figsize=(10, 8))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', 
            xticklabels=class_names, yticklabels=class_names,
            cbar_kws={'label': 'N√∫mero de Amostras'})
plt.title(f'üéØ Matriz de Confus√£o - {melhor_modelo_nome}', fontsize=14, fontweight='bold')
plt.xlabel('Classe Predita', fontweight='bold')
plt.ylabel('Classe Real', fontweight='bold')
plt.tight_layout()
plt.show()

# Relat√≥rio de classifica√ß√£o
print(f"\nüìä RELAT√ìRIO DE CLASSIFICA√á√ÉO:")
print("=" * 50)
report = classification_report(y_test_encoded, y_pred_final, 
                             target_names=class_names, output_dict=True)

# Exibir m√©tricas por classe
for classe in class_names:
    metrics = report[classe]
    print(f"\nüè∑Ô∏è  Classe '{classe}':")
    print(f"   Precis√£o:  {metrics['precision']:.4f}")
    print(f"   Recall:    {metrics['recall']:.4f}")
    print(f"   F1-Score:  {metrics['f1-score']:.4f}")
    print(f"   Suporte:   {metrics['support']:.0f} amostras")

# M√©tricas globais
print(f"\nüåê M√âTRICAS GLOBAIS:")
print(f"   Acur√°cia:     {report['accuracy']:.4f}")
print(f"   Macro Avg:    {report['macro avg']['f1-score']:.4f}")
print(f"   Weighted Avg: {report['weighted avg']['f1-score']:.4f}")

# An√°lise de erro por classe
print(f"\n‚ùå AN√ÅLISE DE ERROS:")
print("=" * 30)
for i, classe_real in enumerate(class_names):
    for j, classe_pred in enumerate(class_names):
        if i != j and cm[i, j] > 0:
            taxa_erro = cm[i, j] / cm[i, :].sum() * 100
            print(f"   {classe_real} ‚Üí {classe_pred}: {cm[i, j]} erros ({taxa_erro:.1f}%)")

# Calcular m√©tricas adicionais
print(f"\nüìà M√âTRICAS ADICIONAIS:")
print("=" * 25)

# Precis√£o balanceada
balanced_acc = balanced_accuracy_score(y_test_encoded, y_pred_final)
print(f"   Acur√°cia Balanceada: {balanced_acc:.4f}")

# Kappa de Cohen
kappa = cohen_kappa_score(y_test_encoded, y_pred_final)
print(f"   Kappa de Cohen: {kappa:.4f}")

# MCC (Matthews Correlation Coefficient) - apenas para classifica√ß√£o bin√°ria
if len(class_names) == 2:
    mcc = matthews_corrcoef(y_test_encoded, y_pred_final)
    print(f"   Matthews Correlation: {mcc:.4f}")

print(f"\n‚úÖ An√°lise do melhor modelo conclu√≠da!")

## 5. Conclus√µes

### üéØ Principais Descobertas

1. **Trade-offs**:
2. **Robustez**:
3. **Otimiza√ß√£o**:

### üìä M√©tricas Importantes

- 


### üíæ Salvamento do Modelo

O melhor modelo ser√° salvo para uso futuro e implementa√ß√£o em produ√ß√£o.