# Otimização de Modelos Preditivos para Sucesso de Startups

## 🎯 **Objetivo Principal**
Superar a barreira de **80% de acurácia** na predição de sucesso de startups, mantendo a interpretabilidade dos resultados. 

**Meta:** Atingir ou superar acurácia ≥ 80% através de múltiplas estratégias de otimização.

## 📊 **Dataset Unificado**
Utilizamos o dataset unificado que combina as melhores features das três hipóteses:
- **H1 - Capital**: Features de financiamento e crescimento
- **H2 - Geografia**: Features de localização
- **H3 - Operacional**: Features de maturidade operacional

## 🚀 **Estratégias de Otimização**
1. **Teste de Múltiplos Algoritmos**: Logistic Regression, Random Forest, Gradient Boosting, SVM, XGBoost
2. **Ajuste de Hiperparâmetros**: GridSearchCV e RandomizedSearchCV
3. **Engenharia de Features**: Seleção, interações e transformações
4. **Técnicas de Ensemble**: Voting, Stacking e Bagging
5. **Balanceamento de Classes**: SMOTE, class_weight, threshold tuning

## 📈 **Métricas de Avaliação**
- Acurácia (objetivo principal ≥ 80%)
- Precisão, Recall, F1-Score
- ROC-AUC e Precision-Recall AUC
- Matriz de Confusão detalhada

In [None]:
# Importação de bibliotecas para otimização de modelos
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Modelos de Machine Learning
from sklearn.model_selection import (
    train_test_split, cross_val_score, StratifiedKFold, 
    GridSearchCV, RandomizedSearchCV
)
from sklearn.ensemble import (
    RandomForestClassifier, GradientBoostingClassifier,
    VotingClassifier, BaggingClassifier, StackingClassifier
)
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier

# Métricas e avaliação
from sklearn.metrics import (
    accuracy_score, precision_score, recall_score, f1_score,
    confusion_matrix, classification_report, roc_auc_score,
    roc_curve, precision_recall_curve, make_scorer
)

# Pré-processamento e feature engineering
from sklearn.preprocessing import StandardScaler, PolynomialFeatures
from sklearn.feature_selection import SelectKBest, f_classif, RFE

# Balanceamento de classes
from sklearn.utils.class_weight import compute_class_weight

# XGBoost
try:
    import xgboost as xgb
    xgb_available = True
    print("✅ XGBoost disponível")
except ImportError:
    xgb_available = False
    print("⚠️ XGBoost não disponível - usando apenas RF e GB")

import warnings
warnings.filterwarnings('ignore')

plt.style.use('default')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 8)

print("✅ Bibliotecas de otimização importadas")
print("🚀 Iniciando processo de otimização para atingir 80% de acurácia")

In [None]:
# Carregamento do dataset unificado
print("📊 CARREGANDO DATASET UNIFICADO")
print("=" * 40)

train_df = pd.read_csv('database/unified_train.csv')
test_df = pd.read_csv('database/unified_test.csv')
features_summary = pd.read_csv('database/unified_features_summary.csv')

print(f"✅ Dados carregados:")
print(f"   • Train: {train_df.shape}")
print(f"   • Test: {test_df.shape}")
print(f"   • Features: {len(features_summary)}")

# Separar features e target
X = train_df.drop('labels', axis=1)
y = train_df['labels']
X_test = test_df.copy()

print(f"\n📋 Estrutura dos dados:")
print(f"   • Features (X): {X.shape}")
print(f"   • Target (y): {y.shape}")
print(f"   • Test set: {X_test.shape}")
print(f"   • Distribuição target: Sucesso {y.mean():.1%}, Fracasso {1-y.mean():.1%}")

# Verificar consistência
print(f"\n🔍 Verificações de qualidade:")
print(f"   • Valores nulos em X: {X.isnull().sum().sum()}")
print(f"   • Valores nulos em X_test: {X_test.isnull().sum().sum()}")
print(f"   • Features consistentes: {set(X.columns) == set(X_test.columns)}")

## 📊 **Análise Inicial dos Dados para Otimização**

Antes de implementar as estratégias de otimização, vamos analisar os dados para identificar desafios específicos que podem estar limitando a acurácia atual.

In [None]:
# Análise inicial para identificar desafios na otimização
print("🔍 ANÁLISE INICIAL PARA OTIMIZAÇÃO")
print("=" * 45)

# Análise da distribuição de classes
class_distribution = y.value_counts(normalize=True)
print(f"\n📊 Distribuição de classes:")
print(f"   • Classe 0 (Fracasso): {class_distribution[0]:.3f} ({class_distribution[0]*100:.1f}%)")
print(f"   • Classe 1 (Sucesso): {class_distribution[1]:.3f} ({class_distribution[1]*100:.1f}%)")

imbalance_ratio = class_distribution[0] / class_distribution[1]
print(f"   • Ratio de desbalanceamento: {imbalance_ratio:.2f}:1")

if imbalance_ratio > 1.5:
    print("   ⚠️ DESBALANCEAMENTO DETECTADO - Implementar técnicas de balanceamento")

# Análise de features correlacionadas
print(f"\n🔗 Análise de correlações:")
corr_matrix = X.corr()
high_corr_pairs = []

for i in range(len(corr_matrix.columns)):
    for j in range(i+1, len(corr_matrix.columns)):
        corr_val = abs(corr_matrix.iloc[i, j])
        if corr_val > 0.8:
            high_corr_pairs.append((corr_matrix.columns[i], corr_matrix.columns[j], corr_val))

if high_corr_pairs:
    print(f"   ⚠️ {len(high_corr_pairs)} pares de features altamente correlacionadas (>0.8):")
    for feat1, feat2, corr in high_corr_pairs[:3]:
        print(f"      • {feat1} ↔ {feat2}: {corr:.3f}")
else:
    print("   ✅ Nenhuma correlação excessiva detectada")

# Análise de features com baixa variância
low_variance_features = []
for col in X.columns:
    if X[col].std() < 0.01:
        low_variance_features.append(col)

if low_variance_features:
    print(f"\n   ⚠️ Features com baixa variância: {low_variance_features}")
else:
    print(f"\n   ✅ Todas as features apresentam variância adequada")

print(f"\n🎯 ESTRATÉGIAS RECOMENDADAS:")
if imbalance_ratio > 1.5:
    print("   1. Aplicar técnicas de balanceamento (class_weight, SMOTE)")
if high_corr_pairs:
    print("   2. Considerar remoção de features correlacionadas")
print("   3. Testar ensemble methods para melhor performance")
print("   4. Ajustar hiperparâmetros com validação cruzada")

## 🔧 **Estratégia 1: Otimização de Hiperparâmetros com GridSearchCV**

Implementação sistemática de busca em grade para encontrar os melhores hiperparâmetros para cada algoritmo. Esta estratégia foca na maximização da acurácia através do ajuste fino dos parâmetros.

**Objetivos:**
- Otimizar Random Forest, Gradient Boosting e XGBoost
- Usar validação cruzada estratificada (5-fold)
- Comparar performance antes e depois da otimização

In [None]:
# ESTRATÉGIA 1: OTIMIZAÇÃO DE HIPERPARÂMETROS
print("🔧 ESTRATÉGIA 1: OTIMIZAÇÃO DE HIPERPARÂMETROS")
print("=" * 50)

# Função para avaliação padronizada
def avaliar_modelo(model, X_test, y_test, nome_modelo):
    """Função padronizada para avaliação de modelos"""
    y_pred = model.predict(X_test)
    y_pred_proba = model.predict_proba(X_test)[:, 1] if hasattr(model, 'predict_proba') else None
    
    accuracy = accuracy_score(y_test, y_pred)
    precision = precision_score(y_test, y_pred)
    recall = recall_score(y_test, y_pred)
    f1 = f1_score(y_test, y_pred)
    
    print(f"\n🎯 {nome_modelo}:")
    print(f"   • Acurácia: {accuracy:.4f} ({accuracy*100:.2f}%)")
    print(f"   • Precisão: {precision:.4f}")
    print(f"   • Recall: {recall:.4f}")
    print(f"   • F1-Score: {f1:.4f}")
    
    return {
        'modelo': nome_modelo,
        'accuracy': accuracy,
        'precision': precision,
        'recall': recall,
        'f1': f1,
        'predictions': y_pred,
        'probabilities': y_pred_proba
    }

# Configuração dos parâmetros para otimização
param_grids = {}

# Random Forest sempre disponível
param_grids['RandomForest'] = {
    'n_estimators': [100, 200, 300],
    'max_depth': [10, 15, 20, None],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4],
    'class_weight': ['balanced', None]
}

# Gradient Boosting sempre disponível
param_grids['GradientBoosting'] = {
    'n_estimators': [100, 200, 300],
    'learning_rate': [0.01, 0.1, 0.2],
    'max_depth': [3, 5, 7],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

# XGBoost apenas se disponível
if xgb_available:
    param_grids['XGBoost'] = {
        'n_estimators': [100, 200, 300],
        'learning_rate': [0.01, 0.1, 0.2],
        'max_depth': [3, 5, 7],
        'min_child_weight': [1, 3, 5],
        'subsample': [0.8, 0.9, 1.0],
        'colsample_bytree': [0.8, 0.9, 1.0]
    }

# Divisão dos dados para treinamento e validação
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

print(f"✅ Divisão dos dados:")
print(f"   • Train: {X_train.shape}")
print(f"   • Test: {X_test.shape}")

# Implementação do GridSearchCV para cada modelo
modelos_otimizados = {}
resultados_otimizacao = []

print("\n🔍 Iniciando otimização de hiperparâmetros...")
print("⏱️ Este processo pode demorar alguns minutos...")

for nome_modelo, params in param_grids.items():
    print(f"\n🔄 Otimizando {nome_modelo}...")
    
    # Definir o modelo base
    if nome_modelo == 'RandomForest':
        modelo_base = RandomForestClassifier(random_state=42)
    elif nome_modelo == 'GradientBoosting':
        modelo_base = GradientBoostingClassifier(random_state=42)
    elif nome_modelo == 'XGBoost' and xgb_available:
        modelo_base = xgb.XGBClassifier(random_state=42, eval_metric='logloss')
    else:
        continue
    
    # GridSearchCV com validação cruzada estratificada
    grid_search = GridSearchCV(
        estimator=modelo_base,
        param_grid=params,
        scoring='accuracy',
        cv=StratifiedKFold(n_splits=5, shuffle=True, random_state=42),
        n_jobs=-1,
        verbose=1
    )
    
    # Treinar e encontrar melhores parâmetros
    grid_search.fit(X_train, y_train)
    
    # Armazenar modelo otimizado
    modelos_otimizados[nome_modelo] = grid_search.best_estimator_
    
    # Avaliar modelo otimizado
    resultado = avaliar_modelo(grid_search.best_estimator_, X_test, y_test, f"{nome_modelo} (Otimizado)")
    resultado['best_params'] = grid_search.best_params_
    resultado['cv_score'] = grid_search.best_score_
    resultados_otimizacao.append(resultado)
    
    print(f"   📈 Melhor CV Score: {grid_search.best_score_:.4f}")
    print(f"   🎛️ Melhores parâmetros: {grid_search.best_params_}")

print("\n✅ Otimização de hiperparâmetros concluída!")

## ⚖️ **Estratégia 2: Balanceamento de Classes e Feature Engineering**

Para lidar com possível desbalanceamento de classes e melhorar a qualidade das features. Esta estratégia implementa técnicas de preprocessamento avançadas para maximizar o potencial dos dados.

**Técnicas implementadas:**
- **Class Weight Balancing**: Ajuste automático de pesos das classes
- **SMOTE**: Synthetic Minority Oversampling Technique
- **Feature Scaling**: Normalização e padronização
- **Feature Selection**: Seleção das features mais importantes

In [None]:
# ESTRATÉGIA 2: BALANCEAMENTO E FEATURE ENGINEERING
print("⚖️ ESTRATÉGIA 2: BALANCEAMENTO E FEATURE ENGINEERING")
print("=" * 55)

# Importar bibliotecas específicas para balanceamento
try:
    from imblearn.over_sampling import SMOTE
    from imblearn.pipeline import Pipeline as ImbPipeline
    smote_available = True
    print("✅ SMOTE disponível")
except ImportError:
    smote_available = False
    print("⚠️ SMOTE não disponível - usando apenas class_weight")

from sklearn.feature_selection import SelectKBest, f_classif, RFE
from sklearn.preprocessing import StandardScaler, MinMaxScaler

# 1. ANÁLISE E SELEÇÃO DE FEATURES
print("\n🔍 SELEÇÃO DE FEATURES:")

# Seleção univariada com SelectKBest
selector = SelectKBest(score_func=f_classif, k=15)  # Seleciona top 15 features
X_train_selected = selector.fit_transform(X_train, y_train)
X_test_selected = selector.transform(X_test)

# Obter nomes das features selecionadas
selected_features = X.columns[selector.get_support()]
feature_scores = selector.scores_[selector.get_support()]

print(f"📊 Top 15 features selecionadas:")
for feat, score in zip(selected_features, feature_scores):
    print(f"   • {feat}: {score:.2f}")

# 2. FEATURE SCALING
print(f"\n🎚️ NORMALIZAÇÃO DE FEATURES:")

# StandardScaler
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train_selected)
X_test_scaled = scaler.transform(X_test_selected)

print("   ✅ Features normalizadas com StandardScaler")

# 3. TÉCNICAS DE BALANCEAMENTO
print(f"\n⚖️ BALANCEAMENTO DE CLASSES:")

# Classe com class_weight
modelos_balanceados = {}

# Random Forest com class_weight balanced
rf_balanced = RandomForestClassifier(
    n_estimators=200,
    max_depth=15,
    class_weight='balanced',
    random_state=42
)
rf_balanced.fit(X_train_scaled, y_train)
modelos_balanceados['RF_ClassWeight'] = rf_balanced

print("   ✅ Random Forest com class_weight='balanced'")

# Gradient Boosting (não tem class_weight nativo, usamos sample_weight)
gb_balanced = GradientBoostingClassifier(
    n_estimators=200,
    learning_rate=0.1,
    max_depth=5,
    random_state=42
)

# Calcular sample_weight manualmente para balanceamento
from sklearn.utils.class_weight import compute_sample_weight
sample_weights = compute_sample_weight('balanced', y_train)
gb_balanced.fit(X_train_scaled, y_train, sample_weight=sample_weights)
modelos_balanceados['GB_SampleWeight'] = gb_balanced

print("   ✅ Gradient Boosting com sample_weight balanceado")

# 4. SMOTE (se disponível)
if smote_available:
    print("\n🔄 Aplicando SMOTE:")
    
    # SMOTE para oversampling da classe minoritária
    smote = SMOTE(random_state=42)
    X_train_smote, y_train_smote = smote.fit_resample(X_train_scaled, y_train)
    
    print(f"   📈 Dataset original: {len(y_train)} amostras")
    print(f"   📈 Dataset com SMOTE: {len(y_train_smote)} amostras")
    print(f"   📊 Nova distribuição: {np.bincount(y_train_smote)}")
    
    # Treinar modelos com dados balanceados por SMOTE
    rf_smote = RandomForestClassifier(n_estimators=200, max_depth=15, random_state=42)
    rf_smote.fit(X_train_smote, y_train_smote)
    modelos_balanceados['RF_SMOTE'] = rf_smote
    
    gb_smote = GradientBoostingClassifier(n_estimators=200, learning_rate=0.1, max_depth=5, random_state=42)
    gb_smote.fit(X_train_smote, y_train_smote)
    modelos_balanceados['GB_SMOTE'] = gb_smote
    
    print("   ✅ Modelos treinados com SMOTE")

# 5. AVALIAÇÃO DOS MODELOS BALANCEADOS
print(f"\n📊 AVALIAÇÃO DOS MODELOS BALANCEADOS:")

resultados_balanceamento = []

for nome_modelo, modelo in modelos_balanceados.items():
    resultado = avaliar_modelo(modelo, X_test_scaled, y_test, nome_modelo)
    resultados_balanceamento.append(resultado)

print("\n✅ Estratégia de balanceamento concluída!")

## 🎭 **Estratégia 3: Ensemble Methods e Stacking**

Combinação inteligente de múltiplos modelos para maximizar a performance. Esta estratégia utiliza a sabedoria coletiva de diferentes algoritmos para superar limitações individuais.

**Métodos de Ensemble:**
- **Voting Classifier**: Combinação por votação (hard e soft voting)
- **Bagging**: Bootstrap Aggregating com diferentes algoritmos
- **Stacking**: Meta-learner para combinar predições de base learners
- **Blending**: Média ponderada das predições dos melhores modelos

In [None]:
# ESTRATÉGIA 3: ENSEMBLE METHODS E STACKING
print("🎭 ESTRATÉGIA 3: ENSEMBLE METHODS E STACKING")
print("=" * 50)

from sklearn.ensemble import VotingClassifier, BaggingClassifier, StackingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC

# Preparar modelos base (usar os melhores modelos das estratégias anteriores)
print("🔧 Preparando modelos base para ensemble...")

# Modelos base otimizados
base_models = [
    ('rf', RandomForestClassifier(
        n_estimators=200, max_depth=15, min_samples_split=2, 
        class_weight='balanced', random_state=42
    )),
    ('gb', GradientBoostingClassifier(
        n_estimators=200, learning_rate=0.1, max_depth=5, 
        min_samples_split=2, random_state=42
    )),
    ('svm', SVC(
        C=1.0, kernel='rbf', probability=True, 
        class_weight='balanced', random_state=42
    ))
]

# Adicionar XGBoost apenas se disponível
if xgb_available:
    base_models.append(('xgb', xgb.XGBClassifier(
        n_estimators=200, learning_rate=0.1, max_depth=5, 
        random_state=42, eval_metric='logloss'
    )))

print(f"   ✅ {len(base_models)} modelos base preparados")

# 1. VOTING CLASSIFIER
print(f"\n🗳️ VOTING CLASSIFIER:")

# Hard Voting
voting_hard = VotingClassifier(
    estimators=base_models,
    voting='hard'
)
voting_hard.fit(X_train_scaled, y_train)

# Soft Voting
voting_soft = VotingClassifier(
    estimators=base_models,
    voting='soft'
)
voting_soft.fit(X_train_scaled, y_train)

print("   ✅ Hard Voting e Soft Voting treinados")

# 2. BAGGING ENSEMBLE
print(f"\n🎒 BAGGING ENSEMBLE:")

# Bagging com diferentes modelos base
bagging_rf = BaggingClassifier(
    estimator=RandomForestClassifier(n_estimators=50, random_state=42),
    n_estimators=10,
    random_state=42
)
bagging_rf.fit(X_train_scaled, y_train)

bagging_gb = BaggingClassifier(
    estimator=GradientBoostingClassifier(n_estimators=50, random_state=42),
    n_estimators=10,
    random_state=42
)
bagging_gb.fit(X_train_scaled, y_train)

print("   ✅ Bagging com RF e GB treinados")

# 3. STACKING CLASSIFIER
print(f"\n🏗️ STACKING CLASSIFIER:")

# Meta-learner (Logistic Regression)
meta_learner = LogisticRegression(class_weight='balanced', random_state=42)

# Stacking com validação cruzada
stacking_clf = StackingClassifier(
    estimators=base_models,
    final_estimator=meta_learner,
    cv=5,
    stack_method='predict_proba'
)
stacking_clf.fit(X_train_scaled, y_train)

print("   ✅ Stacking Classifier treinado")

# 4. BLENDING PERSONALIZADO
print(f"\n🍯 BLENDING PERSONALIZADO:")

# Treinar modelos individuais e obter predições
individual_predictions = {}
individual_probabilities = {}

for name, model in base_models:
    model.fit(X_train_scaled, y_train)
    individual_predictions[name] = model.predict(X_test_scaled)
    individual_probabilities[name] = model.predict_proba(X_test_scaled)[:, 1]

# Criar função de blending com pesos otimizados
def create_blended_prediction(probabilities_dict, weights=None):
    """Criar predição blended com pesos personalizados"""
    if weights is None:
        weights = np.array([0.25, 0.25, 0.3, 0.2])  # Pesos balanceados
    
    blended_proba = np.zeros(len(list(probabilities_dict.values())[0]))
    
    for i, (name, proba) in enumerate(probabilities_dict.items()):
        blended_proba += weights[i] * proba
    
    return (blended_proba > 0.5).astype(int), blended_proba

# Aplicar blending
blended_pred, blended_proba = create_blended_prediction(individual_probabilities)

print("   ✅ Blending personalizado aplicado")

# 5. AVALIAÇÃO DOS ENSEMBLE METHODS
print(f"\n📊 AVALIAÇÃO DOS ENSEMBLE METHODS:")

ensemble_models = {
    'Voting_Hard': voting_hard,
    'Voting_Soft': voting_soft,
    'Bagging_RF': bagging_rf,
    'Bagging_GB': bagging_gb,
    'Stacking': stacking_clf
}

resultados_ensemble = []

# Avaliar modelos de ensemble tradicionais
for nome_modelo, modelo in ensemble_models.items():
    resultado = avaliar_modelo(modelo, X_test_scaled, y_test, nome_modelo)
    resultados_ensemble.append(resultado)

# Avaliar blending personalizado
blended_accuracy = accuracy_score(y_test, blended_pred)
blended_precision = precision_score(y_test, blended_pred)
blended_recall = recall_score(y_test, blended_pred)
blended_f1 = f1_score(y_test, blended_pred)

print(f"\n🎯 Blending_Personalizado:")
print(f"   • Acurácia: {blended_accuracy:.4f} ({blended_accuracy*100:.2f}%)")
print(f"   • Precisão: {blended_precision:.4f}")
print(f"   • Recall: {blended_recall:.4f}")
print(f"   • F1-Score: {blended_f1:.4f}")

resultados_ensemble.append({
    'modelo': 'Blending_Personalizado',
    'accuracy': blended_accuracy,
    'precision': blended_precision,
    'recall': blended_recall,
    'f1': blended_f1,
    'predictions': blended_pred,
    'probabilities': blended_proba
})

print("\n✅ Ensemble methods concluídos!")

## 📈 **Comparação Final e Seleção do Melhor Modelo**

Análise comparativa completa de todas as estratégias implementadas. Esta seção consolida os resultados e identifica o modelo com melhor performance para atingir nossa meta de **≥80% de acurácia**.

**Critérios de avaliação:**
- **Acurácia primária**: Meta de ≥80%
- **Estabilidade**: Consistência entre métricas
- **Interpretabilidade**: Capacidade de explicação
- **Generalização**: Performance em validação cruzada

In [None]:
# COMPARAÇÃO FINAL E SELEÇÃO DO MELHOR MODELO
print("📈 COMPARAÇÃO FINAL E SELEÇÃO DO MELHOR MODELO")
print("=" * 50)

# Consolidar todos os resultados
todos_resultados = []

# Adicionar resultados das três estratégias
if 'resultados_otimizacao' in locals():
    todos_resultados.extend(resultados_otimizacao)
    
if 'resultados_balanceamento' in locals():
    todos_resultados.extend(resultados_balanceamento)
    
if 'resultados_ensemble' in locals():
    todos_resultados.extend(resultados_ensemble)

# Criar DataFrame para comparação
df_comparacao = pd.DataFrame(todos_resultados)

# Ordenar por acurácia decrescente
df_comparacao = df_comparacao.sort_values('accuracy', ascending=False)

print("🏆 RANKING DOS MODELOS (por acurácia):")
print("=" * 70)

for idx, row in df_comparacao.iterrows():
    accuracy_pct = row['accuracy'] * 100
    status = "🎯 META ATINGIDA!" if row['accuracy'] >= 0.80 else "❌ Abaixo da meta"
    
    print(f"{idx+1:2d}. {row['modelo']:<25} | "
          f"Acc: {accuracy_pct:5.2f}% | "
          f"Prec: {row['precision']:.3f} | "
          f"Rec: {row['recall']:.3f} | "
          f"F1: {row['f1']:.3f} | "
          f"{status}")

# Identificar modelos que atingiram a meta
modelos_meta = df_comparacao[df_comparacao['accuracy'] >= 0.80]

print(f"\n🎯 MODELOS QUE ATINGIRAM A META (≥80%):")
if len(modelos_meta) > 0:
    print(f"   ✅ {len(modelos_meta)} modelo(s) atingiu(ram) a meta!")
    
    # Selecionar o melhor modelo
    melhor_modelo = modelos_meta.iloc[0]
    print(f"\n🥇 MELHOR MODELO SELECIONADO:")
    print(f"   📛 Nome: {melhor_modelo['modelo']}")
    print(f"   🎯 Acurácia: {melhor_modelo['accuracy']:.4f} ({melhor_modelo['accuracy']*100:.2f}%)")
    print(f"   🎗️ Precisão: {melhor_modelo['precision']:.4f}")
    print(f"   🔄 Recall: {melhor_modelo['recall']:.4f}")
    print(f"   ⚖️ F1-Score: {melhor_modelo['f1']:.4f}")
    
else:
    print("   ❌ Nenhum modelo atingiu a meta de 80%")
    melhor_modelo = df_comparacao.iloc[0]
    print(f"\n🥈 MELHOR MODELO DISPONÍVEL:")
    print(f"   📛 Nome: {melhor_modelo['modelo']}")
    print(f"   🎯 Acurácia: {melhor_modelo['accuracy']:.4f} ({melhor_modelo['accuracy']*100:.2f}%)")
    print(f"   💡 Recomendação: Considerar mais dados ou features adicionais")

# Visualizar comparação
plt.figure(figsize=(14, 8))

# Gráfico de barras com acurácia
plt.subplot(2, 2, 1)
colors = ['green' if acc >= 0.80 else 'orange' if acc >= 0.75 else 'red' 
          for acc in df_comparacao['accuracy']]

plt.barh(range(len(df_comparacao)), df_comparacao['accuracy']*100, color=colors, alpha=0.7)
plt.yticks(range(len(df_comparacao)), df_comparacao['modelo'], fontsize=8)
plt.xlabel('Acurácia (%)')
plt.title('Comparação de Acurácia dos Modelos')
plt.axvline(x=80, color='red', linestyle='--', alpha=0.7, label='Meta (80%)')
plt.legend()
plt.grid(axis='x', alpha=0.3)

# Scatter plot: Precision vs Recall
plt.subplot(2, 2, 2)
plt.scatter(df_comparacao['precision'], df_comparacao['recall'], 
           c=[colors[i] for i in range(len(df_comparacao))], alpha=0.7, s=100)
plt.xlabel('Precisão')
plt.ylabel('Recall')
plt.title('Precisão vs Recall')
plt.grid(True, alpha=0.3)

# Comparação de métricas (radar/spider)
plt.subplot(2, 2, 3)
metricas = ['accuracy', 'precision', 'recall', 'f1']
top3_models = df_comparacao.head(3)

x = np.arange(len(metricas))
width = 0.25

for i, (idx, model) in enumerate(top3_models.iterrows()):
    valores = [model[m] for m in metricas]
    plt.bar(x + i*width, valores, width, label=model['modelo'][:15], alpha=0.7)

plt.xlabel('Métricas')
plt.ylabel('Score')
plt.title('Top 3 Modelos - Todas as Métricas')
plt.xticks(x + width, metricas)
plt.legend(fontsize=8)
plt.grid(axis='y', alpha=0.3)

# F1-Score ranking
plt.subplot(2, 2, 4)
df_f1_sorted = df_comparacao.sort_values('f1', ascending=True)
plt.barh(range(len(df_f1_sorted)), df_f1_sorted['f1'], 
         color='purple', alpha=0.7)
plt.yticks(range(len(df_f1_sorted)), df_f1_sorted['modelo'], fontsize=8)
plt.xlabel('F1-Score')
plt.title('Ranking por F1-Score')
plt.grid(axis='x', alpha=0.3)

plt.tight_layout()
plt.show()

# Matriz de confusão do melhor modelo
if 'predictions' in melhor_modelo and melhor_modelo['predictions'] is not None:
    plt.figure(figsize=(10, 4))
    
    # Matriz de confusão
    plt.subplot(1, 2, 1)
    cm = confusion_matrix(y_test, melhor_modelo['predictions'])
    sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', 
                xticklabels=['Fracasso', 'Sucesso'], 
                yticklabels=['Fracasso', 'Sucesso'])
    plt.title(f'Matriz de Confusão - {melhor_modelo["modelo"]}')
    plt.ylabel('Valores Reais')
    plt.xlabel('Predições')
    
    # Curva ROC (se houver probabilidades)
    if 'probabilities' in melhor_modelo and melhor_modelo['probabilities'] is not None:
        plt.subplot(1, 2, 2)
        fpr, tpr, _ = roc_curve(y_test, melhor_modelo['probabilities'])
        auc_score = roc_auc_score(y_test, melhor_modelo['probabilities'])
        
        plt.plot(fpr, tpr, linewidth=2, label=f'AUC = {auc_score:.3f}')
        plt.plot([0, 1], [0, 1], 'k--', alpha=0.5)
        plt.xlabel('Taxa de Falsos Positivos')
        plt.ylabel('Taxa de Verdadeiros Positivos')
        plt.title(f'Curva ROC - {melhor_modelo["modelo"]}')
        plt.legend()
        plt.grid(alpha=0.3)
    
    plt.tight_layout()
    plt.show()

print(f"\n✅ Análise comparativa concluída!")
print(f"🎯 {'META ATINGIDA!' if melhor_modelo['accuracy'] >= 0.80 else 'Meta não atingida - considerar otimizações adicionais'}")

## 🎯 **Geração de Predições Finais para Submissão**

Com o melhor modelo selecionado, geramos as predições finais para o conjunto de teste e preparamos o arquivo de submissão no formato requerido pela competição.

**Processo de submissão:**
1. Aplicar mesmo preprocessamento usado no treino
2. Gerar predições com o melhor modelo
3. Criar arquivo `submission.csv`
4. Validar formato e exportar resultados

In [None]:
# GERAÇÃO DE PREDIÇÕES FINAIS PARA SUBMISSÃO
print("🎯 GERAÇÃO DE PREDIÇÕES FINAIS PARA SUBMISSÃO")
print("=" * 50)

# Carregar dados de teste para submissão
print("📁 Carregando dados de teste...")
test_data = pd.read_csv('database/unified_test.csv')

print(f"   ✅ Dados de teste carregados: {test_data.shape}")
print(f"   📊 Features disponíveis: {test_data.columns.tolist()}")

# Preparar dados de teste com mesmo preprocessamento
print(f"\n🔧 Aplicando preprocessamento...")

# Verificar se precisamos aplicar feature selection e scaling
if 'selected_features' in locals() and 'scaler' in locals():
    # Aplicar mesma seleção de features usada no melhor modelo
    test_data_selected = test_data[selected_features]
    test_data_scaled = scaler.transform(test_data_selected)
    print(f"   ✅ Feature selection aplicada: {len(selected_features)} features")
    print(f"   ✅ Normalização aplicada")
    X_test_final = test_data_scaled
else:
    # Usar dados originais se não houve preprocessing especial
    X_test_final = test_data.values
    print(f"   ℹ️ Usando dados originais (sem preprocessing especial)")

# Recuperar o melhor modelo para fazer predições
if 'melhor_modelo' in locals():
    modelo_final = melhor_modelo['modelo']
    print(f"\n🥇 Usando modelo: {modelo_final}")
    
    # Determinar qual modelo usar baseado no nome
    if 'Voting_Soft' in modelo_final and 'voting_soft' in locals():
        modelo_predicao = voting_soft
    elif 'Stacking' in modelo_final and 'stacking_clf' in locals():
        modelo_predicao = stacking_clf
    elif 'Blending' in modelo_final:
        # Para blending, precisamos usar os modelos individuais
        print("   🍯 Usando blending personalizado")
        modelo_predicao = None  # Será tratado separadamente
    elif 'RF_ClassWeight' in modelo_final and 'modelos_balanceados' in locals():
        modelo_predicao = modelos_balanceados['RF_ClassWeight']
    elif 'XGBoost' in modelo_final and 'modelos_otimizados' in locals() and xgb_available:
        modelo_predicao = modelos_otimizados['XGBoost']
    else:
        # Fallback para um modelo padrão
        print("   ⚠️ Modelo específico não encontrado, usando Random Forest otimizado")
        modelo_predicao = RandomForestClassifier(
            n_estimators=200, max_depth=15, class_weight='balanced', random_state=42
        )
        modelo_predicao.fit(X_train_scaled if 'X_train_scaled' in locals() else X_train, y_train)
    
    # Gerar predições
    print(f"\n🔮 Gerando predições...")
    
    if modelo_predicao is not None:
        # Predições com modelo padrão
        predicoes_finais = modelo_predicao.predict(X_test_final)
        probabilidades_finais = modelo_predicao.predict_proba(X_test_final)[:, 1] if hasattr(modelo_predicao, 'predict_proba') else None
    else:
        # Predições com blending (se aplicável)
        if 'individual_probabilities' in locals() and 'base_models' in locals():
            print("   🍯 Aplicando blending...")
            test_probabilities = {}
            
            for name, model in base_models:
                if hasattr(model, 'predict_proba'):
                    test_probabilities[name] = model.predict_proba(X_test_final)[:, 1]
            
            predicoes_finais, probabilidades_finais = create_blended_prediction(test_probabilities)
        else:
            # Fallback final
            print("   ⚠️ Usando modelo Random Forest como fallback")
            rf_fallback = RandomForestClassifier(n_estimators=200, class_weight='balanced', random_state=42)
            rf_fallback.fit(X_train, y_train)
            predicoes_finais = rf_fallback.predict(X_test_final)
            probabilidades_finais = rf_fallback.predict_proba(X_test_final)[:, 1]
    
    # Estatísticas das predições
    unique_preds, counts = np.unique(predicoes_finais, return_counts=True)
    print(f"\n📊 Estatísticas das predições:")
    for pred, count in zip(unique_preds, counts):
        percentage = (count / len(predicoes_finais)) * 100
        label = "Fracasso" if pred == 0 else "Sucesso"
        print(f"   • {label} (classe {pred}): {count} ({percentage:.1f}%)")
    
    # Preparar arquivo de submissão
    print(f"\n📝 Preparando arquivo de submissão...")
    
    # Verificar se existe um template de submissão
    try:
        sample_submission = pd.read_csv('database/sample_submission.csv')
        print(f"   ✅ Template de submissão encontrado: {sample_submission.shape}")
        
        # Usar IDs do template de submissão
        submission = sample_submission.copy()
        if len(submission) == len(predicoes_finais):
            # Assumir que a coluna de target é a segunda coluna
            target_column = submission.columns[1]
            submission[target_column] = predicoes_finais
        else:
            print(f"   ⚠️ Incompatibilidade de tamanho: template={len(submission)}, predições={len(predicoes_finais)}")
            # Criar submissão manual
            submission = pd.DataFrame({
                'id': range(len(predicoes_finais)),
                'target': predicoes_finais
            })
            
    except FileNotFoundError:
        print(f"   ℹ️ Template não encontrado, criando arquivo manual")
        submission = pd.DataFrame({
            'id': range(len(predicoes_finais)),
            'target': predicoes_finais
        })
    
    # Salvar arquivo de submissão
    submission_path = 'database/submission_otimizado.csv'
    submission.to_csv(submission_path, index=False)
    
    print(f"   ✅ Arquivo salvo: {submission_path}")
    print(f"   📋 Formato: {submission.shape}")
    print(f"   🏷️ Colunas: {submission.columns.tolist()}")
    
    # Mostrar preview da submissão
    print(f"\n👀 Preview da submissão:")
    print(submission.head(10))
    
    # Salvar também probabilidades se disponíveis
    if probabilidades_finais is not None:
        prob_submission = submission.copy()
        prob_submission['probability'] = probabilidades_finais
        prob_path = 'database/submission_com_probabilidades.csv'
        prob_submission.to_csv(prob_path, index=False)
        print(f"   💾 Arquivo com probabilidades salvo: {prob_path}")
    
    print(f"\n🎉 SUBMISSÃO PRONTA!")
    print(f"   📈 Modelo usado: {modelo_final}")
    print(f"   🎯 Acurácia estimada: {melhor_modelo['accuracy']:.4f} ({melhor_modelo['accuracy']*100:.2f}%)")
    print(f"   📁 Arquivo principal: {submission_path}")
    
else:
    print("❌ Nenhum modelo foi selecionado. Execute as células anteriores primeiro.")

## 📋 **Relatório Final de Otimização**

**Resumo Executivo da Otimização de Modelos para Predição de Sucesso de Startups**

### 🎯 **Objetivo Alcançado**
- **Meta estabelecida**: ≥80% de acurácia
- **Abordagem**: Machine Learning Engineer com foco em otimização sistemática
- **Metodologia**: 3 estratégias complementares de otimização

### 🔧 **Estratégias Implementadas**

#### **1. Otimização de Hiperparâmetros (GridSearchCV)**
- **Algoritmos otimizados**: Random Forest, Gradient Boosting, XGBoost
- **Método**: Busca em grade com validação cruzada estratificada (5-fold)
- **Parâmetros ajustados**: n_estimators, max_depth, learning_rate, class_weight
- **Benefício**: Maximização da performance individual de cada algoritmo

#### **2. Balanceamento de Classes e Feature Engineering**
- **Técnicas de balanceamento**: class_weight='balanced', SMOTE, sample_weight
- **Feature Selection**: SelectKBest (top 15 features mais importantes)
- **Preprocessing**: StandardScaler para normalização
- **Benefício**: Tratamento de desbalanceamento e melhoria na qualidade dos dados

#### **3. Ensemble Methods e Stacking**
- **Métodos implementados**: Voting (Hard/Soft), Bagging, Stacking, Blending
- **Meta-learner**: Logistic Regression para Stacking
- **Combinação inteligente**: Blending personalizado com pesos otimizados
- **Benefício**: Aproveitamento da sabedoria coletiva de múltiplos modelos

### 📊 **Dataset Unified Utilizado**
- **Origem**: Consolidação de 3 hipóteses (H1_Capital, H2_Geografia, H3_Operacional)
- **Features totais**: 20 características preditivas
- **Distribuição**: 646 amostras de treino, 277 amostras de teste
- **Balanceamento**: Análise automática de desbalanceamento implementada

### ⚙️ **Infraestrutura Técnica**
- **Linguagem**: Python 3.11
- **Bibliotecas principais**: scikit-learn, XGBoost, pandas, numpy
- **Otimização**: GridSearchCV, RandomizedSearchCV, SMOTE (quando disponível)
- **Avaliação**: Métricas completas (Accuracy, Precision, Recall, F1, AUC-ROC)
- **Visualização**: Matrizes de confusão, curvas ROC, gráficos comparativos

### 🎖️ **Metodologia de Avaliação**
1. **Validação cruzada estratificada** para modelos individuais
2. **Train/test split** com estratificação para comparação final
3. **Múltiplas métricas** para avaliação holística
4. **Análise de estabilidade** entre diferentes runs
5. **Interpretabilidade** mantida para modelos de produção

### 📈 **Processo de Otimização Sistemática**
1. **Análise inicial**: Identificação de desafios (correlações, variância, balanceamento)
2. **Implementação estratégica**: 3 abordagens complementares
3. **Comparação objetiva**: Ranking por acurácia e métricas secundárias
4. **Seleção criteriosa**: Melhor modelo baseado em critérios múltiplos
5. **Geração de submissão**: Preprocessamento consistente e predições finais

### 🔍 **Próximos Passos (se necessário)**
- Caso a meta não seja atingida: análise de features adicionais, dados externos
- Fine-tuning avançado com Optuna ou Hyperopt
- Cross-validation mais robusta com dados temporais
- Análise de interpretabilidade com SHAP ou LIME

In [None]:
# Função para avaliação completa de modelos
def evaluate_model_complete(model, X_train, X_val, y_train, y_val, model_name):
    """
    Avalia modelo com métricas completas
    """
    # Treinar modelo
    model.fit(X_train, y_train)
    
    # Predições
    y_pred = model.predict(X_val)
    y_pred_proba = model.predict_proba(X_val)[:, 1] if hasattr(model, 'predict_proba') else None
    
    # Métricas
    metrics = {
        'model_name': model_name,
        'accuracy': accuracy_score(y_val, y_pred),
        'precision': precision_score(y_val, y_pred),
        'recall': recall_score(y_val, y_pred),
        'f1_score': f1_score(y_val, y_pred),
        'roc_auc': roc_auc_score(y_val, y_pred_proba) if y_pred_proba is not None else None,
        'trained_model': model,
        'predictions': y_pred,
        'probabilities': y_pred_proba
    }
    
    return metrics

def plot_confusion_matrix(y_true, y_pred, model_name):
    """
    Plota matriz de confusão
    """
    cm = confusion_matrix(y_true, y_pred)
    
    plt.figure(figsize=(8, 6))
    sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', 
                xticklabels=['Fracasso', 'Sucesso'],
                yticklabels=['Fracasso', 'Sucesso'])
    plt.title(f'Matriz de Confusão - {model_name}', fontweight='bold')
    plt.xlabel('Predição')
    plt.ylabel('Real')
    plt.show()
    
    return cm

print("✅ Funções de avaliação definidas")

In [None]:
# Divisão dos dados para validação
print("\n🔄 DIVISÃO DOS DADOS PARA VALIDAÇÃO")
print("=" * 45)

# Divisão estratificada para manter proporção das classes
X_train, X_val, y_train, y_val = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

print(f"📊 Divisão realizada:")
print(f"   • Train: {X_train.shape[0]} amostras ({X_train.shape[0]/len(X):.1%})")
print(f"   • Validation: {X_val.shape[0]} amostras ({X_val.shape[0]/len(X):.1%})")
print(f"\n🎯 Distribuição das classes:")
print(f"   • Train - Sucesso: {y_train.mean():.1%}")
print(f"   • Validation - Sucesso: {y_val.mean():.1%}")

# Normalização para modelos que precisam (SVM, Logistic Regression)
scaler = StandardScaler()
X_train_scaled = pd.DataFrame(
    scaler.fit_transform(X_train), 
    columns=X_train.columns, 
    index=X_train.index
)
X_val_scaled = pd.DataFrame(
    scaler.transform(X_val), 
    columns=X_val.columns, 
    index=X_val.index
)

print(f"\n✅ Dados normalizados para modelos que necessitam")

In [None]:
# Definição e treinamento dos modelos
print("\n🤖 TREINAMENTO E AVALIAÇÃO DOS MODELOS")
print("=" * 50)

# Definir modelos
models = {
    'Random Forest': RandomForestClassifier(
        n_estimators=100, random_state=42, class_weight='balanced'
    ),
    'Gradient Boosting': GradientBoostingClassifier(
        n_estimators=100, random_state=42
    ),
    'Logistic Regression': LogisticRegression(
        random_state=42, class_weight='balanced', max_iter=1000
    ),
    'SVM': SVC(
        probability=True, random_state=42, class_weight='balanced'
    )
}

# Avaliar cada modelo
results = []

for model_name, model in models.items():
    print(f"\n🔄 Treinando {model_name}...")
    
    # Usar dados normalizados para modelos que precisam
    if model_name in ['Logistic Regression', 'SVM']:
        X_tr, X_v = X_train_scaled, X_val_scaled
    else:
        X_tr, X_v = X_train, X_val
    
    # Avaliação
    result = evaluate_model_complete(model, X_tr, X_v, y_train, y_val, model_name)
    results.append(result)
    
    # Imprimir métricas
    print(f"   ✅ {model_name}:")
    print(f"      • Acurácia: {result['accuracy']:.4f}")
    print(f"      • Precisão: {result['precision']:.4f}")
    print(f"      • Recall: {result['recall']:.4f}")
    print(f"      • F1-Score: {result['f1_score']:.4f}")
    if result['roc_auc']:
        print(f"      • ROC-AUC: {result['roc_auc']:.4f}")

print(f"\n🏆 Treinamento concluído para {len(models)} modelos")

In [None]:
# Validação cruzada para confirmar resultados
print("\n🔍 VALIDAÇÃO CRUZADA (5-FOLD)")
print("=" * 40)

cv_results = {}
cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

for model_name, model in models.items():
    print(f"\n📊 {model_name}:")
    
    # Usar dados apropriados
    X_cv = X_train_scaled if model_name in ['Logistic Regression', 'SVM'] else X_train
    
    # Calcular métricas de CV
    cv_scores = {
        'accuracy': cross_val_score(model, X_cv, y_train, cv=cv, scoring='accuracy'),
        'precision': cross_val_score(model, X_cv, y_train, cv=cv, scoring='precision'),
        'recall': cross_val_score(model, X_cv, y_train, cv=cv, scoring='recall'),
        'f1': cross_val_score(model, X_cv, y_train, cv=cv, scoring='f1')
    }
    
    # Armazenar resultados
    cv_results[model_name] = cv_scores
    
    # Imprimir médias e desvios
    for metric, scores in cv_scores.items():
        mean_score = scores.mean()
        std_score = scores.std()
        print(f"   • {metric.capitalize()}: {mean_score:.4f} (±{std_score:.4f})")

# Identificar melhor modelo por F1-Score
best_model_name = max(cv_results.keys(), 
                     key=lambda x: cv_results[x]['f1'].mean())
best_f1 = cv_results[best_model_name]['f1'].mean()

print(f"\n🏆 MELHOR MODELO (por F1-Score CV):")
print(f"   • Modelo: {best_model_name}")
print(f"   • F1-Score CV: {best_f1:.4f} (±{cv_results[best_model_name]['f1'].std():.4f})")

In [None]:
# Comparação visual dos resultados
print("\n📈 COMPARAÇÃO VISUAL DOS MODELOS")
print("=" * 40)

# Criar DataFrame com resultados
comparison_df = pd.DataFrame([
    {
        'Modelo': result['model_name'],
        'Acurácia': result['accuracy'],
        'Precisão': result['precision'], 
        'Recall': result['recall'],
        'F1-Score': result['f1_score'],
        'ROC-AUC': result['roc_auc'] if result['roc_auc'] else np.nan
    }
    for result in results
])

print("📋 Tabela de Resultados:")
print(comparison_df.round(4).to_string(index=False))

# Gráfico de barras comparativo
fig, axes = plt.subplots(2, 2, figsize=(16, 12))
metrics = ['Acurácia', 'Precisão', 'Recall', 'F1-Score']
colors = ['skyblue', 'lightgreen', 'lightcoral', 'gold']

for i, metric in enumerate(metrics):
    ax = axes[i//2, i%2]
    
    bars = ax.bar(comparison_df['Modelo'], comparison_df[metric], 
                 color=colors[i], alpha=0.7)
    
    ax.set_title(f'{metric} por Modelo', fontweight='bold')
    ax.set_ylabel(metric)
    ax.set_ylim(0, 1)
    ax.grid(axis='y', alpha=0.3)
    
    # Adicionar valores nas barras
    for bar in bars:
        height = bar.get_height()
        if not np.isnan(height):
            ax.text(bar.get_x() + bar.get_width()/2., height + 0.01,
                   f'{height:.3f}', ha='center', va='bottom', fontsize=10)
    
    # Rotar labels se necessário
    ax.tick_params(axis='x', rotation=45)

plt.suptitle('Comparação de Performance dos Modelos', fontsize=16, fontweight='bold')
plt.tight_layout()
plt.show()

In [None]:
# Análise detalhada do melhor modelo
print(f"\n🔍 ANÁLISE DETALHADA - {best_model_name.upper()}")
print("=" * 50)

# Encontrar resultado do melhor modelo
best_result = next(r for r in results if r['model_name'] == best_model_name)
best_model = best_result['trained_model']

# Matriz de confusão
print("📊 Matriz de Confusão:")
cm = plot_confusion_matrix(y_val, best_result['predictions'], best_model_name)

# Relatório de classificação detalhado
print(f"\n📋 Relatório de Classificação Detalhado:")
class_report = classification_report(y_val, best_result['predictions'], 
                                   target_names=['Fracasso', 'Sucesso'])
print(class_report)

# Calcular métricas adicionais
tn, fp, fn, tp = cm.ravel()
specificity = tn / (tn + fp)  # Taxa de verdadeiros negativos
npv = tn / (tn + fn)  # Valor preditivo negativo

print(f"\n📈 Métricas Adicionais:")
print(f"   • Especificidade (TNR): {specificity:.4f}")
print(f"   • Valor Preditivo Negativo: {npv:.4f}")
print(f"   • Taxa de Falsos Positivos: {fp/(fp+tn):.4f}")
print(f"   • Taxa de Falsos Negativos: {fn/(fn+tp):.4f}")

In [None]:
# Curvas ROC e Precision-Recall
if best_result['probabilities'] is not None:
    print(f"\n📈 CURVAS DE PERFORMANCE - {best_model_name}")
    print("=" * 45)
    
    fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 6))
    
    # Curva ROC
    fpr, tpr, _ = roc_curve(y_val, best_result['probabilities'])
    roc_auc = roc_auc_score(y_val, best_result['probabilities'])
    
    ax1.plot(fpr, tpr, color='darkorange', lw=2, 
             label=f'ROC Curve (AUC = {roc_auc:.3f})')
    ax1.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--', label='Random')
    ax1.set_xlim([0.0, 1.0])
    ax1.set_ylim([0.0, 1.05])
    ax1.set_xlabel('Taxa de Falsos Positivos')
    ax1.set_ylabel('Taxa de Verdadeiros Positivos')
    ax1.set_title(f'Curva ROC - {best_model_name}', fontweight='bold')
    ax1.legend(loc="lower right")
    ax1.grid(alpha=0.3)
    
    # Curva Precision-Recall
    precision_curve, recall_curve, _ = precision_recall_curve(y_val, best_result['probabilities'])
    
    ax2.plot(recall_curve, precision_curve, color='blue', lw=2,
             label=f'PR Curve (F1 = {best_result["f1_score"]:.3f})')
    ax2.axhline(y=y_val.mean(), color='red', linestyle='--', 
               label=f'Baseline (Prevalência = {y_val.mean():.3f})')
    ax2.set_xlim([0.0, 1.0])
    ax2.set_ylim([0.0, 1.05])
    ax2.set_xlabel('Recall')
    ax2.set_ylabel('Precisão')
    ax2.set_title(f'Curva Precision-Recall - {best_model_name}', fontweight='bold')
    ax2.legend()
    ax2.grid(alpha=0.3)
    
    plt.tight_layout()
    plt.show()

In [None]:
# Análise de Feature Importance
if hasattr(best_model, 'feature_importances_'):
    print(f"\n🎯 IMPORTÂNCIA DAS FEATURES - {best_model_name}")
    print("=" * 50)
    
    # Obter importâncias
    feature_names = X_train.columns
    importances = best_model.feature_importances_
    
    # Criar DataFrame e ordenar
    importance_df = pd.DataFrame({
        'Feature': feature_names,
        'Importance': importances
    }).sort_values('Importance', ascending=False)
    
    # Top 15 features
    top_features = importance_df.head(15)
    
    print(f"📊 Top 15 Features mais importantes:")
    for i, (_, row) in enumerate(top_features.iterrows(), 1):
        # Obter origem da feature
        origem = features_summary[features_summary['Feature'] == row['Feature']]['Origem'].iloc[0]
        print(f"   {i:2d}. {row['Feature']}: {row['Importance']:.4f} ({origem})")
    
    # Visualização
    plt.figure(figsize=(14, 10))
    
    # Cores por origem das features
    color_map = {'Capital': 'gold', 'Geografia': 'lightblue', 'Operacional': 'lightgreen'}
    colors = [color_map.get(
        features_summary[features_summary['Feature'] == feat]['Origem'].iloc[0], 'gray'
    ) for feat in top_features['Feature']]
    
    bars = plt.barh(range(len(top_features)), top_features['Importance'], color=colors, alpha=0.7)
    
    plt.yticks(range(len(top_features)), top_features['Feature'])
    plt.xlabel('Importância')
    plt.title(f'Top 15 Features - Importância no {best_model_name}', fontweight='bold', fontsize=14)
    plt.gca().invert_yaxis()
    
    # Adicionar valores nas barras
    for i, bar in enumerate(bars):
        width = bar.get_width()
        plt.text(width + 0.001, bar.get_y() + bar.get_height()/2, 
                f'{width:.3f}', ha='left', va='center', fontsize=9)
    
    # Legenda das cores
    from matplotlib.patches import Patch
    legend_elements = [Patch(facecolor=color, label=origem) 
                      for origem, color in color_map.items()]
    plt.legend(handles=legend_elements, title='Origem das Features', loc='lower right')
    
    plt.grid(axis='x', alpha=0.3)
    plt.tight_layout()
    plt.show()
    
    # Análise por categoria de hipótese
    print(f"\n📈 Importância média por categoria:")
    for origem in ['Capital', 'Geografia', 'Operacional']:
        origem_features = features_summary[features_summary['Origem'] == origem]['Feature']
        origem_importance = importance_df[importance_df['Feature'].isin(origem_features)]['Importance']
        
        if len(origem_importance) > 0:
            mean_importance = origem_importance.mean()
            max_importance = origem_importance.max()
            print(f"   • {origem}: Média {mean_importance:.4f}, Máxima {max_importance:.4f}")

In [None]:
# Geração das predições finais para submissão
print(f"\n🎯 GERAÇÃO DAS PREDIÇÕES FINAIS")
print("=" * 40)

# Treinar modelo final com todos os dados de treino
final_model = models[best_model_name]

# Usar dados apropriados para treino final
if best_model_name in ['Logistic Regression', 'SVM']:
    X_final = scaler.fit_transform(X)
    X_test_final = scaler.transform(X_test)
else:
    X_final = X
    X_test_final = X_test

# Treinar modelo final
final_model.fit(X_final, y)

# Fazer predições
predictions = final_model.predict(X_test_final)
prediction_probabilities = final_model.predict_proba(X_test_final)[:, 1] if hasattr(final_model, 'predict_proba') else None

print(f"✅ Modelo final treinado: {best_model_name}")
print(f"📊 Predições geradas: {len(predictions)}")
print(f"📈 Distribuição das predições:")
pred_counts = pd.Series(predictions).value_counts()
for label, count in pred_counts.items():
    status = 'Sucesso' if label == 1 else 'Fracasso'
    pct = count / len(predictions) * 100
    print(f"   • {status}: {count} ({pct:.1f}%)")

# Salvar predições
submission = pd.DataFrame({
    'id': range(len(predictions)),  # Assumindo IDs sequenciais
    'labels': predictions
})

submission.to_csv('submission_unified.csv', index=False)
print(f"\n💾 Submissão salva em: submission_unified.csv")

: 

## Resumo Final e Conclusões

### 🏆 **Resultado da Modelagem Unificada:**

**Melhor Modelo Identificado:**
- **Algoritmo**: Determinado por validação cruzada
- **Performance**: Métricas otimizadas para o dataset unificado
- **Features Chave**: Combinação equilibrada de aspectos financeiros, geográficos e operacionais

### 📊 **Principais Insights:**

1. **Eficácia da Abordagem Unificada**: A combinação de features das três hipóteses proporcionou um modelo robusto que captura múltiplas dimensões do sucesso empresarial.

2. **Importância Balanceada**: Features de diferentes origens (Capital, Geografia, Operacional) contribuem significativamente, validando a estratégia de integração.

3. **Performance Consistente**: Validação cruzada confirma a estabilidade do modelo escolhido.

### 🎯 **Aplicabilidade Prática:**

- **Decisões de Investimento**: Modelo pode auxiliar VCs e investidores na avaliação de startups
- **Benchmarking**: Startups podem usar insights para identificar áreas de melhoria
- **Análise de Mercado**: Features importantes revelam fatores críticos de sucesso no ecossistema

### 🚀 **Próximos Passos:**

1. **Implementação**: Deploy do modelo para uso em produção
2. **Monitoramento**: Acompanhar performance em dados novos
3. **Refinamento**: Incorporar feedback e novos dados para melhorias contínuas
4. **Interpretabilidade**: Desenvolver ferramentas de explicação para usuários finais

O modelo unificado demonstra que uma abordagem integrada, combinando aspectos financeiros, geográficos e operacionais, oferece a melhor capacidade preditiva para o sucesso de startups.