# Desafio de Previsão de Sucesso de Startups
## Modelo Preditivo para Identificação de Startups de Sucesso

### Autor: Rafael Santana Rodrigues
### Data: Setembro 2025

### Visão Geral do Projeto

Este projeto desenvolve um modelo de machine learning para prever o sucesso de startups com base em dados históricos de financiamento, localização, setor de atuação e marcos alcançados. O objetivo é apoiar aceleradoras e investidores na tomada de decisões estratégicas.

### Objetivos

- **Principal**: Criar um modelo com acurácia ≥ 80% para classificação binária de sucesso/insucesso
- **Secundário**: Identificar os fatores mais importantes para o sucesso de startups

### Tecnologias Utilizadas

**Bibliotecas (conforme especificação do desafio):**
- `numpy` - Computação numérica
- `pandas` - Manipulação de dados
- `scikit-learn` - Machine learning (foco em `sklearn.ensemble`)

**Modelos Implementados:**
- RandomForestClassifier 
- GradientBoostingClassifier
- VotingClassifier (ensemble)

### Dataset

**Características:**
- **Linhas**: 646 (treino) + 277 (teste)
- **Features**: 32 variáveis preditoras
- **Target**: Binária (0=insucesso, 1=sucesso)
- **Balanceamento**: 64.7% sucesso vs 35.3% insucesso

**Principais Variáveis:**
- `funding_total_usd` - Total captado em USD
- `relationships` - Número de relacionamentos
- `funding_rounds` - Número de rodadas de captação
- `is_CA`, `is_NY`, etc. - Localização por estado
- `has_roundA`, `has_roundB`, etc. - Rodadas específicas
- `category_code` - Setor de atuação

### **Formulação de Hipóteses**

**H1: Funding e Relacionamentos**
> Startups com maior valor captado e mais relacionamentos têm maior probabilidade de sucesso

**H2: Localização Estratégica**
> Startups em hubs de inovação (CA) têm maior taxa de sucesso

**H3: Maturidade de Financiamento**
> Startups com múltiplas rodadas demonstram maior probabilidade de sucesso

### Como Executar

#### Notebook Jupyter
```bash
jupyter notebook startup_success_prediction.ipynb
```

#### Pré-requisitos
```bash
pip install numpy pandas scikit-learn
```

---

## 1. Importação das Bibliotecas

In [10]:
import numpy as np
import pandas as pd
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier, VotingClassifier
from sklearn.model_selection import train_test_split, GridSearchCV, cross_val_score
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix, roc_auc_score
from sklearn.impute import SimpleImputer
import warnings
warnings.filterwarnings('ignore')

## 2. Carregamento e Análise Exploratória dos Dados

In [11]:
# Carregamento dos dados
train_df = pd.read_csv('train.csv')
test_df = pd.read_csv('test.csv')
sample_submission = pd.read_csv('sample_submission.csv')

print("=== INFORMAÇÕES GERAIS DOS DATASETS ===")
print(f"Dataset de treino: {train_df.shape}")
print(f"Dataset de teste: {test_df.shape}")
print(f"Submissão modelo: {sample_submission.shape}")

# Análise da variável target
print("\n=== DISTRIBUIÇÃO DA VARIÁVEL TARGET ===")
target_dist = train_df['labels'].value_counts()
print(f"Sucesso (1): {target_dist[1]} ({target_dist[1]/len(train_df)*100:.1f}%)")
print(f"Insucesso (0): {target_dist[0]} ({target_dist[0]/len(train_df)*100:.1f}%)")

# Verificação de valores nulos
print("\n=== ANÁLISE DE VALORES NULOS ===")
null_analysis = train_df.isnull().sum()
null_analysis = null_analysis[null_analysis > 0].sort_values(ascending=False)
for col, count in null_analysis.items():
    print(f"{col}: {count} ({count/len(train_df)*100:.1f}%)")

# Estatísticas descritivas das variáveis numéricas
print("\n=== ESTATÍSTICAS DESCRITIVAS ===")
numeric_cols = train_df.select_dtypes(include=[np.number]).columns
print(train_df[numeric_cols].describe())

=== INFORMAÇÕES GERAIS DOS DATASETS ===
Dataset de treino: (646, 33)
Dataset de teste: (277, 32)
Submissão modelo: (277, 2)

=== DISTRIBUIÇÃO DA VARIÁVEL TARGET ===
Sucesso (1): 418 (64.7%)
Insucesso (0): 228 (35.3%)

=== ANÁLISE DE VALORES NULOS ===
age_first_milestone_year: 138 (21.4%)
age_last_milestone_year: 111 (17.2%)
age_first_funding_year: 35 (5.4%)
age_last_funding_year: 9 (1.4%)

=== ESTATÍSTICAS DESCRITIVAS ===
               id  age_first_funding_year  age_last_funding_year  \
count  646.000000              611.000000             637.000000   
mean   461.577399                2.341718               4.037724   
std    264.859464                2.468275               2.950923   
min      1.000000                0.000000               0.000000   
25%    233.250000                0.680000               1.870000   
50%    459.500000                1.650000               3.610000   
75%    692.500000                3.600000               5.590000   
max    923.000000             

## 3. Formulação de Hipóteses

Com base na análise exploratória, formulo as seguintes **três hipóteses**:

### **Hipótese 1: Funding e Relacionamentos**
*Startups com maior valor total captado (funding_total_usd) e mais relacionamentos (relationships) têm maior probabilidade de sucesso.*

**Justificativa:** O acesso a capital e uma rede robusta de relacionamentos (investidores, mentores, parceiros) são fatores críticos para o crescimento e sustentabilidade de startups.

### **Hipótese 2: Localização Estratégica** 
*Startups localizadas em hubs de inovação como Califórnia (is_CA) têm maior taxa de sucesso devido ao ecossistema favorável.*

**Justificativa:** Regiões como Silicon Valley oferecem acesso privilegiado a investidores, talentos e mercados, criando um ambiente propício ao sucesso.

### **Hipótese 3: Maturidade de Financiamento**
*Startups que passaram por múltiplas rodadas de investimento (has_roundA, has_roundB, has_roundC) demonstram maior probabilidade de sucesso, indicando validação progressiva do modelo de negócio.*

**Justificativa:** O progresso através de diferentes rodadas de investimento indica tração, crescimento e confiança progressiva dos investidores.

## 4. Análise das Hipóteses

In [12]:
# Verificação das hipóteses
print("=== VALIDAÇÃO DAS HIPÓTESES ===")

# Hipótese 1: Funding e Relacionamentos
print("\n--- Hipótese 1: Funding e Relacionamentos ---")
funding_success = train_df.groupby('labels')['funding_total_usd'].mean()
relationships_success = train_df.groupby('labels')['relationships'].mean()
print(f"Funding médio - Insucesso: ${funding_success[0]:,.0f} | Sucesso: ${funding_success[1]:,.0f}")
print(f"Relacionamentos médios - Insucesso: {relationships_success[0]:.1f} | Sucesso: {relationships_success[1]:.1f}")

# Hipótese 2: Localização (Califórnia)
print("\n--- Hipótese 2: Localização (Califórnia) ---")
ca_success_rate = train_df[train_df['is_CA'] == 1]['labels'].mean()
other_success_rate = train_df[train_df['is_CA'] == 0]['labels'].mean()
print(f"Taxa de sucesso CA: {ca_success_rate:.1%}")
print(f"Taxa de sucesso outros estados: {other_success_rate:.1%}")

# Hipótese 3: Múltiplas rodadas
print("\n--- Hipótese 3: Múltiplas Rodadas ---")
round_columns = ['has_roundA', 'has_roundB', 'has_roundC', 'has_roundD']
train_df['total_rounds'] = train_df[round_columns].sum(axis=1)
rounds_success = train_df.groupby('total_rounds')['labels'].mean()
print("Taxa de sucesso por número de rodadas:")
for rounds, rate in rounds_success.items():
    print(f"{rounds} rodadas: {rate:.1%}")

=== VALIDAÇÃO DAS HIPÓTESES ===

--- Hipótese 1: Funding e Relacionamentos ---
Funding médio - Insucesso: $16,130,875 | Sucesso: $36,786,578
Relacionamentos médios - Insucesso: 4.5 | Sucesso: 9.8

--- Hipótese 2: Localização (Califórnia) ---
Taxa de sucesso CA: 69.1%
Taxa de sucesso outros estados: 59.4%

--- Hipótese 3: Múltiplas Rodadas ---
Taxa de sucesso por número de rodadas:
0 rodadas: 42.9%
1 rodadas: 64.6%
2 rodadas: 77.6%
3 rodadas: 86.4%
4 rodadas: 85.0%


## 5. Limpeza e Tratamento de Dados

In [13]:
def clean_and_prepare_data(df, is_train=True):
    """
    Função para limpeza e preparação dos dados
    """
    df_clean = df.copy()
    
    # Remover coluna ID (não é feature)
    if 'id' in df_clean.columns:
        df_clean = df_clean.drop('id', axis=1)
    
    # Tratamento de valores nulos para variáveis de idade
    age_columns = ['age_first_funding_year', 'age_last_funding_year', 
                   'age_first_milestone_year', 'age_last_milestone_year']
    
    # Estratégia: imputar com mediana (mais robusta a outliers)
    for col in age_columns:
        if col in df_clean.columns:
            median_val = df_clean[col].median()
            df_clean[col] = df_clean[col].fillna(median_val)
    
    # Tratamento de funding_total_usd (se houver nulos)
    if 'funding_total_usd' in df_clean.columns:
        df_clean['funding_total_usd'] = df_clean['funding_total_usd'].fillna(
            df_clean['funding_total_usd'].median()
        )
    
    # Codificação da variável categórica category_code
    if 'category_code' in df_clean.columns:
        # Label Encoding para category_code
        le = LabelEncoder()
        df_clean['category_code_encoded'] = le.fit_transform(df_clean['category_code'].fillna('unknown'))
        df_clean = df_clean.drop('category_code', axis=1)
    
    # Criar features derivadas
    df_clean['funding_per_round'] = df_clean['funding_total_usd'] / (df_clean['funding_rounds'] + 1)
    df_clean['milestones_per_relationship'] = df_clean['milestones'] / (df_clean['relationships'] + 1)
    
    # Feature: soma total de rodadas
    round_cols = ['has_roundA', 'has_roundB', 'has_roundC', 'has_roundD']
    df_clean['total_funding_rounds'] = df_clean[round_cols].sum(axis=1)
    
    # Feature: tem financiamento
    df_clean['has_funding'] = (df_clean['has_VC'] | df_clean['has_angel']).astype(int)
    
    return df_clean

# Aplicar limpeza
print("=== LIMPEZA E PREPARAÇÃO DOS DADOS ===")
train_clean = clean_and_prepare_data(train_df, is_train=True)
test_clean = clean_and_prepare_data(test_df, is_train=False)

print(f"Dados de treino após limpeza: {train_clean.shape}")
print(f"Dados de teste após limpeza: {test_clean.shape}")

# Verificar se ainda há valores nulos
remaining_nulls = train_clean.isnull().sum().sum()
print(f"Valores nulos restantes no treino: {remaining_nulls}")

=== LIMPEZA E PREPARAÇÃO DOS DADOS ===
Dados de treino após limpeza: (646, 37)
Dados de teste após limpeza: (277, 35)
Valores nulos restantes no treino: 0


## 6. Seleção de Features

In [14]:
# Separar features e target
if 'labels' in train_clean.columns:
    X = train_clean.drop('labels', axis=1)
    y = train_clean['labels']
else:
    X = train_clean
    y = train_df['labels']

# Garantir que test tenha as mesmas colunas que train
common_features = X.columns.intersection(test_clean.columns)
X = X[common_features]
test_final = test_clean[common_features]

print("=== SELEÇÃO DE FEATURES ===")
print(f"Features selecionadas: {len(common_features)}")
print(f"Dimensões finais - X: {X.shape}, Test: {test_final.shape}")

# Lista das features mais importantes baseadas nas hipóteses
priority_features = [
    'funding_total_usd', 'relationships', 'funding_rounds',
    'is_CA', 'is_NY', 'is_MA', 'is_TX',
    'has_roundA', 'has_roundB', 'has_roundC', 'has_roundD',
    'has_VC', 'has_angel', 'milestones', 'avg_participants',
    'total_funding_rounds', 'has_funding', 'funding_per_round'
]

print(f"Features prioritárias identificadas: {len([f for f in priority_features if f in X.columns])}")

=== SELEÇÃO DE FEATURES ===
Features selecionadas: 35
Dimensões finais - X: (646, 35), Test: (277, 35)
Features prioritárias identificadas: 18


## 7. Construção e Avaliação do Modelo

In [15]:
# Divisão treino/validação
X_train, X_val, y_train, y_val = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

print("=== CONSTRUÇÃO DOS MODELOS ===")
print(f"Treino: {X_train.shape}, Validação: {X_val.shape}")

# Padronização dos dados
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_val_scaled = scaler.transform(X_val)

# Modelos do ensemble
models = {
    'RandomForest': RandomForestClassifier(
        n_estimators=100, 
        random_state=42, 
        class_weight='balanced'
    ),
    'GradientBoosting': GradientBoostingClassifier(
        n_estimators=100, 
        random_state=42
    )
}

# Treinamento e avaliação dos modelos individuais
results = {}
for name, model in models.items():
    # Usar dados padronizados para GradientBoosting, originais para RandomForest
    if name == 'GradientBoosting':
        model.fit(X_train_scaled, y_train)
        y_pred = model.predict(X_val_scaled)
    else:
        model.fit(X_train, y_train)
        y_pred = model.predict(X_val)
    
    accuracy = accuracy_score(y_val, y_pred)
    results[name] = accuracy
    
    print(f"\n--- {name} ---")
    print(f"Acurácia: {accuracy:.4f}")
    print(classification_report(y_val, y_pred))

# Modelo ensemble (Voting Classifier)
ensemble_model = VotingClassifier(
    estimators=[
        ('rf', RandomForestClassifier(n_estimators=100, random_state=42, class_weight='balanced')),
        ('gb', GradientBoostingClassifier(n_estimators=100, random_state=42))
    ],
    voting='soft'
)

ensemble_model.fit(X_train, y_train)
y_pred_ensemble = ensemble_model.predict(X_val)
ensemble_accuracy = accuracy_score(y_val, y_pred_ensemble)

print(f"\n--- ENSEMBLE MODEL ---")
print(f"Acurácia: {ensemble_accuracy:.4f}")
print(classification_report(y_val, y_pred_ensemble))

results['Ensemble'] = ensemble_accuracy

=== CONSTRUÇÃO DOS MODELOS ===
Treino: (516, 35), Validação: (130, 35)

--- RandomForest ---
Acurácia: 0.7615
              precision    recall  f1-score   support

           0       0.71      0.54      0.62        46
           1       0.78      0.88      0.83        84

    accuracy                           0.76       130
   macro avg       0.75      0.71      0.72       130
weighted avg       0.76      0.76      0.75       130


--- GradientBoosting ---
Acurácia: 0.8077
              precision    recall  f1-score   support

           0       0.80      0.61      0.69        46
           1       0.81      0.92      0.86        84

    accuracy                           0.81       130
   macro avg       0.81      0.76      0.78       130
weighted avg       0.81      0.81      0.80       130


--- ENSEMBLE MODEL ---
Acurácia: 0.7846
              precision    recall  f1-score   support

           0       0.76      0.57      0.65        46
           1       0.79      0.90      0.84

## 8. Finetuning de Hiperparâmetros

In [23]:
print("=== FINETUNING DE HIPERPARÂMETROS ===")

# Definir grid de hiperparâmetros para GradientBoosting
param_grid_gb = {
    'n_estimators': [100, 200, 300],
    'learning_rate': [0.01, 0.1, 0.2],
    'max_depth': [3, 5, 7, 10],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4],
    'subsample': [0.8, 0.9, 1.0]
}

# Grid Search para GradientBoosting
gb_grid = GridSearchCV(
    GradientBoostingClassifier(random_state=42),
    param_grid_gb,
    cv=5,
    scoring='accuracy',
    n_jobs=-1,
    verbose=1
)

# Usar dados padronizados para GradientBoosting
gb_grid.fit(X_train_scaled, y_train)

print(f"Melhores parâmetros GradientBoosting: {gb_grid.best_params_}")
print(f"Melhor score CV: {gb_grid.best_score_:.4f}")

# Avaliar modelo otimizado
best_gb = gb_grid.best_estimator_
y_pred_best = best_gb.predict(X_val_scaled)
best_accuracy = accuracy_score(y_val, y_pred_best)

print(f"Acurácia do modelo otimizado: {best_accuracy:.4f}")

# Cross-validation do modelo final usando dados padronizados
X_scaled_full = scaler.fit_transform(X)
cv_scores = cross_val_score(best_gb, X_scaled_full, y, cv=5, scoring='accuracy')
print(f"Cross-validation scores: {cv_scores}")
print(f"CV média: {cv_scores.mean():.4f} (+/- {cv_scores.std() * 2:.4f})")

=== FINETUNING DE HIPERPARÂMETROS ===
Fitting 5 folds for each of 972 candidates, totalling 4860 fits
Melhores parâmetros GradientBoosting: {'learning_rate': 0.01, 'max_depth': 3, 'min_samples_leaf': 4, 'min_samples_split': 2, 'n_estimators': 200, 'subsample': 0.9}
Melhor score CV: 0.7908
Acurácia do modelo otimizado: 0.7769
Melhores parâmetros GradientBoosting: {'learning_rate': 0.01, 'max_depth': 3, 'min_samples_leaf': 4, 'min_samples_split': 2, 'n_estimators': 200, 'subsample': 0.9}
Melhor score CV: 0.7908
Acurácia do modelo otimizado: 0.7769
Cross-validation scores: [0.80769231 0.76744186 0.79069767 0.82170543 0.73643411]
CV média: 0.7848 (+/- 0.0604)
Cross-validation scores: [0.80769231 0.76744186 0.79069767 0.82170543 0.73643411]
CV média: 0.7848 (+/- 0.0604)


## 9. Importância das Features

In [24]:
# Análise da importância das features
feature_importance = pd.DataFrame({
    'feature': X.columns,
    'importance': best_gb.feature_importances_
}).sort_values('importance', ascending=False)

print("=== TOP 15 FEATURES MAIS IMPORTANTES ===")
print(feature_importance.head(15))

# Validação das hipóteses através da importância
print("\n=== VALIDAÇÃO DAS HIPÓTESES ATRAVÉS DA IMPORTÂNCIA ===")
hyp1_features = ['funding_total_usd', 'relationships', 'funding_per_round']
hyp2_features = ['is_CA', 'is_NY', 'is_MA', 'is_TX']
hyp3_features = ['has_roundA', 'has_roundB', 'has_roundC', 'total_funding_rounds']

for i, features in enumerate([hyp1_features, hyp2_features, hyp3_features], 1):
    avg_importance = feature_importance[
        feature_importance['feature'].isin(features)
    ]['importance'].mean()
    print(f"Hipótese {i} - Importância média: {avg_importance:.4f}")

=== TOP 15 FEATURES MAIS IMPORTANTES ===
                        feature  importance
4                 relationships    0.329115
6             funding_total_usd    0.115173
3       age_last_milestone_year    0.097670
0        age_first_funding_year    0.075739
32  milestones_per_relationship    0.067103
31            funding_per_round    0.061066
7                    milestones    0.055879
29             avg_participants    0.048212
1         age_last_funding_year    0.042091
2      age_first_milestone_year    0.027866
5                funding_rounds    0.021473
30        category_code_encoded    0.018053
11                        is_TX    0.008357
25                   has_roundA    0.006223
22             is_othercategory    0.004700

=== VALIDAÇÃO DAS HIPÓTESES ATRAVÉS DA IMPORTÂNCIA ===
Hipótese 1 - Importância média: 0.1685
Hipótese 2 - Importância média: 0.0028
Hipótese 3 - Importância média: 0.0028


## 10. Geração das Predições Finais

In [30]:
print("=== GERAÇÃO DAS PREDIÇÕES FINAIS ===")

# Análise dos resultados: O GradientBoosting original (80.77%) teve melhor performance 
# que o otimizado (77.69%), então usaremos o original
print("DECISÃO: Usar GradientBoosting original devido à melhor performance")
print(f"GradientBoosting original: {results['GradientBoosting']:.4f}")
print(f"GradientBoosting otimizado: {best_accuracy:.4f}")

# Usar o modelo GradientBoosting original como modelo final
final_model = GradientBoostingClassifier(n_estimators=100, random_state=42)

# Padronizar os dados completos para o GradientBoosting
X_scaled = scaler.fit_transform(X)
test_final_scaled = scaler.transform(test_final.reindex(columns=X.columns, fill_value=0))

# Treinar com todos os dados
final_model.fit(X_scaled, y)

# Predições finais
final_predictions = final_model.predict(test_final_scaled)

# Criar arquivo de submissão
submission = pd.DataFrame({
    'id': test_df['id'],
    'labels': final_predictions
})

# Salvar arquivo de submissão
submission.to_csv('startup_success_predictions.csv', index=False)

print(f"\nPredições geradas para {len(submission)} startups")
print(f"Distribuição das predições:")
print(f"Sucesso previsto: {sum(final_predictions)} ({sum(final_predictions)/len(final_predictions)*100:.1f}%)")
print(f"Insucesso previsto: {len(final_predictions) - sum(final_predictions)} ({(len(final_predictions) - sum(final_predictions))/len(final_predictions)*100:.1f}%)")

print("\n=== RESUMO FINAL ===")
print(f"Modelo final escolhido: GradientBoosting Original")
print(f"Acurácia do modelo final: {results['GradientBoosting']:.4f}")
print(f"Meta de 80% atingida: {'SIM' if results['GradientBoosting'] >= 0.8 else 'NÃO'}")

# Comparação de todos os modelos incluindo o otimizado
print(f"\n=== COMPARAÇÃO COMPLETA ===")
all_results = results.copy()
all_results['GradientBoosting Otimizado'] = best_accuracy

for model_name, accuracy in sorted(all_results.items(), key=lambda x: x[1], reverse=True):
    status = "MELHOR" if accuracy == max(all_results.values()) else ""
    print(f"{model_name}: {accuracy:.4f} {status}")

=== GERAÇÃO DAS PREDIÇÕES FINAIS ===
DECISÃO: Usar GradientBoosting original devido à melhor performance
GradientBoosting original: 0.8077
GradientBoosting otimizado: 0.7769

Predições geradas para 277 startups
Distribuição das predições:
Sucesso previsto: 191 (69.0%)
Insucesso previsto: 86 (31.0%)

=== RESUMO FINAL ===
Modelo final escolhido: GradientBoosting Original
Acurácia do modelo final: 0.8077
Meta de 80% atingida: SIM

=== COMPARAÇÃO COMPLETA ===
GradientBoosting: 0.8077 MELHOR
Ensemble: 0.7846 
GradientBoosting Otimizado: 0.7769 
RandomForest: 0.7615 

Predições geradas para 277 startups
Distribuição das predições:
Sucesso previsto: 191 (69.0%)
Insucesso previsto: 86 (31.0%)

=== RESUMO FINAL ===
Modelo final escolhido: GradientBoosting Original
Acurácia do modelo final: 0.8077
Meta de 80% atingida: SIM

=== COMPARAÇÃO COMPLETA ===
GradientBoosting: 0.8077 MELHOR
Ensemble: 0.7846 
GradientBoosting Otimizado: 0.7769 
RandomForest: 0.7615 


In [28]:
## Análise dos Resultados do Finetuning

### Comparação: GradientBoosting Original vs Otimizado
print("=== ANÁLISE DO FINETUNING DO GRADIENTBOOSTING ===")
print(f"GradientBoosting Original: {results['GradientBoosting']:.4f} (80.77%)")
print(f"GradientBoosting Otimizado: {best_accuracy:.4f} (77.69%)")
print(f"Diferença: {(best_accuracy - results['GradientBoosting']):.4f}")
print(f"Conclusão: O modelo original teve MELHOR performance")

# Mostrar os hiperparâmetros testados
print(f"\n=== HIPERPARÂMETROS OTIMIZADOS ===")
for param, value in gb_grid.best_params_.items():
    print(f"{param}: {value}")

print(f"\n=== ANÁLISE DO RESULTADO ===")
print("Possíveis razões para a performance inferior do modelo otimizado:")
print("1. Os hiperparâmetros padrão já eram adequados para este dataset")
print("2. O modelo otimizado pode ter sofrido overfitting")
print("3. A busca em grid pode ter encontrado um mínimo local")
print("4. O dataset pode ser pequeno demais para beneficiar de hiperparâmetros mais complexos")

print(f"\n=== DECISION FINAL ===")
print("Modelo escolhido: GradientBoosting ORIGINAL")
print(f"Motivo: Melhor acurácia ({results['GradientBoosting']:.4f} vs {best_accuracy:.4f})")
print(f"Status da meta 80%: {'ATINGIDA' if results['GradientBoosting'] >= 0.8 else 'NÃO ATINGIDA'}")

# Ranking final
print(f"\n=== RANKING FINAL DE TODOS OS MODELOS ===")
all_results = results.copy()
all_results['GradientBoosting Otimizado'] = best_accuracy

sorted_results = sorted(all_results.items(), key=lambda x: x[1], reverse=True)
for i, (model, acc) in enumerate(sorted_results, 1):
    status = f"{i}º Lugar"
    if i == 1:
        status += " - VENCEDOR"
    print(f"{status}: {model} - {acc:.4f}")

=== ANÁLISE DO FINETUNING DO GRADIENTBOOSTING ===
GradientBoosting Original: 0.8077 (80.77%)
GradientBoosting Otimizado: 0.7769 (77.69%)
Diferença: -0.0308
Conclusão: O modelo original teve MELHOR performance

=== HIPERPARÂMETROS OTIMIZADOS ===
learning_rate: 0.01
max_depth: 3
min_samples_leaf: 4
min_samples_split: 2
n_estimators: 200
subsample: 0.9

=== ANÁLISE DO RESULTADO ===
Possíveis razões para a performance inferior do modelo otimizado:
1. Os hiperparâmetros padrão já eram adequados para este dataset
2. O modelo otimizado pode ter sofrido overfitting
3. A busca em grid pode ter encontrado um mínimo local
4. O dataset pode ser pequeno demais para beneficiar de hiperparâmetros mais complexos

=== DECISION FINAL ===
Modelo escolhido: GradientBoosting ORIGINAL
Motivo: Melhor acurácia (0.8077 vs 0.7769)
Status da meta 80%: ATINGIDA

=== RANKING FINAL DE TODOS OS MODELOS ===
1º Lugar - VENCEDOR: GradientBoosting - 0.8077
2º Lugar: Ensemble - 0.7846
3º Lugar: GradientBoosting Otimizado

## 11. Conclusões

### Desempenho dos Modelos
- **Melhor Modelo**: GradientBoosting Original com **80.77%** de acurácia
- **Segundo lugar**: Ensemble Model com 78.46% de acurácia  
- **Terceiro lugar**: GradientBoosting Otimizado com 77.69% de acurácia
- **Quarto lugar**: RandomForest com 76.15% de acurácia

### Insights sobre o Finetuning
**Resultado Surpreendente**: O finetuning do GradientBoosting resultou em performance **inferior** ao modelo original:
- **Original**: 80.77% de acurácia
- **Otimizado**: 77.69% de acurácia (-3.08 pontos percentuais)

**Possíveis explicações**:
1. Os hiperparâmetros padrão já eram bem adequados para este dataset
2. O modelo otimizado pode ter sofrido overfitting nos dados de validação
3. O dataset pode ser pequeno demais para beneficiar de hiperparâmetros mais complexos
4. A busca em grid encontrou um mínimo local subótimo

### Validação das Hipóteses
1. **Hipótese 1** (Funding e Relacionamentos): **CONFIRMADA** 
   - Features financeiras dominam o ranking de importância
   - `relationships` é a feature mais importante (32.91% no modelo otimizado)
   - `funding_total_usd` e `funding_per_round` estão entre as top 6
   
2. **Hipótese 2** (Localização): **PARCIALMENTE CONFIRMADA** 
   - Califórnia tem 69.1% vs 59.4% de taxa de sucesso em outros estados
   - Porém, importância média das features de localização é baixa (0.28%)
   
3. **Hipótese 3** (Múltiplas Rodadas): **PARCIALMENTE CONFIRMADA**
   - Clara progressão: 0 rodadas (42.9%) → 4 rodadas (85.0%)
   - Porém, importância média dessas features é baixa (0.28%)

### Principais Insights do Modelo Vencedor
1. **Relationships** (32.91%): A rede de relacionamentos é EXTREMAMENTE crítica
2. **Funding metrics**: Valor total de funding é o segundo fator mais importante
3. **Age variables**: Tempo de marcos e financiamento são muito relevantes
4. **Derived features**: Features criadas agregaram valor significativo

### Meta Atingida
- **Objetivo**: Acurácia ≥ 80%
- **Resultado**: 80.77% com GradientBoosting Original
- **Status**: **ATINGIDA** (+0.77 pontos percentuais acima da meta)

### Lições Aprendidas
1. **Nem sempre o finetuning melhora a performance** - às vezes os defaults são ótimos
2. **Simplicidade pode ser melhor** - modelos mais complexos nem sempre são superiores
3. **Validação é crucial** - sempre comparar modelo original vs otimizado

### Recomendações Estratégicas para Aceleradoras
1. **Priorizar startups** com redes robustas de relacionamentos (fator mais crítico)
2. **Avaliar capacidade de captação** - funding total é determinante
3. **Considerar tempo de mercado** - age variables são importantes
4. **Não superestimar localização** - menos importante que esperado
5. **Usar GradientBoosting com parâmetros padrão** para screening inicial