# Previs√£o de Sucesso de Startups

## Objetivo
Este notebook implementa um modelo preditivo para identificar startups com maior probabilidade de sucesso no mercado, utilizando t√©cnicas de machine learning conforme as regras da competi√ß√£o Kaggle.

## Metodologia
- **Modelo**: Random Forest Classifier
- **Otimiza√ß√£o**: Grid Search com valida√ß√£o cruzada (5-fold StratifiedKFold)
- **Estrat√©gia**: Treinamento com dataset completo (sem split train/test)
- **Meta**: Acur√°cia > 80%

## 1. Importa√ß√£o de Bibliotecas

Utilizando apenas as bibliotecas permitidas pela competi√ß√£o: NumPy, Pandas e Scikit-Learn.

In [1]:
# Importa√ß√£o de bibliotecas essenciais
import numpy as np
import pandas as pd
from typing import Tuple

# Scikit-learn: pr√©-processamento
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline

# Scikit-learn: modelo e otimiza√ß√£o
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV, StratifiedKFold, cross_val_score

# Scikit-learn: m√©tricas
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, classification_report, confusion_matrix

# Configura√ß√µes
import warnings
warnings.filterwarnings('ignore')

# Seed para reprodutibilidade
RANDOM_STATE = 42
np.random.seed(RANDOM_STATE)

print("‚úì Bibliotecas importadas com sucesso!")

‚úì Bibliotecas importadas com sucesso!


## 2. Carregamento dos Dados

Carregando os conjuntos de treino e teste fornecidos pela competi√ß√£o.

In [2]:
# Carregar datasets
train_df = pd.read_csv('train.csv')
test_df = pd.read_csv('test.csv')

print(f"Dataset de Treino: {train_df.shape[0]} linhas x {train_df.shape[1]} colunas")
print(f"Dataset de Teste: {test_df.shape[0]} linhas x {test_df.shape[1]} colunas")

# Visualizar primeiras linhas
print("\nüìä Primeiras linhas do dataset de treino:")
display(train_df.head())

# Informa√ß√µes sobre as colunas
print("\nüìã Informa√ß√µes do dataset:")
train_df.info()

Dataset de Treino: 646 linhas x 33 colunas
Dataset de Teste: 277 linhas x 32 colunas

üìä Primeiras linhas do dataset de treino:


Unnamed: 0,id,age_first_funding_year,age_last_funding_year,age_first_milestone_year,age_last_milestone_year,relationships,funding_rounds,funding_total_usd,milestones,is_CA,...,is_consulting,is_othercategory,has_VC,has_angel,has_roundA,has_roundB,has_roundC,has_roundD,avg_participants,labels
0,719,10.42,13.09,8.98,12.72,4,3,4087500,3,1,...,0,0,1,1,0,0,0,0,1.0,0
1,429,3.79,3.79,,,21,1,45000000,0,0,...,0,0,0,0,0,1,0,0,1.0,1
2,178,0.71,2.28,1.95,2.28,5,2,5200000,2,1,...,0,1,1,0,1,0,0,0,1.0,0
3,197,3.0,5.0,9.62,10.39,16,2,14500000,2,0,...,0,0,0,1,0,1,0,0,2.0,1
4,444,0.66,5.88,6.21,8.61,29,5,70000000,4,1,...,0,0,0,0,1,1,1,1,2.8,1



üìã Informa√ß√µes do dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 646 entries, 0 to 645
Data columns (total 33 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   id                        646 non-null    int64  
 1   age_first_funding_year    611 non-null    float64
 2   age_last_funding_year     637 non-null    float64
 3   age_first_milestone_year  508 non-null    float64
 4   age_last_milestone_year   535 non-null    float64
 5   relationships             646 non-null    int64  
 6   funding_rounds            646 non-null    int64  
 7   funding_total_usd         646 non-null    int64  
 8   milestones                646 non-null    int64  
 9   is_CA                     646 non-null    int64  
 10  is_NY                     646 non-null    int64  
 11  is_MA                     646 non-null    int64  
 12  is_TX                     646 non-null    int64  
 13  is_otherstate             646 non

## 3. An√°lise Explorat√≥ria B√°sica

Verificando a distribui√ß√£o da vari√°vel alvo e valores ausentes.

In [3]:
# Distribui√ß√£o da vari√°vel alvo
print("üìä Distribui√ß√£o da Vari√°vel Alvo (labels):")
print(train_df['labels'].value_counts())
print(f"\nPercentual de Sucesso: {train_df['labels'].mean()*100:.2f}%")
print(f"Percentual de Insucesso: {(1-train_df['labels'].mean())*100:.2f}%")

# An√°lise de valores ausentes
print("\nüîç An√°lise de Valores Ausentes:")
missing_data = train_df.isnull().sum()
missing_percent = (missing_data / len(train_df)) * 100
missing_df = pd.DataFrame({
    'Valores Ausentes': missing_data,
    'Percentual': missing_percent
})
missing_df = missing_df[missing_df['Valores Ausentes'] > 0].sort_values('Valores Ausentes', ascending=False)
print(missing_df)

üìä Distribui√ß√£o da Vari√°vel Alvo (labels):
labels
1    418
0    228
Name: count, dtype: int64

Percentual de Sucesso: 64.71%
Percentual de Insucesso: 35.29%

üîç An√°lise de Valores Ausentes:
                          Valores Ausentes  Percentual
age_first_milestone_year               138   21.362229
age_last_milestone_year                111   17.182663
age_first_funding_year                  35    5.417957
age_last_funding_year                    9    1.393189


## 3.1. Formula√ß√£o de Hip√≥teses de Pesquisa

Para orientar a an√°lise explorat√≥ria e fundamentar a constru√ß√£o do modelo preditivo, estabelecemos tr√™s hip√≥teses principais baseadas no dom√≠nio de neg√≥cio de startups:

### H1 - Capital como Fator Determinante de Sucesso

**Hip√≥tese**: Startups com maior volume de investimento captado e maior n√∫mero de rodadas de financiamento apresentam probabilidade significativamente superior de alcan√ßar sucesso.

**Vari√°veis-chave**: `funding_total_usd`, `funding_rounds`, `avg_participants`

**Justificativa**: O capital √© fundamental para escala, desenvolvimento de produto e expans√£o de mercado. M√∫ltiplas rodadas indicam valida√ß√£o cont√≠nua por investidores especializados, sugerindo confian√ßa do mercado na proposta de valor da startup.

### H2 - Localiza√ß√£o Geogr√°fica e Ecossistema

**Hip√≥tese**: Startups localizadas em hubs tecnol√≥gicos consolidados (Calif√≥rnia, Nova York, Massachusetts) apresentam maior taxa de sucesso devido ao acesso a talentos, investidores e networking.

**Vari√°veis-chave**: `is_CA`, `is_NY`, `is_MA`, `is_otherstate`

**Justificativa**: Clusters de inova√ß√£o oferecem densidade de recursos, capital humano especializado e ecossistema maduro de apoio empresarial. A proximidade com investidores-anjo, VCs e outras startups cria um ambiente prop√≠cio ao crescimento.

### H3 - Maturidade Operacional e Capacidade de Execu√ß√£o

**Hip√≥tese**: Startups que demonstram capacidade de execu√ß√£o atrav√©s de relacionamentos estrat√©gicos e marcos (milestones) alcan√ßados apresentam maior probabilidade de sucesso sustent√°vel.

**Vari√°veis-chave**: `relationships`, `milestones`, `age_first_milestone_year`, `age_last_milestone_year`

**Justificativa**: Relacionamentos indicam networking e parcerias estrat√©gicas. Marcos demonstram capacidade de entrega e progress√£o estruturada do neg√≥cio, al√©m de valida√ß√£o de mercado em diferentes etapas de desenvolvimento.

---

**Metodologia de Valida√ß√£o**: Cada hip√≥tese ser√° testada atrav√©s de:
1. An√°lise estat√≠stica descritiva comparando startups de sucesso vs. insucesso
2. Visualiza√ß√µes comparativas das distribui√ß√µes
3. Valida√ß√£o pela import√¢ncia das features nos modelos preditivos (Random Forest feature importance)

In [4]:
# Valida√ß√£o Explorat√≥ria das Hip√≥teses

print("=" * 70)
print("VALIDA√á√ÉO EXPLORAT√ìRIA DAS HIP√ìTESES")
print("=" * 70)

# Criar subsets de sucesso e insucesso
success_df = train_df[train_df['labels'] == 1]
failure_df = train_df[train_df['labels'] == 0]

print(f"\nüìä Tamanho das amostras:")
print(f"  - Startups de Sucesso: {len(success_df)}")
print(f"  - Startups de Insucesso: {len(failure_df)}")

# H1 - An√°lise de Capital
print("\n" + "=" * 70)
print("H1 - CAPITAL COMO FATOR DETERMINANTE")
print("=" * 70)

print("\nüí∞ Funding Total (USD):")
print(f"  Sucesso - M√©dia: ${success_df['funding_total_usd'].mean():,.0f}")
print(f"  Insucesso - M√©dia: ${failure_df['funding_total_usd'].mean():,.0f}")
print(f"  Diferen√ßa: {(success_df['funding_total_usd'].mean() / failure_df['funding_total_usd'].mean() - 1) * 100:.1f}%")

print("\nüîÑ Rodadas de Financiamento:")
print(f"  Sucesso - M√©dia: {success_df['funding_rounds'].mean():.2f}")
print(f"  Insucesso - M√©dia: {failure_df['funding_rounds'].mean():.2f}")

print("\nüë• Participantes M√©dios por Rodada:")
print(f"  Sucesso - M√©dia: {success_df['avg_participants'].mean():.2f}")
print(f"  Insucesso - M√©dia: {failure_df['avg_participants'].mean():.2f}")

# H2 - An√°lise de Localiza√ß√£o
print("\n" + "=" * 70)
print("H2 - LOCALIZA√á√ÉO GEOGR√ÅFICA E ECOSSISTEMA")
print("=" * 70)

print("\nüåé Distribui√ß√£o por Localiza√ß√£o (% de sucesso):")
for location in ['is_CA', 'is_NY', 'is_MA', 'is_TX', 'is_otherstate']:
    if location in train_df.columns:
        success_rate = train_df[train_df[location] == 1]['labels'].mean() * 100
        total_count = train_df[location].sum()
        location_name = location.replace('is_', '')
        print(f"  {location_name}: {success_rate:.1f}% (n={total_count})")

# H3 - An√°lise de Maturidade Operacional
print("\n" + "=" * 70)
print("H3 - MATURIDADE OPERACIONAL E EXECU√á√ÉO")
print("=" * 70)

print("\nü§ù Relacionamentos Estrat√©gicos:")
print(f"  Sucesso - M√©dia: {success_df['relationships'].mean():.2f}")
print(f"  Insucesso - M√©dia: {failure_df['relationships'].mean():.2f}")

print("\nüéØ Marcos Alcan√ßados:")
print(f"  Sucesso - M√©dia: {success_df['milestones'].mean():.2f}")
print(f"  Insucesso - M√©dia: {failure_df['milestones'].mean():.2f}")

print("\n‚è±Ô∏è  Tempo at√© Primeiro Milestone (anos):")
print(f"  Sucesso - M√©dia: {success_df['age_first_milestone_year'].mean():.2f}")
print(f"  Insucesso - M√©dia: {failure_df['age_first_milestone_year'].mean():.2f}")

print("\n" + "=" * 70)
print("CONCLUS√ïES PRELIMINARES")
print("=" * 70)
print("\nAs an√°lises descritivas fornecem evid√™ncias iniciais para valida√ß√£o")
print("das hip√≥teses. A import√¢ncia final ser√° confirmada pelo modelo preditivo.")
print("=" * 70)

VALIDA√á√ÉO EXPLORAT√ìRIA DAS HIP√ìTESES

üìä Tamanho das amostras:
  - Startups de Sucesso: 418
  - Startups de Insucesso: 228

H1 - CAPITAL COMO FATOR DETERMINANTE

üí∞ Funding Total (USD):
  Sucesso - M√©dia: $36,786,578
  Insucesso - M√©dia: $16,130,875
  Diferen√ßa: 128.1%

üîÑ Rodadas de Financiamento:
  Sucesso - M√©dia: 2.56
  Insucesso - M√©dia: 1.96

üë• Participantes M√©dios por Rodada:
  Sucesso - M√©dia: 3.12
  Insucesso - M√©dia: 2.35

H2 - LOCALIZA√á√ÉO GEOGR√ÅFICA E ECOSSISTEMA

üåé Distribui√ß√£o por Localiza√ß√£o (% de sucesso):
  CA: 69.1% (n=353)
  NY: 70.4% (n=71)
  MA: 82.0% (n=61)
  TX: 45.8% (n=24)
  otherstate: 46.3% (n=136)

H3 - MATURIDADE OPERACIONAL E EXECU√á√ÉO

ü§ù Relacionamentos Estrat√©gicos:
  Sucesso - M√©dia: 9.82
  Insucesso - M√©dia: 4.52

üéØ Marcos Alcan√ßados:
  Sucesso - M√©dia: 2.24
  Insucesso - M√©dia: 1.31

‚è±Ô∏è  Tempo at√© Primeiro Milestone (anos):
  Sucesso - M√©dia: 3.64
  Insucesso - M√©dia: 2.64

CONCLUS√ïES PRELIMINARES

As

## 4. Prepara√ß√£o dos Dados

Separando features e target, removendo ID para modelagem.

In [5]:
# Separar features e target
target = train_df['labels']
features = train_df.drop(columns=['labels'])

# Guardar IDs do teste para submiss√£o
test_ids = test_df['id']

# Remover coluna ID dos features
if 'id' in features.columns:
    features = features.drop(columns=['id'])
if 'id' in test_df.columns:
    test_features = test_df.drop(columns=['id'])
else:
    test_features = test_df.copy()

print(f"‚úì Features de treino: {features.shape}")
print(f"‚úì Target: {target.shape}")
print(f"‚úì Features de teste: {test_features.shape}")

‚úì Features de treino: (646, 31)
‚úì Target: (646,)
‚úì Features de teste: (277, 31)


## 5. Engenharia de Features

Criando features derivadas para melhorar o poder preditivo do modelo:
- **funding_total_log**: Transforma√ß√£o logar√≠tmica do funding total
- **funding_per_round**: M√©dia de capta√ß√£o por rodada
- **funding_age_span**: Tempo entre primeiro e √∫ltimo funding
- **milestone_age_span**: Tempo entre primeiro e √∫ltimo milestone
- **milestones_per_round**: Propor√ß√£o de milestones por rodada de funding
- **has_funding_history**: Indicador se possui hist√≥rico de funding
- **has_milestone_history**: Indicador se possui hist√≥rico de milestones

In [6]:
def engineer_features(df: pd.DataFrame) -> pd.DataFrame:
    """
    Cria features derivadas que auxiliam modelos baseados em √°rvore.
    
    Args:
        df: DataFrame com features originais
        
    Returns:
        DataFrame com features originais + features engenheiradas
    """
    result = df.copy()
    
    # Feature 1: Transforma√ß√£o logar√≠tmica do funding total
    if 'funding_total_usd' in result.columns:
        result['funding_total_log'] = np.log1p(result['funding_total_usd'])
    
    # Feature 2: Funding m√©dio por rodada
    if {'funding_total_usd', 'funding_rounds'}.issubset(result.columns):
        result['funding_per_round'] = result['funding_total_usd'] / (
            result['funding_rounds'].replace(0, np.nan)
        )
    
    # Feature 3: Dura√ß√£o do hist√≥rico de funding
    if {'age_last_funding_year', 'age_first_funding_year'}.issubset(result.columns):
        result['funding_age_span'] = (
            result['age_last_funding_year'] - result['age_first_funding_year']
        )
    
    # Feature 4: Dura√ß√£o do hist√≥rico de milestones
    if {'age_last_milestone_year', 'age_first_milestone_year'}.issubset(result.columns):
        result['milestone_age_span'] = (
            result['age_last_milestone_year'] - result['age_first_milestone_year']
        )
    
    # Feature 5: Propor√ß√£o milestones por rodada
    if {'milestones', 'funding_rounds'}.issubset(result.columns):
        result['milestones_per_round'] = result['milestones'] / (
            result['funding_rounds'].replace(0, np.nan)
        )
    
    # Feature 6: Indicador de hist√≥rico de funding
    if 'age_first_funding_year' in result.columns:
        result['has_funding_history'] = result['age_first_funding_year'].notna().astype(int)
    
    # Feature 7: Indicador de hist√≥rico de milestones
    if 'age_first_milestone_year' in result.columns:
        result['has_milestone_history'] = result['age_first_milestone_year'].notna().astype(int)
    
    return result

# Aplicar engenharia de features
features_engineered = engineer_features(features)
test_features_engineered = engineer_features(test_features)

print(f"‚úì Features ap√≥s engenharia: {features_engineered.shape}")
print(f"‚úì Novas features criadas: {features_engineered.shape[1] - features.shape[1]}")
print(f"\nüìã Novas features adicionadas:")
new_features = set(features_engineered.columns) - set(features.columns)
for feat in sorted(new_features):
    print(f"  - {feat}")

‚úì Features ap√≥s engenharia: (646, 38)
‚úì Novas features criadas: 7

üìã Novas features adicionadas:
  - funding_age_span
  - funding_per_round
  - funding_total_log
  - has_funding_history
  - has_milestone_history
  - milestone_age_span
  - milestones_per_round


## 6. Identifica√ß√£o de Tipos de Features

Classificando features em num√©ricas e categ√≥ricas para aplicar pr√©-processamento adequado.

In [7]:
# Identificar features num√©ricas e categ√≥ricas
numeric_features = features_engineered.select_dtypes(include=['number', 'bool']).columns.tolist()
categorical_features = features_engineered.select_dtypes(include=['object', 'category']).columns.tolist()

print(f"üìä Features Num√©ricas: {len(numeric_features)}")
print(f"üìä Features Categ√≥ricas: {len(categorical_features)}")
print(f"\nFeatures Categ√≥ricas: {categorical_features}")

üìä Features Num√©ricas: 37
üìä Features Categ√≥ricas: 1

Features Categ√≥ricas: ['category_code']


## 7. Pipeline de Pr√©-processamento

Criando pipeline para:
- **Features Num√©ricas**: Imputa√ß√£o com mediana
- **Features Categ√≥ricas**: Imputa√ß√£o com moda + One-Hot Encoding

In [8]:
# Pipeline para features num√©ricas
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='median'))  # Preencher valores ausentes com mediana
])

# Pipeline para features categ√≥ricas
categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),  # Preencher com moda
    ('onehot', OneHotEncoder(handle_unknown='ignore', sparse_output=False))  # One-Hot Encoding
])

# Combinar transformadores
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)
    ]
)

print("‚úì Pipeline de pr√©-processamento configurado!")

‚úì Pipeline de pr√©-processamento configurado!


## 8. Configura√ß√£o do Modelo Random Forest

Utilizando Random Forest com Grid Search para encontrar os melhores hiperpar√¢metros.

### Hiperpar√¢metros testados:
- **n_estimators**: N√∫mero de √°rvores na floresta
- **max_depth**: Profundidade m√°xima das √°rvores
- **min_samples_split**: M√≠nimo de amostras para split
- **min_samples_leaf**: M√≠nimo de amostras por folha
- **max_features**: N√∫mero de features por split
- **class_weight**: Balanceamento de classes

In [9]:
# Modelo base: Random Forest Classifier
rf_model = RandomForestClassifier(
    random_state=RANDOM_STATE,
    n_jobs=-1  # Usar todos os cores dispon√≠veis
)

# Pipeline completo: pr√©-processamento + modelo
pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('model', rf_model)
])

# Grid de hiperpar√¢metros para otimiza√ß√£o
param_grid = {
    'model__n_estimators': [300, 500, 800],
    'model__max_depth': [None, 16, 24, 32],
    'model__min_samples_split': [2, 4],
    'model__min_samples_leaf': [1, 2],
    'model__max_features': ['sqrt', 'log2', 0.7],
    'model__class_weight': [None, 'balanced_subsample']
}

print("‚úì Modelo configurado!")
print(f"\nüìä Total de combina√ß√µes a testar: {np.prod([len(v) for v in param_grid.values()])}")

‚úì Modelo configurado!

üìä Total de combina√ß√µes a testar: 288


## 9. Grid Search com Valida√ß√£o Cruzada (5-Fold)

Conforme regras da competi√ß√£o:
- Usando **StratifiedKFold** com 5 folds
- Treinando no dataset completo (sem split train/test)
- Otimizando para **acur√°cia**

In [None]:
# Configurar valida√ß√£o cruzada estratificada
cv_strategy = StratifiedKFold(
    n_splits=5,
    shuffle=True,
    random_state=RANDOM_STATE
)

# Configurar Grid Search
grid_search = GridSearchCV(
    estimator=pipeline,
    param_grid=param_grid,
    cv=cv_strategy,
    scoring='accuracy',
    n_jobs=-1,
    verbose=2,
    return_train_score=True
)

print("‚úì Grid Search configurado!")
print("\nüöÄ Iniciando treinamento e otimiza√ß√£o...")
print("‚è≥ Este processo pode levar alguns minutos...\n")

# Treinar modelo
grid_search.fit(features_engineered, target)

print("\n‚úÖ Treinamento conclu√≠do!")

‚úì Grid Search configurado!

üöÄ Iniciando treinamento e otimiza√ß√£o...
‚è≥ Este processo pode levar alguns minutos...

Fitting 5 folds for each of 288 candidates, totalling 1440 fits


## 10. Resultados da Otimiza√ß√£o

Analisando os melhores hiperpar√¢metros encontrados e a performance do modelo.

In [None]:
# Melhores hiperpar√¢metros
print("üèÜ Melhores Hiperpar√¢metros Encontrados:")
print("="*60)
for param, value in grid_search.best_params_.items():
    print(f"  {param.replace('model__', '')}: {value}")

# Melhor score (acur√°cia m√©dia na valida√ß√£o cruzada)
best_cv_score = grid_search.best_score_
print(f"\nüìä Acur√°cia M√©dia (5-Fold CV): {best_cv_score:.4f} ({best_cv_score*100:.2f}%)")

# Verificar se atingimos a meta de 80%
if best_cv_score >= 0.80:
    print("\n‚úÖ META ATINGIDA! Acur√°cia > 80%")
else:
    print(f"\n‚ö†Ô∏è  Acur√°cia atual: {best_cv_score*100:.2f}% (meta: 80%)")

# An√°lise dos top 10 modelos
print("\nüìà Top 10 Combina√ß√µes de Hiperpar√¢metros:")
results_df = pd.DataFrame(grid_search.cv_results_)
top_10 = results_df.nlargest(10, 'mean_test_score')[[
    'mean_test_score', 'std_test_score', 'rank_test_score'
]]
top_10['mean_test_score'] = top_10['mean_test_score'].apply(lambda x: f"{x:.4f}")
top_10['std_test_score'] = top_10['std_test_score'].apply(lambda x: f"{x:.4f}")
print(top_10.to_string(index=False))

üèÜ Melhores Hiperpar√¢metros Encontrados:
  class_weight: None
  max_depth: None
  max_features: sqrt
  min_samples_leaf: 2
  min_samples_split: 2
  n_estimators: 300

üìä Acur√°cia M√©dia (5-Fold CV): 0.7894 (78.94%)

‚ö†Ô∏è  Acur√°cia atual: 78.94% (meta: 80%)

üìà Top 10 Combina√ß√µes de Hiperpar√¢metros:
mean_test_score std_test_score  rank_test_score
         0.7894         0.0202                1
         0.7894         0.0286                1
         0.7894         0.0202                1
         0.7894         0.0286                1
         0.7894         0.0202                1
         0.7894         0.0286                1
         0.7894         0.0202                1
         0.7894         0.0286                1
         0.7894         0.0202                1
         0.7894         0.0286                1


## 11. Avalia√ß√£o do Modelo com Valida√ß√£o Cruzada

Calculando m√©tricas detalhadas: Acur√°cia, Precis√£o, Recall e F1-Score.

In [None]:
# Obter o melhor modelo
best_model = grid_search.best_estimator_

# Calcular m√©tricas com valida√ß√£o cruzada
print("üìä M√©tricas de Avalia√ß√£o (Valida√ß√£o Cruzada 5-Fold):")
print("="*60)

# Acur√°cia
accuracy_scores = cross_val_score(best_model, features_engineered, target, 
                                   cv=cv_strategy, scoring='accuracy')
print(f"Acur√°cia: {accuracy_scores.mean():.4f} (¬±{accuracy_scores.std():.4f})")

# Precis√£o
precision_scores = cross_val_score(best_model, features_engineered, target, 
                                   cv=cv_strategy, scoring='precision')
print(f"Precis√£o: {precision_scores.mean():.4f} (¬±{precision_scores.std():.4f})")

# Recall
recall_scores = cross_val_score(best_model, features_engineered, target, 
                                cv=cv_strategy, scoring='recall')
print(f"Recall:   {recall_scores.mean():.4f} (¬±{recall_scores.std():.4f})")

# F1-Score
f1_scores = cross_val_score(best_model, features_engineered, target, 
                            cv=cv_strategy, scoring='f1')
print(f"F1-Score: {f1_scores.mean():.4f} (¬±{f1_scores.std():.4f})")

print("\nüìå Nota: Valores ¬± representam o desvio padr√£o entre os folds")

üìä M√©tricas de Avalia√ß√£o (Valida√ß√£o Cruzada 5-Fold):
Acur√°cia: 0.7894 (¬±0.0202)
Acur√°cia: 0.7894 (¬±0.0202)
Precis√£o: 0.7894 (¬±0.0182)
Precis√£o: 0.7894 (¬±0.0182)
Recall:   0.9209 (¬±0.0271)
Recall:   0.9209 (¬±0.0271)
F1-Score: 0.8498 (¬±0.0146)

üìå Nota: Valores ¬± representam o desvio padr√£o entre os folds
F1-Score: 0.8498 (¬±0.0146)

üìå Nota: Valores ¬± representam o desvio padr√£o entre os folds


## 12. Import√¢ncia das Features

Analisando quais features mais contribuem para as previs√µes do modelo.

In [None]:
# Obter import√¢ncia das features
try:
    # Acessar o modelo Random Forest dentro do pipeline
    rf_classifier = best_model.named_steps['model']
    
    # Obter nomes das features ap√≥s pr√©-processamento
    preprocessor_fitted = best_model.named_steps['preprocessor']
    
    # Features num√©ricas mant√™m seus nomes
    numeric_feature_names = numeric_features
    
    # Features categ√≥ricas s√£o expandidas pelo OneHotEncoder
    categorical_feature_names = []
    if len(categorical_features) > 0:
        ohe = preprocessor_fitted.named_transformers_['cat'].named_steps['onehot']
        categorical_feature_names = ohe.get_feature_names_out(categorical_features).tolist()
    
    # Combinar nomes
    all_feature_names = numeric_feature_names + categorical_feature_names
    
    # Criar DataFrame com import√¢ncias
    feature_importance_df = pd.DataFrame({
        'Feature': all_feature_names,
        'Import√¢ncia': rf_classifier.feature_importances_
    }).sort_values('Import√¢ncia', ascending=False)
    
    print("üåü Top 20 Features Mais Importantes:")
    print("="*60)
    print(feature_importance_df.head(20).to_string(index=False))
    
except Exception as e:
    print(f"‚ö†Ô∏è  N√£o foi poss√≠vel extrair import√¢ncia das features: {e}")

üåü Top 20 Features Mais Importantes:
                 Feature  Import√¢ncia
           relationships     0.111812
 age_last_milestone_year     0.078475
       funding_total_log     0.076583
       funding_total_usd     0.072489
   age_last_funding_year     0.064415
       funding_per_round     0.063645
  age_first_funding_year     0.058331
age_first_milestone_year     0.053964
        avg_participants     0.051869
    milestones_per_round     0.046765
              milestones     0.044608
      milestone_age_span     0.043821
        funding_age_span     0.040531
          funding_rounds     0.024481
   has_milestone_history     0.019680
           is_otherstate     0.011797
              has_roundB     0.011140
                  has_VC     0.009340
              has_roundA     0.009064
              has_roundC     0.008686


## 13. Treinamento Final e Predi√ß√µes

Gerando predi√ß√µes para o conjunto de teste e criando o arquivo de submiss√£o.

In [None]:
# O modelo j√° est√° treinado com todos os dados (grid_search.fit)
# Agora vamos fazer as predi√ß√µes no conjunto de teste

print("üîÆ Gerando predi√ß√µes para o conjunto de teste...")
predictions = best_model.predict(test_features_engineered)

# An√°lise das predi√ß√µes
print(f"\nüìä Distribui√ß√£o das Predi√ß√µes:")
print(f"  Sucesso (1): {(predictions == 1).sum()} ({(predictions == 1).sum()/len(predictions)*100:.2f}%)")
print(f"  Insucesso (0): {(predictions == 0).sum()} ({(predictions == 0).sum()/len(predictions)*100:.2f}%)")

print("\n‚úì Predi√ß√µes conclu√≠das!")

üîÆ Gerando predi√ß√µes para o conjunto de teste...

üìä Distribui√ß√£o das Predi√ß√µes:
  Sucesso (1): 205 (74.01%)
  Insucesso (0): 72 (25.99%)

‚úì Predi√ß√µes conclu√≠das!


## 14. Gera√ß√£o do Arquivo de Submiss√£o

Criando o arquivo CSV no formato exigido pela competi√ß√£o Kaggle.

In [None]:
# Criar DataFrame de submiss√£o
submission_df = pd.DataFrame({
    'id': test_ids,
    'labels': predictions
})

# Gerar nome de arquivo incremental para submiss√£o
import os
import re

def get_next_submission_filename(base_name="submission", ext="csv"):
    files = [f for f in os.listdir() if re.match(rf"{base_name}(_v\\d+)?\\.{ext}$", f)]
    if not files:
        return f"{base_name}.{ext}"
    versions = [0]  # 0 para submission.csv
    for f in files:
        m = re.search(r'_v(\\d+)', f)
        if m:
            versions.append(int(m.group(1)))
    next_version = max(versions) + 1
    if f"{base_name}.{ext}" in files and next_version == 1:
        # submission.csv j√° existe, ent√£o pr√≥xima √© _v2
        next_version = 2
    if next_version == 1:
        return f"{base_name}.{ext}"
    else:
        return f"{base_name}_v{next_version}.{ext}"

submission_filename = get_next_submission_filename()
submission_df.to_csv(submission_filename, index=False)

print(f"‚úÖ Arquivo de submiss√£o criado: {submission_filename}")
print(f"\nüìã Preview do arquivo de submiss√£o:")
display(submission_df.head(10))
print(f"\nTotal de predi√ß√µes: {len(submission_df)}")


‚úÖ Arquivo de submiss√£o criado: submission.csv

üìã Preview do arquivo de submiss√£o:


Unnamed: 0,id,labels
0,70,1
1,23,0
2,389,1
3,872,1
4,920,0
5,690,1
6,588,0
7,144,1
8,875,1
9,900,1



Total de predi√ß√µes: 277


## 15. Resumo Final

Consolidando os resultados e pr√≥ximos passos.

In [None]:
print("="*70)
print("üìä RESUMO FINAL DO MODELO")
print("="*70)
print(f"\nü§ñ Modelo: Random Forest Classifier")
print(f"üîß Otimiza√ß√£o: Grid Search com {len(param_grid)} hiperpar√¢metros")
print(f"üìä Valida√ß√£o: StratifiedKFold (5 folds)")
print(f"\nüéØ RESULTADOS:")
print(f"  - Acur√°cia CV: {best_cv_score:.4f} ({best_cv_score*100:.2f}%)")
print(f"  - Precis√£o CV: {precision_scores.mean():.4f}")
print(f"  - Recall CV: {recall_scores.mean():.4f}")
print(f"  - F1-Score CV: {f1_scores.mean():.4f}")

if best_cv_score >= 0.80:
    print(f"\n‚úÖ META ALCAN√áADA! Acur√°cia > 80%")
else:
    print(f"\n‚ö†Ô∏è  Acur√°cia atual: {best_cv_score*100:.2f}% (meta: 80%)")
    print("\nüí° Sugest√µes para melhorar:")
    print("  - Criar mais features engenheiradas")
    print("  - Testar outros ranges de hiperpar√¢metros")
    print("  - Considerar ensemble com outros modelos")
    print("  - Analisar e tratar outliers")

print(f"\nüìÅ Arquivo gerado: {submission_filename}")
print(f"\nüöÄ Pr√≥ximos passos:")
print("  1. Submeter o arquivo submission.csv no Kaggle")
print("  2. Verificar a acur√°cia no leaderboard p√∫blico")
print("  3. Iterar melhorias se necess√°rio")
print("\n" + "="*70)

üìä RESUMO FINAL DO MODELO

ü§ñ Modelo: Random Forest Classifier
üîß Otimiza√ß√£o: Grid Search com 6 hiperpar√¢metros
üìä Valida√ß√£o: StratifiedKFold (5 folds)

üéØ RESULTADOS:
  - Acur√°cia CV: 0.7894 (78.94%)
  - Precis√£o CV: 0.7894
  - Recall CV: 0.9209
  - F1-Score CV: 0.8498

‚ö†Ô∏è  Acur√°cia atual: 78.94% (meta: 80%)

üí° Sugest√µes para melhorar:
  - Criar mais features engenheiradas
  - Testar outros ranges de hiperpar√¢metros
  - Considerar ensemble com outros modelos
  - Analisar e tratar outliers

üìÅ Arquivo gerado: submission.csv

üöÄ Pr√≥ximos passos:
  1. Submeter o arquivo submission.csv no Kaggle
  2. Verificar a acur√°cia no leaderboard p√∫blico
  3. Iterar melhorias se necess√°rio

