## Modelo de Previsão de Sucesso de Startups
---
**Desafio**: Imagine que você foi contratado por uma das maiores aceleradoras do mundo. Sua missão? Desenvolver um modelo preditivo capaz de identificar quais startups apresentam maior probabilidade de se tornarem casos de sucesso no mercado.

**Solução Esperada**: Modelo de machine learning

**Para quem a Solução se Destina**: Investidores e aceleradores na tomada de decisões mais estratégicas

**Dados disponibilizados**: 
- train.csv → conjunto de treinamento com startups + variável de destino (rótulos)
- test.csv → conjunto de teste (sem a coluna de destino)
- sample_submission.csv → formato de submissão esperado

**Metodologia**:

Para desenvolver a solução, a construção de um modelo de previsão de sucesso de startups, é necessário seguir uma sequência de etapas que organize o processo de desenvolvimento. O objetivo é mapear o problema de forma estruturada e compreender qual abordagem de fato poderá solucioná-lo.

Será utilizada a metodologia **CRISP-DM**, adaptada ao desafio. Diferente de um contexto empresarial tradicional, o foco aqui está no entendimento do **problema do desafio**. As etapas são:

1. **Entendimento do contexto** – definição e análise do desafio.  
2. **Exploração dos dados** – levantamento inicial de padrões e inconsistências.  
3. **Preparação dos dados** – limpeza, transformação e formatação adequada.  
4. **Modelagem** – aplicação de algoritmos para previsão de sucesso.  
5. **Avaliação** – análise de métricas e resultados obtidos.  

Ao final, em vez de uma implantação no ambiente de negócio, será realizada a **submissão da solução ao desafio**.


### 1. Entendimento do contexto 

Nesta atividade, cada participante terá acesso ao mesmo conjunto de dados estruturados, representando um problema de previsão real.
O desafio é desenvolver modelos capazes de gerar previsões precisas, que serão avaliadas de acordo com uma métrica específica definida pelos instrutores .

Avaliação:
A avaliação será realizada automaticamente pela plataforma Kaggle, com base nos padrões de submissão definidos no concurso.

Atenção: 
é essencial que todas as submissões sigam rigorosamente o formato exigido, pois qualquer desvio poderá resultar em erros ou desclassificação .

Em situações específicas (como inconsistências, problemas técnicos ou suspeitas de irregularidades), a avaliação pode ser revisada manualmente pelos instrutores.

### 2. Exploração dos Dados

Este conjunto de dados reúne informações reais sobre startups de diferentes setores, incluindo histórico de financiamento, valores captados, localização e setor.

In [None]:
# Preparação do ambiente: importação de bibliotecas, databases, etc...
import pandas as pd
import numpy as np
import sklearn as sk
import matplotlib.pyplot as plt
import seaborn as sns
import plotly as px

print("Pandas:", pd.__version__)
print("Numpy:", np.__version__)
print("Scikit-learn:", sk.__version__)
print("Seaborn:", sns.__version__)
print("Plotly:", px.__version__)
print("Bibliotecas importadas com sucesso!")

print("---")

# Carregamento dos dados
df_train = pd.read_csv("./database/train.csv")
df_test  = pd.read_csv("./database/test.csv")
df_sample_submission = pd.read_csv("./database/sample_submission.csv")

# ================================
# Exploração inicial dos dados
# ================================

def explorar_dataset(df, nome="Dataset", target=None):
    print(f"\n===== {nome} =====")

    # Estrutura básica
    print("\nEstrutura básica")
    print("Formato (linhas, colunas):", df.shape)
    print("Colunas presentes no dataset", df.columns.tolist())
    print("\nTipos de dados:")
    display(df.dtypes.value_counts())
    print("\nInformações de memória:")
    df.info(memory_usage="deep")

    # Qualidade dos dados
    print("\nQualidade dos dados")
    print("Valores ausentes (%):")
    display((df.isna().mean()*100).round(2).sort_values(ascending=False).head(10))

    dup = df.duplicated().sum()
    print(f"Número de duplicatas: {dup}")

    print("\nCardinalidade (nº de valores únicos por coluna):")
    display(df.nunique().sort_values(ascending=False).head(10))

    #Estatísticas descritivas
    print("\nEstatísticas descritivas")
    display(df.describe(include="all").T)

    # Target
    if target and target in df.columns:
        print(f"\nDistribuição da variável alvo '{target}':")
        display(df[target].value_counts(normalize=True).mul(100).round(2))

    # Primeiras linhas para amostra
    print("\nPrimeiras linhas do dataset:")
    display(df.head())


# Chamando a função para cada base
explorar_dataset(df_train, nome="Base de Treinamento", target="labels")
explorar_dataset(df_test, nome="Base de Teste")
explorar_dataset(df_sample_submission, nome="Base de Submissão")


Pandas: 2.2.3
Numpy: 2.1.3
Scikit-learn: 1.6.1
Seaborn: 0.13.2
Plotly: 5.24.1
Bibliotecas importadas com sucesso!
---

===== Base de Treinamento =====

Estrutura básica
Formato (linhas, colunas): (646, 33)
Colunas presentes no dataset ['id', 'age_first_funding_year', 'age_last_funding_year', 'age_first_milestone_year', 'age_last_milestone_year', 'relationships', 'funding_rounds', 'funding_total_usd', 'milestones', 'is_CA', 'is_NY', 'is_MA', 'is_TX', 'is_otherstate', 'category_code', 'is_software', 'is_web', 'is_mobile', 'is_enterprise', 'is_advertising', 'is_gamesvideo', 'is_ecommerce', 'is_biotech', 'is_consulting', 'is_othercategory', 'has_VC', 'has_angel', 'has_roundA', 'has_roundB', 'has_roundC', 'has_roundD', 'avg_participants', 'labels']

Tipos de dados:


int64      27
float64     5
object      1
Name: count, dtype: int64


Informações de memória:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 646 entries, 0 to 645
Data columns (total 33 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   id                        646 non-null    int64  
 1   age_first_funding_year    611 non-null    float64
 2   age_last_funding_year     637 non-null    float64
 3   age_first_milestone_year  508 non-null    float64
 4   age_last_milestone_year   535 non-null    float64
 5   relationships             646 non-null    int64  
 6   funding_rounds            646 non-null    int64  
 7   funding_total_usd         646 non-null    int64  
 8   milestones                646 non-null    int64  
 9   is_CA                     646 non-null    int64  
 10  is_NY                     646 non-null    int64  
 11  is_MA                     646 non-null    int64  
 12  is_TX                     646 non-null    int64  
 13  is_otherstate             646 non-null  

age_first_milestone_year    21.36
age_last_milestone_year     17.18
age_first_funding_year       5.42
age_last_funding_year        1.39
id                           0.00
relationships                0.00
funding_rounds               0.00
funding_total_usd            0.00
milestones                   0.00
is_CA                        0.00
dtype: float64

Número de duplicatas: 0

Cardinalidade (nº de valores únicos por coluna):


id                          646
age_last_funding_year       422
funding_total_usd           383
age_last_milestone_year     374
age_first_funding_year      334
age_first_milestone_year    274
avg_participants             53
relationships                39
category_code                34
funding_rounds                8
dtype: int64


Estatísticas descritivas


Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
id,646.0,,,,461.577399,264.859464,1.0,233.25,459.5,692.5,923.0
age_first_funding_year,611.0,,,,2.341718,2.468275,0.0,0.68,1.65,3.6,21.9
age_last_funding_year,637.0,,,,4.037724,2.950923,0.0,1.87,3.61,5.59,21.9
age_first_milestone_year,508.0,,,,3.352657,2.866952,0.0,1.185,2.785,4.935,24.68
age_last_milestone_year,535.0,,,,4.944729,3.213319,0.0,2.54,4.62,6.88,24.68
relationships,646.0,,,,7.948916,7.397602,0.0,3.0,6.0,10.0,63.0
funding_rounds,646.0,,,,2.351393,1.357856,1.0,1.0,2.0,3.0,8.0
funding_total_usd,646.0,,,,29496329.854489,226199892.7624,11000.0,3000000.0,10200001.5,25875000.0,5700000000.0
milestones,646.0,,,,1.913313,1.337095,0.0,1.0,2.0,3.0,6.0
is_CA,646.0,,,,0.54644,0.498224,0.0,0.0,1.0,1.0,1.0



Distribuição da variável alvo 'labels':


labels
1    64.71
0    35.29
Name: proportion, dtype: float64


Primeiras linhas do dataset:


Unnamed: 0,id,age_first_funding_year,age_last_funding_year,age_first_milestone_year,age_last_milestone_year,relationships,funding_rounds,funding_total_usd,milestones,is_CA,...,is_consulting,is_othercategory,has_VC,has_angel,has_roundA,has_roundB,has_roundC,has_roundD,avg_participants,labels
0,719,10.42,13.09,8.98,12.72,4,3,4087500,3,1,...,0,0,1,1,0,0,0,0,1.0,0
1,429,3.79,3.79,,,21,1,45000000,0,0,...,0,0,0,0,0,1,0,0,1.0,1
2,178,0.71,2.28,1.95,2.28,5,2,5200000,2,1,...,0,1,1,0,1,0,0,0,1.0,0
3,197,3.0,5.0,9.62,10.39,16,2,14500000,2,0,...,0,0,0,1,0,1,0,0,2.0,1
4,444,0.66,5.88,6.21,8.61,29,5,70000000,4,1,...,0,0,0,0,1,1,1,1,2.8,1



===== Base de Teste =====

Estrutura básica
Formato (linhas, colunas): (277, 32)
Colunas presentes no dataset ['id', 'age_first_funding_year', 'age_last_funding_year', 'age_first_milestone_year', 'age_last_milestone_year', 'relationships', 'funding_rounds', 'funding_total_usd', 'milestones', 'is_CA', 'is_NY', 'is_MA', 'is_TX', 'is_otherstate', 'category_code', 'is_software', 'is_web', 'is_mobile', 'is_enterprise', 'is_advertising', 'is_gamesvideo', 'is_ecommerce', 'is_biotech', 'is_consulting', 'is_othercategory', 'has_VC', 'has_angel', 'has_roundA', 'has_roundB', 'has_roundC', 'has_roundD', 'avg_participants']

Tipos de dados:


int64      26
float64     5
object      1
Name: count, dtype: int64


Informações de memória:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 277 entries, 0 to 276
Data columns (total 32 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   id                        277 non-null    int64  
 1   age_first_funding_year    266 non-null    float64
 2   age_last_funding_year     273 non-null    float64
 3   age_first_milestone_year  217 non-null    float64
 4   age_last_milestone_year   224 non-null    float64
 5   relationships             277 non-null    int64  
 6   funding_rounds            277 non-null    int64  
 7   funding_total_usd         277 non-null    int64  
 8   milestones                277 non-null    int64  
 9   is_CA                     277 non-null    int64  
 10  is_NY                     277 non-null    int64  
 11  is_MA                     277 non-null    int64  
 12  is_TX                     277 non-null    int64  
 13  is_otherstate             277 non-null  

age_first_milestone_year    21.66
age_last_milestone_year     19.13
age_first_funding_year       3.97
age_last_funding_year        1.44
id                           0.00
relationships                0.00
funding_rounds               0.00
funding_total_usd            0.00
milestones                   0.00
is_CA                        0.00
dtype: float64

Número de duplicatas: 0

Cardinalidade (nº de valores únicos por coluna):


id                          277
age_last_funding_year       232
funding_total_usd           200
age_first_funding_year      187
age_last_milestone_year     164
age_first_milestone_year    127
avg_participants             35
category_code                33
relationships                29
funding_rounds                8
dtype: int64


Estatísticas descritivas


Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
id,277.0,,,,462.98556,271.068618,4.0,215.0,464.0,692.0,922.0
age_first_funding_year,266.0,,,,2.497857,2.446842,0.0,0.7225,1.58,4.025,16.42
age_last_funding_year,273.0,,,,3.924286,2.825445,0.0,1.76,3.51,5.56,16.42
age_first_milestone_year,217.0,,,,3.312535,2.553868,0.0,1.25,2.97,5.0,13.01
age_last_milestone_year,224.0,,,,4.663348,2.847457,0.0,2.485,4.165,6.7225,13.01
relationships,277.0,,,,7.155235,6.929857,0.0,3.0,5.0,9.0,57.0
funding_rounds,277.0,,,,2.216606,1.463324,1.0,1.0,2.0,3.0,10.0
funding_total_usd,277.0,,,,15912632.945848,20687847.491583,20000.0,2238055.0,9000000.0,22250000.0,162264126.0
milestones,277.0,,,,1.67509,1.275122,0.0,1.0,1.0,2.0,8.0
is_CA,277.0,,,,0.483755,0.500641,0.0,0.0,0.0,1.0,1.0



Primeiras linhas do dataset:


Unnamed: 0,id,age_first_funding_year,age_last_funding_year,age_first_milestone_year,age_last_milestone_year,relationships,funding_rounds,funding_total_usd,milestones,is_CA,...,is_biotech,is_consulting,is_othercategory,has_VC,has_angel,has_roundA,has_roundB,has_roundC,has_roundD,avg_participants
0,70,1.33,3.02,3.02,3.34,9,3,11489687,2,1,...,0,0,0,0,1,1,1,0,0,3.3333
1,23,5.49,5.49,0.0,0.0,1,1,3170000,1,1,...,0,0,0,0,0,1,0,0,0,2.0
2,389,5.84,8.22,,,4,3,47218498,0,1,...,0,0,1,1,0,0,0,1,1,3.3333
3,872,6.3,6.3,6.0,6.0,9,1,15000000,1,1,...,1,0,0,0,0,0,0,0,0,3.0
4,920,7.25,9.23,6.0,6.0,1,3,52000000,1,0,...,0,0,1,1,0,0,1,0,0,2.6667



===== Base de Submissão =====

Estrutura básica
Formato (linhas, colunas): (277, 2)
Colunas presentes no dataset ['id', 'labels']

Tipos de dados:


int64    2
Name: count, dtype: int64


Informações de memória:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 277 entries, 0 to 276
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   id      277 non-null    int64
 1   labels  277 non-null    int64
dtypes: int64(2)
memory usage: 4.5 KB

Qualidade dos dados
Valores ausentes (%):


id        0.0
labels    0.0
dtype: float64

Número de duplicatas: 0

Cardinalidade (nº de valores únicos por coluna):


id        277
labels      1
dtype: int64


Estatísticas descritivas


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
id,277.0,462.98556,271.068618,4.0,215.0,464.0,692.0,922.0
labels,277.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0



Primeiras linhas do dataset:


Unnamed: 0,id,labels
0,70,0
1,23,0
2,389,0
3,872,0
4,920,0


**Pontos Relevantes Sobre a Exploração**

Colunas do dataset de treino:
- id → identificador
- age_first_funding_year → ano do primeiro financiamento
- age_last_funding_year → ano do último financiamento
- age_first_milestone_year → ano do primeiro marco (milestone)
- age_last_milestone_year → ano do último marco (milestone)
- relationships → relacionamentos
- funding_rounds → rodadas de financiamento
- funding_total_usd → total financiado em USD
- milestones → marcos
- is_CA → está na Califórnia (CA)
- is_NY → está em Nova York (NY)
- is_MA → está em Massachusetts (MA)
- is_TX → está no Texas (TX)
- is_otherstate → está em outro estado
- category_code → código da categoria
- is_software → é do setor de software
- is_web → é do setor de web
- is_mobile → é do setor de mobile
- is_enterprise → é do setor empresarial (enterprise)
- is_advertising → é do setor de publicidade
- is_gamesvideo → é do setor de games/vídeo
- is_ecommerce → é do setor de e-commerce
- is_biotech → é do setor de biotecnologia
- is_consulting → é do setor de consultoria
- is_othercategory → é de outra categoria
- has_VC → possui venture capital (VC)
- has_angel → possui investimento anjo
- has_roundA → possui rodada A
- has_roundB → possui rodada B
- has_roundC → possui rodada C
- has_roundD → possui rodada D
- avg_participants → média de participantes
- labels → rótulos (variável alvo)

### 3. Preparação dos Dados

**Faltantes ( NaN)** : principalmente em age_*e outliers de funding_total_usd→ tratar no pipeline (ex.: imputação por mediana ou uso de modelos robustos). <br>
**Escalas** : variáveis ​​como funding_total_usd, relationships, funding_roundse avg_participantstêm ordens de grandeza diferentes → recomenda-se normalização/padronização ( StandardScaler) em modelos lineares. <br>
**Vazamento evitado** : colunas como status, closed_at, is_top500, dados cruzados e identificadores foram removidos. <br>
**Balanceamento** : verifique a proporção do labelstreinamento; se necessário, use class_weight, Threshold Tuning ou métricas robustas ( AUC/F1).