## Predição de Sucesso de Startups  

Notebook desenvolvido para explorar e modelar dados reais de startups, com foco em prever se uma empresa terá **sucesso (ativa/adquirida)** ou **insucesso (fechada)**.  
O projeto envolve análise exploratória, tratamento de valores ausentes, seleção de variáveis e aplicação de modelos de classificação binária, estimulando o uso de técnicas de pré-processamento e aprendizado de máquina aplicadas ao empreendedorismo.  

In [None]:
# Importação de bibliotecas
import pandas as pd
import numpy as np
import sklearn as skl
import matplotlib.pyplot as plt
import seaborn as sns

# Configurações de visualização
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 12
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)

print("Bibliotecas carregadas com sucesso")

### 1. Carregamento de dados

In [None]:
# Carregamento do dataset principal
train_df = pd.read_csv("../data/train.csv")
test_df = pd.read_csv("../data/test.csv")

print("Dados de treino carregados com sucesso. Shape: {}".format(train_df.shape))
print("Dados de teste carregados com sucesso. Shape: {}".format(test_df.shape))

print("Primeiras 5 linhas dos dados de treino:")
print(train_df.head(5))

In [None]:
print("Informações gerais sobre os treinos:")
train_df.info()

print("Estatísticas descritivas dos treinos:")
print(train_df.describe())

print("Valores ausentes nos treinos:")
print(train_df.isnull().sum()[train_df.isnull().sum() > 0])

print("Distribuição da variável alvo (labels):")
print(train_df["labels"].value_counts())
print(train_df["labels"].value_counts(normalize=True) * 100)

In [None]:
# 3. Tratando dados ausentes
cols_to_impute_median = [
    'age_first_funding_year', 'age_last_funding_year',
    'age_first_milestone_year', 'age_last_milestone_year',
    'funding_total_usd'
]

for col in cols_to_impute_median:
    median_val = train_df[col].median()
    train_df[col].fillna(median_val, inplace=True)
    test_df[col].fillna(median_val, inplace=True)

print("Valores ausentes tratados pela mediana para colunas: {}.".format(cols_to_impute_median))
print("\nVerificando valores ausentes após imputação dos treinos:")
print(train_df[cols_to_impute_median].isnull().sum())


In [None]:
# Aplicando one hot encoding para category_code
categorical_col = ["category_code"]

train_df = pd.get_dummies(train_df, columns=categorical_col, drop_first=True)
test_df = pd.get_dummies(test_df, columns=categorical_col, drop_first=True)

# Alinhamento entre colunas de treino e teste
missing_cols_in_test = set(train_df.columns) - set(test_df.columns)
missing_cols_in_train = set(test_df.columns) - set(train_df.columns)

for col in missing_cols_in_test:
    if col != 'labels':  #Evitando coluna alvo em teste
        test_df[col] = 0

for col in missing_cols_in_train:
    if col != 'labels':  #Evitando coluna alvo em treino
        train_df[col] = 0
