# Experimento 2: Dataset sintético com alta correlação

Neste experimento, foi gerado um dataset sintético com 5 mil registros e alta correlação entre a variável explicativa e o target.

## Objetivo:
Observar o desempenho de um modelo simples em um cenário controlado e ideal para regressão linear.

## Resultados:
- Regressão Linear:  
  - R²: 0.99

> Conclusão: Em dados com estrutura bem definida e forte relação linear, a regressão linear simples tem desempenho excelente.

In [1]:
import numpy as np
import pandas as pd

# Definindo número de registros
n = 5000  # Aumente para 5000 ou mais se necessário

# Gerando as variáveis independentes
np.random.seed(42)
renda_mensal = np.random.normal(5000, 1500, n)  # Média de 5000 e desvio padrão de 1500
score_credito = np.random.normal(600, 100, n)   # Média de 600 e desvio padrão de 100
tempo_emprego = np.random.normal(5, 3, n)       # Média de 5 anos, desvio padrão de 3
inadimplente_passado = np.random.binomial(1, 0.2, n)  # 20% de chance de inadimplência
num_produtos = np.random.randint(1, 10, n)      # Número de produtos entre 1 e 10
tipo_cliente = np.random.choice(['PF', 'PJ'], n)  # Tipo de cliente

# Gerando o valor_aprovado com forte relação linear
# Definindo um relacionamento linear com coeficientes fixos
valor_aprovado = 5000 + 0.5 * renda_mensal + 1.2 * score_credito + 3000 * tempo_emprego + 2000 * num_produtos + np.random.normal(0, 1000, n)

# Criando o DataFrame
df = pd.DataFrame({
    'renda_mensal': renda_mensal,
    'score_credito': score_credito,
    'tempo_emprego': tempo_emprego,
    'inadimplente_passado': inadimplente_passado,
    'num_produtos': num_produtos,
    'tipo_cliente': tipo_cliente,
    'valor_aprovado': valor_aprovado
})

# Codificando a variável categórica "tipo_cliente"
df = pd.get_dummies(df, columns=['tipo_cliente'], drop_first=True)

print(df.head())


   renda_mensal  score_credito  tempo_emprego  inadimplente_passado  \
0   5745.071230     557.624032       2.964516                     0   
1   4792.603548     554.658589       4.083502                     0   
2   5971.532807     420.435683       3.207857                     1   
3   7284.544785     566.990981       5.331254                     0   
4   4648.769938     673.282908       8.591536                     1   

   num_produtos  valor_aprovado  tipo_cliente_PJ  
0             5    27129.814658             True  
1             7    35730.793782             True  
2             6    30874.604435             True  
3             3    31334.806025             True  
4             5    43459.876806             True  


In [2]:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score

# Separando as variáveis independentes (X) e dependentes (y)
X = df.drop(columns=['valor_aprovado'])
y = df['valor_aprovado']

# Dividindo em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Treinando o modelo de regressão linear
model = LinearRegression()
model.fit(X_train, y_train)

# Fazendo previsões
y_pred = model.predict(X_test)

# Calculando o R²
r2 = r2_score(y_test, y_pred)
print(f'R²: {r2}')


R²: 0.9909901176550733
