In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# Fijar una semilla para la reproducibilidad
np.random.seed(42)

# Crear datos sintéticos relacionados
n_samples = 1000
edad = np.random.randint(18, 65, size=n_samples)  # Edad entre 18 y 65 años
ingresos = np.random.randint(20000, 100000, size=n_samples)  # Ingresos anuales en una escala razonable
gasto_mensual = ingresos * np.random.uniform(0.1, 0.4, size=n_samples)  # Gasto mensual relacionado con los ingresos
horas_trabajo_semanal = np.random.randint(20, 60, size=n_samples)  # Horas de trabajo por semana

# Fórmula modificada para puntaje de crédito
puntaje_credito = np.clip(
    edad * 0.5 + (ingresos // 120) * 1.5 - horas_trabajo_semanal * 0.2 + np.random.normal(0, 15, size=n_samples),
    300, 850
)


# Crear una relación más compleja entre las características
aprobado_credito = (
    (puntaje_credito >= 600) &
    (gasto_mensual <= ingresos * 0.3) &
    (np.random.rand(n_samples) > 0.1)  # Agregar un pequeño azar
)
aprobado_credito = aprobado_credito.astype(int)

# Añadir algo de ruido a la variable objetivo para hacer la tarea menos trivial
ruido = np.random.choice([0, 1], size=n_samples, p=[0.05, 0.95])  # Un poco de aleatoriedad
aprobado_credito = (aprobado_credito + ruido) % 2  # Alternar algunos valores aleatoriamente

# Crear el DataFrame
df = pd.DataFrame({
    'Edad': edad,
    'Ingresos': ingresos,
    'Gasto_Mensual': gasto_mensual.astype(int),
    'Horas_Trabajo_Semanal': horas_trabajo_semanal,
    'Puntaje_Credito': puntaje_credito.astype(int),
    'Aprobado_Credito': aprobado_credito
})

# Mostrar las primeras filas del DataFrame
print("Dataset Sintético con Relación Lógica y Variable Objetivo:")
print(df.head())

# Dividir en conjuntos de entrenamiento y prueba
X = df[['Edad', 'Ingresos', 'Gasto_Mensual', 'Horas_Trabajo_Semanal', 'Puntaje_Credito']]  # Características
y = df['Aprobado_Credito']  # Variable objetivo

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Entrenar un modelo de clasificación
model = RandomForestClassifier(n_estimators=100, max_depth=10, random_state=42)
model.fit(X_train, y_train)

# Predecir y evaluar
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print("Exactitud del modelo:", accuracy)

Dataset Sintético con Relación Lógica y Variable Objetivo:
   Edad  Ingresos  Gasto_Mensual  Horas_Trabajo_Semanal  Puntaje_Credito  \
0    56     25287           6935                     27              340   
1    46     54387           6901                     45              707   
2    32     28512           8989                     59              344   
3    60     21342           4694                     26              300   
4    25     83076          32650                     49              850   

   Aprobado_Credito  
0                 1  
1                 0  
2                 1  
3                 1  
4                 1  
Exactitud del modelo: 0.895


In [None]:
df.to_excel('df.xlsx')
