# Modelos de datos usando informacion financiera

In [None]:
# Primero importamos las librerias
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.manifold import TSNE
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression, LinearRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.cluster import KMeans, DBSCAN
from sklearn.mixture import GaussianMixture
from sklearn.metrics import silhouette_score
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
# from sklearn_extra.cluster import KMedoids

In [None]:
# Segundo paso: Vamos a leer el dataset
df = pd.read_csv('Credit_Risk_BenchmarkDataset.csv')
df.head()

In [None]:
# Información general del dataset
print("Info del dataset:")
df.info()

# Cantidad de nulos
print("\nNulos por columna:")
print(df.isnull().sum())

# Duplicados
print("\nRegistros duplicados:", df.duplicated().sum())

# Valores únicos
print("\nValores únicos por columna:")
print(df.nunique())

# Estadísticas básicas
df.describe()


In [None]:
# Histograma para todas las columnas numéricas
df.hist(bins=30, figsize=(15, 10), edgecolor='black')
plt.suptitle("Distribuciones de Variables Numéricas", fontsize=16)
plt.tight_layout()
plt.show()

In [None]:
# 4.2 Gráfico de cajas (boxplots)
plt.figure(figsize=(15, 8))
sns.boxplot(data=df)
plt.title("Gráfico de Caja - Valores Atípicos")
plt.xticks(rotation=45)
plt.show()


In [None]:
# 4.3 Gráfico de barras cruzado: dependents vs ingreso
df['dependents'] = df['dependents'].fillna(0).astype(int)

plt.figure(figsize=(10, 6))
sns.barplot(data=df, x='dependents', y='monthly_inc')
plt.title("Ingreso mensual promedio según número de dependientes")
plt.show()


In [None]:
# Paso 5: Heatmap de correlaciones
plt.figure(figsize=(10, 8))
sns.heatmap(df.corr(numeric_only=True), annot=True, cmap='coolwarm')
plt.title("Mapa de Calor de Correlaciones")
plt.show()


In [None]:
# Modelo de regresion simple
# Regresión Lineal Simple: predecir ingresos mensuales (monthly_inc) en función de la edad
# Usamos solo una variable predictora (por ejemplo: 'age')
X_simple = df[['age']]
y_simple = df['monthly_inc']

lin_reg_simple = LinearRegression()
lin_reg_simple.fit(X_simple, y_simple)

print("Coeficiente:", lin_reg_simple.coef_)
print("Intercepto:", lin_reg_simple.intercept_)
print("Score (R^2):", lin_reg_simple.score(X_simple, y_simple))


In [None]:
# Regresión Lineal Múltiple: predecir monthly_inc usando múltiples variables
X_multi = df[['age', 'debt_ratio', 'rev_util', 'dependents']]
y_multi = df['monthly_inc']

lin_reg_multi = LinearRegression()
lin_reg_multi.fit(X_multi, y_multi)

print("Coeficientes:", lin_reg_multi.coef_)
print("Intercepto:", lin_reg_multi.intercept_)
print("Score (R^2):", lin_reg_multi.score(X_multi, y_multi))


In [None]:
# K medoids
#kmedoids = KMedoids(n_clusters=2, random_state=0)
#kmedoids.fit(X_scaled)

#g print("K-Medoids silhouette score:", silhouette_score(X_scaled, kmedoids.labels_))
