# Análisis Exploratorio de Datos (EDA) y Preprocesamiento:


## Paso 1: Cargar y Visualizar los Datos


In [None]:
import pandas as pd

# Cargar los datos
df_train = pd.read_csv("credit-train.csv")
df_test = pd.read_csv("credit-test.csv")

# Mostrar las primeras filas del DataFrame de entrenamiento
print("Primeras filas del DataFrame de entrenamiento:")
print(df_train.head())


## Paso 2: Visualizar la Distribución de Variables Numéricas


In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Visualizar la distribución de la variable 'age'
sns.histplot(df_train['age'], bins=20, kde=True)
plt.title('Distribución de la edad')
plt.xlabel('Edad')
plt.ylabel('Frecuencia')
plt.show()


## Paso 3: Visualizar Relaciones entre Variables


In [None]:
# Visualizar la relación entre 'age' y 'y' (suscripción al crédito)
sns.boxplot(x='y', y='age', data=df_train)
plt.title('Relación entre Edad y Suscripción al Crédito')
plt.xlabel('Suscripción al Crédito (y)')
plt.ylabel('Edad')
plt.show()


## Paso 4: Tratamiento de Valores Atípicos y Datos Faltantes


In [None]:
# Identificar y tratar valores atípicos en 'age'
q1 = df_train['age'].quantile(0.25)
q3 = df_train['age'].quantile(0.75)
iqr = q3 - q1
lower_bound = q1 - 1.5 * iqr
upper_bound = q3 + 1.5 * iqr

# Tratar los valores atípicos reemplazándolos con el límite superior o inferior
df_train['age'] = df_train['age'].apply(lambda x: upper_bound if x > upper_bound else (lower_bound if x < lower_bound else x))

# Eliminar filas con valores faltantes
df_train.dropna(inplace=True)


# Aplicación de Regresión Logística:


## Paso 5: Codificación de Variables Categóricas y División de Datos


In [None]:
# Codificar variables categóricas en el conjunto de entrenamiento
df_train_encoded = pd.get_dummies(df_train)

# Dividir los datos en características (X_train) y variable objetivo (y_train)
X_train = df_train_encoded.drop(columns=['y'])
y_train = df_train_encoded['y']


## Paso 6: Entrenamiento y Evaluación del Modelo de Regresión Logística


In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, precision_score, recall_score, confusion_matrix

# Inicializar y entrenar el modelo de Regresión Logística
logistic_model = LogisticRegression()
logistic_model.fit(X_train, y_train)

# Predicción sobre el conjunto de entrenamiento
y_pred_train = logistic_model.predict(X_train)

# Evaluar el modelo
accuracy = accuracy_score(y_train, y_pred_train)
precision = precision_score(y_train, y_pred_train)
recall = recall_score(y_train, y_pred_train)
conf_matrix = confusion_matrix(y_train, y_pred_train)

print("Resultados de la evaluación del modelo:")
print("Exactitud:", accuracy)
print("Precisión:", precision)
print("Exhaustividad:", recall)
print("Matriz de confusión:")
print(conf_matrix)
