In [1]:
# Análisis Exploratorio de Datos (EDA) para el banco Omega
import pandas as pd
import numpy as np
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import LabelEncoder
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score, f1_score
from sklearn.model_selection import train_test_split

# Cargamos los datos desde la ruta proporcionada
file_path = 'CSV/mora_cdto.csv'
data = pd.read_csv(file_path)

# Convertimos las variables categóricas a numéricas
label_encoder = LabelEncoder()
data['G'] = label_encoder.fit_transform(data['G'])
data['ED'] = label_encoder.fit_transform(data['ED'])
data['EC'] = label_encoder.fit_transform(data['EC'])
data['M1'] = label_encoder.fit_transform(data['M1'])
data['M2'] = label_encoder.fit_transform(data['M2'])
data['M3'] = label_encoder.fit_transform(data['M3'])
data['M4'] = label_encoder.fit_transform(data['M4'])
data['M5'] = label_encoder.fit_transform(data['M5'])
data['M6'] = label_encoder.fit_transform(data['M6'])

# Imputación de valores cero donde no deberían ser cero
col_zero = ["D1", "D2", "D3", "D4", "D5", "D6", "P1", "P2", "P3", "P4", "P5", "P6"]
imputador = SimpleImputer(missing_values=np.nan, strategy='median')
data[col_zero] = imputador.fit_transform(data[col_zero])

# Convertimos 'SP' a una variable binaria para el modelo
data['SP'] = data['SP'].replace({'Si': 1, 'No': 0})

# Preparamos los datos para el modelo de clasificación
X = data.drop("SP", axis=1)
y = data["SP"]

# Dividimos los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=40)

# Creamos y entrenamos el modelo de clasificación
modelo_rf = RandomForestClassifier(n_estimators=100, max_depth=10, random_state=42)
modelo_rf.fit(X_train, y_train)

# Validamos el modelo con el conjunto de prueba
y_pred = modelo_rf.predict(X_test)

# Evaluamos el modelo
exactitud = accuracy_score(y_test, y_pred)
con_mat = confusion_matrix(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)

# Imprimimos las métricas de evaluación
print(f"*Exactitud*: {exactitud:.2f}")
print(f"*Matriz de confusión*: \n{con_mat}")
print(f"*Precisión*: {precision:.2f}")
print(f"*Sensibilidad*: {recall:.2f}")
print(f"*F1-Score*: {f1:.2f}")

  data['SP'] = data['SP'].replace({'Si': 1, 'No': 0})


*Exactitud*: 0.83
*Matriz de confusión*: 
[[6681  338]
 [1231  750]]
*Precisión*: 0.69
*Sensibilidad*: 0.38
*F1-Score*: 0.49


In [2]:
import pickle

filename = 'Proyecto2.sav'
pickle.dump(modelo_rf, open(filename, 'wb'))