<a href="https://colab.research.google.com/github/Sebasacosta94/Inmersion-Python/blob/main/Desaf%C3%ADo_inmersi%C3%B3n_python_clase_02.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **PROBLEMA DE NEGOCIO**

La importancia de reducir el riesgo crediticio ha llevado a una institución financiera alemana a buscar soluciones innovadoras. Como científicos de datos, hemos sido convocados para construir un modelo de machine learning preciso y confiable que sea capaz de evaluar con mayor precisión la probabilidad de incumplimiento crediticio de sus clientes.

Tus tareas principales serán:
1. Preprocesamiento de Datos: Realizar limpieza de datos, manejar valores faltantes, codificación de variables categóricas y normalización/escalado de datos.

2. Exploración de Datos: Analizar y comprender el conjunto de datos proporcionado, identificar variables llaves y realizar visualizaciones para entender las relaciones entre las variables y seleccionar las características relevantes.

3. Construcción de Modelos: Experimentar con algunos algoritmos de machine learning como Regresión Logística, Árboles de Decisión, Random Forest, Naive Bayes, entre otros.

4. Evaluación y Selección del Modelo: Evaluar los modelos utilizando métricas como precisión, recall, área bajo la curva ROC, y F1-score. Seleccionar el modelo con el mejor rendimiento para la predicción de la solvencia crediticia.

**Paso 01**

**Preprocesamiento de los datos**

1. Importar las Bibliotecas Necesarias para el análisis con Machine learning

In [5]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import confusion_matrix, classification_report, roc_auc_score
import seaborn as sns
import matplotlib.pyplot as plt


**2. Cargar y Preprocesar los Datos**

Cargamos los datos para el preprocesamiento de los mismos

In [7]:
# Cargar datos
data = pd.read_csv('/content/drive/MyDrive/inmersion_python/german_credit.csv')

# Codificar variables categóricas binarias
label_encoder = LabelEncoder()
binary_columns = ['telephone', 'foreign_worker']
for col in binary_columns:
    data[col] = label_encoder.fit_transform(data[col])

# One-Hot Encoding para las demás variables categóricas
data = pd.get_dummies(data, drop_first=True)

# Normalizar datos numéricos
scaler = StandardScaler()
numeric_cols = data.select_dtypes(include=['int64']).columns
data[numeric_cols] = scaler.fit_transform(data[numeric_cols])

# Convertir la variable objetivo a tipo entero
data['default'] = data['default'].astype(int)

# Separar características y variable objetivo
X = data.drop('default', axis=1)
y = data['default']

# Dividir datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)


**3. Construir y Entrenar los Modelos**

A continuación se procede a construir los modelos y a etrenarlos

In [8]:
# Regresión Logística
log_reg = LogisticRegression(max_iter=1000)  # Aumentar el número de iteraciones
log_reg.fit(X_train, y_train)

# Árbol de Decisión
tree_clf = DecisionTreeClassifier(random_state=42)
tree_clf.fit(X_train, y_train)

# Random Forest
rf_clf = RandomForestClassifier(random_state=42)
rf_clf.fit(X_train, y_train)

# Naive Bayes
nb_clf = GaussianNB()
nb_clf.fit(X_train, y_train)


**4. Evaluar los Modelos**

En este paso evaluamos y comparamos los resultados de los diferentes modelos

In [9]:
# Función para evaluar modelos
def evaluate_model(model, X_test, y_test):
    y_pred = model.predict(X_test)
    if hasattr(model, "predict_proba"):
        y_proba = model.predict_proba(X_test)[:, 1]
        print('ROC AUC Score:', roc_auc_score(y_test, y_proba))
    else:
        y_proba = None

    print(confusion_matrix(y_test, y_pred))
    print(classification_report(y_test, y_pred))

# Evaluar Regresión Logística
print('Logistic Regression:')
evaluate_model(log_reg, X_test, y_test)

# Evaluar Árbol de Decisión
print('Decision Tree:')
evaluate_model(tree_clf, X_test, y_test)

# Evaluar Random Forest
print('Random Forest:')
evaluate_model(rf_clf, X_test, y_test)

# Evaluar Naive Bayes
print('Naive Bayes:')
evaluate_model(nb_clf, X_test, y_test)


Logistic Regression:
ROC AUC Score: 0.8080952380952382
[[125  15]
 [ 27  33]]
              precision    recall  f1-score   support

           0       0.82      0.89      0.86       140
           1       0.69      0.55      0.61        60

    accuracy                           0.79       200
   macro avg       0.75      0.72      0.73       200
weighted avg       0.78      0.79      0.78       200

Decision Tree:
ROC AUC Score: 0.6095238095238096
[[103  37]
 [ 31  29]]
              precision    recall  f1-score   support

           0       0.77      0.74      0.75       140
           1       0.44      0.48      0.46        60

    accuracy                           0.66       200
   macro avg       0.60      0.61      0.61       200
weighted avg       0.67      0.66      0.66       200

Random Forest:
ROC AUC Score: 0.7916666666666666
[[130  10]
 [ 33  27]]
              precision    recall  f1-score   support

           0       0.80      0.93      0.86       140
           1   

**CONCLUSION**

**A continuación presento los resultados de la matriz de confusión:**

Verdaderos negativos: 125
Falsos positivos: 15
Falsos negativos: 27
Verdaderos positivos: 33
Métricas de clasificación:
Precisión para la clase 0: 0.82
Recall para la clase 0: 0.89
F1-score para la clase 0: 0.86
Precisión para la clase 1: 0.69
Recall para la clase 1: 0.55
F1-score para la clase 1: 0.61
Precisión general (accuracy): 0.79

Conclusión: La regresión logística presenta una buena precisión y un buen recall para la clase 0, pero el rendimiento es menor para la clase 1. El ROC AUC Score de 0.8081 indica un buen equilibrio entre las clases y la capacidad del modelo para distinguir entre las dos clases.

**A continuación presento los resultados del árbol de decisión:**

Decision Tree:
ROC AUC Score: 0.6095
Matriz de confusión: [[103  37]
 [ 31  29]]

Verdaderos negativos: 103
Falsos positivos: 37
Falsos negativos: 31
Verdaderos positivos: 29
Métricas de clasificación:
Precisión para la clase 0: 0.77
Recall para la clase 0: 0.74
F1-score para la clase 0: 0.75
Precisión para la clase 1: 0.44
Recall para la clase 1: 0.48
F1-score para la clase 1: 0.46
Precisión general (accuracy): 0.66
Conclusión: El árbol de decisión muestra un rendimiento más bajo en comparación con otros modelos, especialmente en la clase 1, lo que se refleja en un ROC AUC Score de 0.6095. La precisión y el recall son bajos para la clase 1, indicando que el modelo tiene dificultades para identificar correctamente los casos de incumplimiento.

**A continuación presento los resultados del Random forest:**

ROC AUC Score: 0.7917
Matriz de confusión: [[130  10]
 [ 33  27]]

Verdaderos negativos: 130
Falsos positivos: 10
Falsos negativos: 33
Verdaderos positivos: 27
Métricas de clasificación:
Precisión para la clase 0: 0.80
Recall para la clase 0: 0.93
F1-score para la clase 0: 0.86
Precisión para la clase 1: 0.73
Recall para la clase 1: 0.45
F1-score para la clase 1: 0.56
Precisión general (accuracy): 0.79
Conclusión: El modelo Random Forest tiene un buen rendimiento en términos de precisión general y ROC AUC Score (0.7917). Sin embargo, el recall para la clase 1 es bajo, lo que indica que el modelo no es tan bueno para identificar todos los casos de incumplimiento.

**A continuación presento los resultados del Naive Bayes:**

Naive Bayes:
ROC AUC Score: 0.7526
Matriz de confusión: [[102  38]
 [ 20  40]]

Verdaderos negativos: 102
Falsos positivos: 38
Falsos negativos: 20
Verdaderos positivos: 40
Métricas de clasificación:
Precisión para la clase 0: 0.84
Recall para la clase 0: 0.73
F1-score para la clase 0: 0.78
Precisión para la clase 1: 0.51
Recall para la clase 1: 0.67
F1-score para la clase 1: 0.58
Precisión general (accuracy): 0.71
Conclusión: El modelo Naive Bayes tiene un buen rendimiento en términos de ROC AUC Score (0.7526). Presenta un mejor recall para la clase 1 en comparación con otros modelos, lo que significa que identifica más casos de incumplimiento, aunque a costa de una mayor tasa de falsos positivos.

**Modelo Más Eficiente**

**Regresión Logística:**

ROC AUC Score: 0.8081
Buen equilibrio entre precisión y recall para ambas clases.

Mejor rendimiento general con alta precisión y un buen F1-score.

La Regresión Logística es el modelo más eficiente en este caso debido a su buen equilibrio entre las métricas de evaluación y un alto ROC AUC Score, lo que indica una mejor capacidad para distinguir entre las clases de incumplimiento y no incumplimiento.


