<a href="https://colab.research.google.com/github/CristValen/Acciones-RNR/blob/main/Untitled11.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
from keras.models import Sequential
from keras.layers import Dense
from sklearn.metrics import roc_auc_score, confusion_matrix, roc_curve, auc
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from imblearn.over_sampling import SMOTE
import pandas as pd
import numpy as np

# Establecer la semilla para hacer el código reproducible
np.random.seed(42)

# Codificación de las etiquetas
le = LabelEncoder()
y_encoded = le.fit_transform(y)  # Esto convierte las clases 'promotor', 'neutro' y 'detractor' en 0, 1 y 2 respectivamente

# Dividir los datos en conjuntos de entrenamiento, validación y prueba
X_temp, X_test, y_temp, y_test = train_test_split(X, y_encoded, test_size=0.2, random_state=42)
X_train, X_val, y_train, y_val = train_test_split(X_temp, y_temp, test_size=0.25, random_state=42)  # 0.25 x 0.8 = 0.2

# Aplicar SMOTE al conjunto de entrenamiento
sm = SMOTE(random_state=42)
X_train_res, y_train_res = sm.fit_resample(X_train, y_train)

# Crear una red neuronal densa con Keras para 'promotor' vs 'no promotor'
modelo_promotor = Sequential()
modelo_promotor.add(Dense(12, input_dim=X_train_res.shape[1], activation='relu'))
modelo_promotor.add(Dense(8, activation='relu'))
modelo_promotor.add(Dense(1, activation='sigmoid'))

# Compilar el modelo
modelo_promotor.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

# Entrenar el modelo
y_binary_promotor = (y_train_res == 0).astype(int)  # Esto convierte la clase 'promotor' en 1 y las demás en 0
modelo_promotor.fit(X_train_res, y_binary_promotor, epochs=150, batch_size=10)

# Crear una red neuronal densa con Keras para 'detractor' vs 'no detractor'
modelo_detractor = Sequential()
modelo_detractor.add(Dense(12, input_dim=X_train_res.shape[1], activation='relu'))
modelo_detractor.add(Dense(8, activation='relu'))
modelo_detractor.add(Dense(1, activation='sigmoid'))

# Compilar el modelo
modelo_detractor.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

# Entrenar el modelo
y_binary_detractor = (y_train_res == 2).astype(int)  # Esto convierte la clase 'detractor' en 1 y las demás en 0
modelo_detractor.fit(X_train_res, y_binary_detractor, epochs=150, batch_size=10)

# Función para calcular el valor KS
def calc_ks(data):
    data['good'] = (data['label'] == 0).astype(int)
    data['bad'] = (data['label'] == 1).astype(int)
    data['bucket'] = (data['probability'].rank(pct=True)*10).astype(int)
    grouped = data.groupby('bucket', as_index=True)
    kstable = grouped.min().probability.to_frame(name='min_prob')
    kstable['max_prob'] = grouped.max().probability
    kstable['bads'] = grouped.sum().bad
    kstable['goods'] = grouped.sum().good
    kstable = kstable.reset_index()
    kstable['bad_rate'] = kstable.bads / (kstable.bads + kstable.goods)
    kstable['ks'] = np.round(((kstable.bads / data.bad.sum()).cumsum() - (kstable.goods / data.good.sum()).cumsum()), 4) * 100
    ks_value = kstable.ks.abs().max()
    return ks_value

# Función para calcular el coeficiente Gini
def calc_gini(y_verdadero, y_prob):
    fpr, tpr, _ = roc_curve(y_verdadero, y_prob)
    roc_auc = auc(fpr, tpr)
    gini = 2*roc_auc - 1
    return gini

# Función para calcular las métricas de rendimiento
def calcular_metricas(y_verdadero, y_pred, probas):
    print("Informe de clasificación:")
    print(classification_report(y_verdadero, y_pred))

    cm = confusion_matrix(y_verdadero, y_pred)
    cm_df = pd.DataFrame(cm,
                         index=[i for i in np.unique(y_verdadero)],
                         columns=[i for i in np.unique(y_verdadero)])
    print("Matriz de confusión:")
    print(cm_df)

    print("Precisión del modelo:")
    print(accuracy_score(y_verdadero, y_pred))

    print("Puntuación AUC-ROC:")
    print(roc_auc_score(y_verdadero, probas))

    data = pd.DataFrame({'label': y_verdadero, 'probability': probas})
    ks = calc_ks(data)
    print("KS:")
    print(ks)

    gini = calc_gini(y_verdadero, probas)
    print(f"Gini: {gini}")

# Obtener las probabilidades de las predicciones en el conjunto de validación
probas_val_promotor = modelo_promotor.predict_proba(X_val)[:, 1]
probas_val_detractor = modelo_detractor.predict_proba(X_val)[:, 1]

# Calcular las métricas de rendimiento en el conjunto de validación
print("Métricas de rendimiento en el conjunto de validación:")
print("\nPromotor vs No Promotor:")
calcular_metricas(y_val == 0, (probas_val_promotor > 0.5).astype(int), probas_val_promotor)
print("\nDetractor vs No Detractor:")
calcular_metricas(y_val == 2, (probas_val_detractor > 0.5).astype(int), probas_val_detractor)

# Obtener las probabilidades de las predicciones en el conjunto de prueba
probas_test_promotor = modelo_promotor.predict_proba(X_test)[:, 1]
probas_test_detractor = modelo_detractor.predict_proba(X_test)[:, 1]

# Calcular las métricas de rendimiento en el conjunto de prueba
print("Métricas de rendimiento en el conjunto de prueba:")
print("\nPromotor vs No Promotor:")
calcular_metricas(y_test == 0, (probas_test_promotor > 0.5).astype(int), probas_test_promotor)
print("\nDetractor vs No Detractor:")
calcular_metricas(y_test == 2, (probas_test_detractor > 0.5).astype(int), probas_test_detractor)


NameError: ignored

In [None]:
# Calcular la importancia de las variables por permutación
result = permutation_importance(modelo_promotor, X_val, y_val, n_repeats=10, random_state=42, scoring=custom_score)

# Obtener la importancia de las variables
importancia_promotor = pd.DataFrame({
    'variable': X.columns,
    'importancia': result.importances_mean
})

# Calcular la importancia en porcentajes
importancia_promotor['importancia_porcentaje'] = 100 * (importancia_promotor['importancia'] / importancia_promotor['importancia'].sum())

# Ordenar las variables de mayor a menor importancia
importancia_promotor = importancia_promotor.sort_values('importancia_porcentaje', ascending=False)

# Asegurarse de que se muestren todas las filas
pd.set_option('display.max_rows', None)

print("Importancia de las variables para el modelo 'promotor' (en porcentajes):")
print(importancia_promotor)



In [None]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from imblearn.over_sampling import SMOTE
from lightgbm import LGBMClassifier
from sklearn.metrics import roc_auc_score, roc_curve, auc, classification_report, confusion_matrix, accuracy_score
import numpy as np
import pandas as pd

# Establecer la semilla para hacer el código reproducible
np.random.seed(42)

# Codificación de las etiquetas
le = LabelEncoder()
y_encoded = le.fit_transform(y)  # Esto convierte las clases 'promotor', 'neutro' y 'detractor' en 0, 1 y 2 respectivamente

# Dividir los datos en conjuntos de entrenamiento, validación y prueba
X_temp, X_test, y_temp, y_test = train_test_split(X, y_encoded, test_size=0.2, random_state=42)
X_train, X_val, y_train, y_val = train_test_split(X_temp, y_temp, test_size=0.25, random_state=42)  # 0.25 x 0.8 = 0.2

# Aplicar SMOTE al conjunto de entrenamiento
sm = SMOTE(random_state=42)
X_train_res, y_train_res = sm.fit_resample(X_train, y_train)

# Crear un modelo LGBMClassifier para 'promotor' vs 'no promotor'
y_binary_promotor = (y_train_res == 0).astype(int)  # Esto convierte la clase 'promotor' en 1 y las demás en 0
modelo_promotor = LGBMClassifier(n_estimators=150, random_state=42)
modelo_promotor.fit(X_train_res, y_binary_promotor)

# Crear un modelo LGBMClassifier para 'detractor' vs 'no detractor'
y_binary_detractor = (y_train_res == 2).astype(int)  # Esto convierte la clase 'detractor' en 1 y las demás en 0
modelo_detractor = LGBMClassifier(n_estimators=150, random_state=42)
modelo_detractor.fit(X_train_res, y_binary_detractor)

# Obtener las probabilidades de las predicciones en el conjunto de validación
probas_val_promotor = modelo_promotor.predict_proba(X_val)[:, 1]
probas_val_detractor = modelo_detractor.predict_proba(X_val)[:, 1]

# Función para calcular el valor KS
def calc_ks(data):
    data['good'] = (data['label'] == 0).astype(int)
    data['bad'] = (data['label'] == 1).astype(int)
    data['bucket'] = (data['probability'].rank(pct=True)*10).astype(int)
    grouped = data.groupby('bucket', as_index=True)
    kstable = grouped.min().probability.to_frame(name='min_prob')
    kstable['max_prob'] = grouped.max().probability
    kstable['bads'] = grouped.sum().bad
    kstable['goods'] = grouped.sum().good
    kstable = kstable.reset_index()
    kstable['bad_rate'] = kstable.bads / (kstable.bads + kstable.goods)
    kstable['ks'] = np.round(((kstable.bads / data.bad.sum()).cumsum() - (kstable.goods / data.good.sum()).cumsum()), 4) * 100
    ks_value = kstable.ks.abs().max()
    return ks_value

# Función para calcular el coeficiente Gini
def calc_gini(y_verdadero, y_prob):
    fpr, tpr, _ = roc_curve(y_verdadero, y_prob)
    roc_auc = auc(fpr, tpr)
    gini = 2*roc_auc - 1
    return gini

# Función para calcular las métricas de rendimiento
def calcular_metricas(y_verdadero, y_pred, probas):
    print("Informe de clasificación:")
    print(classification_report(y_verdadero, y_pred))

    cm = confusion_matrix(y_verdadero, y_pred)
    cm_df = pd.DataFrame(cm,
                         index=[i for i in np.unique(y_verdadero)],
                         columns=[i for i in np.unique(y_verdadero)])
    print("Matriz de confusión:")
    print(cm_df)

    print("Precisión del modelo:")
    print(accuracy_score(y_verdadero, y_pred))

    print("Puntuación AUC-ROC:")
    print(roc_auc_score(y_verdadero, probas))

    data = pd.DataFrame({'label': y_verdadero, 'probability': probas})
    ks = calc_ks(data)
    print("KS:")
    print(ks)

    gini = calc_gini(y_verdadero, probas)
    print(f"Gini: {gini}")

# Calcular las métricas de rendimiento en el conjunto de validación
y_val_promotor = (y_val == 0).astype(int)  # Esto convierte la clase 'promotor' en 1 y las demás en 0
y_val_detractor = (y_val == 2).astype(int)  # Esto convierte la clase 'detractor' en 1 y las demás en 0

print("Métricas para el modelo 'promotor':")
calcular_metricas(y_val_promotor, modelo_promotor.predict(X_val), probas_val_promotor)

print("\nMétricas para el modelo 'detractor':")
calcular_metricas(y_val_detractor, modelo_detractor.predict(X_val), probas_val_detractor)
