<a href="https://colab.research.google.com/github/CristValen/Acciones-RNR/blob/main/Untitled11.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
from keras.models import Sequential
from keras.layers import Dense
from sklearn.metrics import roc_auc_score, confusion_matrix, roc_curve, auc
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from imblearn.over_sampling import SMOTE
import pandas as pd
import numpy as np

# Establecer la semilla para hacer el código reproducible
np.random.seed(42)

# Codificación de las etiquetas
le = LabelEncoder()
y_encoded = le.fit_transform(y)  # Esto convierte las clases 'promotor', 'neutro' y 'detractor' en 0, 1 y 2 respectivamente

# Dividir los datos en conjuntos de entrenamiento, validación y prueba
X_temp, X_test, y_temp, y_test = train_test_split(X, y_encoded, test_size=0.2, random_state=42)
X_train, X_val, y_train, y_val = train_test_split(X_temp, y_temp, test_size=0.25, random_state=42)  # 0.25 x 0.8 = 0.2

# Aplicar SMOTE al conjunto de entrenamiento
sm = SMOTE(random_state=42)
X_train_res, y_train_res = sm.fit_resample(X_train, y_train)

# Crear una red neuronal densa con Keras para 'promotor' vs 'no promotor'
modelo_promotor = Sequential()
modelo_promotor.add(Dense(12, input_dim=X_train_res.shape[1], activation='relu'))
modelo_promotor.add(Dense(8, activation='relu'))
modelo_promotor.add(Dense(1, activation='sigmoid'))

# Compilar el modelo
modelo_promotor.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

# Entrenar el modelo
y_binary_promotor = (y_train_res == 0).astype(int)  # Esto convierte la clase 'promotor' en 1 y las demás en 0
modelo_promotor.fit(X_train_res, y_binary_promotor, epochs=150, batch_size=10)

# Crear una red neuronal densa con Keras para 'detractor' vs 'no detractor'
modelo_detractor = Sequential()
modelo_detractor.add(Dense(12, input_dim=X_train_res.shape[1], activation='relu'))
modelo_detractor.add(Dense(8, activation='relu'))
modelo_detractor.add(Dense(1, activation='sigmoid'))

# Compilar el modelo
modelo_detractor.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

# Entrenar el modelo
y_binary_detractor = (y_train_res == 2).astype(int)  # Esto convierte la clase 'detractor' en 1 y las demás en 0
modelo_detractor.fit(X_train_res, y_binary_detractor, epochs=150, batch_size=10)

# Función para calcular el valor KS
def calc_ks(data):
    data['good'] = (data['label'] == 0).astype(int)
    data['bad'] = (data['label'] == 1).astype(int)
    data['bucket'] = (data['probability'].rank(pct=True)*10).astype(int)
    grouped = data.groupby('bucket', as_index=True)
    kstable = grouped.min().probability.to_frame(name='min_prob')
    kstable['max_prob'] = grouped.max().probability
    kstable['bads'] = grouped.sum().bad
    kstable['goods'] = grouped.sum().good
    kstable = kstable.reset_index()
    kstable['bad_rate'] = kstable.bads / (kstable.bads + kstable.goods)
    kstable['ks'] = np.round(((kstable.bads / data.bad.sum()).cumsum() - (kstable.goods / data.good.sum()).cumsum()), 4) * 100
    ks_value = kstable.ks.abs().max()
    return ks_value

# Función para calcular el coeficiente Gini
def calc_gini(y_verdadero, y_prob):
    fpr, tpr, _ = roc_curve(y_verdadero, y_prob)
    roc_auc = auc(fpr, tpr)
    gini = 2*roc_auc - 1
    return gini

# Función para calcular las métricas de rendimiento
def calcular_metricas(y_verdadero, y_pred, probas):
    print("Informe de clasificación:")
    print(classification_report(y_verdadero, y_pred))

    cm = confusion_matrix(y_verdadero, y_pred)
    cm_df = pd.DataFrame(cm,
                         index=[i for i in np.unique(y_verdadero)],
                         columns=[i for i in np.unique(y_verdadero)])
    print("Matriz de confusión:")
    print(cm_df)

    print("Precisión del modelo:")
    print(accuracy_score(y_verdadero, y_pred))

    print("Puntuación AUC-ROC:")
    print(roc_auc_score(y_verdadero, probas))

    data = pd.DataFrame({'label': y_verdadero, 'probability': probas})
    ks = calc_ks(data)
    print("KS:")
    print(ks)

    gini = calc_gini(y_verdadero, probas)
    print(f"Gini: {gini}")

# Obtener las probabilidades de las predicciones en el conjunto de validación
probas_val_promotor = modelo_promotor.predict_proba(X_val)[:, 1]
probas_val_detractor = modelo_detractor.predict_proba(X_val)[:, 1]

# Calcular las métricas de rendimiento en el conjunto de validación
print("Métricas de rendimiento en el conjunto de validación:")
print("\nPromotor vs No Promotor:")
calcular_metricas(y_val == 0, (probas_val_promotor > 0.5).astype(int), probas_val_promotor)
print("\nDetractor vs No Detractor:")
calcular_metricas(y_val == 2, (probas_val_detractor > 0.5).astype(int), probas_val_detractor)

# Obtener las probabilidades de las predicciones en el conjunto de prueba
probas_test_promotor = modelo_promotor.predict_proba(X_test)[:, 1]
probas_test_detractor = modelo_detractor.predict_proba(X_test)[:, 1]

# Calcular las métricas de rendimiento en el conjunto de prueba
print("Métricas de rendimiento en el conjunto de prueba:")
print("\nPromotor vs No Promotor:")
calcular_metricas(y_test == 0, (probas_test_promotor > 0.5).astype(int), probas_test_promotor)
print("\nDetractor vs No Detractor:")
calcular_metricas(y_test == 2, (probas_test_detractor > 0.5).astype(int), probas_test_detractor)


NameError: ignored

In [None]:
# Calcular la importancia de las variables por permutación
result = permutation_importance(modelo_promotor, X_val, y_val, n_repeats=10, random_state=42, scoring=custom_score)

# Obtener la importancia de las variables
importancia_promotor = pd.DataFrame({
    'variable': X.columns,
    'importancia': result.importances_mean
})

# Calcular la importancia en porcentajes
importancia_promotor['importancia_porcentaje'] = 100 * (importancia_promotor['importancia'] / importancia_promotor['importancia'].sum())

# Ordenar las variables de mayor a menor importancia
importancia_promotor = importancia_promotor.sort_values('importancia_porcentaje', ascending=False)

# Asegurarse de que se muestren todas las filas
pd.set_option('display.max_rows', None)

print("Importancia de las variables para el modelo 'promotor' (en porcentajes):")
print(importancia_promotor)



In [None]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from imblearn.over_sampling import SMOTE
from lightgbm import LGBMClassifier
from sklearn.metrics import roc_auc_score, roc_curve, auc, classification_report, confusion_matrix, accuracy_score
import numpy as np
import pandas as pd

# Establecer la semilla para hacer el código reproducible
np.random.seed(42)

# Codificación de las etiquetas
le = LabelEncoder()
y_encoded = le.fit_transform(y)  # Esto convierte las clases 'promotor', 'neutro' y 'detractor' en 0, 1 y 2 respectivamente

# Dividir los datos en conjuntos de entrenamiento, validación y prueba
X_temp, X_test, y_temp, y_test = train_test_split(X, y_encoded, test_size=0.2, random_state=42)
X_train, X_val, y_train, y_val = train_test_split(X_temp, y_temp, test_size=0.25, random_state=42)  # 0.25 x 0.8 = 0.2

# Aplicar SMOTE al conjunto de entrenamiento
sm = SMOTE(random_state=42)
X_train_res, y_train_res = sm.fit_resample(X_train, y_train)

# Crear un modelo LGBMClassifier para 'promotor' vs 'no promotor'
y_binary_promotor = (y_train_res == 0).astype(int)  # Esto convierte la clase 'promotor' en 1 y las demás en 0
modelo_promotor = LGBMClassifier(n_estimators=150, random_state=42)
modelo_promotor.fit(X_train_res, y_binary_promotor)

# Crear un modelo LGBMClassifier para 'detractor' vs 'no detractor'
y_binary_detractor = (y_train_res == 2).astype(int)  # Esto convierte la clase 'detractor' en 1 y las demás en 0
modelo_detractor = LGBMClassifier(n_estimators=150, random_state=42)
modelo_detractor.fit(X_train_res, y_binary_detractor)

# Obtener las probabilidades de las predicciones en el conjunto de validación
probas_val_promotor = modelo_promotor.predict_proba(X_val)[:, 1]
probas_val_detractor = modelo_detractor.predict_proba(X_val)[:, 1]

# Función para calcular el valor KS
def calc_ks(data):
    data['good'] = (data['label'] == 0).astype(int)
    data['bad'] = (data['label'] == 1).astype(int)
    data['bucket'] = (data['probability'].rank(pct=True)*10).astype(int)
    grouped = data.groupby('bucket', as_index=True)
    kstable = grouped.min().probability.to_frame(name='min_prob')
    kstable['max_prob'] = grouped.max().probability
    kstable['bads'] = grouped.sum().bad
    kstable['goods'] = grouped.sum().good
    kstable = kstable.reset_index()
    kstable['bad_rate'] = kstable.bads / (kstable.bads + kstable.goods)
    kstable['ks'] = np.round(((kstable.bads / data.bad.sum()).cumsum() - (kstable.goods / data.good.sum()).cumsum()), 4) * 100
    ks_value = kstable.ks.abs().max()
    return ks_value

# Función para calcular el coeficiente Gini
def calc_gini(y_verdadero, y_prob):
    fpr, tpr, _ = roc_curve(y_verdadero, y_prob)
    roc_auc = auc(fpr, tpr)
    gini = 2*roc_auc - 1
    return gini

# Función para calcular las métricas de rendimiento
def calcular_metricas(y_verdadero, y_pred, probas):
    print("Informe de clasificación:")
    print(classification_report(y_verdadero, y_pred))

    cm = confusion_matrix(y_verdadero, y_pred)
    cm_df = pd.DataFrame(cm,
                         index=[i for i in np.unique(y_verdadero)],
                         columns=[i for i in np.unique(y_verdadero)])
    print("Matriz de confusión:")
    print(cm_df)

    print("Precisión del modelo:")
    print(accuracy_score(y_verdadero, y_pred))

    print("Puntuación AUC-ROC:")
    print(roc_auc_score(y_verdadero, probas))

    data = pd.DataFrame({'label': y_verdadero, 'probability': probas})
    ks = calc_ks(data)
    print("KS:")
    print(ks)

    gini = calc_gini(y_verdadero, probas)
    print(f"Gini: {gini}")

# Calcular las métricas de rendimiento en el conjunto de validación
y_val_promotor = (y_val == 0).astype(int)  # Esto convierte la clase 'promotor' en 1 y las demás en 0
y_val_detractor = (y_val == 2).astype(int)  # Esto convierte la clase 'detractor' en 1 y las demás en 0

print("Métricas para el modelo 'promotor':")
calcular_metricas(y_val_promotor, modelo_promotor.predict(X_val), probas_val_promotor)

print("\nMétricas para el modelo 'detractor':")
calcular_metricas(y_val_detractor, modelo_detractor.predict(X_val), probas_val_detractor)


In [None]:
# Calcular las importancias de las características para el modelo 'promotor'
importances_promotor = permutation_importance(modelo_promotor, X_val, (y_val == 0).astype(int))

# Crear un DataFrame con las importancias de las características para el modelo 'promotor'
df_importancias_promotor = pd.DataFrame({
    'variable': X.columns,
    'importancia': importances_promotor
})

# Ordenar las características por importancia
df_importancias_promotor = df_importancias_promotor.sort_values('importancia', ascending=False)

# Convertir las importancias a porcentajes
df_importancias_promotor['importancia'] = df_importancias_promotor['importancia'] / df_importancias_promotor['importancia'].sum() * 100

# Imprimir las importancias de las características para el modelo 'promotor'
print("Importancias de las características para el modelo 'promotor':")
print(df_importancias_promotor)


# Calcular las importancias de las características para el modelo 'detractor'
importances_detractor = permutation_importance(modelo_detractor, X_val, (y_val == 2).astype(int))

# Crear un DataFrame con las importancias de las características para el modelo 'detractor'
df_importancias_detractor = pd.DataFrame({
    'variable': X.columns,
    'importancia': importances_detractor
})

# Ordenar las características por importancia
df_importancias_detractor = df_importancias_detractor.sort_values('importancia', ascending=False)

# Convertir las importancias a porcentajes
df_importancias_detractor['importancia'] = df_importancias_detractor['importancia'] / df_importancias_detractor['importancia'].sum() * 100

# Imprimir las importancias de las características para el modelo 'detractor'
print("Importancias de las características para el modelo 'detractor':")
print(df_importancias_detractor)


In [None]:
# Importar las bibliotecas necesarias
import numpy as np

def calculate_sensitivity(model, X_val, y_val):
    # Obtener las predicciones del modelo en los datos de validación
    y_pred = model.predict(X_val)

    # Inicializar un array de ceros para almacenar las sensibilidades de las características
    sensitivities = np.zeros(X_val.shape[1])

    # Para cada característica
    for i in range(X_val.shape[1]):
        # Hacer una copia de los datos de validación
        X_val_perturbed = X_val.copy()
        # Añadir la desviación estándar de la característica a todos los valores de esa característica
        X_val_perturbed[:, i] += np.std(X_val[:, i])
        # Obtener las predicciones del modelo en los datos perturbados
        y_pred_perturbed = model.predict(X_val_perturbed)
        # Calcular la sensibilidad de la característica como la media del valor absoluto de la diferencia
        # entre las predicciones perturbadas y las predicciones originales
        sensitivities[i] = np.mean(np.abs(y_pred_perturbed - y_pred))

    return sensitivities

# Calcular las sensibilidades de las características para el modelo 'promotor'
sensitivities_promotor = calculate_sensitivity(modelo_promotor, X_val, (y_val == 0).astype(int))

# Calcular las sensibilidades de las características para el modelo 'detractor'
sensitivities_detractor = calculate_sensitivity(modelo_detractor, X_val, (y_val == 2).astype(int))

# Crear un DataFrame con las sensibilidades de las características para el modelo 'promotor'
df_sensitivities_promotor = pd.DataFrame({
    'variable': X.columns,
    'sensibilidad': sensitivities_promotor
})

# Crear un DataFrame con las sensibilidades de las características para el modelo 'detractor'
df_sensitivities_detractor = pd.DataFrame({
    'variable': X.columns,
    'sensibilidad': sensitivities_detractor
})

# Ordenar las características por sensibilidad y convertir las sensibilidades a porcentajes
df_sensitivities_promotor = df_sensitivities_promotor.sort_values('sensibilidad', ascending=False)
df_sensitivities_promotor['sensibilidad'] = df_sensitivities_promotor['sensibilidad'] / df_sensitivities_promotor['sensibilidad'].sum() * 100

df_sensitivities_detractor = df_sensitivities_detractor.sort_values('sensibilidad', ascending=False)
df_sensitivities_detractor['sensibilidad'] = df_sensitivities_detractor['sensibilidad'] / df_sensitivities_detractor['sensibilidad'].sum() * 100

# Imprimir las sensibilidades de las características para cada modelo
print("Sensibilidades de las características para el modelo 'promotor':")
print(df_sensitivities_promotor)

print("Sensibilidades de las características para el modelo 'detractor':")
print(df_sensitivities_detractor)


In [None]:
################ real

from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from imblearn.over_sampling import SMOTE
from lightgbm import LGBMClassifier
from sklearn.metrics import roc_curve, auc, roc_auc_score, accuracy_score, confusion_matrix, classification_report
from sklearn.preprocessing import LabelBinarizer
import pandas as pd
import numpy as np

np.random.seed(42)

le = LabelEncoder()
y_encoded = le.fit_transform(y)  # Esto convierte las clases 'promotor', 'neutro' y 'detractor' en 0, 1 y 2 respectivamente

# Dividir los datos en conjuntos de entrenamiento, validación y prueba
X_temp, X_test, y_temp, y_test = train_test_split(X, y_encoded, test_size=0.2, random_state=42)
X_train, X_val, y_train, y_val = train_test_split(X_temp, y_temp, test_size=0.25, random_state=42)  # 0.25 x 0.8 = 0.2

# Aplicar SMOTE al conjunto de entrenamiento
sm = SMOTE(random_state=42)
X_train_res, y_train_res = sm.fit_resample(X_train, y_train)

# Crear un modelo LGBMClassifier para 'promotor' vs 'no promotor'
y_binary_promotor = (y_train_res == 0).astype(int)  # Esto convierte la clase 'promotor' en 1 y las demás en 0
modelo_promotor = LGBMClassifier(n_estimators=150, random_state=42)
modelo_promotor.fit(X_train_res, y_binary_promotor)

# Crear un modelo LGBMClassifier para 'detractor' vs 'no detractor'
y_binary_detractor = (y_train_res == 2).astype(int)  # Esto convierte la clase 'detractor' en 1 y las demás en 0
modelo_detractor = LGBMClassifier(n_estimators=150, random_state=42)
modelo_detractor.fit(X_train_res, y_binary_detractor)

# Función para calcular el valor KS
def calc_ks(data):
    data['good'] = (data['label'] == 0).astype(int)
    data['bad'] = (data['label'] == 1).astype(int)
    data['bucket'] = (data['probability'].rank(pct=True)*10).astype(int)
    grouped = data.groupby('bucket', as_index=True)
    kstable = grouped.min().probability.to_frame(name='min_prob')
    kstable['max_prob'] = grouped.max().probability
    kstable['bads'] = grouped.sum().bad
    kstable['goods'] = grouped.sum().good
    kstable = kstable.reset_index()
    kstable['bad_rate'] = kstable.bads / (kstable.bads + kstable.goods)
    kstable['ks'] = np.round(((kstable.bads / data.bad.sum()).cumsum() - (kstable.goods / data.good.sum()).cumsum()), 4) * 100
    ks_value = kstable.ks.abs().max()
    return ks_value

# Función para calcular el coeficiente Gini
def calc_gini(y_verdadero, y_prob):
    fpr, tpr, _ = roc_curve(y_verdadero, y_prob)
    roc_auc = auc(fpr, tpr)
    gini = 2*roc_auc - 1
    return gini

# Función para calcular las métricas de rendimiento
def calcular_metricas_binarias(y_verdadero, y_pred, probas):
    print("Informe de clasificación:")
    print(classification_report(y_verdadero, y_pred))

    cm = confusion_matrix(y_verdadero, y_pred)
    cm_df = pd.DataFrame(cm,
                         index=[i for i in np.unique(y_verdadero)],
                         columns=[i for i in np.unique(y_verdadero)])
    print("Matriz de confusión:")
    print(cm_df)

    print("Precisión del modelo:")
    print(accuracy_score(y_verdadero, y_pred))

    print("Puntuación AUC-ROC:")
    print(roc_auc_score(y_verdadero, probas))

    data = pd.DataFrame({'label': y_verdadero, 'probability': probas})
    ks = calc_ks(data)
    print("KS:")
    print(ks)

    gini = calc_gini(y_verdadero, probas)
    print(f"Gini: {gini}")

# Obtener las probabilidades de las predicciones en el conjunto de validación
probas_val_promotor = modelo_promotor.predict_proba(X_val)[:, 1]
probas_val_detractor = modelo_detractor.predict_proba(X_val)[:, 1]

# Calcular las métricas de rendimiento en el conjunto de validación
y_val_promotor = (y_val == 0).astype(int)  # Esto convierte la clase 'promotor' en 1 y las demás en 0
y_val_detractor = (y_val == 2).astype(int)  # Esto convierte la clase 'detractor' en 1 y las demás en 0

print("Métricas para el modelo 'promotor' en el conjunto de validación:")
calcular_metricas_binarias(y_val_promotor, modelo_promotor.predict(X_val), probas_val_promotor)

print("\nMétricas para el modelo 'detractor' en el conjunto de validación:")
calcular_metricas_binarias(y_val_detractor, modelo_detractor.predict(X_val), probas_val_detractor)

# Obtener las probabilidades de las predicciones en el conjunto de prueba
probas_test_promotor = modelo_promotor.predict_proba(X_test)[:, 1]
probas_test_detractor = modelo_detractor.predict_proba(X_test)[:, 1]

# Calcular las métricas de rendimiento en el conjunto de prueba
y_test_promotor = (y_test == 0).astype(int)  # Esto convierte la clase 'promotor' en 1 y las demás en 0
y_test_detractor = (y_test == 2).astype(int)  # Esto convierte la clase 'detractor' en 1 y las demás en 0

print("\nMétricas para el modelo 'promotor' en el conjunto de prueba:")
calcular_metricas_binarias(y_test_promotor, modelo_promotor.predict(X_test), probas_test_promotor)

print("\nMétricas para el modelo 'detractor' en el conjunto de prueba:")
calcular_metricas_binarias(y_test_detractor, modelo_detractor.predict(X_test), probas_test_detractor)


In [None]:
# Contar las clases 'promotor vs no promotor' en y_val
y_val_promotor = (y_val == le.transform(['promotor'])[0]).astype(int)  # Esto convierte la clase 'promotor' en 1 y las demás en 0
clases_y_val_promotor = np.bincount(y_val_promotor)
print(f"Clases 'promotor vs no promotor' en y_val: {clases_y_val_promotor}")

# Contar las clases 'detractor vs no detractor' en y_val
y_val_detractor = (y_val == le.transform(['detractor'])[0]).astype(int)  # Esto convierte la clase 'detractor' en 1 y las demás en 0
clases_y_val_detractor = np.bincount(y_val_detractor)
print(f"Clases 'detractor vs no detractor' en y_val: {clases_y_val_detractor}")


In [None]:
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from imblearn.over_sampling import SMOTE
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import roc_curve, auc, roc_auc_score, accuracy_score, confusion_matrix, classification_report
from sklearn.preprocessing import LabelBinarizer
import pandas as pd
import numpy as np

np.random.seed(42)

le = LabelEncoder()
y_encoded = le.fit_transform(y)  # Esto convierte las clases 'promotor', 'neutro' y 'detractor' en 0, 1 y 2 respectivamente

# Dividir los datos en conjuntos de entrenamiento, validación y prueba
X_temp, X_test, y_temp, y_test = train_test_split(X, y_encoded, test_size=0.2, random_state=42)
X_train, X_val, y_train, y_val = train_test_split(X_temp, y_temp, test_size=0.25, random_state=42)  # 0.25 x 0.8 = 0.2

# Aplicar SMOTE al conjunto de entrenamiento
sm = SMOTE(random_state=42)
X_train_res, y_train_res = sm.fit_resample(X_train, y_train)

# Crear un modelo RandomForestClassifier para 'promotor' vs 'no promotor'
y_binary_promotor = (y_train_res == 0).astype(int)  # Esto convierte la clase 'promotor' en 1 y las demás en 0
modelo_promotor = RandomForestClassifier(n_estimators=150, random_state=42)
modelo_promotor.fit(X_train_res, y_binary_promotor)

# Crear un modelo RandomForestClassifier para 'detractor' vs 'no detractor'
y_binary_detractor = (y_train_res == 2).astype(int)  # Esto convierte la clase 'detractor' en 1 y las demás en 0
modelo_detractor = RandomForestClassifier(n_estimators=150, random_state=42)
modelo_detractor.fit(X_train_res, y_binary_detractor)

# Función para calcular el valor KS
def calc_ks(data):
    data['good'] = (data['label'] == 0).astype(int)
    data['bad'] = (data['label'] == 1).astype(int)
    data['bucket'] = (data['probability'].rank(pct=True)*10).astype(int)
    grouped = data.groupby('bucket', as_index=True)
    kstable = grouped.min().probability.to_frame(name='min_prob')
    kstable['max_prob'] = grouped.max().probability
    kstable['bads'] = grouped.sum().bad
    kstable['goods'] = grouped.sum().good
    kstable = kstable.reset_index()
    kstable['bad_rate'] = kstable.bads / (kstable.bads + kstable.goods)
    kstable['ks'] = np.round(((kstable.bads / data.bad.sum()).cumsum() - (kstable.goods / data.good.sum()).cumsum()), 4) * 100
    ks_value = kstable.ks.abs().max()
    return ks_value

# Función para calcular el coeficiente Gini
def calc_gini(y_verdadero, y_prob):
    fpr, tpr, _ = roc_curve(y_verdadero, y_prob)
    roc_auc = auc(fpr, tpr)
    gini = 2*roc_auc - 1
    return gini

# Función para calcular las métricas de rendimiento
def calcular_metricas_binarias(y_verdadero, y_pred, probas):
    print("Informe de clasificación:")
    print(classification_report(y_verdadero, y_pred))

    cm = confusion_matrix(y_verdadero, y_pred)
    cm_df = pd.DataFrame(cm,
                         index=[i for i in np.unique(y_verdadero)],
                         columns=[i for i in np.unique(y_verdadero)])
    print("Matriz de confusión:")
    print(cm_df)

    print("Precisión del modelo:")
    print(accuracy_score(y_verdadero, y_pred))

    print("Puntuación AUC-ROC:")
    print(roc_auc_score(y_verdadero, probas))

    data = pd.DataFrame({'label': y_verdadero, 'probability': probas})
    ks = calc_ks(data)
    print("KS:")
    print(ks)

    gini = calc_gini(y_verdadero, probas)
    print(f"Gini: {gini}")

# Obtener las probabilidades de las predicciones en el conjunto de validación
probas_val_promotor = modelo_promotor.predict_proba(X_val)[:, 1]
probas_val_detractor = modelo_detractor.predict_proba(X_val)[:, 1]

# Calcular las métricas de rendimiento en el conjunto de validación
y_val_promotor = (y_val == 0).astype(int)  # Esto convierte la clase 'promotor' en 1 y las demás en 0
y_val_detractor = (y_val == 2).astype(int)  # Esto convierte la clase 'detractor' en 1 y las demás en 0

print("Métricas para el modelo 'promotor' en el conjunto de validación:")
calcular_metricas_binarias(y_val_promotor, modelo_promotor.predict(X_val), probas_val_promotor)

print("\nMétricas para el modelo 'detractor' en el conjunto de validación:")
calcular_metricas_binarias(y_val_detractor, modelo_detractor.predict(X_val), probas_val_detractor)

# Obtener las probabilidades de las predicciones en el conjunto de prueba
probas_test_promotor = modelo_promotor.predict_proba(X_test)[:, 1]
probas_test_detractor = modelo_detractor.predict_proba(X_test)[:, 1]

# Calcular las métricas de rendimiento en el conjunto de prueba
y_test_promotor = (y_test == 0).astype(int)  # Esto convierte la clase 'promotor' en 1 y las demás en 0
y_test_detractor = (y_test == 2).astype(int)  # Esto convierte la clase 'detractor' en 1 y las demás en 0

print("\nMétricas para el modelo 'promotor' en el conjunto de prueba:")
calcular_metricas_binarias(y_test_promotor, modelo_promotor.predict(X_test), probas_test_promotor)

print("\nMétricas para el modelo 'detractor' en el conjunto de prueba:")
calcular_metricas_binarias(y_test_detractor, modelo_detractor.predict(X_test), probas_test_detractor)


In [None]:
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from imblearn.over_sampling import SMOTE
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import roc_curve, auc, roc_auc_score, accuracy_score, confusion_matrix, classification_report
from sklearn.preprocessing import LabelBinarizer
import pandas as pd
import numpy as np

np.random.seed(42)

le = LabelEncoder()
y_encoded = le.fit_transform(y)  # Esto convierte las clases 'promotor', 'neutro' y 'detractor' en 0, 1 y 2 respectivamente

# Dividir los datos en conjuntos de entrenamiento, validación y prueba
X_temp, X_test, y_temp, y_test = train_test_split(X, y_encoded, test_size=0.2, random_state=42)
X_train, X_val, y_train, y_val = train_test_split(X_temp, y_temp, test_size=0.25, random_state=42)  # 0.25 x 0.8 = 0.2

# Aplicar SMOTE al conjunto de entrenamiento
sm = SMOTE(random_state=42)
X_train_res, y_train_res = sm.fit_resample(X_train, y_train)

# Crear un modelo GradientBoostingClassifier para 'promotor' vs 'no promotor'
y_binary_promotor = (y_train_res == 0).astype(int)  # Esto convierte la clase 'promotor' en 1 y las demás en 0
modelo_promotor = GradientBoostingClassifier(n_estimators=150, random_state=42)
modelo_promotor.fit(X_train_res, y_binary_promotor)

# Crear un modelo GradientBoostingClassifier para 'detractor' vs 'no detractor'
y_binary_detractor = (y_train_res == 2).astype(int)  # Esto convierte la clase 'detractor' en 1 y las demás en 0
modelo_detractor = GradientBoostingClassifier(n_estimators=150, random_state=42)
modelo_detractor.fit(X_train_res, y_binary_detractor)

# Función para calcular el valor KS
def calc_ks(data):
    data['good'] = (data['label'] == 0).astype(int)
    data['bad'] = (data['label'] == 1).astype(int)
    data['bucket'] = (data['probability'].rank(pct=True)*10).astype(int)
    grouped = data.groupby('bucket', as_index=True)
    kstable = grouped.min().probability.to_frame(name='min_prob')
    kstable['max_prob'] = grouped.max().probability
    kstable['bads'] = grouped.sum().bad
    kstable['goods'] = grouped.sum().good
    kstable = kstable.reset_index()
    kstable['bad_rate'] = kstable.bads / (kstable.bads + kstable.goods)
    kstable['ks'] = np.round(((kstable.bads / data.bad.sum()).cumsum() - (kstable.goods / data.good.sum()).cumsum()), 4) * 100
    ks_value = kstable.ks.abs().max()
    return ks_value

# Función para calcular el coeficiente Gini
def calc_gini(y_verdadero, y_prob):
    fpr, tpr, _ = roc_curve(y_verdadero, y_prob)
    roc_auc = auc(fpr, tpr)
    gini = 2*roc_auc - 1
    return gini

# Función para calcular las métricas de rendimiento
def calcular_metricas_binarias(y_verdadero, y_pred, probas):
    print("Informe de clasificación:")
    print(classification_report(y_verdadero, y_pred))

    cm = confusion_matrix(y_verdadero, y_pred)
    cm_df = pd.DataFrame(cm,
                         index=[i for i in np.unique(y_verdadero)],
                         columns=[i for i in np.unique(y_verdadero)])
    print("Matriz de confusión:")
    print(cm_df)

    print("Precisión del modelo:")
    print(accuracy_score(y_verdadero, y_pred))

    print("Puntuación AUC-ROC:")
    print(roc_auc_score(y_verdadero, probas))

    data = pd.DataFrame({'label': y_verdadero, 'probability': probas})
    ks = calc_ks(data)
    print("KS:")
    print(ks)

    gini = calc_gini(y_verdadero, probas)
    print(f"Gini: {gini}")

# Obtener las probabilidades de las predicciones en el conjunto de validación
probas_val_promotor = modelo_promotor.predict_proba(X_val)[:, 1]
probas_val_detractor = modelo_detractor.predict_proba(X_val)[:, 1]

# Calcular las métricas de rendimiento en el conjunto de validación
y_val_promotor = (y_val == 0).astype(int)  # Esto convierte la clase 'promotor' en 1 y las demás en 0
y_val_detractor = (y_val == 2).astype(int)  # Esto convierte la clase 'detractor' en 1 y las demás en 0

print("Métricas para el modelo 'promotor' en el conjunto de validación:")
calcular_metricas_binarias(y_val_promotor, modelo_promotor.predict(X_val), probas_val_promotor)

print("\nMétricas para el modelo 'detractor' en el conjunto de validación:")
calcular_metricas_binarias(y_val_detractor, modelo_detractor.predict(X_val), probas_val_detractor)

# Obtener las probabilidades de las predicciones en el conjunto de prueba
probas_test_promotor = modelo_promotor.predict_proba(X_test)[:, 1]
probas_test_detractor = modelo_detractor.predict_proba(X_test)[:, 1]

# Calcular las métricas de rendimiento en el conjunto de prueba
y_test_promotor = (y_test == 0).astype(int)  # Esto convierte la clase 'promotor' en 1 y las demás en 0
y_test_detractor = (y_test == 2).astype(int)  # Esto convierte la clase 'detractor' en 1 y las demás en 0

print("\nMétricas para el modelo 'promotor' en el conjunto de prueba:")
calcular_metricas_binarias(y_test_promotor, modelo_promotor.predict(X_test), probas_test_promotor)

print("\nMétricas para el modelo 'detractor' en el conjunto de prueba:")
calcular_metricas_binarias(y_test_detractor, modelo_detractor.predict(X_test), probas_test_detractor)


In [None]:
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from imblearn.over_sampling import SMOTE
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from sklearn.metrics import roc_curve, auc, roc_auc_score, accuracy_score, confusion_matrix, classification_report
from sklearn.preprocessing import LabelBinarizer
import pandas as pd
import numpy as np

np.random.seed(42)

le = LabelEncoder()
y_encoded = le.fit_transform(y)  # Esto convierte las clases 'promotor', 'neutro' y 'detractor' en 0, 1 y 2 respectivamente

# Dividir los datos en conjuntos de entrenamiento, validación y prueba
X_temp, X_test, y_temp, y_test = train_test_split(X, y_encoded, test_size=0.2, random_state=42)
X_train, X_val, y_train, y_val = train_test_split(X_temp, y_temp, test_size=0.25, random_state=42)  # 0.25 x 0.8 = 0.2

# Aplicar SMOTE al conjunto de entrenamiento
sm = SMOTE(random_state=42)
X_train_res, y_train_res = sm.fit_resample(X_train, y_train)

# Crear un modelo Sequential para 'promotor' vs 'no promotor'
y_binary_promotor = (y_train_res == 0).astype(int)  # Esto convierte la clase 'promotor' en 1 y las demás en 0
modelo_promotor = Sequential()
modelo_promotor.add(Dense(32, activation='relu', input_dim=X_train_res.shape[1]))
modelo_promotor.add(Dense(1, activation='sigmoid'))
modelo_promotor.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
modelo_promotor.fit(X_train_res, y_binary_promotor, epochs=10, batch_size=32, verbose=0)

# Crear un modelo Sequential para 'detractor' vs 'no detractor'
y_binary_detractor = (y_train_res == 2).astype(int)  # Esto convierte la clase 'detractor' en 1 y las demás en 0
modelo_detractor = Sequential()
modelo_detractor.add(Dense(32, activation='relu', input_dim=X_train_res.shape[1]))
modelo_detractor.add(Dense(1, activation='sigmoid'))
modelo_detractor.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
modelo_detractor.fit(X_train_res, y_binary_detractor, epochs=10, batch_size=32, verbose=0)

# Función para calcular el valor KS
def calc_ks(data):
    data['good'] = (data['label'] == 0).astype(int)
    data['bad'] = (data['label'] == 1).astype(int)
    data['bucket'] = (data['probability'].rank(pct=True)*10).astype(int)
    grouped = data.groupby('bucket', as_index=True)
    kstable = grouped.min().probability.to_frame(name='min_prob')
    kstable['max_prob'] = grouped.max().probability
    kstable['bads'] = grouped.sum().bad
    kstable['goods'] = grouped.sum().good
    kstable = kstable.reset_index()
    kstable['bad_rate'] = kstable.bads / (kstable.bads + kstable.goods)
    kstable['ks'] = np.round(((kstable.bads / data.bad.sum()).cumsum() - (kstable.goods / data.good.sum()).cumsum()), 4) * 100
    ks_value = kstable.ks.abs().max()
    return ks_value

# Función para calcular el coeficiente Gini
def calc_gini(y_verdadero, y_prob):
    fpr, tpr, _ = roc_curve(y_verdadero, y_prob)
    roc_auc = auc(fpr, tpr)
    gini = 2*roc_auc - 1
    return gini

# Función para calcular las métricas de rendimiento
def calcular_metricas_binarias(y_verdadero, y_pred, probas):
    print("Informe de clasificación:")
    print(classification_report(y_verdadero, y_pred))

    cm = confusion_matrix(y_verdadero, y_pred)
    cm_df = pd.DataFrame(cm,
                         index=[i for i in np.unique(y_verdadero)],
                         columns=[i for i in np.unique(y_verdadero)])
    print("Matriz de confusión:")
    print(cm_df)

    print("Precisión del modelo:")
    print(accuracy_score(y_verdadero, y_pred))

    print("Puntuación AUC-ROC:")
    print(roc_auc_score(y_verdadero, probas))

    data = pd.DataFrame({'label': y_verdadero, 'probability': probas})
    ks = calc_ks(data)
    print("KS:")
    print(ks)

    gini = calc_gini(y_verdadero, probas)
    print(f"Gini: {gini}")

# Obtener las probabilidades de las predicciones en el conjunto de validación
probas_val_promotor = modelo_promotor.predict_proba(X_val)[:, 1]
probas_val_detractor = modelo_detractor.predict_proba(X_val)[:, 1]

# Calcular las métricas de rendimiento en el conjunto de validación
y_val_promotor = (y_val == 0).astype(int)  # Esto convierte la clase 'promotor' en 1 y las demás en 0
y_val_detractor = (y_val == 2).astype(int)  # Esto convierte la clase 'detractor' en 1 y las demás en 0

print("Métricas para el modelo 'promotor' en el conjunto de validación:")
calcular_metricas_binarias(y_val_promotor, (probas_val_promotor > 0.5).astype(int), probas_val_promotor)

print("\nMétricas para el modelo 'detractor' en el conjunto de validación:")
calcular_metricas_binarias(y_val_detractor, (probas_val_detractor > 0.5).astype(int), probas_val_detractor)

# Obtener las probabilidades de las predicciones en el conjunto de prueba
probas_test_promotor = modelo_promotor.predict_proba(X_test)[:, 1]
probas_test_detractor = modelo_detractor.predict_proba(X_test)[:, 1]

# Calcular las métricas de rendimiento en el conjunto de prueba
y_test_promotor = (y_test == 0).astype(int)  # Esto convierte la clase 'promotor' en 1 y las demás en 0
y_test_detractor = (y_test == 2).astype(int)  # Esto convierte la clase 'detractor' en 1 y las demás en 0

print("\nMétricas para el modelo 'promotor' en el conjunto de prueba:")
calcular_metricas_binarias(y_test_promotor, (probas_test_promotor > 0.5).astype(int), probas_test_promotor)

print("\nMétricas para el modelo 'detractor' en el conjunto de prueba:")
calcular_metricas_binarias(y_test_detractor, (probas_test_detractor > 0.5).astype(int), probas_test_detractor)


In [None]:
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from imblearn.over_sampling import SMOTE
from sklearn.ensemble import AdaBoostClassifier
from sklearn.metrics import roc_curve, auc, roc_auc_score, accuracy_score, confusion_matrix, classification_report
from sklearn.preprocessing import LabelBinarizer
import pandas as pd
import numpy as np

np.random.seed(42)

le = LabelEncoder()
y_encoded = le.fit_transform(y)  # Esto convierte las clases 'promotor', 'neutro' y 'detractor' en 0, 1 y 2 respectivamente

# Dividir los datos en conjuntos de entrenamiento, validación y prueba
X_temp, X_test, y_temp, y_test = train_test_split(X, y_encoded, test_size=0.2, random_state=42)
X_train, X_val, y_train, y_val = train_test_split(X_temp, y_temp, test_size=0.25, random_state=42)  # 0.25 x 0.8 = 0.2

# Aplicar SMOTE al conjunto de entrenamiento
sm = SMOTE(random_state=42)
X_train_res, y_train_res = sm.fit_resample(X_train, y_train)

# Crear un modelo AdaBoostClassifier para 'promotor' vs 'no promotor'
y_binary_promotor = (y_train_res == 0).astype(int)  # Esto convierte la clase 'promotor' en 1 y las demás en 0
modelo_promotor = AdaBoostClassifier(n_estimators=150, random_state=42)
modelo_promotor.fit(X_train_res, y_binary_promotor)

# Crear un modelo AdaBoostClassifier para 'detractor' vs 'no detractor'
y_binary_detractor = (y_train_res == 2).astype(int)  # Esto convierte la clase 'detractor' en 1 y las demás en 0
modelo_detractor = AdaBoostClassifier(n_estimators=150, random_state=42)
modelo_detractor.fit(X_train_res, y_binary_detractor)

# Función para calcular el valor KS
def calc_ks(data):
    data['good'] = (data['label'] == 0).astype(int)
    data['bad'] = (data['label'] == 1).astype(int)
    data['bucket'] = (data['probability'].rank(pct=True)*10).astype(int)
    grouped = data.groupby('bucket', as_index=True)
    kstable = grouped.min().probability.to_frame(name='min_prob')
    kstable['max_prob'] = grouped.max().probability
    kstable['bads'] = grouped.sum().bad
    kstable['goods'] = grouped.sum().good
    kstable = kstable.reset_index()
    kstable['bad_rate'] = kstable.bads / (kstable.bads + kstable.goods)
    kstable['ks'] = np.round(((kstable.bads / data.bad.sum()).cumsum() - (kstable.goods / data.good.sum()).cumsum()), 4) * 100
    ks_value = kstable.ks.abs().max()
    return ks_value

# Función para calcular el coeficiente Gini
def calc_gini(y_verdadero, y_prob):
    fpr, tpr, _ = roc_curve(y_verdadero, y_prob)
    roc_auc = auc(fpr, tpr)
    gini = 2*roc_auc - 1
    return gini

# Función para calcular las métricas de rendimiento
def calcular_metricas_binarias(y_verdadero, y_pred, probas):
    print("Informe de clasificación:")
    print(classification_report(y_verdadero, y_pred))

    cm = confusion_matrix(y_verdadero, y_pred)
    cm_df = pd.DataFrame(cm,
                         index=[i for i in np.unique(y_verdadero)],
                         columns=[i for i in np.unique(y_verdadero)])
    print("Matriz de confusión:")
    print(cm_df)

    print("Precisión del modelo:")
    print(accuracy_score(y_verdadero, y_pred))

    print("Puntuación AUC-ROC:")
    print(roc_auc_score(y_verdadero, probas))

    data = pd.DataFrame({'label': y_verdadero, 'probability': probas})
    ks = calc_ks(data)
    print("KS:")
    print(ks)

    gini = calc_gini(y_verdadero, probas)
    print(f"Gini: {gini}")

# Obtener las probabilidades de las predicciones en el conjunto de validación
probas_val_promotor = modelo_promotor.predict_proba(X_val)[:, 1]
probas_val_detractor = modelo_detractor.predict_proba(X_val)[:, 1]

# Calcular las métricas de rendimiento en el conjunto de validación
y_val_promotor = (y_val == 0).astype(int)  # Esto convierte la clase 'promotor' en 1 y las demás en 0
y_val_detractor = (y_val == 2).astype(int)  # Esto convierte la clase 'detractor' en 1 y las demás en 0

print("Métricas para el modelo 'promotor' en el conjunto de validación:")
calcular_metricas_binarias(y_val_promotor, (probas_val_promotor > 0.5).astype(int), probas_val_promotor)

print("\nMétricas para el modelo 'detractor' en el conjunto de validación:")
calcular_metricas_binarias(y_val_detractor, (probas_val_detractor > 0.5).astype(int), probas_val_detractor)

# Obtener las probabilidades de las predicciones en el conjunto de prueba
probas_test_promotor = modelo_promotor.predict_proba(X_test)[:, 1]
probas_test_detractor = modelo_detractor.predict_proba(X_test)[:, 1]

# Calcular las métricas de rendimiento en el conjunto de prueba
y_test_promotor = (y_test == 0).astype(int)  # Esto convierte la clase 'promotor' en 1 y las demás en 0
y_test_detractor = (y_test == 2).astype(int)  # Esto convierte la clase 'detractor' en 1 y las demás en 0

print("\nMétricas para el modelo 'promotor' en el conjunto de prueba:")
calcular_metricas_binarias(y_test_promotor, (probas_test_promotor > 0.5).astype(int), probas_test_promotor)

print("\nMétricas para el modelo 'detractor' en el conjunto de prueba:")
calcular_metricas_binarias(y_test_detractor, (probas_test_detractor > 0.5).astype(int), probas_test_detractor)


In [None]:
from pyspark.ml.feature import StringIndexer
from pyspark.ml.stat import ChiSquareTest

# Asumiendo que 'df' es tu DataFrame y 'nueva' e 'incumplimiento' son tus columnas

# Primero necesitamos convertir las columnas categóricas a numéricas
indexer = StringIndexer(inputCol="nueva", outputCol="nuevaIndexada")
df = indexer.fit(df).transform(df)

# Ahora realizamos la prueba de Chi cuadrado
r = ChiSquareTest.test(df, "nuevaIndexada", "incumplimiento").head()

print("pValues: " + str(r.pValues))
print("degreesOfFreedom: " + str(r.degreesOfFreedom))
print("statistics: " + str(r.statistics))
