<a href="https://colab.research.google.com/github/CristValen/Acciones-RNR/blob/main/nps.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split, RandomizedSearchCV
from sklearn.metrics import classification_report, accuracy_score, roc_auc_score
from sklearn.preprocessing import LabelBinarizer
from imblearn.over_sampling import SMOTE
import numpy as np
import pandas as pd

# Establecer la semilla del generador de números aleatorios
np.random.seed(42)

# Supongamos que 'df' es tu DataFrame y que 'clase' es tu variable objetivo
df = pd.read_csv('tu_archivo.csv')

# Crear las variables objetivo y características
X = df.drop('clase', axis=1)
y = df['clase']

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Aplicar SMOTE al conjunto de entrenamiento
smote = SMOTE(random_state=42)
X_train_res, y_train_res = smote.fit_resample(X_train, y_train)

# Crear el modelo de Random Forest
modelo = RandomForestClassifier(random_state=42)

# Definir la grilla de hiperparámetros para la búsqueda aleatoria
param_dist = {
    'n_estimators': [50, 100, 200, 300, 400],
    'max_features': ['auto', 'sqrt', 'log2'],
    'max_depth': [10, 20, 30, 40, 50],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4],
    'bootstrap': [True, False]
}

# Realizar la búsqueda aleatoria de hiperparámetros
busqueda_aleatoria = RandomizedSearchCV(estimator=modelo,
                                        param_distributions=param_dist,
                                        n_iter=100,
                                        cv=3,
                                        verbose=2,
                                        random_state=42,
                                        n_jobs=-1)

# Entrenar el modelo con los mejores hiperparámetros encontrados
busqueda_aleatoria.fit(X_train_res, y_train_res)

# Obtener las probabilidades de las predicciones en el conjunto de prueba
probas = busqueda_aleatoria.predict_proba(X_test)

# Definir tus umbrales personalizados aquí. Por ejemplo:
umbrales = [0.4, 0.3, 0.3]  # Un umbral para cada clase

# Aplicar los umbrales a las probabilidades para obtener las predicciones finales
predicciones = np.array([busqueda_aleatoria.classes_[i] for i in np.argmax(probas >= umbrales, axis=1)])

# Imprimir un informe de clasificación
print("Informe de clasificación:")
print(classification_report(y_test, predicciones))

# Calcular e imprimir la matriz de confusión con los nombres de las clases
cm = confusion_matrix(y_test, predicciones)
cm_df = pd.DataFrame(cm,
                     index=[i for i in busqueda_aleatoria.classes_],
                     columns=[i for i in busqueda_aleatoria.classes_])
print("Matriz de confusión:")
print(cm_df)

# Imprimir la precisión del modelo
print("Precisión del modelo:")
print(accuracy_score(y_test, predicciones))

# Calcular e imprimir la puntuación AUC-ROC para cada clase
lb = LabelBinarizer()
lb.fit(y_test)
y_test_lb = lb.transform(y_test)
predicciones_lb = lb.transform(predicciones)
print("Puntuación AUC-ROC para cada clase:")
for i in range(len(lb.classes_)):
    print(f"{lb.classes_[i]}: {roc_auc_score(y_test_lb[:, i], predicciones_lb[:, i])}")






In [None]:
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split, RandomizedSearchCV
from sklearn.metrics import classification_report, accuracy_score, roc_auc_score
from sklearn.preprocessing import LabelBinarizer
from imblearn.over_sampling import SMOTE
import numpy as np
import pandas as pd

# Establecer la semilla del generador de números aleatorios
np.random.seed(42)

# Supongamos que 'df' es tu DataFrame y que 'clase' es tu variable objetivo
df = pd.read_csv('tu_archivo.csv')

# Crear las variables objetivo y características
X = df.drop('clase', axis=1)
y = df['clase']

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Aplicar SMOTE al conjunto de entrenamiento
smote = SMOTE(random_state=42)
X_train_res, y_train_res = smote.fit_resample(X_train, y_train)

# Crear el modelo SVM
modelo = SVC(probability=True, random_state=42)

# Definir la grilla de hiperparámetros para la búsqueda aleatoria
param_dist = {
    'C': [0.1, 1, 10, 100],
    'gamma': [1, 0.1, 0.01, 0.001],
    'kernel': ['rbf', 'poly', 'sigmoid']
}

# Realizar la búsqueda aleatoria de hiperparámetros
busqueda_aleatoria = RandomizedSearchCV(estimator=modelo,
                                        param_distributions=param_dist,
                                        n_iter=100,
                                        cv=3,
                                        verbose=2,
                                        random_state=42,
                                        n_jobs=-1)

# Entrenar el modelo con los mejores hiperparámetros encontrados
busqueda_aleatoria.fit(X_train_res, y_train_res)

# Obtener las probabilidades de las predicciones en el conjunto de prueba
probas = busqueda_aleatoria.predict_proba(X_test)

# Definir tus umbrales personalizados aquí. Por ejemplo:
umbrales = [0.4, 0.3, 0.3]  # Un umbral para cada clase

# Aplicar los umbrales a las probabilidades para obtener las predicciones finales
predicciones = np.array([busqueda_aleatoria.classes_[i] for i in np.argmax(probas >= umbrales, axis=1)])

# Imprimir un informe de clasificación
print("Informe de clasificación:")
print(classification_report(y_test, predicciones))

# Calcular e imprimir la matriz de confusión con los nombres de las clases
cm = confusion_matrix(y_test, predicciones)
cm_df = pd.DataFrame(cm,
                     index=[i for i in busqueda_aleatoria.classes_],
                     columns=[i for i in busqueda_aleatoria.classes_])
print("Matriz de confusión:")
print(cm_df)

# Imprimir la precisión del modelo
print("Precisión del modelo:")
print(accuracy_score(y_test, predicciones))

# Calcular e imprimir la puntuación AUC-ROC para cada clase
lb = LabelBinarizer()
lb.fit(y_test)
y_test_lb = lb.transform(y_test)
predicciones_lb = lb.transform(predicciones)
print("Puntuación AUC-ROC para cada clase:")
for i in range(len(lb.classes_)):
    print(f"{lb.classes_[i]}: {roc_auc_score(y_test_lb[:, i], predicciones_lb[:, i])}")


In [None]:
from pyspark.sql.functions import to_date

# Asumiendo que tu DataFrame se llama df y tus columnas son 'ope' y 'conta'
df = df.withColumn("ope", to_date(df['ope'], "yyyy-MM-dd"))
df = df.withColumn("conta", to_date(df['conta'], "yyyy-MM-dd"))

# Agrupar por la columna 'ope'
df_grouped_by_ope = df.groupBy("ope").count()

# Agrupar por la columna 'conta'
df_grouped_by_conta = df.groupBy("conta").count()

In [None]:
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import classification_report, accuracy_score, roc_auc_score
from sklearn.preprocessing import LabelBinarizer
import numpy as np
import pandas as pd

# Establecer la semilla del generador de números aleatorios
np.random.seed(42)

# Supongamos que 'df' es tu DataFrame y que 'clase' es tu variable objetivo
df = pd.read_csv('tu_archivo.csv')

# Crear las variables objetivo y características
X = df.drop('clase', axis=1)
y = df['clase']

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear una instancia del clasificador Gradient Boosting
modelo = GradientBoostingClassifier(random_state=42)

# Definir la grilla de hiperparámetros para la búsqueda en grilla
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [3, 5, 7],
    'learning_rate': [0.01, 0.1],
}

# Realizar la búsqueda en grilla de hiperparámetros
busqueda_en_grilla = GridSearchCV(estimator=modelo,
                                  param_grid=param_grid,
                                  cv=3,
                                  verbose=2,
                                  n_jobs=-1)

# Entrenar el modelo con los mejores hiperparámetros encontrados
busqueda_en_grilla.fit(X_train, y_train)

# Predecir las clases para el conjunto de prueba
y_pred = busqueda_en_grilla.predict(X_test)

# Definir tus umbrales personalizados aquí. Por ejemplo:
umbrales = [0.4, 0.3, 0.3]  # Un umbral para cada clase

# Aplicar los umbrales a las probabilidades para obtener las predicciones finales
probas = busqueda_en_grilla.predict_proba(X_test)
predicciones = np.array([busqueda_en_grilla.classes_[i] for i in np.argmax(probas >= umbrales, axis=1)])

# Imprimir un informe de clasificación
print("Informe de clasificación:")
print(classification_report(y_test, predicciones))

# Calcular e imprimir la matriz de confusión con los nombres de las clases
cm = confusion_matrix(y_test, predicciones)
cm_df = pd.DataFrame(cm,
                     index=[i for i in busqueda_en_grilla.classes_],
                     columns=[i for i in busqueda_en_grilla.classes_])
print("Matriz de confusión:")
print(cm_df)

# Imprimir la precisión del modelo
print("Precisión del modelo:")
print(accuracy_score(y_test, predicciones))

# Calcular e imprimir la puntuación AUC-ROC para cada clase
lb = LabelBinarizer()
lb.fit(y_test)
y_test_lb = lb.transform(y_test)
predicciones_lb = lb.transform(predicciones)
print("Puntuación AUC-ROC para cada clase:")
for i in range(len(lb.classes_)):
    print(f"{lb.classes_[i]}: {roc_auc_score(y_test_lb[:, i], predicciones_lb[:, i])}")


In [None]:
import numpy as np
import tensorflow as tf
from keras.models import Sequential
from keras.layers import Dense, SimpleRNN
from sklearn.metrics import confusion_matrix, precision_score, recall_score, f1_score, roc_auc_score
from sklearn.model_selection import train_test_split
from keras.utils import to_categorical

# Establecer la semilla para la reproducibilidad
np.random.seed(0)
tf.random.set_seed(0)

# Supongamos que X es tu conjunto de datos e y son las etiquetas correspondientes

# División de los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# Codificación one-hot de las etiquetas
y_train_one_hot = to_categorical(y_train)
y_test_one_hot = to_categorical(y_test)

# Creación del modelo RNN
model = Sequential()
model.add(SimpleRNN(50, activation='relu', input_shape=(X_train.shape[1], 1)))
model.add(Dense(3, activation='softmax'))

# Compilación del modelo
model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

# Asignación de pesos a las clases (supongamos que class_weights es un diccionario que contiene los pesos)
class_weights = {0: 1., 1: 1., 2: 1.}  # Modifica esto según tus necesidades

# Entrenamiento del modelo
model.fit(X_train, y_train_one_hot, epochs=100, verbose=0, class_weight=class_weights)

# Predicción en el conjunto de prueba
y_pred_proba = model.predict(X_test)
y_pred = np.argmax(y_pred_proba, axis=1)  # Convertir las predicciones one-hot a etiquetas

# Modificación del umbral de probabilidad
threshold = 0.5  # Modifica esto según tus necesidades
y_pred_threshold = (y_pred_proba >= threshold).astype(int)

# Cálculo de las métricas
precision = precision_score(y_test, y_pred_threshold, average=None)
recall = recall_score(y_test, y_pred_threshold, average=None)
f1 = f1_score(y_test, y_pred_threshold, average=None)
confusion = confusion_matrix(y_test, y_pred_threshold)
roc_auc = roc_auc_score(y_test_one_hot, to_categorical(y_pred_threshold), multi_class='ovr')

print("Precision: ", precision)
print("Recall: ", recall)
print("F1 Score: ", f1)
print("Confusion Matrix: \n", confusion)
print("ROC AUC Score: ", roc_auc)
