<a href="https://colab.research.google.com/github/CristValen/ML-Python/blob/main/python_svm.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
#svm

from sklearn import svm
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import confusion_matrix, classification_report, roc_curve
import pandas as pd
import numpy as np

# Establecer la semilla para el generador de números aleatorios
random_state = 42

# Convertir el DataFrame de PySpark a Pandas
pandas_df = df_2.toPandas()

# Dividir el conjunto de datos en train y test
X = pandas_df.drop('Malos_Dias_tot', axis=1)
y = pandas_df['Malos_Dias_tot']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=random_state)

# Entrenar el modelo SVM con validación cruzada
parameters = {'kernel':('linear', 'rbf'), 'C':[1, 10]}
svc = svm.SVC(probability=True, random_state=random_state)
clf = GridSearchCV(svc, parameters)
clf.fit(X_train, y_train)

# Predecir valores para el conjunto de test
y_pred = clf.predict(X_test)

# Calcular métricas
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

# Calcular el estadístico KS
fpr, tpr, thresholds = roc_curve(y_test, clf.predict_proba(X_test)[:,1])
ks = np.max(tpr - fpr)
print(f'KS: {ks}')

# Obtener las 10 variables más importantes del modelo
feature_importances = pd.DataFrame(clf.best_estimator_.coef_[0], index=X.columns, columns=['importance']).sort_values('importance', ascending=False)
print(feature_importances.head(10))



In [None]:
#smote

from imblearn.over_sampling import SMOTE

# Establecer la semilla para el generador de números aleatorios
random_state = 42

# Convertir el DataFrame de PySpark a Pandas
pandas_df = df_2.toPandas()

# Dividir el conjunto de datos en train y test
X = pandas_df.drop('Malos_Dias_tot', axis=1)
y = pandas_df['Malos_Dias_tot']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=random_state)

# Aplicar SMOTE al conjunto de entrenamiento
sm = SMOTE(random_state=random_state)
X_train_resampled, y_train_resampled = sm.fit_resample(X_train, y_train)

# Entrenar el modelo SVM
clf = svm.SVC(kernel='linear', probability=True, random_state=random_state)
clf.fit(X_train_resampled, y_train_resampled)

# Predecir valores para el conjunto de test
y_pred = clf.predict(X_test)

# Calcular métricas
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

# Calcular el estadístico KS
fpr, tpr, thresholds = roc_curve(y_test, clf.predict_proba(X_test)[:,1])
ks = np.max(tpr - fpr)
print(f'KS: {ks}')

# Obtener las 10 variables más importantes del modelo
feature_importances = pd.DataFrame(clf.coef_[0], index=X.columns, columns=['importance']).sort_values('importance', ascending=False)
print(feature_importances.head(10))



In [None]:
from sklearn.model_selection import GridSearchCV
#undersampling
# Establecer la semilla para el generador de números aleatorios
random_state = 42

# Convertir el DataFrame de PySpark a Pandas
pandas_df = df_2.toPandas()

# Dividir el conjunto de datos en train y test
X = pandas_df.drop('Malos_Dias_tot', axis=1)
y = pandas_df['Malos_Dias_tot']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=random_state)

# Aplicar RandomUnderSampler al conjunto de entrenamiento
rus = RandomUnderSampler(random_state=random_state)
X_train_resampled, y_train_resampled = rus.fit_resample(X_train, y_train)

# Entrenar el modelo SVM con validación cruzada
param_grid = {'C': [0.1, 1, 10], 'gamma': [1, 0.1, 0.01]}
grid = GridSearchCV(svm.SVC(kernel='linear', probability=True, random_state=random_state), param_grid, refit=True)
grid.fit(X_train_resampled, y_train_resampled)

# Predecir valores para el conjunto de test
y_pred = grid.predict(X_test)

# Calcular métricas
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

# Calcular el estadístico KS
fpr, tpr, thresholds = roc_curve(y_test, grid.predict_proba(X_test)[:,1])
ks = np.max(tpr - fpr)
print(f'KS: {ks}')

# Obtener las 10 variables más importantes del modelo
feature_importances = pd.DataFrame(grid.best_estimator_.coef_[0], index=X.columns, columns=['importance']).sort_values('importance', ascending=False)
print(feature_importances.head(10))



In [None]:
from sklearn.model_selection import GridSearchCV

# Establecer la semilla para el generador de números aleatorios
random_state = 42

# Convertir el DataFrame de PySpark a Pandas
pandas_df = df_2.toPandas()

# Dividir el conjunto de datos en train y test
X = pandas_df.drop('Malos_Dias_tot', axis=1)
y = pandas_df['Malos_Dias_tot']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=random_state)

# Aplicar ADASYN al conjunto de entrenamiento
adasyn = ADASYN(random_state=random_state)
X_train_resampled, y_train_resampled = adasyn.fit_resample(X_train, y_train)

# Entrenar el modelo SVM con validación cruzada
param_grid = {'C': [0.1, 1, 10], 'gamma': [1, 0.1, 0.01]}
grid = GridSearchCV(svm.SVC(kernel='linear', probability=True, random_state=random_state), param_grid, refit=True)
grid.fit(X_train_resampled, y_train_resampled)

# Predecir valores para el conjunto de test
y_pred = grid.predict(X_test)

# Calcular métricas
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

# Calcular el estadístico KS
fpr, tpr, thresholds = roc_curve(y_test, grid.predict_proba(X_test)[:,1])
ks = np.max(tpr - fpr)
print(f'KS: {ks}')

# Obtener las 10 variables más importantes del modelo
feature_importances = pd.DataFrame(grid.best_estimator_.coef_[0], index=X.columns, columns=['importance']).sort_values('importance', ascending=False)
print(feature_importances.head(10))



In [None]:
from sklearn.model_selection import GridSearchCV

# Establecer la semilla para el generador de números aleatorios
random_state = 42

# Convertir el DataFrame de PySpark a Pandas
pandas_df = df_2.toPandas()

# Dividir el conjunto de datos en train y test
X = pandas_df.drop('Malos_Dias_tot', axis=1)
y = pandas_df['Malos_Dias_tot']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=random_state)

# Aplicar TomekLinks al conjunto de entrenamiento
tl = TomekLinks()
X_train_resampled, y_train_resampled = tl.fit_resample(X_train, y_train)

# Definir los parámetros para la búsqueda en grilla
param_grid = {'C': [0.1, 1, 10], 'kernel': ['linear', 'rbf']}

# Crear el objeto GridSearchCV
grid_search = GridSearchCV(svm.SVC(probability=True, random_state=random_state), param_grid, cv=5)

# Entrenar el modelo SVM con búsqueda en grilla
grid_search.fit(X_train_resampled, y_train_resampled)

# Predecir valores para el conjunto de test
y_pred = grid_search.predict(X_test)

# Calcular métricas
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

# Calcular el estadístico KS
fpr, tpr, thresholds = roc_curve(y_test, grid_search.predict_proba(X_test)[:,1])
ks = np.max(tpr - fpr)
print(f'KS: {ks}')

# Obtener las 10 variables más importantes del modelo
feature_importances = pd.DataFrame(grid_search.best_estimator_.coef_[0], index=X.columns, columns=['importance']).sort_values('importance', ascending=False)
print(feature_importances.head(10))
