In [5]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.cluster import KMeans
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

In [6]:
df_processed = pd.read_csv('../data/processed/processed.csv')
df_processed.shape
X = df_processed.drop(['DELAYED','ARRIVAL_DELAY','DEPARTURE_TIME'], axis=1).copy()

y = df_processed['DELAYED'].copy()
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


##  (SVC) PRUEBA 1

## svc1_model
Accuracy en los datos de entrenamiento: 1.00
Accuracy en los datos de prueba: 0.99
Precisión en los datos de prueba: 0.98
Recall en los datos de prueba: 0.98
F1-score en los datos de prueba: 0.98
Matriz de confusión:
[[1899   18]
 [  23  970]]
Área bajo la curva ROC (AUC): 0.98

In [7]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix, roc_curve, auc

pipeline = Pipeline([
    ('scaler', StandardScaler()),  # Escalador
    ('svc', SVC(random_state=42))  # Clasificador Máquinas de vectores de soporte (SVM)
])

# Definir los hiperparámetros a ajustar
parameters = {
    'svc__C': [0.1, 1],
    'svc__kernel': ['linear', 'rbf']
}

# Realizar la búsqueda de hiperparámetros utilizando validación cruzada
grid_search = GridSearchCV(pipeline, parameters, cv=3, scoring='accuracy' , verbose=3)
grid_search.fit(X_train, y_train)

# Obtener el mejor modelo
svc1_model = grid_search.best_estimator_

print('Metricas (SVM)')

# Predecir con el mejor modelo en los datos de prueba
y_pred = svc1_model.predict(X_test)

# Evaluar el rendimiento del modelo en los datos de entrenamiento
y_train_pred = svc1_model.predict(X_train)
train_accuracy = accuracy_score(y_train, y_train_pred)
print(f'Accuracy en los datos de entrenamiento: {train_accuracy:.2f}')

# Evaluar el rendimiento del modelo en los datos de prueba
y_test_pred = svc1_model.predict(X_test)
test_accuracy = accuracy_score(y_test, y_test_pred)
test_precision = precision_score(y_test, y_test_pred)
test_recall = recall_score(y_test, y_test_pred)
test_f1 = f1_score(y_test, y_test_pred)
confusion = confusion_matrix(y_test, y_test_pred)

print(f'Accuracy en los datos de prueba: {test_accuracy:.2f}')
print(f'Precisión en los datos de prueba: {test_precision:.2f}')
print(f'Recall en los datos de prueba: {test_recall:.2f}')
print(f'F1-score en los datos de prueba: {test_f1:.2f}')
print('Matriz de confusión:')
print(confusion)

# Calcular el área bajo la curva ROC (AUC)
fpr, tpr, thresholds = roc_curve(y_test, y_test_pred)
roc_auc = auc(fpr, tpr)
print(f'Área bajo la curva ROC (AUC): {roc_auc:.2f}')

Fitting 3 folds for each of 4 candidates, totalling 12 fits
[CV 1/3] END ....svc__C=0.1, svc__kernel=linear;, score=0.925 total time=  34.4s
[CV 2/3] END ....svc__C=0.1, svc__kernel=linear;, score=0.925 total time=  38.7s
[CV 3/3] END ....svc__C=0.1, svc__kernel=linear;, score=0.917 total time=  36.9s
[CV 1/3] END .......svc__C=0.1, svc__kernel=rbf;, score=0.713 total time= 1.5min
[CV 2/3] END .......svc__C=0.1, svc__kernel=rbf;, score=0.714 total time= 1.4min
[CV 3/3] END .......svc__C=0.1, svc__kernel=rbf;, score=0.708 total time= 1.4min
[CV 1/3] END ......svc__C=1, svc__kernel=linear;, score=0.967 total time=  34.1s
[CV 2/3] END ......svc__C=1, svc__kernel=linear;, score=0.963 total time=  33.0s
[CV 3/3] END ......svc__C=1, svc__kernel=linear;, score=0.965 total time=  37.5s
[CV 1/3] END .........svc__C=1, svc__kernel=rbf;, score=0.781 total time= 1.1min
[CV 2/3] END .........svc__C=1, svc__kernel=rbf;, score=0.798 total time= 1.2min
[CV 3/3] END .........svc__C=1, svc__kernel=rbf;,

## SVC PRUEBA 2

# Definir los hiperparámetros a ajustar
parameters = {
    'svc__C': [0.01, 0.1, 1],
    'svc__kernel': ['linear', 'rbf', 'poly', 'sigmoid'],
    'svc__gamma': ['scale', 'auto', 0.1, 1, 10],
    'svc__degree': [3, 4, 5]
}

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix, roc_curve, auc

pipeline = Pipeline([
    ('scaler', StandardScaler()),  # Escalador
    ('svc', SVC(random_state=42))  # Clasificador Máquinas de vectores de soporte (SVM)
])

# Definir los hiperparámetros a ajustar
parameters = {
    'svc__C': [0.01, 0.1 ],
    'svc__kernel': ['poly'],
    'svc__degree': [3, 4]
}

# Realizar la búsqueda de hiperparámetros utilizando validación cruzada
grid_search = GridSearchCV(pipeline, parameters, cv=5, scoring='accuracy' , verbose=3)
grid_search.fit(X_train, y_train)

# Obtener el mejor modelo
svc2_model = grid_search.best_estimator_

print('Metricas (SVM)')


# Evaluar el rendimiento del modelo en los datos de entrenamiento
y_train_pred = svc2_model.predict(X_train)
train_accuracy = accuracy_score(y_train, y_train_pred)
print(f'Accuracy en los datos de entrenamiento: {train_accuracy:.2f}')

# Evaluar el rendimiento del modelo en los datos de prueba
y_test_pred = svc2_model.predict(X_test)
test_accuracy = accuracy_score(y_test, y_test_pred)
test_precision = precision_score(y_test, y_test_pred)
test_recall = recall_score(y_test, y_test_pred)
test_f1 = f1_score(y_test, y_test_pred)
confusion = confusion_matrix(y_test, y_test_pred)

print(f'Accuracy en los datos de prueba: {test_accuracy:.2f}')
print(f'Precisión en los datos de prueba: {test_precision:.2f}')
print(f'Recall en los datos de prueba: {test_recall:.2f}')
print(f'F1-score en los datos de prueba: {test_f1:.2f}')
print('Matriz de confusión:')
print(confusion)

# Calcular el área bajo la curva ROC (AUC)
fpr, tpr, thresholds = roc_curve(y_test, y_test_pred)
roc_auc = auc(fpr, tpr)
print(f'Área bajo la curva ROC (AUC): {roc_auc:.2f}')

In [9]:
import pickle
import yaml

# Guardar el modelo entrenado en un archivo pickle
with open('../models/svc1_model.pkl', 'wb') as archivo_salida:
    pickle.dump(svc1_model, archivo_salida)

# Guardar la configuración del modelo en un archivo YAML
model_config = {
    'model_name': 'svc1_model',
    'best_params': svc1_model.get_params()
}

with open('../models/svc1_model.yaml', 'w') as f:
    yaml.dump(svc1_model, f)