In [8]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.metrics import confusion_matrix
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.cluster import KMeans
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

In [9]:
df_processed = pd.read_csv('../data/processed/processed.csv')
df_processed.shape
X = df_processed.drop(['DELAYED','ARRIVAL_DELAY','DEPARTURE_TIME'], axis=1).copy()

y = df_processed['DELAYED'].copy()
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

## Naive Bayes

In [10]:
pipeline = Pipeline([
    ('scaler', StandardScaler()),  # Escalador
    ('nb', GaussianNB())  # Clasificador Naive Bayes
])

# No hay hiperparámetros para ajustar en Naive Bayes

# Entrenar el modelo
pipeline.fit(X_train, y_train)

# Obtener el mejor modelo
best_nb_model = pipeline

print('Métricas Naive Bayes')

# Evaluar el rendimiento del modelo en los datos de entrenamiento
y_train_pred = best_nb_model.predict(X_train)
train_accuracy = accuracy_score(y_train, y_train_pred)
print(f'Accuracy en los datos de entrenamiento: {train_accuracy:.2f}')

# Evaluar el rendimiento del modelo en los datos de prueba
y_test_pred = best_nb_model.predict(X_test)
test_accuracy = accuracy_score(y_test, y_test_pred)
test_precision = precision_score(y_test, y_test_pred)
test_recall = recall_score(y_test, y_test_pred)
test_f1 = f1_score(y_test, y_test_pred)
confusion = confusion_matrix(y_test, y_test_pred)

print(f'Accuracy en los datos de prueba: {test_accuracy:.2f}')
print(f'Precisión en los datos de prueba: {test_precision:.2f}')
print(f'Recall en los datos de prueba: {test_recall:.2f}')
print(f'F1-score en los datos de prueba: {test_f1:.2f}')
print('Matriz de confusión:')
print(confusion)

Métricas Naive Bayes
Accuracy en los datos de entrenamiento: 0.41
Accuracy en los datos de prueba: 0.41
Precisión en los datos de prueba: 0.38
Recall en los datos de prueba: 0.98
F1-score en los datos de prueba: 0.55
Matriz de confusión:
[[ 129 1698]
 [  25 1058]]
