In [1]:
import pandas as pd
import numpy as np

import warnings
warnings.filterwarnings("ignore")

import pickle
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import MinMaxScaler, OneHotEncoder
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier, AdaBoostClassifier
from sklearn.model_selection import cross_validate
from sklearn.metrics import accuracy_score, f1_score, recall_score, precision_score, make_scorer


def train_and_evaluate_model(model, X, y):  
   
    # Define a column transformer
    preprocessor = ColumnTransformer(
        transformers=[
            ('num', Pipeline(steps=[('imputer', SimpleImputer(strategy='median')),
                                    ('scaler', MinMaxScaler())]), num_cols),
            ('cat', Pipeline(steps=[('imputer', SimpleImputer(strategy='most_frequent')),
                                    ('onehot', OneHotEncoder(handle_unknown='ignore'))]), cat_cols)])

    # Create a pipeline
    pipeline = Pipeline(steps=[('preprocessor', preprocessor),
                                ('model', model)])

    # Define the metrics for evaluation
    scoring = {
        'accuracy': make_scorer(accuracy_score),
        'f1': make_scorer(f1_score, average='weighted'),
        'recall': make_scorer(recall_score, average='weighted'),
        'precision': make_scorer(precision_score, average='weighted')
    }

    # Perform 5-fold cross-validation
    cv_results = cross_validate(pipeline, X, y, cv=5, scoring=scoring, return_train_score=True)

    # Calculate overfitting as the difference between training and validation accuracy
    overfitting = np.mean(cv_results['train_accuracy']) - np.mean(cv_results['test_accuracy'])

    # Store the evaluation results
    results = {
        'fit_time': np.mean(cv_results['fit_time']),
        'accuracy': np.mean(cv_results['test_accuracy']),
        'f1': np.mean(cv_results['test_f1']),
        'recall': np.mean(cv_results['test_recall']),
        'precision': np.mean(cv_results['test_precision']),
        'overfitting': overfitting
    }

    # Train the model on the entire dataset
    pipeline.fit(X, y)

    return results

In [2]:
# Load the dataset
file_path = 'airline_passenger_satisfaction.csv'
df = pd.read_csv(file_path)

# Preprocessing steps
# Drop unnecessary columns
df.drop(['Unnamed: 0', 'id'], axis=1, inplace=True)

# Handle missing values and type conversions
df['Arrival Delay in Minutes'].fillna(0, inplace=True)
df['Arrival Delay in Minutes'] = df['Arrival Delay in Minutes'].astype(int)
df['Customer Type'] = df['Customer Type'].replace('disloyal Customer', 'Disloyal Customer')

In [3]:
# Separate features and target variables
X = df.drop('satisfaction', axis=1)
y = df['satisfaction']

In [4]:
# Identify numerical and categorical columns
num_cols = [col for col in X.columns if (X[col].dtype == 'int64' or X[col].dtype == 'int32')]
cat_cols = [col for col in X.columns if X[col].dtype == 'object']

In [5]:
modelos = [
    LogisticRegression(),
    RandomForestClassifier(),
    KNeighborsClassifier(),
    # Agrega otros modelos aquí
]

In [6]:
# Crea un diccionario para almacenar los resultados de cada modelo
resultados_por_modelo = {}

In [7]:
# Itera sobre los modelos
for modelo in modelos:
    # Entrena y evalúa el modelo actual
    resultados = train_and_evaluate_model(modelo, X, y)
    
    # Almacena los resultados en el diccionario
    nombre_modelo = type(modelo).__name__
    resultados_por_modelo[nombre_modelo] = resultados

# Imprime los resultados para cada modelo
for nombre_modelo, resultados in resultados_por_modelo.items():
    print(f"Resultados para el modelo {nombre_modelo}:")
    for metrica, valor in resultados.items():
        print(f"{metrica}: {valor}")
    print("=" * 50)

Resultados para el modelo LogisticRegression:
fit_time: 0.8514237403869629
accuracy: 0.8750289112004891
f1: 0.8746956074908748
recall: 0.8750289112004891
precision: 0.8749083194270094
overfitting: 0.0002044802325990025
Resultados para el modelo RandomForestClassifier:
fit_time: 9.984806251525878
accuracy: 0.9625038632173955
f1: 0.9624255271032773
recall: 0.9625038632173955
precision: 0.9627309507167137
overfitting: 0.03749373070967643
Resultados para el modelo KNeighborsClassifier:
fit_time: 0.32404370307922364
accuracy: 0.9279142687856341
f1: 0.9275026334108258
recall: 0.9279142687856341
precision: 0.9292267744888367
overfitting: 0.019919790003117166


## Significado de los warning


El mensaje de advertencia que estás viendo se refiere a que el modelo de regresión logística no pudo converger con los hiperparámetros predeterminados que estás utilizando. Esto significa que el algoritmo no pudo encontrar los coeficientes óptimos para el modelo logístico dentro del número máximo de iteraciones permitidas.

Para abordar este problema, puedes probar las siguientes soluciones:

Aumentar el número máximo de iteraciones: Puedes aumentar el número máximo de iteraciones permitidas para permitir que el algoritmo tenga más tiempo para converger. Esto se hace configurando el hiperparámetro max_iter en el modelo de regresión logística. Por ejemplo, puedes establecer max_iter=1000:

Escalar las características: La convergencia puede ser un problema si las características tienen diferentes escalas. Escalar las características a un rango similar, como lo estás haciendo con MinMaxScaler en las características numéricas, puede ayudar a mejorar la convergencia. Asegúrate de que todas las características numéricas estén siendo escaladas de manera adecuada.

Explorar otros solucionadores: El mensaje de advertencia también sugiere explorar otros solucionadores. Puedes probar diferentes solucionadores pasando el argumento solver al modelo de regresión logística.

'Logistic_Regression': LogisticRegression(solver='saga', max_iter=1000),

El solucionador 'saga' es una opción que puede funcionar bien en conjuntos de datos grandes y puede ser más robusto en términos de convergencia.

Regularización: Puedes agregar regularización al modelo de regresión logística para ayudar en la convergencia. Esto se hace a través de los hiperparámetros penalty (por ejemplo, 'l2' para la regularización L2) y C (la fuerza de la regularización). Experimenta con diferentes valores de C para ver cómo afecta a la convergencia.

Recuerda que es importante realizar una validación cruzada y ajustar los hiperparámetros adecuadamente para obtener el mejor rendimiento del modelo de regresión logística en tu conjunto de datos.