In [None]:
#from imblearn.pipeline import Pipeline
#from imblearn.over_sampling import RandomOverSampler
#from imblearn.under_sampling import RandomUnderSampler
import pandas as pd
import numpy as np
import seaborn as sns
from sklearn.preprocessing import LabelEncoder
from sklearn.ensemble import RandomForestClassifier
from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression

# Load the data
data = pd.read_csv('hotel_booking.csv')
pre_processed_data=data

In [None]:
import Algoritmos
from importlib import reload
reload(Algoritmos)
alg=Algoritmos.Algoritmos()


In [None]:
#1. Data Exploration and Preparation

# Get a Summary of Data
describe = data.describe()
print("\n"+ str(describe))

# Get information about the data
hotel_data_info = data.info()
# Size
size = data.size
print('O tamanho do data set é: ' + str(size))

In [None]:
# View the first rows of the data set
data.head()

In [None]:
# View the last rows
data.tail()

In [None]:
# Check which columns are Numeric and which are Categorical
dtypes = data.dtypes
print("Os data types são: \n" + str(dtypes) )

In [None]:
# Number of rows
linhas = len(data)
print("Number of rows: " + str(linhas))

# Number of collumns
colunas = len(data.columns)
print("Number of columns: " + str(colunas))

# Collumns Names
col_names = data.columns
print(col_names)

In [None]:
# Display the number of missing values in each column sorted in ascending order
print(f"Number of nulls per column:\n{data.isnull().sum().sort_values(ascending=False)}")

print(f"Number of duplicate rows: {data.duplicated().sum()}")


In [None]:
# Assign a placeholder for missing values
data.fillna(value={'children': -1, 'country': 'Missing', 'agent': 'Missing', 'company': 'No Company'}, inplace=True)
data.info()
print(f"\nNumber of nulls per column:\n{data.isnull().sum().sort_values(ascending=False)}")


In [None]:
# Verify if have duplicate rows
print(f"Before dropDuplicates: {(size)}")
data.drop_duplicates(inplace = True)
print(f"After dropDuplicates: {(data.size)}") # Doesn't have duplicate rows

# Check for unique values
unique_values = data.nunique()
print(f"\nUnique values:\n{unique_values}")

In [None]:
#Elimnate columns that are not useful
data = data.drop(['name','email','phone-number','credit_card', 'reservation_status_date','reservation_status'], axis=1)

In [None]:
# Separate columns into categorical and numerical
categorical_columns = data.select_dtypes(include=['object']).columns.tolist()
numerical_columns = data.select_dtypes(include=['int64', 'float64']).columns.tolist()

# Display the separated columns
print("Categorical Columns:")
print(categorical_columns)
print("\nNumerical Columns:")
print(numerical_columns)

# Check the data types of each column
print(data.dtypes)
data.info()


In [None]:
# Selecionar os dados onde houve cancelamento
cancelled_data = data[data['is_canceled'] == 1]

# Contagem de cancelamentos por país
country_counts = cancelled_data['country'].value_counts()

# Selecionar os 15 principais países
top_15_countries = country_counts[:15]
# Somar as ocorrências dos países restantes e adicionar como "Others"
others = country_counts[15:].sum()
top_15_countries['Others'] = others

# Visualização
plt.figure(figsize=(8, 8))
plt.title('Top 15 Countries with Reservation Cancellations', color="black")
plt.pie(top_15_countries, autopct='%.2f', labels=top_15_countries.index)
plt.show()

In [None]:
# Selecionar as colunas categóricas
categorical_columns = data.select_dtypes(include=['object']).columns.tolist()
print("Categorical columns: " + str(categorical_columns))

# Criar gráficos lado a lado para cada categoria onde is_canceled == 1 e is_canceled == 0
for column in categorical_columns:
    # Separar dados cancelados e não cancelados
    canceled_data = data[data['is_canceled'] == 1]
    non_canceled_data = data[data['is_canceled'] == 0]
    
    # Checar o número de categorias únicas
    unique_values = data[column].nunique()
    
    # Para colunas com mais de 15 categorias, agrupar valores menores em "Others"
    if unique_values > 15:
        # Cálculo para is_canceled == 1
        top_15_canceled = canceled_data[column].value_counts().nlargest(15)
        others_canceled = canceled_data[column].value_counts().iloc[15:].sum()
        top_15_canceled['Others'] = others_canceled
        
        # Cálculo para is_canceled == 0
        top_15_non_canceled = non_canceled_data[column].value_counts().nlargest(15)
        others_non_canceled = non_canceled_data[column].value_counts().iloc[15:].sum()
        top_15_non_canceled['Others'] = others_non_canceled

        # Gráficos de Barras Lado a Lado
        fig, axes = plt.subplots(1, 2, figsize=(15, 6))
        sns.barplot(x=top_15_canceled.index, y=top_15_canceled.values, ax=axes[0])
        axes[0].set_title(f"is_canceled - Top 15 ({column})")
        axes[0].tick_params(axis='x', rotation=90)

        sns.barplot(x=top_15_non_canceled.index, y=top_15_non_canceled.values, ax=axes[1])
        axes[1].set_title(f"Not_canceled - Top 15 ({column})")
        axes[1].tick_params(axis='x', rotation=90)
        
    else:
        # Gráficos para colunas com 15 ou menos categorias sem "Others"
        fig, axes = plt.subplots(1, 2, figsize=(15, 6))
        sns.countplot(data=canceled_data, x=column, ax=axes[0])
        axes[0].set_title(f"is_canceled ({column})")
        axes[0].tick_params(axis='x', rotation=90)

        sns.countplot(data=non_canceled_data, x=column, ax=axes[1])
        axes[1].set_title(f"Not_canceled ({column})")
        axes[1].tick_params(axis='x', rotation=90)

    plt.tight_layout()
    plt.show()


In [None]:
def univariate_analysis(data, column_name):
    describe= data[column_name].describe()
    variance_value = data[column_name].var()
    iqr_value = data[column_name].quantile(0.75) - data[column_name].quantile(0.25)
    skewness_value = data[column_name].skew()
    kurtosis_value = data[column_name].kurtosis()

    frequency_distribution = data[column_name].value_counts().head(10)

     # Visualization
    plt.figure(figsize=(15, 5))

    # Histogram
    plt.subplot(1, 3, 1)
    sns.histplot(data[column_name], kde=True, bins=30)
    plt.title(f'Histogram of {column_name}')

    # Box Plot
    plt.subplot(1, 3, 2)
    sns.boxplot(x=data[column_name])
    plt.title(f'Box Plot of {column_name}')

   
    # Bar Chart (for categorical features)
    if data[column_name].dtype == 'int' or data[column_name].dtype == 'object':
        plt.subplot(1, 3, 3)
        sns.countplot(x=data[column_name], order=data[column_name].value_counts().index[:10])
        plt.title(f'Bar Chart of {column_name} (Top 10)')


    plt.tight_layout()
    plt.show()

variables_to_analyse=data.select_dtypes(include=['int64', 'float64']).columns.tolist()
variables_to_analyse = [col for col in variables_to_analyse if col != 'is_canceled']
for varible in variables_to_analyse:
    univariate_analysis(data, varible)

In [None]:
#Aplicação dA função FunctionChisq para saber se ha alguma correlação entre colunas categóricas
categorical_columns = data.select_dtypes(include=['object']).columns.tolist()
reload(Algoritmos)
alg=Algoritmos.Algoritmos()
SelectedPredictors = alg.FunctionChisq(data, 'is_canceled', categorical_columns)

### Comentário sobre os Resultados do Teste Qui-Quadrado

Os resultados do teste Qui-Quadrado (Chi-Square) revelam como diferentes variáveis categóricas estão relacionadas com a variável `is_canceled`. Abaixo estão as interpretações dos resultados e as implicações dos valores-p obtidos.

### Resumo dos Resultados

1. **Variáveis Correlacionadas com `is_canceled`**:
   - **hotel**: A variável `hotel` tem um valor-p de 0.0, indicando uma correlação extremamente significativa com o cancelamento de reservas. Isso sugere que o tipo de hotel tem um impacto forte na probabilidade de cancelamento.
   - **arrival_date_month**: Com um valor-p de \(3.67 \times 10^{-119}\), o mês de chegada é altamente significativo, indicando que os cancelamentos variam significativamente ao longo dos meses.
   - **meal**: A variável `meal` apresenta um valor-p de \(1.32 \times 10^{-64}\), sugerindo que o tipo de refeição escolhida tem uma relação importante com os cancelamentos.
   - **country**: O país de origem dos hóspedes mostra uma correlação significativa com um valor-p de 0.0, indicando que a nacionalidade pode influenciar a taxa de cancelamento.
   - **market_segment**: Com um valor-p de 0.0, essa variável mostra que o segmento de mercado (ex: grupo, individual, etc.) tem uma correlação forte com cancelamentos.
   - **distribution_channel**: O canal de distribuição tem um valor-p de 0.0, indicando uma relação significativa com a taxa de cancelamento.
   - **reserved_room_type**: Com um valor-p de \(1.12 \times 10^{-133}\), o tipo de quarto reservado tem uma correlação extremamente forte com o cancelamento.
   - **assigned_room_type**: Esta variável também apresenta um valor-p de 0.0, indicando que o tipo de quarto designado está fortemente relacionado aos cancelamentos.
   - **deposit_type**: O tipo de depósito tem um valor-p de 0.0, sugerindo uma relação significativa com o comportamento de cancelamento.
   - **agent**: Com um valor-p de 0.0, a variável que representa o agente de reservas mostra uma correlação forte com o cancelamento.
   - **company**: A empresa associada à reserva tem um valor-p de \(1.74 \times 10^{-297}\), indicando uma correlação extremamente forte com a taxa de cancelamento.
   - **customer_type**: Com um valor-p de 0.0, o tipo de cliente (ex: novo, recorrente) tem uma relação significativa com cancelamentos.

### Conclusões

Os resultados indicam que diversas variáveis categóricas estão fortemente correlacionadas com a decisão de cancelar reservas. Esses insights são valiosos para a gestão de reservas em hotéis, permitindo que os profissionais do setor identifiquem padrões e desenvolvam estratégias para reduzir a taxa de cancelamento, como ajustar políticas de reservas e promoções com base no perfil dos hóspedes.

In [None]:
# Aplicar FunctionAnova
continuous_columns = data.select_dtypes(include=['int64', 'float64']).columns.tolist()
continuous_columns = [col for col in continuous_columns if col != 'is_canceled']

selected_predictors = alg.FunctionAnova(data, "is_canceled", continuous_columns)

### Comentário sobre os Resultados da ANOVA

Os resultados da análise de variância (ANOVA) fornecem uma visão valiosa sobre como diferentes variáveis contínuas estão relacionadas com a variável categórica `is_canceled`. A seguir, vamos interpretar os resultados e as implicações dos valores-p obtidos.

### Resumo dos Resultados

1. **Variáveis Correlacionadas com `is_canceled`**:
   - **lead_time**: A variável `lead_time` tem um valor-p de 0.0, indicando uma correlação extremamente significativa com o cancelamento de reservas. Isso sugere que quanto maior o tempo de antecedência da reserva, maior a probabilidade de cancelamento.
   - **arrival_date_year**: O ano de chegada também se correlaciona com o cancelamento, com um valor-p de \(8.57 \times 10^{-9}\), o que indica uma forte relação.
   - **arrival_date_week_number**: Com um valor-p de 0.0049, essa variável mostra que o número da semana do ano tem uma correlação significativa com os cancelamentos.
   - **arrival_date_day_of_month**: O dia do mês de chegada também se mostra relevante, com um valor-p de 0.0342, indicando que certos dias podem estar associados a uma maior taxa de cancelamento.
   - **stays_in_week_nights**: Essa variável é altamente significativa (valor-p de \(1.15 \times 10^{-17}\)), indicando que a duração da estadia durante a semana influencia a decisão de cancelar.
   - **adults**: O número de adultos na reserva tem um valor-p de \(1.08 \times 10^{-95}\), indicando uma relação forte e significativa.
   - **babies**: A presença de bebês nas reservas também é significativa (valor-p de \(2.92 \times 10^{-29}\)).
   - **is_repeated_guest**: O fato de um hóspede ser repetido tem um valor-p extremamente baixo (\(2.31 \times 10^{-189}\)), sugerindo que hóspedes que já fizeram reservas anteriormente têm uma taxa diferente de cancelamento.
   - **previous_cancellations**: O número de cancelamentos anteriores tem um valor-p de \(8.93 \times 10^{-319}\), indicando uma relação muito forte com cancelamentos.
   - **previous_bookings_not_canceled**: Essa variável também é relevante (valor-p de \(1.49 \times 10^{-87}\)).
   - **booking_changes**: Com um valor-p de 0.0, as mudanças na reserva têm uma correlação significativa.
   - **days_in_waiting_list**: Essa variável também é fortemente correlacionada com cancelamentos (valor-p de \(2.50 \times 10^{-78}\)).
   - **adr**: O preço médio diário (adr) é significativo com um valor-p de \(9.68 \times 10^{-61}\).
   - **required_car_parking_spaces**: A necessidade de espaços de estacionamento é relevante (valor-p de 0.0).
   - **total_of_special_requests**: O número total de pedidos especiais também mostra uma correlação significativa (valor-p de 0.0).

2. **Variáveis Não Correlacionadas**:
   - **stays_in_weekend_nights**: Com um valor-p de 0.5360, essa variável não apresenta uma correlação significativa com cancelamentos.
   - **children**: Apesar de seu valor-p de 0.0887 ser relativamente baixo, não é suficiente para considerar uma correlação significativa.

### Conclusões

Os resultados indicam que várias variáveis contínuas estão significativamente correlacionadas com a decisão de cancelamento de reservas. Esses insights podem ser valiosos para a gestão de reservas em hotéis, permitindo que os profissionais do setor identifiquem padrões e potencialmente desenvolvam estratégias para reduzir a taxa de cancelamento, como ajustar políticas de reservas e promoções baseadas nas características dos hóspedes e nas suas escolhas de reserva.

In [None]:

# Initialize the LabelEncoder
label_encoder = LabelEncoder()

# Convert non-numeric columns to values
for column in categorical_columns:
    # Convert the column to string type to avoid type conflicts
    data[column] = data[column].astype(str)
    # Apply LabelEncoder
    data[column] = label_encoder.fit_transform(data[column])

print(data.info())

In [None]:
print(data['is_canceled'].info())

In [None]:
# Let's check the correlation between variables 
numerical_columns = data.select_dtypes(include=['int64', 'float64']).columns.tolist()
correlation_num = data[numerical_columns].corr()
print(correlation_num)

# Create a heatmap
plt.figure(figsize=(12, 10))
sns.heatmap(correlation_num, annot=True, cmap='coolwarm', fmt=".2f", linewidths=.5)
plt.title('Correlation Matrix')
plt.show()

In [None]:
 #Extrai os 3 pares mais bem correlacionados (em termos absolutos), sem contar as correlações de uma variável com ela mesma
correlation_pairs = correlation_num.unstack().reset_index()
correlation_pairs.columns = ['Variable 1', 'Variable 2', 'Correlation']
correlation_pairs['Correlation'] = correlation_pairs['Correlation'].abs()  # Usa o valor absoluto

# Filtra para excluir duplicatas e correlações com a mesma variável
correlation_pairs = correlation_pairs[correlation_pairs['Variable 1'] != correlation_pairs['Variable 2']]
correlation_pairs = correlation_pairs.drop_duplicates(subset=['Correlation']).sort_values(by='Correlation', ascending=False)

# Exibe os 3 pares mais bem correlacionados
top_3_correlations = correlation_pairs.head(3)
print("Top 3 most correlated pairs:\n", top_3_correlations)

# Exibe os 3 pares menos bem correlacionados
top_3_correlations = correlation_pairs.tail(3)
print("Top 3 less correlated pairs:\n", top_3_correlations)

In [None]:
# Passo 2: Univariate Analysis (Distribution of individual features)
def bivariate_analysis(data, column_name):
    


    Objective_col = data.columns[1]

    # Visualization
    plt.figure(figsize=(15, 5))

    sns.barplot(data=data, x=Objective_col, y=column_name)
   # plt.savefig(f'bivariate_analysis/bar_plot_{column_name}.png')

    sns.displot(data=data, x= column_name, hue=Objective_col, kind="kde")
    #plt.savefig(f'bivariate_analysis/dis_plot_kde_{column_name}.png')

    fig, axes = plt.subplots(1, 2, figsize=(15, 5), sharey=True)

    # Get unique values in the last_col (your categorical variable)
    unique_types = data[Objective_col].unique()

   
   # Loop over each unique type and perform linear regression
    for i, t in enumerate(unique_types):
        # Filter data for the current type
        subset = data[data[Objective_col] == t]
        
        X = subset[column_name].values.reshape(-1, 1)
        y = subset[column_name].values
        model = LinearRegression()
        model.fit(X, y)
        
        m = model.coef_[0]
        b = model.intercept_
        
        axes[i].scatter(X, y, color='blue', alpha=0.5)
        
        axes[i].plot(X, model.predict(X), color='red', label=f'y = {m:.2f}x + {b:.2f}')
        
        # Set the title to show the current type and regression equation
        axes[i].set_title(f'{t}')
        axes[i].set_xlabel(column_name)

    # Set the common ylabel for the whole figure
    axes[0].set_ylabel('Values')

    # Display the plot
    plt.suptitle(f'Scatter Plots and Regression Lines for Each Type in {Objective_col}')
 

    plt.tight_layout()
    #plt.savefig(f'bivariate_analysis/scatter_plot_{column_name}.png')
    plt.show()



variables_to_analyse=numerical_columns

# Realizar a análise bivariada para cada variável
for variable in variables_to_analyse:
    bivariate_analysis(data, variable)




In [None]:

categorical_columns = data.select_dtypes(include=['object', 'category']).columns
# Get the number of unique values for categorical columns
unique_values_per_categorical_column = data[categorical_columns].nunique()

# Print the result
print(unique_values_per_categorical_column)

# Function to display the counts of is_canceled for each unique value in the column
def display_cancellation_counts(data, column, top_n=10):
    unique_vals = data[column].nunique()
    
    # Group by the column and the 'is_canceled' column, and count occurrences
    grouped = data.groupby([column, 'is_canceled']).size().unstack(fill_value=0)
    
    if unique_vals <= top_n:
        # If the number of unique values is small, show all counts
        print(f"\nColumn: {column}")
        print(grouped)
    else:
        # If there are many unique values, show the top N values based on their total counts
        top_values = data[column].value_counts().head(top_n).index
        print(f"\nColumn: {column} (Top {top_n} out of {unique_vals} unique values)")
        print(grouped.loc[top_values])

# Apply the function for each column except 'is_canceled'
for column in categorical_columns:
     display_cancellation_counts(data, column)

In [None]:

def bivariate_categorical(data, varaible):
    plt.figure(figsize=(15, 15))

    sns.countplot(data=data, x=variable, hue=data['is_canceled'])
    # Add labels and title
    plt.xlabel(f'{variable}')
    plt.ylabel('Count')
    plt.title('Count of is_canceled Type by 'f'{variable}')
    plt.legend(title='Is_canceled')


    plt.show()

for variable in categorical_columns:
    bivariate_categorical(data, variable)

   


In [None]:
from sklearn.model_selection import train_test_split

# Define the target variable and features
X = pre_processed_data
y = data['is_canceled']

# Split the data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"Training data shape: {X_train.shape}")
print(f"Testing data shape: {X_test.shape}")

In [None]:
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer
from sklearn.pipeline import Pipeline

# Define the preprocessing steps for numerical and categorical features
numerical_features = numerical_columns
categorical_features = categorical_columns

# Numerical features preprocessing pipeline
numerical_pipeline = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='median')),
    ('scaler', StandardScaler())
])

# Categorical features preprocessing pipeline
categorical_pipeline = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))
])

# Combine both pipelines into a single ColumnTransformer
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numerical_pipeline, numerical_features),
        ('cat', categorical_pipeline, categorical_features)
    ])

# Apply the preprocessing to the data
pre_processed_data = preprocessor.fit_transform(data)

print(pre_processed_data)

In [None]:
# Train a RandomForestClassifier on the pre-processed data

# Define the target variable and features
X = pre_processed_data
y = data['is_canceled']

# Split the data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Initialize the RandomForestClassifier
rf_classifier = RandomForestClassifier(n_estimators=100, random_state=42)

# Train the classifier
rf_classifier.fit(X_train, y_train)

# Make predictions on the test set
y_pred = rf_classifier.predict(X_test)

# Print the classification report
print(classification_report(y_test, y_pred))

In [None]:
from sklearn.model_selection import cross_val_score

# Evaluate the RandomForestClassifier using cross-validation


# Perform cross-validation
cv_scores = cross_val_score(rf_classifier, X, y, cv=5)

# Print the cross-validation scores
print("Cross-validation scores:", cv_scores)
print("Mean cross-validation score:", np.mean(cv_scores))

In [None]:
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay

# Evaluate the RandomForestClassifier using a confusion matrix


# Generate the confusion matrix
conf_matrix = confusion_matrix(y_test, y_pred)

# Display the confusion matrix
disp = ConfusionMatrixDisplay(confusion_matrix=conf_matrix, display_labels=rf_classifier.classes_)
disp.plot(cmap=plt.cm.Blues)
plt.title('Confusion Matrix')
plt.show()

In [None]:
# Perform feature importance analysis using the trained RandomForestClassifier

# Get feature importances from the RandomForestClassifier
feature_importances = rf_classifier.feature_importances_

# Create a DataFrame to hold feature names and their importance scores
feature_names = numerical_features + list(preprocessor.named_transformers_['cat']['onehot'].get_feature_names_out(categorical_features))
feature_importance_df = pd.DataFrame({'Feature': feature_names, 'Importance': feature_importances})

# Sort the DataFrame by importance scores in descending order
feature_importance_df = feature_importance_df.sort_values(by='Importance', ascending=False)

# Display the top 10 most important features
print("Top 10 most important features:")
print(feature_importance_df.head(10))

# Plot the feature importances
plt.figure(figsize=(12, 8))
sns.barplot(x='Importance', y='Feature', data=feature_importance_df.head(10))
plt.title('Top 10 Feature Importances')
plt.show()

In [None]:
from sklearn.metrics import roc_curve, auc

# Compute ROC curve and ROC area for each class
fpr, tpr, _ = roc_curve(y_test, y_pred)
roc_auc = auc(fpr, tpr)

# Plot ROC curve
plt.figure()
plt.plot(fpr, tpr, color='darkorange', lw=2, label='ROC curve (area = %0.2f)' % roc_auc)
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic')
plt.legend(loc="lower right")
plt.show()

In [None]:
from sklearn.metrics import precision_score, recall_score, f1_score

# Calculate precision, recall, and F1-score
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)

# Print the results
print(f"Precision: {precision:.2f}")
print(f"Recall: {recall:.2f}")
print(f"F1-score: {f1:.2f}")

In [None]:
data.info()

In [None]:
X=data.drop(['is_canceled', 'reservation_status'], axis=1)
#'company', 'agent','name','email','phone-number','credit_card', 'reservation_status_date'
Y=data['is_canceled']

In [None]:

bestk=alg.determine_best_K(X, Y)

In [None]:
# Check for unique values
unique_values = data.nunique()
print(unique_values)

In [None]:
k_equals2=alg.knn_function(X, Y, 3)
k_equals4=alg.knn_function(X, Y, 5)
k_equals6=alg.knn_function(X, Y, 7)

In [None]:
crossval_knn5=alg.crossValidation_knn(X, Y, 5, 5)
crossval_knn10=alg.crossValidation_knn(X, Y, 10, 5)

In [None]:
import xgboost 
import lightgbm 
import os
os.environ['TF_CPP_MIN_LOG_LEVEL'] = '2'
import tensorflow as tf
import warnings
warnings.filterwarnings('ignore')
from keras.models import Sequential
from keras.layers import Dense
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
from sklearn.metrics import accuracy_score


# Define function to create the MLP network
def nnetClassif(inputDim, optimizer, neurons):
    # Initialize the Sequential model
    model = Sequential()
    
    # Input layer + hidden layer
    model.add(Dense(units=neurons, 
                    input_dim=inputDim, 
                    kernel_initializer='uniform', 
                    activation='relu'))
    
    # Second hidden layer
    model.add(Dense(units=neurons, 
                    kernel_initializer='uniform', 
                    activation='relu'))
    
    # Output layer
    model.add(Dense(units=1, 
                    kernel_initializer='uniform', 
                    activation='sigmoid'))
    
    # Compile the model
    model.compile(optimizer=optimizer, 
                  loss='binary_crossentropy', 
                  metrics=['accuracy'])
    
    return model

X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=42)

# Scale data using MinMaxScaler
scaler = MinMaxScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Initialize model
input_dim = X_train_scaled.shape[1]  # Number of features in input layer
optimizer = 'adam'  # Example optimizer
neurons = 10  # Number of neurons in each hidden layer

model = nnetClassif(inputDim=input_dim, optimizer=optimizer, neurons=neurons)

# Train model
model.fit(X_train_scaled, y_train, epochs=50, batch_size=10, verbose=1)

# Evaluate the model
y_pred = (model.predict(X_test_scaled) > 0.5).astype("int32")
accuracy = accuracy_score(y_test, y_pred)

print(f"Model accuracy: {accuracy * 100:.2f}%")