In [1]:
import pandas as pd
import numpy as np

# 1.0 - Classificação

#### 1.0.1 - Métricas de Performance

Métricas de performance: 
- **Accuracy** - Mede a proporção de previsões corretas sobre o total de exemplos, mas pode ser enganosa em dados desbalanceados.
- **Precision** - Indica a proporção de previsões positivas que realmente são positivas, útil quando o custo de falsos positivos é alto.
- **Recall** - Mede a capacidade do modelo de encontrar todas as instâncias positivas, essencial quando falsos negativos são críticos.
- **F1-Score** - Média harmônica entre Precision e Recall, equilibrando os dois quando há necessidade de um compromisso entre eles.
 

In [2]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

####  1.0.2 - Importando Data de Classificação

In [3]:
#Importando dados de Treino
X_training = pd.read_csv( '../data/Classification/X_training.csv' )
y_training = pd.read_csv( '../data/Classification/y_training.csv' )

# Visualizando informações dos dados  de treino
print('Dados de Treino')
print("X_training shape:", X_training.shape)
print("y_training shape:", y_training.shape)


#Importando Dados de Validação
X_validation = pd.read_csv( '../data/Classification/X_validation.csv' )
y_validation = pd.read_csv( '../data/Classification/y_validation.csv' )

# Visualizando informações dos dados de validação
print('\nDados de Validação')
print("X_validation shape:", X_validation.shape)
print("y_valalidation shape:", y_validation.shape)


#Importando Dados de Teste
X_test = pd.read_csv( '../data/Classification/X_test.csv' )
y_test = pd.read_csv( '../data/Classification/y_test.csv' )

# Visualizando informações dos dados de teste
print('\nDados de Teste')
print("X_test shape:", X_test.shape)
print("y_test shape:", y_test.shape)

Dados de Treino
X_training shape: (72515, 25)
y_training shape: (72515, 1)

Dados de Validação
X_validation shape: (31079, 25)
y_valalidation shape: (31079, 1)

Dados de Teste
X_test shape: (25893, 25)
y_test shape: (25893, 1)


In [4]:
pd.set_option('display.max_columns', None)
display(X_training.head(1))
y_training.shape

Unnamed: 0,id,customer_type,age,class,flight_distance,inflight_wifi_service,departure_arrival_time_convenient,ease_of_online_booking,gate_location,food_and_drink,online_boarding,seat_comfort,inflight_entertainment,on_board_service,leg_room_service,baggage_handling,checkin_service,inflight_service,cleanliness,departure_delay_in_minutes,arrival_delay_in_minutes,gender_Female,gender_Male,type_of_travel_business_travel,type_of_travel_personal_travel
0,13508,1,0.5,0.0,0.03958,0.6,0.6,0.6,0.6,1.0,1.0,0.25,0.6,0.6,0.6,0.5,1.0,0.6,0.4,0.0,0.013848,1.0,0.0,1.0,0.0


(72515, 1)

## 1.1 - <u>KNN Classifier</u>

Hiperparâmetros:

- **n_neigbors** - Define a quantidade de vizinhos mais próximos considerados pelo KNN para classificar um novo ponto, influenciando a sensibilidade e a generalização do modelo.

#### Treinando o modelo KNN

In [5]:
from sklearn.neighbors import KNeighborsClassifier

n_neigh=5

# Converter y_training para NumPy e ajustar o formato
y_training_flat = y_training.to_numpy().ravel()

# Criar instância modelo KNN
knn_classifier = KNeighborsClassifier(n_neighbors=n_neigh)

# Treinar Modelo
knn_classifier.fit(X_training, y_training_flat)

#### Dados de Treino

In [6]:
# Fazer previsões de treino
y_pred = knn_classifier.predict(X_training)

# Cálculo das métricas
accuracy = accuracy_score(y_training, y_pred)
precision = precision_score(y_training, y_pred)
recall = recall_score(y_training, y_pred)
f1 = f1_score(y_training, y_pred)

# Criando uma nova linha com as métricas de validação
df_knn_class = pd.DataFrame({
    "Algoritmo": ["KNN Classifier"],
    "Etapa": ["Treino"],
    "Accuracy": [round(accuracy, 3)],
    "Precision": [round(precision, 3)],
    "Recall": [round(recall, 3)],
    "F1-Score": [round(f1, 3)]
})

# Exibir apenas a última linha inserida
df_knn_class.tail(1)

found 0 physical cores < 1
  File "C:\Users\thoma\AppData\Roaming\jupyterlab-desktop\jlab_server\Lib\site-packages\joblib\externals\loky\backend\context.py", line 282, in _count_physical_cores
    raise ValueError(f"found {cpu_count_physical} physical cores < 1")


Unnamed: 0,Algoritmo,Etapa,Accuracy,Precision,Recall,F1-Score
0,KNN Classifier,Treino,0.782,0.756,0.733,0.744


#### Dados de Validação

In [7]:
# Fazer previsões dados de teste
y_pred = knn_classifier.predict(X_validation)

# Cálculo das métricas
accuracy = accuracy_score(y_validation, y_pred)
precision = precision_score(y_validation, y_pred)
recall = recall_score(y_validation, y_pred)
f1 = f1_score(y_validation, y_pred)

# Criando uma nova linha com as métricas de validação
nova_linha = pd.DataFrame({
    "Algoritmo": ["KNN Classifier"],
    "Etapa": ["Validação"],
    "Accuracy": [round(accuracy, 3)],
    "Precision": [round(precision, 3)],
    "Recall": [round(recall, 3)],
    "F1-Score": [round(f1, 3)]
})

# Adicionar a nova linha ao DataFrame existente
df_knn_class = pd.concat([df_knn_class, nova_linha], ignore_index=True)

# Exibir apenas a última linha inserida
df_knn_class.tail(1)

Unnamed: 0,Algoritmo,Etapa,Accuracy,Precision,Recall,F1-Score
1,KNN Classifier,Validação,0.676,0.632,0.603,0.617


#### Dados de Testes

In [8]:
# Concatenar os dados de treino e teste
X_combined = pd.concat([X_training, X_validation], axis=0)
y_combined = pd.concat([y_training, y_validation], axis=0)

# Converter y_combined para NumPy e ajustar o formato
y_combined_flat  = y_combined.to_numpy().ravel()

# Retreinar o modelo KNN com os dados combinados
knn_classifier.fit(X_combined, y_combined_flat)


In [9]:
# Fazer previsões nos dados de validação
y_pred_validation = knn_classifier.predict(X_test)

# Cálculo das métricas
accuracy = accuracy_score(y_test, y_pred_validation)
precision = precision_score(y_test, y_pred_validation)
recall = recall_score(y_test, y_pred_validation)
f1 = f1_score(y_test, y_pred_validation)

# Criando uma nova linha com as métricas de validação
nova_linha = pd.DataFrame({
    "Algoritmo": ["KNN Classifier"],
    "Etapa": ["Teste"],
    "Accuracy": [round(accuracy, 3)],
    "Precision": [round(precision, 3)],
    "Recall": [round(recall, 3)],
    "F1-Score": [round(f1, 3)]
})

# Adicionar a nova linha ao DataFrame existente
df_knn_class = pd.concat([df_knn_class, nova_linha], ignore_index=True)

# Exibir apenas a última linha inserida
df_knn_class.tail(1)

Unnamed: 0,Algoritmo,Etapa,Accuracy,Precision,Recall,F1-Score
2,KNN Classifier,Teste,0.685,0.646,0.624,0.635


#### Resultado Final KNN Classifier

In [10]:
df_knn_class

Unnamed: 0,Algoritmo,Etapa,Accuracy,Precision,Recall,F1-Score
0,KNN Classifier,Treino,0.782,0.756,0.733,0.744
1,KNN Classifier,Validação,0.676,0.632,0.603,0.617
2,KNN Classifier,Teste,0.685,0.646,0.624,0.635


## 1.2 - <u>Decision Tree</u>

Hiperparâmetros:

- **max_depth** - Define a profundidade máxima da árvore de decisão, controlando o quanto o modelo pode se ramificar para separar os dados e influenciando o equilíbrio entre underfitting (menor profundidade) e overfitting (maior profuncidade).

#### Treinando Modelo Decision Tree

In [11]:
from sklearn import tree

max_depth = 31

#Criar Instância Decision Tree Calssifier
decision_tree_clf = tree.DecisionTreeClassifier(max_depth = max_depth)

# Treina  Modelo  
decision_tree_clf = decision_tree_clf.fit(X_training, y_training)

#### Dados de Treino

In [12]:
# Fazer previsões de treino
y_pred = decision_tree_clf.predict(X_training)

# Cálculo das métricas
accuracy = accuracy_score(y_training, y_pred)
precision = precision_score(y_training, y_pred)
recall = recall_score(y_training, y_pred)
f1 = f1_score(y_training, y_pred)

# Criando uma nova linha com as métricas de validação
df_decision_tree = pd.DataFrame({
    "Algoritmo": ["Decision Tree"],
    "Etapa": ["Treino"],
    "Accuracy": [round(accuracy, 3)],
    "Precision": [round(precision, 3)],
    "Recall": [round(recall, 3)],
    "F1-Score": [round(f1, 3)]
})

# Exibir apenas a última linha inserida
df_decision_tree.tail(1)

Unnamed: 0,Algoritmo,Etapa,Accuracy,Precision,Recall,F1-Score
0,Decision Tree,Treino,1.0,1.0,1.0,1.0


#### Dados de Validação

In [13]:
# Fazer previsões dados de teste
y_pred = decision_tree_clf.predict(X_validation)

# Cálculo das métricas
accuracy = accuracy_score(y_validation, y_pred)
precision = precision_score(y_validation, y_pred)
recall = recall_score(y_validation, y_pred)
f1 = f1_score(y_validation, y_pred)

# Criando uma nova linha com as métricas de validação
nova_linha = pd.DataFrame({
    "Algoritmo": ["Decision Tree"],
    "Etapa": ["Validação"],
    "Accuracy": [round(accuracy, 3)],
    "Precision": [round(precision, 3)],
    "Recall": [round(recall, 3)],
    "F1-Score": [round(f1, 3)]
})

# Adicionar a nova linha ao DataFrame existente
df_decision_tree = pd.concat([df_decision_tree, nova_linha], ignore_index=True)

# Exibir apenas a última linha inserida
df_decision_tree.tail(1)

Unnamed: 0,Algoritmo,Etapa,Accuracy,Precision,Recall,F1-Score
1,Decision Tree,Validação,0.946,0.937,0.939,0.938


#### Dados de Teste

In [14]:
# Retreina o Modelo com dados combinados
decision_tree_clf = decision_tree_clf.fit(X_combined, y_combined)

In [15]:
# Fazer previsões nos dados de validação
y_pred_validation = decision_tree_clf.predict(X_test)

# Cálculo das métricas
accuracy = accuracy_score(y_test, y_pred_validation)
precision = precision_score(y_test, y_pred_validation)
recall = recall_score(y_test, y_pred_validation)
f1 = f1_score(y_test, y_pred_validation)

# Criando uma nova linha com as métricas de validação
nova_linha = pd.DataFrame({
    "Algoritmo": ["Decision Tree"],
    "Etapa": ["Teste"],
    "Accuracy": [round(accuracy, 3)],
    "Precision": [round(precision, 3)],
    "Recall": [round(recall, 3)],
    "F1-Score": [round(f1, 3)]
})

# Adicionar a nova linha ao DataFrame existente
df_decision_tree = pd.concat([df_decision_tree, nova_linha], ignore_index=True)

# Exibir apenas a última linha inserida
df_decision_tree.tail(1)

Unnamed: 0,Algoritmo,Etapa,Accuracy,Precision,Recall,F1-Score
2,Decision Tree,Teste,0.947,0.938,0.94,0.939


#### Resultado Final Decision Tree Classifier

In [16]:
df_decision_tree

Unnamed: 0,Algoritmo,Etapa,Accuracy,Precision,Recall,F1-Score
0,Decision Tree,Treino,1.0,1.0,1.0,1.0
1,Decision Tree,Validação,0.946,0.937,0.939,0.938
2,Decision Tree,Teste,0.947,0.938,0.94,0.939


## 1.3 - <u>Random Forest Classifier</u>

Hiperparâmetros: 
- **n_estimators** - Define o número de árvores na floresta, influenciando a estabilidade e a precisão do modelo. Mais árvores geralmente melhoram o desempenho, mas aumentam o custo computacional.
- **max_depth** - Define a profundidade máxima da árvore de decisão, controlando o quanto o modelo pode se ramificar para separar os dados e influenciando o equilíbrio entre underfitting (menor profundidade) e overfitting (maior profuncidade).

#### Treinando Modelo Radom Forest Classifier

In [17]:
#Importar Algorítimo
from sklearn.ensemble import RandomForestClassifier

# Definindo valores dos
n_estimators = 55
max_depth = 55

# Converter y_training para NumPy e ajustar o formato
y_training_flat = y_training.to_numpy().ravel()

#Criar Instância Ramdon Forest Calssifier
radom_forest_clf = RandomForestClassifier(n_estimators=n_estimators, max_depth=max_depth)

# Treina  Modelo  
radom_forest_clf = radom_forest_clf.fit(X_training, y_training_flat)

#### Dados de Treino

In [18]:
# Fazer previsões de treino
y_pred = radom_forest_clf.predict(X_training)

# Cálculo das métricas
accuracy = accuracy_score(y_training, y_pred)
precision = precision_score(y_training, y_pred)
recall = recall_score(y_training, y_pred)
f1 = f1_score(y_training, y_pred)

# Criando uma nova linha com as métricas de validação
df_rf_clf = pd.DataFrame({
    "Algoritmo": ["Radom Forest Classifier"],
    "Etapa": ["Treino"],
    "Accuracy": [round(accuracy, 3)],
    "Precision": [round(precision, 3)],
    "Recall": [round(recall, 3)],
    "F1-Score": [round(f1, 3)]
})

# Exibir apenas a última linha inserida
df_rf_clf.tail(1)

Unnamed: 0,Algoritmo,Etapa,Accuracy,Precision,Recall,F1-Score
0,Radom Forest Classifier,Treino,1.0,1.0,1.0,1.0


#### Dados de Validação

In [19]:
# Fazer previsões de Validação
y_pred = radom_forest_clf.predict(X_validation)

# Cálculo das métricas
accuracy = accuracy_score(y_validation, y_pred)
precision = precision_score(y_validation, y_pred)
recall = recall_score(y_validation, y_pred)
f1 = f1_score(y_validation, y_pred)

# Criando uma nova linha com as métricas de validação
nova_linha = pd.DataFrame({
    "Algoritmo": ["Radom Forest Classifier"],
    "Etapa": ["Validação"],
    "Accuracy": [round(accuracy, 3)],
    "Precision": [round(precision, 3)],
    "Recall": [round(recall, 3)],
    "F1-Score": [round(f1, 3)]
})

# Adicionar a nova linha ao DataFrame existente
df_rf_clf = pd.concat([df_rf_clf, nova_linha], ignore_index=True)

# Exibir apenas a última linha inserida
df_rf_clf.tail(1)

Unnamed: 0,Algoritmo,Etapa,Accuracy,Precision,Recall,F1-Score
1,Radom Forest Classifier,Validação,0.964,0.973,0.943,0.958


#### Dados de Teste

In [20]:
# Retreinar o Modelo com os dados Combinados  
radom_forest_clf = radom_forest_clf.fit(X_combined, y_combined_flat)

In [21]:
# Fazer previsões de Teste
y_pred = radom_forest_clf.predict(X_test)

# Cálculo das métricas
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)

# Criando uma nova linha com as métricas de validação
nova_linha = pd.DataFrame({
    "Algoritmo": ["Radom Forest Classifier"],
    "Etapa": ["Teste"],
    "Accuracy": [round(accuracy, 3)],
    "Precision": [round(precision, 3)],
    "Recall": [round(recall, 3)],
    "F1-Score": [round(f1, 3)]
})

# Adicionar a nova linha ao DataFrame existente
df_rf_clf = pd.concat([df_rf_clf, nova_linha], ignore_index=True)

# Exibir apenas a última linha inserida
df_rf_clf.tail(1)

Unnamed: 0,Algoritmo,Etapa,Accuracy,Precision,Recall,F1-Score
2,Radom Forest Classifier,Teste,0.965,0.973,0.947,0.96


#### Resultado Final Radom Forest Classifier

In [22]:
df_rf_clf

Unnamed: 0,Algoritmo,Etapa,Accuracy,Precision,Recall,F1-Score
0,Radom Forest Classifier,Treino,1.0,1.0,1.0,1.0
1,Radom Forest Classifier,Validação,0.964,0.973,0.943,0.958
2,Radom Forest Classifier,Teste,0.965,0.973,0.947,0.96


## 1.4 - <u>Logistic Regression</u>

Hiperparâmetros:
- **C** - Controla a regularização da regressão logística, onde valores menores aumentam a penalização e reduzem o overfitting, enquanto valores maiores permitem um melhor ajuste aos dados.
- **solver** - Define o algoritmo de otimização usado para encontrar os coeficientes do modelo, com opções como "lbfgs" (padrão), "saga" (para grandes conjuntos de dados) e "liblinear" (para regressão logística binária).
- **max_iter** - Especifica o número máximo de iterações do algoritmo de otimização, sendo útil para garantir a convergência do modelo em dados complexos.

#### Treinando Modelo Logistic Regression

In [23]:
# Importar a classe LogisticRegression
from sklearn.linear_model import LogisticRegression

# Definir os parâmetros
C = 2.0          
solver = 'liblinear'  
max_iter = 100  

# Criar uma instância do modelo
logreg = LogisticRegression(C=C, solver=solver, max_iter=max_iter)

# Treinar o modelo com os dados de treinamento (X_training e y_training)
logreg = logreg.fit(X_training, y_training_flat)

#### Dados de Treino

In [24]:
# Fazer previsões de treino
y_pred = logreg.predict(X_training)

# Cálculo das métricas
accuracy = accuracy_score(y_training, y_pred)
precision = precision_score(y_training, y_pred)
recall = recall_score(y_training, y_pred)
f1 = f1_score(y_training, y_pred)

# Criando uma nova linha com as métricas de validação
df_log_reg = pd.DataFrame({
    "Algoritmo": ["Logistic Regression"],
    "Etapa": ["Treino"],
    "Accuracy": [round(accuracy, 3)],
    "Precision": [round(precision, 3)],
    "Recall": [round(recall, 3)],
    "F1-Score": [round(f1, 3)]
})

# Exibir apenas a última linha inserida
df_log_reg.tail(1)

Unnamed: 0,Algoritmo,Etapa,Accuracy,Precision,Recall,F1-Score
0,Logistic Regression,Treino,0.793,0.729,0.831,0.777


#### Dados de Validação

In [25]:
# Fazer previsões de Validação
y_pred = logreg.predict(X_validation)

# Cálculo das métricas
accuracy = accuracy_score(y_validation, y_pred)
precision = precision_score(y_validation, y_pred)
recall = recall_score(y_validation, y_pred)
f1 = f1_score(y_validation, y_pred)

# Criando uma nova linha com as métricas de validação
nova_linha = pd.DataFrame({
    "Algoritmo": ["Logistic Regression"],
    "Etapa": ["Validação"],
    "Accuracy": [round(accuracy, 3)],
    "Precision": [round(precision, 3)],
    "Recall": [round(recall, 3)],
    "F1-Score": [round(f1, 3)]
})

# Adicionar a nova linha ao DataFrame existente
df_log_reg = pd.concat([df_log_reg, nova_linha], ignore_index=True)

# Exibir apenas a última linha inserida
df_log_reg.tail(1)

Unnamed: 0,Algoritmo,Etapa,Accuracy,Precision,Recall,F1-Score
1,Logistic Regression,Validação,0.794,0.731,0.831,0.778


#### Dados de Teste

In [26]:
# Definir os parâmetros
C = 2.0          
solver = 'liblinear'  
max_iter = 100  

# Criar uma instância do modelo
logreg = LogisticRegression(C=C, solver=solver, max_iter=max_iter)

# Treinar o modelo com os dados de treinamento (X_training e y_training)
logreg = logreg.fit(X_combined, y_combined_flat)

In [27]:
# Fazer previsões de Validação
y_pred = logreg.predict(X_test)

# Cálculo das métricas
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)

# Criando uma nova linha com as métricas de validação
nova_linha = pd.DataFrame({
    "Algoritmo": ["Logistic Regression"],
    "Etapa": ["Teste"],
    "Accuracy": [round(accuracy, 3)],
    "Precision": [round(precision, 3)],
    "Recall": [round(recall, 3)],
    "F1-Score": [round(f1, 3)]
})

# Adicionar a nova linha ao DataFrame existente
df_log_reg = pd.concat([df_log_reg, nova_linha], ignore_index=True)

# Exibir apenas a última linha inserida
df_log_reg.tail(1)

Unnamed: 0,Algoritmo,Etapa,Accuracy,Precision,Recall,F1-Score
2,Logistic Regression,Teste,0.641,0.63,0.443,0.52


#### Resultado Final Logistic Regression

In [28]:
df_log_reg

Unnamed: 0,Algoritmo,Etapa,Accuracy,Precision,Recall,F1-Score
0,Logistic Regression,Treino,0.793,0.729,0.831,0.777
1,Logistic Regression,Validação,0.794,0.731,0.831,0.778
2,Logistic Regression,Teste,0.641,0.63,0.443,0.52


## 1.5 - <u>Resultado Final Classificação</u>

In [29]:
# Juntar os 4 DataFrames em um único
df_classification = pd.concat([df_knn_class, df_decision_tree, df_rf_clf, df_log_reg], ignore_index=True)

# Criar DataFrames separados por etapa
df_classification_train = df_classification.query("Etapa == 'Treino'").drop(columns=["Etapa"])
df_classification_val = df_classification.query("Etapa == 'Validação'").drop(columns=["Etapa"])
df_classification_test = df_classification.query("Etapa == 'Teste'").drop(columns=["Etapa"])

# Exibir os DataFrames criados
print('Dados de Treino:')
display(df_classification_train)
print('\nDados de Validação:')
display(df_classification_val)
print('\nDados de Tete:')
display(df_classification_test)

Dados de Treino:


Unnamed: 0,Algoritmo,Accuracy,Precision,Recall,F1-Score
0,KNN Classifier,0.782,0.756,0.733,0.744
3,Decision Tree,1.0,1.0,1.0,1.0
6,Radom Forest Classifier,1.0,1.0,1.0,1.0
9,Logistic Regression,0.793,0.729,0.831,0.777



Dados de Validação:


Unnamed: 0,Algoritmo,Accuracy,Precision,Recall,F1-Score
1,KNN Classifier,0.676,0.632,0.603,0.617
4,Decision Tree,0.946,0.937,0.939,0.938
7,Radom Forest Classifier,0.964,0.973,0.943,0.958
10,Logistic Regression,0.794,0.731,0.831,0.778



Dados de Tete:


Unnamed: 0,Algoritmo,Accuracy,Precision,Recall,F1-Score
2,KNN Classifier,0.685,0.646,0.624,0.635
5,Decision Tree,0.947,0.938,0.94,0.939
8,Radom Forest Classifier,0.965,0.973,0.947,0.96
11,Logistic Regression,0.641,0.63,0.443,0.52
