<a target="_blank" href="https://colab.research.google.com/github/paulotguerra/QXD0178/blob/main/01.E0-Exercicio-Classificacao-de-dados.ipynb">
  <img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/>
</a>

## QXD0178 - Mineração de Dados
# Preparação da base de dados

**Professor:** Paulo de Tarso Guerra Oliveira ([paulodetarso@ufc.br](mailto:paulodetarso@ufc.br))


# Lista de Exercícios: Classificação de dados

Nesta lista de exercícios, você explorará a aplicação de métodos de aprendizado de máquina para realizar tarefas de classificação de dados. Você usará a base de dados [Food choices: College students' food and cooking preferences](https://www.kaggle.com/datasets/borapajo/food-choices?select=food_coded.csv) e avaliará vários algoritmos de classificação para determinar sua eficácia. O objetivo é entender como diferentes métodos de aprendizado de máquina se comportam em relação à acurácia na classificação de dados.

O exercício será dividido em várias etapas:

1. **Pré-processamento dos dados:**
   - Descreva brevemente o conjunto de dados   
   - Limpe o conjunto de dados, tratando valores ausentes, removendo duplicatas e realizando transformações necessárias. 
   - Caso você use os dados pré-processados na lista anterior, faça um breve descritivo dos principais ajustes.
   - Codifique variáveis categóricas, se necessário, para que possam ser utilizadas em algoritmos de aprendizado de máquina.
   - Cria a coluna `self_perception_overweight` com valor: `True` se a coluna `self_perception_weight` tem valor 4 ou 5; e `False`, caso contrário.
   - Remova a coluna `self_perception_weight` do conjunto de dados.
2. **Divisão do conjunto de dados:**
   - Divida o conjunto de dados em um conjunto de treinamento e um conjunto de teste para avaliar o desempenho dos algoritmos. 
   - O mesmo conjunto de teste deve ser usado por todos os algoritmos analizados e nenhum dado deste pode ser usado na fase de treinamento.
   - O atributo alvo (*rótulo*) da classificação será o campo `self_perception_overweight`.   
3. **Seleção de algoritmos de classificação:**
   - Selecione uma variedade de algoritmos de aprendizado de máquina para testar na tarefa de classificação.   
   - Sua seleção deve conter, no mínimo, os seguintes métodos: Naive Bayes, k-Nearest Neighbors, Support Vector Machine (Linear/RBF), Decision Trees, Random Forest, Multilayer Perceptron.
   - Descreva brevemente como funciona cada algoritmo selecionado.
4. **Treinamento e avaliação:**
   - Treine os algoritmos de classificação usando todo o conjunto de treinamento. 
   - Avalie o desempenho de cada algoritmo no conjunto de teste usando métricas como acurácia, precisão, recall e F1-score.
   - Repita a análise treinando os algoritmos com validação cruzada.
   - Repita a análise realizando ajuste de hiperparâmetros.
5. **Análise dos resultados:**
   - Prepare um texto que descreva os resultados obtidos e faça uma análise crítica destes resultados.
   - Compare o desempenho dos diferentes algoritmos e explique por que alguns apresentaram resultados mais adequados que outros.
   
Documente todas as etapas em um arquivo Jupyter Notebook (`.ipynb`) que inclua as análises, o código e as justificativas. Lembre-se de que é fundamental justificar todas as decisões tomadas ao longo do processo e documentar as análises de forma clara e concisa. Este trabalho tem como objetivo proporcionar uma compreensão prática da seleção e avaliação de algoritmos de classificação em cenários de aprendizado supervisionado.

Envie seu Jupyter Notebook até a data de entrega especificada nesta tarefa.

## Solução


### Pré-processamento dos dados

### Descrição da base de dados

A base de dados consiste em um conjunto de dados que coleta informações sobre as escolhas alimentares e preferências culinárias de estudantes universitários. A base de dados inclui informações desde dados demográficos como sexo e renda, passando por dados relacionados a preferências alimentares como comida favorita, estimativa de quantas calorias possui determinado elemento e etc. As colunas presentes na base de dados são: 'GPA', 'Gender', 'breakfast', 'calories_chicken', 'calories_day','calories_scone', 'coffee', 'comfort_food', 'comfort_food_reasons', 'comfort_food_reasons_coded', 'cook', 'comfort_food_reasons_coded.1', 'cuisine', 'diet_current', 'diet_current_coded', 'drink', 'eating_changes', 'eating_changes_coded', 'eating_changes_coded1', 'eating_out', 'employment', 'ethnic_food', 'exercise', 'father_education', 'father_profession', 'fav_cuisine', 'fav_cuisine_coded', 'fav_food', 'food_childhood', 'fries', 'fruit_day', 'grade_level', 'greek_food', 'healthy_feeling', 'healthy_meal', 'ideal_diet', 'ideal_diet_coded', 'income', 'indian_food', 'italian_food', 'life_rewarding', 'marital_status', 'meals_dinner_friend', 'mother_education', 'mother_profession', 'nutritional_check', 'on_off_campus', 'parents_cook', 'pay_meal_out', 'persian_food', 'self_perception_weight', 'soup', 'sports', 'thai_food', 'tortilla_calories', 'turkey_calories', 'type_sports', 'veggies_day', 'vitamins', 'waffle_calories', 'weight'

### Limpeza da base de dados
Foi realizado a substituição de valores NaN e alguns que não faziam sentido no contexto da coluna localizada na base de dados para valores que fizessem sentido e não gerasse resultados muito tendenciosos. No caso de valores númericos, foram utilizadas estratégias como, por exemplo, a substituição por valores de média e moda. Em valores de string, foram substituídos NaN por uma única constante 'none', considerada como valor vazio. Além disso, para outras strings que não faziam sentido dentro de seu contexto como 'personal' onde esperava-se um resultado, usar outra unidade de peso etc. foi implementado mais uma vez o valor none. Por último, também houve a exclusão de linhas inteiras cujo a maioria dos valores ou até todos eles eram NaN.

In [1]:
import numpy as np 
import pandas as pd

df = pd.read_csv("https://raw.githubusercontent.com/She-Codes-Now/Intro-to-Data-Science-with-R/master/food_coded.csv")
df
df['soup'].fillna(df['soup'].mode()[0], inplace=True)
df['sports'].fillna(df['sports'].mode()[0], inplace=True)
media = df['calories_day'].mean()
media_rounded = round(media,1)
df['calories_day'].fillna(media_rounded, inplace=True)
df['tortilla_calories'].fillna(df['tortilla_calories'].mode()[0], inplace=True)
df['calories_scone'].fillna(df['calories_scone'].mode()[0], inplace=True)
del df['comfort_food_reasons_coded']
df.rename(columns={'comfort_food_reasons_coded.1': 'comfort_food_reasons_coded'}, inplace=True)
media = df['cook'].mean()
media_rounded = round(media,0)
df['cook'].fillna(media_rounded, inplace=True)
df['cuisine'].fillna(df['cuisine'].mode()[0], inplace=True)
media = df['drink'].mean()
media_rounded = round(media,0)
df['drink'].fillna(media_rounded, inplace=True)
media = df['employment'].mean()
media_rounded = round(media,0)
df['employment'].fillna(media_rounded, inplace=True)
media = df['exercise'].mean()
media_rounded = round(media,0)
df['exercise'].fillna(media_rounded, inplace=True)
media = df['father_education'].mean()
media_rounded = round(media,0)
df['father_education'].fillna(media_rounded, inplace=True)
df['fav_food'].fillna(df['fav_food'].mode()[0], inplace=True)
media = df['income'].mean()
media_rounded = round(media,0)
df['income'].fillna(media_rounded, inplace=True)
media = df['life_rewarding'].mean()
media_rounded = round(media,0)
df['life_rewarding'].fillna(media_rounded, inplace=True)
mode = df['marital_status'].mode()[0]
df['marital_status'].fillna(mode, inplace=True)
df.at[74, 'marital_status'] = mode
media = df['mother_education'].mean()
media_rounded = round(media,0)
df['mother_education'].fillna(media_rounded, inplace=True)
df['on_off_campus'].fillna(df['on_off_campus'].mode()[0], inplace=True)
media = df['persian_food'].mean()
media_rounded = round(media,0)
df['persian_food'].fillna(media_rounded, inplace=True)
media = df['self_perception_weight'].mean()
media_rounded = round(media,0)
df['self_perception_weight'].fillna(media_rounded, inplace=True)
df.at[2, 'weight'] = np.nan
df['weight'] = df['weight'].str.extract('(\d+)').astype(float)
media = df['weight'].mean()
media_rounded = round(media,0)
df.at[2, 'weight'] = media_rounded
df['weight'].fillna(media_rounded, inplace=True)
df.at[61, 'GPA'] = np.nan
df.at[104, 'GPA'] = np.nan
df['GPA'] = df['GPA'].str.extract('(\d+)').astype(float)
media = df['GPA'].mean()
df['GPA'].fillna(media, inplace=True)
df = df.drop(74).reset_index(drop=True)
df['eating_changes'].fillna('none', inplace=True)
df['father_profession'].fillna('none', inplace=True)
df['meals_dinner_friend'].fillna('none', inplace=True)
df['mother_profession'].fillna('none', inplace=True)
df['type_sports'].fillna('none', inplace=True)

### Remocao de dados abertos

In [2]:
df.drop('comfort_food', axis=1, inplace=True)
df.drop('comfort_food_reasons', axis=1, inplace=True)
df.drop('diet_current', axis=1, inplace=True)
df.drop('eating_changes', axis=1, inplace=True)
df.drop('father_profession', axis=1, inplace=True)
df.drop('fav_cuisine', axis=1, inplace=True)
df.drop('food_childhood', axis=1, inplace=True)
df.drop('healthy_meal', axis=1, inplace=True)
df.drop('ideal_diet', axis=1, inplace=True)
df.drop('meals_dinner_friend', axis=1, inplace=True)
df.drop('mother_profession', axis=1, inplace=True)
df.drop('type_sports', axis=1, inplace=True)

### Criando a coluna self_perception_overweight removendo a self_perception_weight

In [3]:
df['self_perception_overweight'] = (df['self_perception_weight'] == 4.0) | (df['self_perception_weight'] == 5.0)
df.drop('self_perception_weight', axis=1, inplace=True)

### Divisão do conjunto de dados

In [5]:
from sklearn.model_selection import train_test_split
y = df['self_perception_overweight']
X = df.drop(columns=['self_perception_overweight'])
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=1)

### Seleção de algoritmos de classificação

### Seleção e descrição dos algoritmos selecionados

#### Naive Bayes
Algoritmo probabilístico que se baseia no teorema de Bayes para realizar tarefas de classificação. Ele assume que as caracteristicas de um determinado dado são independentes umas das outras. É rotineiramente usado para classificar dados de diversos tipos, como numéricos, categóricos e mistos.
####  K-Nearest Neighbors
Algoritmo que classifica uma nova observação com base nas observações mais próximas dela no espaço de atributos. Esse número de observações sendo especificado pelo hiperparâmetro K.
#### Support Vector Machine
Algoritmo que consiste em encontrar um hiperplano de separação ótimo entre duas classes em um espaço de atributos. É amplamente utilizado em tarefas de classificação binária, onde o objetivo é separar as observações em duas classes distintas.
#### Decision Tree
Algoritmo que classifica dados criando uma árvore de decisão. A árvore é construída dividindo o conjunto de dados em subconjuntos cada vez menores, com base nos valores das características. 
#### Random Forest
Algoritmo que combina várias árvores de decisão. Isso ajuda o modelo a generalizar melhor para dados novos, reduzindo o risco de sobreajuste
####  Multilayer Perceptron
Algoritmo que usa uma rede neural artificial para classificar dados. Essa rede neural é composta por várias camadas de neurônios, que são conectados uns aos outros por pesos. A rede neural aprende a classificar dados ajustando os pesos dos neurônios.
#### Regressão Logística
Algoritmo que classifica dados usando uma função logística. Tal função é uma função matemática que mapeia um intervalo de números reais para o intervalo ente 0 e 1.Para classificar uma nova observação, o algoritmo de regressão logística calcula a probabilidade de a observação pertencer a cada classe. A observação é então classificada na classe com a probabilidade mais alta.

### Treinamento e avaliação

#### Naive Bayes

In [6]:
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import cross_val_score
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

model = MultinomialNB()
model.fit(X_train, y_train)

y_pred = model.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)

precision = precision_score(y_test, y_pred)

recall = recall_score(y_test, y_pred)

f1 = f1_score(y_test, y_pred)

print("Acurácia:", accuracy)
print("Precisão:", precision)
print("Recall:", recall)
print("F1-Score:", f1)

Acurácia: 0.5
Precisão: 0.36363636363636365
Recall: 0.75
F1-Score: 0.48979591836734687


#### K-Nearest Neighbors 

In [7]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import cross_val_score
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

model = KNeighborsClassifier(n_neighbors=5) 
model.fit(X_train, y_train)

y_pred = model.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)

precision = precision_score(y_test, y_pred)

recall = recall_score(y_test, y_pred)

f1 = f1_score(y_test, y_pred)

print("Acurácia:", accuracy)
print("Precisão:", precision)
print("Recall:", recall)
print("F1-Score:", f1)

Acurácia: 0.62
Precisão: 0.3333333333333333
Recall: 0.1875
F1-Score: 0.24000000000000005


#### Support Vector Machine

In [49]:
from sklearn.svm import SVC
from sklearn.model_selection import cross_val_score
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

model = SVC(kernel='linear', C=1.0)
model.fit(X_train, y_train)

y_pred = model.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)

precision = precision_score(y_test, y_pred)

recall = recall_score(y_test, y_pred)

f1 = f1_score(y_test, y_pred)

print("Acurácia:", accuracy)
print("Precisão:", precision)
print("Recall:", recall)
print("F1-Score:", f1)

Acurácia: 0.68
Precisão: 0.5
Recall: 0.4375
F1-Score: 0.4666666666666667


#### Decision Tree

In [52]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

model = DecisionTreeClassifier(criterion='gini', max_depth=None)
model.fit(X_train, y_train)

y_pred = model.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)

precision = precision_score(y_test, y_pred)

recall = recall_score(y_test, y_pred)

f1 = f1_score(y_test, y_pred)

print("Acurácia:", accuracy)
print("Precisão:", precision)
print("Recall:", recall)
print("F1-Score:", f1)

Acurácia: 0.64
Precisão: 0.4166666666666667
Recall: 0.3125
F1-Score: 0.35714285714285715


#### Random Forest

In [54]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

model = RandomForestClassifier(n_estimators=100, max_depth=None)
model.fit(X_train, y_train)

y_pred = model.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)

precision = precision_score(y_test, y_pred)

recall = recall_score(y_test, y_pred)

f1 = f1_score(y_test, y_pred)

print("Acurácia:", accuracy)
print("Precisão:", precision)
print("Recall:", recall)
print("F1-Score:", f1)

Acurácia: 0.72
Precisão: 1.0
Recall: 0.125
F1-Score: 0.2222222222222222


####  Multilayer Perceptron

In [56]:
from sklearn.neural_network import MLPClassifier
from sklearn.model_selection import cross_val_score
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

model = MLPClassifier(hidden_layer_sizes=(100, 50), activation='relu', max_iter=1000)
model.fit(X_train, y_train)

y_pred = model.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)

precision = precision_score(y_test, y_pred)

recall = recall_score(y_test, y_pred)

f1 = f1_score(y_test, y_pred)

print("Acurácia:", accuracy)
print("Precisão:", precision)
print("Recall:", recall)
print("F1-Score:", f1)

Acurácia: 0.56
Precisão: 0.2857142857142857
Recall: 0.25
F1-Score: 0.26666666666666666


#### Regressão Logística

In [8]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_val_score
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

model = LogisticRegression(C=1.0, penalty='l2')
model.fit(X_train, y_train)

y_pred = model.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)

precision = precision_score(y_test, y_pred)

recall = recall_score(y_test, y_pred)

f1 = f1_score(y_test, y_pred)

print("Acurácia:", accuracy)
print("Precisão:", precision)
print("Recall:", recall)
print("F1-Score:", f1)

Acurácia: 0.64
Precisão: 0.42857142857142855
Recall: 0.375
F1-Score: 0.39999999999999997


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


### Validação Cruzada

#### Naive Bayes

In [None]:
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import cross_val_predict
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

model = MultinomialNB()
y_pred = cross_val_predict(model, X, y, cv=5)  

accuracy = accuracy_score(y, y_pred)
precision = precision_score(y, y_pred)
recall = recall_score(y, y_pred)
f1 = f1_score(y, y_pred)

print("Acurácia:", accuracy)
print("Precisão:", precision)
print("Recall:", recall)
print("F1-Score:", f1)

####  K-Nearest Neighbors

In [9]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import cross_val_predict
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

model = KNeighborsClassifier(n_neighbors=5)  

y_pred = cross_val_predict(model, X, y, cv=5)

accuracy = accuracy_score(y, y_pred)
precision = precision_score(y, y_pred)
recall = recall_score(y, y_pred)
f1 = f1_score(y, y_pred)

print("Acurácia:", accuracy)
print("Precisão:", precision)
print("Recall:", recall)
print("F1-Score:", f1)

Acurácia: 0.6048387096774194
Precisão: 0.16666666666666666
Recall: 0.08108108108108109
F1-Score: 0.1090909090909091


#### Support Vector Machine

In [73]:
from sklearn.svm import SVC
from sklearn.model_selection import cross_val_predict
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

model = SVC(kernel='linear', C=1.0)

y_pred = cross_val_predict(model, X, y, cv=5)

accuracy = accuracy_score(y, y_pred)
precision = precision_score(y, y_pred)
recall = recall_score(y, y_pred)
f1 = f1_score(y, y_pred)

print("Acurácia:", accuracy)
print("Precisão:", precision)
print("Recall:", recall)
print("F1-Score:", f1)

Acurácia: 0.6290322580645161
Precisão: 0.38461538461538464
Recall: 0.40540540540540543
F1-Score: 0.39473684210526316


#### Decision Tree

In [74]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_predict
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

model = DecisionTreeClassifier(criterion='gini', max_depth=None) 

y_pred = cross_val_predict(model, X, y, cv=5)

accuracy = accuracy_score(y, y_pred)
precision = precision_score(y, y_pred)
recall = recall_score(y, y_pred)
f1 = f1_score(y, y_pred)

print("Acurácia:", accuracy)
print("Precisão:", precision)
print("Recall:", recall)
print("F1-Score:", f1)

Acurácia: 0.6693548387096774
Precisão: 0.4375
Recall: 0.3783783783783784
F1-Score: 0.40579710144927533


#### Random Forest

In [75]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_predict
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

model = RandomForestClassifier(n_estimators=100, criterion='gini', max_depth=None)

y_pred = cross_val_predict(model, X, y, cv=5)  

accuracy = accuracy_score(y, y_pred)
precision = precision_score(y, y_pred)
recall = recall_score(y, y_pred)
f1 = f1_score(y, y_pred)

print("Acurácia:", accuracy)
print("Precisão:", precision)
print("Recall:", recall)
print("F1-Score:", f1)

Acurácia: 0.6854838709677419
Precisão: 0.25
Recall: 0.02702702702702703
F1-Score: 0.04878048780487805


####  Multilayer Perceptron

In [76]:
from sklearn.neural_network import MLPClassifier
from sklearn.model_selection import cross_val_predict
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

model = MLPClassifier(hidden_layer_sizes=(100, 50), activation='relu', max_iter=1000)  

y_pred = cross_val_predict(model, X, y, cv=5)

accuracy = accuracy_score(y, y_pred)
precision = precision_score(y, y_pred)
recall = recall_score(y, y_pred)
f1 = f1_score(y, y_pred)

print("Acurácia:", accuracy)
print("Precisão:", precision)
print("Recall:", recall)
print("F1-Score:", f1)



Acurácia: 0.6209677419354839
Precisão: 0.2727272727272727
Recall: 0.16216216216216217
F1-Score: 0.20338983050847456


#### Regressão Logística

In [77]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_val_predict
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

model = LogisticRegression(max_iter=1000, solver='lbfgs')

y_pred = cross_val_predict(model, X, y, cv=5)

accuracy = accuracy_score(y, y_pred)
precision = precision_score(y, y_pred)
recall = recall_score(y, y_pred)
f1 = f1_score(y, y_pred)

print("Acurácia:", accuracy)
print("Precisão:", precision)
print("Recall:", recall)
print("F1-Score:", f1)


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver opt

Acurácia: 0.6532258064516129
Precisão: 0.38461538461538464
Recall: 0.2702702702702703
F1-Score: 0.31746031746031744


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


### Modificando os hiperparâmetros

#### Naive Bayes

In [None]:
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import cross_val_score
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

model = MultinomialNB()
model.fit(X_train, y_train)

y_pred = model.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)

precision = precision_score(y_test, y_pred)

recall = recall_score(y_test, y_pred)

f1 = f1_score(y_test, y_pred)

print("Acurácia:", accuracy)
print("Precisão:", precision)
print("Recall:", recall)
print("F1-Score:", f1)

####  K-Nearest Neighbors

In [19]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import cross_val_score
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

model = KNeighborsClassifier(n_neighbors=15) 
model.fit(X_train, y_train)

y_pred = model.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)

precision = precision_score(y_test, y_pred)

recall = recall_score(y_test, y_pred)

f1 = f1_score(y_test, y_pred)

print("Acurácia:", accuracy)
print("Precisão:", precision)
print("Recall:", recall)
print("F1-Score:", f1)

Acurácia: 0.66
Precisão: 0.42857142857142855
Recall: 0.1875
F1-Score: 0.26086956521739124


#### Support Vector Machine

In [84]:
from sklearn.svm import SVC
from sklearn.model_selection import cross_val_score
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

# ajuste de hiperparametro C
model = SVC(kernel='linear', C=10.0)
model.fit(X_train, y_train)

y_pred = model.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)

precision = precision_score(y_test, y_pred)

recall = recall_score(y_test, y_pred)

f1 = f1_score(y_test, y_pred)

print("Acurácia:", accuracy)
print("Precisão:", precision)
print("Recall:", recall)
print("F1-Score:", f1)

Acurácia: 0.68
Precisão: 0.5
Recall: 0.4375
F1-Score: 0.4666666666666667


#### Decision Tree

In [85]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

model = DecisionTreeClassifier(criterion='entropy', max_depth=5)
model.fit(X_train, y_train)

y_pred = model.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)

precision = precision_score(y_test, y_pred)

recall = recall_score(y_test, y_pred)

f1 = f1_score(y_test, y_pred)

print("Acurácia:", accuracy)
print("Precisão:", precision)
print("Recall:", recall)
print("F1-Score:", f1)

Acurácia: 0.68
Precisão: 0.5
Recall: 0.4375
F1-Score: 0.4666666666666667


#### Random Forest

In [87]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

model = RandomForestClassifier(n_estimators=200, max_depth=None)
model.fit(X_train, y_train)

y_pred = model.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)

precision = precision_score(y_test, y_pred)

recall = recall_score(y_test, y_pred)

f1 = f1_score(y_test, y_pred)

print("Acurácia:", accuracy)
print("Precisão:", precision)
print("Recall:", recall)
print("F1-Score:", f1)

Acurácia: 0.7
Precisão: 1.0
Recall: 0.0625
F1-Score: 0.11764705882352941


####  Multilayer Perceptron

In [88]:
from sklearn.neural_network import MLPClassifier
from sklearn.model_selection import cross_val_score
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

model = MLPClassifier(hidden_layer_sizes=(150, 75), activation='relu', max_iter=1000)
model.fit(X_train, y_train)

y_pred = model.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)

precision = precision_score(y_test, y_pred)

recall = recall_score(y_test, y_pred)

f1 = f1_score(y_test, y_pred)

print("Acurácia:", accuracy)
print("Precisão:", precision)
print("Recall:", recall)
print("F1-Score:", f1)

Acurácia: 0.64
Precisão: 0.25
Recall: 0.0625
F1-Score: 0.1


#### Regressão Logística

In [89]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_val_score
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

model = LogisticRegression(C=0.1, penalty='l2')
model.fit(X_train, y_train)

y_pred = model.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)

precision = precision_score(y_test, y_pred)

recall = recall_score(y_test, y_pred)

f1 = f1_score(y_test, y_pred)

print("Acurácia:", accuracy)
print("Precisão:", precision)
print("Recall:", recall)
print("F1-Score:", f1)

Acurácia: 0.64
Precisão: 0.375
Recall: 0.1875
F1-Score: 0.25


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


### Análise dos resultados

Ao executar as métricas de desempenho, obetivemos os seguintes resultados:
#### Naive Bayes:
Acurácia: 0.5
Precisão: 0.36363636363636365
Recall: 0.75
F1-Score: 0.48979591836734687
Como podemos ver, o Naive Bayes obteve uma alta taxa de recall, o que significa que ele se saiu bem em identificar positivos corretos, porém a acurácia e a precisão tiveram um desempenho relativamente baixo em comparação aos outros. Isso pode indicar que o modelo tem dificuldade em equilibrar falsos positivos e verdadeiros positivos.
#### K-Nearest Neighbors:
Acurácia: 0.62
Precisão: 0.3333333333333333
Recall: 0.1875
F1-Score: 0.24000000000000005
O KNN teve teve um desempenho geral moderado. Ele obteve uma acurácia que rivaliza com alguns dos mais bem colocados da lista, poém ou outros indicadores tiveram resultados relativamente baixos. O que indica que, embora o algoritmo tenha acertado uma boa parte das instâncias, ele ainda não lida muito bem com os falsos positivos e verdadeiros positivos.
#### Support Vector Machine:
Acurácia: 0.68
Precisão: 0.5
Recall: 0.4375
F1-Score: 0.4666666666666667
O SVM teve um desempenho moderado, com uma acurácia de e uma precisão de 0.5. Apesar a precisão ter sido razoável, o recall mais baixo indica que o modelo pode ter dificuldade em recuperar todos os positivos verdadeiros.
#### Decision Tree:
Acurácia: 0.64
Precisão: 0.4166666666666667
Recall: 0.3125
F1-Score: 0.35714285714285715
A decisionn tree obteve uma acurácia considerada intermediária em comparação com outros modelos. A precisão e o recall, no entanto, são relativamente baixos, o que sugere que o modelo pode ter problemas de equilíbrio entre falsos positivos e verdadeiros positivos.
#### Random Forest:
Acurácia: 0.72
Precisão: 1.0
Recall: 0.125
F1-Score: 0.2222222222222222
O Random Forest obteve a maior acurácia entre os modelos, mas sua precisão é muito alta e o recall é muito baixo. Isso indica que o modelo pode estar superajustado aos dados de treinamento, resultando em baixo recall e alta precisão.
#### Multilayer Perceptron:
Acurácia: 0.56
Precisão: 0.2857142857142857
Recall: 0.25
F1-Score: 0.26666666666666666
O Muktilayer Perceptron obteve uma acurácia relativamente baixa. Tanto a precisão quanto o recall são baixos, o que sugere que o modelo pode estar tendo dificuldades em equilibrar o compromisso entre falsos positivos e verdadeiros positivos. De uma maneira geral, ele foi um algoritmo que teve baixo desepenho entre os analisados.
#### Regressão Lógica:
Acurácia: 0.64
Precisão: 0.42857142857142855
Recall: 0.375
F1-Score: 0.39999999999999997
A regressão logística obteve uma acurácia razoável. A precisão e o recall estão em um nível intermediário. O modelo parece equilibrar melhor a precisão e o recall em comparação com alguns dos outros modelos, tendo perfomado como um dos mais equilibrados entre todos os presentes.

Ao compararmos a complexidade do Random Forest e do MLP, podemos ter uma boa noção do desempenho dos 2. Percebemos que os conjuntos de dados tinha uma boa quantidade de valores a se trabalhar para chegar à conclusão esperada. Sendo assim, a lógica do Random Forest pode ter trabalhado de maneira mais concisa ou até mais adequada frente à base de dados, enquanto a lógica do MLP pode ter se perdido na manipulação dos dados e garantido os valores baixos em recall e precisão.Relativo ao KNN, percebemos uma acurácia moderada enquanto todos os outros indicadores tiveram um desepenho relativamente baixo, o que pode ser justificado pela grande quantidade de características existentes na base de dados, resultando em uma distribuição desequilibrada das classes para o algoritmi trabalhar. A acurácia baixa do Naive Bayes pode ter se dado à simplicidade exarcebada do algoritmo. Isso, aliado à distribuição majoritariamente númerica do formato de dados (o que geralmente vai contra a natureza do algoritmo, que é mais utilizado para dados categóricos) pode indicar o porquê ele não conseguiu trabalhar muito bem os dados para chegar no resultado esperado. Já a regressão lógica, pode ter usado a sua simplicidade justamente para fornecer resultados mais consistentes entre si, gerando um conjunto geral de resultados equilibrados, mas não necessariamente priorizado os resultados corretos. No caso da Decision Tree, seu desempenho relativamente baixo pode ter sido dado ao fato dos conjuntos de dados terem muitos valores e não terem uma ligação direta entre si para chegar ao resultado esperado. De uma maneira geral, podemos ver que os diferente algoritmos de classificação são mais adequados em diferentes contextos. É necessário fazer uma análise e um estudo cuidadoso para saber qual é mais adequado frente à sua base de dados e o objetivo que você quer chegar.