<a target="_blank" href="https://colab.research.google.com/github/paulotguerra/QXD0178/blob/main/02.E0-Exercicio-Classificacao-de-dados.ipynb">
  <img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/>
</a>

## QXD0178 - Mineração de Dados
# Classificação de dados

**Professor:** Paulo de Tarso Guerra Oliveira ([paulodetarso@ufc.br](mailto:paulodetarso@ufc.br))


# Lista de Exercícios: Classificação de dados

Nesta lista de exercícios, você explorará a aplicação de métodos de aprendizado de máquina para realizar tarefas de classificação de dados. Você usará a base de dados [Food choices: College students' food and cooking preferences](https://www.kaggle.com/datasets/borapajo/food-choices?select=food_coded.csv) e avaliará vários algoritmos de classificação para determinar sua eficácia. O objetivo é entender como diferentes métodos de aprendizado de máquina se comportam em relação à acurácia na classificação de dados.

O exercício será dividido em várias etapas:

1. **Pré-processamento dos dados:**
   - Descreva brevemente o conjunto de dados   
   - Limpe o conjunto de dados, tratando valores ausentes, removendo duplicatas e realizando transformações necessárias. 
   - Caso você use os dados pré-processados na lista anterior, faça um breve descritivo dos principais ajustes.
   - Codifique variáveis categóricas, se necessário, para que possam ser utilizadas em algoritmos de aprendizado de máquina.
   - Cria a coluna `self_perception_overweight` com valor: `True` se a coluna `self_perception_weight` tem valor 4 ou 5; e `False`, caso contrário.
   - Remova a coluna `self_perception_weight` do conjunto de dados.
2. **Divisão do conjunto de dados:**
   - Divida o conjunto de dados em um conjunto de treinamento e um conjunto de teste para avaliar o desempenho dos algoritmos. 
   - O mesmo conjunto de teste deve ser usado por todos os algoritmos analizados e nenhum dado deste pode ser usado na fase de treinamento.
   - O atributo alvo (*rótulo*) da classificação será o campo `self_perception_overweight`.   
3. **Seleção de algoritmos de classificação:**
   - Selecione uma variedade de algoritmos de aprendizado de máquina para testar na tarefa de classificação.   
   - Sua seleção deve conter, no mínimo, os seguintes métodos: Naive Bayes, k-Nearest Neighbors, Support Vector Machine (Linear/RBF), Decision Trees, Random Forest, Multilayer Perceptron.
   - Descreva brevemente como funciona cada algoritmo selecionado.
4. **Treinamento e avaliação:**
   - Treine os algoritmos de classificação usando todo o conjunto de treinamento. 
   - Avalie o desempenho de cada algoritmo no conjunto de teste usando métricas como acurácia, precisão, recall e F1-score.
   - Repita a análise treinando os algoritmos com validação cruzada.
   - Repita a análise realizando ajuste de hiperparâmetros.
5. **Análise dos resultados:**
   - Prepare um texto que descreva os resultados obtidos e faça uma análise crítica destes resultados.
   - Compare o desempenho dos diferentes algoritmos e explique por que alguns apresentaram resultados mais adequados que outros.
   
Documente todas as etapas em um arquivo Jupyter Notebook (`.ipynb`) que inclua as análises, o código e as justificativas. Lembre-se de que é fundamental justificar todas as decisões tomadas ao longo do processo e documentar as análises de forma clara e concisa. Este trabalho tem como objetivo proporcionar uma compreensão prática da seleção e avaliação de algoritmos de classificação em cenários de aprendizado supervisionado.

Envie seu Jupyter Notebook até a data de entrega especificada nesta tarefa.

## Solução


### Pré-processamento dos dados

#### Descrevendo breviamente o conjunto de dados
O dataset [Food choices: College students' food and cooking preferences](https://www.kaggle.com/datasets/borapajo/food-choices?select=food_coded.csv) apresenta dados diversos. Dentre esses dados, há também a presença de dados inconsistentes e dados ausentes. Colunas como `calories_day` que apresenta inteiros, tiveram seus dadods ausentes inputados com a moda da coluna. Colunas que armazenam string com respostas que representavam opnião do usuário tiveram seus dados ausentes inputados com a string `'Did not respond'`. Além disso, esses dados passaram também por um processo de padronização. Algumas colunas passaram por um tratamento particular, como é o caso da coluna `GPA` que passou por um processo de extração de números de string, conversão para numérico, imputação utilizando a média da coluna e o arrendondamento para 3 casas decimais. A coluna `weight` foi tratada de forma parecida, com extração de números de strings, conversão para numérico e imputação com a moda da coluna. Por fim, a coluna `comfort_food_reasons_coded` foi dropada por haver uma coluna correspondente, sem valores ausentes, chamada `comfort_food_reasons_coded.1`. `comfort_food_reasons_coded.1` foi renomeada para `comfort_food_reasons_coded`, finalizando o tratamento. 

#### Plano de ação

##### Dados inconsistesntes

Analisar cada coluna e identificar as inconsistências. Cada dado inconsistente será tratado de forma particular, dependendo da incosistência encontrada. Por exemplo, se uma coluna que possui dados majoritariamente decimais, mas apresenta um dado com valor `"2.5 é isso aí"`, será tratado para remover a frase `"é isso aí"` preservando apenas o valor decimal.
O objetivo dessa abordagem é tentar preservar ao máximo os dados sem ter que usar técnicas de subsittuição.

##### Valores ausentes

- Para colunas com valores **majoritariamente decimais** será utilizada a média dos valores da coluna. Essa abordagem faz com que as lacunas sejam preenchidas com valores que seguem a tendencia de preenchimento dos demais valores da mesma coluna.
- Para colunas com valores **majoritariamente inteiros** será utilizada a moda. Essa abordagem visa preservar a tendencia de escolha dos demais valores da coluna.
- Para colunas com valores do **tipo object** que se tratavam de opnião dos particiapantes ou categorias, como `father_profession`, os valores faltantes foram substituídos por `Did not respond`.

##### Valores do tipo string

Os valores em string que representam frases ou palavras foram padronizados para conter apenas caracteres ASCII (conversão), letras minúsculas (exceto no início da frase ou após pontuação) e serem separados por `,` ao invés de `/` como ocorreu em muitos casos.

**OBS**: A justificativa para o tratamento de cada caso se encontra no arquivo `01.E0-Exercicio-Limpeza-de-Dados.ipynb`.

#### Tratamento extra

Neste arquivo também foram realizadas algumas etapas de pré-processamento para ajustar melhor o conjunto de dados para treinamento dos modelos. Dentre os ajustes estão:  
##### 1. Dropar colunas que não agregam valor ao treinamento dos modelos
Nesta etapa será dropada algumas colunas que não agregam valor ao treinamento dos modelos. Por exemplo, a coluna `comfort_food` apresenta uma série de informações mal formatadas, com inúmeras comidas diferentes, que se fossem para transformar em dados categóricos, aumentaria muito a dimensionalidade da base de dados. Outro exemplo é a coluna `comfort_food_reasons` que apresenta a opnião escrita dos candidatos. As informações dessa coluna não irá agregar valor a nossa análise (até porque ela está diretamente associada a coluna `comfort_food` que foi excluída da análise), dessa forma ela também será excluída. A seguir, a lista de colunas dropadas.
  - comfort_food
  - comfort_food_reasons
  - comfort_food_reasons_coded
  - diet_current
  - diet_current_coded
  - eating_changes
  - eating_changes_coded
  - eating_changes_coded1
  - food_childhood
  - healthy_meal
  - ideal_diet
  - meals_dinner_friend

##### 2. Codificação de variávevis categóricas
As informações das seguintes colunas foram processadas e submetidas ao processo de categorização Ordinal Encoder:  
  - father_profession  
  - fav_cuisine  
  - mother_profession  
  - type_sports

##### 3. Normalização
Foi utilizada a técniza Min-Max Scaling que será usada por preservar a forma das distribuições e escalar os valores para um intervalo fixo [0, 1]. Sendo adequado para algoritmos baseados em distância, como KNN e SVM. As colunas escolhidas representam grandezas contínuas ou ordinalidades com escalas diferentes, o que poderia distorcer os pesos durante o treinamento.


In [1]:
# Importações.
import numpy as np
import pandas as pd
# Leitura de dados.
df = pd.read_csv("https://raw.githubusercontent.com/She-Codes-Now/Intro-to-Data-Science-with-R/master/food_coded.csv")
df

Unnamed: 0,GPA,Gender,breakfast,calories_chicken,calories_day,calories_scone,coffee,comfort_food,comfort_food_reasons,comfort_food_reasons_coded,...,soup,sports,thai_food,tortilla_calories,turkey_calories,type_sports,veggies_day,vitamins,waffle_calories,weight
0,2.4,2,1,430,,315.0,1,none,we dont have comfort,9.0,...,1.0,1.0,1,1165.0,345,car racing,5,1,1315,187
1,3.654,1,1,610,3.0,420.0,2,"chocolate, chips, ice cream","Stress, bored, anger",1.0,...,1.0,1.0,2,725.0,690,Basketball,4,2,900,155
2,3.3,1,1,720,4.0,420.0,2,"frozen yogurt, pizza, fast food","stress, sadness",1.0,...,1.0,2.0,5,1165.0,500,none,5,1,900,I'm not answering this.
3,3.2,1,1,430,3.0,420.0,2,"Pizza, Mac and cheese, ice cream",Boredom,2.0,...,1.0,2.0,5,725.0,690,,3,1,1315,"Not sure, 240"
4,3.5,1,1,720,2.0,420.0,2,"Ice cream, chocolate, chips","Stress, boredom, cravings",1.0,...,1.0,1.0,4,940.0,500,Softball,4,2,760,190
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
120,3.5,1,1,610,4.0,420.0,2,"wine. mac and cheese, pizza, ice cream",boredom and sadness,,...,1.0,1.0,5,940.0,500,Softball,5,1,1315,156
121,3,1,1,265,2.0,315.0,2,Pizza / Wings / Cheesecake,Loneliness / Homesick / Sadness,,...,1.0,,4,940.0,500,basketball,5,2,1315,180
122,3.882,1,1,720,,420.0,1,"rice, potato, seaweed soup",sadness,,...,1.0,2.0,5,580.0,690,none,4,2,1315,120
123,3,2,1,720,4.0,420.0,1,"Mac n Cheese, Lasagna, Pizza","happiness, they are some of my favorite foods",,...,2.0,2.0,1,940.0,500,,3,1,1315,135


##### Métodos auxiliares para o pré-processamento de dados

In [2]:
# Método que recebe um dataframe com uma única coluna e extrai os números contidos nas strings.
def extract_numbers_from_string(df):
  # Método para encontrar numéricos em strings.
  def find_numeric(value: str) -> str:
    parts = value.split()
    for part in  parts:
      if part.replace('.', '', 1).isdigit() or part.isdigit():
        return part
    return None
  # Realizar extração:
  df_collumn = df.columns[0]
  df[df_collumn] = df[df_collumn].apply(lambda x: find_numeric(x) if isinstance(x, str) else x)
  return df

# Método para arrendondar valores numéricos de um dataframe para três casas decimais.
def round_dataframe_values(df):
  return df.round(3)

# Método para converter valores de um dataframe para float.
def convert_dataframe_values_to_float(df):
  return df.astype(float)

# Método para normalizar strings de um dataframe com coluna única.
def standardize_dataframe_string_values(df):
  # df_collumn = df.columns[0]
  for df_collumn in df.columns:
    # Troca " /" por ",".
    df[df_collumn] = df[df_collumn].str.replace(' /', ',')
    df[df_collumn] = df[df_collumn].str.replace('/ ', ', ')
    df[df_collumn] = df[df_collumn].str.replace('/', ', ')
    # Padronizar em ASCII.
    df[df_collumn] = df[df_collumn].str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8')
    # Troca valores que contém a substring "none" por "Did not respond".
    df[df_collumn] = df[df_collumn].apply(lambda x: 'Did not respond' if 'none' in x else x)
    # Remover espaços em branco no início e no final.
    df[df_collumn] = df[df_collumn].str.strip()
    # Lowercase.
    df[df_collumn] = df[df_collumn].str.lower()
  return df

# Método para tratar as colunas categóricas
def treat_categorical_columns(df):
  # Tratamento para a coluna 'father_profession'.
  df['father_profession'] = df['father_profession'].replace('It', 'Information Technology')
  df['father_profession'] = df['father_profession'].replace('Self employed', 'Autonomous')
  df['father_profession'] = df['father_profession'].replace('Commissioner of erie county', 'Commissioner')
  df['father_profession'] = df['father_profession'].replace('Deceased', 'Unknown')
  df['father_profession'] = df['father_profession'].replace('Dead beat', 'Unknown')
  df['father_profession'] = df['father_profession'].replace('Not sure', 'Unknown')
  df['father_profession'] = df['father_profession'].replace('United nations', 'Unknown')
  df['father_profession'] = df['father_profession'].replace('Self employed', 'Businessperson')
  df['father_profession'] = df['father_profession'].replace('Owner of new york lunch', 'Businessperson')
  df['father_profession'] = df['father_profession'].replace('Owns business', 'Businessperson')
  df['father_profession'] = df['father_profession'].replace('Owns his business', 'Businessperson')
  df['father_profession'] = df['father_profession'].replace('His own business', 'Businessperson')
  # Tratamento para a coluna 'fav_cuisine'.
  df['fav_cuisine'] = df['fav_cuisine'].replace('Indian food - samosas are amazing', 'Indian')
  df['fav_cuisine'] = df['fav_cuisine'].replace('Anything american style.', 'American')
  df['fav_cuisine'] = df['fav_cuisine'].replace('Arabic cuisine', 'Arabic')
  df['fav_cuisine'] = df['fav_cuisine'].replace('Chinese cuisine (General Tso\'s)', 'Chinese')
  df['fav_cuisine'] = df['fav_cuisine'].replace('Any type of Colombian cuisine', 'Colombian')
  df['fav_cuisine'] = df['fav_cuisine'].replace('Mexican cuisine', 'Mexican')
  df['fav_cuisine'] = df['fav_cuisine'].replace('Chinese food', 'Chinese')
  df['fav_cuisine'] = df['fav_cuisine'].replace('Authentic Chinese and Vietnamese food', 'Chinese and Vietnamese')
  df['fav_cuisine'] = df['fav_cuisine'].replace('I really love italian food and thai food', 'Italian and Thai')
  df['fav_cuisine'] = df['fav_cuisine'].replace('Vietnamese cuisine', 'Vietnamese')
  df['fav_cuisine'] = df['fav_cuisine'].replace('Mexican Food', 'Mexican')
  df['fav_cuisine'] = df['fav_cuisine'].replace('HISPANIC CUISINE.', 'Hispanic')
  # Tratamento para a coluna 'mother_profession'.
  df['mother_profession'] = df['mother_profession'].replace('owns business', 'Businessperson')
  df['mother_profession'] = df['mother_profession'].replace('business owner', 'Businessperson')
  df['mother_profession'] = df['mother_profession'].replace('stay at home mom', 'House wife')
  df['mother_profession'] = df['mother_profession'].replace('Stay at home mother', 'House wife')
  df['mother_profession'] = df['mother_profession'].replace('Stay home', 'House wife')
  df['mother_profession'] = df['mother_profession'].replace('House-wife', 'House wife')
  df['mother_profession'] = df['mother_profession'].replace('Stay-At-Home Mom', 'House wife')
  df['mother_profession'] = df['mother_profession'].replace('Legal Secretary', 'Secretary')
  df['mother_profession'] = df['mother_profession'].replace('nothing', 'Unemployed')
  df['mother_profession'] = df['mother_profession'].replace('Deceased', 'Unknown')
  # Tratamento para a coluna 'type_sports'.
  df['type_sports'] = df['type_sports'].replace('no particular engagement', 'Uknown')
  df['type_sports'] = df['type_sports'].replace('I danced in high school', 'Dance')
  df['type_sports'] = df['type_sports'].replace('When I can, rarely though play pool, darts, and basketball', 'Pool, Darts and Basketball')
  df['type_sports'] = df['type_sports'].replace('I used to play softball', 'Softball')
  df['type_sports'] = df['type_sports'].replace('No, I don\'t play sport.', 'Do not play sports')
  return df

# Método para renomear colunas de um dataframe para manter apenas o sufixo.
def rename_columns_to_keep_suffix(df):
  df.columns = [col.split('__')[-1] for col in df.columns]
  return df

# Método para substituir as colunas de um dataframe A pelas colunas correspondentes de um dataframe B.
def replace_columns_from_another_df(df_a, df_b):
  # Identifica as colunas comuns entre os dois DataFrames
  common_columns = df_a.columns.intersection(df_b.columns)
  # Substitui as colunas em A pelas colunas correspondentes de B
  df_a[common_columns] = df_b[common_columns]
  # Identifica as colunas de df_b que não estão em df_a
  additional_columns = df_b.columns.difference(df_a.columns, sort=False)
  # Adiciona as colunas extras de df_b em df_a
  df_a = pd.concat([df_a, df_b[additional_columns]], axis=1)
  return df_a

##### Pré-processamento com Scikit Learn

In [3]:
# Dropar colunas segundo a seção "Tratamento extra > 1. Dropar colunas que não agregam valor ao treinamento dos modelos" deste notebook.
columns_to_drop = [
  'comfort_food', 
  'comfort_food_reasons', 
  'comfort_food_reasons_coded', 
  'comfort_food_reasons_coded.1', 
  'diet_current', 
  'diet_current_coded', 
  'eating_changes', 
  'eating_changes_coded', 
  'eating_changes_coded1', 
  'food_childhood', 
  'healthy_meal', 
  'ideal_diet', 
  'meals_dinner_friend'
]
df.drop(columns=columns_to_drop, inplace=True)
df

Unnamed: 0,GPA,Gender,breakfast,calories_chicken,calories_day,calories_scone,coffee,cook,cuisine,drink,...,soup,sports,thai_food,tortilla_calories,turkey_calories,type_sports,veggies_day,vitamins,waffle_calories,weight
0,2.4,2,1,430,,315.0,1,2.0,,1.0,...,1.0,1.0,1,1165.0,345,car racing,5,1,1315,187
1,3.654,1,1,610,3.0,420.0,2,3.0,1.0,2.0,...,1.0,1.0,2,725.0,690,Basketball,4,2,900,155
2,3.3,1,1,720,4.0,420.0,2,1.0,3.0,1.0,...,1.0,2.0,5,1165.0,500,none,5,1,900,I'm not answering this.
3,3.2,1,1,430,3.0,420.0,2,2.0,2.0,2.0,...,1.0,2.0,5,725.0,690,,3,1,1315,"Not sure, 240"
4,3.5,1,1,720,2.0,420.0,2,1.0,2.0,2.0,...,1.0,1.0,4,940.0,500,Softball,4,2,760,190
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
120,3.5,1,1,610,4.0,420.0,2,3.0,1.0,2.0,...,1.0,1.0,5,940.0,500,Softball,5,1,1315,156
121,3,1,1,265,2.0,315.0,2,3.0,,1.0,...,1.0,,4,940.0,500,basketball,5,2,1315,180
122,3.882,1,1,720,,420.0,1,3.0,,1.0,...,1.0,2.0,5,580.0,690,none,4,2,1315,120
123,3,2,1,720,4.0,420.0,1,3.0,1.0,2.0,...,2.0,2.0,1,940.0,500,,3,1,1315,135


In [4]:
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import FunctionTransformer, MinMaxScaler, OrdinalEncoder

# Pipeline dedicado a coluna GPA.
gpa_pipeline = Pipeline([
  ('extract_numbers', FunctionTransformer(extract_numbers_from_string, validate=False)),
  ('to_numeric', FunctionTransformer(convert_dataframe_values_to_float, validate=False)), 
  ('imputer_mean', SimpleImputer(strategy='mean')),
  ('round_values', FunctionTransformer(round_dataframe_values, validate=False)) 
])

# Pipeline dedicado a coluna weight.
weight_pipeline = Pipeline([
  ('extract_numbers', FunctionTransformer(extract_numbers_from_string, validate=False)),
  ('to_numeric', FunctionTransformer(convert_dataframe_values_to_float, validate=False)), 
  ('imputer_mean', SimpleImputer(strategy='most_frequent')),
])

# Pipeline para aplicar Ordinal Encoder nas colunas categóricas.
categorical_columns = ['father_profession', 'fav_cuisine', 'mother_profession', 'type_sports'] 

categorical_pipeline_label = Pipeline([
  ('imputer_str', SimpleImputer(missing_values=np.nan, strategy='constant', fill_value='did not respond')),
  ('standardize_strings', FunctionTransformer(standardize_dataframe_string_values, validate=False)),
  ('treat_categorical_columns', FunctionTransformer(treat_categorical_columns, validate=False)),
  ('label_encoding', OrdinalEncoder(handle_unknown='use_encoded_value', unknown_value=-1))  # -1 para categorias desconhecidas
])

# Pipeline geral para aplicar moda a valores faltantes de uma coluna.
columns_to_apply_mode = [
  'soup', 
  'calories_day',
  'calories_scone',
  'cook',
  'cuisine',
  'drink',
  'employment',
  'exercise',
  'father_education',
  'fav_food',
  'income',
  'life_rewarding',
  'marital_status',
  'mother_education',
  'on_off_campus',
  'persian_food',
  'self_perception_weight',
  'sports',
  'tortilla_calories'
]
mode_pipeline = Pipeline([
  ('imputer_mode', SimpleImputer(strategy='most_frequent'))
])

preprocessing = ColumnTransformer([
  ('GPA_treatment', gpa_pipeline, ['GPA']),
  ('categorical_columns_treatment', categorical_pipeline_label, categorical_columns),
  ('mode_treatment', mode_pipeline, columns_to_apply_mode),
  ('weight_treatment', weight_pipeline, ['weight']),
]).set_output(transform='pandas')

preprocessing

In [5]:
df_processed = preprocessing.fit_transform(df)
df_processed = rename_columns_to_keep_suffix(df_processed)
df = replace_columns_from_another_df(df, df_processed)
# Dataframe tratado.
df

Unnamed: 0,GPA,Gender,breakfast,calories_chicken,calories_day,calories_scone,coffee,cook,cuisine,drink,...,soup,sports,thai_food,tortilla_calories,turkey_calories,type_sports,veggies_day,vitamins,waffle_calories,weight
0,2.400,2,1,430,3.0,315.0,1,2.0,1.0,1.0,...,1.0,1.0,1,1165.0,345,3.0,5,1,1315,187.0
1,3.654,1,1,610,3.0,420.0,2,3.0,1.0,2.0,...,1.0,1.0,2,725.0,690,2.0,4,2,900,155.0
2,3.300,1,1,720,4.0,420.0,2,1.0,3.0,1.0,...,1.0,2.0,5,1165.0,500,8.0,5,1,900,135.0
3,3.200,1,1,430,3.0,420.0,2,2.0,2.0,2.0,...,1.0,2.0,5,725.0,690,8.0,3,1,1315,240.0
4,3.500,1,1,720,2.0,420.0,2,1.0,2.0,2.0,...,1.0,1.0,4,940.0,500,36.0,4,2,760,190.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
120,3.500,1,1,610,4.0,420.0,2,3.0,1.0,2.0,...,1.0,1.0,5,940.0,500,36.0,5,1,1315,156.0
121,3.000,1,1,265,2.0,315.0,2,3.0,1.0,1.0,...,1.0,1.0,4,940.0,500,2.0,5,2,1315,180.0
122,3.882,1,1,720,3.0,420.0,1,3.0,1.0,1.0,...,1.0,2.0,5,580.0,690,8.0,4,2,1315,120.0
123,3.000,2,1,720,4.0,420.0,1,3.0,1.0,2.0,...,2.0,2.0,1,940.0,500,8.0,3,1,1315,135.0


In [6]:
# Pipeline dedicado à normalização Min-Mac Scaling.
min_max_scaling_columns = [
  'GPA',
  'calories_chicken',
  'calories_day',
  'calories_scone',
  'cook',
  'cuisine',
  'drink',
  'eating_out',
  'employment',
  'ethnic_food',
  'exercise',
  'fav_cuisine',
  'income',
  'life_rewarding',
  'marital_status',
  'nutritional_check',
  'on_off_campus',
  'tortilla_calories',
  'turkey_calories',
  'type_sports',
  'waffle_calories',
  'weight'
]

min_max_scaling_pipeline = Pipeline([
  ('min_max_scaling', MinMaxScaler())
])

preprocessing = ColumnTransformer([
  ('min_max_scaling', min_max_scaling_pipeline, min_max_scaling_columns)
]).set_output(transform='pandas')

df_processed = preprocessing.fit_transform(df)
df_processed = rename_columns_to_keep_suffix(df_processed)
df = replace_columns_from_another_df(df, df_processed)
# Dataframe tratado.
df

Unnamed: 0,GPA,Gender,breakfast,calories_chicken,calories_day,calories_scone,coffee,cook,cuisine,drink,...,soup,sports,thai_food,tortilla_calories,turkey_calories,type_sports,veggies_day,vitamins,waffle_calories,weight
0,0.111111,2,1,0.362637,0.5,0.000000,1,0.25,0.0,0.0,...,1.0,1.0,1,1.000000,0.000000,0.063830,5,1,1.000000,0.527273
1,0.807778,1,1,0.758242,0.5,0.157895,2,0.50,0.0,1.0,...,1.0,1.0,2,0.247863,0.683168,0.042553,4,2,0.439189,0.333333
2,0.611111,1,1,1.000000,1.0,0.157895,2,0.00,0.4,0.0,...,1.0,2.0,5,1.000000,0.306931,0.170213,5,1,0.439189,0.212121
3,0.555556,1,1,0.362637,0.5,0.157895,2,0.25,0.2,1.0,...,1.0,2.0,5,0.247863,0.683168,0.170213,3,1,1.000000,0.848485
4,0.722222,1,1,1.000000,0.0,0.157895,2,0.00,0.2,1.0,...,1.0,1.0,4,0.615385,0.306931,0.765957,4,2,0.250000,0.545455
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
120,0.722222,1,1,0.758242,1.0,0.157895,2,0.50,0.0,1.0,...,1.0,1.0,5,0.615385,0.306931,0.765957,5,1,1.000000,0.339394
121,0.444444,1,1,0.000000,0.0,0.000000,2,0.50,0.0,0.0,...,1.0,1.0,4,0.615385,0.306931,0.042553,5,2,1.000000,0.484848
122,0.934444,1,1,1.000000,0.5,0.157895,1,0.50,0.0,0.0,...,1.0,2.0,5,0.000000,0.683168,0.170213,4,2,1.000000,0.121212
123,0.444444,2,1,1.000000,1.0,0.157895,1,0.50,0.0,1.0,...,2.0,2.0,1,0.615385,0.306931,0.170213,3,1,1.000000,0.212121


##### Criando coluna self_perception_overweight

In [8]:
# Criar coluna self_perception_weight_overweight com valor True se self_perception_weight tem valor 4 ou 5,  False caso contrário.
df['self_perception_weight_overweight'] = df['self_perception_weight'].isin([4, 5])
# Remover coluna self_perception_weight.
df.drop('self_perception_weight', axis=1, inplace=True)

### Divisão do conjunto de dados

In [31]:
# Divisão do dataframe em treino e teste.
from sklearn.model_selection import train_test_split, GridSearchCV
X = df.drop('self_perception_weight_overweight', axis=1)
y = df['self_perception_weight_overweight']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

### Seleção de algoritmos de classificação

In [15]:
from sklearn.naive_bayes import GaussianNB
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.neural_network import MLPClassifier

#### Descrição

##### Naive Bayes
    Algoritmo baseado no teorema de Bayes que é simples e eficiente para problemas de classificação. Assume que as variáveis são independentes, o que nem sempre é verdade, mas funciona bem em cenários como análise de sentimentos.
##### k-Nearest Neighbors
    Algoritmo que classifica os dados com base nos exemplos mais próximos, utilizando uma métrica de distância, como a Euclidiana. Pode ser computucionalmente caro com grandes volumes de dados, e sua precisão depende da escolha de K e da normalização dos dados.
##### Support Vector Machine (Linear/RBF)
    Divide os dados com um hiperplano para classificação ou regressão. Pode usar o kernel RBF para lidar com dados não linearmente separáveis, sendo eficaz para problemas de alta dimensionalidade.
##### Decision Trees
    Cria uma estrutura de árvore onde cada nó é uma decisão baseada em uma condição dos dados. É interpretável e eficaz para capturar relações não lineares, mas pode sofrer de overfitting.
##### Random Forest
    Ensemble de árvores de decisão que combina múltiplas árvores treinadas em diferentes subconjuntos de dados. Reduz o overfitting e melhora a precisão, sendo robusto em problemas de classificação e regressão.
##### Multilayer Perceptron.
    Um tipo de rede neural artificial que aprende padrões complexos através de camadas ocultas. É versátil e poderoso, mas requer mais dados e poder computacional para treinar.

### Treinamento e avaliação

In [16]:
# Importação de métricas.
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

In [17]:
# Treinando Naive Bayes.
nb = GaussianNB()
nb.fit(X_train, y_train)
# Obter métricas de avaliação (Acurácia, precisão, recall, f1-score).
y_pred = nb.predict(X_test)
print('Naive Bayes')
print('Accuracy:', accuracy_score(y_test, y_pred))
print('Precision:', precision_score(y_test, y_pred))
print('Recall:', recall_score(y_test, y_pred))
print('F1-score:', f1_score(y_test, y_pred))

Naive Bayes
Accuracy: 0.56
Precision: 0.3
Recall: 0.42857142857142855
F1-score: 0.35294117647058826


In [18]:
# Treinando KNN.
knn = KNeighborsClassifier()
knn.fit(X_train, y_train)
# Obter métricas de avaliação (Acurácia, precisão, recall, f1-score).
y_pred = knn.predict(X_test)
knn_accuracy = accuracy_score(y_test, y_pred)
knn_precision = precision_score(y_test, y_pred)
knn_recall = recall_score(y_test, y_pred)
knn_f1_score = f1_score(y_test, y_pred)
# Exibir métricas.
print('KNN')
print(f'Acurácia: {knn_accuracy}')
print(f'Precisão: {knn_precision}')
print(f'Recall: {knn_recall}')
print(f'F1-Score: {knn_f1_score}')

KNN
Acurácia: 0.68
Precisão: 0.3333333333333333
Recall: 0.14285714285714285
F1-Score: 0.2


In [19]:
# Treinando SVM.
svm = SVC()
svm.fit(X_train, y_train)
# Obter métricas de avaliação (Acurácia, precisão, recall, f1-score).
y_pred = svm.predict(X_test)
svm_accuracy = accuracy_score(y_test, y_pred)
svm_precision = precision_score(y_test, y_pred)
svm_recall = recall_score(y_test, y_pred)
svm_f1_score = f1_score(y_test, y_pred)
# Exibir métricas.
print('SVM')
print(f'Acurácia: {svm_accuracy}')
print(f'Precisão: {svm_precision}')
print(f'Recall: {svm_recall}')
print(f'F1-Score: {svm_f1_score}')

SVM
Acurácia: 0.72
Precisão: 0.0
Recall: 0.0
F1-Score: 0.0


  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


In [20]:
# Treinando Decision Tree.
dt = DecisionTreeClassifier()
dt.fit(X_train, y_train)
# Obter métricas de avaliação (Acurácia, precisão, recall, f1-score).
y_pred = dt.predict(X_test)
dt_accuracy = accuracy_score(y_test, y_pred)
dt_precision = precision_score(y_test, y_pred)
dt_recall = recall_score(y_test, y_pred)
dt_f1_score = f1_score(y_test, y_pred)
# Exibir métricas.
print('Decision Tree')
print(f'Acurácia: {dt_accuracy}')
print(f'Precisão: {dt_precision}')
print(f'Recall: {dt_recall}')
print(f'F1-Score: {dt_f1_score}')

Decision Tree
Acurácia: 0.6
Precisão: 0.36363636363636365
Recall: 0.5714285714285714
F1-Score: 0.4444444444444444


In [21]:
# Treinando Random Forest.
rf = RandomForestClassifier()
rf.fit(X_train, y_train)
# Obter métricas de avaliação (Acurácia, precisão, recall, f1-score).
y_pred = rf.predict(X_test)
rf_accuracy = accuracy_score(y_test, y_pred)
rf_precision = precision_score(y_test, y_pred)
rf_recall = recall_score(y_test, y_pred)
rf_f1_score = f1_score(y_test, y_pred)
# Exibir métricas.
print('Random Forest')
print(f'Acurácia: {rf_accuracy}')
print(f'Precisão: {rf_precision}')
print(f'Recall: {rf_recall}')
print(f'F1-Score: {rf_f1_score}')

Random Forest
Acurácia: 0.64
Precisão: 0.25
Recall: 0.14285714285714285
F1-Score: 0.18181818181818182


In [22]:
# Treinando MLP.
mlp = MLPClassifier()
mlp.fit(X_train, y_train)
# Obter métricas de avaliação (Acurácia, precisão, recall, f1-score).
y_pred = mlp.predict(X_test)
mlp_accuracy = accuracy_score(y_test, y_pred)
mlp_precision = precision_score(y_test, y_pred)
mlp_recall = recall_score(y_test, y_pred)
mlp_f1_score = f1_score(y_test, y_pred)
# Exibir métricas.
print('MLP')
print(f'Acurácia: {mlp_accuracy}')
print(f'Precisão: {mlp_precision}')
print(f'Recall: {mlp_recall}')
print(f'F1-Score: {mlp_f1_score}')

MLP
Acurácia: 0.6
Precisão: 0.2
Recall: 0.14285714285714285
F1-Score: 0.16666666666666666




#### Validação cruzada

In [23]:
# Treinando os algoritmos com validação cruzada.
from sklearn.model_selection import cross_val_score

# Naive Bayes.
nb = GaussianNB()
nb_scores = cross_val_score(nb, X, y, cv=5, scoring='accuracy')
print('Naive Bayes')
print('Scores:', nb_scores)
print('Mean:', nb_scores.mean())
print('Standard Deviation:', nb_scores.std())

Naive Bayes
Scores: [0.68 0.76 0.72 0.76 0.56]
Mean: 0.696
Standard Deviation: 0.0741889479639656


In [24]:
# KNN.
knn = KNeighborsClassifier()
knn_scores = cross_val_score(knn, X, y, cv=5, scoring='accuracy')
print('KNN')
print('Scores:', knn_scores)
print('Mean:', knn_scores.mean())
print('Standard Deviation:', knn_scores.std())

KNN
Scores: [0.68 0.56 0.6  0.64 0.56]
Mean: 0.6080000000000001
Standard Deviation: 0.046647615158762396


In [25]:
# SVM.
svm = SVC()
svm_scores = cross_val_score(svm, X, y, cv=5, scoring='accuracy')
print('SVM')
print('Scores:', svm_scores)
print('Mean:', svm_scores.mean())
print('Standard Deviation:', svm_scores.std())

SVM
Scores: [0.72 0.72 0.72 0.68 0.68]
Mean: 0.7040000000000001
Standard Deviation: 0.019595917942265388


In [26]:
# Decision Tree.
dt = DecisionTreeClassifier()
dt_scores = cross_val_score(dt, X, y, cv=5, scoring='accuracy')
print('Decision Tree')
print('Scores:', dt_scores)
print('Mean:', dt_scores.mean())
print('Standard Deviation:', dt_scores.std())

Decision Tree
Scores: [0.48 0.72 0.52 0.6  0.56]
Mean: 0.576
Standard Deviation: 0.082365041127896


In [27]:
# Random Forest.
rf = RandomForestClassifier()
rf_scores = cross_val_score(rf, X, y, cv=5, scoring='accuracy')
print('Random Forest')
print('Scores:', rf_scores)
print('Mean:', rf_scores.mean())
print('Standard Deviation:', rf_scores.std())

Random Forest
Scores: [0.76 0.76 0.72 0.64 0.64]
Mean: 0.7040000000000001
Standard Deviation: 0.054258639865002144


In [28]:
# MLP.
mlp = MLPClassifier()
mlp_scores = cross_val_score(mlp, X, y, cv=5, scoring='accuracy')
print('MLP')
print('Scores:', mlp_scores)
print('Mean:', mlp_scores.mean())
print('Standard Deviation:', mlp_scores.std())



MLP
Scores: [0.6  0.64 0.64 0.68 0.64]
Mean: 0.64
Standard Deviation: 0.025298221281347056




##### Ajustes de hiperparâmetros

In [33]:
from sklearn.metrics import classification_report

# K-Nearest Neighbors
knn_params = {
    'n_neighbors': [3, 5, 7],
    'metric': ['euclidean', 'manhattan', 'minkowski'],
    'weights': ['uniform', 'distance']
}

# Suporte Vetorial (SVM) - Linear e RBF
svm_params = {
    'C': [0.1, 1, 10],
    'kernel': ['linear', 'rbf'],
    'gamma': ['scale', 'auto']  # gamma só se aplica ao kernel RBF
}

# Árvore de Decisão
decision_tree_params = {
    'max_depth': [3, 5, 10, None],
    'min_samples_leaf': [1, 2, 4],
    'criterion': ['gini', 'entropy']
}

# Random Forest
random_forest_params = {
    'n_estimators': [100, 200, 300],
    'max_depth': [3, 5, 10, None],
    'min_samples_leaf': [1, 2, 4]
}

# Multilayer Perceptron (MLP)
mlp_params = {
    'hidden_layer_sizes': [(50,), (100,), (50,50), (100,100)],
    'activation': ['relu', 'tanh'],
    'solver': ['adam', 'sgd'],
    'learning_rate': ['constant', 'adaptive'],
    'max_iter': [200, 300]
}

# Criação dos modelos
models = {
    'K-Nearest Neighbors': (KNeighborsClassifier(), knn_params),
    'SVM (Linear/RBF)': (SVC(), svm_params),
    'Decision Tree': (DecisionTreeClassifier(), decision_tree_params),
    'Random Forest': (RandomForestClassifier(), random_forest_params),
    'Multilayer Perceptron': (MLPClassifier(), mlp_params)
}

# Loop para rodar o GridSearchCV para cada modelo
for model_name, (model, params) in models.items():
    print(f"Training {model_name}...")
    grid_search = GridSearchCV(estimator=model, param_grid=params, cv=5, scoring='accuracy', n_jobs=-1)
    grid_search.fit(X_train, y_train)
    
    print(f"Best parameters for {model_name}: {grid_search.best_params_}")
    y_pred = grid_search.predict(X_test)
    print(f"Classification report for {model_name}:\n{classification_report(y_test, y_pred)}\n")

Training K-Nearest Neighbors...
Best parameters for K-Nearest Neighbors: {'metric': 'manhattan', 'n_neighbors': 5, 'weights': 'uniform'}
Classification report for K-Nearest Neighbors:
              precision    recall  f1-score   support

       False       0.79      0.83      0.81        18
        True       0.50      0.43      0.46         7

    accuracy                           0.72        25
   macro avg       0.64      0.63      0.64        25
weighted avg       0.71      0.72      0.71        25


Training SVM (Linear/RBF)...
Best parameters for SVM (Linear/RBF): {'C': 0.1, 'gamma': 'scale', 'kernel': 'rbf'}
Classification report for SVM (Linear/RBF):
              precision    recall  f1-score   support

       False       0.72      1.00      0.84        18
        True       0.00      0.00      0.00         7

    accuracy                           0.72        25
   macro avg       0.36      0.50      0.42        25
weighted avg       0.52      0.72      0.60        25


Tra

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


Best parameters for Decision Tree: {'criterion': 'entropy', 'max_depth': 3, 'min_samples_leaf': 1}
Classification report for Decision Tree:
              precision    recall  f1-score   support

       False       0.70      0.78      0.74        18
        True       0.20      0.14      0.17         7

    accuracy                           0.60        25
   macro avg       0.45      0.46      0.45        25
weighted avg       0.56      0.60      0.58        25


Training Random Forest...
Best parameters for Random Forest: {'max_depth': 5, 'min_samples_leaf': 1, 'n_estimators': 200}
Classification report for Random Forest:
              precision    recall  f1-score   support

       False       0.75      1.00      0.86        18
        True       1.00      0.14      0.25         7

    accuracy                           0.76        25
   macro avg       0.88      0.57      0.55        25
weighted avg       0.82      0.76      0.69        25


Training Multilayer Perceptron...
Best pa



### Análise dos resultados

Após a execução dos modelos de classificação Naive Bayes, k-Nearest Neighbors (KNN), Suporte Vetorial (SVM com kernels linear e RBF), Árvores de Decisão, Florestas Aleatórias e Multilayer Perceptron (MLP), os resultados revelaram variações consideráveis no desempenho de cada um em termos de precisão, recall, e F1-score.