# **MVP PUC-Rio - Análise de Dados e Boas Práticas**
---

Aluno: Leonardo José Lopes da Silva

Setembro de 2024


# **1. Objetivos**
Este trabalho tem como principal objetivo a aplicação de técnicas comuns de pré-processamento e análise exploratória em um conjunto de dados, etapas cruciais dentro de um projeto de ciência de dados. Além de exercitar essas habilidades, busca-se também obter insights significativos sobre os dados, com foco na sua possível utilidade para alimentar modelos de machine learning, promovendo assim a descoberta de soluções automatizadas e preditivas.

# **2. Dados**
A obtenção de dados online é uma etapa essencial em projetos de ciência de dados, pois a qualidade das fontes influencia diretamente a confiabilidade das análises. Ademais, existem diversos repositórios online que disponibilizam datasets com fins educacionais, oferecendo oportunidades valiosas para o estudo e aplicação de técnicas de machine learning. Destaca-se abaixo algumas das plataformas encontradas durante a busca por um dataset de interesse:

*   Kaggle (https://www.kaggle.com/)
*   UCI Machine Learning Repository (https://archive.ics.uci.edu/)
*   Google Dataset Search (https://datasetsearch.research.google.com/)
*   Awesome Public Datasets (https://github.com/awesomedata/awesome-public-datasets)

Com o intuito de exercitar as habilidades propostas neste trabalho buscou-se um dataset que apresentasse tanto atributos numéricos quanto categóricos, possibilitando a aplicação de uma maior variedade de técnicas de análise. Além disso, optou-se por dados relacionados a temas de relevância social, como economia, saúde ou transporte, buscando garantir que os insights gerados pudessem ter impacto nestas áreas.

## **2.1 Informações sobre o Conjunto de Dados**
O conjunto de dados escolhido contém características de pessoas entre 14 e 61 anos de idade, nascidas no México, Peru e Colômbia, assim como informações sobre seus hábitos alimentares e condições físicas. O dataset foi originalmente disponilizado através de um artigo (acessível através do [link](https://www.sciencedirect.com/science/article/pii/S2352340919306985)) cujo intuito é auxiliar e incentivar a criação de ferramentas de machine learning para detectar os níveis de obesidade na população.

Com estes dados é possível construir um modelo de classificação, caracterizando um problema de aprendizado supervisionado. O nível de obesidade é determinado a partir do IMC (Índice de Massa Corpórea), que é calculado pela expressão: o peso do indivíduo dividido pelo quadrado de sua altura. Com base nesse cálculo, é possível classificar os indivíduos nas seguintes categorias:

*   **Abaixo do peso:** IMC menor que 18,5;
*   **Peso normal:** IMC entre 18,5 e 24,9;
*   **Sobrepeso grau I:** IMC entre 25 e 26,9;
*   **Sobrepeso grau II:** IMC entre 27 e 29,9;
*   **Obesidade grau I:** IMC entre 30 e 34,9;
*   **Obesidade grau II:** IMC entre 35 e 39,9;
*   **Obesidade grau III:** IMC acima de 40;

O dataset não contém uma coluna com os valores individuais do IMC. Em vez disso, o IMC foi utilizado para classificar diretamente os indivíduos nas categorias de obesidade, as quais estão representadas como uma variável categórica no conjunto de dados.

Por fim, é importante mencionar que, segundo o artigo que originou este dataset, 23% dos dados foram obtidos diretamente por meio de uma pesquisa online com os indivíduos, enquanto 77% dos registros foram gerados artificialmente para completar o conjunto de dados. Embora a maior parte dos dados seja sintética, o propósito do dataset continua válido, permitindo conclusões relevantes sobre o problema da obesidade. Além disso, a geração artificial dos dados trouxe algumas implicações que serão abordadas nas etapas de análise exploratória e pré-processamento.

## **2.2 Fonte**
Conforme mencionado, os dados foram originalmente disponibilizados em um artigo científico. No entanto, foram baixados no formato CSV no UCI Machine Learning Repository, um repositório amplamente reconhecido e utilizado para o armazenamento e compartilhamento de conjuntos de dados voltados para a pesquisa em aprendizado de máquina e ciência de dados. O dataset pode ser acessado através do [link](https://archive.ics.uci.edu/dataset/544/estimation+of+obesity+levels+based+on+eating+habits+and+physical+condition).

## **2.3 Licença**
O conjunto de dados está licenciado sob a licença Creative Commons Attribution 4.0 International (CC BY 4.0). Esta licença permite que os dados sejam compartilhados, adaptados e utilizados para diversos fins, desde que seja atribuído crédito apropriado ao autor original. Os principais pontos dessa licença são:

*   **Atribuição:** Deve-se dar crédito ao autor ou criador original dos dados de forma adequada, conforme indicado pela licença.
*   **Uso Livre:** É permitido usar os dados para qualquer propósito, inclusive comercial, sem restrições adicionais além da atribuição.
*   **Adaptação:** É permitido remixar, transformar e construir sobre os dados, desde que o crédito ao autor original seja mantido.
*   **Sem Garantias:** Os dados são fornecidos "como estão", sem garantias expressas ou implícitas quanto à precisão ou adequação para um propósito específico.

## **2.4 Dicionário de Dados**
O dataset possui 17 atributos, sendo 8 numéricos e 9 categóricos. Abaixo detalha-se cada um destes atributos:

*   **Gender {categórico binário}:** gênero do indivíduo, podendo assumir os valores "Male" ou "Female";

*   **Age {numérico contínuo}:** idade do indivíduo em anos;

*   **Height {numérico contínuo}:** altura do indivíduo em metros;

*   **Weight {numérico contínuo}:** peso do indivíduo em quilogramas;

*   **family_history_with_overweight {categórico binário}:** indica se o indivíduo possui histórico familiar de obesidade, podendo assumir os valores "yes" ou "no";

*   **Frequent consumption of high caloric food (FAVC) {categórico binário}:** indica a ingestão frequente de alimentos de alta caloria. Pode assumir os valores "yes" ou "no";

*   **Frequency of consumption of vegetables(FCVC) {numérico inteiro}:** indica a frequência de ingestão de vegetais. Pode assumir os valores 1 (Never), 2 (Sometimes) e 3 (Always);

*   **Number of main meals (NCP) {numérico inteiro}:** representa a quantitade de refeições diárias do indivíduo. Pode assumir os valores 1, 2, 3 ou 4;

*   **Consumption of food between meals (CAEC) {categórico}:** indica a frequência de consumo de alimentos entre as refeições principais. Pode assumir os valores "No", "Sometimes", "Frequently" ou "Always"

*   **SMOKE {categórico}:** indica se o indivíduo é ou não fumante. Pode assumir os valores "yes" ou "no";

*   **Consumption of water daily (CH2O) {numérico contínuo}:** representa a quantidade de água, em litros, que é ingerida diariamente pelo indivíduo.

*   **Calories consumption monitoring (SCC) {categórico binário}:** indica se o indivíduo controla/monitora quantas calorias ele consome diariamente. Pode assumir os valores "yes" ou "no";

*   **Physical activity frequency (FAF) {numérico inteiro}:** frequência semanal de realização de atividades físicas.

*   **Time using technology devices (TUE) {numérico inteiro}:** representa a quantidade de horas diárias que os indivíduos dedicam ao uso de dispositivos tecnológicos, como celulares, computadores, videogames, entre outros.

*   **Consumption of alcohol (CALC) {categórico}:** informa a frequência de consumo de bebidas alcóolicas. Pode assumir os valores "No", "Sometimes", "Frequently" e "Always";

*   **Transportation used (MTRANS) {categórico}:** meio de transporte comumente utilizado pelo indivíduo. Pode assumir os valores "Automobile", "Motorbike", "Bike", "Public Transportation" e "Walking".

*   **NObeyesdad {categórico}:** indica o nível de obesidade do indivíduo, podendo assumir os valores discutidos na seção 2.1: "Insufficient_Weight", "Normal_Weight", "Overweight_Level_I", "Overweight_Level_II", "Obesity_Type_I", "Obesity_Type_II", "Obesity_Type_III".

# **3. Configurações Iniciais**

Antes de iniciar as etapas principais de análise exploratória e pré-processamento, é fundamental configurar o ambiente de trabalho. Isso envolve a importação das bibliotecas e dependências necessárias para manipulação e análise dos dados, além da carga do dataset a partir de uma fonte externa.

No contexto deste trabalho, os dados foram disponibilizados de forma simples no GitHub, facilitando seu acesso e uso. No entanto, em cenários reais, pode ser necessário lidar com operações mais complexas para obter os dados, como conectar-se a bancos de dados, APIs, ou realizar extrações e transformações de arquivos de grande porte. A simplicidade desta abordagem foi escolhida para focar nas técnicas de análise e processamento, sem comprometer a integridade do estudo.

In [1]:
# Importação de bibliotecas/dependências
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# URL público do github para importação dos dados brutos
dataURL = "https://raw.githubusercontent.com/Leolp07/MVP-Analise-de-Dados/main/ObesityDataSet_Raw.csv?raw=true"

# Leitura do CSV a partir de uma URL e armazenamento em um DataFrame
dataFrame = pd.read_csv(dataURL)

# **4. Análise Exploratória dos Dados**

A análise exploratória de dados é essencial para compreender a estrutura e padrões dos dados antes de aplicar modelos de machine learning. Ela ajuda a identificar distribuições, outliers, dados ausentes e relações entre variáveis, garantindo que qualquer problema seja detectado e corrigido. Ela também orienta as decisões de pré-processamento e a escolha de métodos adequados, assegurando que o modelo final tenha uma base de dados limpa e confiável.

Neste trabalho a análise exploratória será dividida em duas etapas. Primeiro, será realizada uma análise geral do dataset, examinando a distribuição dos dados, valores ausentes e possíveis outliers. Em seguida, a análise será mais detalhada, focando em cada atributo ou grupo de atributos para explorar suas relações.

## **4.1 Análise Exploratória - Geral**


In [None]:
# Mosta as dimensões do conjunto de dados (linhas x colunas)
dataFrame.shape

In [None]:
# Contagem dos atributos do dataset
numberOfAtributes = len(dataFrame.columns)
print(f"Número de colunas: {numberOfAtributes}")

# Display das colunas
dataFrame.columns

Ao verificar o tipo dos atributos, constatou-se que algumas variáveis, como FCVC, FAF e TUE, que deveriam ser números inteiros, foram identificadas como números contínuos. Isso ocorreu porque, conforme mencionado na seção 2.1, 77% dos dados foram gerados artificialmente, e, aparentemente, os valores dessas colunas foram interpolados, permitindo que assumissem valores contínuos. O ajuste dessas colunas será realizado na etapa de pré-processamento de dados.

In [None]:
# Verificação dos tipos dos atributos
dataFrame.dtypes

Ao visualizar as 20 primeiras e últimas linhas do dataset, foi possível notar uma diferença significativa nos valores dos atributos numéricos. Nas últimas 20 linhas, os atributos numéricos apresentam uma precisão muito maior, com até 6 casas decimais, reforçando a hipótese de que os dados gerados artificialmente passaram por algum procedimento de interpolação para complementar o dataset.

In [None]:
# Visualiza as 20 primeiras linhas do dataset
dataFrame.head(20)

In [None]:
# Visualiza as 20 últimas linhas do dataset
dataFrame.tail(20)

Constatou-se que o dataset não possui instâncias com valores nulos, o que é um sinal positivo, pois indica que, na etapa de pré-processamento, não haverá necessidade de eliminar linhas ou completar valores faltantes por meio de interpolações ou valores estatísticos, como médias ou medianas.

In [None]:
# Verificação de valores nulos
dataFrame.isnull().sum()

Encontrou-se 33 linhas com dados duplicados no dataset, o que é bastante razoável, considerando que os indivíduos entrevistados podem apresentar hábitos alimentares e características físicas semelhantes. Embora esses registros duplicados não representem um problema grave, na etapa de pré-processamento, esses valores serão removidos para garantir a construção de um dataset mais limpo e eficiente para análise.

In [None]:
# Verifica se existem linhas repetidas (iguais)
duplicatedRows = dataFrame[dataFrame.duplicated(keep=False)]
display(duplicatedRows)

Ao inspecionar as estatísticas gerais dos **atributos numéricos**, os valores da coluna "Age" chamam a atenção, pois 75% dos indivíduos registrados têm 26 anos ou menos, indicando que os dados refletem predominantemente a realidade de uma população mais jovem. Essa concentração em uma faixa etária específica pode representar um desafio na construção de um modelo de classificação, já que o modelo pode não se adequar bem a pessoas mais velhas. Outros aspectos estatísticos serão analisados em detalhe na seção 4.2.

In [None]:
# Estatísticas gerais dos atributos numéricos
numericColumnsDataFrame = dataFrame.select_dtypes(include="number")
numericColumnsDataFrame.describe()

Quanto às estatísticas dos **atributos categóricos**, destaca-se a grande quantidade de indivíduos não fumantes, conforme indicado pela coluna "Smoke", onde aproximadamente 98% (2067) das pessoas registradas não fumam. Esse alto desequilíbrio pode representar um desafio na construção de modelos de machine learning, pois a variável pode não fornecer informações relevantes para a sua construção.

In [None]:
# Estatísticas gerais dos atributos categóricos
categoricColumnsDataFrame = dataFrame.select_dtypes(exclude="number")
categoricColumnsDataFrame.describe()

## **4.2 Análise Exploratória - Atributos**

Nesta seção, serão apresentadas visualizações da distribuição de cada atributo do conjunto de dados, permitindo uma compreensão mais profunda de suas características. Serão feitos comentários detalhados apenas sobre aqueles atributos que revelarem insights interessantes, destacando padrões ou tendências relevantes.

In [None]:
# Estilo dos gráficos
plt.style.use("seaborn-v0_8-notebook")

### **4.2.1 Atributos numéricos**

In [None]:
# ==========================================================
# FUNÇÕES GERAIS - ATRIBUTOS NUMÉRICOS
# ==========================================================

def PlotIntegerHistogram(dataFrame, columnName, columnLabel, nBins, figureTitle):
  # Leitura dos dados da coluna
  columnSeries = dataFrame[columnName]

  # Criação de um objeto de plot
  figure, axes = plt.subplots(figsize=(8, 6))

  # Criação do histograma
  axes.hist(columnSeries, bins=nBins, color="#5B9BD5", edgecolor="black", align='left')

  # Configuração do título dos eixos
  axes.set_xlabel(columnLabel, fontsize=12)
  axes.set_ylabel("N° de registros", fontsize=12)

  # Ajusta os ticks do eixo X
  uniqueValues = sorted(columnSeries.unique())
  axes.set_xticks(uniqueValues)

  # Remoção das bordas superiore e direta
  axes.spines["top"].set_visible(False)
  axes.spines["right"].set_visible(False)

  # Título e ajuste da figura
  figure.suptitle(figureTitle, fontsize=16)

  return plt


def PlotNumericColumn(dataFrame, columnName, columnLabel,figureTitle):
  # Leitura dos dados da coluna
  columnSeries = dataFrame[columnName]

  # Criação de uma figura com 2 subplots (1 histograma + 1 boxplot)
  figure, axes = plt.subplots(1, 2, figsize=(12, 8))

  # 1) Criação do histograma
  firstAxes = axes[0]
  firstAxes.hist(columnSeries, bins=8, color="#5B9BD5", edgecolor="black")

  # 1.1) Ajuste no título dos eixos
  firstAxes.set_xlabel(columnLabel, fontsize=12)
  firstAxes.set_ylabel("N° de registros", fontsize=12)

  # 1.2) Remoção das bordas superiore e direta
  firstAxes.spines["top"].set_visible(False)
  firstAxes.spines["right"].set_visible(False)

  # 2) Criação do boxplot
  secondAxes = axes[1]
  secondAxes.boxplot(columnSeries, vert=True, patch_artist=True,
                     boxprops=dict(facecolor="#5B9BD5", color="black"),
                     medianprops=dict(color="red"),
                     whiskerprops=dict(color="black"),
                     capprops=dict(color="black"))

  # 2.1) Cálculo de valores estatísticos
  q1 = np.percentile(columnSeries, 25)
  q2 = np.median(columnSeries)
  q3 = np.percentile(columnSeries, 75)

  # 2.2) Adição de textos do quartil 25%, mediana e quartil 75%
  secondAxes.text(1.1, q2, f'Q2: {q2:.2f}', fontsize=10, va="center", color="black", fontweight="bold")

  if q2 != q1:
    secondAxes.text(1.1, q1, f'Q1: {q1:.2f}', fontsize=10, va="center", color="black", fontweight="bold")

  if q2 != q3:
    secondAxes.text(1.1, q3, f'Q3: {q3:.2f}', fontsize=10, va="center", color="black", fontweight="bold")

  # 2.3) Configuração dos ticks e label dos eixos
  secondAxes.set_xticks([])
  secondAxes.set_xlabel("")
  secondAxes.set_ylabel(columnLabel, fontsize=12)

  # 2.4) Remoção das bordas superiore e direta
  secondAxes.spines["top"].set_visible(False)
  secondAxes.spines["right"].set_visible(False)

  # Título e ajuste da figura
  figure.suptitle(figureTitle, fontsize=16)
  plt.subplots_adjust(wspace=0.4)

  return plt

Conforme discutido na análise estatística anterior (seção 4.1), o dataset é majoritariamente composto por indivíduos jovens. O boxplot da variável *Age* confirma essa observação, destacando alguns outliers que representam pessoas mais velhas, o que sugere que, embora a maioria dos participantes seja jovem, há registros de idades significativamente superiores à média.

In [None]:
# ==========================================================
# Distribuição - Atributo Age
# ==========================================================
plt = PlotNumericColumn(dataFrame,
                        "Age",
                        "Idade",
                        "Distribuição de Idades")
plt.show()

In [None]:
# ==========================================================
# Distribuição - Atributo Height
# ==========================================================
plt = PlotNumericColumn(dataFrame,
                        "Height",
                        "Altura (m)",
                        "Distribuição da Altura dos Indivíduos")
plt.show()

In [None]:
# ==========================================================
# Distribuição - Atributo Weight
# ==========================================================
plt = PlotNumericColumn(dataFrame,
                        "Weight",
                        "Peso (Kg)",
                        "Distribuição do Peso dos Indivíduos")
plt.show()

A variável **FCVC**, que indica a frequência de consumo de vegetais durante as refeições, foi introduzida na pesquisa feita pelos autores do artigo de origem do dataset como uma pergunta de três opções de resposta: 'Never', 'Sometimes' e 'Always'. Embora essa abordagem caracterize uma variável categórica, no dataset ela foi representada de forma numérica.

A presença de valores diferentes de 1 (Never), 2 (Sometimes) e 3 (Always) observada no histograma desse atributo reforça a hipótese que houve alguma interpolação durante a geração da parte artificial do conjuto de dados. Contudo, observa-se que a maioria dos indivíduos apresenta valores próximos de 2 ou 3, indicando que 'Sometimes' e 'Always' são as respostas mais comuns.

Essa situação sugere que a variável poderia ser melhor representada como categórica, um ajuste que será realizado na seção 5, durante o pré-processamento dos dados.

In [None]:
# ==========================================================
# Distribuição - Atributo FCVC
# ==========================================================
plt = PlotNumericColumn(dataFrame,
                        "FCVC",
                        "FCVC",
                        "Distribuição da Frequência de Consumo de Vegetais")
plt.show()

A variável **NCP**, que representa a quantidade de refeições principais diárias das pessoas, também foi introduzida na pesquisa de forma que sugere um comportamento de variável categórica ou numérica discreta. No entanto, ela foi registrada como uma variável numérica contínua no dataset.

Como evidenciado no histograma e no boxplot, a grande maioria dos indivíduos realiza três refeições por dia, enquanto aqueles que fazem duas refeições ou menos são classificados como outliers. Acredita-se que a melhor forma de representar essa variável seria através de valores discretos, utilizando 1, 2, 3 ou 4 refeições diárias, o que refletiria de maneira mais precisa a realidade dos entrevistados.

In [None]:
# ==========================================================
# Distribuição - Atributo NCP
# ==========================================================
plt = PlotNumericColumn(dataFrame,
                        "NCP",
                        "NCP",
                        "Distribuição do N° de Refeições Principais")
plt.show()

In [None]:
# ==========================================================
# Distribuição - Atributo CH2O
# ==========================================================
plt = PlotNumericColumn(dataFrame,
                        "CH2O",
                        "CH2O (L)",
                        "Distribuição do Consumo de Água Diário (L)")
plt.show()

A análise do atributo **FAF**, que representa a frequência semanal de realização de atividades físicas, revela que uma grande parte dos entrevistados apresenta hábitos sedentários. De fato, 50% dos indivíduos realizam atividades físicas apenas uma vez por semana. Esse atributo é um fator relevante no desenvolvimento de obesidade, portanto, entende-se que seria ideal melhorar a sua representação através da utilização de valores discretos ao invés de valores contínuos, como foi feito na geração do conjunto de dados artificiais.

In [None]:
# ==========================================================
# Distribuição - Atributo FAF
# ==========================================================
plt = PlotNumericColumn(dataFrame,
                        "FAF",
                        "FAF",
                        "Distribuição da Frequência Semanal de Atividades Físicas")
plt.show()

A variável **TUE**, que indica quanto tempo, em horas, o indivíduo gasta em dispositivos tecnológicos, trouxe resultados surpreendentes. Observa-se que 75% dos indivíduos utilizam aparelhos eletrônicos por uma hora ou menos. Esse dado é inesperado, especialmente considerando que a maioria dos entrevistados é jovem, faixa etária geralmente mais engajada com tecnologia.

In [None]:
# ==========================================================
# Distribuição - Atributo TUE
# ==========================================================
plt = PlotNumericColumn(dataFrame,
                        "TUE",
                        "TUE",
                        "Distribuição das Horas Diárias de Uso de Aparelhos Eletrônicos")
plt.show()

### **4.2.2 Atributos categóricos**

A análise exploratória dos atributos categóricos foi dividida em duas abordagens visuais. Para atributos categóricos binários, foram utilizados tanto um gráfico de barras quanto um gráfico de pizza, complementando-se mutuamente. Já para atributos categóricos com mais de duas possibilidades de valores, optou-se por usar apenas um gráfico de barras com porcentagens relativas, evitando-se o uso de gráficos de pizza, que, neste caso, resultariam em fatias muito pequenas e de difícil interpretação.

In [None]:
# ==========================================================
# FUNÇÕES GERAIS - ATRIBUTOS CATEGÓRICOS
# ==========================================================

def PlotBinaryCategoricColumn(figureTitle, dataFrame, columnName, categoriesOrder, colors):
  # Leitura da coluna do dataFrame
  columnnSeries = dataFrame[columnName].value_counts()

  # Define a ordem na qual as categorias irão aparecer no gráfico
  orderedSeries = columnnSeries.reindex(categoriesOrder)
  categories = orderedSeries.index
  counts = orderedSeries.values

  # Criação de uma figura com 2 subplots (1 gráfico de barras + 1 gráfico de pizza)
  figure, axes = plt.subplots(1, 2, figsize=(12, 6))

  # 1) Configuração do gráfico de barras
  firstGraph = axes[0]
  firstGraph.bar(categories, counts, color=colors)

  # 1.1) Adiciona a label do eixo Y e linhas de grid horizontais
  firstGraph.set_ylabel("N° de registros")
  firstGraph.grid(axis="y", linestyle="-", alpha=0.3)

  # 1.2) Configura a área de plotagem para que as linhas de grid fiquem
  # "por baixo" das barras para não atrapalharem na visualização
  firstGraph.set_axisbelow(True)

  # 1.3) Remove as bordas superiro e direita
  firstGraph.spines["top"].set_visible(False)
  firstGraph.spines["right"].set_visible(False)

  # 2) Configuração do gráfico de pizza
  secondGraph = axes[1]
  secondGraph.pie(counts, autopct='%1.1f%%', startangle=90, colors=colors)
  secondGraph.axis("equal")

  # 2.1) Adiciona uma legenda de cores para cada categoria
  secondGraph.legend(categories, loc='center left', bbox_to_anchor=(1, 0, 0.5, 1))

  # Título e ajuste da figura
  figure.suptitle(figureTitle, fontsize=16)
  plt.tight_layout(rect=[0, 0, 0.85, 1])

  return plt


def PlotMultipleCategoricColumn(figureTitle, dataFrame, columnName, categoriesOrder, colors):
  # Leitura da coluna do dataFrame
  columnnSeries = dataFrame[columnName].value_counts()

  # Define a ordem na qual as categorias irão aparecer no gráfico
  orderedSeries = columnnSeries.reindex(categoriesOrder, fill_value=0)
  categories = orderedSeries.index
  counts = orderedSeries.values

  # Calcula a porcentagem do total da frequência de cada categoria
  total = sum(counts)
  percentages = [(count / total) * 100 for count in counts]

  # Criação inicial do plot
  figure, axes = plt.subplots()

  # Configuração do gráfico de barras
  barGraph = axes.bar(categories, counts, color=colors)

  # Adiciona a label do eixo Y e linhas de grid horizontais
  axes.set_ylabel("N° de registros")
  axes.grid(axis="y", linestyle="-", alpha=0.3)

  # Configura a área de plotagem para que as linhas de grid fiquem "por baixo"
  # das barras para não atrapalharem na visualização
  axes.set_axisbelow(True)

  # Remove as bordas superiro e direita
  axes.spines["top"].set_visible(False)
  axes.spines["right"].set_visible(False)

  # Posiciona os textos de porcentagens acima das barras verticais
  for bar, percentage in zip(barGraph, percentages):
    height = bar.get_height()
    axes.text(
        bar.get_x() + bar.get_width() / 2, height, f'{percentage:.1f}%',
        ha='center', va='bottom', fontsize=10)

  # Título e ajuste da figura
  figure.suptitle(figureTitle, fontsize=16)
  plt.tight_layout()

  return plt

O gênero dos indivíduos no conjunto de dados apresenta uma distribuição equilibrada, com aproximadamente 50% de participantes masculinos e 50% femininos. Essa paridade é um aspecto positivo para a construção futura de um modelo de classificação, pois contribui para a redução de viés e melhora a representatividade da população estudada.

In [None]:
# ==========================================================
# Distribuição - Atributo Gender
# ==========================================================
categoriesOrder = ["Male", "Female"]
categoriesColors = ["#5B9BD5", "#D57C9B"]
plt = PlotBinaryCategoricColumn("Distribuição de Gênero",
                          dataFrame,
                          "Gender",
                          categoriesOrder,
                          categoriesColors)
plt.show()

In [None]:
# ==========================================================
# Distribuição - Atributo family_history_with_overweight
# ==========================================================
categoriesOrder = ["yes", "no"]
categoriesColors = ["#4CAF50", "#E57373"]
plt = PlotBinaryCategoricColumn("Distribuição do Histórico de Obsesidade Familiar",
                          dataFrame,
                          "family_history_with_overweight",
                          categoriesOrder,
                          categoriesColors)
plt.show()

Uma elevada porcentagem de indivíduos (88,4%) que consomem frequentemente alimentos de alta caloria é um resultado esperado, especialmente considerando que a maioria dos participantes é jovem. Esse comportamento alimentar está frequentemente associado a uma maior preferência por fast foods e opções rápidas, refletindo padrões de consumo típicos dessa faixa etária.

In [None]:
# ==========================================================
# Distribuição - Atributo FAVC
# ==========================================================
categoriesOrder = ["yes", "no"]
categoriesColors = ["#4CAF50", "#E57373"]
plt = PlotBinaryCategoricColumn("Distribuição da Ingestão Frequente de Alimentos de Alta Caloria",
                                dataFrame,
                                "FAVC",
                                categoriesOrder,
                                categoriesColors)
plt.show()

In [None]:
# ==========================================================
# Distribuição - Atributo CAEC
# ==========================================================
categoriesOrder = ["Always", "Frequently", "Sometimes", "no"]
categoriesColors = ["#4CAF50", "#5B9BD5", "#FFEB3B", "#E57373"]
plt = PlotMultipleCategoricColumn("Distribuição do Consumo de Alimentos entre Refeições Principais",
                                  dataFrame,
                                  "CAEC",
                                  categoriesOrder,
                                  categoriesColors)
plt.show()

In [None]:
# ==========================================================
# Distribuição - Atributo SMOKE
# ==========================================================
categoriesOrder = ["yes", "no"]
categoriesColors = ["#4CAF50", "#E57373"]
plt = PlotBinaryCategoricColumn("Distribuição entre fumantes e não fumantes",
                                dataFrame,
                                "SMOKE",
                                categoriesOrder,
                                categoriesColors)
plt.show()

In [None]:
# ==========================================================
# Distribuição - Atributo SCC
# ==========================================================
categoriesOrder = ["yes", "no"]
categoriesColors = ["#4CAF50", "#E57373"]
plt = PlotBinaryCategoricColumn("Distribuição do Monitoramente de Consumo de Calorias",
                                dataFrame,
                                "SCC",
                                categoriesOrder,
                                categoriesColors)
plt.show()

In [None]:
# ==========================================================
# Distribuição - Atributo CALC
# ==========================================================
categoriesOrder = ["Always", "Frequently", "Sometimes", "no"]
categoriesColors = ["#4CAF50", "#5B9BD5", "#FFEB3B", "#E57373"]
plt = PlotMultipleCategoricColumn("Distribuição da Frequência de Consumo de Bebidas Alcoólicas",
                          dataFrame,
                          "CALC",
                          categoriesOrder,
                          categoriesColors)
plt.show()

A variável 'MTRANS', que indica o meio de transporte mais utilizado, reflete os hábitos de uma população predominantemente jovem, em idade escolar ou universitária, que frequentemente utiliza transportes públicos para sua locomoção.

In [None]:
# ==========================================================
# Distribuição - Atributo MTRANS
# ==========================================================
categoriesOrder = ["Automobile", "Motorbike", "Public_Transportation", "Bike", "Walking"]
categoriesColors = ["#5B9BD5", "#BA68C8", "#FFEB3B", "#FF9800", "#4CAF50"]
plt = PlotMultipleCategoricColumn("Distribuição dos Meios de Transporte",
                                  dataFrame,
                                  "MTRANS",
                                  categoriesOrder,
                                  categoriesColors)
plt.show()

### **4.2.3 Distribuição de Classes de Obesidade**

Ao visualizar a distribuição das classes de obesidade, verificou-se que o conjunto de dados está bem distribuído. Este é um bom sinal, pois, como o objetivo deste dataset é a construção de um modelo de classificação, uma distribuição desbalanceada poderia inviabilizar a eficácia do modelo. A presença de classes com um número equilibrado de ocorrências é crucial para que o modelo possa aprender de forma adequada a partir dos dados, evitando vieses que poderiam prejudicar sua performance.

Para deixar claro, esse balanceamento foi feito pelos autores do artigo que originou os dados. No próprio artigo, é mencionado que as informações inicialmente coletadas não eram balanceadas, uma vez que a maioria dos indivíduos era classificada como "Peso normal". Portanto, os autores realizaram ajustes para equilibrar as classes antes de disponibilizar o dataset. Mesmo assim, esse balanceamento foi verificado na análise exploratória, pois os dados poderiam ter sido atualizados.

In [None]:
# ======================================================
# Distribuição das Classes de Obesidade do Dataset
# ======================================================

# Separação da coluna das classes de obesidade
obesityColumnSeries = dataFrame["NObeyesdad"].value_counts(sort=False)

# Configuração do tamanho da figura do plot
plt.figure(figsize=(8,6))

# Mapeia o nome das classes de obesidade dataset para labels de melhor compreensão
obesityClassLabelMap = {
    "Insufficient_Weight": "Peso Insuficiente",
    "Normal_Weight": "Peso Normal",
    "Overweight_Level_I": "Sobrepeso Grau I",
    "Overweight_Level_II": "Sobrepeso Grau II",
    "Obesity_Type_I": "Obesidade Grau I",
    "Obesity_Type_II": "Obesidade Grau II",
    "Obesity_Type_III": "Obesidade Grau III"
}
renamedObesitySeries = obesityColumnSeries.rename(index=obesityClassLabelMap)

# Altera a ordem na qual as classes de obesidade irão aparecer no gráfico
obesityCategories = list(obesityClassLabelMap.values())
orderedObesityCategories = obesityCategories[::-1]
orderedObesitySeries = renamedObesitySeries.reindex(orderedObesityCategories)

# Plotagem de gráfico de barras horizontais
plt.barh(orderedObesitySeries.index, orderedObesitySeries.values, color="#5B9BD5")

# Adiciona linhas de grid verticais com transparência
plt.grid(axis="x", linestyle="-", alpha=0.3)

# Configura a área de plotagem para que as linhas de grid fiquem "por baixo"
# das barras horizontais para não atrapalharem na visualização
ax = plt.gca()
ax.set_axisbelow(True)

# Remoção das bordas superior e direita do gráfico para ficar mais limpo
ax.spines["top"].set_visible(False)
ax.spines["right"].set_visible(False)

# Título do gráfico e dos eixos
plt.title("Distribuição das Classes de Obesidade")
plt.xlabel("N° de indivíduos")
plt.ylabel("Nível de obesidade")

# Display da visualização
plt.show()

### **4.2.4 Análise de Correlação entre Atributos**

Nesta seção, serão exploradas as correlações entre alguns atributos que foram considerados relevantes dentro do contexto do dataset utilizado. Nem todas as variáveis foram incluídas nessa análise, sendo que o foco foi dado àquelas que poderiam fornecer insights mais interessantes ou que apresentam uma maior possibilidade de relação entre si. O objetivo desta análise é identificar padrões e possíveis dependências entre os atributos, o que pode fornecer uma base importante para futuras etapas de modelagem e construção de modelos preditivos.

In [None]:
# ======================================================
# Relação entre Atributos - Idade e Peso
# ======================================================

In [None]:
# ======================================================
# Relação entre Atributos - FCVC e Peso
# ======================================================

In [None]:
# ======================================================
# Relação entre Atributos - Gênero e Peso
# ======================================================

In [None]:
# ======================================================
# Relação entre Atributos - Gênero e NObesydad
# ======================================================

# **5. Pré-processamento dos Dados**

O pré-processamento de um conjunto de dados é uma etapa crucial em projetos de ciência de dados, pois assegura que os dados estejam em um formato adequado para análise e modelagem. Um pré-processamento eficaz não apenas melhora a qualidade dos dados, mas também pode aumentar a performance dos modelos de machine learning, garantindo que as análises e previsões sejam precisas e confiáveis.

É importante mencionar que algumas operações básicas de pré-processamento não serão necessárias para este conjunto de dados, como a remoção ou tratamento de valores nulos ou faltantes. Isso se deve ao fato de que a base de dados possui um cuidado prévio em relação a este aspecto, visto que foi disponibilizada por um artigo científico. Além disso, na etapa de análise exploratória geral (seção 4.1), foi evidenciado que essas operações de pré-processamento não se aplicam a este conjunto específico de dados.

## **5.1 Pré-processamento - Geral**

A primeira modificação geral considerada necessária no dataset foi a alteração da nomenclatura das colunas. Essa mudança visa melhorar a legibilidade das informações, substituindo as abreviações adotadas no conjunto de dados original por nomes mais descritivos e acessíveis. Essa abordagem facilita a interpretação e análise dos dados ao longo do estudo.

In [None]:
# Dicionário com os novos nomes das colunas
columnNameMap = {
    "Gender": "Genero",
    "Age": "Idade",
    "Height": "Altura",
    "Weight": "Peso",
    "family_history_with_overweight": "Historico_Obesidade",
    "FAVC": "Comida_Calorica",
    "FCVC": "Freq_Consumo_Vegetais",
    "NCP": "Num_Refeicoes",
    "CAEC": "Freq_Consumo_Entre_Refeicoes",
    "SMOKE": "Fumante",
    "CH2O": "Consumo_Agua",
    "SCC": "Monitoramento_Calorias",
    "FAF": "Freq_Ativ_Fisica",
    "TUE": "Tempo_Tecnologia",
    "CALC": "Consome_Alcool",
    "MTRANS": "Transporte",
    "NObeyesdad": "Grau_Obesidade"
}

# Alteração da nomenclatura das colunas
processedDataFrame = dataFrame.rename(columns=columnNameMap)

# Mostra as 20 primeiras linhas após alteração de nomenclatura
processedDataFrame.head(20)

Em seguida, a única outra alteração geral realizada no dataset foi a remoção de linhas duplicadas, com o objetivo de garantir uma base de dados mais limpa e consistente, facilitando análises futuras e contribuindo para a construção de modelos de machine learning.

In [None]:
# Remoção de linhas duplicadas
processedDataFrame = processedDataFrame.drop_duplicates()

# Confirma que as linhas foram removidas
oldLinesCount = dataFrame.shape[0]
newLinesCount = processedDataFrame.shape[0]
print(f"Linhas duplicadas removidas: {oldLinesCount - newLinesCount}")

## **5.2 Pré-processamento - Atributos**

Nesta seção, será realizado o pré-processamento em algumas colunas específicas do dataset, nas quais se identificou a possibilidade de melhorias e alterações necessárias para uma melhor representação da realidade. Além disso, essas modificações visam facilitar a construção de um possível modelo de classificação, assegurando que as variáveis sejam mais adequadas para a análise subsequente.

Na coluna 'Genero', decidiu-se alterar os valores 'Male' para 'M' e 'Female' para 'F' com o intuito de trazer mais simplicidade aos dados e permitir tanto o entendimento dessa abreviação em inglês quanto em português (M = Male ou Masculino e F = Female ou Feminino).

In [None]:
# ================================
# Coluna - Gênero
# ================================

# Alteração dos valores da coluna
processedDataFrame["Genero"] = dataFrame["Gender"].replace({"Male": "M", "Female": "F"})

# Mostra as 20 primeiras linhas
processedDataFrame.head(20)

Na coluna 'Idade', como foi evidenciado na etapa de análise exploratória, existem valores interpolados com até 6 casas decimais. Como este tipo de valor contínuo não faz sentido para representar uma idade, decidiu-se arredondar os valores de idade para o inteiro mais próximo, a fim de melhor se adequar à realidade.

In [None]:
# ================================
# Coluna - Idade
# ================================

# Arredonda os valores para o inteiro mais próximo
processedDataFrame["Idade"] = dataFrame["Age"].round().astype(int)

# Mostra as 20 últimas linhas (que anteriormente possuiam valores com casas decimais)
processedDataFrame.tail(20)

Nas colunas 'Altura' e 'Peso', embora o tipo dos dados esteja correto, decidiu-se arredondá-los para duas casas decimais. Essa escolha se justifica pelo fato de que os valores com seis casas decimais, apresentados na parte do dataset gerada artificialmente, não agregam valor à representação dessas variáveis.

In [None]:
# ================================
# Colunas - Altura e Peso
# ================================

# Arredonda os valores para 2 casas decimais
processedDataFrame["Altura"] = dataFrame["Height"].round(2)
processedDataFrame["Peso"] = dataFrame["Weight"].round(2)

# Mostra as 20 últimas linhas (que anteriormente possuiam valores com casas decimais)
processedDataFrame.tail(20)

Conforme mencionado na seção 4.2, a coluna 'Freq_Consumo_Vegetais' originalmente deveria conter respostas categóricas representadas pelos valores 1 (Never), 2 (Sometimes) e 3 (Always). No entanto, foi registrada como uma variável contínua. Para melhor aderir ao formato da pesquisa original, decidiu-se converter esta coluna em uma variável categórica com as respostas inicialmente propostas: Never, Sometimes e Always.

In [None]:
# ================================
# Coluna - Freq_Consumo_Vegetais
# ================================

# Função para mapear os valores numéricos para os valores categóricos
def MapVegetableConsumption(value):
    if value < 1.5:
        return "Never"
    elif value < 2.5:
        return "Sometimes"
    else:
        return "Always"


# Aplica a função de mapeamento na coluna
processedDataFrame["Freq_Consumo_Vegetais"] = dataFrame["FCVC"].apply(MapVegetableConsumption)

# Mostra a distribuição da coluna após a transformação
categoriesOrder = ["Always", "Sometimes", "Never"]
categoriesColors = ["#4CAF50", "#FFEB3B", "#E57373"]
plt = PlotMultipleCategoricColumn("Frequência de Consumo de Vegetais nas Refeições",
                                  processedDataFrame,
                                  "Freq_Consumo_Vegetais",
                                  categoriesOrder,
                                  categoriesColors)


Seguindo a mesma lógica do que foi apresentado para a variável Idade, decidiu-se transformar os valores da coluna 'Num_Refeicoes' para valores discretos/inteiros, para melhor se adequar à quantidade de refeições que uma pessoa faz na realidade.

In [None]:
# ================================
# Coluna - Num_Refeicoes
# ================================

# Arredonda os valores para o inteiro mais próximo
processedDataFrame["Num_Refeicoes"] = dataFrame["NCP"].round().astype(int)

# Plotagem da distribuição após alterações
plt = PlotIntegerHistogram(processedDataFrame,
                           "Num_Refeicoes",
                           "Num_Refeicoes",
                           8,
                           "Distribuição do N° de Refeições Principais")
plt.show()

Seguiu-se a mesma premissa discutida no atributo 'Num_Refeicoes' e converteu-se os valores da coluna 'Freq_Ativ_Fisica' para valores discretos, com o intuito de melhor representar a frequência semanal de realização de atividades físicas, adequando os dados à realidade.

In [None]:
# ================================
# Coluna - Freq_Ativ_Fisica
# ================================

# Arredonda os valores para o inteiro mais próximo
processedDataFrame["Freq_Ativ_Fisica"] = dataFrame["FAF"].round().astype(int)

# Plotagem da distribuição após alterações
plt = PlotIntegerHistogram(processedDataFrame,
                    "Freq_Ativ_Fisica",
                    "Freq_Ativ_Fisica",
                    8,
                    "Distribuição da Frequência Semanal de Atividades Físicas")
plt.show()


Para a coluna 'Tempo_Tecnologia', decidiu-se converter os valores numéricos contínuos em categorias representativas dos níveis de utilização diária de dispositivos tecnológicos. Esta transformação foi realizada para melhor capturar os hábitos dos indivíduos em termos de uso de tecnologia, conforme sugerido pelas opções de resposta originalmente propostas na pesquisa que originou o dataset. Os valores foram categorizados em três níveis: 'Baixo', para o uso diário entre 0 e 2 horas, 'Medio', para o uso entre 3 e 5 horas, e 'Alto', para o uso maior que 5 horas. Esta mudança facilita a interpretação dos dados.

In [None]:
# ================================
# Coluna - Tempo_Tecnologia
# ================================

# Função para mapear os valores numéricos para os valores categóricos
def MapTechnologyTime(value):
    if value < 2:
        return "Baixo"
    elif value < 5:
        return "Medio"
    else:
        return "Alto"


# Aplica a função de mapeamento na coluna
processedDataFrame["Tempo_Tecnologia"] = dataFrame["TUE"].apply(MapTechnologyTime)

# Mostra a distribuição da coluna após a transformação
categoriesOrder = ["Alto", "Medio", "Baixo"]
categoriesColors = ["#4CAF50", "#FFEB3B", "#E57373"]
plt = PlotMultipleCategoricColumn("Distribuição do Tempo Diário Gasto com Aparelhos Tecnológicos",
                                  processedDataFrame,
                                  "Tempo_Tecnologia",
                                  categoriesOrder,
                                  categoriesColors)

# **6. Considerações finais**

Apesar dos avanços realizados neste trabalho, algumas limitações devem ser ressaltadas. O escopo deste estudo foi limitado às etapas iniciais de análise exploratória e pré-processamento dos dados. Por esse motivo, etapas subsequentes como a divisão dos dados em conjuntos de treino e teste, o ajuste de hiperparâmetros e a aplicação de algoritmos de machine learning não foram abordadas. No entanto, acredita-se que essas etapas seriam uma excelente extensão para o aprimoramento futuro deste estudo, permitindo verificar a validade da proposta original do artigo que disponibilizou os dados, no que tange à predição dos níveis de obesidade.

É interessante destacar as transformações realizadas durante a etapa de pré-processamento. Muitas dessas transformações foram feitas com o objetivo de facilitar a interpretação dos dados e adequá-los melhor à realidade. Contudo, é importante reconhecer que os autores do artigo original seguiram um processo estruturado para gerar a parte artificial dos dados. Os valores interpolados ou calculados possuem um significado que está atrelado aos dados obtidos pela pesquisa online. Uma possibilidade interessante para trabalhos futuros seria comparar o desempenho de modelos preditivos treinados tanto com o dataset original quanto com o dataset modificado ao longo deste trabalho, a fim de verificar se essas alterações impactam de maneira significativa os resultados e a acurácia dos modelos.

Por fim, após o processo realizado neste trabalho, fica evidente a importância de contar com dados que possuam boa variedade, além de serem bem organizados e tratados. Esses fatores são fundamentais tanto para a criação de visualizações precisas quanto para embasar decisões de negócios ou o treinamento de modelos de machine learning. Durante a análise dos dados, uma limitação significativa identificada foi a predominância de pessoas muito jovens, sendo 75% dos indivíduos com 26 anos ou menos. Acredita-se que uma maior variabilidade na faixa etária dos participantes seria essencial para proporcionar uma compreensão mais abrangente do problema da obesidade.