# Análise Exploratória de Dados

In [21]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from IPython.display import HTML, Image, display

## Coleta dos dados

In [3]:
df = pd.read_csv("../kaggle/ObesityDataSet_raw_and_data_sinthetic.csv")
display(df)

Unnamed: 0,Age,Gender,Height,Weight,CALC,FAVC,FCVC,NCP,SCC,SMOKE,CH2O,family_history_with_overweight,FAF,TUE,CAEC,MTRANS,NObeyesdad
0,21.000000,Female,1.620000,64.000000,no,no,2.0,3.0,no,no,2.000000,yes,0.000000,1.000000,Sometimes,Public_Transportation,Normal_Weight
1,21.000000,Female,1.520000,56.000000,Sometimes,no,3.0,3.0,yes,yes,3.000000,yes,3.000000,0.000000,Sometimes,Public_Transportation,Normal_Weight
2,23.000000,Male,1.800000,77.000000,Frequently,no,2.0,3.0,no,no,2.000000,yes,2.000000,1.000000,Sometimes,Public_Transportation,Normal_Weight
3,27.000000,Male,1.800000,87.000000,Frequently,no,3.0,3.0,no,no,2.000000,no,2.000000,0.000000,Sometimes,Walking,Overweight_Level_I
4,22.000000,Male,1.780000,89.800000,Sometimes,no,2.0,1.0,no,no,2.000000,no,0.000000,0.000000,Sometimes,Public_Transportation,Overweight_Level_II
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2106,20.976842,Female,1.710730,131.408528,Sometimes,yes,3.0,3.0,no,no,1.728139,yes,1.676269,0.906247,Sometimes,Public_Transportation,Obesity_Type_III
2107,21.982942,Female,1.748584,133.742943,Sometimes,yes,3.0,3.0,no,no,2.005130,yes,1.341390,0.599270,Sometimes,Public_Transportation,Obesity_Type_III
2108,22.524036,Female,1.752206,133.689352,Sometimes,yes,3.0,3.0,no,no,2.054193,yes,1.414209,0.646288,Sometimes,Public_Transportation,Obesity_Type_III
2109,24.361936,Female,1.739450,133.346641,Sometimes,yes,3.0,3.0,no,no,2.852339,yes,1.139107,0.586035,Sometimes,Public_Transportation,Obesity_Type_III


## Limpeza dos dados

Identificando se há duplicatas no dataframe

In [5]:
df.duplicated().sum()

24

Função para limpar os dados, remover as duplicatas, converter a coluna **['Age']** para `int`;   
as colunas **['Gender', 'CALC', 'FAVC', 'SCC', 'SMOKE', 'family_history_with_overweight', 'CAEC', 'MTRANS', 'NObeyesdad']** para `category`;  
e transformando as colunas com valores `float`  **['Height', 'Weight', 'NCP', 'FCVC', 'CH2O', 'FAF', 'TUE']**  para exibir apenas duas casas decimais.

In [9]:
def limpar_dados(df):    
    df = df.copy()
  
    df.drop_duplicates(inplace=True)
  
    df['Age'] = df['Age'].astype(int)
    colunas_para_categoria = ['Gender', 'CALC', 'FAVC', 'SCC', 'SMOKE', 'family_history_with_overweight', 'CAEC', 'MTRANS', 'NObeyesdad']
    df[colunas_para_categoria] = df[colunas_para_categoria].astype('category')
    colunas_float = ['Height', 'Weight', 'NCP', 'FCVC', 'CH2O', 'FAF', 'TUE']
    df[colunas_float] = df[colunas_float].round(2)
    
    return df

df_backup = df.copy() # Backup do df original
df = limpar_dados(df) # Limpando o df original

In [10]:
df.shape

(2087, 17)

## Descrição dos dados

In [16]:
imagem = f'<div style="text-align:center;"><img src="../images/bodymassindex.png" width="800" height="600"></div>'
display(HTML(imagem))

### Conjunto de Dados "Obesity Levels"

O conjunto de dados "Obesity Levels" contém informações sobre características demográficas, hábitos alimentares, histórico familiar e níveis de atividade física de indivíduos, com foco na classificação do nível de obesidade. Estes dados são essenciais para compreender os principais fatores associados à obesidade e amplamente utilizados em tarefas de aprendizado de máquina. A riqueza dessas informações permite investigar diversas hipóteses sobre as relações entre os diferentes atributos e o nível de obesidade, contribuindo para o desenvolvimento de estratégias mais eficazes de prevenção e manejo desta condição crônica de saúde pública.

## Distribuição dos dados

In [17]:
df.describe(include='all')

Unnamed: 0,Age,Gender,Height,Weight,CALC,FAVC,FCVC,NCP,SCC,SMOKE,CH2O,family_history_with_overweight,FAF,TUE,CAEC,MTRANS,NObeyesdad
count,2087.0,2087,2087.0,2087.0,2087,2087,2087.0,2087.0,2087,2087,2087.0,2087,2087.0,2087.0,2087,2087,2087
unique,,2,,,4,2,,,2,2,,2,,,4,5,7
top,,Male,,,Sometimes,yes,,,no,no,,yes,,,Sometimes,Public_Transportation,Obesity_Type_I
freq,,1052,,,1380,1844,,,1991,2043,,1722,,,1761,1558,351
mean,24.009104,,1.702616,86.858706,,,2.421409,2.701203,,,2.004792,,1.012827,0.663057,,,
std,6.333297,,0.093251,26.190838,,,0.534807,0.764655,,,0.608281,,0.853496,0.608183,,,
min,14.0,,1.45,39.0,,,1.0,1.0,,,1.0,,0.0,0.0,,,
25%,19.0,,1.63,66.0,,,2.0,2.7,,,1.59,,0.125,0.0,,,
50%,22.0,,1.7,83.1,,,2.4,3.0,,,2.0,,1.0,0.63,,,
75%,26.0,,1.77,108.015,,,3.0,3.0,,,2.465,,1.68,1.0,,,


In [18]:
df.dtypes

Age                                  int64
Gender                            category
Height                             float64
Weight                             float64
CALC                              category
FAVC                              category
FCVC                               float64
NCP                                float64
SCC                               category
SMOKE                             category
CH2O                               float64
family_history_with_overweight    category
FAF                                float64
TUE                                float64
CAEC                              category
MTRANS                            category
NObeyesdad                        category
dtype: object

## Dicionário de dados

In [19]:
dicionario = pd.DataFrame([
    {
        "variavel": "Age",
        "descricao": "Idade do indivíduo",
        "tipo": "quantitativa",
        "subtipo": "discreta"
    },
    {
        "variavel": "Gender",
        "descricao": "Gênero do indivíduo",
        "tipo": "qualitativa",
        "subtipo": "nominal"
    },
    {
        "variavel": "Height",
        "descricao": "Altura do indivíduo (em metros)",
        "tipo": "quantitativa",
        "subtipo": "contínua"
    },
    {
        "variavel": "Weight",
        "descricao": "Peso do indivíduo (em quilogramas)",
        "tipo": "quantitativa",
        "subtipo": "contínua"
    },
    {
        "variavel": "CALC",
        "descricao": "Frequência do consumo de álcool do indivíduo",
        "tipo": "qualitativa",
        "subtipo": "ordinal"
    },
    {
        "variavel": "FAVC",
        "descricao": "Frequência do consumo de alimentos com alto índice calórico",
        "tipo": "qualitativa",
        "subtipo": "nominal"
    },
    {
        "variavel": "FCVC",
        "descricao": "Frequência do consumo de vegetais do indivíduo",
        "tipo": "quantitativa",
        "subtipo": "discreta"
    },
    {
        "variavel": "NCP",
        "descricao": "Número de refeições principais do indivíduo",
        "tipo": "quantitativa",
        "subtipo": "discreta"
    },
    {
        "variavel": "SCC",
        "descricao": "Monitoramento das calorias consumidas diariamente",
        "tipo": "qualitativa",
        "subtipo": "nominal"
    },
    {
        "variavel": "SMOKE",
        "descricao": "Hábito de fumar do indivíduo",
        "tipo": "qualitativa",
        "subtipo": "nominal"
    },
    {
        "variavel": "CH2O",
        "descricao": "Consumo de água do indivíduo (em litros)",
        "tipo": "quantitativa",
        "subtipo": "contínua"
    },
    {
        "variavel": "family_history_with_overweight",
        "descricao": "Histórico familiar de sobrepeso",
        "tipo": "qualitativa",
        "subtipo": "nominal"
    },
    {
        "variavel": "FAF",
        "descricao": "Tempo gasto em atividades físicas (em horas)",
        "tipo": "quantitativa",
        "subtipo": "contínua"
    },
    {
        "variavel": "TUE",
        "descricao": "Tempo gasto em dispositivos tecnológicos (em horas)",
        "tipo": "quantitativa",
        "subtipo": "contínua"
    },
    {
        "variavel": "CAEC",
        "descricao": "Consumo de comida entre as refeições",
        "tipo": "qualitativa",
        "subtipo": "nominal"
    },
    {
        "variavel": "MTRANS",
        "descricao": "Meio de transporte usado regularmente pelo indivíduo",
        "tipo": "qualitativa",
        "subtipo": "nominal"
    },
    {
        "variavel": "NObeyesdad",
        "descricao": "Classificação de obesidade do indivíduo",
        "tipo": "qualitativa",
        "subtipo": "ordinal"
    }
])

dicionario.to_csv('../data/external/dictionary.csv', index=False)

#### Variáveis do Conjunto de Dados:

1. **Age (Idade)**: Representa a idade do indivíduo em anos. Esta variável é quantitativa e discreta.

2. **Gender (Gênero)**: Indica o gênero do indivíduo. Esta variável é qualitativa e nominal.

3. **Height (Altura)**: Refere-se à altura do indivíduo em metros. Esta variável é quantitativa e contínua.

4. **Weight (Peso)**: Indica o peso do indivíduo em quilogramas. Esta variável é quantitativa e contínua.

5. **CALC (Consumo de Álcool)**: Representa a frequência do consumo de álcool pelo indivíduo. Esta variável é qualitativa e ordinal.

6. **FAVC (Consumo de Alimentos Calóricos)**: Indica a frequência do consumo de alimentos com alto teor calórico pelo indivíduo. Esta variável é qualitativa e nominal.

7. **FCVC (Consumo de Vegetais)**: Refere-se à frequência do consumo de vegetais pelo indivíduo. Esta variável é quantitativa e discreta.

8. **NCP (Número de Refeições Principais)**: Indica o número de refeições principais do indivíduo por dia. Esta variável é quantitativa e discreta.

9. **SCC (Monitoramento de Calorias Consumidas)**: Indica se o indivíduo realiza monitoramento das calorias consumidas diariamente. Esta variável é qualitativa e nominal.

10. **SMOKE (Hábito de Fumar)**: Indica se o indivíduo é fumante. Esta variável é qualitativa e nominal.

11. **CH2O (Consumo de Água)**: Representa o consumo de água do indivíduo em litros. Esta variável é quantitativa e contínua.

12. **Family_history_with_overweight (Histórico Familiar de Sobrepeso)**: Indica se o indivíduo possui histórico familiar de sobrepeso. Esta variável é qualitativa e nominal.

13. **FAF (Atividade Física)**: Refere-se ao tempo gasto em atividades físicas pelo indivíduo em horas. Esta variável é quantitativa e contínua.

14. **TUE (Tempo de Uso de Tecnologia)**: Indica o tempo gasto em dispositivos tecnológicos, como celulares, em horas. Esta variável é quantitativa e contínua.

15. **CAEC (Consumo de Comida entre Refeições)**: Representa o consumo de comida entre as refeições pelo indivíduo. Esta variável é qualitativa e nominal.

16. **MTRANS (Meio de Transporte)**: Indica o meio de transporte usado regularmente pelo indivíduo. Esta variável é qualitativa e nominal.

17. **NObeyesdad (Classificação de Obesidade)**: Refere-se à classificação de obesidade do indivíduo. Esta variável é qualitativa e ordinal.

## Perguntas de partida e hipóteses

   ##### 1. Correlação entre a idade e nível de obesidade
   ##### 2. Diferença do gênero na prevalência da obesidade
   ##### 3. Impacto do consumo do álcool e tabagismo na obesidade
   ##### 4. Relação entre a altura, o peso e o nível de obesidade
   ##### 5. Influência do histórico familiar na obesidade
   ##### 6. Associação entre hábitos alimentares e obesidade
   ##### 7. Correlação entre atividade física e obesidade
   ##### 8. Correlação entre o tempo gasto em dispositivos tecnológicos e obesidade