<h1>Data Dictionary</h1>

- <b>Gender</b> : Sex of individual
- <b>Age</b> : How old is the individual
- <b>Height</b> : How tall is the individual
- <b>Weight</b> : How heavy is the individual
- <b>family_history_with_overweight</b> :Family history of obesity
- <b>FAVC</b> : Frequency of consumption of high-calorie foods
- <b>FCVC</b> : Frequency of vegetable consumption
- <b>NCP</b> : Number of main meals
- <b>CAEC</b> : Food consumption between meals
- <b>SMOKE</b> : Tobacco use
- <b>CH20</b> : Daily water consumption
- <b>SCC</b> : Monitoring calorie consumption13.
- <b>FAF</b> : Frequency of physical activity
- <b>TUE</b> : Time for using technological devices
- <b>CALC</b> : Alcohol consumption
- <b>MTanANS</b> : Mode of transport used
- <b>NObeyesdad</b> : Gives us the obesity status of the person

In [None]:
!pip install display

In [None]:
import pandas as pd
import display
# Set the option to display all columns
pd.set_option('display.max_columns', None)

In [None]:
train = pd.read_csv("train.csv")
test = pd.read_csv("test.csv")


In [None]:
train.head()

In [None]:
test.head()

<h1>EDA</h1>

<h5>Verify Null Values</h5>

In [None]:
train.isnull().sum()

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np
from scipy.stats import skew

class EDA:
    def __init__(self, df, target_col):
        self.df = df
        self.target_col = target_col
        self.numeric_cols = self.df.select_dtypes(include=np.number).columns.tolist()
        self.categorical_cols = self.df.select_dtypes(include=['object', 'category']).columns.tolist()
        if self.target_col not in self.numeric_cols:
            self.categorical_cols.append(self.target_col)
        if self.target_col not in self.df.columns:
            raise ValueError(f"A coluna alvo '{self.target_col}' não foi encontrada no DataFrame.")
        
        # Aqui você precisa definir o mapeamento de volta, que deve ser definido fora desta classe ou durante a inicialização
        self.label_mapping = {
            0: 'Normal_Weight', 
            1: 'Overweight_Level_I', 
            2: 'Overweight_Level_II',
            3: 'Obesity_Type_I', 
            4: 'Obesity_Type_II', 
            5: 'Obesity_Type_III', 
            6: 'Underweight'
        }

    def summary(self):
        """Exibe um resumo geral do DataFrame e suas colunas."""
        print("Informações Gerais:")
        print(self.df.info())
        print("\nDescrição Estatística das Variáveis Numéricas:")
        print(self.df.describe())
        print("\nContagem de Valores Ausentes:")
        print(self.df.isnull().sum())
        print("\nContagem de Duplicatas:")
        print(self.df.duplicated().sum())

    def check_skewness(self):
        """Verificar se as variáveis numéricas estão skewed (assimétricas)."""
        skewness_values = self.df[self.numeric_cols].apply(skew).sort_values(ascending=False)
        print("\nAssimetria das Variáveis Numéricas:")
        print(skewness_values)
        return skewness_values

    def correlation_analysis(self):
        """Mapa de calor das correlações entre variáveis numéricas, incluindo a variável alvo."""
        skewness = self.check_skewness()
        method = 'pearson' if all(abs(skewness) < 0.5) else 'spearman'
        print(f"\nUsando a correlação: {method.capitalize()}")

        plt.figure(figsize=(12, 10))
        # Garantindo que apenas uma representação da variável alvo seja usada
        cols_for_corr = self.numeric_cols + [self.target_col]  # Removendo 'target_numeric' se estiver na lista
        if 'target_numeric' in cols_for_corr:
            cols_for_corr.remove('target_numeric')
        correlation_matrix = self.df[cols_for_corr].corr(method=method)
        sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt='.2f')
        plt.title(f"Mapa de Calor de Correlações ({method.capitalize()})")
        plt.show()


    def univariate_analysis(self):
        """Análise univariada das variáveis numéricas e categóricas."""
        print("\nDistribuição da Variável Alvo:")
        plt.figure(figsize=(8, 6))
        sns.countplot(x=self.target_col, data=self.df)
        # Obter as posições dos ticks atuais e os valores únicos ordenados
        ticks = plt.gca().get_xticks()
        labels = [self.label_mapping.get(int(x), x) for x in sorted(self.df[self.target_col].unique())]
        plt.xticks(ticks, labels, rotation=45)
        plt.show()

        print("\nDistribuição das Variáveis Numéricas:")
        self.df.hist(bins=15, figsize=(15, 10))
        plt.tight_layout()
        plt.show()


    def complete_eda(self):
        """Executar todas as análises juntas."""
        self.summary()
        self.univariate_analysis()
        self.correlation_analysis()

# Uso de exemplo:
# df = pd.read_csv('/mnt/data/train.csv')  # Altere para o caminho correto do arquivo
# eda = EDA(df, target_col='NObeyesdad')
# eda.complete_eda()


In [None]:
eda = EDA(train, target_col='NObeyesdad')
eda.complete_eda()