In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import pearsonr, shapiro

arquivo = "./bodyfat.csv"

def carregar_dados():
    try:
        dados = pd.read_csv(arquivo)
        return dados
    except FileNotFoundError:
        print(f"Arquivo {arquivo} não encontrado.")
        return None

def resposta_questao_1(dados):
    print("Resolvendo a 1ª questão do desafio...")
    print("Colunas disponíveis no dataset:")
    print(dados.columns.tolist())
    # Seleção de colunas relevantes
    colunas = ['BodyFat', 'Age', 'Weight', 'Height', 'Abdomen']
    print("\nColunas selecionadas para análise:")
    print(colunas)
    # Estatísticas de posição e dispersão
    print("\nEstatísticas descritivas:")
    print(dados[colunas].describe())

    # Coeficiente de variação (CV = desvio padrão / média)
    cv = dados[colunas].std() / dados[colunas].mean() * 100
    print("\nCoeficiente de variação (%):")
    print(cv)
    # Hipótese: BodyFat e Abdomen devem ter alta correlação
    # Hipótese: Height e BodyFat devem ter baixa correlação

    corr_alta, _ = pearsonr(dados['BodyFat'], dados['Abdomen'])
    corr_baixa, _ = pearsonr(dados['Height'], dados['BodyFat'])

    print(f"\nCorrelação BodyFat vs Abdomen (esperada alta): {corr_alta:.2f}")
    print(f"Correlação Height vs BodyFat (esperada baixa): {corr_baixa:.2f}")

    # Matriz de correlação completa
    print("\nMatriz de correlação de Pearson:")
    print(dados[colunas].corr())
    # Teste de normalidade para a coluna Height
    stat, p = shapiro(dados['Height'])
    print(f"\nTeste de Shapiro-Wilk para Height:")
    print(f"Estatística: {stat:.4f}, p-valor: {p:.4f}")

    if p > 0.05:
        print("Conclusão: Height segue uma distribuição aproximadamente normal.")
    else:
        print("Conclusão: Height não segue uma distribuição normal.")

    print("\nGerando gráfico Boxplot da coluna Height:")
    boxplot_height(dados)


def boxplot_height(dados):
    plt.figure(figsize=(8, 4))
    sns.boxplot(x=dados['Height'], color='skyblue')
    plt.title("Boxplot da Altura (Height)")
    plt.xlabel("Height (cm)")
    plt.grid(True)
    plt.show()



def main():
    print("Iniciando aplicação.")
    print("- Iniciando o processamento dos dados...\n")
    dados = carregar_dados()
    if dados is not None:
        print("- Dados carregados com sucesso!")
        #print(dados.head())
        print("\n 1ª Questão do desafio: \n")
        resposta_questao_1(dados)


if __name__ == "__main__":
    main()

Iniciando aplicação.
- Iniciando o processamento dos dados...

- Dados carregados com sucesso!

 1ª Questão do desafio: 

Resolvendo a 1ª questão do desafio...
Colunas disponíveis no dataset:
['Density', 'BodyFat', 'Age', 'Weight', 'Height', 'Neck', 'Chest', 'Abdomen', 'Hip', 'Thigh', 'Knee', 'Ankle', 'Biceps', 'Forearm', 'Wrist']

Colunas selecionadas para análise:
['BodyFat', 'Age', 'Weight', 'Height', 'Abdomen']

Estatísticas descritivas:
          BodyFat         Age      Weight      Height     Abdomen
count  252.000000  252.000000  252.000000  252.000000  252.000000
mean    19.150794   44.884921  178.924405   70.148810   92.555952
std      8.368740   12.602040   29.389160    3.662856   10.783077
min      0.000000   22.000000  118.500000   29.500000   69.400000
25%     12.475000   35.750000  159.000000   68.250000   84.575000
50%     19.200000   43.000000  176.500000   70.000000   90.950000
75%     25.300000   54.000000  197.000000   72.250000   99.325000
max     47.500000   81.000