# Conjunto de dados para previsão de gordura corporal
##### Estimativas de gordura corporal e diversas medidas de circunferência corporal para 252 homens.

# Predição de Gordura Corporal com CRISP-DM

Este notebook implementa uma análise exploratória e um modelo de regressão para prever o percentual de gordura corporal (body fat) com base em variáveis antropométricas. Todo o processo segue a metodologia CRISP-DM (Cross-Industry Standard Process for Data Mining), abrangendo desde o entendimento do negócio até a modelagem e avaliação.

## 1. Entendimento do Negócio (Business Understanding)

**Objetivo:**  
Desenvolver um modelo de Machine Learning capaz de prever o percentual de gordura corporal a partir de medidas físicas como peso, altura, circunferências corporais e dobras cutâneas. Esse tipo de estimativa pode ser útil em academia, saúde preventiva, nutrição e avaliação física.

**Motivação:**  
Medições diretas de gordura corporal, como DEXA ou pesagem hidrostática, são caras e pouco acessíveis. Um modelo preditivo baseado em medidas simples e de baixo custo pode democratizar esse tipo de avaliação.

**Métricas de Sucesso:**  
Como se trata de um problema de regressão, serão priorizadas métricas como:

- **MAE** (Mean Absolute Error)  
- **RMSE** (Root Mean Squared Error)  
- **R²** (Coeficiente de Determinação)

Um modelo de sucesso deve prever a gordura corporal com erro médio suficientemente baixo para ser aplicável em avaliações físicas reais.

## 2. Entendimento dos Dados (Data Understanding)

Nesta etapa, exploramos o dataset para compreender sua estrutura, distribuição das variáveis, possíveis inconsistências e relacionamentos importantes para a modelagem.

### 2.1 Carregamento e Visão Geral Inicial

O dataset **[Body Fat Prediction Dataset](https://www.kaggle.com/datasets/fedesoriano/body-fat-prediction-dataset)**, disponível no Kaggle, contém medições antropométricas de indivíduos, incluindo:

- Idade  
- Peso  
- Altura  
- Circunferências corporais (abdômen, quadril, peito, coxa etc.)  
- Dobras cutâneas  
- Percentual de gordura corporal (variável alvo)

Nesta fase investigaremos:

- Estatísticas descritivas  
- Distribuição das variáveis  
- Outliers  
- Correlações entre atributos  
- Possíveis problemas de qualidade ou inconsistência nos dados  

Esses insights orientarão as etapas seguintes de preparação e modelagem.

In [None]:
import kagglehub
from kagglehub import KaggleDatasetAdapter
import pandas as pd

# Nome do arquivo principal do dataset no Kaggle
file_path = "bodyfat.csv"

# Carregar o dataset usando KaggleHub
df = kagglehub.load_dataset(
    KaggleDatasetAdapter.PANDAS,
    "fedesoriano/body-fat-prediction-dataset",
    file_path,
)

# Visão geral inicial
print("Formato do dataset:", df.shape)
display(df.head())

print("\n")

print("\nTipos das variáveis:")
print(df.dtypes)

print("\n")

print("\nEstatísticas descritivas:")
display(df.describe())

print("\n")

print("\nValores ausentes por coluna:")
print(df.isnull().sum())