# Tratamento_Valores_Ausentes_e_Inconsistencias

## Análise e Tratamento de Valores Ausentes e Inconsistências

### 1 Importação das bibliotecas

In [None]:
import pandas as pd
import numpy as np


### 2 Criação do dataset simulado com problemas

In [None]:
np.random.seed(123) # para reprodutibilidade
n_rows_ex = 200
dados_ex = {
'peso': np.random.normal(70, 15, n_rows_ex),
'altura': np.random.normal(1.70, 0.15, n_rows_ex),
'idade': np.random.normal(35, 12, n_rows_ex),
'genero': np.random.choice(['M', 'F', 'Masculino', 'Feminino', 'm', 'f'],
n_rows_ex),
'atividade_fisica': np.random.choice(['Sedentário', 'Moderado', 'Ativo',
'Muito Ativo', 'sedentario'], n_rows_ex),
'consumo_calorico': np.random.lognormal(7, 0.4, n_rows_ex),
'pressao_arterial_sistolica': np.random.normal(120, 20, n_rows_ex)
}
df_exercicio = pd.DataFrame(dados_ex)
df_exercicio.head()


### 3 Inserindo problemas propositalmente

In [None]:
# Valores ausentes
df_exercicio.loc[df_exercicio.sample(frac=0.1).index, 'peso'] = np.nan
df_exercicio.loc[df_exercicio.sample(frac=0.15).index, 'altura'] = np.nan
df_exercicio.loc[df_exercicio.sample(frac=0.08).index,
'consumo_calorico'] = np.nan
# Inconsistências
df_exercicio.loc[10, 'peso'] = -70 # peso negativo
df_exercicio.loc[25, 'altura'] = 3.5 # altura irreal
df_exercicio.loc[30, 'idade'] = -5 # idade negativa
df_exercicio.head(15)

### 4 Análise de valores ausentes


In [None]:
df_exercicio.isna().sum()


### 5 Tratamento dos valores ausentes


In [None]:
df_exercicio['peso'].fillna(df_exercicio['peso'].mean(), inplace=True)
df_exercicio['altura'].fillna(df_exercicio['altura'].mean(),
inplace=True)
df_exercicio['consumo_calorico'].fillna(df_exercicio['consumo_calorico'].
mean(), inplace=True)


### 6 Detecção e correção de inconsistências


In [None]:
# Detectar e corrigir inconsistências
df_exercicio.loc[df_exercicio['peso'] < 0, 'peso'] =
df_exercicio[df_exercicio['peso'] > 0]['peso'].mean()
df_exercicio.loc[df_exercicio['altura'] > 2.5, 'altura'] =
df_exercicio['altura'].mean()
df_exercicio.loc[df_exercicio['idade'] < 0, 'idade'] =
df_exercicio['idade'].mean()


### 7 Padronização de dados categóricos

In [None]:
df_exercicio['genero'] = df_exercicio['genero'].replace({
'M': 'Masculino',
'm': 'Masculino',
'F': 'Feminino',
'f': 'Feminino'
})
df_exercicio['atividade_fisica'] =
df_exercicio['atividade_fisica'].replace({
'sedentario': 'Sedentário'
})


### 8 Verificação final


In [None]:
print("Valores ausentes restantes:")
print(df_exercicio.isna().sum())
print("\nValores inconsistentes após correção:")
print(df_exercicio[(df_exercicio['peso'] < 0) | (df_exercicio['altura'] >
2.5) | (df_exercicio['idade'] < 0)])
df_exercicio.head()


###  Conclusão

- Valores ausentes foram tratados por imputação da média.
- Inconsistências foram corrigidas substituindo valores inválidos por médias válidas.
- Dados categóricos foram padronizados.
- O dataset final está limpo e pronto para futuras análises.