### Objetivo do algoritmo: Preprocessar a base de dados.

In [2]:
import pandas as pd, \
       numpy as np, \
       seaborn as sns, \
       matplotlib.pyplot as plt

In [3]:
df = pd.read_csv( r'../_Material/Bases de dados/condicao_saude.csv' )

df

Unnamed: 0,Paciente,Status do peso,Alimentação,Pressão Sanguínea,Colesterol,Diabetes,Exercício Físico,Condição
0,1,Acima,Desbalanceada,Elevada,Normal,Sim,Nao,Nao regular
1,2,Regular,Balanceada,Elevada,Elevado,Nao,Nao,Nao regular
2,3,Regular,Balanceada,Baixa,Normal,Nao,Nao,Regular
3,4,Regular,Balanceada,Normal,Elevado,Nao,Sim,Regular
4,5,Abaixo,Desbalanceada,Normal,Elevado,Sim,Nao,Nao regular
5,6,Regular,Balanceada,Elevada,Normal,Sim,Sim,Regular
6,7,Acima,Desbalanceada,Elevada,Normal,Sim,Nao,Nao regular
7,8,Abaixo,Balanceada,Normal,Normal,Nao,Sim,Regular
8,9,Acima,Balanceada,Baixa,Normal,Nao,Nao,Regular
9,10,Acima,Desbalanceada,Elevada,Elevado,Nao,Sim,Nao regular


#### Dividindo base de dados entre previsores e classe

Atributos previsores selecionados: Status do peso, Alimentação, Pressão Sanguínea, Colesterol, Diabetes e Exercício Físico

O atributo "Paciente" não é relevante para o aprendizado de máquina nessa ocasião e, caso fosse usado com essa base de dados, causaria o que podemos chamar de "overfitting", fenômeno causado por registros muito específicos que fazem o modelo "decorar" registros ao invés de aprender a identificar padrões.

In [4]:
# Fazendo uma cópia do dataframe para cortar as relações entre as variáveis de cópia e o df original
previsores = df.iloc[:, 1:7].values
classes = df.iloc[:, 7].values

In [5]:
print(previsores,  '\n\n', classes)

[['Acima' 'Desbalanceada' 'Elevada' 'Normal' 'Sim' 'Nao']
 ['Regular' 'Balanceada' 'Elevada' 'Elevado' 'Nao' 'Nao']
 ['Regular' 'Balanceada' 'Baixa' 'Normal' 'Nao' 'Nao']
 ['Regular' 'Balanceada' 'Normal' 'Elevado' 'Nao' 'Sim']
 ['Abaixo' 'Desbalanceada' 'Normal' 'Elevado' 'Sim' 'Nao']
 ['Regular' 'Balanceada' 'Elevada' 'Normal' 'Sim' 'Sim']
 ['Acima' 'Desbalanceada' 'Elevada' 'Normal' 'Sim' 'Nao']
 ['Abaixo' 'Balanceada' 'Normal' 'Normal' 'Nao' 'Sim']
 ['Acima' 'Balanceada' 'Baixa' 'Normal' 'Nao' 'Nao']
 ['Acima' 'Desbalanceada' 'Elevada' 'Elevado' 'Nao' 'Sim']
 ['Abaixo' 'Desbalanceada' 'Normal' 'Elevado' 'Nao' 'Sim']
 ['Regular' 'Balanceada' 'Baixa' 'Normal' 'Sim' 'Sim']
 ['Acima' 'Balanceada' 'Elevada' 'Elevado' 'Sim' 'Nao']
 ['Regular' 'Desbalanceada' 'Normal' 'Normal' 'Nao' 'Sim']
 ['Abaixo' 'Desbalanceada' 'Elevada' 'Elevado' 'Sim' 'Nao']
 ['Acima' 'Desbalanceada' 'Elevada' 'Elevado' 'Sim' 'Nao']] 

 ['Nao regular' 'Nao regular' 'Regular' 'Regular' 'Nao regular' 'Regular'
 'Nao 

#### Preprocessamento dos dados

Para este caso, por ser uma base de dados pequena e com valores não muito variados, não será necessário usar OneHotEncoder.

In [6]:
from sklearn.preprocessing import LabelEncoder

label_encoder = LabelEncoder()

In [7]:
# For para percorrer as colunas da matriz e aplicar o LabelEncoder

for v in range( len(previsores[0]) ):
    previsores[:, v] = label_encoder.fit_transform( previsores[:, v] )

In [8]:
previsores

array([[1, 1, 1, 1, 1, 0],
       [2, 0, 1, 0, 0, 0],
       [2, 0, 0, 1, 0, 0],
       [2, 0, 2, 0, 0, 1],
       [0, 1, 2, 0, 1, 0],
       [2, 0, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 0],
       [0, 0, 2, 1, 0, 1],
       [1, 0, 0, 1, 0, 0],
       [1, 1, 1, 0, 0, 1],
       [0, 1, 2, 0, 0, 1],
       [2, 0, 0, 1, 1, 1],
       [1, 0, 1, 0, 1, 0],
       [2, 1, 2, 1, 0, 1],
       [0, 1, 1, 0, 1, 0],
       [1, 1, 1, 0, 1, 0]], dtype=object)

### Salvando a base de dados

In [9]:
import pickle

In [11]:
with open(r'../_Material/Bases de dados/Bases pre-processadas/base_condicao_saude.pkl', mode = 'wb') as arquivo:
    pickle.dump([
        previsores,
        classes
    ],
    arquivo
    )