# Base de Dados para Treinamento e Teste
### Definindo bases de dados para serem modelos de treinamento e modelos de teste.

Nesse arquivo, vamos utilizar uma base de dados para separá-la em um modelo de treinamento e modelo de teste. Para que isso ocorra, vamos usar o arquivo "census.csv", fazer o seu pré-processamento (usando todos os recursos vistos anteriormentes) e finalmente fazer a separação entre os dois modelos citados acima.

In [31]:
# importando a biblioteca pandas do python
import pandas as pd

In [32]:
# atribuindo ao objeto "dataframe" todos os registros do banco de dados armazenados no arquivo "census.csv"
dataframe = pd.read_csv("census.csv", encoding = "UTF-8", sep = ",")

In [33]:
# observando a dimensão do vetor multidimensional que é o objeto "dataframe"
dataframe.shape

(32561, 15)

In [34]:
# observando os 20 primeiros registros armazenados no objeto "dataframe"
dataframe.head(20)

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K
5,37,Private,284582,Masters,14,Married-civ-spouse,Exec-managerial,Wife,White,Female,0,0,40,United-States,<=50K
6,49,Private,160187,9th,5,Married-spouse-absent,Other-service,Not-in-family,Black,Female,0,0,16,Jamaica,<=50K
7,52,Self-emp-not-inc,209642,HS-grad,9,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,45,United-States,>50K
8,31,Private,45781,Masters,14,Never-married,Prof-specialty,Not-in-family,White,Female,14084,0,50,United-States,>50K
9,42,Private,159449,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,5178,0,40,United-States,>50K


In [35]:
# separando os atributos previsores do "dataframe"
previsores = dataframe.iloc[:,0:14].values

In [36]:
# separando os atributos meta classe do "dataframe"
meta_classe = dataframe.iloc[:, 14].values

In [37]:
# importando a biblioteca sklearn do Python
from sklearn.preprocessing import LabelEncoder
# LabelEncoder é uma função responsável por  normalizar rótulos
# o objetivo é transoformar variáveis categóricas em numéricas

In [38]:
from sklearn.preprocessing import OneHotEncoder
# importando a biblioteca sklearn do Python
# função "OneHotEncoder" responsável por fazer a trasnformação em variáveis "dummy"

In [39]:
# importando a biblioteca sklearn do Python
from sklearn.compose import ColumnTransformer
# função "ColumnTransformer" responsável por definir quais colunas o objeto irá agir na alteração

In [40]:
# criando o nosso objeto "LabelEncoder_previsores" para fazer a transformação dos campos de dados categóricos em numéricos
LabelEncoder_previsores = LabelEncoder()

In [41]:
# aplicando a transformação em todos os campos de dados categóricos usando o objeto criado e definido "LabelEncoder_previsores"
previsores[:,1] = LabelEncoder_previsores.fit_transform(previsores[:,1])
previsores[:,3] = LabelEncoder_previsores.fit_transform(previsores[:,3])
previsores[:,5] = LabelEncoder_previsores.fit_transform(previsores[:,5])
previsores[:,6] = LabelEncoder_previsores.fit_transform(previsores[:,6])
previsores[:,7] = LabelEncoder_previsores.fit_transform(previsores[:,7])
previsores[:,8] = LabelEncoder_previsores.fit_transform(previsores[:,8])
previsores[:,9] = LabelEncoder_previsores.fit_transform(previsores[:,9])
previsores[:,13] = LabelEncoder_previsores.fit_transform(previsores[:,13])

In [42]:
# criando e configurando o objeto "onehotencoder" 
onehotencoder = ColumnTransformer(transformers = [("OneHot", OneHotEncoder(), [1,3,5,6,7,8,9,13])], remainder = "passthrough")

In [43]:
# transformando os atributos previsores em variáveis dummy usando o objeto "onehotencoder"
previsores = onehotencoder.fit_transform(previsores).toarray()

In [44]:
# criando e configurando o objeto "labelencoder_meta_classe"
labelencoder_meta_classe = LabelEncoder()

In [45]:
# aplicando a transoformação no atributo meta classe, transformando-o de categórico em numérico usando o objeto 
# "labelencoder_meta_classe"
meta_classe = labelencoder_meta_classe.fit_transform(meta_classe)

In [46]:
# importando a biblioteca sklearn do Python
from sklearn.preprocessing import StandardScaler
# função "StandardScaler" responsável por fazer escalonamento de atributos

In [47]:
# criando e configurando o objeto "scaler"
scaler = StandardScaler()

In [48]:
# aplicando o escalonamento nos atributos previsores
previsores = scaler.fit_transform(previsores)

### Definindo uma Base de Dados para Treinamento e Teste

In [49]:
# importando a biblioteca sklearn do Python
from sklearn.model_selection import train_test_split
# a função "train_test_split" tem a função de separar modelos de treinamento e modelos de teste em uma base de dados

In [55]:
# definir os modelos de treinamento e modelos de teste para os atributos previsores e meta_classe
previsores_treinamento, previsores_teste, classe_treinamento, classe_teste = train_test_split(previsores, meta_classe, 
                                                                                              test_size = 0.15,
                                                                                             random_state = 0)

In [56]:
# observando as dimensões da variável "previsores_treinamento"
previsores_treinamento.shape

(27676, 108)

In [57]:
# observando as dimensões da variável "previsores_teste"
previsores_teste.shape

(4885, 108)

In [58]:
# observando as dimensões da variável "classe_treinamento"
classe_treinamento.shape

(27676,)

In [59]:
# observando as dimensões da variável "classe_teste"
classe_teste.shape

(4885,)

Observe que, o atributo "0.25" do método "test_size" na função "train_test_split" indica que 25% dos dados serão reservados ao nosso modelo de teste para os atributos previsores e meta classe e 75% dos dados serão reservados para o modelo de treinamento para os mesmos atributos. Observe que, geralmente, os dados reservados ao treinamento da IA devem ser a maioria, pois eles serão responsáveis pela capacitação da máquina, enquanto o modelo de teste será somente um critério de análise para a qualidade do nosso algoritmo.

### Alguma dúvida? Entre em contato comigo:

- [Me Envie um E-mail](mailto:alysson.barbosa@ee.ufcg.edu.br);