# Base de Dados para Treinamento e Teste
### Definindo bases de dados para serem modelos de treinamento e modelos de teste.

Nesse arquivo, vamos utilizar uma base de dados para separá-la em um modelo de treinamento e modelo de teste. Para que isso ocorra, vamos usar o arquivo "Dados de Credito.csv", fazer o seu pré-processamento (usando todos os recursos vistos anteriormentes) e finalmente fazer a separação entre os dois modelos citados acima. 

##### Importação e Pré-Processamento dos Dados

In [1]:
# importando a biblioteca pandas do python
import pandas as pd

In [2]:
# importando nossa base de dados em "dataframe"
dataframe = pd.read_csv("Dados de Credito.csv", encoding = "UTF-8", sep = ",")

In [3]:
# observando nossa base de dados
dataframe

Unnamed: 0,clientid,income,age,loan,default
0,1,66155.925095,59.017015,8106.532131,0
1,2,34415.153966,48.117153,6564.745018,0
2,3,57317.170063,63.108049,8020.953296,0
3,4,42709.534201,45.751972,6103.642260,0
4,5,66952.688845,18.584336,8770.099235,1
...,...,...,...,...,...
1995,1996,59221.044874,48.518179,1926.729397,0
1996,1997,69516.127573,23.162104,3503.176156,0
1997,1998,44311.449262,28.017167,5522.786693,1
1998,1999,43756.056605,63.971796,1622.722598,0


In [4]:
# observando os dados estatísticos do nosso banco de dados usando o atributo "descibe" da biblioteca
# pandas
dataframe.describe()

Unnamed: 0,clientid,income,age,loan,default
count,2000.0,2000.0,1997.0,2000.0,2000.0
mean,1000.5,45331.600018,40.807559,4444.369695,0.1415
std,577.494589,14326.327119,13.624469,3045.410024,0.348624
min,1.0,20014.48947,-52.42328,1.37763,0.0
25%,500.75,32796.459717,28.990415,1939.708847,0.0
50%,1000.5,45789.117313,41.317159,3974.719419,0.0
75%,1500.25,57791.281668,52.58704,6432.410625,0.0
max,2000.0,69995.685578,63.971796,13766.051239,1.0


In [5]:
# observando as médias gerais do nosso banco de dados
dataframe.mean()

clientid     1000.500000
income      45331.600018
age            40.807559
loan         4444.369695
default         0.141500
dtype: float64

In [6]:
# observando a média do campo de dados "age" para os valores maiores que 0
dataframe["age"][dataframe.age > 0].mean()

40.92770044906149

In [8]:
# usando o atributo "loc" para localizar os registros em que  as idades menores que 0 existem, no campo de 
# dados "age", e fazer a atribuição com o valor médio dos valores maiores que o (40.92770044906149)
dataframe.loc[dataframe.age < 0, "age"] = 40.92770044906149

In [9]:
# observando os dados estatísticos da base de dados dataframe
dataframe.describe()

Unnamed: 0,clientid,income,age,loan,default
count,2000.0,2000.0,1997.0,2000.0,2000.0
mean,1000.5,45331.600018,40.9277,4444.369695,0.1415
std,577.494589,14326.327119,13.261825,3045.410024,0.348624
min,1.0,20014.48947,18.055189,1.37763,0.0
25%,500.75,32796.459717,29.072097,1939.708847,0.0
50%,1000.5,45789.117313,41.317159,3974.719419,0.0
75%,1500.25,57791.281668,52.58704,6432.410625,0.0
max,2000.0,69995.685578,63.971796,13766.051239,1.0


In [13]:
# separando os atributos previsores e os meta classe do nosso banco de dados
previsores = dataframe.iloc[:,1:4].values
meta_classe = dataframe.iloc[:,4].values

In [14]:
# visualizando os atributos previsores
previsores

array([[6.61559251e+04, 5.90170151e+01, 8.10653213e+03],
       [3.44151540e+04, 4.81171531e+01, 6.56474502e+03],
       [5.73171701e+04, 6.31080495e+01, 8.02095330e+03],
       ...,
       [4.43114493e+04, 2.80171669e+01, 5.52278669e+03],
       [4.37560566e+04, 6.39717958e+01, 1.62272260e+03],
       [6.94365796e+04, 5.61526170e+01, 7.37883360e+03]])

In [15]:
# visualizando os atributos meta classe
meta_classe

array([0, 0, 0, ..., 1, 0, 0], dtype=int64)

In [16]:
# importando a biblioteca sklearn do python
from sklearn.impute import SimpleImputer
# função "SimpleImputer" responsável por corrigir valores faltantes na base de dados

In [17]:
# importando a biblioteca numpy do python
import numpy as np
# ela será responsável por categorizar os valores nulos na base de dados 

In [18]:
# criando  o nosso objeto "imputer"
imputer = SimpleImputer(missing_values = np.nan, strategy = "mean")

In [19]:
# observando o nosso objeto "imputer"
imputer

SimpleImputer(add_indicator=False, copy=True, fill_value=None,
              missing_values=nan, strategy='mean', verbose=0)

In [20]:
# definindo o nosso objeto "imputer" na nossa base de dados
imputer = imputer.fit(previsores[:,0:3])

In [21]:
# aplicando a transformação dos dados para correção de valores faltantes nos atributos previsores 
# usando o objeto "imputer"
previsores[:,0:3] = imputer.transform(previsores[:,0:3])

In [22]:
# observando se os registros faltantes foram preenchidos com o valor médio do campo de dados em questão
previsores.shape

(2000, 3)

In [23]:
# importando a biblioteca sklearn do python
from sklearn.preprocessing import StandardScaler
# a função "StandardScaler" tem a função de escalonas toda a base de dados para corrigir a discrepância
# dos valores

In [24]:
# criando o objeto "scaler"
scaler = StandardScaler()

In [25]:
# aplicando a transformação de escalonamento nos atributos previsores usando o nosso objeto "scaler"
previsores = scaler.fit_transform(previsores)

In [26]:
# observando os atributos previsores
previsores

array([[ 1.45393393,  1.36538005,  1.20281942],
       [-0.76217555,  0.54265932,  0.69642695],
       [ 0.83682073,  1.67417101,  1.17471147],
       ...,
       [-0.07122592, -0.97448606,  0.35420081],
       [-0.11000289,  1.73936652, -0.92675625],
       [ 1.682986  ,  1.14917551,  0.96381038]])

### Definindo uma Base de Dados para Treinamento e Teste

In [28]:
# importando a biblioteca sklearn do python
from sklearn.model_selection import train_test_split
# a função "train_test_split" tem a importância de separar modelos de treinamento e modelos de teste
# em uma base de dados

In [32]:
# definir os modelos de treinamento e modelo de teste para os atributos previsores e meta classe
previsores_treinamento, previsores_teste, classe_treinamento, classe_teste = train_test_split(previsores, 
                                                                                              meta_classe, 
                                                                                          test_size = 0.25,
                                                                                        random_state = 0)

In [33]:
# observando a variável "previsores_treinamento" 
previsores_treinamento

array([[-1.3754462 ,  0.50630999,  0.10980934],
       [ 1.45826409, -1.64894017, -1.21501497],
       [-0.79356829,  0.22531104, -0.43370226],
       ...,
       [ 0.21738243, -0.14704491,  1.40872498],
       [ 0.58716195,  0.66435405,  0.67948086],
       [ 0.68315357,  0.04084859,  1.91819744]])

In [37]:
# observando as dimensões da variável "previsores_treinamento" 
previsores_treinamento.shape

(1500, 3)

In [34]:
# observando a variável "previsores_teste" 
previsores_teste

array([[ 1.59301567, -1.35435933,  2.58262733],
       [ 0.99769755,  0.99806485,  0.84418709],
       [-0.42485257,  0.55812535, -1.15785286],
       ...,
       [ 1.37445674, -1.05746369, -1.12564819],
       [-1.57087737, -0.6348826 , -0.36981671],
       [-1.03572293, -0.93978209,  0.04244312]])

In [38]:
# observando as dimensões da variável "previsores_teste" 
previsores_teste.shape

(500, 3)

In [35]:
# observando a variável "classe_treinamento"
classe_treinamento

array([0, 0, 0, ..., 0, 0, 0], dtype=int64)

In [39]:
# observando as dimensões da variável "classe_treinamento"
classe_treinamento.shape

(1500,)

In [36]:
# observando a variável "classe_teste"
classe_teste

array([1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0,
       0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0,
       0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1,
       0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
       0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 1, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0,

In [40]:
# observando as dimensões da variável "classe_teste"
classe_teste.shape

(500,)

Observe que, o atributo "0.25" do método "test_size" na função "train_test_split" indica que 25% dos dados serão reservados ao nosso modelo de teste para os atributos previsores e meta classe e 75% dos dados serão reservados para o modelo de treinamento para os mesmos atributos. Observe que, geralmente, os dados reservados ao treinamento da IA devem ser a maioria, pois eles serão responsáveis pela capacitação da máquina, enquanto o modelo de teste será somente um critério de análise para a qualidade do nosso algoritmo.

### Alguma Dúvida? Entre em Contato Comigo:

- [Me Envie um E-mail](mailto:alysson.barbosa@ee.ufcg.edu.br);