# <center> Pré-processamento: DMC 2013 </center>
Este notebook contém o código referente à etapa de **pré-processamento e transformação**<br>
Este código é parte do livro: **Ciência dos Dados pelo Processo de KDD**<br>
Autor: Rosalvo Neto<br>
Link do Livro:

## Importando as bibliotecas

In [1]:
import numpy as np
import pandas as pd

## Carregando os dados de treinamento e teste
- Fazer o download dos arquivo de Treinamento e Teste. 
- Link:https://www.data-mining-cup.com/reviews/dmc-2013/
- Descompactar no mesmo diretorio deste arquivo PreProcessamento.ipynb os arquivos:
    - transact_train.txt (Treinamento com a variável alvo)
    - transact_class.txt (Teste sem a variável alvo) 
    - realclass_t1.txt (Variável alvo do teste) 

### Treinamento

In [2]:
TRN_Original = pd.read_csv('transact_train.txt', sep='|')
num_linhas_TRN, num_colunas_TRN = TRN_Original.shape
print('Numero de linhas do arquivo de treinamento: ', num_linhas_TRN)
print('Numero de colunas do arquivo de treinamento: ', num_colunas_TRN)

Numero de linhas do arquivo de treinamento:  429013
Numero de colunas do arquivo de treinamento:  24


In [3]:
#primeiras 5 linhas do arquivo de treinamento
TRN_Original.head(60)

Unnamed: 0,sessionNo,startHour,startWeekday,duration,cCount,cMinPrice,cMaxPrice,cSumPrice,bCount,bMinPrice,...,availability,customerNo,maxVal,customerScore,accountLifetime,payments,age,address,lastOrder,order
0,1,6,5,0.0,1,59.99,59.99,59.99,1,59.99,...,?,1,600,70,21,1,43,1,49,y
1,1,6,5,11.94,1,59.99,59.99,59.99,1,59.99,...,completely orderable,1,600,70,21,1,43,1,49,y
2,1,6,5,39.887,1,59.99,59.99,59.99,1,59.99,...,completely orderable,1,600,70,21,1,43,1,49,y
3,2,6,5,0.0,0,?,?,?,0,?,...,completely orderable,?,?,?,?,?,?,?,?,y
4,2,6,5,15.633,0,?,?,?,0,?,...,completely orderable,?,?,?,?,?,?,?,?,y
5,2,6,5,26.235,0,?,?,?,0,?,...,completely orderable,?,?,?,?,?,?,?,?,y
6,2,6,5,71.2,0,?,?,?,0,?,...,completely orderable,?,?,?,?,?,?,?,?,y
7,2,6,5,94.469,0,?,?,?,0,?,...,completely orderable,?,?,?,?,?,?,?,?,y
8,3,6,5,181.477,9,29.99,29.99,89.97,1,29.99,...,?,3,1800,475,302,12,45,1,11,y
9,3,6,5,297.018,11,9.99,29.99,109.95,2,9.99,...,?,3,1800,475,302,12,45,1,11,y


### Teste

In [4]:
TST_Original = pd.read_csv('transact_class.txt', sep='|')
num_linhas_TST, num_colunas_TST = TST_Original.shape
print('Numero de linhas do arquivo de teste: ', num_linhas_TST)
print('Numero de colunas do arquivo de teste: ', num_colunas_TST)

Numero de linhas do arquivo de teste:  45068
Numero de colunas do arquivo de teste:  23


In [5]:
#primeiras 5 linhas do arquivo de teste
TST_Original.head()

Unnamed: 0,sessionNo,startHour,startWeekday,duration,cCount,cMinPrice,cMaxPrice,cSumPrice,bCount,bMinPrice,...,onlineStatus,availability,customerNo,maxVal,customerScore,accountLifetime,payments,age,address,lastOrder
0,1,18,7,136.833,3,39.99,39.99,79.98,1,39.99,...,y,completely orderable,25039,1300,489,188,5,49,1,65
1,1,18,7,189.984,3,39.99,39.99,79.98,1,39.99,...,y,completely orderable,25039,1300,489,188,5,49,1,65
2,1,18,7,342.894,6,16.99,39.99,113.96,2,16.99,...,?,?,25039,1300,489,188,5,49,1,65
3,1,18,7,411.051,8,16.99,39.99,149.94,3,16.99,...,?,?,25039,1300,489,188,5,49,1,65
4,1,18,7,460.049,10,16.99,39.99,189.92,4,16.99,...,?,?,25039,1300,489,188,5,49,1,65


In [6]:
TST_Y_Original = pd.read_csv('realclass_t1.txt', sep='|')
num_linhas_TST_Y, num_colunas_TST_Y = TST_Y_Original.shape
print('Numero de linhas do arquivo resposta de teste: ', num_linhas_TST_Y)
print('Numero de colunas do arquivo resposta de teste: ', num_colunas_TST_Y)

Numero de linhas do arquivo resposta de teste:  5111
Numero de colunas do arquivo resposta de teste:  2


In [7]:
TST_Y_Original.head()

Unnamed: 0,sessionNo,prediction
0,1,1
1,2,1
2,3,1
3,4,0
4,5,0


## Mudando a Granularidade dos arquivos

Os arquivos originais disponíveis pela competição estavam com a granularidade de transação, ou seja, cada linha do arquivo representa uma transação de uma seção. No entanto, o objetivo da tarefa era prever a probabilidade de compra de cada visitante, que é representada por cada seção. Desta forma, é necessário mudar a granularidade dos arquivos disponíveis de transação para seção. Para isso, nós vamos gerar novas bases de treinamento e teste onde cada linha representa uma seção, que será a última transação da seção. A Figura abaixo ilustra o processo de mudança de granularidade para a seção.

<img src="MudancaGranularidade.png" width="50%" height="50%">


In [8]:
sessionIDs_TRN = TRN_Original['sessionNo']
sessionIDs_TST = TST_Original['sessionNo']

#Funçao que retorna um Dicionario onde: Key=Session e Value=Lista com o indice das linhas que sessionID = Key
def getSessionWithTransaction(ReplicatedSession):
    idx_TransactionSession = {s:[] for s in set(ReplicatedSession)}
    for i in range(len(ReplicatedSession)):
        s = ReplicatedSession[i]
        idx_TransactionSession[s].append(i)
    return idx_TransactionSession

#Criando um dicionario com sessionID e a lista de transacoes
idx_SessionWithTransaction_TRN = getSessionWithTransaction(sessionIDs_TRN)
idx_SessionWithTransaction_TST = getSessionWithTransaction(sessionIDs_TST)

#Recuperando o indice da linha da última transação por sessionID
idx_lastTransactionBySession_TRN =[np.max(x) for x in idx_SessionWithTransaction_TRN.values()]
idx_lastTransactionBySession_TST =[np.max(x) for x in idx_SessionWithTransaction_TST.values()]

#Criando um DataFrame com a última transação por sessionID
TRN_X = TRN_Original.iloc[idx_lastTransactionBySession_TRN,:-1]
TRN_Y = TRN_Original.iloc[idx_lastTransactionBySession_TRN,-1]

TST_X_tmp = TST_Original.iloc[idx_lastTransactionBySession_TST,:]
# É preciso fazer uma cópia para eliminar o SettingWithCopyWarning
TST_X = TST_X_tmp.copy()
TST_Y = TST_Y_Original['prediction']

In [9]:
num_linhas_TRN_X, num_colunas_TRN_X = TRN_X.shape
print('Numero de linhas: ', num_linhas_TRN_X)
print('Numero de colunas: ', num_colunas_TRN_X)

Numero de linhas:  50000
Numero de colunas:  23


In [10]:
TRN_X.head()

Unnamed: 0,sessionNo,startHour,startWeekday,duration,cCount,cMinPrice,cMaxPrice,cSumPrice,bCount,bMinPrice,...,onlineStatus,availability,customerNo,maxVal,customerScore,accountLifetime,payments,age,address,lastOrder
2,1,6,5,39.887,1,59.99,59.99,59.99,1,59.99,...,y,completely orderable,1,600,70,21,1,43,1,49
7,2,6,5,94.469,0,?,?,?,0,?,...,y,completely orderable,?,?,?,?,?,?,?,?
12,3,6,5,341.613,11,9.99,29.99,109.95,2,9.99,...,y,completely orderable,3,1800,475,302,12,45,1,11
14,4,6,5,42.812,4,4.99,4.99,19.96,1,4.99,...,y,completely not orderable,?,?,?,?,?,?,?,?
22,5,6,5,2816.046,45,12.99,179.95,1093.72,4,19.99,...,y,completely orderable,4,800,503,18,1,46,1,40


In [11]:
num_linhas_TST_X, num_colunas_TST_X = TST_X.shape
print('Numero de linhas: ', num_linhas_TST_X)
print('Numero de colunas: ', num_colunas_TST_X)

Numero de linhas:  5111
Numero de colunas:  23


In [12]:
TST_X.head()

Unnamed: 0,sessionNo,startHour,startWeekday,duration,cCount,cMinPrice,cMaxPrice,cSumPrice,bCount,bMinPrice,...,onlineStatus,availability,customerNo,maxVal,customerScore,accountLifetime,payments,age,address,lastOrder
8,1,18,7,624.606,11,16.99,39.99,207.91,5,16.99,...,y,completely orderable,25039,1300,489,188,5,49,1,65
19,2,18,7,2804.705,16,34.99,34.99,174.95,2,34.99,...,y,completely orderable,25040,1200,543,43,5,29,2,184
42,3,18,7,7401.384,119,7.99,59.95,3263.57,12,12.49,...,y,completely orderable,25041,600,552,17,4,37,2,107
48,4,18,7,2853.55,152,3.99,239.99,5642.5,4,9.99,...,?,?,25042,8500,535,226,19,49,2,17
50,5,18,7,48.145,2,29.99,29.99,59.98,1,29.99,...,y,completely orderable,25043,600,543,39,2,53,2,234


In [13]:
TRN_Y.head()

2     y
7     y
12    y
14    n
22    y
Name: order, dtype: object

In [14]:
#Converter y -> 1 e n -> 0
TRN_Y = TRN_Y.replace({'y': 1, 'n': 0})
TRN_Y.head()

2     1
7     1
12    1
14    0
22    1
Name: order, dtype: int64

In [15]:
TST_Y.head()

0    1
1    1
2    1
3    0
4    0
Name: prediction, dtype: int64

### Tratando os valores ausentes

Conforme apresentado no capítulo 3, a ocorrência de valores ausentes, do inglês <i>Missing Values</i>, é comum em projetos de Ciência dos Dados. O capítulo 3 apresentou diferentes estratégias para lidar com valores ausentes. No entanto, para esse Notebook nós selecionamos duas abordagens: 1) substituir pela média para variáveis numéricas e 2) substituir por um valor fixo para variáveis categóricas.

O framework Pandas identifica os valores ausentes pelo valor <b>np.NaN</b>. Desta forma, é preciso substituir os valores "?" que estão nos arquivos fornecidos pela DMC por np.NaN. A Figura abaixo ilustra o fluxograma de tratamento para os valores ausentes.

<img src="PreProcessingSteps.png">

O Tratamento de valores ausentes deve ser realizado para os conjuntos de treinamento e teste na grão decisório <font color='green'><b>"última transação da sessão"</b></font>, ou seja, para <b>X_TRN</b> e <b>X_TST</b>. No entanto, para o grão original <font color='green'><b>"cada transação da sessão"</b></font> deve ser realizado apenas o tratamento do valor "?", pois vamos utilizar o grão original para criar novas variáveis e substituir os valores ausentes no grão original mudaria a estatística das novas variáveis. Por exemplo, suponha que uma sessão teve 10 transacões e que 1 das transações não possui o valor do carrinho, se calcularmos a média do valor do carrinho da sessão com o valor ausente, a média será calculada com o valor das nove transações que possuem valor. No entanto, se substituirmos o valor ausente no grão original, essa estatística muda.

<b>Obs-1:</b> Não deve realizar tratamento de valores ausentes para código como por exemplo: <font color='green'><b>customerNo</b></font> e <font color='green'><b>sessionNo</b></font>

<b>Obs-2:</b> Identificar quais variáveis devem ser consideradas como numéricas e categóricas e quais devem realizar tratamento de valores ausentes é parte do entendimento do negócio. Para esta tarefa, você deve ler o documento <font color='green'><b>features.pdf</b></font> que possui informações sobre o tipo das variáveis e se possuem valores ausentes.

### Lista de variáveis que devem ser consideradas como numérica

In [16]:
l_varNumeric = ['cMinPrice', 'cMaxPrice', 'cSumPrice', 'bMinPrice',
                'bMaxPrice', 'bSumPrice', 'bStep',
                'maxVal', 'customerScore', 'accountLifetime', 'payments',
                'age', 'address', 'lastOrder']

### Lista de variáveis que devem ser consideradas como String

In [17]:
l_varString = ['availability', 'onlineStatus']

### Funções auxiliares para o tratamento de Missing Values 
<b>replaceValueMissing</b> funcao que substitui um valor por np.nan em todo dataframe <br>
<b>convertFloat</b> funcao que converte a lista de variaveis para float <br>
<b>replaceMissingByMean</b> funcao que substitui missing value pela media - apenas variaveis numericas <br>
<b>replaceMissingByFixedValue</b> funcao que substitui missing value por valor fixo - apenas variaveis string <br>

In [18]:
def replaceValueMissing(vl, listVar, data):
    for v in listVar:
        rows = data[v]==vl
        #idxs = np.array(rows.index[rows])
        data.loc[rows, v] = np.NaN    

In [19]:
def convertFloat(listVar, data):
    for v in listVar:
        data[v] = data[v].astype(float)         

In [20]:
def replaceMissingByMean(listVar, data):
    for v in listVar:
        avg = data[v].mean(axis=0)
        data[v].fillna(avg, inplace=True)        

In [21]:
def replaceMissingByFixedValue(vl, listVar, data):
    for v in listVar:        
        data[v].fillna(vl, inplace=True)       

### Missing Value

In [22]:
TRN_X.head()

Unnamed: 0,sessionNo,startHour,startWeekday,duration,cCount,cMinPrice,cMaxPrice,cSumPrice,bCount,bMinPrice,...,onlineStatus,availability,customerNo,maxVal,customerScore,accountLifetime,payments,age,address,lastOrder
2,1,6,5,39.887,1,59.99,59.99,59.99,1,59.99,...,y,completely orderable,1,600,70,21,1,43,1,49
7,2,6,5,94.469,0,?,?,?,0,?,...,y,completely orderable,?,?,?,?,?,?,?,?
12,3,6,5,341.613,11,9.99,29.99,109.95,2,9.99,...,y,completely orderable,3,1800,475,302,12,45,1,11
14,4,6,5,42.812,4,4.99,4.99,19.96,1,4.99,...,y,completely not orderable,?,?,?,?,?,?,?,?
22,5,6,5,2816.046,45,12.99,179.95,1093.72,4,19.99,...,y,completely orderable,4,800,503,18,1,46,1,40


In [23]:
TST_X.head()

Unnamed: 0,sessionNo,startHour,startWeekday,duration,cCount,cMinPrice,cMaxPrice,cSumPrice,bCount,bMinPrice,...,onlineStatus,availability,customerNo,maxVal,customerScore,accountLifetime,payments,age,address,lastOrder
8,1,18,7,624.606,11,16.99,39.99,207.91,5,16.99,...,y,completely orderable,25039,1300,489,188,5,49,1,65
19,2,18,7,2804.705,16,34.99,34.99,174.95,2,34.99,...,y,completely orderable,25040,1200,543,43,5,29,2,184
42,3,18,7,7401.384,119,7.99,59.95,3263.57,12,12.49,...,y,completely orderable,25041,600,552,17,4,37,2,107
48,4,18,7,2853.55,152,3.99,239.99,5642.5,4,9.99,...,?,?,25042,8500,535,226,19,49,2,17
50,5,18,7,48.145,2,29.99,29.99,59.98,1,29.99,...,y,completely orderable,25043,600,543,39,2,53,2,234


### Base na granularidade do projeto

In [24]:
# Substituindo a sring ? por np.nan em todas p/ todas as variaveis da base na granularidade do projeto
replaceValueMissing('?', l_varNumeric, TRN_X)
replaceValueMissing('?', l_varString, TRN_X)
replaceValueMissing('?', l_varNumeric, TST_X)
replaceValueMissing('?', l_varString, TST_X)

# Convertendo as variáveis numéricas de object para float (pq int nao aceita calcular media com NaN)   
convertFloat(l_varNumeric, TRN_X)
convertFloat(l_varNumeric, TST_X)

# Substituindo os missing values das variáveis numéricas pela média
replaceMissingByMean(l_varNumeric, TRN_X)
replaceMissingByMean(l_varNumeric, TST_X)

# Substituindo os missing values das variáveis String por um valor fixo
replaceMissingByFixedValue('ausente', l_varString, TRN_X)
replaceMissingByFixedValue('ausente', l_varString, TST_X)


### Nem todos os valores ausentes devem ser tratados de forma igual para a Base na granularidade do projeto

Observe que a variável customerNo informa o número do cliente e toda vez que essa variável é "?" as variáves
maxVal, customerScore, accountLifetime,	payments, age, address,	lastOrder também tinham valor "?" (Ver base na granularidade do projeto antes do tratamento dos valores ausentes). Desta forma, não se trata de um valor ausente, pois se é um novo cliente que está relizando a compra, essas informações não existem. Para resolver essa questão, vamos setar essas variáveis para o valor zero quando o customerNo for igual a "?"

In [25]:
# Atribuindo valor zero para as variáveis comportamentais que não possuim valor de customerNo

# Treinamento
rows_TRN = TRN_X['customerNo']=="?"
TRN_X.loc[rows_TRN, 'maxVal']          = 0
TRN_X.loc[rows_TRN, 'customerScore']   = 0
TRN_X.loc[rows_TRN, 'accountLifetime'] = 0
TRN_X.loc[rows_TRN, 'payments']        = 0
TRN_X.loc[rows_TRN, 'age']             = 0
TRN_X.loc[rows_TRN, 'address']         = 0
TRN_X.loc[rows_TRN, 'lastOrder']       = 0

# Teste
rows_TST = TST_X['customerNo']=="?"
TST_X.loc[rows_TST, 'maxVal']          = 0
TST_X.loc[rows_TST, 'customerScore']   = 0
TST_X.loc[rows_TST, 'accountLifetime'] = 0
TST_X.loc[rows_TST, 'payments']        = 0
TST_X.loc[rows_TST, 'age']             = 0
TST_X.loc[rows_TST, 'address']         = 0
TST_X.loc[rows_TST, 'lastOrder']       = 0


### Base na granularidade original - Transações que será usada para criar novas variáveis

In [26]:
# Substituindo a sring ? por np.nan em todas p/ todas as variaveis da base a base original
replaceValueMissing('?', l_varNumeric, TRN_Original)
replaceValueMissing('?', l_varString, TRN_Original)
replaceValueMissing('?', l_varNumeric, TST_Original)
replaceValueMissing('?', l_varString, TST_Original)

# Convertendo as variáveis numéricas de object para float (pq int nao aceita calcular media com NaN)   
convertFloat(l_varNumeric, TRN_Original)
convertFloat(l_varNumeric, TST_Original)


### Visualizando estatísticas dos conjuntos de treinamento e teste após o tratamento dos valores ausentes

In [27]:
TRN_X.describe(include='all')

Unnamed: 0,sessionNo,startHour,startWeekday,duration,cCount,cMinPrice,cMaxPrice,cSumPrice,bCount,bMinPrice,...,onlineStatus,availability,customerNo,maxVal,customerScore,accountLifetime,payments,age,address,lastOrder
count,50000.0,50000.0,50000.0,50000.0,50000.0,50000.0,50000.0,50000.0,50000.0,50000.0,...,50000,50000,50000,50000.0,50000.0,50000.0,50000.0,50000.0,50000.0,50000.0
unique,,,,,,,,,,,...,3,8,25038,,,,,,,
top,,,,,,,,,,,...,y,completely orderable,?,,,,,,,
freq,,,,,,,,,,,...,38684,36277,22639,,,,,,,
mean,25000.5,14.36706,5.92314,1465.728502,20.2337,72.11816,157.646205,1096.642791,3.20758,86.444819,...,,,,1240.319472,264.707589,70.136807,7.0556,24.581696,0.93406,43.23458
std,14433.901067,4.638547,0.795063,2314.980566,28.430273,175.620013,294.39061,3073.403372,3.549983,202.359293,...,,,,2319.234441,259.456813,102.265045,20.798151,24.078971,0.914576,92.009748
min,1.0,0.0,5.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,,,,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,12500.75,11.0,5.0,217.92675,4.0,7.0,25.0,119.97,1.0,9.99,...,,,,0.0,0.0,0.0,0.0,0.0,0.0,0.0
50%,25000.5,15.0,6.0,686.7845,10.0,14.99,49.99,359.98,2.0,19.99,...,,,,300.0,374.0,7.0,0.0,28.0,1.0,7.0
75%,37500.25,18.0,7.0,1726.26275,24.0,44.99,139.99,959.9725,4.0,49.99,...,,,,1500.0,525.0,118.0,9.0,46.0,2.0,38.0


In [28]:
TST_X.describe(include='all')

Unnamed: 0,sessionNo,startHour,startWeekday,duration,cCount,cMinPrice,cMaxPrice,cSumPrice,bCount,bMinPrice,...,onlineStatus,availability,customerNo,maxVal,customerScore,accountLifetime,payments,age,address,lastOrder
count,5111.0,5111.0,5111.0,5111.0,5111.0,5111.0,5111.0,5111.0,5111.0,5111.0,...,5111,5111,5111,5111.0,5111.0,5111.0,5111.0,5111.0,5111.0,5111.0
unique,,,,,,,,,,,...,3,7,2441,,,,,,,
top,,,,,,,,,,,...,y,completely orderable,?,,,,,,,
freq,,,,,,,,,,,...,3893,3694,2538,,,,,,,
mean,2556.0,17.996087,6.23107,1527.974712,23.304637,72.88035,171.776058,1267.25505,3.395813,89.261148,...,,,,971.107051,239.94265,60.770467,4.780669,21.911583,0.862062,44.962434
std,1475.562943,6.365912,2.00577,2184.29369,31.657279,167.18696,303.381662,3741.604769,3.641097,194.53664,...,,,,1754.79276,258.711009,95.439464,10.691686,23.335934,0.915378,97.782484
min,1.0,0.0,1.0,0.0,0.0,0.0,1.0,3.0,0.0,0.0,...,,,,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,1278.5,19.0,7.0,206.1145,4.0,6.99,29.99,135.89,1.0,9.95,...,,,,0.0,0.0,0.0,0.0,0.0,0.0,0.0
50%,2556.0,20.0,7.0,793.389,11.0,12.99,54.95,403.92,2.0,18.95,...,,,,100.0,70.0,1.0,0.0,21.0,1.0,4.0
75%,3833.5,21.0,7.0,1966.657,30.0,49.95,169.0,1110.185,4.0,49.99,...,,,,1000.0,519.0,92.0,7.0,44.0,2.0,37.5


### Visualizando as base de dados originais após o tratamento dos valores ausentes (Apenas substituindo os valores ? por NaN)

In [29]:
TRN_Original.head()

Unnamed: 0,sessionNo,startHour,startWeekday,duration,cCount,cMinPrice,cMaxPrice,cSumPrice,bCount,bMinPrice,...,availability,customerNo,maxVal,customerScore,accountLifetime,payments,age,address,lastOrder,order
0,1,6,5,0.0,1,59.99,59.99,59.99,1,59.99,...,,1,600.0,70.0,21.0,1.0,43.0,1.0,49.0,y
1,1,6,5,11.94,1,59.99,59.99,59.99,1,59.99,...,completely orderable,1,600.0,70.0,21.0,1.0,43.0,1.0,49.0,y
2,1,6,5,39.887,1,59.99,59.99,59.99,1,59.99,...,completely orderable,1,600.0,70.0,21.0,1.0,43.0,1.0,49.0,y
3,2,6,5,0.0,0,,,,0,,...,completely orderable,?,,,,,,,,y
4,2,6,5,15.633,0,,,,0,,...,completely orderable,?,,,,,,,,y


In [30]:
TST_Original.head()

Unnamed: 0,sessionNo,startHour,startWeekday,duration,cCount,cMinPrice,cMaxPrice,cSumPrice,bCount,bMinPrice,...,onlineStatus,availability,customerNo,maxVal,customerScore,accountLifetime,payments,age,address,lastOrder
0,1,18,7,136.833,3,39.99,39.99,79.98,1,39.99,...,y,completely orderable,25039,1300.0,489.0,188.0,5.0,49.0,1.0,65.0
1,1,18,7,189.984,3,39.99,39.99,79.98,1,39.99,...,y,completely orderable,25039,1300.0,489.0,188.0,5.0,49.0,1.0,65.0
2,1,18,7,342.894,6,16.99,39.99,113.96,2,16.99,...,,,25039,1300.0,489.0,188.0,5.0,49.0,1.0,65.0
3,1,18,7,411.051,8,16.99,39.99,149.94,3,16.99,...,,,25039,1300.0,489.0,188.0,5.0,49.0,1.0,65.0
4,1,18,7,460.049,10,16.99,39.99,189.92,4,16.99,...,,,25039,1300.0,489.0,188.0,5.0,49.0,1.0,65.0


## Criando novas variáveis

Conforme visto no Capítulo 3, de uma forma geral, a tarefa de construção de novas variáveis é muito mais dependente do conhecimento do domínio do que a construção de um classificador. Desta forma, esse processo vai depender de cada tipo de pojeto. Para o nosso projeto, vamos exemplificar esse processo construindo três variáveis: 

- QtdTransacoes: quantidade de transações da sessão;
- MaxbCount:     maior valor de bCount por sessão;
- FlagCustomer:  Variável boobelana informando se é um cliente, isto é, se foi informado customerNo

<b>OBS</b> Lembre que algumas informações foram perdidas quando mudamos a granularidade de transação para última transação da sessão. O objetivo dessas novas variáveis é recuperar um pouco dessas informações.

In [31]:
# Definindo o index para poder fazer a atribuição usando o groupby

TRN_X = TRN_X.set_index('sessionNo')
TST_X = TST_X.set_index('sessionNo')


In [32]:
# Criando a variável QtdTransacoes

# Conjunto de treinamento
TRN_X['QtdTransacoes'] = TRN_Original.groupby('sessionNo').duration.count()

# Conjunto de teste
TST_X['QtdTransacoes'] = TST_Original.groupby('sessionNo').duration.count()


In [33]:
# Criando a variável MaxbCount

# Conjunto de treinamento
TRN_X['MaxbCount'] = TRN_Original.groupby('sessionNo').bCount.max()

# Conjunto de teste
TST_X['MaxbCount'] = TST_Original.groupby('sessionNo').bCount.max()


In [34]:
# Criando a variável FlagCustomer

# Conjunto de treinamento
TRN_X['FlagCustomer'] = TRN_X.apply(lambda row: 0 if row.customerNo=="?" else 1 , axis=1) 

# Conjunto de teste
TST_X['FlagCustomer'] = TST_X.apply(lambda row: 0 if row.customerNo=="?" else 1 , axis=1) 

In [35]:
TRN_X.head()

Unnamed: 0_level_0,startHour,startWeekday,duration,cCount,cMinPrice,cMaxPrice,cSumPrice,bCount,bMinPrice,bMaxPrice,...,maxVal,customerScore,accountLifetime,payments,age,address,lastOrder,QtdTransacoes,MaxbCount,FlagCustomer
sessionNo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,6,5,39.887,1,59.99,59.99,59.99,1,59.99,59.99,...,600.0,70.0,21.0,1.0,43.0,1.0,49.0,3,1,1
2,6,5,94.469,0,72.11816,157.646205,1096.642791,0,86.444819,118.589753,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,5,0,0
3,6,5,341.613,11,9.99,29.99,109.95,2,9.99,29.99,...,1800.0,475.0,302.0,12.0,45.0,1.0,11.0,5,2,1
4,6,5,42.812,4,4.99,4.99,19.96,1,4.99,4.99,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,2,1,0
5,6,5,2816.046,45,12.99,179.95,1093.72,4,19.99,27.85,...,800.0,503.0,18.0,1.0,46.0,1.0,40.0,8,4,1


In [36]:
TST_X.head()

Unnamed: 0_level_0,startHour,startWeekday,duration,cCount,cMinPrice,cMaxPrice,cSumPrice,bCount,bMinPrice,bMaxPrice,...,maxVal,customerScore,accountLifetime,payments,age,address,lastOrder,QtdTransacoes,MaxbCount,FlagCustomer
sessionNo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,18,7,624.606,11,16.99,39.99,207.91,5,16.99,39.99,...,1300.0,489.0,188.0,5.0,49.0,1.0,65.0,9,5,1
2,18,7,2804.705,16,34.99,34.99,174.95,2,34.99,34.99,...,1200.0,543.0,43.0,5.0,29.0,2.0,184.0,11,2,1
3,18,7,7401.384,119,7.99,59.95,3263.57,12,12.49,39.95,...,600.0,552.0,17.0,4.0,37.0,2.0,107.0,23,12,1
4,18,7,2853.55,152,3.99,239.99,5642.5,4,9.99,14.99,...,8500.0,535.0,226.0,19.0,49.0,2.0,17.0,6,4,1
5,18,7,48.145,2,29.99,29.99,59.98,1,29.99,29.99,...,600.0,543.0,39.0,2.0,53.0,2.0,234.0,2,1,1


## Selecionando Variáveis - Parte 1

Algumas variáveis que são identificadores únicos, em geral, que representam chaves primárias em banco de dados devem ser excluídas pois não agregam informações, como exemplo podemos citar o número do CPF. Para nosso exemplo prático, temos a variável código do cliente <font color='red'> customerNo </font>. Por isso, vamos excluí-la. É importante notar que essa é uma decisão que depende do conhecimento do domínio!


In [37]:
# Apagando variáveis que são chave / código 

TRN_X = TRN_X.drop(['customerNo'], axis = 1)

TST_X = TST_X.drop(['customerNo'], axis = 1)


## Etapa de Transformação dos Dados

Todos os modelos que serão usados neste curso aceitam apenas variáveis numéricas como entrada no scikit-learn. Desta forma, realizaremos duas transformações:

- Criação das variáveis Dummies
- Normalização das variáveis

Mais informações sobre essas duas transformções estão disponíveis no final do Capítulo 3.

In [38]:
# Criação das variáveis Dummies

TRN_X = pd.get_dummies(TRN_X, prefix_sep='_') # drop_first=True

TST_X = pd.get_dummies(TST_X, prefix_sep='_') # drop_first=True


In [39]:
# Checando se os dois conjuntos possuem a mesma quantidade de colunas

assert (TRN_X.shape[1] == TST_X.shape[1]), "Número de colunas diferentes !!!"

print("Passou no teste: TRN e TST possuem o mesmo número de colunas!")

AssertionError: Número de colunas diferentes !!!

Como pode ser observado, ocorreu um erro porque o número de colunas dos dois conjuntos são diferentes. Desta forma, será necessário realizar dois procedimento para investigar os motivos:
    - Verificar as variáveis que estão no conjunto de treinamento e não estão no conjunto de teste;
    - Verificar as variáveis que estão no conjunto de teste e não estão no conjunto de treinamento.


In [40]:
var_TRN = list(TRN_X.columns)
var_TST = list(TST_X.columns)

In_TRN_Not_TST = np.setdiff1d(var_TRN, var_TST)
In_TST_Not_TRN = np.setdiff1d(var_TST, var_TRN)

if len(In_TRN_Not_TST)>0:
    print('Variáveis que estão apenas no Treinamento:\n')
    print(In_TRN_Not_TST)
else:
    print('Todas as variáveis do Treinamento estão no Teste!')
    
if len(In_TST_Not_TRN)>0:
    print('\nVariáveis que estão apenas no Teste:\n')
    print(In_TRN_Not_TST)
else:
    print('\nTodas as variáveis do Teste estão no Treinamento!')
    

Variáveis que estão apenas no Treinamento:

['availability_mainly not determinable']

Todas as variáveis do Teste estão no Treinamento!


A variável <font color='red'> availability_mainly not determinable</font> existe apenas no conjunto de treinamento. Esta é uma variável dummy, isso ocorreu porque a variável original <b>availability </b> possui valor <font color='red'> mainly not determinable</font> apenas no conjunto de treinamento.  

<b>O que deve ser feito? </b>

Os conjuntos de treinamento e teste precisam ter a mesma dimensão, ou seja, o mesmo número de colunas. Por isso, um solução é apagar essa coluna do conjunto de treinamento, uma vez que ela não ocorre no conjunto de teste. No entanto, vamos perder informação. Para evitar esse problema, antes de apagar essa variável no conjunto de treinamento, podemos assumir que o valor <font color='red'> mainly not determinable </font>é equivalente ao valor 
<font color='green'>completely not determinable</font>

Observe novamente que essa atividade depende do entendimento do domínio.

In [41]:
TRN_X['availability_completely not determinable'] = TRN_X['availability_completely not determinable'] + TRN_X['availability_mainly not determinable']

TRN_X = TRN_X.drop(['availability_mainly not determinable'], axis = 1)

In [42]:
# Checando novamente se os dois conjuntos possuem a mesma quantidade de colunas

assert (TRN_X.shape[1] == TST_X.shape[1]), "Número de colunas diferentes !!!"

print("Passou no teste: TRN e TST possuem o mesmo número de colunas!")

Passou no teste: TRN e TST possuem o mesmo número de colunas!


In [43]:
# Checando se todas as colunas estão como numericas, ou seja, não existem variáveis String (type object)

TRN_columns_obj = TRN_X.dtypes[TRN_X.dtypes == np.object] #

assert (len(TRN_columns_obj) == 0), "Ainda existem colunas String no Treinamento !!!"

TST_columns_obj = TST_X.dtypes[TST_X.dtypes == np.object] #

assert (len(TST_columns_obj) == 0), "Ainda existem colunas String no Teste !!!"


print("Passou no teste: TRN e TST não possuem variáveis String!")


Passou no teste: TRN e TST não possuem variáveis String!


In [44]:
# Normalização das variáveis

# São criadas duas funções para auxiliar esse processo

#Função que calcula o mínimo e máximo de cada variável
def get_Min_Max(X):
    '''
    Input: 
        X - Data frame
    Output:
        result - Um dicionário onde a chave é o nome da coluna de X e o valor é uma tupla (Min, Max)
    '''
    result = {}
    for v in X.columns:
        result[v] = (np.min(X[v]), np.max(X[v]))
    return result

#Função que normaliza os dados entre zero e um usando a fórmula (valor_atual - min) / (max - min)
def normalize(X, MinMax):
    '''
    Input: 
        X - Data frame
        MinMax -  Um dicionário contendo o mínimo e máximo de uma variável. Ele ser um parâmetro permite que seja 
                   aplicado em conjuntos diferentes
    Output:
        result - Um Data frame normalizado
    '''
    result = X.copy()
    
    for v in MinMax:
        
        min_v, max_v = MinMax[v]
        
        div = max_v - min_v
        
        if div == 0:
            div = 1
        
        result[v] = (X[v] - min_v) / div        
        
        # Correção para aplicação em conjuntos de testes com valores diferentes do conjunto de treinamento
        
        # valores menores que zero são setados para zero
        idx_0 = result[v]<0
        result.loc[idx_0, v] = 0
        
        # valores maiores que um são setados para um
        idx_1 = result[v]>1
        result.loc[idx_1, v] = 1
        
    return result


In [45]:
# Aplicando as funções para normalizar

norm_min_max = get_Min_Max(TRN_X)

TRN_X = normalize(TRN_X, norm_min_max)

TST_X = normalize(TST_X, norm_min_max)


In [46]:
TRN_X.head()

Unnamed: 0_level_0,startHour,startWeekday,duration,cCount,cMinPrice,cMaxPrice,cSumPrice,bCount,bMinPrice,bMaxPrice,...,onlineStatus_ausente,onlineStatus_n,onlineStatus_y,availability_ausente,availability_completely not determinable,availability_completely not orderable,availability_completely orderable,availability_mainly not orderable,availability_mainly orderable,availability_mixed
sessionNo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,0.26087,0.0,0.001848,0.005,0.009998,0.00857,0.000518,0.009259,0.00857,0.00857,...,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0
2,0.26087,0.0,0.004378,0.0,0.01202,0.022521,0.009475,0.0,0.012349,0.016941,...,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0
3,0.26087,0.0,0.01583,0.055,0.001665,0.004284,0.00095,0.018519,0.001427,0.004284,...,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0
4,0.26087,0.0,0.001984,0.02,0.000832,0.000713,0.000172,0.009259,0.000713,0.000713,...,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
5,0.26087,0.0,0.130493,0.225,0.002165,0.025707,0.00945,0.037037,0.002856,0.003979,...,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0


In [47]:
TST_X.head()

Unnamed: 0_level_0,startHour,startWeekday,duration,cCount,cMinPrice,cMaxPrice,cSumPrice,bCount,bMinPrice,bMaxPrice,...,onlineStatus_ausente,onlineStatus_n,onlineStatus_y,availability_ausente,availability_completely not determinable,availability_completely not orderable,availability_completely orderable,availability_mainly not orderable,availability_mainly orderable,availability_mixed
sessionNo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,0.782609,1.0,0.028944,0.055,0.002832,0.005713,0.001796,0.046296,0.002427,0.005713,...,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0
2,0.782609,1.0,0.129967,0.08,0.005832,0.004999,0.001512,0.018519,0.004999,0.004999,...,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0
3,0.782609,1.0,0.342973,0.595,0.001332,0.008564,0.028197,0.111111,0.001784,0.005707,...,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0
4,0.782609,1.0,0.132231,0.76,0.000665,0.034284,0.048751,0.037037,0.001427,0.002141,...,1.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0
5,0.782609,1.0,0.002231,0.01,0.004998,0.004284,0.000518,0.009259,0.004284,0.004284,...,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0


## Selecionando Variáveis - Parte 2

Eliminando variáveis que contém valores constantes.


In [48]:
# É informando o limiar de variância - abaixo ou igual a esse limiar a variável será excluída dos dois conjuntos
threshold_var = 0

# Criando uma lista com as variáveis do conjunto de treinamento que tem variância inferior ou igual ao threshold_var
l_var = [x for x in TRN_X.columns if TRN_X[x].var() <= threshold_var]

# Eliminando as variáveis constante dos dois conjuntos
for v in l_var:
    TRN_X = TRN_X.drop([v], axis = 1)
    TST_X = TST_X.drop([v], axis = 1)

print(f"Varáveis excluídas: {l_var}")


Varáveis excluídas: []


## Salvando a bases de dados

In [49]:
# Variáveis de entrada do treinamento
TRN_X.to_csv('TRN_X.csv', index=False)

# Variável alvo do treinamento
TRN_Y.to_csv('TRN_Y.csv', index=False)

# Variáveis de entrada do teste
TST_X.to_csv('TST_X.csv', index=False)

# Variável alvo do teste
TST_Y.to_csv('TST_Y.csv', index=False)


<b> Etapa de Pré-Processamento e Transformação Concluída!</b>