# KDD 2009 - Tratamento de dados simplista
Como parte do exercício de resolução do KDD Cup de 2009 criamos este notebook para realizar um teste do modelo preditivo sem fazer grandes alterações nos dados originais. A análise completa pode ser vista [aqui](./KDD2009.ipynb).

O objetivo é ter um parâmetro de comparação com o modelo entregue, que utiliza o **vtreat** para gerar um plano de tratamento das variáveis do KDD Cup 2009, para cada uma dos resultados desejados (*appetency*, *churn* e *up-selling*).

Os únicos tratamentos serão:
- Remoção das variáveis nulas (sem nenhum valor válido)
- Conversão das variáveis categóricas para valores numéricos

Os valores NA do conjunto de dados serão mantidos como estão.

In [1]:
# Importação de bibliotecas
import math
import matplotlib as mpl
import numpy as np
import os
import pandas as pd
import random
import xgboost as xgb

# Lê arquivo de treinamento

In [2]:
# Diretório de dados
data_folder = os.path.join("..", "data")
# Arquivo de dados
training_data_file = os.path.join(data_folder, "orange_small_train.data")

# Dataframae com os dados de treinamento
kdd2009 = pd.read_csv(training_data_file, delimiter='\t', na_values=[''])


## Cria dataframe de contagem de NaN e remove colunas que só contém NaN

In [3]:
# Número total de pontos de dados
numeroDados = len(kdd2009)

# Cria dataframe com contagem de NaNs
nans = pd.DataFrame(kdd2009.isna().sum(), columns=['NAN_count'])
# Recupera lista de variaveis que só possuem NaN
variaveisNulas = nans[nans['NAN_count'] == numeroDados].index.values

# Remove as colunas que só contém NaNs
kdd2009.drop(variaveisNulas, axis=1, inplace=True)

# Lê arquivos de labels
Lê arquivos com os rótulos de *Appetency, Churn* e *Upselling*. Inclui labels no dataframe do kdd2009

In [4]:
# Arquivos com os rótulos das métricas
# Colunas de resultados
resultados = ['appetency', 'churn', 'upselling']
padraoArquivosRotulos = "orange_small_train_{}.labels"

# Colunas de variáveis de entrada
variaveis = kdd2009.keys()

# Le os arquivos de rótulos, converte 1 -> True, -1 -> False e inclui no dataframe do kdd
for rotulo in resultados:
    # Gera nome do arquivo
    nomeArquivo = os.path.join(data_folder, padraoArquivosRotulos.format(rotulo))
    # Lê arquivo
    dfRotulo = pd.read_csv(nomeArquivo, header=None, names=['label'])
    # Converte 1 -> True, -1 -> False - Assume que != 1 -> False
    dfRotulo['label'] = dfRotulo['label'] == 1
    # Inclusão dos rótulos no dataframe do kdd como colunas adicionais
    kdd2009[rotulo] = dfRotulo['label']

# Verificando os rótulos

In [5]:
# Primeiros valores dos resultados no dataframe de treinamento
kdd2009[resultados].head()

Unnamed: 0,appetency,churn,upselling
0,False,False,False
1,False,True,False
2,False,False,False
3,False,False,False
4,False,False,False


## E as variáveis (já sem colunas de NaNs)

In [6]:
# Primeiros valores das variaveis no datarame de treinamento
kdd2009[variaveis].head()

Unnamed: 0,Var1,Var2,Var3,Var4,Var5,Var6,Var7,Var9,Var10,Var11,...,Var220,Var221,Var222,Var223,Var224,Var225,Var226,Var227,Var228,Var229
0,,,,,,1526.0,7.0,,,,...,1YVfGrO,oslk,fXVEsaq,jySVZNlOJy,,,xb3V,RAYp,F2FyR07IdsN7I,
1,,,,,,525.0,0.0,,,,...,0AJo2f2,oslk,2Kb5FSF,LM8l689qOp,,,fKCe,RAYp,F2FyR07IdsN7I,
2,,,,,,5236.0,7.0,,,,...,JFM1BiF,Al6ZaUT,NKv4yOc,jySVZNlOJy,,kG3k,Qu4f,02N6s8f,ib5G6X1eUxUn6,am7c
3,,,,,,,0.0,,,,...,L91KIiz,oslk,CE7uk3u,LM8l689qOp,,,FSa2,RAYp,F2FyR07IdsN7I,
4,,,,,,1029.0,7.0,,,,...,OrnLfvc,oslk,1J2cvxe,LM8l689qOp,,kG3k,FSa2,RAYp,F2FyR07IdsN7I,mj86


# Classificação de colunas
Classifica as colunas em inteiros, reais, objetos e booleanos

In [7]:
# Verifica os tipos de dados existentes no dataframe
print('Lista de tipos de dados no kdd2009: {}'.format(list(set(kdd2009[variaveis].dtypes))))

Lista de tipos de dados no kdd2009: [dtype('int64'), dtype('float64'), dtype('O')]


In [8]:
data_types = pd.DataFrame(kdd2009[variaveis].dtypes, columns=['dtype'])

variaveisInteiras = list(data_types[data_types.values == np.dtype('int64')].index.values)
variaveisReais = list(data_types[data_types.values == np.dtype('float64')].index.values)
variaveisCategoricas = list(data_types[data_types.values == np.dtype('object')].index.values)

len(variaveisInteiras+variaveisReais+variaveisCategoricas+resultados) == len(kdd2009.keys())

print('Há {} variáveis inteiras, {} variáveis reais e {} objetos'.format(
                                                                    len(variaveisInteiras),
                                                                    len(variaveisReais),
                                                                    len(variaveisCategoricas)))

# Verifica se o total de tipos de variáveis está correto
if len(variaveisInteiras+variaveisReais+variaveisCategoricas+resultados) != len(kdd2009.keys()):
    print('Aviso: erro na contagem de tipos de variáveis!!!')

Há 1 variáveis inteiras, 173 variáveis reais e 38 objetos


In [9]:
kdd2009[variaveisCategoricas].head()

Unnamed: 0,Var191,Var192,Var193,Var194,Var195,Var196,Var197,Var198,Var199,Var200,...,Var220,Var221,Var222,Var223,Var224,Var225,Var226,Var227,Var228,Var229
0,,bZkvyxLkBI,RO12,,taul,1K8T,lK27,ka_ns41,nQUveAzAF7,,...,1YVfGrO,oslk,fXVEsaq,jySVZNlOJy,,,xb3V,RAYp,F2FyR07IdsN7I,
1,,CEat0G8rTN,RO12,,taul,1K8T,2Ix5,qEdASpP,y2LIM01bE1,,...,0AJo2f2,oslk,2Kb5FSF,LM8l689qOp,,,fKCe,RAYp,F2FyR07IdsN7I,
2,,eOQt0GoOh3,AERks4l,SEuy,taul,1K8T,ffXs,NldASpP,y4g9XoZ,vynJTq9,...,JFM1BiF,Al6ZaUT,NKv4yOc,jySVZNlOJy,,kG3k,Qu4f,02N6s8f,ib5G6X1eUxUn6,am7c
3,,jg69tYsGvO,RO12,,taul,1K8T,ssAy,_ybO0dd,4hMlgkf58mhwh,,...,L91KIiz,oslk,CE7uk3u,LM8l689qOp,,,FSa2,RAYp,F2FyR07IdsN7I,
4,,IXSgUHShse,RO12,SEuy,taul,1K8T,uNkU,EKR938I,ThrHXVS,0v21jmy,...,OrnLfvc,oslk,1J2cvxe,LM8l689qOp,,kG3k,FSa2,RAYp,F2FyR07IdsN7I,mj86


In [10]:
kdd2009.describe()

Unnamed: 0,Var1,Var2,Var3,Var4,Var5,Var6,Var7,Var9,Var10,Var11,...,Var180,Var181,Var182,Var183,Var184,Var186,Var187,Var188,Var189,Var190
count,702.0,1241.0,1240.0,1579.0,1487.0,44471.0,44461.0,702.0,1487.0,1240.0,...,702.0,44991.0,1579.0,1241.0,1241.0,702.0,702.0,1241.0,21022.0,333.0
mean,11.487179,0.004029,425.298387,0.125396,238793.3,1326.437116,6.809496,48.145299,392605.7,8.625806,...,3776755.0,0.611456,1416638.0,77773.8,8.460919,3.299145,16.54416,167.368477,270.142137,22007.045192
std,40.709951,0.141933,4270.193518,1.275481,644125.9,2685.693668,6.326053,154.777855,928089.6,2.869558,...,3785696.0,2.495681,2279786.0,201618.8,46.973777,8.781967,60.22303,113.980072,86.707692,29085.14649
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,8.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,-6.42,6.0,0.0
25%,0.0,0.0,0.0,0.0,0.0,518.0,0.0,4.0,0.0,8.0,...,191735.2,0.0,0.0,0.0,0.0,0.0,0.0,19.38,204.0,2732.67
50%,0.0,0.0,0.0,0.0,0.0,861.0,7.0,20.0,0.0,8.0,...,2431310.0,0.0,116778.0,0.0,0.0,0.0,4.0,197.64,270.0,12668.94
75%,16.0,0.0,0.0,0.0,118742.5,1428.0,7.0,46.0,262863.0,8.0,...,6471827.0,0.0,1844952.0,48810.0,8.0,6.0,14.0,252.96,330.0,29396.34
max,680.0,5.0,130668.0,27.0,6048550.0,131761.0,140.0,2300.0,12325590.0,40.0,...,14284830.0,49.0,11994780.0,3048400.0,1200.0,102.0,910.0,628.62,642.0,230427.0


In [11]:
kdd2009.head()

Unnamed: 0,Var1,Var2,Var3,Var4,Var5,Var6,Var7,Var9,Var10,Var11,...,Var223,Var224,Var225,Var226,Var227,Var228,Var229,appetency,churn,upselling
0,,,,,,1526.0,7.0,,,,...,jySVZNlOJy,,,xb3V,RAYp,F2FyR07IdsN7I,,False,False,False
1,,,,,,525.0,0.0,,,,...,LM8l689qOp,,,fKCe,RAYp,F2FyR07IdsN7I,,False,True,False
2,,,,,,5236.0,7.0,,,,...,jySVZNlOJy,,kG3k,Qu4f,02N6s8f,ib5G6X1eUxUn6,am7c,False,False,False
3,,,,,,,0.0,,,,...,LM8l689qOp,,,FSa2,RAYp,F2FyR07IdsN7I,,False,False,False
4,,,,,,1029.0,7.0,,,,...,LM8l689qOp,,kG3k,FSa2,RAYp,F2FyR07IdsN7I,mj86,False,False,False


In [12]:
pd.Categorical(kdd2009[variaveisCategoricas[-1]])

[NaN, NaN, am7c, NaN, mj86, ..., NaN, am7c, NaN, NaN, NaN]
Length: 50000
Categories (4, object): [am7c, mj86, oJmt, sk2h]

## Converte variáveis categóricas para inteiros (para usar no XGBoost)

In [13]:
for variavel in variaveisCategoricas:
    kdd2009[variavel] = pd.Categorical(kdd2009[variavel])
    kdd2009[variavel] = kdd2009[variavel].cat.codes

In [14]:
# Verifica os tipos de dados existentes no dataframe
print('Lista de tipos de dados no kdd2009: {}'.format(list(set(kdd2009[variaveis].dtypes))))

Lista de tipos de dados no kdd2009: [dtype('int64'), dtype('float64'), dtype('int8'), dtype('int16')]


In [15]:
kdd2009.head()

Unnamed: 0,Var1,Var2,Var3,Var4,Var5,Var6,Var7,Var9,Var10,Var11,...,Var223,Var224,Var225,Var226,Var227,Var228,Var229,appetency,churn,upselling
0,,,,,,1526.0,7.0,,,,...,3,-1,-1,22,2,8,-1,False,False,False
1,,,,,,525.0,0.0,,,,...,0,-1,-1,14,2,8,-1,False,True,False
2,,,,,,5236.0,7.0,,,,...,3,-1,1,10,0,25,0,False,False,False
3,,,,,,,0.0,,,,...,0,-1,-1,7,2,8,-1,False,False,False
4,,,,,,1029.0,7.0,,,,...,0,-1,1,7,2,8,1,False,False,False


In [16]:
kdd2009.describe()

Unnamed: 0,Var1,Var2,Var3,Var4,Var5,Var6,Var7,Var9,Var10,Var11,...,Var220,Var221,Var222,Var223,Var224,Var225,Var226,Var227,Var228,Var229
count,702.0,1241.0,1240.0,1579.0,1487.0,44471.0,44461.0,702.0,1487.0,1240.0,...,50000.0,50000.0,50000.0,50000.0,50000.0,50000.0,50000.0,50000.0,50000.0,50000.0
mean,11.487179,0.004029,425.298387,0.125396,238793.3,1326.437116,6.809496,48.145299,392605.7,8.625806,...,2003.12184,3.98408,2123.70206,0.30248,-0.9836,-0.2201,10.11572,2.10306,10.2334,-0.3688
std,40.709951,0.141933,4270.193518,1.275481,644125.9,2685.693668,6.326053,154.777855,928089.6,2.869558,...,1248.04682,1.119166,1183.541455,1.070238,0.127009,0.933506,5.798438,0.867994,6.488254,0.799074
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,8.0,...,0.0,0.0,0.0,-1.0,-1.0,-1.0,0.0,0.0,0.0,-1.0
25%,0.0,0.0,0.0,0.0,0.0,518.0,0.0,4.0,0.0,8.0,...,826.0,4.0,1066.0,0.0,-1.0,-1.0,6.0,2.0,8.0,-1.0
50%,0.0,0.0,0.0,0.0,0.0,861.0,7.0,20.0,0.0,8.0,...,2014.0,4.0,2230.0,0.0,-1.0,-1.0,10.0,2.0,8.0,-1.0
75%,16.0,0.0,0.0,0.0,118742.5,1428.0,7.0,46.0,262863.0,8.0,...,3047.0,4.0,2984.25,0.0,-1.0,1.0,14.0,2.0,8.0,0.0
max,680.0,5.0,130668.0,27.0,6048550.0,131761.0,140.0,2300.0,12325590.0,40.0,...,4290.0,6.0,4290.0,3.0,0.0,2.0,22.0,6.0,29.0,3.0


# Divisão do conjunto de dados em treinamento e validação
Os dados originais serão divididos em dois conjunto:

- Treinamento, com 90% dos dados (45.000 dados)
- Validação, com 10% dos dados (5.000 dados)

A divisão será feita da mesma forma (com o mesmo seed) que os dados do modelo com tratamento por **vtreat**.

In [17]:
# Fixa semente para reproduzir resultados
random.seed(42)

# Define treino como 90% dos dados de treino e
# validação como os 10% restantes
tamanhoTreino = math.floor(0.90 * numeroDados)

# Gera uma amostra aleatória com 90% dos índices
#indicesTreino <- sample(seq_len(numeroDados), size = tamanhoTreino)
indicesTreino = random.sample(range(numeroDados), tamanhoTreino)
indicesValidacao = list(set(range(numeroDados)) - set(indicesTreino))

# Divide os dados nos dois subgrupos
# -indicesTreino são os 10% dos índices restantes
dadosTreino = kdd2009.iloc[indicesTreino]
dadosValidacao = kdd2009.iloc[indicesValidacao]

# Dimensões dos dados de treino e validação
print("Dados de treinamento: {}, Dados de validação: {}".format(len(dadosTreino), len(dadosValidacao)))

Dados de treinamento: 45000, Dados de validação: 5000


## Verificando os dataframes

In [18]:
dadosTreino.head()

Unnamed: 0,Var1,Var2,Var3,Var4,Var5,Var6,Var7,Var9,Var10,Var11,...,Var223,Var224,Var225,Var226,Var227,Var228,Var229,appetency,churn,upselling
41905,,,,,,392.0,0.0,,,,...,-1,-1,-1,8,2,8,-1,False,False,False
7296,,,,,,1911.0,0.0,,,,...,0,-1,-1,14,2,8,-1,False,False,False
1639,,,,,,854.0,7.0,,,,...,0,-1,1,12,1,2,0,True,False,False
48598,,,,,,2331.0,7.0,,,,...,0,-1,0,17,4,8,0,False,False,False
18024,,,,,,119.0,0.0,,,,...,-1,-1,-1,1,0,8,-1,False,False,False


In [19]:
dadosValidacao.head()

Unnamed: 0,Var1,Var2,Var3,Var4,Var5,Var6,Var7,Var9,Var10,Var11,...,Var223,Var224,Var225,Var226,Var227,Var228,Var229,appetency,churn,upselling
8192,,,,,,1204.0,0.0,,,,...,0,-1,-1,16,2,8,-1,False,False,False
49153,,,,,,805.0,7.0,,,,...,0,-1,0,9,2,8,0,False,False,False
32770,,,,,,539.0,7.0,,,,...,0,-1,-1,18,2,8,-1,False,True,False
8195,,,,,,1155.0,14.0,,,,...,3,-1,1,4,2,2,0,False,False,False
8198,,,,,,693.0,7.0,,,,...,0,-1,-1,7,2,8,-1,False,False,False


## Verificando a distribuição dos rótulos entre treino e validação

In [20]:
dadosValidacao[resultados].sum()

appetency     85
churn        331
upselling    355
dtype: int64

In [21]:
dadosTreino[resultados].sum()

appetency     805
churn        3341
upselling    3327
dtype: int64

# XGBoost

Validação do modelo para churn