# KDD 2009 - Tratamento de dados simplificado
Como parte do exercício de resolução do [KDD Cup de 2009](https://www.kdd.org/kdd-cup/view/kdd-cup-2009/Tasks) criamos este notebook para demonstrar como criar um modelo preditivo simples.

### Descrição da tarefa do KDD 2009
A tarefa consiste em estimar as probabilidades de churn, appetency e up-selling de clisntes, já que estes são os tres objetivos a prever. Há duas variações do desafio, uma maior com 15.000 variáveis e outra, menor, com 230 variáveis.

Definições:
- ***Churn***: A taxa de *churn*, também chamada de taxa de atrito, é um dos dois fatores primários que determinam a estabilidade de um cliente que o negócio irá suportar. Em um sentido mais amplo, a taxa de *churn* é a medida do número de indivíduos ou itens que se movem para e de uma coleção em um período específico de tempo. O termo é utilizado em vários contextos, mas é aplicado de forma mais ampla em negócios no que tange a base contratual de clientes.
- ***Appetency***: No nosso contexto, *appetency*, é a propensão para comprar um serviço ou produto.
- ***Up-selling***: *Up-selling* é um técnica de venda onde um vendedor faz com que um consumidor compre itens mais caros, com upgrades, ou produtos adicionais em uma tentativa de aumentar o lucro das vendas. *Up-selling* normalmente indica vender produtos adicionais, que devem ser mais lucrativos que a venda original.

### Abordagem
Para resolver o problema baseado nos dados mais simples (230 variáveis do [KDD 2009](https://www.kdd.org/kdd-cup/view/kdd-cup-2009/Tasks)) seguiremos o seguinte roteiro geral:

1. Ler os dados do KDD 2009
2. Tratar os dados de forma simples, para extrair variáveis vazias ou com todos os valores nulos, que não tem impacto no modelo preditivo
3. Preparar os dados para utilizar o modelo preditivo escolhido (ver item 5)
4. Separar os dados em tres grupos:
    - Treinamento
    - Testes (ou validação)
    - Validação cruzada
5. Treinar o modelo com [XGBoost](https://xgboost.readthedocs.io/en/latest/index.html), escolhendo o número de rodadas de execução que produza o melhor resultado no grupo de testes. A métrica utilizada para avalizar o modelo, como descrito no desafio, será [AUC](https://en.wikipedia.org/wiki/AUC)
6. Validar este resultado com o grupo de validação cruzada. O resultado final será o mínimo entre os dois resultados
7. Como exercício adicional, vamos comparar a curva de resultados entre Testes (Validação) e Validação Cruzada, para avalizar, de forma superficial, como o modelo se comporta e verificar se há tendência de *overfitting* ou *underfitting*

In [1]:
# Importação de bibliotecas
import math
import numpy as np
import os
import pandas as pd
import random
from sklearn.metrics import auc
import sys
import xgboost as xgb

# Rotinas de visualização de dados
from bokeh.plotting import figure
from bokeh.io import output_notebook, push_notebook, show, export_png
from bokeh.models import Range1d

output_notebook()

# Lendo arquivo de treinamento

O arquivo com dados de treinamento possui 50000 entradas. Os arquivos com os rótulos (churn, appetency, upselling) estão em separado e serão lidos mais tarde.

Os arquivos estão em formato TSV (valores separados por tab, com valores "não disponíveis" em branco

Por exemplo (os espaços são apenas ilustrativos)
```
Var1	Var2	Var3	Var4	Var5	Var6	Var7	Var8	Var9	Var10
\t      \t      \t      \t      1024\t    \t      \t    2048\t  \t      \t
```

Para ler estes dados usamos a função do pandas [`read_csv`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html) indicando que o delimitador é o caracter tab (*\t*) e que os valores em branco/nulos são vazios

In [2]:
# Diretório de dados
data_folder = os.path.join("..", "data")
# Arquivo de dados
training_data_file = os.path.join(data_folder, "orange_small_train.data")

# Dataframe com os dados de treinamento
kdd2009 = pd.read_csv(training_data_file, delimiter='\t', na_values=[''])

## Limpeza dos dados
Uma vez lidos os dados, é necessário verificar se há colunas apenas com NaNs e remover estas colunas, caso existam. 

Para auxiliar o processo, criamos um dataframe com a contagem de NaNs (Not a Number) de cada coluna dos dados da Orange e depois criamos a lista das colunas que só possuem NaNs, essas colunas são depois removidas do dataframe de dados da Orange.

In [3]:
# Número total de pontos de dados
numeroDados = len(kdd2009)

# Cria dataframe com contagem de NaNs
nans = pd.DataFrame(kdd2009.isna().sum(), columns=['NAN_count'])

In [4]:
nans.head(10)

Unnamed: 0,NAN_count
Var1,49298
Var2,48759
Var3,48760
Var4,48421
Var5,48513
Var6,5529
Var7,5539
Var8,50000
Var9,49298
Var10,48513


In [5]:
# Recupera lista de variaveis que só possuem NaN
variaveisNulas = nans[nans['NAN_count'] == numeroDados].index.values

# Remove as colunas que só contém NaNs
kdd2009.drop(variaveisNulas, axis=1, inplace=True)

# Lendo arquivos de labels
Uma vez lidos os dados, é necessário ler os arquivos com os rótulos de cada um dos atributos que desejamos prever:
- *Appetency*: Propensão de contratar serviços
- *Churn*: Tendência de cancelar o contrato, também chamada de taxa de atrito)
- *Upselling*: Propensão de contratar serviços mais caros

Os rótulos estão em arquivos separados. Colunas com os tres rótulos serão incluídas no dataframe do kdd2009. Os arquivos de rótulos estão codificados em colunas, com -1 para falso e 1 para verdadeiro. Como no exemplo abaixo
```
-1
1
-1
-1
-1
-1
-1
-1
-1
-1

```

In [6]:
# Lendo arquivos com os rótulos das métricas
# Colunas de resultados
resultados = ['appetency', 'churn', 'upselling']
padraoArquivosRotulos = "orange_small_train_{}.labels"

# Colunas de variáveis de entrada
variaveis = kdd2009.keys()

# Le os arquivos de rótulos, converte 1 -> True, -1 -> False e inclui no dataframe do kdd
for rotulo in resultados:
    # Gera nome do arquivo
    nomeArquivo = os.path.join(data_folder, padraoArquivosRotulos.format(rotulo))
    # Lê arquivo
    dfRotulo = pd.read_csv(nomeArquivo, header=None, names=['label'])
    # Converte 1 -> True, -1 -> False - Assume que != 1 -> False
    dfRotulo['label'] = dfRotulo['label'] == 1
    # Inclusão dos rótulos no dataframe do kdd como colunas adicionais
    kdd2009[rotulo] = dfRotulo['label']

# Verificando os rótulos no DataFrame
Rápida visualização dos dados dos rótulos

In [7]:
# Primeiros valores dos resultados no dataframe de treinamento
kdd2009[resultados].head(10)

Unnamed: 0,appetency,churn,upselling
0,False,False,False
1,False,True,False
2,False,False,False
3,False,False,False
4,False,False,False
5,False,False,False
6,False,False,False
7,False,False,False
8,False,False,False
9,False,False,False


## E verificando as variáveis (já sem colunas de NaNs)

In [8]:
# Primeiros valores das variaveis no dataframe de treinamento
kdd2009[variaveis].head()

Unnamed: 0,Var1,Var2,Var3,Var4,Var5,Var6,Var7,Var9,Var10,Var11,...,Var220,Var221,Var222,Var223,Var224,Var225,Var226,Var227,Var228,Var229
0,,,,,,1526.0,7.0,,,,...,1YVfGrO,oslk,fXVEsaq,jySVZNlOJy,,,xb3V,RAYp,F2FyR07IdsN7I,
1,,,,,,525.0,0.0,,,,...,0AJo2f2,oslk,2Kb5FSF,LM8l689qOp,,,fKCe,RAYp,F2FyR07IdsN7I,
2,,,,,,5236.0,7.0,,,,...,JFM1BiF,Al6ZaUT,NKv4yOc,jySVZNlOJy,,kG3k,Qu4f,02N6s8f,ib5G6X1eUxUn6,am7c
3,,,,,,,0.0,,,,...,L91KIiz,oslk,CE7uk3u,LM8l689qOp,,,FSa2,RAYp,F2FyR07IdsN7I,
4,,,,,,1029.0,7.0,,,,...,OrnLfvc,oslk,1J2cvxe,LM8l689qOp,,kG3k,FSa2,RAYp,F2FyR07IdsN7I,mj86


# Conversão de colunas de objetos e booleanos para inteiros

### Modelo baseado no XGBoost
Para utilizar o [XGBoost](https://xgboost.readthedocs.io/en/latest/index.html) é necessário converter as colunas de objetos e valores booleanos para inteiros ou reais.

Inicialmente vamos classificar as colunas em inteiros, reais, objetos e booleanos e depois converter objetos e booleanos para inteiros, já que o algoritmo que será utilizado para treinamento do modelo requer que os dados sejam inteiros ou reais.

In [9]:
# Verifica os tipos de dados existentes no dataframe
print('Lista de tipos de dados no kdd2009: {}'.format(list(set(kdd2009[variaveis].dtypes))))

Lista de tipos de dados no kdd2009: [dtype('float64'), dtype('O'), dtype('int64')]


In [10]:
data_types = pd.DataFrame(kdd2009[variaveis].dtypes, columns=['dtype'])

variaveisInteiras = list(data_types[data_types.values == np.dtype('int64')].index.values)
variaveisReais = list(data_types[data_types.values == np.dtype('float64')].index.values)
variaveisCategoricas = list(data_types[data_types.values == np.dtype('object')].index.values)

len(variaveisInteiras+variaveisReais+variaveisCategoricas+resultados) == len(kdd2009.keys())

print('Há {} variáveis inteiras, {} variáveis reais e {} objetos'.format(
                                                                    len(variaveisInteiras),
                                                                    len(variaveisReais),
                                                                    len(variaveisCategoricas)))

# Verifica se o total de tipos de variáveis está correto
if len(variaveisInteiras+variaveisReais+variaveisCategoricas+resultados) != len(kdd2009.keys()):
    print('Aviso: erro na contagem de tipos de variáveis!!!')

Há 1 variáveis inteiras, 173 variáveis reais e 38 objetos


## Breve verificação dos dados de cada tipo

In [11]:
kdd2009[variaveisCategoricas].head()

Unnamed: 0,Var191,Var192,Var193,Var194,Var195,Var196,Var197,Var198,Var199,Var200,...,Var220,Var221,Var222,Var223,Var224,Var225,Var226,Var227,Var228,Var229
0,,bZkvyxLkBI,RO12,,taul,1K8T,lK27,ka_ns41,nQUveAzAF7,,...,1YVfGrO,oslk,fXVEsaq,jySVZNlOJy,,,xb3V,RAYp,F2FyR07IdsN7I,
1,,CEat0G8rTN,RO12,,taul,1K8T,2Ix5,qEdASpP,y2LIM01bE1,,...,0AJo2f2,oslk,2Kb5FSF,LM8l689qOp,,,fKCe,RAYp,F2FyR07IdsN7I,
2,,eOQt0GoOh3,AERks4l,SEuy,taul,1K8T,ffXs,NldASpP,y4g9XoZ,vynJTq9,...,JFM1BiF,Al6ZaUT,NKv4yOc,jySVZNlOJy,,kG3k,Qu4f,02N6s8f,ib5G6X1eUxUn6,am7c
3,,jg69tYsGvO,RO12,,taul,1K8T,ssAy,_ybO0dd,4hMlgkf58mhwh,,...,L91KIiz,oslk,CE7uk3u,LM8l689qOp,,,FSa2,RAYp,F2FyR07IdsN7I,
4,,IXSgUHShse,RO12,SEuy,taul,1K8T,uNkU,EKR938I,ThrHXVS,0v21jmy,...,OrnLfvc,oslk,1J2cvxe,LM8l689qOp,,kG3k,FSa2,RAYp,F2FyR07IdsN7I,mj86


## Cálculos de estatísticas descritivas básicas das colunas de dados

In [12]:
kdd2009.describe()

Unnamed: 0,Var1,Var2,Var3,Var4,Var5,Var6,Var7,Var9,Var10,Var11,...,Var180,Var181,Var182,Var183,Var184,Var186,Var187,Var188,Var189,Var190
count,702.0,1241.0,1240.0,1579.0,1487.0,44471.0,44461.0,702.0,1487.0,1240.0,...,702.0,44991.0,1579.0,1241.0,1241.0,702.0,702.0,1241.0,21022.0,333.0
mean,11.487179,0.004029,425.298387,0.125396,238793.3,1326.437116,6.809496,48.145299,392605.7,8.625806,...,3776755.0,0.611456,1416638.0,77773.8,8.460919,3.299145,16.54416,167.368477,270.142137,22007.045192
std,40.709951,0.141933,4270.193518,1.275481,644125.9,2685.693668,6.326053,154.777855,928089.6,2.869558,...,3785696.0,2.495681,2279786.0,201618.8,46.973777,8.781967,60.22303,113.980072,86.707692,29085.14649
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,8.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,-6.42,6.0,0.0
25%,0.0,0.0,0.0,0.0,0.0,518.0,0.0,4.0,0.0,8.0,...,191735.2,0.0,0.0,0.0,0.0,0.0,0.0,19.38,204.0,2732.67
50%,0.0,0.0,0.0,0.0,0.0,861.0,7.0,20.0,0.0,8.0,...,2431310.0,0.0,116778.0,0.0,0.0,0.0,4.0,197.64,270.0,12668.94
75%,16.0,0.0,0.0,0.0,118742.5,1428.0,7.0,46.0,262863.0,8.0,...,6471827.0,0.0,1844952.0,48810.0,8.0,6.0,14.0,252.96,330.0,29396.34
max,680.0,5.0,130668.0,27.0,6048550.0,131761.0,140.0,2300.0,12325590.0,40.0,...,14284830.0,49.0,11994780.0,3048400.0,1200.0,102.0,910.0,628.62,642.0,230427.0


In [13]:
kdd2009.head()

Unnamed: 0,Var1,Var2,Var3,Var4,Var5,Var6,Var7,Var9,Var10,Var11,...,Var223,Var224,Var225,Var226,Var227,Var228,Var229,appetency,churn,upselling
0,,,,,,1526.0,7.0,,,,...,jySVZNlOJy,,,xb3V,RAYp,F2FyR07IdsN7I,,False,False,False
1,,,,,,525.0,0.0,,,,...,LM8l689qOp,,,fKCe,RAYp,F2FyR07IdsN7I,,False,True,False
2,,,,,,5236.0,7.0,,,,...,jySVZNlOJy,,kG3k,Qu4f,02N6s8f,ib5G6X1eUxUn6,am7c,False,False,False
3,,,,,,,0.0,,,,...,LM8l689qOp,,,FSa2,RAYp,F2FyR07IdsN7I,,False,False,False
4,,,,,,1029.0,7.0,,,,...,LM8l689qOp,,kG3k,FSa2,RAYp,F2FyR07IdsN7I,mj86,False,False,False


## Convertendo variáveis categóricas para inteiros (para usar no XGBoost)

In [14]:
# Cada variável categórica é convertida para Categorical do Pandas e depois
# mudamos seu valor categórico para o código numérico correspondente
for variavel in variaveisCategoricas:
    kdd2009[variavel] = pd.Categorical(kdd2009[variavel])
    kdd2009[variavel] = kdd2009[variavel].cat.codes

In [15]:
# Verifica os tipos de dados existentes no dataframe
print('Lista de tipos de dados no kdd2009: {}'.format(list(set(kdd2009[variaveis].dtypes))))

Lista de tipos de dados no kdd2009: [dtype('float64'), dtype('int16'), dtype('int8'), dtype('int64')]


In [16]:
kdd2009.head()

Unnamed: 0,Var1,Var2,Var3,Var4,Var5,Var6,Var7,Var9,Var10,Var11,...,Var223,Var224,Var225,Var226,Var227,Var228,Var229,appetency,churn,upselling
0,,,,,,1526.0,7.0,,,,...,3,-1,-1,22,2,8,-1,False,False,False
1,,,,,,525.0,0.0,,,,...,0,-1,-1,14,2,8,-1,False,True,False
2,,,,,,5236.0,7.0,,,,...,3,-1,1,10,0,25,0,False,False,False
3,,,,,,,0.0,,,,...,0,-1,-1,7,2,8,-1,False,False,False
4,,,,,,1029.0,7.0,,,,...,0,-1,1,7,2,8,1,False,False,False


In [17]:
kdd2009.describe()

Unnamed: 0,Var1,Var2,Var3,Var4,Var5,Var6,Var7,Var9,Var10,Var11,...,Var220,Var221,Var222,Var223,Var224,Var225,Var226,Var227,Var228,Var229
count,702.0,1241.0,1240.0,1579.0,1487.0,44471.0,44461.0,702.0,1487.0,1240.0,...,50000.0,50000.0,50000.0,50000.0,50000.0,50000.0,50000.0,50000.0,50000.0,50000.0
mean,11.487179,0.004029,425.298387,0.125396,238793.3,1326.437116,6.809496,48.145299,392605.7,8.625806,...,2003.12184,3.98408,2123.70206,0.30248,-0.9836,-0.2201,10.11572,2.10306,10.2334,-0.3688
std,40.709951,0.141933,4270.193518,1.275481,644125.9,2685.693668,6.326053,154.777855,928089.6,2.869558,...,1248.04682,1.119166,1183.541455,1.070238,0.127009,0.933506,5.798438,0.867994,6.488254,0.799074
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,8.0,...,0.0,0.0,0.0,-1.0,-1.0,-1.0,0.0,0.0,0.0,-1.0
25%,0.0,0.0,0.0,0.0,0.0,518.0,0.0,4.0,0.0,8.0,...,826.0,4.0,1066.0,0.0,-1.0,-1.0,6.0,2.0,8.0,-1.0
50%,0.0,0.0,0.0,0.0,0.0,861.0,7.0,20.0,0.0,8.0,...,2014.0,4.0,2230.0,0.0,-1.0,-1.0,10.0,2.0,8.0,-1.0
75%,16.0,0.0,0.0,0.0,118742.5,1428.0,7.0,46.0,262863.0,8.0,...,3047.0,4.0,2984.25,0.0,-1.0,1.0,14.0,2.0,8.0,0.0
max,680.0,5.0,130668.0,27.0,6048550.0,131761.0,140.0,2300.0,12325590.0,40.0,...,4290.0,6.0,4290.0,3.0,0.0,2.0,22.0,6.0,29.0,3.0


# Divisão do conjunto de dados em treinamento, validação e verificação cruzada
Os dados originais serão divididos em tres conjuntos:

- Treinamento, com 90% dos dados (45.000 dados)
- Validação, com 5% dos dados (2.500 dados)
- Verificação cruzada, com 5% dos dados (2.500 dados)

In [18]:
# Fixa semente para reproduzir resultados
random.seed(42)

# Define treino como 90% dos dados de treino e
# validação como os 10% restantes, metade para testes e
# metade para validação cruzada
tamanhoTreino = math.floor(0.9 * numeroDados)

# Gera uma amostra aleatória com 90% dos índices
indicesTreino = random.sample(range(numeroDados), tamanhoTreino)
# Indices de Validação (testes) e Validação Cruzada
indicesValidacaoVC = list(set(range(numeroDados)) - set(indicesTreino))
metade = len(indicesValidacaoVC)//2

indicesValidacao = indicesValidacaoVC[:metade]
indicesVCruzada = indicesValidacaoVC[metade:]

# Divide os dados nos tres subgrupos
# dadosTreino serão usados para treinar o modelo
# dadosValidacao serão usados para testar o modelo
# dadosVCruzada serão usados para estimar a performance do modelo
dadosTreino = kdd2009.iloc[indicesTreino].reset_index(drop=True)
dadosValidacao = kdd2009.iloc[indicesValidacao].reset_index(drop=True)
dadosVCruzada = kdd2009.iloc[indicesVCruzada].reset_index(drop=True)

# Dimensões dos dados de treino e validação
print("Dados de treinamento: {}, Dados de validação: {}, Dados de validação cruzada: {}".format(len(dadosTreino),
                                                                len(dadosValidacao),
                                                                len(dadosVCruzada)))

Dados de treinamento: 45000, Dados de validação: 2500, Dados de validação cruzada: 2500


## Verificando os dataframes

In [19]:
dadosTreino.head()

Unnamed: 0,Var1,Var2,Var3,Var4,Var5,Var6,Var7,Var9,Var10,Var11,...,Var223,Var224,Var225,Var226,Var227,Var228,Var229,appetency,churn,upselling
0,,,,,,392.0,0.0,,,,...,-1,-1,-1,8,2,8,-1,False,False,False
1,,,,,,1911.0,0.0,,,,...,0,-1,-1,14,2,8,-1,False,False,False
2,,,,,,854.0,7.0,,,,...,0,-1,1,12,1,2,0,True,False,False
3,,,,,,2331.0,7.0,,,,...,0,-1,0,17,4,8,0,False,False,False
4,,,,,,119.0,0.0,,,,...,-1,-1,-1,1,0,8,-1,False,False,False


In [20]:
dadosValidacao.head()

Unnamed: 0,Var1,Var2,Var3,Var4,Var5,Var6,Var7,Var9,Var10,Var11,...,Var223,Var224,Var225,Var226,Var227,Var228,Var229,appetency,churn,upselling
0,,,,,,539.0,7.0,,,,...,0,-1,-1,18,2,8,-1,False,True,False
1,,,,,,77.0,0.0,,,,...,-1,-1,-1,7,2,8,-1,False,False,False
2,,,,,,490.0,7.0,,,,...,0,-1,1,12,3,25,1,False,False,False
3,,,,,,3633.0,7.0,,,,...,0,-1,-1,8,2,8,-1,False,False,True
4,,,,,39580.0,,,,27603.0,,...,0,-1,-1,14,2,8,-1,False,False,False


In [21]:
dadosVCruzada.head()

Unnamed: 0,Var1,Var2,Var3,Var4,Var5,Var6,Var7,Var9,Var10,Var11,...,Var223,Var224,Var225,Var226,Var227,Var228,Var229,appetency,churn,upselling
0,,,,,,3549.0,0.0,,,,...,0,-1,-1,19,2,8,-1,False,False,False
1,,,,,,1113.0,7.0,,,,...,0,-1,1,7,2,8,1,False,False,False
2,,,,,,553.0,0.0,,,,...,0,-1,-1,7,2,8,-1,False,False,False
3,,,,,,1029.0,14.0,,,,...,0,-1,0,8,2,8,0,False,True,False
4,,,,,,1827.0,14.0,,,,...,0,-1,-1,14,2,8,-1,False,False,False


## Verificando a distribuição dos rótulos entre treino, testes e validação cruzada

In [22]:
dadosTreino[resultados].sum()

appetency     805
churn        3341
upselling    3327
dtype: int64

In [23]:
dadosValidacao[resultados].sum()

appetency     41
churn        155
upselling    167
dtype: int64

In [24]:
dadosVCruzada[resultados].sum()

appetency     44
churn        176
upselling    188
dtype: int64

# XGBoost

Utilizaremos o [XGBoost](https://xgboost.readthedocs.io/en/latest/index.html) para treinamento dos dados do KDD2009 e predição de resultados no conjunto de testes.

De acordo com o a página de ajuda do XGBoost:
XGBoost é uma biblioteca otimizada de gradient boosting distribuído, projetada para ser altamente eficiente, flexível e portável. Implementa algoritmos de machine learning sob o framework de Gradient [Boosting](https://en.wikipedia.org/wiki/Boosting_(machine_learning)). O XGBoost provê uma árvore paralela de boosting (também conhecida como GBDT, GBM) que pode resolver vários problemas de ciência de dados de forma rápida e precisa. O mesmo código é executado em vários ambientes distribuídos (Hadoop, SCG, MPI) e pode resolver problemas com mais de bilhões de exemplos.


In [25]:
# Variável que será prevista
resultado = 'upselling'

### Rotinas de chamada do XGBoost
Para executar o XGBoost criamos duas rotinas:
- `gradeBoost`: Recebe dados de treinamento, de teste, o rótulo a ser testado e um iterador para a grade de treinamento, essa rotina "envelopa" a função `xgBoost`.
- `xgBoost`: Rotina que chama o XGBoost com os parâmetros desejados

A métrica utilizada para avaliar o modelo, de acordo com o desafio KDD2009 é o AUC:

**TODO**: Explicar AUC e ROC (que será incluído mais tarde)

In [26]:
def matrizTeste(teste, listaVariaveis):
    return xgb.DMatrix(teste[listaVariaveis])

def matrizTreino(treinamento, listaVariaveis):
    return xgb.DMatrix(treinamento[listaVariaveis], treinamento[[rotulo]])

def computaAUC(dados, listaVariaveis, rotulo, modelo):
    matriz = matrizTeste(dados, listaVariaveis)
    resultadoValidacao = modelo.predict(matriz)
    validacao = dados[rotulo].apply(int).reset_index(drop=True)
    previsao = 'previsao'
    dfPrevisao = pd.DataFrame(resultadoValidacao, columns=[previsao])
    dfPrevisao[resultado] = validacao
    dfPrevisao = dfPrevisao.sort_values(by=previsao)
    return auc(dfPrevisao[previsao], dfPrevisao[rotulo])

def gradeBoost(treinamento, listaVariaveis, teste, rotulo, intervaloGrade, verbose=0):
    """ Gera lista de resultados da grade de treinamento.
    Parâmetros:
    treinamento: Dataframe de dados de treinamento, com variaveis e rotulos
    listaVariaveis: Lista de variáveis para treinamento/teste
    teste: Dataframe de dados de teste/validação
    rotulo: Rotulo do teste
    intervaloGrade: Range de intervalo da grade de treinamento
    """
    # TODO: Tratamento de parâmetros/datarames de entrada
    
    # Converte dataframes para DMatrices
    xgbDados = matrizTreino(treinamento, listaVariaveis)
    xgbTeste = matrizTeste(teste, listaVariaveis)
    
    # Converte rotulos booleanos para inteiro (embora não seja estritamente necessário em python)
    validacao = teste[rotulo].apply(int).reset_index(drop=True)

    # Vetor de resultados
    resultados = []
    melhorAUC = float("-inf")
    melhorRodadas = -1
    dataFrame, modelo = (None, None)
    
    # Indices das tuplas
    rodadaXGB = 0
    aucRodada = -1
    for rodada in intervaloGrade:
        resultado = xgBoost(xgbDados, xgbTeste, validacao, rotulo, rodada, verbose=verbose)
        if resultado['resultado'][aucRodada] > melhorAUC:
            melhorAUC = resultado['resultado'][aucRodada]
            melhorRodadas = resultado['resultado'][rodadaXGB]
            dataFrame = resultado['df']
            modelo = resultado['modelo']
        resultados.append(resultado['resultado'])
            
    return {'melhor': {'auc': melhorAUC,
                       'rodadas': melhorRodadas,
                       'dataframe': dataFrame,
                       'modelo': modelo},
            'resultados': resultados}

def xgBoost(treinamento, teste, validacao, rotulo, rodadas, verbose=0):
    """ Executa o xgBoost e retorna tupla com número de rodadas e AUC
    """
    param = {'booster': 'dart',
             #'objective': 'binary:logistic',
             #'eta': 0.05,
             #'gamma': 0,
             'max_depth': 8,
             #'min_child_weight': 1,
             #'subsample': 1,
             #'colsample_bytree': 1
            }
    if verbose:
        print('XGBoost, {rodadas} rodadas'.format(rodadas=rodadas))
    # Treina modelo pelo número de rodadas determinado
    modelo = xgb.train(param, treinamento, rodadas)
    
    # Computa a previsão do modelo para o conjunto de teste
    resultadoValidacao = modelo.predict(teste)

    # Cria dataframe com previsão e rótulo
    previsao = 'previsao'
    dfPrevisao = pd.DataFrame(resultadoValidacao, columns=[previsao])
    dfPrevisao[rotulo] = validacao
    
    # Ordena o dataframe pela coluna de previsao
    dfPrevisao = dfPrevisao.sort_values(by=previsao)
    # Usamos o AUC do sklearn.metrics
    # requer: from sklearn.metrics import auc
    aucRun = auc(dfPrevisao[previsao], dfPrevisao[rotulo])
    if verbose:
        print('----------> AUC: {}'.format(aucRun))
    return {'df': dfPrevisao, 'modelo': modelo, 'resultado':(rodadas, aucRun)}
    

# Visualização de resultados
Rotinas bokeh para visualização de gráficos de linhas dos resultados

In [27]:
# Rotinas para geração de gráficos
def linha(dados, x="x", y="y", fig=None, delay=False, **kwargs):
    p = figure(width=900, height=600) if fig == None else fig
    p.y_range = Range1d(0,1)
    p.line(x, y, source=dados, **kwargs)
    if delay == False:
        show(p)
    return p
    
def linhaAUC(dados, fig=None, delay=False, **kwargs):
    return linha(dados, x="Rodadas", y="AUC", fig=fig, delay=delay, **kwargs)

In [28]:
# Iterador para a grade de busca
iteracoes = range(5, 150, 1)

In [29]:
grade = gradeBoost(dadosTreino, variaveis, dadosValidacao, resultado, iteracoes, verbose=1)

XGBoost, 5 rodadas
----------> AUC: 0.33305662870407104
XGBoost, 6 rodadas
----------> AUC: 0.3615960031747818
XGBoost, 7 rodadas
----------> AUC: 0.39742109179496765
XGBoost, 8 rodadas
----------> AUC: 0.3967694193124771
XGBoost, 9 rodadas
----------> AUC: 0.47566841542720795
XGBoost, 10 rodadas
----------> AUC: 0.5053303241729736
XGBoost, 11 rodadas
----------> AUC: 0.4504482299089432
XGBoost, 12 rodadas
----------> AUC: 0.49371056258678436
XGBoost, 13 rodadas
----------> AUC: 0.4630793482065201
XGBoost, 14 rodadas
----------> AUC: 0.4865258038043976
XGBoost, 15 rodadas
----------> AUC: 0.48307330906391144
XGBoost, 16 rodadas
----------> AUC: 0.47276487946510315
XGBoost, 17 rodadas
----------> AUC: 0.4770667105913162
XGBoost, 18 rodadas
----------> AUC: 0.4637870192527771
XGBoost, 19 rodadas
----------> AUC: 0.4697275310754776
XGBoost, 20 rodadas
----------> AUC: 0.47560058534145355
XGBoost, 21 rodadas
----------> AUC: 0.4735639691352844
XGBoost, 22 rodadas
----------> AUC: 0.4525668

In [30]:
grade['resultados']

[(5, 0.33305662870407104),
 (6, 0.3615960031747818),
 (7, 0.39742109179496765),
 (8, 0.3967694193124771),
 (9, 0.47566841542720795),
 (10, 0.5053303241729736),
 (11, 0.4504482299089432),
 (12, 0.49371056258678436),
 (13, 0.4630793482065201),
 (14, 0.4865258038043976),
 (15, 0.48307330906391144),
 (16, 0.47276487946510315),
 (17, 0.4770667105913162),
 (18, 0.4637870192527771),
 (19, 0.4697275310754776),
 (20, 0.47560058534145355),
 (21, 0.4735639691352844),
 (22, 0.45256689190864563),
 (23, 0.4829474985599518),
 (24, 0.49472571909427643),
 (25, 0.4914149343967438),
 (26, 0.4900262653827667),
 (27, 0.5010872781276703),
 (28, 0.48687654733657837),
 (29, 0.4939013868570328),
 (30, 0.4840611219406128),
 (31, 0.4785587340593338),
 (32, 0.483873575925827),
 (33, 0.4906558692455292),
 (34, 0.4917239844799042),
 (35, 0.4948103278875351),
 (36, 0.5028340220451355),
 (37, 0.5028681755065918),
 (38, 0.5098894089460373),
 (39, 0.4995439052581787),
 (40, 0.5358011722564697),
 (41, 0.5479652434587479

In [31]:
dfGrade = pd.DataFrame({"AUC":[g[1] for g in grade['resultados']], "Rodadas":[g[0] for g in grade['resultados']]})

In [32]:
aucMax = grade['melhor']['auc']
numRodadas = grade['melhor']['rodadas']
print('AUC Máximo: {}, {} rodadas'.format(aucMax, numRodadas))

AUC Máximo: 0.6213724315166473, 80 rodadas


In [33]:
fig = linhaAUC(dfGrade, color="red", legend="Teste")

## Resultado da Validação Cruzada
A medida AUC estimada é dada pelo mínimo entre a melhor performance dos dados de **Teste** e o resultado da **Validação Cruzada**

In [34]:
aucVC = computaAUC(dadosVCruzada, variaveis, rotulo, grade['melhor']['modelo'])
print('Performance estimada do modelo (AUC): {}'.format(min(aucMax, aucVC)))

Performance estimada do modelo (AUC): 0.6194463819265366


# Comparação de comportamento entre Testes e Validação Cruzada

Para ter uma ideia mais clara da previsibilidade do modelo, vamos comparar os resultados globais dos dados de Testes (e não apenas o melhor resultado) com os resultados com os dados de Validação Cruzada 

In [35]:
gradeVCruzada = gradeBoost(dadosTreino, variaveis, dadosVCruzada, resultado, iteracoes, verbose=1)

XGBoost, 5 rodadas
----------> AUC: 0.38419894874095917
XGBoost, 6 rodadas
----------> AUC: 0.4125986397266388
XGBoost, 7 rodadas
----------> AUC: 0.41896452009677887
XGBoost, 8 rodadas
----------> AUC: 0.45864877104759216
XGBoost, 9 rodadas
----------> AUC: 0.48980939388275146
XGBoost, 10 rodadas
----------> AUC: 0.49681422114372253
XGBoost, 11 rodadas
----------> AUC: 0.5008695125579834
XGBoost, 12 rodadas
----------> AUC: 0.5015091001987457
XGBoost, 13 rodadas
----------> AUC: 0.5013833492994308
XGBoost, 14 rodadas
----------> AUC: 0.49399513006210327
XGBoost, 15 rodadas
----------> AUC: 0.46294963359832764
XGBoost, 16 rodadas
----------> AUC: 0.4551367461681366
XGBoost, 17 rodadas
----------> AUC: 0.4679217040538788
XGBoost, 18 rodadas
----------> AUC: 0.48041902482509613
XGBoost, 19 rodadas
----------> AUC: 0.48318342864513397
XGBoost, 20 rodadas
----------> AUC: 0.4935131222009659
XGBoost, 21 rodadas
----------> AUC: 0.48963071405887604
XGBoost, 22 rodadas
----------> AUC: 0.4916

In [36]:
gradeVCruzada['resultados']

[(5, 0.38419894874095917),
 (6, 0.4125986397266388),
 (7, 0.41896452009677887),
 (8, 0.45864877104759216),
 (9, 0.48980939388275146),
 (10, 0.49681422114372253),
 (11, 0.5008695125579834),
 (12, 0.5015091001987457),
 (13, 0.5013833492994308),
 (14, 0.49399513006210327),
 (15, 0.46294963359832764),
 (16, 0.4551367461681366),
 (17, 0.4679217040538788),
 (18, 0.48041902482509613),
 (19, 0.48318342864513397),
 (20, 0.4935131222009659),
 (21, 0.48963071405887604),
 (22, 0.4916725754737854),
 (23, 0.4780891239643097),
 (24, 0.4770853519439697),
 (25, 0.48037995398044586),
 (26, 0.49662695825099945),
 (27, 0.5252482891082764),
 (28, 0.5133717805147171),
 (29, 0.5120905786752701),
 (30, 0.5156220048666),
 (31, 0.5715134739875793),
 (32, 0.5683743804693222),
 (33, 0.5825296193361282),
 (34, 0.5854620188474655),
 (35, 0.5662733763456345),
 (36, 0.5583991259336472),
 (37, 0.5470243394374847),
 (38, 0.5459128320217133),
 (39, 0.5343832224607468),
 (40, 0.524092361330986),
 (41, 0.5496144741773605)

In [37]:
dfGradeVCruzada = pd.DataFrame({"AUC":[g[1] for g in gradeVCruzada['resultados']],
                                "Rodadas":[g[0] for g in gradeVCruzada['resultados']]})

In [38]:
fig = linhaAUC(dfGradeVCruzada, fig=fig, legend="Validação Cruzada")

In [39]:
arquivoSaida = os.path.join('imagens', 'xgBoost_AUC_{rotulo}.png'.format(rotulo=resultado))
fig.toolbar_location = None
fig.toolbar.logo = None
export_png(fig, filename=arquivoSaida)

'/Users/stelling/htdocs/KDD2009/python/imagens/xgBoost_AUC_upselling.png'

[](file:///media/stelling/OS/xampp/htdocs/KDD2009/python/imagens/xgBoost_AUC_churn.png')

# AUC/Rodada
![nada](imagens/xgBoost_AUC_upselling.png)

# Conclusão
**TODO**
