# Modelo 4

Vamos aplicar os modelos de Machine Learning para os dados relacionados ao videos do Youtube. É importante ressaltar que foram revistos 0 e 1 aplicados a coluna 'y' para que tenha menos carga aleatória. Além disso, foi preenchido manualmente todas as informações de acordo com o título.

In [1]:
#Importando as bibliotecas
import pandas as pd
import numpy as np

In [2]:
df = pd.read_excel('raw_data_with_label_rev1.xlsx')

## Tratamento dos dados

Nesta etapa vamos retirar linhas repetidas a onde um mesmo video aparece para duas palavras-chaves (ex: Machine Learning e Kaggle).

Além disso, vamos verificar os valores ausentes.

In [3]:
#Deletando as linhas duplicadas
df.drop_duplicates(inplace = True)

In [4]:
#Verificando a quantidade de nulos
df.isnull().sum()

title          0
y              0
upload_date    2
view_count     2
query          2
dtype: int64

In [5]:
#Deletando as linhas que estão com valores ausentes
df.dropna(axis = 0, subset = ['upload_date', 'view_count', 'query'], inplace = True)

In [6]:
#Convertendo a variável date para datetime
df['upload_date'] = pd.to_datetime(df['upload_date'])

## Features

Esta etapa está associada a criação de features

In [7]:
#Armazenando os dados com y preenchido
df_preenchido = df.loc[ df['y'].notnull() ]

In [8]:
#Criando um dataframe vazio para features com o mesmo índices do df_preenchido
features = pd.DataFrame(index = df_preenchido.index)

#Criando um dataframe exclusivo para y -> Variável Alvo
y = df_preenchido['y'].copy()

**Criando uma feature de data desde da publicação**

Como os modelos de Machine Learning não conseguem ler datas, devemos criar alguma forma para transformar estas datas em dados numéricos. Portanto, iremos fazer a diferença em relação a data de hoje (31/05/2021)

In [9]:
pd.to_datetime('2021/05/31')-df_preenchido['upload_date']

0        5 days
1        5 days
2        5 days
3        5 days
4        5 days
         ...   
1505   915 days
1506   938 days
1507   942 days
1508   950 days
1509   951 days
Name: upload_date, Length: 1507, dtype: timedelta64[ns]

Como podemos observar vem com a palavras "days" e no formato timedelta64. Para contornarmos isto, utilizaremos um método do numpy chamado **timedelta64** em que passaremos como argumento a diferença de um dia, já que os dados estão associados a diferença diária. Isto permite que os valores sejam convertidos para float.

In [10]:
(pd.to_datetime('2021/05/31')-df_preenchido['upload_date'])/np.timedelta64(1, 'D')

0         5.0
1         5.0
2         5.0
3         5.0
4         5.0
        ...  
1505    915.0
1506    938.0
1507    942.0
1508    950.0
1509    951.0
Name: upload_date, Length: 1507, dtype: float64

In [11]:
#Criando a feature de diferença diária
features['tempo_desde_pub'] = (pd.to_datetime('2021/05/31')-df_preenchido['upload_date'])/np.timedelta64(1, 'D')

**Features - Views**
Criando um conjunto de features para view.

Iremos replicar o count_views e iremos calcular as views por dia, utilizando a feature tempo_desde_pub

In [12]:
#Armazenando as views
features['views'] = df_preenchido['view_count']

#Fazendo o cálculo de views por dia
features['views_por_dia'] = features['views'] / features['tempo_desde_pub'] # Serve para avaliar a capacidade do video em promover views
                                                                            # E desconsiderar o fator tempo

Como é uma séria temporal e os dados devem ser fatiados considerando a sequência temporal, a feature **tempo_desde_pub** vai trazer a mesma informação do que a variável **date**, ou seja, se fatiássemos em 01/01/2020, os valores antes desta data seriam menores e após seriam maiores, porque seguem a mesma sequência temporal.

Diante disto, vamos deletar esta coluna do dataset

In [13]:
#Deletando a variável tempo_desde_pub
features.drop(['tempo_desde_pub'], axis = 1, inplace = True)

In [14]:
#Imprimindo as 5 primeiras linhas
features.head()

Unnamed: 0,views,views_por_dia
0,7.0,1.4
1,27.0,5.4
2,1.0,0.2
3,20.0,4.0
4,2.0,0.4


## Preparação dos Dados

In [15]:
#Separando entre treino e teste
mask_train = df_preenchido['upload_date'] < "2020-04-03" #Utilizado +- a metade do período temporal
mask_val = df_preenchido['upload_date'] >= "2020-04-03"

X_train, X_val = features[mask_train], features[mask_val]
y_train, y_val = y[mask_train], y[mask_val]
X_train.shape, X_val.shape, y_train.shape, y_val.shape

((515, 2), (992, 2), (515,), (992,))

Vamos utilizar o método **TfidfVectorizer** para extrair palavras do título. Este método é bom, porque ele atribui maior peso as palavras que aparecem menos.

Além disso, utilizamos este método para transformar informações textuais em números.

Utilizaremos o argumento min_df = 2 para que seja considerada como coluna apenas as palavras que aparecerem 2 vezes ou mais no dataset. 

In [48]:
#Importando o método
from sklearn.feature_extraction.text import TfidfVectorizer

#Criando uma variável de títulos com os dados de treino e validação
title_train = df_preenchido.loc[mask_train, 'title']
title_val = df_preenchido.loc[mask_val, 'title']

#Instanciando o objeto TfidfVectorizer
title_vec = TfidfVectorizer(min_df = 2, ngram_range = (1,1))

#Treinando e transformando os dados de treino referente ao título
title_bow_train = title_vec.fit_transform(title_train)

#Transformando os dados de validação com os parâmetros de treino
title_bow_val = title_vec.transform(title_val)

#o termo bow significa bag of words -> devido a matriz de palavras geradas

Os resultados gerados após aplicação do método é uma matriz esparsa que possui a seguinte definição:
* Quando possui matrizes em que existem muitos zeros, a matriz esparsa apenas armazena (na memória) os valores diferentes de zero. Portanto, quando ela for consultar um elemento e ele não estiver armazenado, retorna zero.

O próximo passo é unirmos os dados de título com o X_train e X_val. Para isto, utilizaremos um método do Scipy chamado hstack e funciona da seguinte maneira:

*Mostraremos o funcionamento também da vstack*

hstack - [1 2]     [3 4]   -> [1 2 3 4] - 1x4 -> Junta os elementos em colunas 

vstack - [1 2]     [3 4]   -> [1 2]
                              [3 4] - 2x2 -> Junta os elementos em linha
                              
Não utilizar estes métodos do numpy, apenas do scipy sparse, porque o numpy não está otimizado para trabalhar com matrizes esparsas, com isso, o tempo de aplicação do método seria maior do que scipy. 

In [50]:
#Importando o método hstack
from scipy.sparse import hstack

#Aplicando o método hstack para juntar o X com as matrizes de bag of word
X_train_wtitle = hstack([X_train, title_bow_train])
X_val_wtitle = hstack([X_val, title_bow_val])

In [51]:
#Imprimindo as dimensões
X_train_wtitle.shape, X_val_wtitle.shape

((515, 433), (992, 433))

### Random Forest

In [19]:
#Importando as bibliotecas
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import roc_auc_score, average_precision_score

In [20]:
#Instanciando a RandomForest
#Como os dados estão desbalanceados, vamos utilizar o argumento class_weight para dar mais peso a classe desbalanceada
mdl = RandomForestClassifier(n_estimators=1000, random_state=0, min_samples_leaf = 1, class_weight="balanced", n_jobs=6)
mdl.fit(X_train_wtitle, y_train)

RandomForestClassifier(class_weight='balanced', n_estimators=1000, n_jobs=6,
                       random_state=0)

In [21]:
#Pegando as probabilidade
p = mdl.predict_proba(X_val_wtitle)[:,1]

In [22]:
#Calculando a metrica average_precision_score
average_precision_score(y_val, p)

0.5758634597636195

In [23]:
#Calculando a ROC_AUC
roc_auc_score(y_val, p)

0.7489579818847162

Vamos tunar os o parâmetros **TfidfVectorizer** e **Random Forest** para verificar se as métricas melhoram ou não. Neste caso, vamos apenas modificar os valores dos códigos acima e registrar os valores obtidos nas métricas.

Para **TfidfVectorizer** simularemos os seguintes parâmetros:
* min_df -> A frequência mínima que a palavra deve ter para contabilizar como coluna
* ngram_range -> Representado por uma tupla em que a primeira posição está associado ao mínimo de gramas e a última ao máximo de gramas. Segue um exemplo para ilustras: intro to machine learning -> intro, to, machine, learning -> ngram_range=(1,1) 
                       intro to machine learning -> intro, to, machine, learning, intro to, to machine, machine learning -> ngram_range=(1,2)
                       intro to machine learning -> intro to, to machine, machine learning -> ngram_range=(2,2)
                       
É importante destacar que o ngrama é uma palavra.

Para o **Random Forest** usaremos:
* n_estimators: Número de árvores -> 100 ou 1000
* min_samples_leaf: Mostra quantos dados devem ter nos nós finais das árvores.

Resultado:
* Padrão (min_df = 2, n_estimators = 1000) -> ROC_AUC = 0.7551062780618204 e AP = 0.581860377926327
* Parâmetros (min_df = 2, n_estimators = 1000, min_sample_lif = 2) -> ROC_AUC = 0.7678285017258831 e AP = 0.575313410802137
* Parâmetros (min_df = 2, n_estimators = 100, min_sample_lif = 2) -> ROC_AUC = 0.7614621992681218 e AP = 0.5736100883158195
* Parâmetros (min_df = 2, n_estimators = 100, min_sample_lif = 1) -> ROC_AUC = 0.7370870208403624 e AP = 0.5614679067140127
* Parâmetro (min_df = 1, n_estimators = 1000) -> ROC_AUC = 0.7530404090213075 e AP = 0.5588239160420265
* Parâmetro (min_df = 3, n_estimators = 1000) -> ROC_AUC = 0.7489579818847162 e AP = 0.5758634597636195
* Parâmetro (min_df = 2, n_estimators = 1000, ngram (1,2)) -> ROC_AUC = 0.7385455866704731 e AP = 0.5768589581963872
* Parâmetro (min_df = 2, n_estimators = 1000, ngram (1,3)) -> ROC_AUC = 0.7212478264254756 e AP = 0.5635050362865264
* Parâmetro (min_df = 2, n_estimators = 1000, ngram (1,4)) -> ROC_AUC = 0.7201370325192702 e AP = 0.5612889724473165

Apesar do ROC_AUC melhorar um pouco nas mudanças de parâmetros, vamos continuar com os parâmetros iniciais, porque conseguimos manter uma boa average_precision_recall

* Padrão (min_df = 2, n_estimators = 1000) -> ROC_AUC = 0.7551062780618204 e AP = 0.581860377926327

### LigthGBM

Parâmetros importantes:
* Learning_rate -> Basicamente significa a contribuição de cada árvore para combinação de árvore que o modelo vai criar. Neste parâmetro estamos mais preocupados em buscar valores menores.
* num_leaves -> Número máximo de folhas, ou seja, de nós finais. Quanto maior for este número, mais complexo será o modelo e é uma forma de limitar o modelo de não memorizar os dados e aprender os padrões que achemos necessário. Este parâmetro não é a mesma coisa do que profundidade, porque nem sempre a árvore vai ser balanceada, ou seja, o lado direito e esquerdo terminarão no mesmo nível de profundidade.
* min_child_sample -> Número mínimo de amostras por nó. Este é um outro parâmetro que ajuda a evitar que o modelo memorize os dados
* subsample -> Cada vez que for criar uma árvore não vai ser sob todos os dados, este parâmetro serve para definir as amostras que serão criadas para cada árvore. Ajuda a dar diversidade a árvore e evitar a memorização dos dados. Devemos sempre preencher a subsample_freq que significa a quantas árvores devemos amostrar os dados.
* colsample_bytree -> É uma forma de não deixar todas as variáveis disponíveis para todas as árvores. É similar ao subsample em que é disponibilizado uma amostra de variáveis para cada árvore. Ajuda também a dar diversidade a árvore e evitar a memorização dos dados.

Formas de tunar os hiperparâmetros, utilizando a biblioteca scikit-optimize:
* dummy_minimize -> É preciso criar uma função (def) para treinar o modelo a partir dos parâmetros escolhidos. Devemos passar para o dummy_minimize esta função, quantidade de iterações e uma lista dos parâmetros em que cada parâmetros deve ser informado através de uma tupla com o valor mínimo e máximo para variação. Podemos também informar a distribuição para gerar pesos diferentes, por default, é uniforme. A ideia desta função é rodar de forma aleatória várias combinações de parâmetros até que minimize uma função 'custo' que deve ser definida como retorno na função criada inicialmente. Vale destacar que os scores utilizados são na maioria quanto maior melhor, por isso, para estes casos devemos utilizar, por exemplo, - roc_auc_score.

* bayesiana_optimizacion (gp_minimize - utiliza processos gaussianos e forest_minimize - utiliza random forest. A escolha depende da quantidade de parâmetros para tunar ) -> Ela também roda de forma aleatória, porém, é mais guiada. Com isso, avalia o impacto do score quando mudamos os parâmetros dentro do modelo escolhido. Então, ela avalia a sensibilidade das mudanças destes parâmetros no modelo escolhido, priorizando um caminho de maior impacto para maximizar o score. Portanto, alguns parâmetros serão considerados mais importantes do que outros. O problema da utilização do GridSearch que se perde muito tempo avaliando parâmetros de pouco impacto sem uma busca mais inteligente, já que considera que todos parâmetros possuem mesmo impacto. Os argumentos de entrada são as mesmas da dummy_minimize, porém, deve acrescentar n_random_starts (geralmente é 10), basicamente serve para pegar 10 pontos aleatórios para avaliar a combinação de parâmetros melhor e ir guiando os próximos passos, tentando avaliar os parâmetros mais promissores (avaliar uma região de pontos e qual é o ponto ótimo. Diante disso, passa para o próximos 10 pontos e avaliar o próximo ponto ótimo). 

* Comentário do Mario Filho - Ele é a favor de testar tudo, porém, não devemos aplicar o GridSearch e o modelo Naive Bayes (Modelo bem fraquinho). Existe papers e artigos mostrando que a Random Search chega em uma resultado muito melhor em menos tempo do que a GridSearch. Além disso, alguns artigos mostram que bayesina optimization possui resultados iguais ou melhores que a Random Search. Lembrando que a Bayesiana Optimization funciona como fosse uma busca aleatória, porém, guiada pela sensibilidade do modelo em relação as range de parâmetros.

**IMPORTANTE** 
* Utilizar a forest_minimize quando tivermos mais de 5 parâmetros para tunar
* Menos do que este valor, podemos utilizar a gp_minimize



In [24]:
#Instalando scikit-optimize
!pip install scikit-optimize



In [25]:
#Instalando lighgbm
!pip install lightgbm



**Aplicação do LighGBM sem tunar os hiperparâmetros**

Primeiro vamos avaliar a performance do modelo sem a tunar os hiperparâmetros.

In [26]:
#Importando o modelo
from lightgbm import LGBMClassifier

#Instanciando o modelo
mdl_lgm = LGBMClassifier(random_state = 42, class_weight="balanced", n_jobs=6)

#Treinando o modelo
mdl_lgm.fit(X_train_wtitle, y_train)

#Pegando as probabilidade
p = mdl_lgm.predict_proba(X_val_wtitle)[:,1]

#Calculando a metrica average_precision_score
print("AP = {}".format(average_precision_score(y_val, p)))

#Calculando a ROC_AUC
print("ROC_AUC = {}".format(roc_auc_score(y_val, p)))

AP = 0.4851778075837254
ROC_AUC = 0.7070903947470868




**Tunando os hiperparâmetros**

Iremos tunar tanto os hiperparâmetros do LighGBM quanto TfidfVectorizer,como fizemos na Random Forest.

O próximo passo é criarmos uma função que receba os parâmetros e busque minimizar o erro. Escolheremos como métrica principal a **average_precision**.

É importante destacar que os parâmetros são fornecidos a função aleatoriamente, seguindo uma distribuição uniforme. Porém, para o caso específico da **learning_rate**, utilizaremos uma distribuição log-uniforme para gerar um peso maior para os valores menores. Como vimos anteriormente, quanto menor for este valor melhor será.

Os parâmetros devem ser dados em forma de tupla, contendo o valor mínimo e máximo para variação, podendo também informar uma distribuição diferente da uniforme. Vale destacar que se dermos os parâmetros sem ponto, a variação será feita de forma inteira e com ponto de forma decimal. Exemeplo:
(100, 1000) -> Irá variar de forma inteira -> 100, 897, 465 e etc
(0.1, 1.) -> Irá variar de forma decimal -> 0.2, 0.78 e etc

In [27]:
#Criando a função
def tune_lgbm(params):
    
    #Imprimindo os parâmetros
    print(params)
    
    #Atribuindo os paramêtros LGBM
    lr = params[0]
    max_depth = params[1]
    min_child_samples = params[2]
    subsample = params[3]
    colsample_bytree = params[4]
    n_estimators = params[5]
    
    #Atribuindo os parâmetros para bag of words
    min_df = params[6]
    ngram_range = (1, params[7]) #Considerando como valor padrão mínimo a unigrama
    
    
    #----------------------------------------------Criando a Bag of Words com os parâmetros tunados-------------------------------
    
    #Instanciando o objeto TfidfVectorizer
    title_vec = TfidfVectorizer(min_df = min_df, ngram_range = ngram_range)

    #Treinando e transformando os dados de treino referente ao título
    title_bow_train = title_vec.fit_transform(title_train)

    #Transformando os dados de validação com os parâmetros de treino
    title_bow_val = title_vec.transform(title_val)
    
    #----------------------------------------------Juntando o X com as bag of words -------------------------------------------
    
    #Aplicando o método hstack para juntar o X com as matrizes de bag of word
    X_train_wtitle = hstack([X_train, title_bow_train])
    X_val_wtitle = hstack([X_val, title_bow_val])
    
    #---------------------------------------------Tunando os parâmetros e aplicando-------------------------------------------
    
    #Instanciando o modelo
    mdl_lgm = LGBMClassifier(random_state = 42, 
                             class_weight="balanced", 
                             n_jobs=6, 
                             learning_rate = lr,
                             num_leaves = 2 ** max_depth, #Para dar um sentido hipotético do tamanho da árvore, olhar comentário do Mario
                             max_depth = max_depth,
                             min_child_samples = min_child_samples,
                             subsample = subsample,
                             colsample_bytree = colsample_bytree,
                             n_estimators = n_estimators,
                             bagging_freq = 1)

    #Treinando o modelo
    mdl_lgm.fit(X_train_wtitle, y_train)

    #Pegando as probabilidade
    p = mdl_lgm.predict_proba(X_val_wtitle)[:,1]

    #Calculando a ROC_AUC
    print("ROC_AUC = {}".format(roc_auc_score(y_val, p)))
    
    #Retorno da função custo -> Como queremos minimizar, devemos atribuir o sinal de "-" a frente do score para funcionar
    return -average_precision_score(y_val, p)
    
    

In [28]:
#Importando o baysian optimize
from skopt import forest_minimize

#Setando os parâmetros em tuplas
space = [(1e-3, 1e-1, 'log-uniform'), # lr - Log-Uniform gera um peso maior para os valores menores, conforme dito anteriormente
          (1, 10), # max_depth
          (1, 20), # min_child_samples
          (0.05, 1.), # subsample
          (0.05, 1.), # colsample_bytree
          (100,1000), # n_estimators
          (1,5), # min_df
          (1,5)] # ngram_range

#Aplicando o tunning
res = forest_minimize(tune_lgbm, space, random_state=42, n_random_starts=20, n_calls=50, verbose=1)
# n_random_starts -> Pelo o que entendi, quantos eventos precisa reunir de forma aleatória para avaliar o ponto ótimo
# n_calls -> quantidade de vezes que vai ser aplicado

Iteration No: 1 started. Evaluating function at random point.
[0.03918194347141743, 8, 7, 0.4735411152109116, 0.14497617002710275, 558, 5, 4]




ROC_AUC = 0.7192208870779373
Iteration No: 1 ended. Evaluation done at random point.
Time taken: 0.2393
Function value obtained: -0.5215
Current minimum: -0.5215
Iteration No: 2 started. Evaluating function at random point.
[0.0019307837536547132, 3, 2, 0.7358988336534836, 0.9416250735649627, 485, 4, 5]
ROC_AUC = 0.7528691183722196
Iteration No: 2 ended. Evaluation done at random point.
Time taken: 0.1788
Function value obtained: -0.6059
Current minimum: -0.6059
Iteration No: 3 started. Evaluating function at random point.
[0.017177621112338382, 10, 12, 0.07190930378934497, 0.5485359272454697, 610, 2, 4]




ROC_AUC = 0.6220238249721004
Iteration No: 3 ended. Evaluation done at random point.
Time taken: 0.2224
Function value obtained: -0.4460
Current minimum: -0.6059
Iteration No: 4 started. Evaluating function at random point.
[0.08861577452533079, 3, 12, 0.538522716492931, 0.6127938404189405, 230, 5, 3]
ROC_AUC = 0.7184319119669876
Iteration No: 4 ended. Evaluation done at random point.
Time taken: 0.0816
Function value obtained: -0.5153
Current minimum: -0.6059
Iteration No: 5 started. Evaluating function at random point.
[0.022941144328643994, 9, 7, 0.06260171310187321, 0.9450916679006103, 113, 2, 2]
ROC_AUC = 0.6471153097505905
Iteration No: 5 ended. Evaluation done at random point.
Time taken: 0.0671
Function value obtained: -0.4338
Current minimum: -0.6059
Iteration No: 6 started. Evaluating function at random point.
[0.004066563313514795, 5, 2, 0.7000213751865492, 0.46814486905262126, 554, 4, 5]




ROC_AUC = 0.76312839012743
Iteration No: 6 ended. Evaluation done at random point.
Time taken: 0.3255
Function value obtained: -0.6184
Current minimum: -0.6184
Iteration No: 7 started. Evaluating function at random point.
[0.04638630972397281, 3, 14, 0.42150757719457876, 0.22312428339865925, 487, 2, 2]
ROC_AUC = 0.6872518232072877
Iteration No: 7 ended. Evaluation done at random point.
Time taken: 0.1312
Function value obtained: -0.4951
Current minimum: -0.6184
Iteration No: 8 started. Evaluating function at random point.
[0.013658426050382541, 2, 12, 0.9425239944859798, 0.9000859829062665, 369, 4, 1]




ROC_AUC = 0.7733331603124757
Iteration No: 8 ended. Evaluation done at random point.
Time taken: 0.0678
Function value obtained: -0.5798
Current minimum: -0.6184
Iteration No: 9 started. Evaluating function at random point.
[0.08362652463906246, 5, 16, 0.7599541046305119, 0.5627075257696259, 891, 2, 1]




ROC_AUC = 0.6645558122031611
Iteration No: 9 ended. Evaluation done at random point.
Time taken: 0.2134
Function value obtained: -0.4685
Current minimum: -0.6184
Iteration No: 10 started. Evaluating function at random point.
[0.0036464395589807202, 9, 15, 0.20700359210985236, 0.06485458640413425, 620, 1, 4]




ROC_AUC = 0.6205367107004749
Iteration No: 10 ended. Evaluation done at random point.
Time taken: 0.1975
Function value obtained: -0.4077
Current minimum: -0.6184
Iteration No: 11 started. Evaluating function at random point.
[0.0038634593707206726, 3, 17, 0.7257748551112175, 0.8006667635046455, 478, 5, 2]
ROC_AUC = 0.7263554021437284
Iteration No: 11 ended. Evaluation done at random point.
Time taken: 0.1067
Function value obtained: -0.5546
Current minimum: -0.6184
Iteration No: 12 started. Evaluating function at random point.
[0.005211124595788266, 9, 7, 0.8575366489003095, 0.4769781404312932, 132, 5, 3]




ROC_AUC = 0.7243881549920843
Iteration No: 12 ended. Evaluation done at random point.
Time taken: 0.1411
Function value obtained: -0.5447
Current minimum: -0.6184
Iteration No: 13 started. Evaluating function at random point.
[0.015226341829186321, 6, 3, 0.49860417890385184, 0.16361453364138662, 561, 3, 1]




ROC_AUC = 0.7552386390179336
Iteration No: 13 ended. Evaluation done at random point.
Time taken: 0.2483
Function value obtained: -0.5599
Current minimum: -0.6184
Iteration No: 14 started. Evaluating function at random point.
[0.027762530094438326, 7, 14, 0.5191058165461713, 0.5465961879128944, 114, 2, 2]
ROC_AUC = 0.7102748436323999
Iteration No: 14 ended. Evaluation done at random point.
Time taken: 0.0798
Function value obtained: -0.5224
Current minimum: -0.6184
Iteration No: 15 started. Evaluating function at random point.
[0.007562632622090494, 3, 7, 0.5016017120230062, 0.5851117933775646, 999, 5, 5]




ROC_AUC = 0.7784381407178635
Iteration No: 15 ended. Evaluation done at random point.
Time taken: 0.2429
Function value obtained: -0.6082
Current minimum: -0.6184
Iteration No: 16 started. Evaluating function at random point.
[0.012013849374287178, 4, 13, 0.12313091433735335, 0.3252638802680796, 185, 4, 2]
ROC_AUC = 0.6471801925722146
Iteration No: 16 ended. Evaluation done at random point.
Time taken: 0.0671
Function value obtained: -0.4125
Current minimum: -0.6184
Iteration No: 17 started. Evaluating function at random point.
[0.01772997389934229, 9, 6, 0.48370784195876476, 0.25751841535599196, 439, 3, 2]




ROC_AUC = 0.7360904207002155
Iteration No: 17 ended. Evaluation done at random point.
Time taken: 0.2351
Function value obtained: -0.5548
Current minimum: -0.6184
Iteration No: 18 started. Evaluating function at random point.
[0.0017545910486566185, 9, 7, 0.9114870194684664, 0.3085256369154036, 382, 1, 4]




ROC_AUC = 0.7119747735589524
Iteration No: 18 ended. Evaluation done at random point.
Time taken: 0.2992
Function value obtained: -0.5253
Current minimum: -0.6184
Iteration No: 19 started. Evaluating function at random point.
[0.005071514980544015, 3, 7, 0.20642306048579467, 0.55738494840667, 417, 5, 1]
ROC_AUC = 0.7097142560535672
Iteration No: 19 ended. Evaluation done at random point.
Time taken: 0.1017
Function value obtained: -0.5086
Current minimum: -0.6184
Iteration No: 20 started. Evaluating function at random point.
[0.0017367237151593167, 8, 15, 0.20987649006428405, 0.25782600859441673, 571, 1, 4]




ROC_AUC = 0.6296774026108847
Iteration No: 20 ended. Evaluation done at random point.
Time taken: 0.4079
Function value obtained: -0.4206
Current minimum: -0.6184
Iteration No: 21 started. Searching for the next optimal point.
[0.0017013737055127612, 3, 1, 0.2716364760541711, 0.10889703345012566, 840, 4, 5]




ROC_AUC = 0.7275362694972879
Iteration No: 21 ended. Search finished for the next optimal point.
Time taken: 0.5340
Function value obtained: -0.5387
Current minimum: -0.6184
Iteration No: 22 started. Searching for the next optimal point.
[0.005868851394145974, 6, 2, 0.8370275159600182, 0.7752328285487989, 937, 1, 5]




ROC_AUC = 0.7411201370325193
Iteration No: 22 ended. Search finished for the next optimal point.
Time taken: 0.8156
Function value obtained: -0.5768
Current minimum: -0.6184
Iteration No: 23 started. Searching for the next optimal point.
[0.004335375212438368, 5, 18, 0.8205841711924284, 0.8274776752791814, 688, 3, 5]
ROC_AUC = 0.7154914224909812




Iteration No: 23 ended. Search finished for the next optimal point.
Time taken: 0.3889
Function value obtained: -0.5254
Current minimum: -0.6184
Iteration No: 24 started. Searching for the next optimal point.
[0.0015584891369652362, 5, 1, 0.5262495922269302, 0.05658538665283824, 784, 1, 5]




ROC_AUC = 0.7111883937608678
Iteration No: 24 ended. Search finished for the next optimal point.
Time taken: 1.0964
Function value obtained: -0.5012
Current minimum: -0.6184
Iteration No: 25 started. Searching for the next optimal point.
[0.004475844754929862, 7, 3, 0.44341464892457927, 0.8129537930374527, 178, 4, 5]
ROC_AUC = 0.7489605771975811




Iteration No: 25 ended. Search finished for the next optimal point.
Time taken: 0.4153
Function value obtained: -0.5998
Current minimum: -0.6184
Iteration No: 26 started. Searching for the next optimal point.
[0.010723009813690527, 9, 1, 0.20821022118942184, 0.7173786104232759, 472, 4, 5]




ROC_AUC = 0.7225480781708236
Iteration No: 26 ended. Search finished for the next optimal point.
Time taken: 0.7125
Function value obtained: -0.5329
Current minimum: -0.6184
Iteration No: 27 started. Searching for the next optimal point.
[0.0028248968565978854, 5, 5, 0.6976211426092485, 0.39779445865762225, 149, 4, 5]
ROC_AUC = 0.7308426980872543




Iteration No: 27 ended. Search finished for the next optimal point.
Time taken: 0.3441
Function value obtained: -0.5816
Current minimum: -0.6184
Iteration No: 28 started. Searching for the next optimal point.
[0.0031145712192530823, 10, 13, 0.7583614147326043, 0.05023376083172441, 508, 4, 5]
ROC_AUC = 0.6715657522514339




Iteration No: 28 ended. Search finished for the next optimal point.
Time taken: 0.3971
Function value obtained: -0.4808
Current minimum: -0.6184
Iteration No: 29 started. Searching for the next optimal point.
[0.015950081185306934, 5, 2, 0.6809517402379428, 0.9559360207299168, 153, 1, 5]




ROC_AUC = 0.7480833614492226
Iteration No: 29 ended. Search finished for the next optimal point.
Time taken: 0.4666
Function value obtained: -0.5922
Current minimum: -0.6184
Iteration No: 30 started. Searching for the next optimal point.
[0.007792842258967527, 1, 6, 0.7140364657431296, 0.6326761404548193, 882, 1, 5]
ROC_AUC = 0.7517219900859049




Iteration No: 30 ended. Search finished for the next optimal point.
Time taken: 0.3944
Function value obtained: -0.5792
Current minimum: -0.6184
Iteration No: 31 started. Searching for the next optimal point.
[0.004324716091054493, 3, 2, 0.05131195953008831, 0.4352232080944541, 560, 1, 5]




ROC_AUC = 0.6612415976745997
Iteration No: 31 ended. Search finished for the next optimal point.
Time taken: 0.5374
Function value obtained: -0.4659
Current minimum: -0.6184
Iteration No: 32 started. Searching for the next optimal point.
[0.09492532235755752, 1, 1, 0.5521756712315306, 0.584629423192453, 489, 5, 5]
ROC_AUC = 0.7604863616308946




Iteration No: 32 ended. Search finished for the next optimal point.
Time taken: 0.3732
Function value obtained: -0.5800
Current minimum: -0.6184
Iteration No: 33 started. Searching for the next optimal point.
[0.002298394346661213, 3, 7, 0.5016233812654619, 0.5186571843644752, 891, 2, 5]




ROC_AUC = 0.7382678881939216
Iteration No: 33 ended. Search finished for the next optimal point.
Time taken: 0.4559
Function value obtained: -0.5906
Current minimum: -0.6184
Iteration No: 34 started. Searching for the next optimal point.
[0.011414189760999312, 3, 8, 0.4367367996502325, 0.4988830517632764, 750, 4, 5]




ROC_AUC = 0.7360047753756715
Iteration No: 34 ended. Search finished for the next optimal point.
Time taken: 0.4347
Function value obtained: -0.5567
Current minimum: -0.6184
Iteration No: 35 started. Searching for the next optimal point.
[0.003168092666102539, 5, 1, 0.7431150268827361, 0.9009262002860146, 467, 2, 4]




ROC_AUC = 0.7571046689678441
Iteration No: 35 ended. Search finished for the next optimal point.
Time taken: 0.5457
Function value obtained: -0.6206
Current minimum: -0.6206
Iteration No: 36 started. Searching for the next optimal point.
[0.01636555620463727, 4, 7, 0.36821866891182925, 0.9801314536385267, 902, 2, 5]




ROC_AUC = 0.740533596325037
Iteration No: 36 ended. Search finished for the next optimal point.
Time taken: 0.4767
Function value obtained: -0.5738
Current minimum: -0.6206
Iteration No: 37 started. Searching for the next optimal point.
[0.0028411831978363278, 10, 1, 0.7159903506544794, 0.9434180682803618, 325, 2, 1]




ROC_AUC = 0.7668319015857362
Iteration No: 37 ended. Search finished for the next optimal point.
Time taken: 0.8280
Function value obtained: -0.6154
Current minimum: -0.6206
Iteration No: 38 started. Searching for the next optimal point.
[0.0013292027737930054, 8, 2, 0.35080976384732376, 0.872171904721914, 359, 3, 4]




ROC_AUC = 0.7270016350471049
Iteration No: 38 ended. Search finished for the next optimal point.
Time taken: 0.5507
Function value obtained: -0.5746
Current minimum: -0.6206
Iteration No: 39 started. Searching for the next optimal point.
[0.0010773419143320184, 2, 2, 0.34879040336652434, 0.9405055067603683, 259, 1, 1]
ROC_AUC = 0.7056292336041109




Iteration No: 39 ended. Search finished for the next optimal point.
Time taken: 0.3460
Function value obtained: -0.5109
Current minimum: -0.6206
Iteration No: 40 started. Searching for the next optimal point.
[0.005607394468548006, 7, 1, 0.6655993304551099, 0.9586294865021325, 523, 2, 1]




ROC_AUC = 0.7966338792141392
Iteration No: 40 ended. Search finished for the next optimal point.
Time taken: 0.6543
Function value obtained: -0.6402
Current minimum: -0.6402
Iteration No: 41 started. Searching for the next optimal point.
[0.04244768043919099, 5, 1, 0.6562945025605821, 0.9406491127481088, 886, 1, 4]




ROC_AUC = 0.7284757727544056
Iteration No: 41 ended. Search finished for the next optimal point.
Time taken: 2.0944
Function value obtained: -0.5565
Current minimum: -0.6402
Iteration No: 42 started. Searching for the next optimal point.
[0.005218815195420768, 10, 1, 0.9152653861483127, 0.6905391440661648, 308, 2, 4]




ROC_AUC = 0.7336508266071474
Iteration No: 42 ended. Search finished for the next optimal point.
Time taken: 1.0910
Function value obtained: -0.5746
Current minimum: -0.6402
Iteration No: 43 started. Searching for the next optimal point.
[0.0011349897209374283, 6, 2, 0.557858898785668, 0.8944367560066796, 541, 2, 1]




ROC_AUC = 0.765482338895954
Iteration No: 43 ended. Search finished for the next optimal point.
Time taken: 0.4930
Function value obtained: -0.5976
Current minimum: -0.6402
Iteration No: 44 started. Searching for the next optimal point.
[0.005064842775048966, 9, 4, 0.7637027020220357, 0.9828691716369488, 748, 2, 1]




ROC_AUC = 0.7814746567698736
Iteration No: 44 ended. Search finished for the next optimal point.
Time taken: 0.6227
Function value obtained: -0.5981
Current minimum: -0.6402
Iteration No: 45 started. Searching for the next optimal point.
[0.06882081676358107, 7, 5, 0.846389900948811, 0.8256407632494277, 493, 3, 1]
ROC_AUC = 0.7460460408502245




Iteration No: 45 ended. Search finished for the next optimal point.
Time taken: 0.3853
Function value obtained: -0.5590
Current minimum: -0.6402
Iteration No: 46 started. Searching for the next optimal point.
[0.0028433716438414237, 3, 1, 0.7026336644367411, 0.44633273920287136, 760, 2, 2]




ROC_AUC = 0.7619449274610055
Iteration No: 46 ended. Search finished for the next optimal point.
Time taken: 0.4792
Function value obtained: -0.6100
Current minimum: -0.6402
Iteration No: 47 started. Searching for the next optimal point.
[0.0016146479047848103, 7, 1, 0.6639249427479458, 0.9089963318477061, 569, 1, 1]




ROC_AUC = 0.7604214788092704
Iteration No: 47 ended. Search finished for the next optimal point.
Time taken: 0.8900
Function value obtained: -0.5934
Current minimum: -0.6402
Iteration No: 48 started. Searching for the next optimal point.
[0.0034725026038687403, 4, 1, 0.6816639893359455, 0.2904332074843246, 677, 3, 1]




ROC_AUC = 0.7665178687290755
Iteration No: 48 ended. Search finished for the next optimal point.
Time taken: 0.4288
Function value obtained: -0.5924
Current minimum: -0.6402
Iteration No: 49 started. Searching for the next optimal point.
[0.010127818745010784, 9, 1, 0.4765189617330622, 0.9031844020096405, 474, 5, 1]




ROC_AUC = 0.7658923983286186
Iteration No: 49 ended. Search finished for the next optimal point.
Time taken: 0.6836
Function value obtained: -0.5927
Current minimum: -0.6402
Iteration No: 50 started. Searching for the next optimal point.
[0.0022855320267921395, 6, 1, 0.4445021474318012, 0.9804824738416845, 150, 2, 1]
ROC_AUC = 0.7620150009083595




Iteration No: 50 ended. Search finished for the next optimal point.
Time taken: 0.3472
Function value obtained: -0.5971
Current minimum: -0.6402


In [29]:
#Melhor hiperparâmetros
res.x

[0.005607394468548006, 7, 1, 0.6655993304551099, 0.9586294865021325, 523, 2, 1]

In [30]:
#Melhor score da average precision
res.fun

-0.6402330807008632

In [31]:
#Vamos replicaro os parâmetros tunados
ap = tune_lgbm(res.x)

#Imprimindo o valor
print("Average_precision = {}".format(-ap))

[0.005607394468548006, 7, 1, 0.6655993304551099, 0.9586294865021325, 523, 2, 1]
ROC_AUC = 0.7966338792141392
Average_precision = 0.6402330807008632




Até agora conseguimos os seguintes valores:

* LGBM tunado -> ROC_AUC = 0.7966338792141392 e Average_precision = 0.6402330807008632
* Random Forest tunado -> ROC_AUC = 0.7551062780618204 e AP = 0.581860377926327

Não aplicamos este formato de tunning na Random Forest, porque, segundo o Mario Filho, este modelo são menos sensíveis a mudanças dos parâmetros.

#### Regressão Logística

Como a função de otimização deste modelo é baseada no **Gradiente Descendente**, será necessário escalonar as variáveis numéricas com o intuito de manter todas as variáveis na mesma escalara. Para isto, utilizaremos dois métodos em busca do mais eficiente:
* StandarScaler -> É um dos mais usuais, utilizamos para buscar uma escala com média igual a zero e desvio padrão igual. 
* MaxAbsScaler -> Divide todos os valores pelo maior valor da coluna -> ex [100,500,1000,50] = [100 / 10000, 500 / 1000, 1000 / 1000, 50 / 1000]

Como as matrizes são dadas em matriz esparsas, será necessário aplicar também um método chamado de **csr_matrix** para termos acesso as colunas para o escalonamento das variáveis numéricas.

O próximo passo é aplicarmos a Regressão Logística sem tunning.

In [32]:
#Importando as bibliotecas
from sklearn.preprocessing import MaxAbsScaler, StandardScaler
from scipy.sparse import csr_matrix
from sklearn.linear_model import LogisticRegression

In [60]:
#Intânciando os scalers
scaler_standard = StandardScaler()
scaler_max_abs = MaxAbsScaler()

#Fazendo um for para cada scaler
for scaler in [scaler_standard, scaler_max_abs]:
        
    #Criando um cópia do X_train e X_val com csr_matrix para manipulação de variáveis durante o scaler
    X_train_wtitle2 = csr_matrix(X_train_wtitle.copy())
    X_val_wtitle2 = csr_matrix(X_val_wtitle.copy())
    
    if scaler == scaler_standard:
    
        #Escalonando as variáveis numéricas
        X_train_wtitle2[: , :2] = scaler.fit_transform(X_train_wtitle2[:, :2].todense()) #Matriz densa é o oposto de matriz esparsa
        X_val_wtitle2[: , :2] = scaler.transform(X_val_wtitle2[:, :2].todense())
        
    else :
        
        #Escalonando todas as variáveis - Como pega o valor máximo por coluna não gera problema quando for escalonar as variáveis categóricas
        X_train_wtitle2 = scaler.fit_transform(X_train_wtitle2.todense()) #Matriz densa é o oposto de matriz esparsa
        X_val_wtitle2 = scaler.transform(X_val_wtitle2.todense())
    
    #Instanciando o modelo
    mdl = LogisticRegression(n_jobs = 6, random_state = 42, class_weight="balanced")
    
    #Treinando o modelo
    mdl.fit(X_train_wtitle2, y_train)
    
    #Prevendo o modelo
    p = mdl.predict_proba(X_val_wtitle2)[:, 1]
    
    #Calculando os scores
    print("{} - AP = {}".format(str(scaler), average_precision_score(y_val, p) ))
    print("{} - ROC_AUC = {}".format(str(scaler), roc_auc_score(y_val, p) ))


  self._set_arrayXarray(i, j, x)


StandardScaler() - AP = 0.5747056828293885
StandardScaler() - ROC_AUC = 0.7719913835612883
MaxAbsScaler() - AP = 0.586897637438734
MaxAbsScaler() - ROC_AUC = 0.7700033739067244


**Sem tunning**
* StandardScaler() - AP = 0.5747056828293885 e ROC_AUC = 0.7705587708598272
* MaxAbsScaler() - AP = 0.586897637438734 e ROC_AUC = 0.7700033739067244

O próximo passo é tentarmos tunar os hiperparâmetros 

In [70]:
#Criando a função
def tune_rgl(params):
    
    #Imprimindo os parâmetros
    print(params)
    
    #Criando um lista de parâmetros para solver, scaler e penalty
    solver_list = ['newton-cg', 'lbfgs', 'liblinear', 'sag', 'saga']
    penalty_list = ['l1', 'l2', 'none']
    scaler_list = [StandardScaler(), MaxAbsScaler()]
    
    #Atribuindo os paramêtros LGBM
    c = params[0]
    solver = solver_list[ params[1] ]
    penalty = penalty_list[ params[2] ]
    
    #Atribuindo os parâmetros para bag of words - Forçar para ficar na mesma referência dos últimos modelos e ser menos complexo o Deploy, assim evita ter que criar mais de um Vectorizer se a Regressão Logística for escolhida para o ensemble
    min_df = 2
    ngram_range = (1, 1) #Considerando como valor padrão mínimo a unigrama
    
    #Atribuindo os parâmetros scaler
    scaler = scaler_list[ params[3] ]
    
    
    #----------------------------------------------Criando a Bag of Words com os parâmetros tunados-------------------------------
    
    #Instanciando o objeto TfidfVectorizer
    title_vec = TfidfVectorizer(min_df = min_df, ngram_range = ngram_range)

    #Treinando e transformando os dados de treino referente ao título
    title_bow_train = title_vec.fit_transform(title_train)

    #Transformando os dados de validação com os parâmetros de treino
    title_bow_val = title_vec.transform(title_val)
    
    
    #----------------------------------------------Juntando o X com as bag of words -------------------------------------------
    
    #Aplicando o método hstack para juntar o X com as matrizes de bag of word
    X_train_wtitle = hstack([X_train, title_bow_train])
    X_val_wtitle = hstack([X_val, title_bow_val])
    
    #----------------------------------------------Escalonando as variáveis numéricas -----------------------------------------
    
    #Criando um cópia do X_train e X_val com csr_matrix para manipulação de variáveis durante o scaler
    X_train_wtitle2 = csr_matrix(X_train_wtitle.copy())
    X_val_wtitle2 = csr_matrix(X_val_wtitle.copy())
    
    if scaler == StandardScaler():
    
        #Escalonando as variáveis numéricas
        X_train_wtitle2[: , :2] = scaler.fit_transform(X_train_wtitle2[:, :2].todense()) #Matriz densa é o oposto de matriz esparsa
        X_val_wtitle2[: , :2] = scaler.transform(X_val_wtitle2[:, :2].todense())
        
    else :
        
        #Escalonando todas as variáveis - Como pega o valor máximo por coluna não gera problema quando for escalonar as variáveis categóricas
        X_train_wtitle2 = scaler.fit_transform(X_train_wtitle2.todense()) #Matriz densa é o oposto de matriz esparsa
        X_val_wtitle2 = scaler.transform(X_val_wtitle2.todense())
    
    #---------------------------------------------Tunando os parâmetros e aplicando-------------------------------------------
    
    #Alguns conjunto de parâmetros não funcionam juntos, por isto, vamos criar uma exception
    try:
    
        #Instanciando o modelo
        mdl_rlg = LogisticRegression(n_jobs = 6, 
                                     random_state = 42, 
                                     class_weight="balanced",
                                     C = c,
                                     solver = solver,
                                     penalty = penalty)

        #Treinando o modelo
        mdl_rlg.fit(X_train_wtitle2, y_train)

        #Pegando as probabilidade
        p = mdl_rlg.predict_proba(X_val_wtitle2)[:,1]

        #Calculando a ROC_AUC
        print("ROC_AUC = {}".format(roc_auc_score(y_val, p)))

        #Retorno da função custo -> Como queremos minimizar, devemos atribuir o sinal de "-" a frente do score para funcionar
        return -average_precision_score(y_val, p)
    
    except:
        
        #Cria um valor muito ruim para não ser escolhido com ponto ótimo
        return 0
    
    

In [72]:
#Importando o baysian optimize
from skopt import gp_minimize

#Setando os parâmetros em tuplas
space = [(1e-2, 100., 'log-uniform'), # C
          (0, 4), # solver
          (0, 2), # penalty
          (0,1)] #scaler 

#Aplicando o tunning
res = gp_minimize(tune_rgl, space, random_state=42, n_random_starts=20, n_calls=50, verbose=1)
# n_random_starts -> Pelo o que entendi, quantos eventos precisa reunir de forma aleatória para avaliar o ponto ótimo
# n_calls -> quantidade de vezes que vai ser aplicado

Iteration No: 1 started. Evaluating function at random point.
[15.35224694197351, 1, 2, 1]




ROC_AUC = 0.6945394617321119
Iteration No: 1 ended. Evaluation done at random point.
Time taken: 0.6290
Function value obtained: -0.4107
Current minimum: -0.4107
Iteration No: 2 started. Evaluating function at random point.
[0.6071989493441302, 0, 1, 0]
ROC_AUC = 0.7294230619501181
Iteration No: 2 ended. Evaluation done at random point.
Time taken: 0.1720
Function value obtained: -0.4939
Current minimum: -0.4939
Iteration No: 3 started. Evaluating function at random point.
[0.03727925903376984, 3, 0, 1]
Iteration No: 3 ended. Evaluation done at random point.
Time taken: 0.0239
Function value obtained: 0.0000
Current minimum: -0.4939
Iteration No: 4 started. Evaluating function at random point.
[56.78201970293135, 0, 2, 1]




ROC_AUC = 0.581067192650074
Iteration No: 4 ended. Evaluation done at random point.
Time taken: 1.2943
Function value obtained: -0.3089
Current minimum: -0.4939
Iteration No: 5 started. Evaluating function at random point.
[2.796485951606247, 0, 0, 1]
Iteration No: 5 ended. Evaluation done at random point.
Time taken: 0.0259
Function value obtained: 0.0000
Current minimum: -0.4939
Iteration No: 6 started. Evaluating function at random point.
[0.3975977214318099, 0, 2, 0]




ROC_AUC = 0.5660636889777062
Iteration No: 6 ended. Evaluation done at random point.
Time taken: 0.9208
Function value obtained: -0.3018
Current minimum: -0.4939
Iteration No: 7 started. Evaluating function at random point.
[0.023036990230378637, 2, 1, 1]
ROC_AUC = 0.7429083075964807
Iteration No: 7 ended. Evaluation done at random point.
Time taken: 0.0309
Function value obtained: -0.5095
Current minimum: -0.5095
Iteration No: 8 started. Evaluating function at random point.
[0.7362945281639222, 3, 1, 0]




ROC_AUC = 0.7236407048869742
Iteration No: 8 ended. Evaluation done at random point.
Time taken: 0.2214
Function value obtained: -0.4939
Current minimum: -0.5095
Iteration No: 9 started. Evaluating function at random point.
[0.011299516083106616, 4, 1, 0]
ROC_AUC = 0.7257896239391659
Iteration No: 9 ended. Evaluation done at random point.
Time taken: 0.1476
Function value obtained: -0.5129
Current minimum: -0.5129
Iteration No: 10 started. Evaluating function at random point.
[0.011584172310543985, 1, 0, 1]
Iteration No: 10 ended. Evaluation done at random point.
Time taken: 0.0259
Function value obtained: 0.0000
Current minimum: -0.5129
Iteration No: 11 started. Evaluating function at random point.
[2.754143921332031, 3, 0, 0]
Iteration No: 11 ended. Evaluation done at random point.
Time taken: 0.0289
Function value obtained: 0.0000
Current minimum: -0.5129
Iteration No: 12 started. Evaluating function at random point.
[0.053572800696018295, 3, 1, 0]
ROC_AUC = 0.7245179206353325
Itera



ROC_AUC = 0.5660636889777062
Iteration No: 13 ended. Evaluation done at random point.
Time taken: 0.9407
Function value obtained: -0.3018
Current minimum: -0.5129
Iteration No: 14 started. Evaluating function at random point.
[0.38071583792493946, 4, 1, 0]




ROC_AUC = 0.72242609846617
Iteration No: 14 ended. Evaluation done at random point.
Time taken: 0.2110
Function value obtained: -0.4948
Current minimum: -0.5129
Iteration No: 15 started. Evaluating function at random point.
[1.9132683954526493, 2, 2, 1]
Iteration No: 15 ended. Evaluation done at random point.
Time taken: 0.0209
Function value obtained: 0.0000
Current minimum: -0.5129
Iteration No: 16 started. Evaluating function at random point.
[9.756194291174571, 2, 1, 1]
ROC_AUC = 0.7592483973943058
Iteration No: 16 ended. Evaluation done at random point.
Time taken: 0.0329
Function value obtained: -0.5557
Current minimum: -0.5557
Iteration No: 17 started. Evaluating function at random point.
[2.6800135558226996, 1, 1, 0]
ROC_AUC = 0.7323869092419092
Iteration No: 17 ended. Evaluation done at random point.
Time taken: 0.6113
Function value obtained: -0.4949
Current minimum: -0.5557
Iteration No: 18 started. Evaluating function at random point.
[0.011549033124221243, 2, 1, 0]
ROC_AUC



ROC_AUC = 0.7376242506034103
Iteration No: 19 ended. Evaluation done at random point.
Time taken: 0.5895
Function value obtained: -0.5000
Current minimum: -0.5557
Iteration No: 20 started. Evaluating function at random point.
[2.6536271329026335, 4, 1, 1]
ROC_AUC = 0.7657314889309905
Iteration No: 20 ended. Evaluation done at random point.
Time taken: 0.3172
Function value obtained: -0.5770
Current minimum: -0.5770
Iteration No: 21 started. Searching for the next optimal point.
[0.01025256660388722, 4, 2, 1]




ROC_AUC = 0.7535231372141911
Iteration No: 21 ended. Search finished for the next optimal point.
Time taken: 0.4299
Function value obtained: -0.5368
Current minimum: -0.5770
Iteration No: 22 started. Searching for the next optimal point.
[0.010912872479933167, 4, 0, 1]
ROC_AUC = 0.5
Iteration No: 22 ended. Search finished for the next optimal point.
Time taken: 0.2902
Function value obtained: -0.2671
Current minimum: -0.5770
Iteration No: 23 started. Searching for the next optimal point.
[98.31967022939952, 2, 0, 0]
ROC_AUC = 0.7643455918610988




Iteration No: 23 ended. Search finished for the next optimal point.
Time taken: 0.3875
Function value obtained: -0.5228
Current minimum: -0.5770
Iteration No: 24 started. Searching for the next optimal point.
[0.01, 4, 1, 1]
ROC_AUC = 0.7370532817731178
Iteration No: 24 ended. Search finished for the next optimal point.
Time taken: 0.3496
Function value obtained: -0.4984
Current minimum: -0.5770
Iteration No: 25 started. Searching for the next optimal point.
[0.010699653419954169, 3, 2, 0]




ROC_AUC = 0.7218655108873375
Iteration No: 25 ended. Search finished for the next optimal point.
Time taken: 0.6682
Function value obtained: -0.4921
Current minimum: -0.5770
Iteration No: 26 started. Searching for the next optimal point.
[99.99997230222202, 4, 2, 1]




ROC_AUC = 0.7535231372141911
Iteration No: 26 ended. Search finished for the next optimal point.
Time taken: 0.6908
Function value obtained: -0.5368
Current minimum: -0.5770
Iteration No: 27 started. Searching for the next optimal point.
[0.01, 2, 0, 0]
ROC_AUC = 0.5




Iteration No: 27 ended. Search finished for the next optimal point.
Time taken: 0.6213
Function value obtained: -0.2671
Current minimum: -0.5770
Iteration No: 28 started. Searching for the next optimal point.
[100.0, 4, 1, 1]




ROC_AUC = 0.7541200591731333
Iteration No: 28 ended. Search finished for the next optimal point.
Time taken: 0.6973
Function value obtained: -0.5382
Current minimum: -0.5770
Iteration No: 29 started. Searching for the next optimal point.
[100.0, 2, 1, 0]
ROC_AUC = 0.7375775349718409




Iteration No: 29 ended. Search finished for the next optimal point.
Time taken: 0.4159
Function value obtained: -0.5097
Current minimum: -0.5770
Iteration No: 30 started. Searching for the next optimal point.
[100.0, 4, 1, 1]




ROC_AUC = 0.7541200591731333
Iteration No: 30 ended. Search finished for the next optimal point.
Time taken: 0.6488
Function value obtained: -0.5382
Current minimum: -0.5770
Iteration No: 31 started. Searching for the next optimal point.
[100.0, 3, 2, 1]




ROC_AUC = 0.7514365056707586
Iteration No: 31 ended. Search finished for the next optimal point.
Time taken: 0.6468
Function value obtained: -0.5310
Current minimum: -0.5770
Iteration No: 32 started. Searching for the next optimal point.
[99.99999769385104, 0, 1, 1]
ROC_AUC = 0.7517064182087152
Iteration No: 32 ended. Search finished for the next optimal point.
Time taken: 0.6836
Function value obtained: -0.5282
Current minimum: -0.5770
Iteration No: 33 started. Searching for the next optimal point.
[0.01, 3, 1, 0]
ROC_AUC = 0.7257325270561366
Iteration No: 33 ended. Search finished for the next optimal point.
Time taken: 0.4318
Function value obtained: -0.5142
Current minimum: -0.5770
Iteration No: 34 started. Searching for the next optimal point.
[99.99999432345643, 4, 2, 0]




ROC_AUC = 0.7214450702032131
Iteration No: 34 ended. Search finished for the next optimal point.
Time taken: 0.5755
Function value obtained: -0.4943
Current minimum: -0.5770
Iteration No: 35 started. Searching for the next optimal point.
[23.488648549549538, 2, 1, 1]
ROC_AUC = 0.7553969531026965




Iteration No: 35 ended. Search finished for the next optimal point.
Time taken: 0.4713
Function value obtained: -0.5404
Current minimum: -0.5770
Iteration No: 36 started. Searching for the next optimal point.
[2.611232469951016, 4, 1, 1]
ROC_AUC = 0.7658093483169396
Iteration No: 36 ended. Search finished for the next optimal point.
Time taken: 0.6114
Function value obtained: -0.5773
Current minimum: -0.5773
Iteration No: 37 started. Searching for the next optimal point.
[0.010963040023495452, 3, 1, 1]
ROC_AUC = 0.7374633412057823
Iteration No: 37 ended. Search finished for the next optimal point.
Time taken: 0.5655
Function value obtained: -0.4996
Current minimum: -0.5773
Iteration No: 38 started. Searching for the next optimal point.
[1.325803322893768, 2, 1, 0]
ROC_AUC = 0.7326360592769459




Iteration No: 38 ended. Search finished for the next optimal point.
Time taken: 0.4274
Function value obtained: -0.4977
Current minimum: -0.5773
Iteration No: 39 started. Searching for the next optimal point.
[2.607323809216881, 4, 1, 1]
ROC_AUC = 0.7658249201941294
Iteration No: 39 ended. Search finished for the next optimal point.
Time taken: 0.5206
Function value obtained: -0.5773
Current minimum: -0.5773
Iteration No: 40 started. Searching for the next optimal point.
[1.9364484092835832, 3, 1, 1]
ROC_AUC = 0.7675014923048973
Iteration No: 40 ended. Search finished for the next optimal point.
Time taken: 0.4508
Function value obtained: -0.5818
Current minimum: -0.5818
Iteration No: 41 started. Searching for the next optimal point.
[0.01, 0, 2, 1]




ROC_AUC = 0.581067192650074
Iteration No: 41 ended. Search finished for the next optimal point.
Time taken: 2.2332
Function value obtained: -0.3089
Current minimum: -0.5818
Iteration No: 42 started. Searching for the next optimal point.
[0.9638851701068524, 4, 1, 1]
ROC_AUC = 0.7701279489242429
Iteration No: 42 ended. Search finished for the next optimal point.
Time taken: 0.5336
Function value obtained: -0.5877
Current minimum: -0.5877
Iteration No: 43 started. Searching for the next optimal point.
[0.5888341100374204, 2, 1, 1]
ROC_AUC = 0.7701383301757027




Iteration No: 43 ended. Search finished for the next optimal point.
Time taken: 0.3949
Function value obtained: -0.5857
Current minimum: -0.5877
Iteration No: 44 started. Searching for the next optimal point.
[1.1775685394292426, 1, 1, 1]
ROC_AUC = 0.7695673613454102
Iteration No: 44 ended. Search finished for the next optimal point.
Time taken: 1.0339
Function value obtained: -0.5859
Current minimum: -0.5877
Iteration No: 45 started. Searching for the next optimal point.
[0.3920267184345894, 0, 1, 1]
ROC_AUC = 0.7701227582985128
Iteration No: 45 ended. Search finished for the next optimal point.
Time taken: 0.6258
Function value obtained: -0.5822
Current minimum: -0.5877
Iteration No: 46 started. Searching for the next optimal point.
[100.0, 4, 0, 1]




ROC_AUC = 0.756741325166749
Iteration No: 46 ended. Search finished for the next optimal point.
Time taken: 0.7711
Function value obtained: -0.5397
Current minimum: -0.5877
Iteration No: 47 started. Searching for the next optimal point.
[0.34305161564276565, 4, 1, 1]
ROC_AUC = 0.7701487114271626
Iteration No: 47 ended. Search finished for the next optimal point.
Time taken: 0.6662
Function value obtained: -0.5812
Current minimum: -0.5877
Iteration No: 48 started. Searching for the next optimal point.
[1.103880368995756, 3, 1, 1]
ROC_AUC = 0.769956658275155
Iteration No: 48 ended. Search finished for the next optimal point.
Time taken: 0.4498
Function value obtained: -0.5867
Current minimum: -0.5877
Iteration No: 49 started. Searching for the next optimal point.
[100.0, 0, 0, 1]
Iteration No: 49 ended. Search finished for the next optimal point.
Time taken: 0.5949
Function value obtained: 0.0000
Current minimum: -0.5877
Iteration No: 50 started. Searching for the next optimal point.
[7.

In [73]:
#Imprimindo os melhores parâmetros
res.x

[0.9638851701068524, 4, 1, 1]

In [75]:
#Vamos replicar os parâmetros tunados
ap = tune_rgl(res.x)

#Imprimindo o valor
print("Average_precision = {}".format(-ap))

[0.9638851701068524, 4, 1, 1]
ROC_AUC = 0.7701279489242429
Average_precision = 0.5877359562456916


O tunning melhorou muito pouco em relação ao sem tunning.

* Regressão Logística -> AP = 0.5877359562456916 e ROC_AUC = 0.7701279489242429
* LGBM tunado -> ROC_AUC = 0.7966338792141392 e Average_precision = 0.6402330807008632
* Random Forest tunado -> ROC_AUC = 0.7551062780618204 e AP = 0.581860377926327