# **LIGHTGBM**

### **Abrindo os arquivos criados no Pre-Processamento**

In [1]:
# Importando a Biblioteca
import pickle

In [2]:
alvo           = pickle.load(open('heart.pkl',  'rb'))
previsores     = pickle.load(open('heart2.pkl', 'rb'))
previsores_esc = pickle.load(open('heart3.pkl', 'rb'))
previsores2    = pickle.load(open('heart4.pkl', 'rb'))
previsores3    = pickle.load(open('heart5.pkl', 'rb'))
previsores3_esc= pickle.load(open('heart6.pkl', 'rb'))

# RESUMO DO PRE-PROCESSAMENTO

**<font color='green'> alvo </font>** = variável que se pretende atingir (tem ou não doença cardíaca).

**<font color='green'> Previsores </font>** = conjunto de variáveis previsoras com as variáveis categóricas transformadas em numéricas manualmente, sem escalonar.

**<font color='green'> Previsores_esc </font>** = conjunto de variáveis previsoras com as variáveis categóricas transformadas em numéricas, escalonada.

**<font color='green'> Previsores2 </font>** = conjunto de variáveis previsoras com as variáveis categóricas transformadas em numéricas pelo labelencoder.

**<font color='green'> Previsores3 </font>** = conjunto de variáveis previsoras transformadas pelo labelencoder e onehotencoder, sem escalonar.

**<font color='green'> Previsores3_esc </font>** = conjunto de variáveis previsoras transformadas pelo labelencoder e onehotencoder escalonada.

## **BASE DE TREINO E TESTE**

In [3]:
# Importando a biblioteca
from sklearn.model_selection import train_test_split

**Parâmetros train_test_split:**   
- **arrays:** nomes dos atributos previsores e alvo.   
- **test_size:** tamanho em porcentagem dos dados de teste. default é none.   
- **train_size:** tamanho em porcentagem dos dados de treinamento.default é none.  
- **random_state:** nomeação de um estado aleatório.   
- **shuffle:** embaralhamento dos dados aleatórios. Associado com o random_state ocorre o mesmo embaralhamento sempre. Default é True.  
- **stratify:** Possibilidade de dividir os dados de forma estratificada. Default é None (nesse caso é mantido a proporção, isto é, se tem 30% de zeros e 70% de 1 no dataframe, na separação em treinamento e teste se manterá essa proporção).

In [4]:
# Separando teste e treino
x_treino, x_test, y_treino, y_test = train_test_split(previsores, alvo, test_size = 0.3, random_state=0)

In [5]:
# Shape de x
x_treino.shape, x_test.shape

((641, 11), (276, 11))

In [6]:
# Shape de y
y_treino.shape, y_test.shape

((641,), (276,))

# **LIGHTGBM**

Biblioteca: https://lightgbm.readthedocs.io/en/latest/pythonapi/lightgbm.train.html

In [7]:
# Instalação do Algoritmo
#!pip install lightgbm

### **Hiperparâmetros**

**Controle de ajuste**

**num_leaves** : define o número de folhas a serem formadas em uma árvore. Não tem uma relação direta entre num_leaves e max_depth e, portanto, os dois não devem estar vinculados um ao outro.

**max_depth** : especifica a profundidade máxima ou nível até o qual a árvore pode crescer.

**Controle de velocidade**

**learning_rate**: taxa de aprendizagem, determina o impacto de cada árvore no resultado final.

**max_bin** : O valor menor de max_bin reduz muito tempo de procesamento, pois agrupa os valores do recurso em caixas discretas, o que é computacionalmente mais barato.

### **Controle de precisão**

**num_leaves** : valor alto produz árvores mais profundas com maior precisão, mas leva ao overfitting. 

**max_bin** : valores altos tem efeito semelhante ao causado pelo aumento do valor de num_leaves e também torna mais lento o procedimento de treinamento.

In [8]:
# Import da biblioteca
import lightgbm as lgb 

In [9]:
# Temos que cria um DataSet para treino
dataset = lgb.Dataset(x_treino, y_treino)
dataset

<lightgbm.basic.Dataset at 0x2a049fa30d0>

In [10]:
# Parâmetros de entrada
parametros = {'num_leaves':250,     # número de folhas
              'objective':'binary', # classificação Binária     
              'max_depth': 2,
              'learning_rate':.05,
              'max_bin':100}

In [11]:
# Criando a variavel lgbm para treinamento
lgbm = lgb.train(parametros, dataset, num_boost_round=250)

[LightGBM] [Info] Number of positive: 352, number of negative: 289
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 329
[LightGBM] [Info] Number of data points in the train set: 641, number of used features: 11
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.549142 -> initscore=0.197204
[LightGBM] [Info] Start training from score 0.197204


In [12]:
%%time
# Marcação do tempo de execução
# Fazendo o Treinamento

lgbm = lgb.train(parametros, dataset)
lgbm

[LightGBM] [Info] Number of positive: 352, number of negative: 289
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 329
[LightGBM] [Info] Number of data points in the train set: 641, number of used features: 11
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.549142 -> initscore=0.197204
[LightGBM] [Info] Start training from score 0.197204
CPU times: total: 109 ms
Wall time: 53.7 ms


<lightgbm.basic.Booster at 0x2a049ffc190>

In [13]:
# Criando os previsores
previsores_lgbm = lgbm.predict(x_test)
previsores_lgbm[:20]

array([0.8631083 , 0.83285722, 0.94121847, 0.06260666, 0.15908234,
       0.33596225, 0.44795132, 0.04080421, 0.06681764, 0.10646924,
       0.87293215, 0.85666014, 0.94121847, 0.92509557, 0.38578614,
       0.89352895, 0.68203754, 0.90039234, 0.89886887, 0.20832387])

In [14]:
# Shape dos dados
previsores_lgbm.shape

(276,)

In [15]:
# Quando for menor que 5 considera 0 e quando for maior ou igual a 5 considera 1
for i in range(0, 276):
    if previsores_lgbm[i] >= .5:       
       previsores_lgbm[i] = 1
    else:  
       previsores_lgbm[i] = 0

In [16]:
# Dados de previsoes
previsores_lgbm[:100]

array([1., 1., 1., 0., 0., 0., 0., 0., 0., 0., 1., 1., 1., 1., 0., 1., 1.,
       1., 1., 0., 1., 1., 1., 0., 0., 0., 1., 1., 1., 1., 1., 0., 0., 0.,
       1., 0., 0., 0., 1., 0., 0., 1., 1., 1., 1., 0., 0., 1., 0., 1., 1.,
       0., 0., 0., 1., 0., 0., 0., 1., 0., 1., 1., 1., 0., 1., 1., 1., 0.,
       1., 0., 1., 1., 0., 1., 1., 1., 1., 1., 1., 1., 1., 1., 0., 0., 1.,
       1., 1., 1., 1., 0., 1., 0., 0., 0., 1., 0., 1., 0., 0., 0.])

In [17]:
# Comparando com y_test
y_test[:100]

array([1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1,
       1, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 1, 1, 1,
       1, 0, 0, 1, 1, 1, 1, 0, 0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 1, 0, 1, 1,
       1, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 0, 1,
       1, 0, 1, 0, 0, 1, 1, 0, 1, 0, 0, 0], dtype=int64)

In [18]:
# Import da metric
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

In [19]:
print(f'Acuracia de Teste: {accuracy_score(y_test, previsores_lgbm)*100:.2f}%')

Acuracia de Teste: 86.59%


In [20]:
# Matrix de confusao
confusion_matrix(y_test, previsores_lgbm)

array([[102,  19],
       [ 18, 137]], dtype=int64)

**Análise dados de treino**

In [21]:
# Criando a variavel de previsao para treino
previsoes_treino = lgbm.predict(x_treino)
previsoes_treino[:20]

array([0.88387506, 0.52323924, 0.90744562, 0.83876831, 0.71445756,
       0.62509401, 0.15160555, 0.03207216, 0.07361481, 0.08780439,
       0.89361033, 0.06785013, 0.85243896, 0.8198371 , 0.90340223,
       0.02067333, 0.04854085, 0.21634752, 0.31009387, 0.92509557])

In [22]:
# Shape de treino
previsoes_treino.shape

(641,)

In [23]:
# Quando for menor que 5 considera 0 e quando for maior ou igual a 5 considera 1
for i in range(0, 641):
    if previsoes_treino[i] >= .5:       
       previsoes_treino[i] = 1
    else:  
       previsoes_treino[i] = 0

In [24]:
# Dados de treino
previsoes_treino[:100]

array([1., 1., 1., 1., 1., 1., 0., 0., 0., 0., 1., 0., 1., 1., 1., 0., 0.,
       0., 0., 1., 0., 1., 1., 1., 1., 0., 0., 1., 1., 1., 1., 0., 1., 1.,
       0., 0., 1., 1., 0., 1., 0., 1., 0., 0., 1., 1., 0., 1., 1., 1., 1.,
       0., 1., 0., 1., 0., 1., 0., 1., 0., 0., 0., 1., 0., 1., 1., 0., 1.,
       1., 0., 1., 1., 1., 1., 0., 0., 1., 1., 1., 1., 1., 1., 1., 1., 0.,
       1., 1., 1., 1., 1., 0., 1., 0., 0., 1., 1., 1., 1., 1., 1.])

In [25]:
# Comparando com y_test
y_test[:100]

array([1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1,
       1, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 1, 1, 1,
       1, 0, 0, 1, 1, 1, 1, 0, 0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 1, 0, 1, 1,
       1, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 0, 1,
       1, 0, 1, 0, 0, 1, 1, 0, 1, 0, 0, 0], dtype=int64)

In [26]:
# Acuracia
print(f"Acuracia de Treino: {accuracy_score(y_treino, previsoes_treino)*100:.2f}")

Acuracia de Treino: 89.55


In [27]:
# Matrix de confusao
confusion_matrix(y_treino, previsoes_treino)

array([[245,  44],
       [ 23, 329]], dtype=int64)

### Validacao Cruzada

In [43]:
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

In [44]:
# Separando os dados em folds
kfold = KFold(n_splits = 30, shuffle=True, random_state = 0)

In [45]:
# Criando o modelo
modelo = lgb.LGBMClassifier(num_leaves = 250, objective = 'binary',     
                            max_depth = 2, learning_rate = .05, max_bin =100)
resultado = cross_val_score(modelo, previsores, alvo, cv = kfold)

# Usamos a média e o desvio padrão
print("Acurácia Média: %.2f%%" % (resultado.mean() * 100.0))

Acurácia Média: 86.61%
