# Aplicando os algoritmos de machine learning sem otimização de hiperparametros

Neste notebook faremos uma comparação inicial e faremos a comparação sem otimizar no qual com base nos textos de Silva e Mantonani (2020) e Santos *et al* (2019) (link do artigo [aqui](https://www.scielo.br/j/csp/a/jyhKL6G4dZhcbchMD6bcS8s/?format=pdf&lang=pt)) e Gomes(2019) (cujo link pode ser acessado ([aqui](https://www.datageeks.com.br/naive-bayes/))), usaremos esses algoritmos:

  - Regressão Logistica;
  - Random Forest;
  - Árvore de decisão
  - Naive Bayes

In [1]:
# Baixando os módulos

import numpy as np
import pandas as pd
from sklearn.model_selection import cross_validate
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from imblearn.under_sampling import RandomUnderSampler
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import GaussianNB


In [2]:
# Importando o dataset
heart_failure = pd.read_csv('heart_failure_clinical_records_dataset.csv')

In [3]:
heart_failure.head()

Unnamed: 0,age,anaemia,creatinine_phosphokinase,diabetes,ejection_fraction,high_blood_pressure,platelets,serum_creatinine,serum_sodium,sex,smoking,time,DEATH_EVENT
0,75.0,0,582,0,20,1,265000.0,1.9,130,1,0,4,1
1,55.0,0,7861,0,38,0,263358.03,1.1,136,1,0,6,1
2,65.0,0,146,0,20,0,162000.0,1.3,129,1,1,7,1
3,50.0,1,111,0,20,0,210000.0,1.9,137,1,0,7,1
4,65.0,1,160,1,20,0,327000.0,2.7,116,0,0,8,1


In [4]:
# fazendo as separação dos atributos e do target
x = heart_failure.drop(['DEATH_EVENT'],axis=1).values
y = heart_failure.DEATH_EVENT.values

# Normalizando os dados
x_std = StandardScaler().fit_transform(x)

In [5]:
# usando o metos undersampling para tornar os dados menos enviesados
nm = RandomUnderSampler(random_state = 10)

x_nm, y_nm = nm.fit_resample(x_std, y)

Para melhor comparação dos casos é melhor usar o croos validation

Com o **random forest**

In [9]:
nome_metricas = ['accuracy', 'precision_macro', 'recall_macro']
ran_f = RandomForestClassifier()
metricas_ran = cross_validate(ran_f,x_nm, y_nm, cv=7, scoring=nome_metricas)
for met in metricas_ran:
  print(f'-{met}')
  print(f"-- {metricas_ran[met]}")
  media = np.mean(metricas_ran[met])
  desvio = np.std(metricas_ran[met])
  print(f'Média do {met}: {media}')
  print(f'Desvio {desvio}')
  print(f'Intervalo [{(media-(2*desvio)):.3f},{(media+(2*desvio)):.3f}]')
  print('-*-'*20)
    
    
    

-fit_time
-- [1.20680714 0.50993633 0.79394197 0.69531345 0.6275394  0.43166971
 0.93464208]
Média do fit_time: 0.7428357260567802
Desvio 0.24532457222790138
Intervalo [0.252,1.233]
-*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*-
-score_time
-- [0.05194736 0.02687073 0.08142519 0.08780575 0.03523445 0.04851747
 0.08391786]
Média do score_time: 0.05938839912414551
Desvio 0.023019304392629905
Intervalo [0.013,0.105]
-*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*-
-test_accuracy
-- [0.92857143 0.75       0.96428571 0.88888889 0.81481481 0.59259259
 0.37037037]
Média do test_accuracy: 0.7585034013605442
Desvio 0.19628215801377444
Intervalo [0.366,1.151]
-*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*-
-test_precision_macro
-- [0.9375     0.83333333 0.96666667 0.89010989 0.83235294 0.67272727
 0.30454545]
Média do test_precision_macro: 0.7767479369370126
Desvio 0.2120817189702005
Intervalo [0.353,1.201]
-*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*

Com a **regressão logistica**

In [10]:
lg = LogisticRegression()
metricas_lg = cross_validate(lg, x_nm, y_nm, cv=7, scoring=nome_metricas)
for met in metricas_ran:
  print(f'-{met}')
  print(f"-- {metricas_lg[met]}")
  media = np.mean(metricas_lg[met])
  desvio = np.std(metricas_lg[met])
  print(f'Média do {met}: {media}')
  print(f'Desvio {desvio}')
  print(f'Intervalo [{(media-(2*desvio)):.3f},{(media+(2*desvio)):.3f}]')
  print('-*-'*20)

-fit_time
-- [0.04392529 0.06272602 0.02208209 0.02948904 0.06744552 0.03219843
 0.030617  ]
Média do fit_time: 0.041211911610194614
Desvio 0.01628010240049033
Intervalo [0.009,0.074]
-*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*-
-score_time
-- [0.00524735 0.07394409 0.0312252  0.00401688 0.00440645 0.02577615
 0.04189324]
Média do score_time: 0.026644195829119
Desvio 0.023772404240376577
Intervalo [-0.021,0.074]
-*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*-
-test_accuracy
-- [0.85714286 0.85714286 0.82142857 0.81481481 0.85185185 0.81481481
 0.25925926]
Média do test_accuracy: 0.7537792894935753
Desvio 0.20268322859422153
Intervalo [0.348,1.159]
-*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*-
-test_precision_macro
-- [0.85714286 0.88888889 0.8368984  0.82954545 0.85833333 0.81666667
 0.22039474]
Média do test_precision_macro: 0.7582671904487472
Desvio 0.22065888058465122
Intervalo [0.317,1.200]
-*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*-

Com **Árvore de Decisão**

In [11]:
tree = DecisionTreeClassifier()
metricas_tree = cross_validate(tree, x_nm, y_nm, cv=7, scoring=nome_metricas)
for met in metricas_ran:
  print(f'-{met}')
  print(f"-- {metricas_tree[met]}")
  media = np.mean(metricas_tree[met])
  desvio = np.std(metricas_tree[met])
  print(f'Média do {met}: {media}')
  print(f'Desvio {desvio}')
  print(f'Intervalo [{(media-(2*desvio)):.3f},{(media+(2*desvio)):.3f}]')
  print('-*-'*20)

-fit_time
-- [0.01062226 0.0019784  0.0019002  0.01000977 0.01555157 0.00178647
 0.00178361]
Média do fit_time: 0.006233181272234235
Desvio 0.005302409365825808
Intervalo [-0.004,0.017]
-*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*-
-score_time
-- [0.01009369 0.03026152 0.00400758 0.00413918 0.00434589 0.00376868
 0.01666379]
Média do score_time: 0.010468619210379464
Desvio 0.009215384709685867
Intervalo [-0.008,0.029]
-*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*-
-test_accuracy
-- [0.96428571 0.67857143 0.78571429 0.96296296 0.74074074 0.74074074
 0.44444444]
Média do test_accuracy: 0.7596371882086167
Desvio 0.16498254430621168
Intervalo [0.430,1.090]
-*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*-
-test_precision_macro
-- [0.96666667 0.80434783 0.79166667 0.96428571 0.75294118 0.77777778
 0.39583333]
Média do test_precision_macro: 0.7790741658982433
Desvio 0.17641256129522997
Intervalo [0.426,1.132]
-*--*--*--*--*--*--*--*--*--*--*--*--*--*--

Com **naive bayes**

In [12]:
naive = GaussianNB()
metricas_naive = cross_validate(naive, x_nm, y_nm, cv=7, scoring=nome_metricas)
for met in metricas_ran:
  print(f'-{met}')
  print(f"-- {metricas_naive[met]}")
  media = np.mean(metricas_naive[met])
  desvio = np.std(metricas_naive[met])
  print(f'Média do {met}: {media}')
  print(f'Desvio {desvio}')
  print(f'Intervalo [{(media-(2*desvio)):.3f},{(media+(2*desvio)):.3f}]')
  print('-*-'*20)

-fit_time
-- [0.01180196 0.00197887 0.00205159 0.00183249 0.00205421 0.00233746
 0.00320315]
Média do fit_time: 0.0036085333142961773
Desvio 0.003371356016957434
Intervalo [-0.003,0.010]
-*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*-
-score_time
-- [0.01511526 0.01736617 0.00915122 0.01333308 0.02234674 0.0141716
 0.00491762]
Média do score_time: 0.013771670205252511
Desvio 0.005187243211727063
Intervalo [0.003,0.024]
-*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*-
-test_accuracy
-- [0.82142857 0.82142857 0.71428571 0.81481481 0.77777778 0.66666667
 0.44444444]
Média do test_accuracy: 0.7229780801209372
Desvio 0.12629303220918986
Intervalo [0.470,0.976]
-*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*--*-
-test_precision_macro
-- [0.8368984  0.82307692 0.81818182 0.83235294 0.85       0.72857143
 0.39583333]
Média do test_precision_macro: 0.7549878342945568
Desvio 0.15120534624477971
Intervalo [0.453,1.057]
-*--*--*--*--*--*--*--*--*--*--*--*--*--*--*

Com esses resultados, temos que: 

- Com **random forest** tivemos  
    - acuracia: 0,758
    - precisão: 0,776
    - recall: 0,761

- Com  a **regressão logistica** tivemos:
  - acuracia: 0,753
  - precisão: 0,758
  - recall: 0,755

- Com a **árvore de decisão**:
  - acuracia: 0,759
  - precisão: 0,779
  - recall: 0,762

- Com **naive bayes**:
  - acuracia: 0,722
  - precisão: 0,754
  - recall: 0,724

Com esses resultados, temos que:
    - A árvore de decisão foi o que teve melhor perfomace, muito próximo a ele foi o random forest;
    - To os valores estão acima de 70%;
    - Naive bayes foi o que teve a pior perfomace;

Com isso veremos se com a otimização dos hiperparametros os valores podem ser maiores