# **RANDOM FOREST**

### **Abrindo os arquivos criados no Pre-Processamento**

In [1]:
# Importando a Biblioteca
import pickle

In [2]:
alvo           = pickle.load(open('heart.pkl',  'rb'))
previsores     = pickle.load(open('heart2.pkl', 'rb'))
previsores_esc = pickle.load(open('heart3.pkl', 'rb'))
previsores2    = pickle.load(open('heart4.pkl', 'rb'))
previsores3    = pickle.load(open('heart5.pkl', 'rb'))
previsores3_esc= pickle.load(open('heart6.pkl', 'rb'))

# RESUMO DO PRE-PROCESSAMENTO

**<font color='green'> alvo </font>** = variável que se pretende atingir (tem ou não doença cardíaca).

**<font color='green'> Previsores </font>** = conjunto de variáveis previsoras com as variáveis categóricas transformadas em numéricas manualmente, sem escalonar.

**<font color='green'> Previsores_esc </font>** = conjunto de variáveis previsoras com as variáveis categóricas transformadas em numéricas, escalonada.

**<font color='green'> Previsores2 </font>** = conjunto de variáveis previsoras com as variáveis categóricas transformadas em numéricas pelo labelencoder.

**<font color='green'> Previsores3 </font>** = conjunto de variáveis previsoras transformadas pelo labelencoder e onehotencoder, sem escalonar.

**<font color='green'> Previsores3_esc </font>** = conjunto de variáveis previsoras transformadas pelo labelencoder e onehotencoder escalonada.

## **BASE DE TREINO E TESTE**

In [3]:
# Importando a biblioteca
from sklearn.model_selection import train_test_split

**Parâmetros train_test_split:**   
- **arrays:** nomes dos atributos previsores e alvo.   
- **test_size:** tamanho em porcentagem dos dados de teste. default é none.   
- **train_size:** tamanho em porcentagem dos dados de treinamento.default é none.  
- **random_state:** nomeação de um estado aleatório.   
- **shuffle:** embaralhamento dos dados aleatórios. Associado com o random_state ocorre o mesmo embaralhamento sempre. Default é True.  
- **stratify:** Possibilidade de dividir os dados de forma estratificada. Default é None (nesse caso é mantido a proporção, isto é, se tem 30% de zeros e 70% de 1 no dataframe, na separação em treinamento e teste se manterá essa proporção).

In [4]:
# Separando teste e treino
x_treino, x_test, y_treino, y_test = train_test_split(previsores, alvo, test_size = 0.3, random_state=0)

In [5]:
# Shape de x
x_treino.shape, x_test.shape

((641, 11), (276, 11))

In [6]:
# Shape de y
y_treino.shape, y_test.shape

((641,), (276,))

# **RANDOM FOREST**

Biblioteca: https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html

In [7]:
# Import da biblioteca
from sklearn.ensemble import RandomForestClassifier

In [8]:
# Classificador
random = RandomForestClassifier(n_estimators=150, criterion='entropy', random_state=0, max_depth=4)
random.fit(x_treino, y_treino)

In [9]:
# Previsores
previsores_random = random.predict(x_test)
previsores_random[:100]

array([1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1,
       1, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 1, 1,
       1, 0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 1, 1, 0, 1, 1,
       1, 0, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1,
       1, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0], dtype=int64)

In [10]:
# Comparando com y_test
y_test[:100]

array([1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1,
       1, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 1, 1, 1,
       1, 0, 0, 1, 1, 1, 1, 0, 0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 1, 0, 1, 1,
       1, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 0, 1,
       1, 0, 1, 0, 0, 1, 1, 0, 1, 0, 0, 0], dtype=int64)

In [11]:
# Biblioteca de metricas
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

In [12]:
print(f'Acuracia de teste: {accuracy_score(y_test, previsores_random)*100:.2f}%')

Acuracia de teste: 86.59%


In [13]:
# MAtrix de confusao
confusion_matrix(y_test, previsores_random)

array([[103,  18],
       [ 19, 136]], dtype=int64)

In [14]:
print(classification_report(y_test, previsores_random))

              precision    recall  f1-score   support

           0       0.84      0.85      0.85       121
           1       0.88      0.88      0.88       155

    accuracy                           0.87       276
   macro avg       0.86      0.86      0.86       276
weighted avg       0.87      0.87      0.87       276



**Analise dos Dados de Treino**

In [15]:
# Previsores de Treino
previsores_treino = random.predict(x_treino)
previsores_treino[:100]

array([1, 0, 1, 1, 1, 1, 0, 0, 0, 0, 1, 0, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1,
       1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 0, 1, 0, 1, 0, 0,
       1, 1, 0, 1, 1, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 1, 0, 1, 1,
       0, 1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1,
       1, 1, 0, 1, 0, 0, 1, 1, 1, 1, 1, 1], dtype=int64)

In [16]:
# Acuracia
accuracy_score(y_treino, previsores_treino)

0.890795631825273

In [17]:
# Matrix de confusao
confusion_matrix(y_treino, previsores_treino)

array([[241,  48],
       [ 22, 330]], dtype=int64)

### Validacao Cruzada

In [18]:
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

In [19]:
# Separando os dados em folds
kfold = KFold(n_splits = 30, shuffle=True, random_state = 0)

In [20]:
# Criando o modelo
modelo = RandomForestClassifier(n_estimators=150, criterion='entropy', random_state = 0, max_depth=4)
resultado = cross_val_score(modelo, previsores, alvo, cv = kfold)

# Usamos a média e o desvio padrão
print("Acurácia Média: %.2f%%" % (resultado.mean() * 100.0))

Acurácia Média: 86.17%
