### Random Forests: 

 > O algoritmo de florestas aleatórias cria várias árvores de decisão e as combina para obter uma predição com maior acurácia e com maior estabilidade.

> Uma desvantagem do uso de uma única árvore de decisão é que as árvores de decisão tendem a ser mais ajustadas aos dados de treinamento. Como o próprio nome sugere, uma floresta aleatória cria muitas árvores de decisão individuais em um conjunto de treinamento, geralmente da ordem de dezenas ou centenas de árvores. A idéia é que cada uma das árvores em uma floresta aleatória seja razoavelmente bem em prever os valores-alvo no conjunto de treinamento, mas também deve ser construída para ser diferente de alguma forma das outras árvores da floresta.



    1 - Pode ser utilizado para tarefas de classificação e também de regressão. Eles podem ser usados ​​como classificadores através da classe sklearn RandomForestClassifier ou para regressão usando a classe RandomForestRegressor.
    
    2 - Algoritmo de aprendizagem supervisionada
    
    3 - Importância das Características (features): Grande qualidade das florestas aleatórias é a facilidade para se medir a importância relativa de cada característica (feature) para a predição. Sklearn provê uma excelente ferramenta para isto, que mede a importancia das características analisando quantos nodos das árvores, que usam uma dada característica, reduzem impureza geral da floresta. Ele calcula este valor automaticamente para cada característica após o treinamento e normaliza os resultados para que a soma de todas as importancias seja igual a 1. Através da inspeção da importância das características, você pode decidir quais características deixar de fora do modelo, já que eles não contribuem o suficiente ou nada para o processo de predição. Isto é importante, porque uma regra geral em aprendizagem de máquina é que quanto mais características você tem, mais provavelmente seu modelo irá sofrer de superajuste (overfitting) e vice versa.
    
    4 - Depois que um modelo de floresta aleatória é treinado, ele prediz o valor alvo para novas instâncias. Para tarefas de regressão, a previsão geral é normalmente a média das previsões individuais da árvore.
    
   

#### Hiperparâmetros Importantes:
Os parâmetros no Floresta Aleatória são utilizados ou para aumentar o poder preditivo do modelo ou para tornar o modelo mais rápido.

<b>1. Aumentar o poder preditivo:</b>

   <b>n_estimators:</b> Indica o número de árvores construídas pelo algoritmo antes de tomar uma votação ou fazer uma média de predições. Em geral, uma quantidade elevada de árvores aumenta a performance e torna as predições mais estáveis, mas também torna a computação mais lenta.O valor padrão para n_estimators é 10 e aumentar esse número para conjuntos de dados maiores é quase certamente uma boa idéia.
     
   <b>max_features:</b> Indica o número máximo de características a serem utilizadas pelo Floresta Aleatória na construção de uma dada árvore. O modelo de floresta aleatória é bastante sensível ao parâmetro max_features.Se Max_Features for  definido como 1, a floresta aleatória é limitada a executar uma divisão no recurso único que foi selecionado aleatoriamente, em vez de ser capaz de realizar a melhor divisão em várias variáveis. Isso significa que as árvores (na floresta) provavelmente serão muito diferentes umas das outras e possivelmente com muitos níveis, a fim de produzir um bom ajuste aos dados. Por outro lado, se Max_features for alto, próximo ao número total de recursos que cada instância possui, as árvores na floresta tenderão a ser semelhantes e provavelmente exigirão menos níveis para ajustar os dados usando os recursos mais informativos. 
     
  <b>min_sample_leaf:</b> Indica o número mínimo de folhas que devem existir em uma dada árvore.
  
  
  

<b>2. Aumentar a velocidade do modelo:</b>

   <b>n_jobs:</b> Informa quantos processadores o algoritmo pode utilizar. Se ele tiver valor 1, pode utilizar apenas um processador. O valor -1 significa que não há limite na quantidade de processadores a ser utilizado.
   
   <b>random_state:</b> Torna o resultado do modelo replicável. O modelo será produzido do mesmo modo se ele tiver um valor definido de random_state e se forem utilizados os mesmos parâmetros com o mesmos dados de treinamento.
   
   <b>oob_score:</b>(também chamado de oob sampling), que é um método de validação cruzada para floresta aleatória. Neste tipo de amostragem (sampling), cerca de um terço dos dados não é utilizado no treinamento e pode ser utilizado para avaliar a performance. Estas amostras são chamadas out of the bag samples. É uma técnica similar ao método de validação cruzada leave one out, mas sem nenhum custo computacional extra.

https://medium.com/machina-sapiens/o-algoritmo-da-floresta-aleat%C3%B3ria-3545f6babdf8

In [6]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split


In [7]:
import os 
os.chdir(r'C:\Users\gizel\Documents\PUCMG\PUC_MG_Disciplinas\PUC_MG_Disciplinas\04 - Machine Learning\Unidade 3 - Aprendizado Supervisionado Classificação e Regressão/dataset')

In [8]:
sonar = pd.read_excel('sonar.xlsx')

print(sonar.shape)
print(sonar.keys())
print(sonar['Classe'].unique())

(208, 61)
Index(['Atributo_1', 'Atributo_2', 'Atributo_3', 'Atributo_4', 'Atributo_5',
       'Atributo_6', 'Atributo_7', 'Atributo_8', 'Atributo_9', 'Atributo_10',
       'Atributo_11', 'Atributo_12', 'Atributo_13', 'Atributo_14',
       'Atributo_15', 'Atributo_16', 'Atributo_17', 'Atributo_18',
       'Atributo_19', 'Atributo_20', 'Atributo_21', 'Atributo_22',
       'Atributo_23', 'Atributo_24', 'Atributo_25', 'Atributo_26',
       'Atributo_27', 'Atributo_28', 'Atributo_29', 'Atributo_30',
       'Atributo_31', 'Atributo_32', 'Atributo_33', 'Atributo_34',
       'Atributo_35', 'Atributo_36', 'Atributo_37', 'Atributo_38',
       'Atributo_39', 'Atributo_40', 'Atributo_41', 'Atributo_42',
       'Atributo_43', 'Atributo_44', 'Atributo_45', 'Atributo_46',
       'Atributo_47', 'Atributo_48', 'Atributo_49', 'Atributo_50',
       'Atributo_51', 'Atributo_52', 'Atributo_53', 'Atributo_54',
       'Atributo_55', 'Atributo_56', 'Atributo_57', 'Atributo_58',
       'Atributo_59', 'Atributo

In [9]:
sonar.describe()

Unnamed: 0,Atributo_1,Atributo_2,Atributo_3,Atributo_4,Atributo_5,Atributo_6,Atributo_7,Atributo_8,Atributo_9,Atributo_10,...,Atributo_51,Atributo_52,Atributo_53,Atributo_54,Atributo_55,Atributo_56,Atributo_57,Atributo_58,Atributo_59,Atributo_60
count,208.0,208.0,208.0,208.0,208.0,208.0,208.0,208.0,208.0,208.0,...,208.0,208.0,208.0,208.0,208.0,208.0,208.0,208.0,208.0,208.0
mean,0.029164,0.038437,0.043832,0.053892,0.075202,0.10457,0.121747,0.134799,0.178003,0.208259,...,0.016069,0.01342,0.010709,0.010941,0.00929,0.008222,0.00782,0.007949,0.007941,0.006507
std,0.022991,0.03296,0.038428,0.046528,0.055552,0.059105,0.061788,0.085152,0.118387,0.134416,...,0.012008,0.009634,0.00706,0.007301,0.007088,0.005736,0.005785,0.00647,0.006181,0.005031
min,0.0015,0.0006,0.0015,0.0058,0.0067,0.0102,0.0033,0.0055,0.0075,0.0113,...,0.0,0.0008,0.0005,0.001,0.0006,0.0004,0.0003,0.0003,0.0001,0.0006
25%,0.01335,0.01645,0.01895,0.024375,0.03805,0.067025,0.0809,0.080425,0.097025,0.111275,...,0.008425,0.007275,0.005075,0.005375,0.00415,0.0044,0.0037,0.0036,0.003675,0.0031
50%,0.0228,0.0308,0.0343,0.04405,0.0625,0.09215,0.10695,0.1121,0.15225,0.1824,...,0.0139,0.0114,0.00955,0.0093,0.0075,0.00685,0.00595,0.0058,0.0064,0.0053
75%,0.03555,0.04795,0.05795,0.0645,0.100275,0.134125,0.154,0.1696,0.233425,0.2687,...,0.020825,0.016725,0.0149,0.0145,0.0121,0.010575,0.010425,0.01035,0.010325,0.008525
max,0.1371,0.2339,0.3059,0.4264,0.401,0.3823,0.3729,0.459,0.6828,0.7106,...,0.1004,0.0709,0.039,0.0352,0.0447,0.0394,0.0355,0.044,0.0364,0.0439


#### Separação Dados de Treinamento

In [40]:
# Pacote de treinamento: Pegando todas as colunas exceto a última coluna que possui os labels: 'Classe'

X_train_ = sonar.iloc[:,0:(sonar.shape[1] - 1)]


# LabelEnconder transforma apenas a última coluna "Classe:['Rocha' 'Mina'] string em classe binária 
le = LabelEncoder()

y_train_ = le.fit_transform(sonar.iloc[:,(sonar.shape[1]-1)])



X_train, X_test, y_train, y_test = train_test_split(X_train_, y_train_, random_state = 0)

#### Treinamento

Com valores padrão:

In [41]:
clf = RandomForestClassifier().fit(X_train, y_train)


print('Random Forest, Sonar ')
print('Acurácia no pacote de treinamento: {:.2f}'
     .format(clf.score(X_train, y_train)))
print('Acurácia no pacote de teste: {:.2f}'
     .format(clf.score(X_test, y_test)))

Random Forest, Sonar 
Acurácia no pacote de treinamento: 1.00
Acurácia no pacote de teste: 0.75


Com max_features = 29, conseguimos um aumento importante na acurácia no pacote de testes.

In [42]:
clf2 = RandomForestClassifier(max_features = 29, random_state = 42)

clf2.fit(X_train, y_train)

print('Random Forest, Sonar ')
print('Acurácia no pacote de treinamento: {:.2f}'
     .format(clf2.score(X_train, y_train)))
print('Acurácia no pacote de teste: {:.2f}'
     .format(clf2.score(X_test, y_test)))

Random Forest, Sonar 
Acurácia no pacote de treinamento: 1.00
Acurácia no pacote de teste: 0.85


Quando comparamos estes resultados obtidos acima com os resultados obtidos através de uma única árvore de decisão, mesmo utilizando-se os melhores parâmetros para esta árvore, podemos perceber o quanto as Florestas Aleatórias têm melhor desempenho para este conjunto de dados. 


In [46]:
import pandas as pd
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.metrics import accuracy_score, classification_report
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
import matplotlib.pyplot as plt
from sklearn import tree
from sklearn.model_selection import GridSearchCV

In [45]:
# Construindo o modelo
sonar_tree_model = DecisionTreeClassifier(random_state=42)

# Treinando o modelo
sonar_tree = sonar_tree_model.fit(X_train, y_train)


print('Árvore de Decisão, Sonar ')
print('Acurácia no pacote de treinamento: {:.2f}'
     .format(clf.score(X_train, y_train)))
print('Acurácia no pacote de teste: {:.2f}'
     .format(clf.score(X_test, y_test)))

Árvore de Decisão, Sonar 
Acurácia no pacote de treinamento: 1.00
Acurácia no pacote de teste: 0.75
