# Sumário

- [1. ÁRVORE DE DECISÃO](#1.-ÁRVORE-DE-DECISÃO)


- [2. RANDOM FOREST](#2.-RANDOM-FOREST)


- [3. IMPLEMENTAÇÕES](#3.-IMPLEMENTAÇÕES)
  - [3.1 CLASSIFICAÇÃO](#3.1-CLASSIFICAÇÃO)
    - [3.1.1 Base de dados](#3.1.1-Base-de-dados)
    - [3.1.2 Árvore de decisão](#3.1.2-Árvore-de-decisão)
    - [3.1.3 Random forest](#3.1.3-Random-forest)
  - [3.2 REGRESSÃO](#3.2-REGRESSÃO)
    - [3.2.1 Base de dados](#3.2.1-Base-de-dados)
    - [3.2.2 Árvore de decisão](#3.2.2-Árvore-de-decisão)
    - [3.2.3 Random forest](#3.2.3-Random-forest)

# **1. ÁRVORE DE DECISÃO**

Uma árvore de decisão constrói caminhos para à tomada de decisões. Ela define qual atributo possui maior relevância e o define como sendo a raiz da árvore. Partindo desse ponto ela obtém galhos, os quais também se ramificam de acordo com os próximos graus de importância. Após construída uma árvore de decisão é um algoritmo condicional, que se inicia na raiz e dele vai tomando decisões com base em condições.

Uma árvore de decisão também pode ser utilizada para classificação de problemas linearmente e não linearmente separáveis. Ela também pode ter saídas múltiplas.

![](https://annalyzin.files.wordpress.com/2016/07/decision-tree-tutorial-animated3.gif)

Fonte: https://algobeans.com/2016/07/27/decision-trees-tutorial/

![](https://cdn-images-1.medium.com/max/600/1*OuB7IlENrdpXozK1R0UEzw.gif)

Fonte: http://tonyhschu.ca/

# **2. RANDOM FOREST**

O algoritmo de random forest é uma melhoria do algoritmo de árvores de decisão. Nesse algoritmo temos que as decisões não são feitas apenas por uma árvore, mas sim por várias que trabalham em conjunto para definir os melhores caminhos.

Para obter a resposta final normalmente utiliza-se a média entre as decisões ou os votos da maioria. A média é usada para regressão e os votos da maioria para classificação.

Pode-se escolher a quantidade de árvores a serem utilizadas, mas nem sempre mais é melhor, além de aumentar o gosto computacional o algoritmo pode se viciar nos dados de treinamento e não acertar nada quando for utilizado.

Também é possível definir quantos atributos cada uma das árvores vai utilizar, e ela escolhe quais utilizar de forma aleatória (por isso o nome de floresta randômica). 

- **Exemplo**: Se tivermos na base de dados os atributos A, B, C, D, E, F e G. E escolhermos 3 árvores sendo que cada uma vai analisar 4 atributos. Assim teríamos por exemplo:
    - Árvore 1: A, C, D, G.
    - Árvore 2: A, B, E, F.
    - Árvore 3: C, D, E, G.

![](https://cdn-images-1.medium.com/max/800/1*i0o8mjFfCn-uD79-F1Cqkw.png)

Fonte: https://medium.com/@williamkoehrsen/random-forest-simple-explanation-377895a60d2d

---
- Link para aprender mais:
    - [Intro to Decision Trees - Cognitive Class](https://youtu.be/z3yGRBz8jiI)
    - [Building Decision Trees - Cognitive Class](https://youtu.be/Q-fOOMGSxlo)
    - [Árvores de Decisão - Gfgioinfo](http://web.tecnico.ulisboa.pt/ana.freitas/bioinformatics.ath.cx/bioinformatics.ath.cx/indexf23d.html?id).
    - [DECISION TREES TUTORIAL - ALGOBEANS](https://algobeans.com/2016/07/27/decision-trees-tutorial/)
    - [Random Forests - The Math of Intelligence - Siraj Raval](https://www.youtube.com/watch?v=QHOazyP-YlM).
    - [Random Forest Simple Explanation - Will Koehrsen](https://medium.com/@williamkoehrsen/random-forest-simple-explanation-377895a60d2d)
    - [Random forest - Wikipédia](https://en.wikipedia.org/wiki/Random_forest).
---    

> Ambos algoritmos podem ser utilizados para classificação e regressão

# **3. IMPLEMENTAÇÕES**

## 3.1 CLASSIFICAÇÃO

Para a implementação do algoritmo foi utilizada a biblioteca Sklearn, veja a [Documentação](https://scikit-learn.org/stable/modules/classes.html#)

### **3.1.1 Base de dados**
A base de dados que será utilizada será a MNIST que já pode ser encontrada na base de dados do keras.
Porém para trabalhar com o algoritmo em questão ela deve modificada em sua dimensão.

In [1]:
from keras.datasets import mnist

# Importando base de dados
(x_train, y_train),(x_test, y_test) = mnist.load_data()

# Normalizando os valores
x_train, x_test = x_train/255, x_test/255

# Ajustando formato
x_train = x_train.reshape(x_train.shape[0], x_train.shape[1]*x_train.shape[2])
x_test = x_test.reshape(x_test.shape[0], x_test.shape[1]*x_test.shape[2])

Using TensorFlow backend.


Downloading data from https://s3.amazonaws.com/img-datasets/mnist.npz


### **3.1.2 Árvore de decisão**

In [2]:
#-------------------------------Bibliotecas-----------------------------------#
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import confusion_matrix, accuracy_score

#----------------Crinado um objeto que construirá a árvore--------------------#
classificador = DecisionTreeClassifier(criterion='entropy', random_state=0)

#-------------Criando a árvore com base nos dados de treinamento--------------#
classificador.fit(x_train, y_train)

#-------Passando os dados de teste pala árvore e armazenando as previsões-----#
previsoes = classificador.predict(x_test)

#----------------Exibindo a precisão e a matriz de confusão-------------------#
precisao = accuracy_score(y_test, previsoes)
matriz = confusion_matrix(y_test, previsoes)
print('precisao: {}'.format(precisao),'\n','matriz de confusão: \n{}' .format(matriz))

precisao: 0.8864 
 matriz de confusão: 
[[ 917    1    6    3    3   22    7    7    7    7]
 [   1 1098    6    4    0    8    4    5    8    1]
 [   6    4  899   20    9   11   22   23   27   11]
 [   7    7   20  868    5   42    5   16   24   16]
 [   7    2   19    7  859    5   16   13   14   40]
 [  17    7    6   40    4  751   19    2   27   19]
 [   9    4   11    5   22   21  864    5   14    3]
 [   2   11   32   15   12    7    2  915   10   22]
 [   7    7   23   36   20   18   12    6  819   26]
 [   7    4    6   20   32   21    6   15   24  874]]


### **3.1.3 Random forest**

In [3]:
#-------------------------------Bibliotecas-----------------------------------#
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import confusion_matrix, accuracy_score

#------Criando a floresta com 40 árvores baseando no criterio de entropia-----#
classificador = RandomForestClassifier(n_estimators = 40, criterion = 'entropy', random_state = 0)
classificador.fit(x_train, y_train)

#------Passando os dados de teste palas árvores e armazenando as previsões----#
previsoes = classificador.predict(x_test)

#----------------Exibindo a precisão e a matriz de confusão-------------------#
precisao = accuracy_score(y_test, previsoes)
matriz = confusion_matrix(y_test, previsoes)
print('precisao: {}'.format(precisao),'\n','matriz de confusão: \n{}' .format(matriz))

precisao: 0.9653 
 matriz de confusão: 
[[ 968    0    0    0    0    3    5    1    3    0]
 [   0 1123    4    3    0    1    2    1    1    0]
 [   6    0  997    4    3    1    4   10    7    0]
 [   1    1   11  963    0    9    1   12    9    3]
 [   1    0    1    0  952    0    5    2    4   17]
 [   4    0    1   15    2  852    6    1    8    3]
 [   8    3    0    0    6    3  933    0    5    0]
 [   1    5   22    2    1    0    0  984    3   10]
 [   5    0    6    5    4   10    6    2  925   11]
 [   8    7    1   12   13    3    1    2    6  956]]


## 3.2 REGRESSÃO
Para a implementação do algoritmo foi utilizada a biblioteca Sklearn, veja a [Documentação](https://scikit-learn.org/stable/modules/classes.html#)

### **3.2.1 Base de dados**
A base de dados que será utilizada será a Boston housing price que já pode ser encontrada na base de dados do keras.

In [4]:
from keras.datasets import boston_housing

(x_train, y_train),(x_test, y_test) = boston_housing.load_data()

Downloading data from https://s3.amazonaws.com/keras-datasets/boston_housing.npz


### **3.2.2 Árvore de decisão**

In [5]:
#-------------------------------Biblioteca------------------------------------#
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error

#---------------------------Criando o regressor-------------------------------#
regressor = DecisionTreeRegressor()
regressor.fit(x_train, y_train)

#----Ver a correlação do modelo com relação a base de dados de Treinamento----#
score = regressor.score(x_train, y_train)
print('A correlação do modelo com a base de dados de treinamento é de: {}'.format(score))

#-------Ver a correlação do modelo com relação a base de dados de teste-------#
score = regressor.score(x_test, y_test)
print('A correlação do modelo com a base de dados de teste é de: {}'.format(score))

#------------------------------Prevendo um valor------------------------------#
previsoes = regressor.predict(x_test)

#------------------Diferança entre valores reais e previstos------------------#
erro_absoluto = mean_absolute_error(y_test, previsoes)
erro_quadratico = mean_squared_error(y_test, previsoes)
print('Erro absoluto: {}'.format(erro_absoluto))
print('Erro quadratico: {}'.format(erro_quadratico))

A correlação do modelo com a base de dados de treinamento é de: 1.0
A correlação do modelo com a base de dados de teste é de: 0.7087967125021217
Erro absoluto: 3.4049019607843136
Erro quadratico: 24.240882352941178


### **3.2.3 Random forest**

In [6]:
#-------------------------------Biblioteca------------------------------------#
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error

#------------------------------Criando o regressor----------------------------#
regressor = RandomForestRegressor(n_estimators=10)
regressor.fit(x_train, y_train)

#----Ver a correlação do modelo com relação a base de dados de Treinamento----#
score = regressor.score(x_train, y_train)
print('A correlação do modelo com a base de dados de treinamento é de: {}'.format(score))

#-------Ver a correlação do modelo com relação a base de dados de teste-------#
score = regressor.score(x_test, y_test)
print('A correlação do modelo com a base de dados de teste é de: {}'.format(score))

#------------------------------Prevendo um valor------------------------------#
previsoes = regressor.predict(x_test)

#------------------Diferança entre valores reais e previstos------------------#
erro_absoluto = mean_absolute_error(y_test, previsoes)
erro_quadratico = mean_squared_error(y_test, previsoes)
print('Erro absoluto: {}'.format(erro_absoluto))
print('Erro quadratico: {}'.format(erro_quadratico))


A correlação do modelo com a base de dados de treinamento é de: 0.9757642453079799
A correlação do modelo com a base de dados de teste é de: 0.7965798108464799
Erro absoluto: 2.567156862745098
Erro quadratico: 16.933479411764704
