# Sumário

- [1. Árvore de Decisão](#1.-Árvore-de-Decisão)


- [2. Random Forest](#2.-Random-Forest)


- [3. Implementações](#3.-Implementações)
  - [3.1 Classificação](#3.1-Classificação)
    - [3.1.1 Base de Dados](#3.1.1-Base-de-Dados)
    - [3.1.2 Árvore de Decisão](#3.1.2-Árvore-de-Decisão)
    - [3.1.3 Random Forest](#3.1.3-Random-Forest)
  - [3.2 Regressão](#3.2-Regressão)
    - [3.2.1 Base de Dados](#3.2.1-Base-de-Dados)
    - [3.2.2 Árvore de Decisão](#3.2.2-Árvore-de-Decisão)
    - [3.2.3 Random Forest](#3.2.3-Random-Forest)

# 1. Árvore de Decisão

Uma árvore de decisão constroi caminhos para à tomada de dicisões. Ela define qual atributo possue maior relevância e o define como sendo a raiz da árvore. Partindo desse ponto ela obtém galhos, os quais também se ramificam de acordo com os proximos graus de importância. Após construida uma árvore de decisão é um algoritmo condicional, que se inicia na raiz e dele vai tomando decisões com base em condições.

Uma árvore de decisão também pode ser utilizada para classificação de problemas linearmente e não linearmente separáveis. Ela também pode ter saídas múltiplas.

![](https://raw.githubusercontent.com/LucasFDutra/Estudos/master/Machine%20Learning/%20Arvore%20de%20Decis%C3%A3o%20e%20Random%20Forest/Imagens/Figura_1.gif)
![](https://raw.githubusercontent.com/LucasFDutra/Estudos/master/Machine%20Learning/%20Arvore%20de%20Decis%C3%A3o%20e%20Random%20Forest/Imagens/Figura_2.gif)

---
- Links para aprender mais:
    - [Intro to Decision Trees - Cognitive Class](https://youtu.be/z3yGRBz8jiI)
    - [Building Decision Trees - Cognitive Class](https://youtu.be/Q-fOOMGSxlo)
    - [Árvores de Decisão - Gfgioinfo](http://web.tecnico.ulisboa.pt/ana.freitas/bioinformatics.ath.cx/bioinformatics.ath.cx/indexf23d.html?id).
    - [Random Forests - The Math of Intelligence - Siraj Raval](https://www.youtube.com/watch?v=QHOazyP-YlM). Veja o inicio do video para árvore de decisão e o restante para random forest 
---

# 2. Random Forest

O algoritmo de random forest é uma melhoria do algoritmo de árvores de decisão. Nesse algoritmo temos que as decisões não são feitas apenas por uma árvore, mas sim por várias que trabalham em conjunto para definir os melhores caminhos.

Para obter a resposta final normalmente utiliza-se a média entre as decisões ou os votos da maioria. A média é usada para regressão e os votos da maioria para classificação.

Pode-se escolher a quantidade de árvores a serem utilizadas, mas nem sempre mais é melhor, além de aumentar o gosto computacional o algoritmo pode se viciar nos dados de treinamento e não acertar nada quando for utilizado.

Também é possível definir quantos atributos cada uma das árvores vai utilizar, e ela escolhe quais utilizar de forma aleatória (por isso o nome de floresta randômica). 

- **Exemplo**: Se tivermos na base de dados os atributos A, B, C, D, E, F e G. E escolhermos 3 árvores sendo que cada uma vai analisar 4 atributos. Assim teriamos por exemplo:
    - Árvore 1: A, C, D, G.
    - Árvore 2: A, B, E, F.
    - Árvore 3: C, D, E, G.

![](https://raw.githubusercontent.com/LucasFDutra/Estudos/master/Machine%20Learning/%20Arvore%20de%20Decis%C3%A3o%20e%20Random%20Forest/Imagens/Figura_3.png)

---
- Link para aprender mais:
    - [Wikipedia](https://en.wikipedia.org/wiki/Random_forest).
---    

> Ambos algoritmos podem ser utilizados para classificação e regressão

# 3. Implementações

## 3.1 Classificação

Para a implementação do algoritmo foi utilizada a biblioteca Sklearn, veja a [Documentação](https://scikit-learn.org/stable/modules/classes.html#)

### 3.1.1 Base de Dados
A base de dados que será utilizada será a MNIST que já pode ser encontrada na base de dados do keras.
Porém para trabalhar com o algoritmo em questão ela deve modificada em sua dimensão.

In [None]:
from keras.datasets import mnist

# Importando base de dados
(x_train, y_train),(x_test, y_test) = mnist.load_data()

# Normalizando os valores
x_train, x_test = x_train/255, x_test/255

# Ajustando formato
x_train = x_train.reshape(x_train.shape[0], x_train.shape[1]*x_train.shape[2])
x_test = x_test.reshape(x_test.shape[0], x_test.shape[1]*x_test.shape[2])

### 3.1.2 Árvore de Decisão

In [1]:
#-------------------------------Bibliotecas-----------------------------------#
from sklearn.tree import DecisionTreeClassifier

#----------------Crinado um objeto que construirá a árvore--------------------#
classificador = DecisionTreeClassifier(criterion='entropy', random_state=0)

#-------------Criando a árvore com base nos dados de treinamento--------------#
classificador.fit(x_train, y_train)

#-------Passando os dados de teste pala árvore e armazenando as previsões-----#
previsoes = classificador.predict(x_test)

#----------------Exibindo a precisão e a matriz de confusão-------------------#
precisao = accuracy_score(y_test, previsoes)
matriz = confusion_matrix(y_test, previsoes)
print('precisao: {}'.format(precisao),'\n','matriz de confusão: \n{}' .format(matriz))

NameError: name 'x_train' is not defined

### 3.1.3 Random Forest

In [None]:
#-------------------------------Bibliotecas-----------------------------------#
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import confusion_matrix, accuracy_score

#------Criando a floresta com 40 árvores baseando no criterio de entropia-----#
classificador = RandomForestClassifier(n_estimators = 40, criterion = 'entropy', random_state = 0)
classificador.fit(x_train, y_train)

#------Passando os dados de teste palas árvores e armazenando as previsões----#
previsoes = classificador.predict(x_test)

#----------------Exibindo a precisão e a matriz de confusão-------------------#
precisao = accuracy_score(y_test, previsoes)
matriz = confusion_matrix(y_test, previsoes)
print('precisao: {}'.format(precisao),'\n','matriz de confusão: \n{}' .format(matriz))

## 3.2 Regressão
Para a implementação do algoritmo foi utilizada a biblioteca Sklearn, veja a [Documentação](https://scikit-learn.org/stable/modules/classes.html#)

### 3.2.1 Base de Dados
A base de dados que será utilizada será a Boston housing price que já pode ser encontrada na base de dados do keras.
Porém para trabalhar com o algoritmo em questão ela deve modificada em sua dimensão.

In [2]:
from keras.datasets import boston_housing

(x_train, y_train),(x_test, y_test) = boston_housing.load_data()

Using TensorFlow backend.


### 3.2.2 Árvore de Decisão

In [None]:
#-------------------------------Biblioteca------------------------------------#
from sklearn.tree import DecisionTreeRegressor

#---------------------------Criando o regressor-------------------------------#
regressor = DecisionTreeRegressor()
regressor.fit(x_train, y_train)

#----Ver a correlação do modelo com relação a base de dados de Treinamento----#
score = regressor.score(x_train, y_train)
print('A correlação do modelo com a base de dados de treinamento é de: {}'.format(score))

#-------Ver a correlação do modelo com relação a base de dados de teste-------#
score = regressor.score(x_test, y_test)
print('A correlação do modelo com a base de dados de teste é de: {}'.format(score))

#------------------------------Prevendo um valor------------------------------#
previsoes = regressor.predict(x_test)

#------------------Diferança entre valores reais e previstos------------------#
erro_absoluto = mean_absolute_error(y_test, previsoes)
erro_quadratico = mean_squared_error(y_test, previsoes)
print('Erro absoluto: {}'.format(erro_absoluto))
print('Erro quadratico: {}'.format(erro_quadratico))

### 3.2.3 Random Forest

In [None]:
#-------------------------------Biblioteca------------------------------------#
from sklearn.ensemble import RandomForestRegressor

#------------------------------Criando o regressor----------------------------#
regressor = RandomForestRegressor(n_estimators=10)
regressor.fit(x_train, y_train)

#----Ver a correlação do modelo com relação a base de dados de Treinamento----#
score = regressor.score(x_train, y_train)
print('A correlação do modelo com a base de dados de treinamento é de: {}'.format(score))

#-------Ver a correlação do modelo com relação a base de dados de teste-------#
score = regressor.score(x_test, y_test)
print('A correlação do modelo com a base de dados de teste é de: {}'.format(score))

#------------------------------Prevendo um valor------------------------------#
previsoes = regressor.predict(x_test)

#------------------Diferança entre valores reais e previstos------------------#
from sklearn.metrics import mean_absolute_error, mean_squared_error
erro_absoluto = mean_absolute_error(y_test, previsoes)
erro_quadratico = mean_squared_error(y_test, previsoes)
print('Erro absoluto: {}'.format(erro_absoluto))
print('Erro quadratico: {}'.format(erro_quadratico))
