# <font color='blue'>Data Science Academy - Machine Learning</font>

# <font color='blue'>Capítulo 9 - Random Forest</font>

## Criando uma Decision Tree

In [1]:
import numpy as np
import pandas as pd
import sklearn as sk
from matplotlib import pyplot as plt
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score
import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)

In [None]:
# Carrega o dataset
irisData = pd.read_csv("dados/iris_data.csv")

In [None]:
# Visualiza as primeiras linhas
print(irisData.head())

In [None]:
# Resumo estatístico
print(irisData.describe())

In [None]:
# Correlação
print(irisData.corr())

In [None]:
# Atributos e Variável target
features = irisData[["SepalLength","SepalWidth","PetalLength","PetalWidth"]]
targetVariables = irisData.Class

In [None]:
# Gera os dados de treino
featureTrain, featureTest, targetTrain, targetTest = train_test_split(features, 
                                                                      targetVariables, 
                                                                      test_size = .2)

In [None]:
?train_test_split

In [None]:
# Criação do modelo
clf = DecisionTreeClassifier()

In [None]:
print(clf)

In [None]:
modelo = clf.fit(featureTrain, targetTrain)
previsoes = modelo.predict(featureTest)

In [None]:
print (confusion_matrix(targetTest, previsoes))

In [None]:
# Obs: Dependendo da versão do Scikit-Learn, a acurácia pode ser diferente
print (accuracy_score(targetTest, previsoes))

## Random Forest Classifier - I

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_digits
from sklearn.preprocessing import scale
%matplotlib inline

In [None]:
# Gera o dataset
digitos = load_digits()

In [None]:
# Aplica Escala nos dados
data = scale(digitos.data)

In [None]:
data

In [None]:
data.shape

In [None]:
# Obtém número de observações e número de atributos
n_observ, n_features = data.shape

In [None]:
n_observ

In [None]:
n_features

In [None]:
# Obtém os labels
n_digits = len(np.unique(digitos.target))
labels = digitos.target

In [None]:
labels

In [None]:
# Cria o classificador
# http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html
clf = RandomForestClassifier(n_estimators  = 10)

Os 4 principais parâmetros em Modelos de Random Forest são:

n_estimators - quanto maior, melhor!

max depth - o padrão é 'none' e nesse caso árvores completas são criadas. Ajustando esse parâmetro pode ajudar a evitar overfitting.

max_features - diferentes valores devem ser testados, pois este parâmetro impacta na forma como os modelos RF distribuem os atributos pelas árvores.

criterion - define a forma como o algoritmo fará a divisão dos atributos e a classificação dos nós em cada árvore.

In [None]:
# Construção do modelo
clf = clf.fit(data, labels)

In [None]:
clf

In [None]:
# Estamos apenas "simulando" os dados de teste
scores = clf.score(data,labels)

In [None]:
print(scores)

In [None]:
# Extraindo a importância
importances = clf.feature_importances_
indices = np.argsort(importances)

In [None]:
# Obtém os índices
ind=[]
for i in indices:
    ind.append(labels[i])

In [None]:
# Plot da Importância dos Atributos
plt.figure(1)
plt.title('Importância dos Atributos')
plt.barh(range(len(indices)), importances[indices], color = 'b', align = 'center')
plt.yticks(range(len(indices)),ind)
plt.xlabel('Importância Relativa')
plt.show()

## Random Forest Classifier - II

In [None]:
!pip install treeinterpreter

In [None]:
import numpy as np
from sklearn.ensemble import RandomForestClassifier
from treeinterpreter import treeinterpreter as ti
from sklearn.datasets import load_iris

In [None]:
# Carrega o dataset
iris = load_iris()

In [None]:
# Cria o classificador
rf = RandomForestClassifier(max_depth = 4)

In [None]:
# Obtém os índices a partir do comprimento da variável target
idx = list(range(len(iris.target)))

In [None]:
# Randomiza o ínidce
np.random.shuffle(idx)

In [None]:
# Cria o modelo
rf.fit(iris.data[idx][:100], iris.target[idx][:100])

In [None]:
?rf.predict_proba

In [None]:
# Obtém as instâncias (exemplos ou observações) e retorna as probabilidades
# Obs: Como estamos trabalhando com randomização os resultados na sua máquina podem ser ligeiramente diferentes!
instance = iris.data[idx][100:101]
print(rf.predict_proba(instance))

In [None]:
prediction, bias, contributions = ti.predict(rf, instance)
print ("Previsões", prediction)
print ("Contribuição dos Atributos:")
for item, feature in zip(contributions[0], iris.feature_names):
    print (feature, item)

## Random Forest Regressor

### Random Forest Classifier - composto por árvores de decisão de classificação
### Random Forest Regressor - composto por árvores de decisão de regressão

http://www.boardgamegeek.com/

Nosso dataset possui registros de 81.312 Games Boards como esse: http://www.boardgamegeek.com/boardgame/167791/terraforming-mars

### Colunas no dataset:

https://github.com/ThaWeatherman/scrapers/tree/master/boardgamegeek

name – name of the board game.

playingtime – the playing time (given by the manufacturer).

minplaytime – the minimum playing time (given by the manufacturer).

maxplaytime – the maximum playing time (given by the manufacturer).

minage – the minimum recommended age to play.

users_rated – the number of users who rated the game.

average_rating – the average rating given to the game by users. (0-10)

total_weights – Number of weights given by users.  Weight is a subjective measure that is made up by BoardGameGeek. 

It’s how “deep” or involved a game is. Here’s a full explanation.

average_weight – the average of all the subjective weights (0-5).

In [None]:
# Import 
import pandas
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
%matplotlib inline

In [None]:
# Carregando o dataset
games = pandas.read_csv("dados/games_data.csv")

In [None]:
# Imprimindo o nome das colunas
print(games.columns)

In [None]:
print(games.shape)

In [None]:
# Histograma com a média de avaliações
plt.hist(games["average_rating"])
plt.show()

In [None]:
# Visualizando as observações com rating igual a 0
games[games["average_rating"] == 0]

In [None]:
# Retornando a primeira linha do subset do dataframe, onde o índice é igual a 0.
print(games[games["average_rating"] == 0].iloc[0])

In [None]:
# Retornando a primeira linha do subset do dataframe, onde o índice é maior que 0.
print(games[games["average_rating"] > 0].iloc[0])

In [None]:
# Removendo as linhas sem avaliação de usuários.
games = games[games["users_rated"] > 0]

In [None]:
# Removendo linhas com valores missing
games = games.dropna(axis = 0)

In [None]:
# Histograma com a média de avaliações
plt.hist(games["average_rating"])
plt.show()

In [None]:
# Correlação
games.corr()["average_rating"]

In [None]:
# Obtém todas as colunas do dataframe
colunas = games.columns.tolist()

In [None]:
# Filtra as colunas e remove as que não são relevantes
colunas = [c for c in colunas if c not in ["bayes_average_rating", "average_rating", "type", "name"]]

In [None]:
# Preparando a variável target, a que será prevista
target = "average_rating"

In [None]:
# Gerando os dados de treino
df_treino = games.sample(frac = 0.8, random_state = 101)

In [None]:
# Seleciona tudo que não está no dataset de treino e armazena no dataset de teste
df_teste = games.loc[~games.index.isin(df_treino.index)]

In [None]:
# Shape dos datasets
print(df_treino.shape)
print(df_teste.shape)

In [None]:
# Criando um Regressor
reg_v1 = LinearRegression()

In [None]:
# Fit the model to the training data.
modelo_v1 = reg_v1.fit(df_treino[colunas], df_treino[target])

In [None]:
modelo_v1

In [None]:
# Fazendo previsões
previsoes = modelo_v1.predict(df_teste[colunas])

In [None]:
# Computando os erros entre valores observados e valores previstos
mean_squared_error(previsoes, df_teste[target])

In [None]:
# Criando um regressor Random Forest
reg_v2 = RandomForestRegressor(n_estimators = 100, min_samples_leaf = 10, random_state = 101)

In [None]:
# Criando o modelo
modelo_v2 = reg_v2.fit(df_treino[colunas], df_treino[target])

In [None]:
# Fazendo previsões
previsoes = modelo_v2.predict(df_teste[colunas])

In [None]:
# Computando o erro
mean_squared_error(previsoes, df_teste[target])

### Fim

### Obrigado - Data Science Academy - <a href="http://facebook.com/dsacademybr">facebook.com/dsacademybr</a>