# üéì Floresta Aleat√≥ria Classifica√ß√£o (Random Forest Classifier)




## O problema de classifica√ß√£o
Suponha que estejamos perdidos em uma floresta e com muita fome. Incapazes de continuar sem comer algo primeiro, damos uma olhada, apenas para encontrar nada imediatamente comest√≠vel - apenas cogumelos.

<center>
<a title="By OliBac from FRANCE [CC BY 2.0 (http://creativecommons.org/licenses/by/2.0)], via Wikimedia Commons" href="https://commons.wikimedia.org/wiki/File%3AChampignons_mushrooms_(950475736).jpg"><img width="400" alt="Champignons mushrooms (950475736)" src="https://upload.wikimedia.org/wikipedia/commons/thumb/6/66/Champignons_mushrooms_%28950475736%29.jpg/512px-Champignons_mushrooms_%28950475736%29.jpg"/></a>

*Muitos tipos diferentes de cogumelos. Eles s√£o seguros para comer?*
</center>

Estamos morrendo de fome, ent√£o qualquer coisa parece √≥timo para n√≥s, mas comer um desses descuidadamente pode resultar em envenenamento. Para saber se podemos ou n√£o comer um cogumelo, precisamos **classific√°-lo com base em nosso conhecimento de suas caracter√≠sticas**, ou seja, temos um problema de classifica√ß√£o em nossas m√£os.

Esse tipo de problema n√£o √© simples de resolver de forma eficaz - h√° muitas vari√°veis ‚Äã‚Äãenvolvidas na classifica√ß√£o correta de algo. Existem muitos tipos diferentes de modelos matem√°ticos que foram criados para nos ajudar nas tarefas de classifica√ß√£o. Um desses modelos √© o **modelo de √°rvore de decis√£o**.

A √Årvore de Decis√£o √© um modelo preditivo baseado na an√°lise de um conjunto de pontos de dados que descrevem o tipo de objeto que desejamos classificar. Em nosso exemplo, pode ser um conjunto de observa√ß√µes do tipo de capa de um cogumelo, sua cor, odor, forma de seu caule, etc. Essas descri√ß√µes de nosso objeto s√£o chamadas de **caracter√≠sticas** e s√£o muito importantes em muitos tipos diferentes de algoritmos de aprendizado de m√°quina, incluindo √°rvores de decis√£o. A classifica√ß√£o que queremos desses recursos √© posta de lado como uma esp√©cie de "resultado".


In [1]:
# Depend√™ncias
from sklearn.tree import DecisionTreeClassifier
from sklearn import tree
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV
import pandas as pd

1) Importe os dados sem o cabe√ßalho

In [2]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/mushroom/agaricus-lepiota.data'
df = pd.read_csv(url,header=None)
df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,13,14,15,16,17,18,19,20,21,22
0,p,x,s,n,t,p,f,c,n,k,...,s,w,w,p,w,o,p,k,s,u
1,e,x,s,y,t,a,f,c,b,k,...,s,w,w,p,w,o,p,n,n,g
2,e,b,s,w,t,l,f,c,b,n,...,s,w,w,p,w,o,p,n,n,m
3,p,x,y,w,t,p,f,c,n,n,...,s,w,w,p,w,o,p,k,s,u
4,e,x,s,g,f,n,f,w,b,k,...,s,w,w,p,w,o,e,n,a,g
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8119,e,k,s,n,f,n,a,c,b,y,...,s,o,o,p,o,o,p,b,c,l
8120,e,x,s,n,f,n,a,c,b,y,...,s,o,o,p,n,o,p,b,v,l
8121,e,f,s,n,f,n,a,c,b,n,...,s,o,o,p,o,o,p,b,c,l
8122,p,k,y,n,f,y,f,c,n,b,...,k,w,w,p,w,o,e,w,v,l


2) Use a seguinte lista para nomear as colunas do DataFrame

In [3]:
nomes = ["Class","cap.shape","cap.surface","cap.color","bruises","odor","gill.attachment","gill.spacing",
                         "gill.size","gill.color","stalk.shape","stalk.root","stalk.surface.above.ring",
                         "stalk.surface.below.ring","stalk.color.above.ring","stalk.color.below.ring","veil.type","veil.color",
                         "ring.number","ring.type","print","population","habitat"]

In [4]:
df.columns = nomes
df

Unnamed: 0,Class,cap.shape,cap.surface,cap.color,bruises,odor,gill.attachment,gill.spacing,gill.size,gill.color,...,stalk.surface.below.ring,stalk.color.above.ring,stalk.color.below.ring,veil.type,veil.color,ring.number,ring.type,print,population,habitat
0,p,x,s,n,t,p,f,c,n,k,...,s,w,w,p,w,o,p,k,s,u
1,e,x,s,y,t,a,f,c,b,k,...,s,w,w,p,w,o,p,n,n,g
2,e,b,s,w,t,l,f,c,b,n,...,s,w,w,p,w,o,p,n,n,m
3,p,x,y,w,t,p,f,c,n,n,...,s,w,w,p,w,o,p,k,s,u
4,e,x,s,g,f,n,f,w,b,k,...,s,w,w,p,w,o,e,n,a,g
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8119,e,k,s,n,f,n,a,c,b,y,...,s,o,o,p,o,o,p,b,c,l
8120,e,x,s,n,f,n,a,c,b,y,...,s,o,o,p,n,o,p,b,v,l
8121,e,f,s,n,f,n,a,c,b,n,...,s,o,o,p,o,o,p,b,c,l
8122,p,k,y,n,f,y,f,c,n,b,...,k,w,w,p,w,o,e,w,v,l


3) Transforme todos os elementos em dados categ√≥ricos usando o m√©todo `factorize`. Devido ao alto n√∫mero de colunas use um comando de repeti√ß√£o para isso.

In [5]:
df = df[nomes].apply(lambda w: pd.factorize(w)[0])
df

Unnamed: 0,Class,cap.shape,cap.surface,cap.color,bruises,odor,gill.attachment,gill.spacing,gill.size,gill.color,...,stalk.surface.below.ring,stalk.color.above.ring,stalk.color.below.ring,veil.type,veil.color,ring.number,ring.type,print,population,habitat
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,1,0,0,1,0,1,0,0,1,0,...,0,0,0,0,0,0,0,1,1,1
2,1,1,0,2,0,2,0,0,1,1,...,0,0,0,0,0,0,0,1,1,2
3,0,0,1,2,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,0
4,1,0,0,3,1,3,0,1,1,0,...,0,0,0,0,0,0,1,1,2,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8119,1,4,0,0,1,3,1,0,1,10,...,0,6,7,0,2,0,0,8,5,6
8120,1,0,0,0,1,3,1,0,1,10,...,0,6,7,0,1,0,0,8,3,6
8121,1,3,0,0,1,3,1,0,1,1,...,0,6,7,0,2,0,0,8,5,6
8122,0,4,1,0,1,6,0,0,0,8,...,3,0,0,0,0,0,1,4,3,6


4) Crie um DataFrame `X` com todas as features. Lembrando que o target √© o atributo Class.

In [6]:
X = df.drop('Class', axis=1)

5) Segmente o Dataframe para a representa√ß√£o do Target (Class)

In [7]:
y = df['Class']

6) Crie o modelo de √°rvore de decis√£o com o crit√©rio de entropia

In [8]:
decisiontree = DecisionTreeClassifier(criterion = 'entropy')

7) Treine o modelo para a totalidade dos dados

In [9]:
model = decisiontree.fit(X,y)

8) Imprima o nome da feature e sua respectiva import√¢ncia em ordem decrescente de import√¢ncia.

In [10]:
feature_importance = dict(zip(X.columns, model.feature_importances_))
{k: v for k, v in sorted(feature_importance.items(), key=lambda item: item[1], reverse=True)}

{'odor': 0.9024925489936285,
 'print': 0.05074753558782141,
 'gill.size': 0.022727133128301692,
 'stalk.root': 0.01586818642190838,
 'population': 0.008164595868340122,
 'cap.shape': 0.0,
 'cap.surface': 0.0,
 'cap.color': 0.0,
 'bruises': 0.0,
 'gill.attachment': 0.0,
 'gill.spacing': 0.0,
 'gill.color': 0.0,
 'stalk.shape': 0.0,
 'stalk.surface.above.ring': 0.0,
 'stalk.surface.below.ring': 0.0,
 'stalk.color.above.ring': 0.0,
 'stalk.color.below.ring': 0.0,
 'veil.type': 0.0,
 'veil.color': 0.0,
 'ring.number': 0.0,
 'ring.type': 0.0,
 'habitat': 0.0}

9) Use a fun√ß√£o `train_test_split` para separar parte dos dados para treinamento e outra para valida√ß√£o. Use 70% para treino e 30% dos dados para teste.

In [11]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30)
decisiontree = DecisionTreeClassifier(criterion = 'entropy')
model = decisiontree.fit(X_train, y_train)

In [12]:
feature_importance = dict(zip(X.columns, model.feature_importances_))
{k: v for k, v in sorted(feature_importance.items(), key=lambda item: item[1], reverse=True)}

{'odor': 0.9032794764326232,
 'print': 0.05033872629354335,
 'gill.size': 0.02150835126086289,
 'stalk.root': 0.015722166177676876,
 'population': 0.009151279835293787,
 'cap.shape': 0.0,
 'cap.surface': 0.0,
 'cap.color': 0.0,
 'bruises': 0.0,
 'gill.attachment': 0.0,
 'gill.spacing': 0.0,
 'gill.color': 0.0,
 'stalk.shape': 0.0,
 'stalk.surface.above.ring': 0.0,
 'stalk.surface.below.ring': 0.0,
 'stalk.color.above.ring': 0.0,
 'stalk.color.below.ring': 0.0,
 'veil.type': 0.0,
 'veil.color': 0.0,
 'ring.number': 0.0,
 'ring.type': 0.0,
 'habitat': 0.0}

10) Crie o classificador e calcule o percentual de acertos do modelo.

In [13]:
print ("A acur√°cia foi de {:.0f}%".format(accuracy_score(y_test, model.predict(X_test))*100))

A acur√°cia foi de 100%


**Leia com aten√ß√£o o seguinte material sobre Random Forests e fa√ßa a seguir o que se pede.**

---

### Random Forests 

As √Årvores de Decis√£o s√£o muito interessantes porque pode-se seguir a estrutura criada para entender como a classe foi inferida. No entanto, esse tipo de modelo tem seus pr√≥prios problemas. Um dos principais problemas √© o que chamamos de **overfitting**. O overfitting acontece quando o processo de cria√ß√£o da √°rvore torna a √°rvore extremamente ramificada e complexa - isso significa que o modelo n√£o generalizar√° corretamente.

Isso pode significar que os pontos de dados s√£o muito variados ou talvez haja muitos recursos a serem analisados ao mesmo tempo. No entanto, se reduzirmos o n√∫mero de pontos de dados ou recursos, isso pode piorar nosso modelo. Portanto, precisar√≠amos de outro tipo de solu√ß√£o para este problema.

Isso pode significar que os pontos de dados s√£o muito variados ou talvez haja muitos recursos a serem analisados ao mesmo tempo. No entanto, se reduzirmos o n√∫mero de pontos de dados ou recursos, isso pode piorar nosso modelo. Portanto, precisar√≠amos de outro tipo de solu√ß√£o para este problema.

### O que s√£o random forests

* Random forests s√£o uma das solu√ß√µes propostas. Como se pode inferir de seu nome, as Random Forests s√£o compostas por v√°rias √Årvores de Decis√£o. Isso os torna parte de uma fam√≠lia de modelos - que s√£o compostos por outros modelos trabalhando em conjunto - chamados de **modelos de aprendizagem por conjunto**. 
* O principal conceito por tr√°s do Random Forests √© que, se voc√™ particionar os dados que seriam usados para criar uma √∫nica √°rvore de decis√£o em diferentes partes, crie uma √°rvore para cada uma dessas parti√ß√µes e, em seguida, use um m√©todo para "calcular a m√©dia" dos resultados de todos dessas √°rvores diferentes, voc√™ deve acabar com um modelo melhor. 
* No caso das √°rvores utilizadas para classifica√ß√£o, essa "m√©dia" √© a **moda** do conjunto de √°rvores da floresta. Para regress√£o, a "m√©dia" √© a **m√©dia** do conjunto de √°rvores na floresta.


O principal mecanismo por tr√°s do Random Forests √© o **bagging**, que √© uma forma abreviada de **agrega√ß√£o por bootstrap**. Bagging √© o conceito de amostragem aleat√≥ria de alguns dados de um conjunto de dados, mas **com substitui√ß√£o**. O que isso significa na pr√°tica √© que h√° alguma quantidade de dados que ser√£o repetidos em cada parti√ß√£o, e alguma quantidade de dados que n√£o ser√£o representados nas amostras - cerca de 63% dos exemplos √∫nicos s√£o mantidos - isso torna de modo que o modelo gerado para aquela bolsa seja capaz de generalizar melhor em algum grau. Cada parti√ß√£o de dados de nossos dados de treinamento para a Random Forest aplica este conceito.

<center>
<img src="https://ibm.box.com/shared/static/5m7lep2u6fzt6ors1b0kpgv0jtzh3z7z.png" width="480">

*Exemplo de ensacamento. Observe como alguns pontos de dados s√£o repetidos - isso √© intencional!*
</center>

Voc√™ pode estar se perguntando o que acontece com os dados que n√£o est√£o presentes nas "bolsas". Esses dados, apropriadamente chamados de *Out-Of-Bag Data*, servem como uma esp√©cie de **dados de teste para o modelo gerado** - que serve como valida√ß√£o de que nosso modelo funciona!

Al√©m disso, Random Forests tamb√©m s√£o criadas usando **feature bagging**, o que faz com que n√£o haja problemas de overfitting devido a uma grande quantidade de recursos para uma pequena quantidade de dados. Por exemplo, se alguns recursos s√£o preditores muito fortes, eles estar√£o presentes em uma grande quantidade de "bolsas" e essas bolsas se tornar√£o correlacionadas. No entanto, isso tamb√©m faz com que a pr√≥pria Random Forest n√£o se concentre apenas no que prediz fortemente os dados que foram alimentados, tornando o modelo mais generalizado. Tradicionalmente, um conjunto de dados com um n√∫mero $f$ de recursos ter√° $\left\lceil{\sqrt[2]{f}}\ \right\rceil$ recursos em cada parti√ß√£o.

<center>
<img src="https://ibm.box.com/shared/static/a4b0d3eg7vtuh8wipj9eo4bat9szow67.png" width="720">

*Exemplo de uma Random forest. N√£o se esque√ßa de que os sacos podem ter pontos de dados repetidos!*
</center>

---

11) Fa√ßa a mesma coisa da quest√£o anterior usando uma Random Forest com 20 bags (`n_estimators`)

Busque no sklearn a fun√ß√£o `RandomForestClassifier` e fa√ßa o que se solicitou.

In [14]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30)

randomforest = RandomForestClassifier(n_estimators=20)
model = randomforest.fit(X_train, y_train)
print ("A acur√°cia foi de {:.0f}%".format(accuracy_score(y_test, model.predict(X_test))*100))

A acur√°cia foi de 100%


In [15]:
feature_importance = dict(zip(X.columns, model.feature_importances_))
{k: v for k, v in sorted(feature_importance.items(), key=lambda item: item[1], reverse=True)}

{'odor': 0.27032067938877413,
 'print': 0.20290200511825662,
 'stalk.surface.above.ring': 0.09771267590078787,
 'gill.size': 0.07775048959457635,
 'gill.color': 0.05840722730675378,
 'stalk.root': 0.039793581605460045,
 'bruises': 0.03967860588377649,
 'ring.type': 0.03482246992821801,
 'population': 0.02853252639141119,
 'stalk.color.below.ring': 0.022707051662920117,
 'stalk.surface.below.ring': 0.022359466226102388,
 'stalk.shape': 0.02034749662706924,
 'ring.number': 0.016979086361544292,
 'gill.spacing': 0.01582049671312344,
 'habitat': 0.014315842403367435,
 'cap.surface': 0.013826442769667869,
 'cap.color': 0.012169312945374187,
 'veil.color': 0.006596709924196165,
 'cap.shape': 0.002004843612018445,
 'stalk.color.above.ring': 0.0018298936529535345,
 'gill.attachment': 0.0011230959836484172,
 'veil.type': 0.0}