Pontifícia Universidade Católica de São Paulo 

`Ciência de Dados e Inteligência Artificial`

🎓 Laboratório 5 - Árvore de decisão (Parte 2)

---
> 👨‍🏫*Professor Rooney Coelho (rracoelho@pucsp.br)*
---




## O problema de classificação
Suponha que estejamos perdidos em uma floresta e com muita fome. Incapazes de continuar sem comer algo primeiro, damos uma olhada, apenas para encontrar nada imediatamente comestível - apenas cogumelos.

<center>
<a title="By OliBac from FRANCE [CC BY 2.0 (http://creativecommons.org/licenses/by/2.0)], via Wikimedia Commons" href="https://commons.wikimedia.org/wiki/File%3AChampignons_mushrooms_(950475736).jpg"><img width="400" alt="Champignons mushrooms (950475736)" src="https://upload.wikimedia.org/wikipedia/commons/thumb/6/66/Champignons_mushrooms_%28950475736%29.jpg/512px-Champignons_mushrooms_%28950475736%29.jpg"/></a>

*Muitos tipos diferentes de cogumelos. Eles são seguros para comer?*
</center>

Estamos morrendo de fome, então qualquer coisa parece ótimo para nós, mas comer um desses descuidadamente pode resultar em envenenamento. Para saber se podemos ou não comer um cogumelo, precisamos **classificá-lo com base em nosso conhecimento de suas características**, ou seja, temos um problema de classificação em nossas mãos.

Esse tipo de problema não é simples de resolver de forma eficaz - há muitas variáveis ​​envolvidas na classificação correta de algo. Existem muitos tipos diferentes de modelos matemáticos que foram criados para nos ajudar nas tarefas de classificação. Um desses modelos é o **modelo de árvore de decisão**.

A Árvore de Decisão é um modelo preditivo baseado na análise de um conjunto de pontos de dados que descrevem o tipo de objeto que desejamos classificar. Em nosso exemplo, pode ser um conjunto de observações do tipo de capa de um cogumelo, sua cor, odor, forma de seu caule, etc. Essas descrições de nosso objeto são chamadas de **características** e são muito importantes em muitos tipos diferentes de algoritmos de aprendizado de máquina, incluindo árvores de decisão. A classificação que queremos desses recursos é posta de lado como uma espécie de "resultado".


In [None]:
# Dependências


1) Importe os dados sem o cabeçalho

In [None]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/mushroom/agaricus-lepiota.data'

2) Use a seguinte lista para nomear as colunas do DataFrame

In [None]:
nomes = ["Class","cap.shape","cap.surface","cap.color","bruises","odor","gill.attachment","gill.spacing",
                         "gill.size","gill.color","stalk.shape","stalk.root","stalk.surface.above.ring",
                         "stalk.surface.below.ring","stalk.color.above.ring","stalk.color.below.ring","veil.type","veil.color",
                         "ring.number","ring.type","print","population","habitat"]

3) Transforme todos os elementos em dados categóricos usando o método `factorize`. Devido ao alto número de colunas use um comando de repetição para isso.

4) Crie um DataFrame `X` com todas as features. Lembrando que o target é o atributo Class.

5) Segmente o Dataframe para a representação do Target (Class)

6) Crie o modelo de árvore de decisão com o critério de entropia

7) Treine o modelo para a totalidade dos dados

8) Imprima o nome da feature e sua respectiva importância em ordem decrescente de importância.

9) Use a função `train_test_split` para separar parte dos dados para treinamento e outra para validação. Use 70% para treino e 30% dos dados para teste.

10) Crie o classificador e calcule o percentual de acertos do modelo.

**Leia com atenção o seguinte material sobre Random Forests e faça a seguir o que se pede.**

---

### Random Forests 

As Árvores de Decisão são muito interessantes porque pode-se seguir a estrutura criada para entender como a classe foi inferida. No entanto, esse tipo de modelo tem seus próprios problemas. Um dos principais problemas é o que chamamos de **overfitting**. O overfitting acontece quando o processo de criação da árvore torna a árvore extremamente ramificada e complexa - isso significa que o modelo não generalizará corretamente.

Isso pode significar que os pontos de dados são muito variados ou talvez haja muitos recursos a serem analisados ao mesmo tempo. No entanto, se reduzirmos o número de pontos de dados ou recursos, isso pode piorar nosso modelo. Portanto, precisaríamos de outro tipo de solução para este problema.

Isso pode significar que os pontos de dados são muito variados ou talvez haja muitos recursos a serem analisados ao mesmo tempo. No entanto, se reduzirmos o número de pontos de dados ou recursos, isso pode piorar nosso modelo. Portanto, precisaríamos de outro tipo de solução para este problema.

### O que são random forests

* Random forests são uma das soluções propostas. Como se pode inferir de seu nome, as Random Forests são compostas por várias Árvores de Decisão. Isso os torna parte de uma família de modelos - que são compostos por outros modelos trabalhando em conjunto - chamados de **modelos de aprendizagem por conjunto**. 
* O principal conceito por trás do Random Forests é que, se você particionar os dados que seriam usados para criar uma única árvore de decisão em diferentes partes, crie uma árvore para cada uma dessas partições e, em seguida, use um método para "calcular a média" dos resultados de todos dessas árvores diferentes, você deve acabar com um modelo melhor. 
* No caso das árvores utilizadas para classificação, essa "média" é a **moda** do conjunto de árvores da floresta. Para regressão, a "média" é a **média** do conjunto de árvores na floresta.


O principal mecanismo por trás do Random Forests é o **bagging**, que é uma forma abreviada de **agregação por bootstrap**. Bagging é o conceito de amostragem aleatória de alguns dados de um conjunto de dados, mas **com substituição**. O que isso significa na prática é que há alguma quantidade de dados que serão repetidos em cada partição, e alguma quantidade de dados que não serão representados nas amostras - cerca de 63% dos exemplos únicos são mantidos - isso torna de modo que o modelo gerado para aquela bolsa seja capaz de generalizar melhor em algum grau. Cada partição de dados de nossos dados de treinamento para a Random Forest aplica este conceito.

<center>
<img src="https://ibm.box.com/shared/static/5m7lep2u6fzt6ors1b0kpgv0jtzh3z7z.png" width="480">

*Exemplo de ensacamento. Observe como alguns pontos de dados são repetidos - isso é intencional!*
</center>

Você pode estar se perguntando o que acontece com os dados que não estão presentes nas "bolsas". Esses dados, apropriadamente chamados de *Out-Of-Bag Data*, servem como uma espécie de **dados de teste para o modelo gerado** - que serve como validação de que nosso modelo funciona!

Além disso, Random Forests também são criadas usando **feature bagging**, o que faz com que não haja problemas de overfitting devido a uma grande quantidade de recursos para uma pequena quantidade de dados. Por exemplo, se alguns recursos são preditores muito fortes, eles estarão presentes em uma grande quantidade de "bolsas" e essas bolsas se tornarão correlacionadas. No entanto, isso também faz com que a própria Random Forest não se concentre apenas no que prediz fortemente os dados que foram alimentados, tornando o modelo mais generalizado. Tradicionalmente, um conjunto de dados com um número $f$ de recursos terá $\left\lceil{\sqrt[2]{f}}\ \right\rceil$ recursos em cada partição.

<center>
<img src="https://ibm.box.com/shared/static/a4b0d3eg7vtuh8wipj9eo4bat9szow67.png" width="720">

*Exemplo de uma Random forest. Não se esqueça de que os sacos podem ter pontos de dados repetidos!*
</center>

---

11) Faça a mesma coisa da questão anterior usando uma Random Forest com 20 bags (`n_estimators`)

Busque no sklearn a função `RandomForestClassifier` e faça o que se solicitou.