# Árvore de Decisão

Árvores de Decisão, ou Decision Trees, são algoritmos de machine learning largamente utilizados, com uma estrutura de simples compreensão e que costumam apresentar bons resultados em suas previsões. Eles também são a base do funcionamento de outros poderosos algoritmos, como o Random Forest, por exemplo.

Como o próprio nome sugere, neste algoritmo vários pontos de decisão serão criados. Estes pontos são os “nós” da árvore e em cada um deles o resultado da decisão será seguir por um caminho, ou por outro. Os caminhos existentes são os “ramos”. Esta é a estrutura básica de uma árvore de decisão. Os nós são responsáveis pelas conferências que irão indicar um ramo ou outro para sequência do fluxo.

Detalhando ainda mais esta lógica, uma pergunta será feita e teremos duas opções de resposta: sim ou não. A opção “sim” levará a uma próxima pergunta, e a opção “não” a outra. Estas novas perguntas também terão como opções de resposta o sim e não, e desta forma toda a árvore será construída, partindo de um ponto comum, podendo existir várias opções de caminhos diferentes a serem percorridos na árvore, cada um levando a um resultado.


### Criador
    
Provenientes da computação e matemática, as Árvores de Decisão foram apresentadas pela primeira vez em 1975, por J. Ross Quinlan, em seu livro Machine Learning. No final dos anos 70, Ross Quinlan introduziu um algoritmo de árvore de decisão chamado ID3. Este foi um dos primeiros algoritmos de árvore de decisão, tendo sua elaboração baseada em sistemas de inferência e em conceitos de sistemas de aprendizagem já existentes na época. O ID3 foi usado inicialmente para tarefas de aprendizagem, como no jogo de xadrez, no qual a estratégia é fundamental. Desde então, o ID3 foi aplicado a uma grande variedade de situações acadêmicas e industriais. O ID3 foi desenvolvido visando à resolução de problemas que contenham atributos categóricos. Este algoritmo necessita que os valores dos atributos não possuam ruídos, sendo assim, estes valores devem ser tratados previamente. Ele adota o critério ganho de informação para a escolha da característica (atributo) a ser atribuído a cada nodo. A estrutura da árvore gerada pelo algoritmo é bastante simples, cada atributo permite a divisão do conjunto de treino num número de subconjuntos igual a sua cardinalidade.


### Contexto

No decorrer dos anos, inúmeros métodos e modelos de classificação têm surgido. Estes podem ser classificados em três áreas distintas: a Classificação Estatística, a Aprendizagem Automática e as Redes Neurais.

Apesar destes métodos estarem enquadrados em áreas diferentes, todos tentam buscar metodologias capazes de tomar decisões; e ainda serem suficientemente genéricos para serem aplicados com determinado sucesso numa gama de problemas práticos (MICHIE et al, 1994).

Embora diversos modelos matemáticos que tem surgido nas diferentes áreas do conhecimento relacionadas à classificação, as árvores de decisão têm sido consideradas como os modelos mais adequados para a extração do conhecimento para a Aprendizagem  Automática, pois são simples e podem ser facilmente compreendidos pelos humanos; e podem ser expressos numa sub-rotina em qualquer linguagem de programação (MICHIE et al, 1994, QUINLAN, 1992).

O Aprendizado de Máquina é uma das eficazes maneiras de adquirir inteligência de qualquer sistema computacional (WANG et al, 2000).

As  árvores  de  decisão, subárea de aprendizado de máquina, pesquisa métodos computacionais relacionados à aquisição automática de novos conhecimentos, novas habilidades e novas formas de organizar a informação (MITCHEL, 1997 apud PILA, 2001). Segundo QUINLAN (1979), a indução de árvores de decisão é uma maneira eficiente de aprendizado por exemplos. As árvores de decisão são uma das mais populares escolhas para o aprendizado e raciocínio de sistemas que trabalham com aprendizado supervisionado.

Os algoritmos de árvores de decisão proporcionam uma das melhores abordagens metodológicas à aquisição de conhecimento simbólico. O objetivo do aprendizado é extrair informações de um conjunto de treinamento de instâncias possivelmente conhecidas do problema; subseqüentemente classificar novas instâncias em suas respectivas classes.


### Aplicabilidade

Uma árvore decisória pode ser utilizada em qualquer situação cotidiana que envolva tomada de decisão. Para definir um roteiro de viagem que passa por diferentes cidades, por exemplo, o nó inicial representaria o local de partida e os nós das ramificações as cidades pelas quais o trajeto poderia passar. O nó final, nesse caso, representaria o destino final da viagem.

As Árvores Decisórias são uma ferramenta de fácil interpretação, por serem representadas de uma forma gráfica e ilustrativa. Além disso, os caminhos em uma árvore decisória são definidos de forma lógica, o que facilita a compreensão das opções de que caminhos seguir.  As Árvores Decisórias trazem várias vantagens quando utilizadas, inclusive quando aplicadas no âmbito da Gestão da Qualidade. Dentre as suas principais aplicações, pode-se destacar a sua utilização para:

**-Projetar decisões e resultados prováveis:** pelo fato de uma árvore decisória possibilitar o mapeamento de decisões, ela apresenta uma visão geral de vários cenários possíveis e, inclusive, de resultados prováveis. Assim, é possível avaliar as vantagens e desvantagens de uma escolha por meio da comparação entre os caminhos de escolha. Por exemplo, seguindo determinado caminho (ramificação) da árvore, o resultado final pode ser A; enquanto que se outro caminho (ramificação) for seguido, o resultado B será atingido.

**-Padronizar instruções:** devido a estrutura das Árvores Decisórias, é possível mapear cenários através da sequência de decisões. Após mapeados todos os caminhos possíveis, basta segui-los de acordo com a Árvore Decisória, garantindo a padronização na execução da instrução. Por exemplo, no caso do atendimento à um cliente: com uma árvore decisória que apresente os possíveis caminhos no qual o atendente possa seguir para tratar o problema do cliente, todos os atendentes realizarão as atividades de forma igual. Consequentemente, serão evitados cenários em que determinado atendente não sabe como proceder ou ainda inconsistências de atendimento entre os atendentes.

**Avaliar a viabilidade de um projeto:** é fundamental que antes de iniciar um projeto, o resultado esperado e os benefícios que o projeto irá trazer estejam claros para todos os interessados. Muitas vezes, esse resultado esperado não está claro para a equipe. Ou até mesmo os passos para atingir esses resultados encontram-se obscuros. As árvores decisórias ajudam a traçar caminhos e alternativas que auxiliam no esclarecimento das etapas do projeto e como cada uma dessas etapas contribui para o resultado esperado. Dessa forma, todas as decisões do projeto serão baseadas em fatos e dados, evitando o subjetivismo e diminuindo o risco de fracasso do projeto. É importante destacar que, com cada caminho ou etapa do projeto esclarecida, torna-se possível estimar melhor os custos; fator esse que pode ser decisivo para a continuidade ou não de um projeto.

**Analisar riscos:** um risco é uma probabilidade de algo acontecer, ou seja, um evento que pode acontecer a qualquer momento. Dependendo do contexto da empresa, por exemplo, uma simples queda da conexão de internet pode trazer consequências graves, afetando as entregas ou o contato com o cliente. Dessa forma, a queda de internet, nesse caso, pode ser um risco para a empresa. Podemos utilizar árvores decisórias tanto para analisar esse risco quanto para tratá-lo, mapeando alternativas que minimizem o impacto e a probabilidade de ocorrência do risco (queda de internet).


### Entrada de dados (tipos de testes)

Os testes a serem realizados em um nodo de uma árvore de decisão dependem das características do atributo designado a este nodo, sendo utilizado apenas um atributo por nodo na realização de cada teste, tornando, assim, a estrutura da árvore de fácil compreensão. Com base nos testes definidos e em um conjunto de exemplos, é decidido qual o caminho a percorrer na árvore durante o processo de classificação. Na determinação dos testes, é possível trabalhar com atributos dos tipos quantitativos, categóricos, ou ainda, com valores desconhecidos.

**Atributos quantitativos**

Os atributos que possuem características quantitativas permitem grande variedade de testes, implicando, de forma geral, uma certa complexidade de cálculo.

A técnica de construção de árvores de decisão baseada em atributos quantitativos, baseia-se em testes do tipo "atributo ≤ ponto_de_quebra" ou "atributo > ponto_de_quebra", nos quais devem ser considerados todos os valores pertencentes ao atributo, pois cada um deles pode representar um possível teste.

Para  a  utilização  deste  tipo  de  atributo,  primeiramente  é  necessária  a  ordenação  de  todos  os  valores  do  atributo  que  está  sendo  trabalhado,  em  ordem  crescente   ou   decrescente,   sendo   o   atributo   ordenado   como   {v1,v2,...vm}.   Após   a   ordenação,   seleciona-se   o   valor   (teste)   que   mais   reduz   a   informação   necessária   [QUI93][LIU94][BRA2000]. 


**Atributos categóricos**
O tratamento de atributos com características categóricas é distinto daquele aplicado a atributos com características quantitativas. Ao tratá-los, devem ser consideradas e avaliadas as abordagens a seguir.
    
- *Criar  um  ramo  para  cada  valor  do  atributo*: esta abordagem torna a árvore bastante detalhada, mas tem desvantagem de criar um grande número de ramos, tornando-a, muitas vezes, de grande dimensão.
- *Criação  de  nós  binários*: a solução apresentada por  Hunt, sugere a criação de nós binários, atribuindo, a um dos ramos, um dos valores da característica eleita e ao outro, todos os demais valores. Esta solução é naturalmente limitada, não aproveitando todo o poder de discriminação da característica. Apresenta, no entanto, a vantagem da grande simplicidade e inteligibilidade resultante, especialmente útil quando os resultados da geração do classificador automático se destinam a serem interpretados por pessoas consideradas não-especialistas.
- *Características ordenadas*: esta abordagem estabelece uma ordem entre os valores do atributo, possibilitando a construção de árvores binárias.
- *Agrupamento de valores de características em dois conjuntos*: apresentado por Breiman, baseia-se na criação de dois subconjuntos de valores associados respectivamente ao ramo esquerdo e ao direito do nodo em desenvolvimento, sendo uma outra  forma de partição binária.
- *Valores desconhecidos*: O tratamento de valores desconhecidos tem, como objetivo, por um lado, o uso do máximo número possível de exemplos para o treino do classificador, mesmo quando estes contêm valores desconhecidos para algumas características e, por outro, a possibilidade de classificar novos casos ainda que estes se encontrem incompletos. Várias soluções são propostas na literatura para o tratamento destes tipos de valores que podem ser:
    - simplesmente descartados;
    - receber um valor que seja considerado mais provável (mais comum) no conjunto de treinamento;
    - considerados como outro possível valor do atributo, de forma que, durante a construção da árvore, cada nodo pode possuir um ramo designado ao atributo testado que possui um valor desconhecido;
    - tratados, também, através da probabilidade da distribuição dos valores do atributo. Esta probabilidade é estimada com  base nas freqüências observadas dos possíveis valores para o atributo, nos exemplos do nodo em questão, sendo estes valores utilizados para calcular sua impuridade.

