# Árvore de decisão: o aprendizado de máquina presente no computador de classificação de rochas

<h1>Sumário da apresentação<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Introdução" data-toc-modified-id="Introdução-1">Introdução</a></span></li><li><span><a href="#Metodologia" data-toc-modified-id="Metodologia-2">Metodologia</a></span></li><li><span><a href="#Importando-as-dependências-necessárias" data-toc-modified-id="Importando-as-dependências-necessárias-3">Importando as dependências necessárias</a></span></li><li><span><a href="#Criando-o-seu-dado-(Tabela-de-Frequências):" data-toc-modified-id="Criando-o-seu-dado-(Tabela-de-Frequências):-4">Criando o seu dado (Tabela de Frequências):</a></span></li><li><span><a href="#Transformando-o-seu-dado-em-um-objeto-do-pandas" data-toc-modified-id="Transformando-o-seu-dado-em-um-objeto-do-pandas-5">Transformando o seu dado em um objeto do pandas</a></span></li><li><span><a href="#Referências" data-toc-modified-id="Referências-6">Referências</a></span></li></ul></div>

## Introdução

* Árvores de decisão são metaheurísticas dentro do campo da inteligência artificial que têm sido amplamente utilizadas para construir modelos de classificação, pois esses modelos se assemelham muito ao raciocínio humano sendo fáceis de entender. 



 * O algoritmo é estruturado como uma série modelos sequenciais, que combinam logicamenteum conjunto de testes simples, onde cada teste compara um atributo numérico com um valor limite ou um atributo nominal com um conjunto de valores possíveis \cite{Kotsiantis2013}. 

## Metodologia

* O algoritmo de árvore de decisão \cite{sklearn_api} é proposto para a solução de um problema de classificação de rochas simples do tipo binária\cite{scikit-learn}.
    
   

* Classificação do tipo binária baseia-se em dois aspectos principais a entropia e o ganho de informação \cite{Sayad2020}. O ganho de informação ou divergência \textit{Kullback–Leibler} é a diferença das entropia nas iterações i e i+1. Onde 
 
 $$ i = 0,1,2,3 ..., n \ \forall \ n \in \mathbb{I} $$
    

* A entropia pode ser definida com base na tabela de frequências que carrega as informações do seu dado. Quando a tabela de frequencia possui dois atributos a entropia pode ser escrita como:

\begin{equation}
E(t,x) = \sum_{c \in x}  P(c)E(c)
\end{equation}

Existe uma variação da árvore de decião que utiliza  a rega de bayes sendo conhecia como árvore de decisão bayesiana. 
O teorema de bayes e uma igualdade simples que afirma $prob(A \ e \ B) = prob(B \ e\  A)$ :

\begin{equation}
P(B|A) = \frac{prob(A|B) prob(B)}{prob(A)}
\end{equation}

Onde


* $prob(A)$ probabilidade total
* $prob(B)$ é chamado de probabilidade a priori a qual será modificada pela experiência
* $prob(A|B)$ é a verossimilança que determina a experiência
* $prob(B|A)$ é a probabilidade posterior, ou o nível de crença após a realização do experimento

Esse teorema é útil quando interpretado como uma regra para indução: os dados e o evento A são considerados como sucessores de B, o grau de crença anterior a realização do experimento.

## Importando as dependências necessárias 

In [1]:
# -*- coding: utf-8 -*-
import pandas as pd
from sklearn import tree

## Criando o seu dado (Tabela de Frequências):

In [2]:
features = [[140, 1], [130, 1],
           [150, 0], [170, 0]]# diâmetro e gomos
labels = [0, 0, 1, 1] # 0 é maçã e 1 é laranja

 ## Transformando o seu dado em um objeto do pandas

In [3]:
Tabela = {'diâmetro': [140, 130, 150, 170],
          'gomo': [1, 1, 0 ,0 ],
          'frutas': [0, 0, 1, 1]
          }
TF = pd.DataFrame(data=Tabela)
print(TF)


   diâmetro  gomo  frutas
0       140     1       0
1       130     1       0
2       150     0       1
3       170     0       1


In [4]:

# o classificador encontra padrões nos dados de treinamento
clf = tree.DecisionTreeClassifier() # instância do classificador
clf = clf.fit(features, labels) # fit encontra padrões nos dados

# iremos utilizar para classificar uma nova fruta
print(clf.predict([[90, 0]]))

[1]


## Referências

* (<a id="cit-Kotsiantis2013" href="#call-Kotsiantis2013">Kotsiantis, 2013</a>) Kotsiantis S. B., ``_Decision trees: a recent overview_'', Artificial Intelligence Review, vol. 39, number 4, pp. 261--283, Apr 2013.  [online](https://doi.org/10.1007/s10462-011-9272-4)

* (<a id="cit-sklearn_api" href="#call-sklearn_api">Buitinck, Louppe <em>et al.</em>, 2013</a>) L. Buitinck, G. Louppe, M. Blondel <em>et al.</em>, ``_API design for machine learning software: experiences from the scikit-learn project_'', ECML PKDD Workshop: Languages for Data Mining and Machine Learning,  2013.

* (<a id="cit-scikit-learn" href="#call-scikit-learn">Pedregosa, Varoquaux <em>et al.</em>, 2011</a>) Pedregosa F., Varoquaux G., Gramfort A. <em>et al.</em>, ``_Scikit-learn: Machine Learning in Python_'', Journal of Machine Learning Research, vol. 12, number , pp. 2825--2830,  2011.

* (<a id="cit-Sayad2020" href="#call-Sayad2020">Saed, 2020</a>) Dr. Saed, ``_An Introduction to Data Science: Decision Tree_'',  2020.  [online](https://www.saedsayad.com/data_mining_map.htm)

