                    Arvore de decisão de classificação

-> A árvore de decisão de classificação é um dos modelos de aprendizado de máquina
mais intuitivos e fáceis de entender, por que a sua lógica é muito parecida com a
forma como nós humanos, tomamos decisões.

-> Imagine que você esta tentando decidir se deve ou não levar um guarda-chuva
ao sair de casa. Você faria uma série de perguntas, em uma sequência lógica,
para chegar a uma conclusão. Por exemplo:

-> Primeira Pergunta: "Esta chovendo agora?"

    -> se sim: Leve o guarda-chuva.

    -> se não: Faça a próxima pergunta.

-> Segunda Pergunta: "O céu está nublado?"

    -> se sim: Leve o guarda-chuva
    
    -> se não: Faça a próxima pergunta

-> Terceira Pergunta: "A previsão do tempo diz que vai chover?"

    -> se sim: Leve o guarda-chuva

    -> se não: Não leve o guarda-chuva

-> A árvore de decisão funciona exatamente assim. Ela cria uma estrutura em forma
de árvore com "nós" que representam perguntas sobre as caracteristicas dos seus
dados. A partir da primeira pergunta (chamada de nó raiz), a árvore se ramifica
em diferentes caminhos, levando a novas perguntas até chegar a uma resposta final,
que é a sua classificação.

                Principais Componentes da Arvore de Decisão

-> Nó Raiz: É a primeira e principal pergunta da árvore.

-> Nós Internos: São as perguntas subsequentes que dividem os dados.

-> Folhas (Nós de Saida): São as respostas finais ou classificações

Função que irá construir o modelo de arvores de decisão

In [1]:
# A função irá receber como argumentos os dados de treino de x e y
def computarModelo(xtrain, ytrain):
    
    # Import da classe DecisionTreeClassifier da biblioteca tree do módulo
    # sklearn que tem como objetivo construir arvores de decisão de classifica-
    # ção.
    from sklearn.tree import DecisionTreeClassifier
    
    # Instância da classe DecisionTreeClassifier. O construtor da classe
    # irá receber como argumento o criterion que tem como objetivo definir
    # a métrica que a árvore de decisão usará para medir a qualidade de 
    # uma divisão dos dados. O objetico da árvore é encontrar a melhor forma 
    # de dividir os dados em cada nó para torna-los o mais "puros" possivel,
    # ou seja, para que cada nó contenha amostras de apenas uma classe.
    
    # entropy: é uma medida de impureza ou desordem. Um nó com baixa entropia
    # é puro e homogêneo (contém amostras de apenas uma classe). A árvore de
    # decisão usa o critério de entropia para encontrar a divisão que resulta
    # na maior redução de entropia. Em outras palavras, ela busca a divisão que 
    # mais organiza dados.
    classificador = DecisionTreeClassifier(criterion='entropy')
    
    # Ira treinar o modelo com o objetivo de ensina-lo a encontrar padrões
    # e tendências usando os dados de treino
    classificador.fit(xtrain, ytrain)
    
    # Retorno do modelo construido e treinado.
    return classificador
    
    

Construindo a predição do modelo

In [2]:
# Função que irá conter a classificação do modelo
def predicaoModelo(classificador, xtest):
    
    return classificador.predict(xtest)

In [3]:
def matrizConfusao(ytest, ypredicao, rotulos):
    
    from sklearn.metrics import confusion_matrix
    
    matriz = confusion_matrix(ytest, ypredicao, labels=rotulos)
    
    
    return matriz             

In [4]:
from minhasfuncoes import funcoes

def ArvoreDecisao(nome_do_arquivo, delimitador=',', inicio_preenchimento=None, fim_preenchimento = None, lista_rotulacao = None):
    
    x, y = funcoes.carregar_Dataset(nome_do_arquivo, delimitador)
    
    if inicio_preenchimento != None and fim_preenchimento != None:
        
        x = funcoes.preencherDadosFaltantes(x, inicio_preenchimento, fim_preenchimento)
    
    if lista_rotulacao != None:
        
        for i in lista_rotulacao:
            
            x = funcoes.rotulacao(x, i)
    
    
    xtrain, xtest, ytrain, ytest = funcoes.treino_teste(x, y, 0.2)
    
    xtrain_normalizado, escala = funcoes.normalizacao(xtrain)
    
    xtest_normalizado = escala.transform(xtest)
    
    classificador = computarModelo(xtrain_normalizado, ytrain)
    
    ypredicao = predicaoModelo(classificador, xtest_normalizado)
    
    rotulos = [0,1]
    
    return matrizConfusao(ytest, ypredicao, rotulos)
    

Visualizando os resultados da classificação

In [5]:
ArvoreDecisao(nome_do_arquivo='Dados/admission.csv', delimitador=';', lista_rotulacao=[0])

array([[2, 0],
       [0, 0]])

Testando a eficiência do modelo

In [6]:
arvore = lambda: ArvoreDecisao(nome_do_arquivo='Dados/admission.csv', delimitador=';', lista_rotulacao=[0])


In [7]:
funcoes.testar_modelo_classificacao(arvore, 20, 'porcentagem de execução do teste de acurácia')

porcentagem de execução do teste de acurácia: 100%|██████████| 20/20 [00:00<00:00, 112.08it/s]

Média das acurácias do modelo de classificação: 0.85



