                    Arvore de decisão de classificação

-> A árvore de decisão de classificação é um dos modelos de aprendizado de máquina
mais intuitivos e fáceis de entender, por que a sua lógica é muito parecida com a
forma como nós humanos, tomamos decisões.

-> Imagine que você esta tentando decidir se deve ou não levar um guarda-chuva
ao sair de casa. Você faria uma série de perguntas, em uma sequência lógica,
para chegar a uma conclusão. Por exemplo:

-> Primeira Pergunta: "Esta chovendo agora?"

    -> se sim: Leve o guarda-chuva.

    -> se não: Faça a próxima pergunta.

-> Segunda Pergunta: "O céu está nublado?"

    -> se sim: Leve o guarda-chuva
    
    -> se não: Faça a próxima pergunta

-> Terceira Pergunta: "A previsão do tempo diz que vai chover?"

    -> se sim: Leve o guarda-chuva

    -> se não: Não leve o guarda-chuva

-> A árvore de decisão funciona exatamente assim. Ela cria uma estrutura em forma
de árvore com "nós" que representam perguntas sobre as caracteristicas dos seus
dados. A partir da primeira pergunta (chamada de nó raiz), a árvore se ramifica
em diferentes caminhos, levando a novas perguntas até chegar a uma resposta final,
que é a sua classificação.

                Principais Componentes da Arvore de Decisão

-> Nó Raiz: É a primeira e principal pergunta da árvore.

-> Nós Internos: São as perguntas subsequentes que dividem os dados.

-> Folhas (Nós de Saida): São as respostas finais ou classificações

Função que irá construir o modelo de arvores de decisão

In [1]:
# A função irá receber como argumentos os dados de treino de x e y
def computarModelo(xtrain, ytrain):
    
    # Import da classe DecisionTreeClassifier da biblioteca tree do módulo
    # sklearn que tem como objetivo construir arvores de decisão de classifica-
    # ção.
    from sklearn.tree import DecisionTreeClassifier
    
    # Instância da classe DecisionTreeClassifier. O construtor da classe
    # irá receber como argumento o criterion que tem como objetivo definir
    # a métrica que a árvore de decisão usará para medir a qualidade de 
    # uma divisão dos dados. O objetico da árvore é encontrar a melhor forma 
    # de dividir os dados em cada nó para torna-los o mais "puros" possivel,
    # ou seja, para que cada nó contenha amostras de apenas uma classe.
    
    # entropy: é uma medida de impureza ou desordem. Um nó com baixa entropia
    # é puro e homogêneo (contém amostras de apenas uma classe). A árvore de
    # decisão usa o critério de entropia para encontrar a divisão que resulta
    # na maior redução de entropia. Em outras palavras, ela busca a divisão que 
    # mais organiza dados.
    classificador = DecisionTreeClassifier(criterion='entropy')
    
    # Ira treinar o modelo com o objetivo de ensina-lo a encontrar padrões
    # e tendências usando os dados de treino
    classificador.fit(xtrain, ytrain)
    
    # Retorno do modelo construido e treinado.
    return classificador
    
    

Construindo a predição do modelo

In [None]:
# Função que irá conter a classificação do modelo. A função irá receber
# como argumento:
# classificador: Modelo treinado para classificação
# xtest: Dados que serão utilizados na classificação do modelo
def predicaoModelo(classificador, xtest):
    
    # Retorno da predição do modelo usando a função predict que utiliza
    # como argumento os dados de xtest
    return classificador.predict(xtest)

Construindo a matriz confusão 

In [None]:
# Função que irá construir a matriz da confusão que mostra a quantidade 
# de erros e acertos do modelo de classificação. A função irá receber como
# argumento:
# ytest: Dados reais da classificação
# ypredição: Classificação do modelo
# rotulos: Ira conter os rotulos dos dados que serão classificados
def matrizConfusao(ytest, ypredicao, rotulos):
    
    # Import da classe confusion_matrix da biblioteca metrics do módulo 
    # sklearn
    from sklearn.metrics import confusion_matrix
    
    # Instância da classe (criação do objeto). O construtor da classe irá
    # receber como argumento: ytest, ypredição e rotulos.
    # Observação: Como a maioria dos nossos dados da coluna alvo
    # são classificados como 1, precisamos passar os rotulos dos
    # dados para que ele identifique as minorias (no nosso o caso
    # os valores classificados como 0)
    matriz = confusion_matrix(ytest, ypredicao, labels=rotulos)
    
    # Retorno da matriz com os acertos e erros da classificação.
    return matriz             

Aplicando o modelo de classificação nos dados.

In [None]:
# Import do nosso arquivo de funções
from minhasfuncoes import funcoes

# Construção da função que irá aplicar o modelo nos dados. A função irá receber
# como argumento:

# nome_do_arquivo: Irá conter o local que o arquivo utilizado está armazenado

# delimitador: Irá representar o sinal que separa os dados no arquivo. O 
# argumento irá conter como valor padrão a ',' que é o sinal padrão de 
# arquivos csv.

# inicio_preenchimento: Ira conter o indice da primeira coluna que será
# preenchida no intervalo. Como nem sempre precisaremos atribuir um valor
# a esse argumento, vamos definir o None como valor padrão.

# fim_preenchimento: Ira conter o indice da ultima coluna que será
# preenchida no intervalo. Como nem sempre precisaremos atribuir um valor
# a esse argumento, vamos definir o None como valor padrão.

# lista_rotulacao: Irá conter uma lista com os indices das colunas categóricas
# que deverão ser rotuladas numericamente com o objetivo de possibilitar que
# o modelo interprete essas colunas em sua classificação. Como há arquivos
# que não possuem valores categóricos, vamos definir como valor padrão do
# argumento o None.
def ArvoreDecisao(nome_do_arquivo, delimitador=',', inicio_preenchimento=None, fim_preenchimento = None, lista_rotulacao = None):
   
   # Trecho que irá carregar dataset na memória ram: Como no arquivo de
   # funções nós dividimos os dados em x (caracteristicas) e y (variável alvo)
   # usando a função values do pandas (que tem como objetivo transformar os
   # dados em um array numpy), precisamos atribuir os valores da função 
   # carregar dataset em 2 variáveis:
   
   # x: Irá conter as caracteristicas.
   
   # y: Ira conter a variável alvo.
   
   # carregar_Dataset: Função que irá carregar o dataset. A função irá 
   # receber como argumento o nome do arquivo e o seu delimitador.
    x, y = funcoes.carregar_Dataset(nome_do_arquivo, delimitador)
    
    # Nessa etapa iremos fazer verificações que irão definir se 
    # devemos ou não passar valores para os argumentos opcionais.
    
    # Ira verificar se os argumentos inicio_preenchimento e fim_preenchimento
    # são diferentes de None
    if inicio_preenchimento != None and fim_preenchimento != None:
        
        # Se a condição for verdadeira, vamos chamar a função que usa
        # a classe simple imputer para preencher dados faltantes nas
        # colunas. A função irá receber como argumento o x (conjunto
        # que será preenchido), o inicio_preenchimento (inicio do
        # intervalo) e o fim_preenchimento (final do intervalo). 
        x = funcoes.preencherDadosFaltantes(x, inicio_preenchimento, fim_preenchimento)
    
    # Ira verificar se a lista_rotulacao possui um valor diferente de 
    # None
    if lista_rotulacao != None:
        
        # Se a condição for verdadeira, vamos percorrer a lista de
        # indices que serão rotulados com o objetivo de aplicar a
        # função rotulacao.
        for i in lista_rotulacao:
            
            # Chamada da função rotulacao que será aplicada em todas as
            # colunas. A função irá receber como argumento o x (conjunto categórico que será rotulado) e o i (indice da coluna que será rotulada).        
            x = funcoes.rotulacao(x, i)
    
    # Trecho que irá separar os dados em treino e teste
    
    # xtrain: Ira conter o conjunto de treino de x que irá 
    # ensinar o modelo a identificar padrões e tendências. 
    
    # xtest: Dados que o modelo irá utilizar para classificar os dados
    
    # ytrain: Conjunto de treino de y que irá ensinar o modelo como ele deve
    # classificar os dados.
    
    # ytest: Dados reais que serão comparados com a predição do modelo.
    
    # treino_teste: Função que irá separar os dados. A função irá 
    # receber como argumento:
    
    # x: Caracteristicas
    
    # y: variável alvo
    
    # 0.2: tamanho do conjunto de teste (20% para testes e 80% treino).
    xtrain, xtest, ytrain, ytest = funcoes.treino_teste(x, y, 0.2)
    
    xtrain_normalizado, escala = funcoes.normalizacao(xtrain)
    
    xtest_normalizado = escala.transform(xtest)
    
    # Ira conter o modelo treinado com os dados de x treino normalizados
    # e ytrain
    classificador = computarModelo(xtrain_normalizado, ytrain)
    
    # Ira conter a predição usando o modelo treinado e os dados de
    # xtest normalizado.
    ypredicao = predicaoModelo(classificador, xtest_normalizado)
    
    # Ira conter os rotulos dos dados da coluna alvo
    rotulos = [0,1]
    
    # Retorno da matriz de confusão usando os dados reais, a classificação
    # modelo e os rotulos dos dados da coluna alvo
    return matrizConfusao(ytest, ypredicao, rotulos)
    

Visualizando os resultados da classificação

In [5]:
ArvoreDecisao(nome_do_arquivo='Dados/admission.csv', delimitador=';', lista_rotulacao=[0])

array([[2, 0],
       [0, 0]])

                    Interpretação dos resultados da classificação

-> 2: Quantidade de pessoas que o modelo classificou corretamente como 
não aprovados

-> 0: Quantidade de pessoas que o modelo classificou incorretamente como
aprovados

-> 0: Quantidade de pessoas que o modelo classificou incorretamente como
não aprovados

-> 0: Quantidade de pessoas que o modelo classificou corretamente como
aprovados
    

Testando a eficiência do modelo

In [None]:
# Como precisamos passar a função como argumento do teste de eficiência
# precisamos usar o lambda para connseguir passarmos junto com a função
# os argumentos que constrói o modelo. 
arvore = lambda: ArvoreDecisao(nome_do_arquivo='Dados/admission.csv', delimitador=';', lista_rotulacao=[0])


Resultado da acurácia do modelo

In [7]:
funcoes.testar_modelo_classificacao(arvore, 20, 'porcentagem de execução do teste de acurácia')

porcentagem de execução do teste de acurácia: 100%|██████████| 20/20 [00:00<00:00, 112.08it/s]

Média das acurácias do modelo de classificação: 0.85



