# Pseudo-código:

    1. Encontre o melhor atributo e coloque-o no nó raiz da árvore.
    2. Agora, divida o conjunto de treinamento do conjunto de dados em subconjuntos. 
       Ao fazer o subconjunto, certifique-se de que cada subconjunto do conjunto de dados de treinamento tenha o
       mesmo valor para um atributo.
    3. Encontre nós de folha em todos os ramos repetindo 1 e 2 em cada subconjunto.
    
    Ao implementar a árvore de decisão, passaremos pelas duas fases seguintes:

    Fase de Construção
        - Pré-processar o conjunto de dados.
        - Dividir o conjunto de dados de treinar e testar usando o pacote sklearn do Python.
        - Treine o classificador.
    Fase Operacional
        - Fazer previsões.
        - Calcule a precisão.
        

# Termos usados no código:
    O índice de Gini e o ganho de informações desses dois métodos são usados para selecionar os n atributos do 
    conjunto de dados cujo atributo seria colocado no nó raiz ou no nó interno. 
    Índice de Gini:
        - O Índice de Gini é uma métrica para medir com que frequência um elemento escolhido aleatoriamente seria 
          identificado incorretamente.
        - Isso significa que um atributo com menor índice de gini deve ser preferido.
        - O Sklearn suporta o critério “gini” para o índice Gini e, por padrão, recebe o valor “gini”.
    Entropia:
        - Entropia é a medida da incerteza de uma variável aleatória, ela caracteriza a impureza de uma coleção 
        arbitrária de exemplos. Quanto maior a entropia, mais o conteúdo da informação.
    Pontuação de precisão
        - A pontuação de precisão é usada para calcular a precisão do classificador treinado.
    Matriz de Confusão
        - A Matriz de Confusão é usada para entender o comportamento do classificador treinado sobre o conjunto de 
        dados de teste ou validar o conjunto de dados.




In [8]:
from sklearn.metrics import confusion_matrix
from sklearn.model_selection import train_test_split 
from sklearn.tree import DecisionTreeClassifier 
from sklearn.metrics import accuracy_score 
from sklearn.metrics import classification_report 
import numpy as np 
import pandas as pd 
import csv


In [9]:
#importando o conjunto de dados
def importdata(): 
    balance_data = pd.read_csv('OnlineNewsPopularity.csv',sep= ',', header = 'infer')  
    return balance_data 


# dividindo o conjunto de dados
def splitdataset(balance_data): 
  
    # Separando a variável de destino 
    X = balance_data.values[1:-1, 1:-1] 
    Ya = balance_data.values[1:-1, -1] 
      
    Y = []
    index = 0
    for y in Ya:
        if(int(y) >= 3395):
            Y.insert(index, True)        
        else:
            Y.insert(index, False)
        index += 1
        
    # Dividindo o conjunto de dados em treinamento e teste 
    X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size = 0.3, random_state = 100) 
      
    return X, Y, X_train, X_test, y_train, y_test 

In [10]:
###################### Indice de GINI ###########################################
    
# realizando treinamento com o índice gini
def train_using_gini(X_train, X_test, y_train): 
    
    # Criando o objeto classificador
    clf_gini = DecisionTreeClassifier(criterion = "gini", random_state = 100,max_depth=3, min_samples_leaf=60) 
  
    # Realizando treinamento 
    clf_gini.fit(X_train, y_train) 
    return clf_gini 
      

In [11]:
###################### Entropia #####################################################
    
# realizar treinamento com entropia 
def tarin_using_entropy(X_train, X_test, y_train): 
  
    # Árvore de decisão com entropia 
    clf_entropy = DecisionTreeClassifier(criterion = "entropy", random_state = 100, max_depth = 3, min_samples_leaf = 60) 
    
    # Realizando treinamento
    clf_entropy.fit(X_train, y_train) 
    
    return clf_entropy 
  
    
 

In [13]:
# fazendo previsões
def prediction(X_test, clf_object): 
  
    # Previsão no teste com gini Index 
    y_pred = clf_object.predict(X_test) 
    
#     print(y_pred) 
    
    return y_pred 
      
#calculando a precisão
def cal_accuracy(y_test, y_pred): 
      
    print("Confusion Matrix: ", confusion_matrix(y_test, y_pred)) 
    print ("Accuracy : ", accuracy_score(y_test,y_pred)*100) 
    print("Report : ", classification_report(y_test, y_pred)) 
    
     
def main(): 
       
    data = importdata() 
    X, Y, X_train, X_test, y_train, y_test = splitdataset(data) 
    clf_gini = train_using_gini(X_train, X_test, y_train) 
    clf_entropy = tarin_using_entropy(X_train, X_test, y_train) 
      
    
    print("Resultados usando indice de gini:") 
      
    # Previsão usando gini 
    y_pred_gini = prediction(X_test, clf_gini) 
    cal_accuracy(y_test, y_pred_gini) 
      
    print("Resultado usando entropia:")
    
    #Previsão usando Entropia 
    y_pred_entropy = prediction(X_test, clf_entropy) 
    cal_accuracy(y_test, y_pred_entropy) 
      
        
if __name__=="__main__": 
    main() 

Resultados usando indice de gini:
Confusion Matrix:  [[9474    0]
 [2419    0]]
Accuracy :  79.66030438072816
Resultado usando entropia:
Confusion Matrix:  [[9474    0]
 [2419    0]]
Accuracy :  79.66030438072816
