# NoteBook responsável por Montar árvores de Devisão com Particionamento de Treinamento e Teste

In [None]:
import pandas as pd
import numpy as np
from sklearn import datasets, tree
from sklearn.model_selection import train_test_split, RandomizedSearchCV
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.feature_extraction import DictVectorizer
from sklearn.preprocessing import LabelEncoder
from scipy.stats import randint
from sklearn.ensemble import GradientBoostingClassifier

Carregamento do arquivo e faz os seguintes tratamento de dados:


*   Remove registros Nulos
*   Remove regitros Inválidos
*   Substitui valores nulos por zero
*   Cria campo de diferança.   

In [None]:
pd_dados = pd.read_excel("/content/sample_data/TCC_Dados_Final1_ni.xlsx", sheet_name=0)     
#pd_dados = pd.read_csv(arquivo, sheet_name=0) 

print(pd_dados.describe())
        
print("\nRemovendo registros nulos do arquivo")
# dropna remove os registros faltantes    
pd_dados.dropna(axis=0, subset=['sit_cadastral'], inplace = True) 
pd_dados.dropna(axis=0, subset=['cnae3'], inplace = True)
pd_dados.dropna(axis=0, subset=['ni'], inplace = True)


#Remove registros que tem CNAE Inválido ou Não Informado
pd_dados['sit_cadastral'] = pd_dados['sit_cadastral'].astype('str')
pd_dados = pd_dados[~pd_dados['sit_cadastral'].str.contains('NULA')]

print("\nRemovendo registros inválidos do arquivo")
#Remove registros que tem CNAE Inválido ou Não Informado
pd_dados['cnae3'] = pd_dados['cnae3'].astype('str')
pd_dados = pd_dados[~pd_dados['cnae3'].str.contains('IN')]
pd_dados = pd_dados[~pd_dados['cnae3'].str.contains('NI')]

print("\nSubstitui valores nulos por Zero para os campos de Débitos")
#Coloca zero quando não tem valor, para não dá erro no calculo da diferença. Quando está nulo é por que não tem mais débito, ou seja, está zerado
pd_dados[['valorm1']] = pd_dados[['valorm1']].fillna(value = 0)
pd_dados[['valorm3']] = pd_dados[['valorm3']].fillna(value = 0)

print("\nCriando campos de comparação")
#calcula os campos de comparação para saber se o débito aumentou o diminuiu
pd_dados["Dif1"] = pd_dados.valorm1 - pd_dados.valor
pd_dados["Dif3"] = pd_dados.valorm3 - pd_dados.valor

print(pd_dados.describe())

pd_dados = pd_dados.loc[pd_dados['Dif1'] > 10]

print("\nSalvando o arquivo: {0}".format("/content/sample_data/TCC_Dados_Final1_ni_Aumentou.xlsx"))
pd_dados.to_excel("/content/sample_data/TCC_Dados_Final1_ni_Aumentou.xlsx", index=False)

Função que define se Aumentou, Diminuiu ou Manteve

In [None]:
def encode_units(x):
  if x > 500:
    return "Aumentou_500"
  elif x > 10:
    return "Aumentou_10"
  else:
      return "Não Aumentou"


Campos do Modelo a ser treinado

    0 - ni	
    1 - classe	
    2 - sit_cadastral	
    3 - diferenciada	
    4 - simei	
    5 - simples	
    6 - porte	
    7 - nat_juridica	
    8 - cnae3	
    9 - valor
    10 - valorm1	
    11 - valorm3	
    12 - Dif1
    13 - Dif3

Treinamendo de Modelo Particionando a árvore e com Hiperparâmetros pre-definidos

In [None]:
pd_debitos = pd.read_excel("/content/sample_data/TCC_Dados_Final1_ni_Aumentou.xlsx", sheet_name=0) 
#print("\nDimensões: {0}".format(pd_debitos.shape))

#Tranforma os valores de diferença usando o método encode_units
pd_debitos["Dif1"] = pd_debitos["Dif1"].apply(encode_units)
pd_debitos["Dif3"] = pd_debitos["Dif3"].apply(encode_units)

#apaga os valores sem diferença, manteve o débito igual
pd_debitos.dropna(axis=0, subset=['Dif1'], inplace = True)
pd_debitos.dropna(axis=0, subset=['Dif3'], inplace = True)

#print("\nQuantidade de Registros depois: {0}".format(pd_debitos["classe"].count()))

arr_atributos =['classe','sit_cadastral', 'diferenciada', 'simei','simples', 'porte', 'nat_juridica', 'cnae3'] 
le = LabelEncoder() 
#print(pd_debitos.keys())
for atributo in arr_atributos:
    pd_debitos.sort_values(by=atributo, inplace = True)
    pd_debitos[atributo] = le.fit_transform(pd_debitos[atributo]) 
    #print(pd_debitos[atributo].sort_values().unique().tolist())
    #print(le.inverse_transform(pd_debitos[atributo].sort_values().unique().tolist()))


#define a coluna de resultado
y_dados_m1 = le.fit_transform(pd_debitos.iloc[:,12:13])
y_dados_m3 = le.fit_transform(pd_debitos.iloc[:,13:14])
arr_label = le.inverse_transform([0,1,2])
print(le.inverse_transform([0,1,2]))
#print(y_train)    

X_dados = pd_debitos.iloc[:,0:9]

for tamanho_amostra_teste in [0.01, 0.05, 0.1, 0.15, 0.20, 0.25]:

    for criterios_decisao in [['gini', 50, 100], ['gini',50, 500], ['gini', 100, 500], ['gini', 100, 1000],['gini', 100, 1500],['gini', 100, 2000],['entropy', 50, 100], ['entropy',50, 500], ['entropy', 100, 500], ['entropy', 100, 1000],['entropy', 100, 1500],['entropy', 100, 2000]]: 
    
        X_train, X_test, y_train, y_test = train_test_split(X_dados, y_dados_m3, random_state=0, test_size=tamanho_amostra_teste) #, test_size=0.1
        debitos_tree = DecisionTreeClassifier(random_state=0, criterion=criterios_decisao[0], min_samples_leaf=criterios_decisao[1], min_samples_split=criterios_decisao[2]) #, criterion="gini", min_samples_leaf=100, min_samples_split=500

        
        debitos_tree = debitos_tree.fit(X_train, y_train) #comando que irá treinar é o FIT
        #print("Acurácia (base de treinamento):", debitos_tree.score(X_train, y_train)) #método Scrore calcula a Acurária da base de Treinamento

        Train_predict = debitos_tree.predict(X_test) 
        #print("Acurácia de previsão:", accuracy_score(y_test, Train_predict))


        print("test_size: {3}, Acurancia Previsão: {4}, criterion: {0}, min_samples_leaf: {1}, min_samples_split: {2} ".format(debitos_tree.criterion, debitos_tree.min_samples_leaf, debitos_tree.min_samples_split, tamanho_amostra_teste, accuracy_score(y_test, Train_predict)))
        #print("classification_report")
        #print(classification_report(y_test, Train_predict, target_names=["Aumentou", "Diminuiu", "Manteve"]))
            
        #Matriz de Confusão
        #cnf_matrix = confusion_matrix(y_test, Train_predict)
        #cnf_table = pd.DataFrame(data=cnf_matrix, index=["Aumentou", "Diminuiu", "Manteve"], columns=["Aumentou (prev)", "Diminuiu (prev)", "Manteve (prev)"])
        #print(cnf_table)

#import pydotplus 
# Create DOT data
#tree.export_graphviz(debitos_tree, out_file="/content/sample_data/TCC_Dados_Final1_ni_Aumentou.dot", 
#                                proportion=False,
#                                rounded =True,
#                                filled=True,
#                                feature_names=X_dados.keys(),
#                                class_names=arr_label)


Depois de testar e encontrar os melhores HiperParâmetros, montou-se a Árvore

In [None]:
pd_debitos = pd.read_excel("/content/sample_data/TCC_Dados_Final1_ni_Aumentou.xlsx", sheet_name=0) 
#print("\nDimensões: {0}".format(pd_debitos.shape))

#Tranforma os valores de diferença usando o método encode_units
pd_debitos["Dif1"] = pd_debitos["Dif1"].apply(encode_units)
pd_debitos["Dif3"] = pd_debitos["Dif3"].apply(encode_units)

#apaga os valores sem diferença, manteve o débito igual
pd_debitos.dropna(axis=0, subset=['Dif1'], inplace = True)
pd_debitos.dropna(axis=0, subset=['Dif3'], inplace = True)

#print("\nQuantidade de Registros depois: {0}".format(pd_debitos["classe"].count()))

arr_atributos =['classe','sit_cadastral', 'diferenciada', 'simei','simples', 'porte', 'nat_juridica', 'cnae3'] 
le = LabelEncoder() 
#print(pd_debitos.keys())
for atributo in arr_atributos:
    pd_debitos.sort_values(by=atributo, inplace = True)
    pd_debitos[atributo] = le.fit_transform(pd_debitos[atributo]) 
    #print(pd_debitos[atributo].sort_values().unique().tolist())
    #print(le.inverse_transform(pd_debitos[atributo].sort_values().unique().tolist()))


#define a coluna de resultado
y_dados_m1 = le.fit_transform(pd_debitos.iloc[:,12:13])
y_dados_m3 = le.fit_transform(pd_debitos.iloc[:,13:14])
arr_label = le.inverse_transform([0,1,2])
print(le.inverse_transform([0,1,2]))
#print(y_train)    

X_dados = pd_debitos.iloc[:,0:9]

for tamanho_amostra_teste in [0.01]:

    for criterios_decisao in [['gini', 100, 2000]]: 
    
        X_train, X_test, y_train, y_test = train_test_split(X_dados, y_dados_m3, random_state=0, test_size=tamanho_amostra_teste) #, test_size=0.1
        debitos_tree = DecisionTreeClassifier(random_state=0, criterion=criterios_decisao[0], min_samples_leaf=criterios_decisao[1], min_samples_split=criterios_decisao[2]) #, criterion="gini", min_samples_leaf=100, min_samples_split=500

        
        debitos_tree = debitos_tree.fit(X_train, y_train) #comando que irá treinar é o FIT
        #print("Acurácia (base de treinamento):", debitos_tree.score(X_train, y_train)) #método Scrore calcula a Acurária da base de Treinamento

        Train_predict = debitos_tree.predict(X_test) 
        #print("Acurácia de previsão:", accuracy_score(y_test, Train_predict))


        print("test_size: {3}, Acurancia Previsão: {4}, criterion: {0}, min_samples_leaf: {1}, min_samples_split: {2} ".format(debitos_tree.criterion, debitos_tree.min_samples_leaf, debitos_tree.min_samples_split, tamanho_amostra_teste, accuracy_score(y_test, Train_predict)))
        #print("classification_report")
        print(classification_report(y_test, Train_predict, target_names=["Aumentou", "Diminuiu", "Manteve"]))
            
        #Matriz de Confusão
        cnf_matrix = confusion_matrix(y_test, Train_predict)
        cnf_table = pd.DataFrame(data=cnf_matrix, index=["Aumentou", "Diminuiu", "Manteve"], columns=["Aumentou (prev)", "Diminuiu (prev)", "Manteve (prev)"])
        print(cnf_table)

import pydotplus 
# Create DOT data
tree.export_graphviz(debitos_tree, out_file="/content/sample_data/TCC_Dados_Final1_ni_Aumentou.dot", 
                                proportion=False,
                                rounded =True,
                                filled=True,
                                feature_names=X_dados.keys(),
                                class_names=arr_label)

Depois de criado o arquivo DOT com as informações da Árvore, cria a Imagem

In [None]:
import pydotplus 
from IPython.display import Image


# Draw graph
graph = pydotplus.graph_from_dot_file("/content/sample_data/TCC_Dados_Final1_ni_Aumentou.dot")

# Show graph
Image(graph.create_png())
