In [3]:
# Formação Cientista de Dados - Fernando Amaral e Jones Granatyr
# Contribuição: Adriano Santos

# Árvores de decisão

In [6]:
# Importação das bibliotecas - Esse código em Python começa instalando a biblioteca 'graphviz' usando o comando '!pip install graphviz' se precisar. Em seguida, ele importa várias bibliotecas, incluindo 'graphviz', 'pandas', 'sklearn.metrics', 'sklearn.model_selection', 'sklearn.preprocessing' e 'sklearn.tree'. O código provavelmente é usado para criar um modelo de classificação de árvore de decisão. Ele carrega dados, realiza a codificação de rótulos, divide o conjunto de dados em treinamento e teste, e depois cria um modelo de árvore de decisão. No entanto, a parte mais importante que cria a árvore de decisão e a visualização dela não está presente no código fornecido, pois geralmente é feita com 'export_graphviz'.

#!pip install graphviz

import graphviz
import pandas as pd
from sklearn.metrics import accuracy_score, confusion_matrix
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.tree import DecisionTreeClassifier, export_graphviz

In [8]:
# Nesse código, estamos utilizando a biblioteca pandas em Python para trabalhar com dados. Primeiro, importamos um arquivo de dados chamado "Credit.csv" de um diretório específico usando a função 'pd.read_csv'. Em seguida, utilizamos 'credito.shape' para verificar as dimensões desse conjunto de dados, ou seja, o número de linhas e colunas. Essa linha de código retorna uma tupla com dois valores: o primeiro representa o número de linhas (registros) e o segundo o número de colunas (variáveis) no conjunto de dados "credito". Isso é útil para entender a estrutura dos dados que estamos prestes a analisar.

credito = pd.read_csv('../dados/Credit.csv')
credito.shape

(1000, 21)

In [9]:
# O código "credito.head()" é uma chamada de função em Python que é frequentemente usada para visualizar as primeiras linhas de um conjunto de dados, como um DataFrame. Essa função exibe as primeiras cinco linhas por padrão, dando ao analista uma visão rápida dos dados. É útil para entender a estrutura e os tipos de dados presentes no DataFrame "credito" e pode ser usado como ponto de partida na análise exploratória de dados.

credito.head()

Unnamed: 0,checking_status,duration,credit_history,purpose,credit_amount,savings_status,employment,installment_commitment,personal_status,other_parties,...,property_magnitude,age,other_payment_plans,housing,existing_credits,job,num_dependents,own_telephone,foreign_worker,class
0,<0,6,'critical/other existing credit',radio/tv,1169,'no known savings',>=7,4,'male single',none,...,'real estate',67,none,own,2,skilled,1,yes,yes,good
1,0<=X<200,48,'existing paid',radio/tv,5951,<100,1<=X<4,2,'female div/dep/mar',none,...,'real estate',22,none,own,1,skilled,1,none,yes,bad
2,'no checking',12,'critical/other existing credit',education,2096,<100,4<=X<7,2,'male single',none,...,'real estate',49,none,own,1,'unskilled resident',2,none,yes,good
3,<0,42,'existing paid',furniture/equipment,7882,<100,4<=X<7,2,'male single',guarantor,...,'life insurance',45,none,'for free',1,skilled,2,none,yes,good
4,<0,24,'delayed previously','new car',4870,<100,1<=X<4,3,'male single',none,...,'no known property',53,none,'for free',2,skilled,2,none,yes,bad


In [10]:
# Nesse trecho de código, estão sendo criadas duas variáveis: "previsores" e "classe". A primeira, "previsores", recebe os valores das primeiras 20 colunas do DataFrame "credito" e armazena esses dados em formato de array. A segunda variável, "classe", recebe os valores da coluna 20 do mesmo DataFrame, que geralmente representa a classe ou categoria que estamos tentando prever. Essas variáveis são fundamentais para a construção de modelos de aprendizado de máquina, onde os "previsores" são os atributos de entrada e "classe" é o rótulo que queremos predizer.

previsores = credito.iloc[:, 0:20].values
classe = credito.iloc[:, 20].values

In [12]:
# Nesse código, estamos utilizando a biblioteca LabelEncoder para transformar os valores de colunas específicas em uma matriz chamada 'previsores'. As colunas selecionadas, identificadas pelos índices [0, 2, 3, 5, 6, 8, 9, 11, 13, 14, 16, 18, 19], contêm dados categóricos que precisam ser convertidos em números para serem utilizados em algoritmos de aprendizado de máquina. O loop itera sobre essas colunas, aplicando o LabelEncoder a cada uma delas, substituindo os valores originais pelos números correspondentes na matriz 'previsores'. Isso é útil para preparar os dados categóricos para análises posteriores.

labelencoder = LabelEncoder()
for col in [0, 2, 3, 5, 6, 8, 9, 11, 13, 14, 16, 18, 19]:
    previsores[:, col] = labelencoder.fit_transform(previsores[:, col])

In [14]:
# Divisão da base de dados entre treinamento e teste. Usamos 30% para testar e 70% para treinar. O código realiza uma divisão dos dados em conjuntos de treinamento e teste para um modelo de machine learning. Ele utiliza a função "train_test_split" para separar os dados de entrada ("previsores") e os rótulos ("classe") em quatro conjuntos: X_treinamento (dados de treinamento), X_teste (dados de teste), y_treinamento (rótulos de treinamento) e y_teste (rótulos de teste). A divisão é feita de forma que 70% dos dados são destinados ao conjunto de treinamento, enquanto 30% são destinados ao conjunto de teste. O parâmetro "random_state" garante a reprodutibilidade do processo. Neste código, é exibido o conjunto de teste X_teste após a divisão.

X_treinamento, X_teste, y_treinamento, y_teste = train_test_split(
    previsores, classe, test_size=0.3, random_state=0
)

X_teste

array([[2, 36, 3, ..., 1, 1, 1],
       [0, 9, 3, ..., 2, 0, 0],
       [0, 18, 3, ..., 1, 1, 1],
       ...,
       [0, 24, 1, ..., 1, 0, 1],
       [1, 27, 4, ..., 1, 1, 1],
       [1, 12, 3, ..., 1, 0, 1]], dtype=object)

In [15]:
# Criação e treinamento do modelo - Neste código, estamos utilizando a classe "DecisionTreeClassifier" para criar um modelo de árvore de decisão. Em seguida, ajustamos o modelo aos dados de treinamento representados por "X_treinamento" e os rótulos correspondentes em "y_treinamento". Isso significa que estamos ensinando a árvore de decisão a aprender um padrão nos dados de treinamento, para que ela possa fazer previsões com base nesse aprendizado.

arvore = DecisionTreeClassifier()
arvore.fit(X_treinamento, y_treinamento)

In [18]:
# Exportação da árvore de decisão para o formato .dot, para posterior visualização - Este código em Python utiliza o módulo `export_graphviz` para gerar um arquivo de saída chamado 'tree.dot', que representa visualmente uma árvore de decisão previamente construída e armazenada na variável 'arvore'. Essa visualização pode ser útil para compreender o funcionamento e a estrutura da árvore de decisão em análises de aprendizado de máquina e tomadas de decisão baseadas em dados.

export_graphviz(arvore, out_file = '../dados/tree.dot')

In [19]:
# Obtenção das previsões - O código começa com a variável "previsoes" que armazena as previsões feitas por um modelo de árvore de decisão (representado por "arvore") para um conjunto de dados de teste ("X_teste"). Em seguida, a segunda linha simplesmente exibe essas previsões. Em resumo, esse código utiliza um modelo de árvore de decisão previamente treinado para fazer previsões com base nos dados de teste e, em seguida, exibe essas previsões.

previsoes = arvore.predict(X_teste)
previsoes

array(['bad', 'bad', 'good', 'good', 'good', 'bad', 'good', 'good',
       'good', 'bad', 'bad', 'bad', 'bad', 'bad', 'bad', 'bad', 'good',
       'good', 'bad', 'bad', 'bad', 'bad', 'good', 'good', 'good', 'bad',
       'good', 'good', 'bad', 'bad', 'good', 'bad', 'bad', 'bad', 'good',
       'bad', 'good', 'good', 'good', 'good', 'good', 'bad', 'good',
       'bad', 'good', 'good', 'good', 'bad', 'good', 'good', 'good',
       'bad', 'bad', 'good', 'good', 'bad', 'good', 'good', 'good',
       'good', 'bad', 'good', 'good', 'good', 'good', 'bad', 'good',
       'good', 'bad', 'good', 'bad', 'good', 'bad', 'bad', 'good', 'good',
       'bad', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'bad', 'bad', 'good', 'good', 'good', 'bad',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'bad',
       'good', 'good', 'good', 'good', 'good', 'good', 'bad', 'bad',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'bad', 

In [20]:
# Matriz de confusão - Nesse trecho de código, está sendo calculada uma matriz de confusão para avaliar a performance de um modelo de machine learning. A variável 'confusao' armazena essa matriz, que é obtida comparando as previsões feitas pelo modelo (variável 'previsoes') com os valores reais do conjunto de teste (variável 'y_teste'). A matriz de confusão é uma ferramenta importante para analisar a precisão do modelo, mostrando quantas predições foram corretas (verdadeiros positivos e verdadeiros negativos) e quantas foram incorretas (falsos positivos e falsos negativos).

confusao = confusion_matrix(y_teste, previsoes)
confusao

array([[ 42,  44],
       [ 55, 159]], dtype=int64)

In [21]:
# No código apresentado, calculamos a taxa de acerto de um modelo de machine learning. A função accuracy_score compara as previsões (previsoes) do modelo com os valores reais (y_teste) e retorna a porcentagem de acertos. O resultado é armazenado na variável taxa_acerto e, em seguida, é exibido. Isso é útil para avaliar o desempenho do modelo, pois fornece a proporção de previsões corretas em relação ao conjunto de teste.

taxa_acerto = accuracy_score(y_teste, previsoes)
taxa_acerto

0.67

In [22]:
# Esse código calcula a taxa de erro a partir da taxa de acerto. Ele subtrai a taxa de acerto de 1 para encontrar a taxa de erro, que é a porcentagem de erros em um determinado contexto. Em seguida, ele simplesmente retorna o valor da taxa de erro. Isso é útil em análises estatísticas e em avaliações de desempenho, onde você deseja entender o quão precisa uma medida ou previsão é, expressa como uma porcentagem de erro.

taxa_erro = 1 - taxa_acerto
taxa_erro

0.32999999999999996