In [1]:
# Formação Cientista de Dados - Fernando Amaral e Jones Granatyr
# Contribuição: Adriano Santos

# Algoritmo Random Forest

In [3]:
# Importação das bibliotecas - Este código em Python usa a biblioteca pandas para manipular dados, importa funções do scikit-learn para tarefas de aprendizado de máquina. Ele carrega um conjunto de dados, divide-o em conjuntos de treinamento e teste, realiza a codificação de rótulos categóricos, treina um classificador RandomForest e, finalmente, avalia o desempenho do modelo por meio de uma matriz de confusão e da precisão. É uma implementação básica de classificação usando Random Forest.

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import confusion_matrix, accuracy_score
from sklearn.ensemble import RandomForestClassifier

In [5]:
# Carregamento da base de dados e criação dos previsores - Nesse código, primeiro, é feita a leitura de um arquivo CSV chamado 'Credit.csv' localizado no diretório '../dados/' utilizando a biblioteca pandas (pd). Em seguida, os cinco primeiros registros desse arquivo são exibidos no formato de uma tabela, proporcionando uma rápida visualização dos dados contidos no arquivo. Essa operação é útil para uma análise inicial dos dados contidos no arquivo CSV.

credito = pd.read_csv('../dados/Credit.csv')
credito.head()

Unnamed: 0,checking_status,duration,credit_history,purpose,credit_amount,savings_status,employment,installment_commitment,personal_status,other_parties,...,property_magnitude,age,other_payment_plans,housing,existing_credits,job,num_dependents,own_telephone,foreign_worker,class
0,<0,6,'critical/other existing credit',radio/tv,1169,'no known savings',>=7,4,'male single',none,...,'real estate',67,none,own,2,skilled,1,yes,yes,good
1,0<=X<200,48,'existing paid',radio/tv,5951,<100,1<=X<4,2,'female div/dep/mar',none,...,'real estate',22,none,own,1,skilled,1,none,yes,bad
2,'no checking',12,'critical/other existing credit',education,2096,<100,4<=X<7,2,'male single',none,...,'real estate',49,none,own,1,'unskilled resident',2,none,yes,good
3,<0,42,'existing paid',furniture/equipment,7882,<100,4<=X<7,2,'male single',guarantor,...,'life insurance',45,none,'for free',1,skilled,2,none,yes,good
4,<0,24,'delayed previously','new car',4870,<100,1<=X<4,3,'male single',none,...,'no known property',53,none,'for free',2,skilled,2,none,yes,bad


In [6]:
# Nesse código em Python, estamos usando a biblioteca pandas para carregar um conjunto de dados chamado 'credito'. A primeira linha cria uma variável 'previsores' que armazena os valores das colunas da 0ª à 19ª, ou seja, as informações que usaremos para fazer previsões. A segunda linha cria uma variável 'classe' que armazena os valores da coluna 20, que geralmente é a classe alvo, representando a variável que queremos prever. Essas duas variáveis agora contêm os dados que serão usados em um modelo de aprendizado de máquina para realizar previsões com base nas características do conjunto de dados.

previsores = credito.iloc[:, 0:20].values
classe = credito.iloc[:, 20].values

In [7]:
# Transformação dos atributos categóricos em atributos numéricos, passando o índice de cada atributo categórico

labelencoder = LabelEncoder()
previsores[:,0] = labelencoder.fit_transform(previsores[:,0])
previsores[:,2] = labelencoder.fit_transform(previsores[:,2])
previsores[:, 3] = labelencoder.fit_transform(previsores[:, 3])
previsores[:, 5] = labelencoder.fit_transform(previsores[:, 5])
previsores[:, 6] = labelencoder.fit_transform(previsores[:, 6])
previsores[:, 8] = labelencoder.fit_transform(previsores[:, 8])
previsores[:, 9] = labelencoder.fit_transform(previsores[:, 9])
previsores[:, 11] = labelencoder.fit_transform(previsores[:, 11])
previsores[:, 13] = labelencoder.fit_transform(previsores[:, 13])
previsores[:, 14] = labelencoder.fit_transform(previsores[:, 14])
previsores[:, 16] = labelencoder.fit_transform(previsores[:, 16])
previsores[:, 18] = labelencoder.fit_transform(previsores[:, 18])
previsores[:, 19] = labelencoder.fit_transform(previsores[:, 19])

In [8]:
# Neste código formatado, utilizamos o LabelEncoder da biblioteca scikit-learn para transformar as colunas específicas em dados numéricos. Primeiro, criamos uma lista colunas_para_codificar que contém os índices das colunas que desejamos codificar. Em seguida, percorremos essa lista e aplicamos o LabelEncoder a cada coluna correspondente. Isso torna os dados prontos para serem utilizados em algoritmos de aprendizado de máquina que requerem entradas numéricas.

labelencoder = LabelEncoder()

colunas_para_codificar = [0, 2, 3, 5, 6, 8, 9, 11, 13, 14, 16, 18, 19]

for coluna in colunas_para_codificar:
    previsores[:, coluna] = labelencoder.fit_transform(previsores[:, coluna])


In [9]:
# Divisão da base de dados entre treinamento e teste (30% para testar e 70% para treinar) - Nesse código, estamos dividindo nossos dados em conjuntos de treinamento e teste usando a função `train_test_split`. Os parâmetros `previsores` e `classe` representam nossos dados de entrada e saída, respectivamente. Estamos reservando 30% dos dados para o conjunto de teste, enquanto o restante é usado para treinar nosso modelo. O `random_state=0` garante que a divisão seja reproduzível. Essa etapa é fundamental na construção de modelos de aprendizado de máquina para avaliar o desempenho do modelo em dados não vistos.

X_treinamento, X_teste, y_treinamento, y_teste = train_test_split(
    previsores,
    classe,
    test_size=0.3,
    random_state=0
)


In [17]:
# No código fornecido, estamos exibindo a quantidade de itens nos conjuntos de treinamento e teste de um modelo de machine learning. A primeira linha imprime a quantidade de itens no conjunto de treinamento, enquanto a segunda linha imprime a quantidade de itens no conjunto de teste. Isso é útil para avaliar o tamanho dos dados usados para treinar e testar o modelo, o que pode ser relevante para garantir a representatividade e a eficácia do modelo.

print('Qtd. itens no conj. de treinamento:', len(y_treinamento))
print('Qtd. itens no conj. de teste:', len(X_teste))

Qtd. itens no conj. de treinamento: 700
Qtd. itens no conj. de teste: 300


In [10]:
# Criação do modelo, treinamento, obtenção das previsões e da taxa de acerto - No código apresentado, está sendo utilizado o algoritmo RandomForestClassifier do pacote scikit-learn em Python para criar um modelo de classificação baseado em florestas aleatórias. O parâmetro "n_estimators" define o número de árvores na floresta, neste caso, 100. Em seguida, o modelo é treinado com os dados de treinamento representados por X_treinamento e suas respectivas classes em y_treinamento. Esse código cria um modelo de machine learning que pode ser usado para fazer previsões com base nos dados de entrada fornecidos durante o treinamento.

floresta = RandomForestClassifier(n_estimators = 100)
floresta.fit(X_treinamento, y_treinamento)

In [13]:
# Visualização dos atributos principais - Esse código é usado para acessar os estimadores individuais de um modelo de Floresta Aleatória em Python. O comando "floresta.estimators_" retorna uma lista de todos os estimadores na floresta, enquanto "floresta.estimators_[1]" retorna o segundo estimador da lista (os índices podem variar). Esses estimadores individuais são árvores de decisão que compõem a floresta e podem ser usados para análises mais detalhadas ou interpretação do modelo.

floresta.estimators_
#floresta.estimators_[1]

[DecisionTreeClassifier(max_features='sqrt', random_state=1059395045),
 DecisionTreeClassifier(max_features='sqrt', random_state=1812395462),
 DecisionTreeClassifier(max_features='sqrt', random_state=1019159545),
 DecisionTreeClassifier(max_features='sqrt', random_state=1430072037),
 DecisionTreeClassifier(max_features='sqrt', random_state=1896239291),
 DecisionTreeClassifier(max_features='sqrt', random_state=338060933),
 DecisionTreeClassifier(max_features='sqrt', random_state=1319842222),
 DecisionTreeClassifier(max_features='sqrt', random_state=297201235),
 DecisionTreeClassifier(max_features='sqrt', random_state=1043549099),
 DecisionTreeClassifier(max_features='sqrt', random_state=132675607),
 DecisionTreeClassifier(max_features='sqrt', random_state=1585415824),
 DecisionTreeClassifier(max_features='sqrt', random_state=692385903),
 DecisionTreeClassifier(max_features='sqrt', random_state=533225977),
 DecisionTreeClassifier(max_features='sqrt', random_state=1358409960),
 DecisionTr

In [15]:
# Importe as bibliotecas necessárias, se ainda não foram importadas - Neste código em Python, estamos realizando previsões de um modelo de machine learning chamado "floresta" nos dados de teste (X_teste). Em seguida, calculamos a matriz de confusão para avaliar o desempenho das previsões em relação aos valores reais (y_teste). A taxa de acerto é calculada usando a função accuracy_score e é arredondada para duas casas decimais. Por fim, exibimos a taxa de acerto em formato percentual. Esse código é útil para medir a precisão de um modelo de classificação.

# Faça as previsões usando o modelo floresta.
previsoes = floresta.predict(X_teste)

# Calcule a matriz de confusão.
confusao = confusion_matrix(y_teste, previsoes)

# Calcule a taxa de acerto e arredonde para 2 casas decimais.
taxa_acerto = accuracy_score(y_teste, previsoes)
taxa_acerto = round(taxa_acerto * 100, 2)

# Imprima a taxa de acerto.
print(f"{taxa_acerto}%")


77.67%
