In [1]:
# Formação Cientista de Dados - Fernando Amaral e Jones Granatyr
# Colaboração: Adriano Santos

# Seleção de atributos

In [3]:
# Importação das bibliotecas - Esse código em Python utiliza a biblioteca pandas para manipular dados e as bibliotecas scikit-learn para criar um modelo de classificação. Ele carrega dados, divide-os em conjuntos de treinamento e teste, realiza a codificação de rótulos, e em seguida, aplica um classificador Support Vector Machine (SVM) e um classificador ExtraTrees para tarefas de classificação. Finalmente, ele avalia o desempenho do modelo usando uma matriz de confusão e a precisão. Este código é uma base para criar modelos de machine learning para tarefas de classificação.

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import confusion_matrix, accuracy_score
from sklearn.svm import SVC
from sklearn.ensemble import ExtraTreesClassifier

In [4]:
# O código começa importando a biblioteca "pandas" e lê um arquivo CSV chamado "Credit.csv" de um diretório específico usando o comando "pd.read_csv('../dados/Credit.csv')". Em seguida, ele armazena os dados desse arquivo na variável "credito". Finalmente, o código exibe os dados, mostrando o conteúdo do DataFrame "credito" na saída, permitindo a visualização dos dados contidos no arquivo CSV.

credito = pd.read_csv('../dados/Credit.csv')
credito

Unnamed: 0,checking_status,duration,credit_history,purpose,credit_amount,savings_status,employment,installment_commitment,personal_status,other_parties,...,property_magnitude,age,other_payment_plans,housing,existing_credits,job,num_dependents,own_telephone,foreign_worker,class
0,<0,6,'critical/other existing credit',radio/tv,1169,'no known savings',>=7,4,'male single',none,...,'real estate',67,none,own,2,skilled,1,yes,yes,good
1,0<=X<200,48,'existing paid',radio/tv,5951,<100,1<=X<4,2,'female div/dep/mar',none,...,'real estate',22,none,own,1,skilled,1,none,yes,bad
2,'no checking',12,'critical/other existing credit',education,2096,<100,4<=X<7,2,'male single',none,...,'real estate',49,none,own,1,'unskilled resident',2,none,yes,good
3,<0,42,'existing paid',furniture/equipment,7882,<100,4<=X<7,2,'male single',guarantor,...,'life insurance',45,none,'for free',1,skilled,2,none,yes,good
4,<0,24,'delayed previously','new car',4870,<100,1<=X<4,3,'male single',none,...,'no known property',53,none,'for free',2,skilled,2,none,yes,bad
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,'no checking',12,'existing paid',furniture/equipment,1736,<100,4<=X<7,3,'female div/dep/mar',none,...,'real estate',31,none,own,1,'unskilled resident',1,none,yes,good
996,<0,30,'existing paid','used car',3857,<100,1<=X<4,4,'male div/sep',none,...,'life insurance',40,none,own,1,'high qualif/self emp/mgmt',1,yes,yes,good
997,'no checking',12,'existing paid',radio/tv,804,<100,>=7,4,'male single',none,...,car,38,none,own,1,skilled,1,none,yes,good
998,<0,45,'existing paid',radio/tv,1845,<100,1<=X<4,4,'male single',none,...,'no known property',23,none,'for free',1,skilled,1,yes,yes,bad


In [5]:
# Nesse código, estamos utilizando a biblioteca pandas em Python para manipular um conjunto de dados chamado "credito". A variável "previsores" está sendo definida para armazenar as primeiras 20 colunas desse conjunto de dados, enquanto a variável "classe" armazena a última coluna, que geralmente é a classe alvo em problemas de aprendizado de máquina. Essas variáveis são criadas para preparar os dados para análise ou treinamento de modelos de machine learning, separando as características (previsores) das etiquetas ou classes (classe) que queremos prever.

previsores = credito.iloc[:,0:20].values
classe = credito.iloc[:,20].values

In [6]:
# Transformação dos atributos categóricos em atributos numéricos, passando o índice de cada atributo categórico - Nesse código, estamos utilizando o `LabelEncoder` para transformar variáveis categóricas em números inteiros. Isso é útil em algoritmos de aprendizado de máquina que requerem dados numéricos. Para cada coluna especificada em `previsores`, aplicamos o `fit_transform` do `LabelEncoder` para mapear as categorias únicas presentes nessa coluna para valores inteiros, substituindo os valores originais no array `previsores`. Isso permite que o modelo de machine learning processe e utilize esses dados de maneira eficaz, pois agora eles estão codificados numericamente.


labelencoder = LabelEncoder()
previsores[:,0] = labelencoder.fit_transform(previsores[:,0])
previsores[:,2] = labelencoder.fit_transform(previsores[:,2])
previsores[:, 3] = labelencoder.fit_transform(previsores[:, 3])
previsores[:, 5] = labelencoder.fit_transform(previsores[:, 5])
previsores[:, 6] = labelencoder.fit_transform(previsores[:, 6])
previsores[:, 8] = labelencoder.fit_transform(previsores[:, 8])
previsores[:, 9] = labelencoder.fit_transform(previsores[:, 9])
previsores[:, 11] = labelencoder.fit_transform(previsores[:, 11])
previsores[:, 13] = labelencoder.fit_transform(previsores[:, 13])
previsores[:, 14] = labelencoder.fit_transform(previsores[:, 14])
previsores[:, 16] = labelencoder.fit_transform(previsores[:, 16])
previsores[:, 18] = labelencoder.fit_transform(previsores[:, 18])
previsores[:, 19] = labelencoder.fit_transform(previsores[:, 19])

In [7]:
# Divisão da base de dados entre treinamento e teste (30% para testar e 70% para treinar) - Neste código, estamos dividindo nossos dados em conjuntos de treinamento e teste para um modelo de aprendizado de máquina. Utilizamos a função train_test_split do scikit-learn, onde previsores são os dados que contêm as características de entrada e classe são os rótulos de saída. Definimos que 30% dos dados serão usados para teste (test_size = 0.3) e fixamos uma semente aleatória (random_state = 1) para garantir reprodutibilidade. Os conjuntos resultantes são X_treinamento, X_teste, y_treinamento e y_teste, que serão usados para treinar e avaliar nosso modelo.

X_treinamento, X_teste, y_treinamento, y_teste = train_test_split(
    previsores, classe, test_size = 0.3, random_state = 1
)

In [9]:
# Criação do modelo, treinamento, obtenção das previsões e da taxa de acerto - No código apresentado, estamos utilizando a biblioteca Scikit-Learn em Python para criar e treinar um modelo de Support Vector Machine (SVM) para classificação. Primeiro, instanciamos o SVM com `SVC()`, que representa o classificador SVM. Em seguida, utilizamos o método `fit()` para treinar o modelo com os dados de treinamento `X_treinamento` e seus rótulos correspondentes `y_treinamento`. Esse processo permite ao SVM aprender a separar os dados de treinamento em classes distintas, tornando-o capaz de realizar previsões posteriormente com base nesse aprendizado.

svm = SVC()
svm.fit(X_treinamento, y_treinamento)

In [10]:
# No código fornecido, primeiro, realizo previsões usando um modelo SVM (Support Vector Machine) para dados de teste, armazenando essas previsões na variável 'previsoes'. Em seguida, a variável 'previsoes' é exibida, mostrando os resultados das previsões geradas pelo modelo SVM. Esse código é fundamental para avaliar o desempenho do modelo ao fazer previsões com base nos dados de teste.

previsoes = svm.predict(X_teste)
previsoes

array(['good', 'bad', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'bad', 'good', 'good',
       'bad', 'good', 'good', 'bad', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'bad', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'bad', 'good', 'good', 'good',
       'good

In [9]:
# O código calcula a taxa de acerto de um modelo de aprendizado de máquina. Ele utiliza a função "accuracy_score" para comparar as previsões feitas pelo modelo (variável "previsoes") com os valores reais do conjunto de teste (variável "y_teste"). O resultado, armazenado na variável "taxa_acerto", representa a proporção de previsões corretas em relação ao total de previsões, avaliando assim a eficácia do modelo em classificar os dados de teste. Em seguida, o valor da taxa de acerto é exibido na saída.

taxa_acerto = accuracy_score(y_teste, previsoes)
taxa_acerto

0.7166666666666667

In [11]:
# Nesse código, calculamos a taxa de acerto de um modelo de machine learning. Primeiro, utilizamos a função 'accuracy_score' para comparar as previsões do modelo (previsoes) com os valores reais (y_teste) e obter a taxa de acerto. Em seguida, multiplicamos esse valor por 100 e arredondamos para duas casas decimais para obter uma representação percentual. Por fim, exibimos essa taxa de acerto formatada com o símbolo de porcentagem usando a função 'print'.

taxa_acerto = accuracy_score(y_teste, previsoes)
taxa_acerto = round(taxa_acerto * 100, 2)
print(f"{taxa_acerto}%")


71.67%


In [12]:
# Utilização do algoritmo ExtraTreesClassifier para extrair as características mais importantes - Este código em Python utiliza o modelo de classificação "ExtraTreesClassifier" para treinar um conjunto de dados representado por X_treinamento e y_treinamento. Em seguida, ele calcula a importância das características (features) do conjunto de dados e armazena esses valores em uma variável chamada "importancias". O resultado final é a exibição dessas importâncias. Esse código é comumente usado para identificar quais características têm mais influência na tomada de decisão do modelo de machine learning.

forest = ExtraTreesClassifier()
forest.fit(X_treinamento, y_treinamento)
importancias = forest.feature_importances_
importancias

array([0.10601027, 0.07702262, 0.06804809, 0.05838739, 0.08027036,
       0.0536805 , 0.05337297, 0.05313208, 0.04278855, 0.02779546,
       0.049776  , 0.04700316, 0.07008111, 0.04307913, 0.03808374,
       0.03043832, 0.04070652, 0.02320706, 0.03080488, 0.0063118 ])

In [13]:
# Criação de nova base de dados utilizando somente os atributos mais importantes - Claro, vou explicar o código em um parágrafo conciso. Este trecho de código realiza uma operação de fatiamento em matrizes. Ele cria duas novas matrizes, 'X_treinamento2' e 'X_teste2', a partir da matriz original 'X_treinamento' e 'X_teste', selecionando apenas as colunas de índices 0, 1, 2 e 3. Isso é útil quando você deseja trabalhar com um subconjunto específico de características (colunas) dos seus dados de treinamento e teste em um contexto de aprendizado de máquina ou análise de dados.

X_treinamento2 = X_treinamento[:,[0,1,2,3]]
X_teste2 = X_teste[:,[0,1,2,3]]

In [14]:
# Criar de outro modelo com a base de dados reduzida, treinamento e obtençaão das previsões e taxa de acerto - Neste código, estamos utilizando uma máquina de vetores de suporte (SVM) para criar um modelo de classificação. Primeiro, inicializamos o modelo SVM (svm2) e o treinamos com os dados de treinamento (X_treinamento2 e y_treinamento). Em seguida, fazemos previsões com base nos dados de teste (X_teste2) e armazenamos essas previsões em 'previsoes2'. Calculamos a taxa de acerto do modelo utilizando a função 'accuracy_score' em comparação com os rótulos reais (y_teste) e a armazenamos em 'taxa_acerto'. Por fim, a variável 'taxa_acerto' contém a porcentagem de acertos do modelo SVM nas previsões feitas com os dados de teste.

svm2 = SVC()
svm2.fit(X_treinamento2, y_treinamento)
previsoes2 = svm2.predict(X_teste2)
taxa_acerto = accuracy_score(y_teste, previsoes2)
taxa_acerto

0.7233333333333334

In [15]:
# Neste código, é realizada uma classificação de dados usando uma máquina de vetores de suporte (SVM). Primeiro, um modelo SVM é criado e treinado com os dados de treinamento (X_treinamento2 e y_treinamento). Em seguida, o modelo é usado para fazer previsões nos dados de teste (X_teste2) e calcular a taxa de acerto comparando as previsões com as classes reais. A taxa de acerto é apresentada como uma porcentagem arredondada com duas casas decimais. Este código é usado para avaliar o desempenho do modelo SVM na classificação dos dados de teste e exibir a taxa de acerto.

svm2 = SVC()
svm2.fit(X_treinamento2, y_treinamento)
previsoes2 = svm2.predict(X_teste2)
taxa_acerto = accuracy_score(y_teste, previsoes2)
taxa_acerto = round(taxa_acerto * 100, 2)
print(f"{taxa_acerto}%")


72.33%
