# Imports

In [27]:
import pandas as pd
import arff
from sklearn.preprocessing import MinMaxScaler, StandardScaler, Normalizer, Binarizer, scale, OneHotEncoder, LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score



# Read data

* **English version**: This code snippet loads a file in ARFF format ('data/phpPrh7lv.arff'), reads its contents and stores them in a data structure using the arff library. It then creates a Pandas DataFrame with the data extracted from the ARFF file, using the columns specified in the attributes file.

* **Portuguese version**: Este trecho de código carrega um arquivo no formato ARFF ('data/phpPrh7lv.arff'), lê seu conteúdo e o armazena em uma estrutura de dados usando a biblioteca arff. Em seguida, ele cria um DataFrame do Pandas com os dados extraídos do arquivo ARFF, usando as colunas especificadas no arquivo de atributos.

In [28]:
with open('data/phpPrh7lv.arff', 'r') as file:
    arff_data = arff.load(file)

data = pd.DataFrame(arff_data['data'], columns=[i[0] for i in arff_data['attributes']])
data

Unnamed: 0,V1,V2,V3,V4,V5,V6,V7,Class
0,15.26,14.84,0.8710,5.763,3.312,2.221,5.220,1
1,14.88,14.57,0.8811,5.554,3.333,1.018,4.956,1
2,14.29,14.09,0.9050,5.291,3.337,2.699,4.825,1
3,13.84,13.94,0.8955,5.324,3.379,2.259,4.805,1
4,16.14,14.99,0.9034,5.658,3.562,1.355,5.175,1
...,...,...,...,...,...,...,...,...
205,12.19,13.20,0.8783,5.137,2.981,3.631,4.870,3
206,11.23,12.88,0.8511,5.140,2.795,4.325,5.003,3
207,13.20,13.66,0.8883,5.236,3.232,8.315,5.056,3
208,11.84,13.21,0.8521,5.175,2.836,3.598,5.044,3


# Preprocessing

* **English version**: The code performs data pre-processing, removing missing values, scaling the data to a specific range and normalizing it in a DataFrame using the MinMaxScaler function from the scikit-learn library. First, missing values are removed from the data set. Next, the data is scaled between 0 and 1. Finally, the normalized data is organized in a DataFrame, using the column names from a set of attributes.

* **Portuguese version**: O código realiza o pré-processamento de dados, removendo valores ausentes, escalando os dados para um intervalo específico e normalizando-os em um DataFrame utilizando a função MinMaxScaler da biblioteca scikit-learn. Primeiro, os valores ausentes são removidos do conjunto de dados. Em seguida, os dados são escalados entre 0 e 1. Por fim, os dados normalizados são organizados em um DataFrame, utilizando os nomes das colunas provenientes de um conjunto de atributos.

In [29]:
data_without_nan = data.dropna()
scaler = MinMaxScaler(feature_range=(0,1))
scaled_data = scaler.fit_transform(data_without_nan)
data_normalized = pd.DataFrame(scaled_data, columns=[i[0] for i in arff_data['attributes']])


# Data splitting

* **English version**: This code snippet splits a normalized data set into training and test sets using the train_test_split function. The data_normalized variable contains the data to be split, the test_size parameter determines the proportion of the test set (4.7% in this case) and random_state sets the seed for randomness in splitting the data, ensuring reproducibility of the results. The train and test variables store the training and test data sets respectively.

* **Portuguese version**: Esse trecho de código divide um conjunto de dados normalizados em conjuntos de treino e teste usando a função train_test_split. A variável data_normalized contém os dados a serem divididos, o parâmetro test_size determina a proporção do conjunto de teste (4.7% neste caso) e random_state define a semente para a aleatoriedade na divisão dos dados, garantindo reprodutibilidade dos resultados. As variáveis train e test armazenam os conjuntos de dados de treino e teste, respectivamente.

In [30]:

train, test = train_test_split(data_normalized, test_size=0.047, random_state=1)

# Learning techniques

## Decision tree

* **English version**: The code trains and uses a Decision Tree for classification. First, the training data is prepared by removing the 'Class' column for attributes (x_train) and defining 'Class' as the target (y_train). Next, a Decision Tree is initialized and trained with the training data. After training, the test data is prepared in the same way and used to make predictions using the trained Decision Tree. The predictions are stored in the 'predictions' variable.

* **Portuguese version**: O código realiza o treinamento e uso de uma Árvore de Decisão para classificação. Primeiro, os dados de treino são preparados, removendo a coluna 'Class' para atributos (x_train) e definindo 'Class' como o alvo (y_train). Em seguida, uma Árvore de Decisão é inicializada e treinada com os dados de treino. Após o treinamento, os dados de teste são preparados da mesma forma e usados para fazer previsões usando a Árvore de Decisão treinada. As previsões são armazenadas na variável 'predictions'.

In [31]:
x_train = train.drop('Class', axis=1)
y_train = train['Class'].astype('int')

decision_tree = DecisionTreeClassifier()
decision_tree.fit(x_train, y_train)


x_test = test.drop('Class', axis=1)
predictions = decision_tree.predict(x_test)
# 5 - Decision Tree
predictions

array([0, 1, 0, 1, 0, 0, 0, 1, 1, 1])

## Gaussian Bayes

* **English version**: This code snippet implements a Gaussian Naive Bayes classifier. The model is created using the GaussianNB() class and trained with training data x_train and their respective labels y_train using the fit() method. Predictions are then made using the test data set x_test using the predict() method and stored in the bayes_predictions variable. The line commented with #5 - Naive Bayes possibly suggests a marking or reference to indicate the type of algorithm used.

* **Portuguese version**: Este trecho de código realiza a implementação de um classificador Naive Bayes Gaussiano. O modelo é criado usando a classe GaussianNB() e treinado com dados de treinamento x_train e seus respectivos rótulos y_train usando o método fit(). Em seguida, são feitas previsões utilizando o conjunto de dados de teste x_test por meio do método predict() e armazenadas na variável bayes_predictions. A linha comentada com # 5 - Naive Bayes sugere possivelmente uma marcação ou referência para indicar o tipo de algoritmo utilizado.

In [32]:

bayes_classifier = GaussianNB()
bayes_classifier.fit(x_train, y_train)

bayes_predictions = bayes_classifier.predict(x_test)
# 5 - Naive Bayes
bayes_predictions

array([0, 1, 0, 1, 0, 0, 0, 1, 1, 1])

## SVM


* **English version**: This code uses an SVM (support vector machine) classifier to make predictions on a data set. First, the SVM is instantiated using SVC(). It is then trained with the training data (x_train) and its respective labels (y_train) using the fit() method. It then uses the trained model to make predictions on the test data (x_test) using predict(), and the resulting predictions are stored in the svm_predictions variable. Comment #5 - SVM indicates the section of the code related to the predictions made by the SVM.

* **Portuguese version**: Este código emprega um classificador SVM (máquina de vetores de suporte) para realizar previsões em um conjunto de dados. Primeiro, o SVM é instanciado usando SVC(). Em seguida, é treinado com os dados de treinamento (x_train) e seus respectivos rótulos (y_train) por meio do método fit(). Posteriormente, utiliza o modelo treinado para fazer previsões nos dados de teste (x_test) usando predict(), e as previsões resultantes são armazenadas na variável svm_predictions. O comentário # 5 - SVM indica a seção do código relacionada às previsões feitas pelo SVM.

In [33]:
svm_classifier = SVC()
svm_classifier.fit(x_train, y_train)

svm_predictions = svm_classifier.predict(x_test)

# 5 - SVM 
svm_predictions

array([0, 1, 0, 1, 0, 0, 0, 1, 1, 1])

# Accuracy

* **English version**: This code evaluates the accuracy of three machine learning models - Decision Tree, Naive Bayes and SVM - against a set of test data. It extracts the actual answers from the test, converting the values in the 'Class' column to integer. It then calculates the accuracy of each model by comparing the actual responses with their corresponding predictions. Finally, it displays the accuracy of each model: Decision Tree, Naive Bayes and SVM.

* **Portuguese version**: Este código avalia a precisão de três modelos de machine learning - Decision Tree, Naive Bayes e SVM - em relação a um conjunto de dados de teste. Extrai as respostas reais do teste, convertendo os valores da coluna 'Class' para inteiro. Em seguida, calcula a precisão de cada modelo comparando as respostas reais com suas previsões correspondentes. Por fim, exibe a precisão de cada modelo: Decision Tree, Naive Bayes e SVM.

In [43]:
answer = test['Class'].astype('int').values


tree = accuracy_score(answer, predictions)
bayes = accuracy_score(answer, bayes_predictions)
svm = accuracy_score(answer, svm_predictions)

print('Decision Tree: ', tree)
print('Naive Bayes: ', bayes)
print('SVM: ', svm)



Decision Tree:  1.0
Naive Bayes:  1.0
SVM:  1.0
