# Problema de classificação

Base **bloodtransf.csv** e um **SVM**. 

## **Importação de bibliotecas e funções e carregamento do dataset**

In [1]:
import pandas as pd 
import numpy as np
from matplotlib import pyplot as plt

# importando função para separar dados de treino e teste
from sklearn.model_selection import train_test_split

# importando métricas de avaliação
from sklearn import metrics

In [2]:
ds_bloodtransf = pd.read_csv('/home/taydias/Documentos/Code/ML-IGTI/datasets/bloodtransf.csv')

## **Conhecendo o dataframe**

In [4]:
# Base de classificação
ds_bloodtransf.head(10)

Unnamed: 0,V1,V2,V3,V4,Class
0,2,50,12500,98,2
1,0,13,3250,28,2
2,1,16,4000,35,2
3,2,20,5000,45,2
4,1,24,6000,77,1
5,4,4,1000,4,1
6,2,7,1750,14,2
7,1,12,3000,35,1
8,2,9,2250,22,2
9,5,46,11500,98,2


## **Quantidade de instâncias e features do dataset**

In [3]:
# Base de classificação
print('Amostras e Features', ds_bloodtransf.shape)

Amostras e Features (748, 5)


## **Verificação da existência de dados faltantes**

### *Dataset: bloodtransf.csv*

In [5]:
# estrutura do dataset
ds_bloodtransf.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 748 entries, 0 to 747
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   V1      748 non-null    int64
 1   V2      748 non-null    int64
 2   V3      748 non-null    int64
 3   V4      748 non-null    int64
 4   Class   748 non-null    int64
dtypes: int64(5)
memory usage: 29.3 KB


In [6]:
# estatísticas do dataset
ds_bloodtransf.describe()

Unnamed: 0,V1,V2,V3,V4,Class
count,748.0,748.0,748.0,748.0,748.0
mean,9.506684,5.514706,1378.676471,34.282086,1.237968
std,8.095396,5.839307,1459.826781,24.376714,0.426124
min,0.0,1.0,250.0,2.0,1.0
25%,2.75,2.0,500.0,16.0,1.0
50%,7.0,4.0,1000.0,28.0,1.0
75%,14.0,7.0,1750.0,50.0,1.0
max,74.0,50.0,12500.0,98.0,2.0


In [7]:
# contagem de valores nulos por coluna
ds_bloodtransf.isnull().sum()

V1       0
V2       0
V3       0
V4       0
Class    0
dtype: int64

## **Classificação (kernel=rbf)**

In [8]:
# separação dos conjuntos de treino e teste
X = ds_bloodtransf[["V1","V2", "V3", "V4"]].values
y = ds_bloodtransf["Class"].values

In [9]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

print('Formato dos dados:', X_train.shape, y_train.shape)
print('Formato dos dados de normalizacao:', X_test.shape, y_test.shape)

Formato dos dados: (561, 4) (561,)
Formato dos dados de normalizacao: (187, 4) (187,)


In [10]:
# importando o modelo SVM
from sklearn.svm import SVC

# importando as métricas que serão usadas para avaliação
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score, confusion_matrix
from sklearn.metrics import classification_report

In [11]:
#cria o objeto SVM
clf = SVC(kernel='rbf')

# treinando o modelo SVM
clf.fit(X_train,y_train)

In [12]:
# aplicando o modelo treinado para previsão
y_pred = clf.predict(X_test)

In [13]:
p = pd.DataFrame({'Real': y_test, 'Previsto': y_pred})
p.head(10)

Unnamed: 0,Real,Previsto
0,1,1
1,1,1
2,1,1
3,1,1
4,1,1
5,1,1
6,1,1
7,1,1
8,1,1
9,1,1


In [14]:
# avaliando o modelo

print('Acurácia: ', metrics.accuracy_score(y_test, y_pred))
print('Precision: ', metrics.precision_score(y_test, y_pred))
print('Recall: ', metrics.recall_score(y_test, y_pred))
print('F1: ', metrics.f1_score(y_test, y_pred))
print('AUROC: ', metrics.roc_auc_score(y_test, y_pred))
print('Matriz de confusão:\n', metrics.confusion_matrix(y_test, y_pred))

Acurácia:  0.7486631016042781
Precision:  0.7473118279569892
Recall:  1.0
F1:  0.8553846153846154
AUROC:  0.5104166666666666
Matriz de confusão:
 [[139   0]
 [ 47   1]]


In [15]:
# imprimindo relatório de métricas de qualidade
print('Classification Report:\n', metrics.classification_report(y_test, y_pred))

Classification Report:
               precision    recall  f1-score   support

           1       0.75      1.00      0.86       139
           2       1.00      0.02      0.04        48

    accuracy                           0.75       187
   macro avg       0.87      0.51      0.45       187
weighted avg       0.81      0.75      0.65       187

