Pontif√≠cia Universidade Cat√≥lica de S√£o Paulo 

`Ci√™ncia de Dados e Intelig√™ncia Artificial`

üéì Laborat√≥rio 10 - Support Vector Machines

13 de outubro de 2022


---
> üë®‚Äçüè´*Professor Rooney Coelho (rracoelho@pucsp.br)*
---




Neste aula voc√™ usar√° SVM (Support Vector Machines) para construir e treinar um modelo usando registros de c√©lulas humanas e classificar as c√©lulas se as amostras s√£o benignas ou malignas.

O SVM funciona mapeando dados para um espa√ßo de recursos de alta dimens√£o para que os pontos de dados possam ser categorizados, mesmo quando os dados n√£o s√£o linearmente separ√°veis. Um separador entre as categorias √© encontrado, ent√£o os dados s√£o transformados de tal forma que o separador pode ser desenhado como um hiperplano. Em seguida, as caracter√≠sticas dos novos dados podem ser usadas para prever o grupo ao qual um novo registro deve pertencer.

In [6]:
# Depend√™ncias
import pandas as pd
import numpy as np
from sklearn import svm
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

### Importa√ß√£o e limpeza dos dados

1) Importe os dados da seguinte url: https://s3-api.us-geo.objectstorage.softlayer.net/cf-courses-data/CognitiveClass/ML0101ENv3/labs/cell_samples.csv

In [2]:
# Carrega o dataset
df = pd.read_csv('https://s3-api.us-geo.objectstorage.softlayer.net/cf-courses-data/CognitiveClass/ML0101ENv3/labs/cell_samples.csv')
df

Unnamed: 0,ID,Clump,UnifSize,UnifShape,MargAdh,SingEpiSize,BareNuc,BlandChrom,NormNucl,Mit,Class
0,1000025,5,1,1,1,2,1,3,1,1,2
1,1002945,5,4,4,5,7,10,3,2,1,2
2,1015425,3,1,1,1,2,2,3,1,1,2
3,1016277,6,8,8,1,3,4,3,7,1,2
4,1017023,4,1,1,3,2,1,3,1,1,2
...,...,...,...,...,...,...,...,...,...,...,...
694,776715,3,1,1,1,3,2,1,1,1,2
695,841769,2,1,1,1,2,1,1,1,1,2
696,888820,5,10,10,3,7,3,8,10,2,4
697,897471,4,8,6,4,3,4,10,6,1,4


O campo ID cont√©m os identificadores do paciente. As caracter√≠sticas das amostras de c√©lulas de cada paciente est√£o contidas nos campos Clump √† Mit. Os valores s√£o classificados de 1 a 10, sendo 1 o mais pr√≥ximo de benigno.

O campo Class cont√©m o diagn√≥stico, conforme confirmado por procedimentos m√©dicos separados, se as amostras s√£o benignas (valor = 2) ou malignas (valor = 4).

Vejamos a distribui√ß√£o das classes com base Clump thickness e Uniformity of cell size:

2) Use o m√©todo `info()` para chechar quais colunas possuem valroes n√£o num√©ricos.

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 699 entries, 0 to 698
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   ID           699 non-null    int64 
 1   Clump        699 non-null    int64 
 2   UnifSize     699 non-null    int64 
 3   UnifShape    699 non-null    int64 
 4   MargAdh      699 non-null    int64 
 5   SingEpiSize  699 non-null    int64 
 6   BareNuc      699 non-null    object
 7   BlandChrom   699 non-null    int64 
 8   NormNucl     699 non-null    int64 
 9   Mit          699 non-null    int64 
 10  Class        699 non-null    int64 
dtypes: int64(10), object(1)
memory usage: 60.2+ KB


Note que a coluna `BareNuc` possui valores n√£o num√©ricos. Vamos usar agora o m√©todo `unique()` nesta coluna para ver quais s√£o os valores √∫nicos dessa coluna.

In [4]:
# Valores de BareNuc
df['BareNuc'].unique()

array(['1', '10', '2', '4', '3', '9', '7', '?', '5', '8', '6'],
      dtype=object)

3) Veja que os valores faltantes na coluna `BareNuc` s√£o iguais a `'?'`. Use o m√©todo `replace()` em `df` para substituir `'?'` por `np.NaN`. Sobreescreva `df` para n√£o perder a altera√ß√£o realizada.

In [7]:
df_copy = df.copy() # Copiando o dataframe para backup

df['BareNuc'] = df_copy['BareNuc'].replace('?', np.NaN) # Substituindo '?' por NaN

4. Remova agora os dados faltantes usando `dropna()`

In [8]:
# Dropando as linhas com valores faltantes
df.dropna(inplace=True)

Converta a coluna para `int` usando o m√©todo `astype()`.

In [9]:
# Convertendo a coluna BareNuc para int
df['BareNuc'] = df['BareNuc'].astype('int')

### Identifica√ß√£o das features e target

4) Crie um DataFrame `X` com todas as features. Lembrando que o target √© o atributo Class e que ID n√£o √© uma feature.

In [10]:
X = df.iloc[:, 1:10].values # Selecionando as colunas de 1 a 9 (todas as colunas menos ID e Class)

5) Segmente o Dataframe para a representa√ß√£o do Target (Class)

In [11]:
y = df['Class'].values # Selecionando a coluna Class

## Padroniza√ß√£o dos dados

A padroniza√ß√£o de recursos √© crucial para alguns algoritmos de aprendizado de m√°quina que consideram dist√¢ncias entre observa√ß√µes porque a dist√¢ncia entre duas observa√ß√µes difere para casos n√£o padronizados e padronizados.

Maximizamos no SVM a dist√¢ncia at√© os pontos de dados mais pr√≥ximos de diferentes classes. Portanto, a dist√¢ncia calculado entre os pontos de dados afeta o limite de decis√£o que o SVM escolhe. Em outras palavras, treinar um SVM sobre os dados padronizados e n√£o padronizados leva √† gera√ß√£o de modelos diferentes.

6. Use o `StandardScaler()` para padronizar os dados.

In [12]:
# Padronizando os dados
scaler = StandardScaler()
X = scaler.fit_transform(X)

### Separa√ß√£o dos dados para teste e valida√ß√£o.

7) Divida os dados em treino e teste com a fun√ß√£o `train_test_split()`. Separe 20% dos dados para valida√ß√£o.

In [13]:
# Dividindo o dataset em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

Verifique se as dimens√µes dos dados de teste e valida√ß√£o est√£o coerentes usando o m√©todo `shape()`.

In [14]:
print('X_train: ', X_train.shape)
print('y_train: ', y_train.shape)
print('X_test: ', X_test.shape)
print('y_test: ', y_test.shape)

X_train:  (546, 9)
y_train:  (546,)
X_test:  (137, 9)
y_test:  (137,)


### Treinamento e avalia√ß√£o da SVM criada

O algoritmo SVM oferece uma escolha de fun√ß√µes de kernel para realizar seu processamento. Basicamente, o mapeamento de dados em um espa√ßo dimensional superior √© chamado de kernelling. A fun√ß√£o matem√°tica usada para a transforma√ß√£o √© conhecida como fun√ß√£o kernel e pode ser de diferentes tipos, como:

     1. Linear
     2. Polin√¥mio
     3. Fun√ß√£o de base radial (RBF)
     4. Sigm√≥ide
Cada uma dessas fun√ß√µes tem suas caracter√≠sticas, seus pr√≥s e contras e sua equa√ß√£o, mas como n√£o h√° uma maneira f√°cil de saber qual fun√ß√£o tem o melhor desempenho com qualquer dataset, geralmente escolhemos fun√ß√µes diferentes e comparamos os resultados. 

8) Utilize a Fun√ß√£o de base radial (RBF) como kernel. O classificador SVM √© representado pelo m√©todo `SVC`

In [15]:
# Treinando o modelo
clf = svm.SVC(kernel='rbf')
clf.fit(X_train, y_train)

SVC()

9) Use o m√©todo `score()` para avaliar a performance de seu classificador.

In [17]:
# Avaliando o modelo
print('Acur√°cia: ', clf.score(X_test, y_test))

Acur√°cia:  0.9562043795620438
