<h1>Atividade 02 - melhorar o desempenho de RP em conjunto de dados existentes</h1>
<p>A atividade 02 visa trabalhar com um conjunto de dados pré-construído, onde as opções que o desenvolvedor tem, são de aplicar as técnicas de pré-processamento abaixo relacionadas:</p>
<ul><li>Seleção</li>
<li>Limpeza</li>
<li>Codificação</li>
<li>Enriquecimento</li>
<li>Normalização</li>
<li>Construção de Atributos</li>
<li>Correção de Prevalência</li>
<li>Partição do Conjunto de Dados</li>
</ul>
<p>Busque uma base de dados na UCI Machine Learning que seja indicada para problemas de classificação. (<a target="_blank" href="https://archive.ics.uci.edu/datasets">https://archive.ics.uci.edu/datasets</a>)</p>
<p>Para esse exemplo, vou usar a base de câncer de mama (https://archive.ics.uci.edu/dataset/17/breast+cancer+wisconsin+diagnostic)</p>


Opção 01 - carregue o arquivo de dados da pasta local para o colab.


In [2]:
import numpy as np
import pandas as pd
#
# base de dados disponível na UCI Machine Learning - https://archive.ics.uci.edu/dataset/17/breast+cancer+wisconsin+diagnostic
cancer_colunas = ['id','Diagnosis',
                  'radius_mean','texture_mean','perimeter_mean', 'area_mean',
                  'smoothness_mean','compactness_mean','concavity_mean',
                  'concave_mean','symmetry_mean','fractal_mean',

                  'radius_se','texture_se','perimeter_se', 'area_se','smoothness_se',
                  'compactness_se','concavity_se','concave_se','symmetry_se','fractal_se'

                  'radius_worst','texture_worst','perimeter_worst', 'area_worst',
                  'smoothness_worst','compactness_worst','concavity_worst',
                  'concave_worst','symmetry_worst','fractal_worst']
cancer = pd.read_csv('data/wdbc.data',header=None,
                     names=cancer_colunas, lineterminator='\n', na_values='?')

# visualizar parte dos dados
print( cancer.head() )

#
# caso queira usar do google-drivre
#from google.colab import drive
#drive.mount('/content/drive')
#drive.mount(“/content/drive”, force_remount=True)

         id  Diagnosis  radius_mean  texture_mean  perimeter_mean  area_mean  \
842302    M      17.99        10.38        122.80          1001.0    0.11840   
842517    M      20.57        17.77        132.90          1326.0    0.08474   
84300903  M      19.69        21.25        130.00          1203.0    0.10960   
84348301  M      11.42        20.38         77.58           386.1    0.14250   
84358402  M      20.29        14.34        135.10          1297.0    0.10030   

          smoothness_mean  compactness_mean  concavity_mean  concave_mean  \
842302            0.27760            0.3001         0.14710        0.2419   
842517            0.07864            0.0869         0.07017        0.1812   
84300903          0.15990            0.1974         0.12790        0.2069   
84348301          0.28390            0.2414         0.10520        0.2597   
84358402          0.13280            0.1980         0.10430        0.1809   

          ...  fractal_seradius_worst  texture_worst  pe

Para baixar direto da web e tratar arquivos compactados, sem o uso de arquivos locais.


In [None]:
import requests, zipfile, io
from io import BytesIO
import numpy as np
import pandas as pd

r = requests.get('https://archive.ics.uci.edu/static/public/17/breast+cancer+wisconsin+diagnostic.zip')
z = zipfile.ZipFile(io.BytesIO(r.content))
z.namelist()
dadosfp = z.open('wdbc.data')
dados = dadosfp.read()
cancer2 = pd.read_csv(io.BytesIO(dados),header=None,
                     names=cancer_colunas, lineterminator='\n', na_values='?')
print( cancer.head() )

cancer.describe()

<h2>Hora de realizar os tratamentos<h2>
<p>no exemplo, iremos normalizar as colunas, remover a coluna de identificação e separar a classe dos atributos.</p>

In [3]:
X = cancer.iloc[:,2:]
cols = cancer_colunas[2:]
print(X.head())
Y = cancer['id']
Y_orig = cancer['id']
print(Y.unique())

          radius_mean  texture_mean  perimeter_mean  area_mean  \
842302          10.38        122.80          1001.0    0.11840   
842517          17.77        132.90          1326.0    0.08474   
84300903        21.25        130.00          1203.0    0.10960   
84348301        20.38         77.58           386.1    0.14250   
84358402        14.34        135.10          1297.0    0.10030   

          smoothness_mean  compactness_mean  concavity_mean  concave_mean  \
842302            0.27760            0.3001         0.14710        0.2419   
842517            0.07864            0.0869         0.07017        0.1812   
84300903          0.15990            0.1974         0.12790        0.2069   
84348301          0.28390            0.2414         0.10520        0.2597   
84358402          0.13280            0.1980         0.10430        0.1809   

          symmetry_mean  fractal_mean  ...  fractal_seradius_worst  \
842302          0.07871        1.0950  ...                   25.38   


Na próxima seção que deverão ser realizada as tentativas de tratamento de dados, visando a melhoria no desempenho do classificador (SVM).

In [4]:
from sklearn.preprocessing import scale
from sklearn.preprocessing import minmax_scale
import pandas as pd

X_orig =  X.copy()
print(X_orig.head())

print(Y_orig.unique() )

# normalização min-max
X = pd.DataFrame( minmax_scale(X) )

print(X_orig.head())
print(X.head())

# A normalização pode ser manual, usando o pandas... ex:
#X['radius_mean'] = (X_orig['radius_mean']-X_orig['radius_mean'].mean()) / X_orig['radius_mean'].std()
# normalização min-max
#X['texture_mean'] = (X_orig['texture_mean']-X_orig['texture_mean'].min()) / (X_orig['texture_mean'].max()-X_orig['texture_mean'].min())

          radius_mean  texture_mean  perimeter_mean  area_mean  \
842302          10.38        122.80          1001.0    0.11840   
842517          17.77        132.90          1326.0    0.08474   
84300903        21.25        130.00          1203.0    0.10960   
84348301        20.38         77.58           386.1    0.14250   
84358402        14.34        135.10          1297.0    0.10030   

          smoothness_mean  compactness_mean  concavity_mean  concave_mean  \
842302            0.27760            0.3001         0.14710        0.2419   
842517            0.07864            0.0869         0.07017        0.1812   
84300903          0.15990            0.1974         0.12790        0.2069   
84348301          0.28390            0.2414         0.10520        0.2597   
84358402          0.13280            0.1980         0.10430        0.1809   

          symmetry_mean  fractal_mean  ...  fractal_seradius_worst  \
842302          0.07871        1.0950  ...                   25.38   


A próxima seção trata da construção do modelo, dos testes e das métricas da matriz de confusão.

In [5]:
from sklearn.model_selection import train_test_split
import numpy as np

# com os dados originais
X_oring_train, X_orig_test, y_orig_train, y_orig_test = train_test_split(X_orig,
                      Y_orig, test_size=0.25, stratify=Y_orig,random_state=10)

# com os dados tratados
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.25,
                                                    stratify=Y,random_state=10)

Treina o modelo com base nos dados originais (SVM).

In [6]:

from sklearn import svm
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report

treinador = svm.SVC()  #algoritmo escolhido

modelo_orig = treinador.fit(X_oring_train, y_orig_train)

# predição com os mesmos dados usados para treinar
y_orig_pred = modelo_orig.predict(X_oring_train)
cm_orig_train = confusion_matrix(y_orig_train, y_orig_pred)
print('Matriz de confusão - com os dados ORIGINAIS usados no TREINAMENTO')
print(cm_orig_train)
print(classification_report(y_orig_train, y_orig_pred))

# predição com os mesmos dados usados para testar
print('Matriz de confusão - com os dados ORIGINAIS usados para TESTES')
y2_orig_pred = modelo_orig.predict(X_orig_test)
cm_orig_test = confusion_matrix(y_orig_test, y2_orig_pred)
print(cm_orig_test)
print(classification_report(y_orig_test, y2_orig_pred))


Matriz de confusão - com os dados ORIGINAIS usados no TREINAMENTO
[[265   2]
 [ 34 125]]
              precision    recall  f1-score   support

           B       0.89      0.99      0.94       267
           M       0.98      0.79      0.87       159

    accuracy                           0.92       426
   macro avg       0.94      0.89      0.91       426
weighted avg       0.92      0.92      0.91       426

Matriz de confusão - com os dados ORIGINAIS usados para TESTES
[[87  3]
 [ 9 44]]
              precision    recall  f1-score   support

           B       0.91      0.97      0.94        90
           M       0.94      0.83      0.88        53

    accuracy                           0.92       143
   macro avg       0.92      0.90      0.91       143
weighted avg       0.92      0.92      0.91       143



Como os dados ficam após os processos de tratamento dos dados?

In [7]:
from sklearn import svm
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report

treinador = svm.SVC()  #algoritmo escolhido

modelo = treinador.fit(X_train, y_train)

# predição com os mesmos dados usados para treinar
y_pred = modelo.predict(X_train)
cm_train = confusion_matrix(y_train, y_pred)
print('Matriz de confusão - com os dados TRATADOS usados no TREINAMENTO')
print(cm_train)
print(classification_report(y_train, y_pred))

# predição com os mesmos dados usados para testar
print('Matriz de confusão - com os dados ORIGINAIS usados para TESTES')
y2_pred = modelo.predict(X_test)
cm_test = confusion_matrix(y_test, y2_pred)
print(cm_test)
print(classification_report(y_test, y2_pred))


Matriz de confusão - com os dados TRATADOS usados no TREINAMENTO
[[267   0]
 [  8 151]]
              precision    recall  f1-score   support

           B       0.97      1.00      0.99       267
           M       1.00      0.95      0.97       159

    accuracy                           0.98       426
   macro avg       0.99      0.97      0.98       426
weighted avg       0.98      0.98      0.98       426

Matriz de confusão - com os dados ORIGINAIS usados para TESTES
[[89  1]
 [ 1 52]]
              precision    recall  f1-score   support

           B       0.99      0.99      0.99        90
           M       0.98      0.98      0.98        53

    accuracy                           0.99       143
   macro avg       0.99      0.99      0.99       143
weighted avg       0.99      0.99      0.99       143

