# **AULA PRÁTICA DE MACHINE LEARNING**

Neste exercício vamos criar modelos de Machine Learning que predizem se o tumor de determinados pacientes é maligno ou benigno baseando-se nas suas características. O intuito é que este modelo auxilie os médicos no momento de diagnosticar seus paciencietes que podem estar com câncer ou não, a depender da classe do tumor.


Os atributos da base de dados que utilizaremos são características extraídas dos tumores, sendo elas:

a) raio (média das distâncias do centro aos pontos do perímetro)

b) textura (desvio padrão dos valores de escala de cinza)

c) perímetro

d) área

e) suavidade (variação local nos comprimentos dos raios)

f) compacidade (perímetro^2 / área - 1,0)

g) concavidade (gravidade das porções côncavas do contorno)

h) pontos côncavos (número de porções côncavas do contorno)

e) simetria

j) dimensão fractal ("aproximação do litoral" - 1)

O atributo diagnóstico pode ser lido como: **(0-tumor maligno, 1 tumor benigno)**



Caso precisem, nos links a seguir vocês encontram mais detalhes sobre a base:
https://archive.ics.uci.edu/ml/datasets/breast+cancer+wisconsin+%28diagnostic%29


https://scikit-learn.org/stable/datasets/toy_dataset.html#breast-cancer-dataset

**Aqui vamos carregar o dataset**

In [10]:
#carregando o dataset que está disponível na biblioteca sklearn
from sklearn.datasets import load_breast_cancer
dataset = load_breast_cancer()

#Veja tudo que temos na base de dados
dataset

{'data': array([[1.799e+01, 1.038e+01, 1.228e+02, ..., 2.654e-01, 4.601e-01,
         1.189e-01],
        [2.057e+01, 1.777e+01, 1.329e+02, ..., 1.860e-01, 2.750e-01,
         8.902e-02],
        [1.969e+01, 2.125e+01, 1.300e+02, ..., 2.430e-01, 3.613e-01,
         8.758e-02],
        ...,
        [1.660e+01, 2.808e+01, 1.083e+02, ..., 1.418e-01, 2.218e-01,
         7.820e-02],
        [2.060e+01, 2.933e+01, 1.401e+02, ..., 2.650e-01, 4.087e-01,
         1.240e-01],
        [7.760e+00, 2.454e+01, 4.792e+01, ..., 0.000e+00, 2.871e-01,
         7.039e-02]]),
 'target': array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
        0, 0, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0,
        1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0,
        1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1,
        1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0

**Organizando os dados em um dataframe: No dataframe temos os dados de cada tumor e também o target de cada um deles. Preste atenção na quantidade de observação que a base possui bem como todos os atributos**

In [11]:
#Agora vamos organizar a base de dados em um dataframe usando a biblioteca pandas. 
import pandas as pd
df = pd.DataFrame(dataset.data, columns=[dataset.feature_names])
#add o target
df['diagnostico']=dataset.target
df

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension,diagnostico
0,17.99,10.38,122.80,1001.0,0.11840,0.27760,0.30010,0.14710,0.2419,0.07871,...,17.33,184.60,2019.0,0.16220,0.66560,0.7119,0.2654,0.4601,0.11890,0
1,20.57,17.77,132.90,1326.0,0.08474,0.07864,0.08690,0.07017,0.1812,0.05667,...,23.41,158.80,1956.0,0.12380,0.18660,0.2416,0.1860,0.2750,0.08902,0
2,19.69,21.25,130.00,1203.0,0.10960,0.15990,0.19740,0.12790,0.2069,0.05999,...,25.53,152.50,1709.0,0.14440,0.42450,0.4504,0.2430,0.3613,0.08758,0
3,11.42,20.38,77.58,386.1,0.14250,0.28390,0.24140,0.10520,0.2597,0.09744,...,26.50,98.87,567.7,0.20980,0.86630,0.6869,0.2575,0.6638,0.17300,0
4,20.29,14.34,135.10,1297.0,0.10030,0.13280,0.19800,0.10430,0.1809,0.05883,...,16.67,152.20,1575.0,0.13740,0.20500,0.4000,0.1625,0.2364,0.07678,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
564,21.56,22.39,142.00,1479.0,0.11100,0.11590,0.24390,0.13890,0.1726,0.05623,...,26.40,166.10,2027.0,0.14100,0.21130,0.4107,0.2216,0.2060,0.07115,0
565,20.13,28.25,131.20,1261.0,0.09780,0.10340,0.14400,0.09791,0.1752,0.05533,...,38.25,155.00,1731.0,0.11660,0.19220,0.3215,0.1628,0.2572,0.06637,0
566,16.60,28.08,108.30,858.1,0.08455,0.10230,0.09251,0.05302,0.1590,0.05648,...,34.12,126.70,1124.0,0.11390,0.30940,0.3403,0.1418,0.2218,0.07820,0
567,20.60,29.33,140.10,1265.0,0.11780,0.27700,0.35140,0.15200,0.2397,0.07016,...,39.42,184.60,1821.0,0.16500,0.86810,0.9387,0.2650,0.4087,0.12400,0


__________________________________________________________________________________________________________________

**1)** A partir do dataframe acima, que chamamos de df, identifique e divida as observações e o target. As observações devem ser referenciadas como X e os targets como Y. Por exemplo:

X = observações

Y = targets

In [12]:
X=df[dataset.feature_names]
Y=df['diagnostico']

_________________________________________________________

**2)** Agora, divida  X e Y em treino, teste e validação

In [13]:
#70% para treino
percentual_treino=70
qtd_linhas=len(df)

qtd_treino=round((percentual_treino*qtd_linhas)/100)
restante=round(qtd_linhas-qtd_treino)

Xtreino=X[:qtd_treino]
Ytreino=Y[:qtd_treino]

Xteste=X[qtd_treino:qtd_treino+round(restante/2)]
Yteste=Y[qtd_treino:qtd_treino+round(restante/2)]

Xval=X[qtd_treino+round(restante/2):]
Yval=Y[qtd_treino+round(restante/2):]

_________________________________________________________

**3)** A base de dados está pronta, então vamos utilizar agora o algoritmo SVM para treinar o modelo. Para isso, observe o código a seguir e faça as devidas modificações. Em seguida observe a acurácia deste modelo.

In [14]:
from sklearn.metrics import accuracy_score 
from sklearn.svm import SVC
import sklearn.metrics as metrics
import numpy as np

#Criando um modelo SVM variando os parâmetros C e gamma
model=SVC(C=0.99, gamma=0.0000001)

#Treinando o modelo. Use aqui suas observações de treino e os targets de treino
model.fit(Xtreino, Ytreino)

#Fazendo predições. Use aqui sua base de teste
result = model.predict(Xteste)

#mostrando os resultados preditos pelo modelo 
print('Resultado:')
print(result)

print('Resultado Esperado:')
#Os resultados esperados são os targets de teste, mostre-os a seguir
print(Yteste)


#agora vamos calcular a acurária do modelo usando a base de testes
print("Acurácia:", metrics.accuracy_score(result,Yteste))

Resultado:
[1 1 0 1 1 1 1 1 0 1 0 1 1 1 1 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 1
 1 1 1 1 1 1 0 1 1 0 1 0 1 1 0 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 0 1 1 1
 1 1 1 1 1 1 1 0 1 1 1 1]
Resultado Esperado:
    diagnostico
398           1
399           1
400           0
401           1
402           1
..          ...
479           0
480           1
481           1
482           1
483           1

[86 rows x 1 columns]
Acurácia: 0.9651162790697675


  y = column_or_1d(y, warn=True)


In [15]:
result = model.predict(Xval)

#mostrando os resultados preditos pelo modelo 
print('Resultado:')
print(result)

print('Resultado Esperado:')
#Os resultados esperados são os targets de teste, mostre-os a seguir
print(Yval)


#agora vamos calcular a acurária do modelo usando a base de testes
print("Acurácia:", metrics.accuracy_score(result,Yval))

Resultado:
[1 1 1 0 1 0 1 0 0 1 1 1 1 1 0 0 1 1 1 0 1 1 1 1 0 0 1 1 1 1 0 1 0 0 1 1 1
 0 1 1 1 1 1 1 1 1 1 1 1 0 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 0 0 0 0 0 0 1]
Resultado Esperado:
    diagnostico
484           1
485           1
486           1
487           0
488           1
..          ...
564           0
565           0
566           0
567           0
568           1

[85 rows x 1 columns]
Acurácia: 0.9411764705882353


_________________________________________________________

_________________________________________________________

**4)** Agora vamos utilizar regressão logística no lugar do algirítmo SVM para treinar o modelo

In [16]:
from sklearn.linear_model import LogisticRegression

#Criando um modelo de regressão logística variando os parâmetros tol e max_iter
model=LogisticRegression(tol=0.99,max_iter=20)

#Treinando o modelo. Use aqui suas observações de treino e os targets de treino
model.fit(Xtreino, Ytreino)

#Fazendo predições. Use aqui sua base de teste
result = model.predict(Xteste)

#mostrando os resultados preditos pelo modelo 
print('Resultado:')
print(result)

print('Resultado Esperado:')
#Os resultados esperados são os targets de teste, mostre-os a seguir
print(Yteste)


#agora vamos calcular a acurária do modelo usando a base de testes
print("Acurácia:", metrics.accuracy_score(result,Yteste))

Resultado:
[1 1 0 1 1 1 1 1 1 1 0 1 1 1 1 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 1
 0 1 1 1 1 1 0 1 1 0 1 0 1 1 0 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 0 1 1 1
 0 1 1 1 1 1 1 1 1 0 1 1]
Resultado Esperado:
    diagnostico
398           1
399           1
400           0
401           1
402           1
..          ...
479           0
480           1
481           1
482           1
483           1

[86 rows x 1 columns]
Acurácia: 0.9534883720930233


  y = column_or_1d(y, warn=True)
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [17]:
#Fazendo predições. Use aqui sua base de teste
result = model.predict(Xval)

#mostrando os resultados preditos pelo modelo 
print('Resultado:')
print(result)

print('Resultado Esperado:')
#Os resultados esperados são os targets de teste, mostre-os a seguir
print(Yval)


#agora vamos calcular a acurária do modelo usando a base de testes
print("Acurácia:", metrics.accuracy_score(result,Yval))

Resultado:
[1 1 1 0 1 0 1 0 0 1 1 1 1 1 0 0 1 1 1 0 1 1 1 1 1 1 1 1 0 0 0 1 0 0 1 1 1
 0 1 1 1 1 1 1 1 1 1 1 1 0 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 0 0 0 0 0 1]
Resultado Esperado:
    diagnostico
484           1
485           1
486           1
487           0
488           1
..          ...
564           0
565           0
566           0
567           0
568           1

[85 rows x 1 columns]
Acurácia: 0.9294117647058824


_________________________________________________________

_________________________________________________________

**6)** Agora vamos utilizar o algorítmo KNN no lugar de regressão logística e SVM para treinar o modelo

In [18]:
from sklearn.neighbors import KNeighborsClassifier
bestmodel=KNeighborsClassifier(n_neighbors=10,leaf_size=10)
acuracia =0


for nn in [5,20,30,40,50]:
  for ls in [10,50,100,200]:
     
    #Criando um modelo de regressão logística variando os parâmetros n_neighbors e leaf_size
    model=KNeighborsClassifier(n_neighbors=nn,leaf_size=ls)

    #Treinando o modelo. Use aqui suas observações de treino e os targets de treino
    model.fit(Xtreino, Ytreino)

    #Fazendo predições. Use aqui sua base de teste
    result = model.predict(Xteste)

    #mostrando os resultados preditos pelo modelo 
    print('Resultado:')
    print(result)

    print('Resultado Esperado:')
    #Os resultados esperados são os targets de teste, mostre-os a seguir
    print('targets de teste aqui')


    #agora vamos calcular a acurária do modelo usando a base de testes
    
    if acuracia < metrics.accuracy_score(result,Yteste):
      bestmodel=model
      acuracia=metrics.accuracy_score(result,Yteste)
    print("Acurácia:", metrics.accuracy_score(result,Yteste))

  return self._fit(X, y)


Resultado:
[1 1 0 1 1 1 1 1 0 1 0 1 1 1 1 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 1
 0 1 1 1 1 1 0 1 1 0 1 0 1 1 0 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 0 1 1 0 1 1 1
 0 1 1 1 0 1 1 0 1 0 1 1]
Resultado Esperado:
targets de teste aqui
Acurácia: 0.9302325581395349
Resultado:
[1 1 0 1 1 1 1 1 0 1 0 1 1 1 1 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 1
 0 1 1 1 1 1 0 1 1 0 1 0 1 1 0 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 0 1 1 0 1 1 1
 0 1 1 1 0 1 1 0 1 0 1 1]
Resultado Esperado:
targets de teste aqui
Acurácia: 0.9302325581395349
Resultado:
[1 1 0 1 1 1 1 1 0 1 0 1 1 1 1 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 1
 0 1 1 1 1 1 0 1 1 0 1 0 1 1 0 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 0 1 1 0 1 1 1
 0 1 1 1 0 1 1 0 1 0 1 1]
Resultado Esperado:
targets de teste aqui
Acurácia: 0.9302325581395349
Resultado:
[1 1 0 1 1 1 1 1 0 1 0 1 1 1 1 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 1
 0 1 1 1 1 1 0 1 1 0 1 0 1 1 0 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 0 1 1 0 1 1 1
 0 1 1 1 0 1 1 0 1 0 1 1]
Resultado Esperado:
targets de teste aq

  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)


Resultado:
[1 1 0 1 1 1 1 1 0 1 0 1 1 1 1 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 1
 0 1 1 1 1 1 0 1 1 0 1 0 1 1 0 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 0 1 1 1
 0 1 1 1 0 1 1 0 1 0 1 1]
Resultado Esperado:
targets de teste aqui
Acurácia: 0.9418604651162791
Resultado:
[1 1 0 1 1 1 1 1 0 1 0 1 1 1 1 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 1
 0 1 1 1 1 1 0 1 1 0 1 0 1 1 0 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 0 1 1 1
 0 1 1 1 0 1 1 0 1 0 1 1]
Resultado Esperado:
targets de teste aqui
Acurácia: 0.9418604651162791
Resultado:
[1 1 0 1 1 1 1 1 0 1 0 1 1 1 1 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 1
 0 1 1 1 1 1 0 1 1 0 1 0 1 1 0 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 0 1 1 1
 0 1 1 1 0 1 1 0 1 0 1 1]
Resultado Esperado:
targets de teste aqui
Acurácia: 0.9418604651162791
Resultado:
[1 1 0 1 1 1 1 1 0 1 0 1 1 1 1 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 1
 0 1 1 1 1 1 0 1 1 0 1 0 1 1 0 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 0 1 1 1
 0 1 1 1 0 1 1 0 1 0 1 1]
Resultado Esperado:
targets de teste aq

  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)


Resultado:
[1 1 0 1 1 1 1 1 0 1 0 1 1 1 1 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 1
 0 1 1 1 1 1 0 1 1 0 1 0 1 1 0 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 0 1 1 1
 0 1 1 1 1 1 1 0 1 0 1 1]
Resultado Esperado:
targets de teste aqui
Acurácia: 0.9534883720930233
Resultado:
[1 1 0 1 1 1 1 1 0 1 0 1 1 1 1 0 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 1
 0 1 1 1 1 1 0 1 1 0 1 0 1 1 0 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 0 1 1 1
 0 1 1 1 1 1 1 0 1 0 1 1]
Resultado Esperado:
targets de teste aqui
Acurácia: 0.9418604651162791
Resultado:
[1 1 0 1 1 1 1 1 0 1 0 1 1 1 1 0 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 1
 0 1 1 1 1 1 0 1 1 0 1 0 1 1 0 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 0 1 1 1
 0 1 1 1 1 1 1 0 1 0 1 1]
Resultado Esperado:
targets de teste aqui
Acurácia: 0.9418604651162791
Resultado:
[1 1 0 1 1 1 1 1 0 1 0 1 1 1 1 0 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 1
 0 1 1 1 1 1 0 1 1 0 1 0 1 1 0 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 0 1 1 1
 0 1 1 1 1 1 1 0 1 0 1 1]
Resultado Esperado:
targets de teste aq

  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)
  return self._fit(X, y)


Resultado:
[1 1 0 1 1 1 1 1 0 1 0 1 1 1 1 0 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 1
 0 1 1 1 1 1 0 1 1 0 1 0 1 1 0 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 0 1 1 1
 0 1 1 1 1 1 1 0 1 1 1 1]
Resultado Esperado:
targets de teste aqui
Acurácia: 0.9534883720930233
Resultado:
[1 1 0 1 1 1 1 1 0 1 0 1 1 1 1 0 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 1
 0 1 1 1 1 1 0 1 1 0 1 0 1 1 0 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 0 1 1 1
 0 1 1 1 1 1 1 0 1 1 1 1]
Resultado Esperado:
targets de teste aqui
Acurácia: 0.9534883720930233
Resultado:
[1 1 0 1 1 1 1 1 0 1 0 1 1 1 1 0 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 1
 0 1 1 1 1 1 0 1 1 0 1 0 1 1 0 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 0 1 1 1
 0 1 1 1 1 1 1 0 1 1 1 1]
Resultado Esperado:
targets de teste aqui
Acurácia: 0.9534883720930233


  return self._fit(X, y)
  return self._fit(X, y)


In [19]:
result = bestmodel.predict(Xval)
print("Acurácia:", metrics.accuracy_score(result,Yval))

Acurácia: 0.9529411764705882


In [20]:
acuracia

0.9534883720930233

_________________________________________________________

_________________________________________________________