### Parte Prática 1: classificação

#### Brazilian Symposium on Bioinformatics (BSB) 2023

Copyright (C) 2023 Marcelo S. Reis, Ronaldo Nogueira and Cristiano Campos.

<a href="mailto:msreis@ic.unicamp.br">msreis@ic.unicamp.br</a>

This program is free software: you can redistribute it and/or modify it under the terms of the GNU General Public License as published by the Free Software Foundation, either version 3 of the License, or (at your option) any later version.

This program is distributed in the hope that it will be useful, but WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU General Public License for more details.

You should have received a copy of the GNU General Public License along with this program. If not, see http://www.gnu.org/licenses/.

Hoje vamos implementar algoritmos de aprendizagem não-supervisionada para realizar dois agrupamentos, um pelo k-médias (*k-means*) e o outro por aglomeração hierárquica (*hierarchical agglomerative clustering*).


### Sumário <a class="anchor" id="topo"></a>

* [Parte 1: Resolvendo dependências](#parte_01).
* [Parte 2: Carregando o conjunto de dados "breast cancer"](#parte_02).
* [Parte 3: Executando regressão linear em duas variáveis de "breast cancer"](#parte_03).
* [Parte 4: Avaliando o desempenho da regressão linear](#parte_04).
* [Parte 5: Classificando "breast cancer" com todas as variáveis](#parte_05)

### Parte 1: Resolvendo dependências <a class="anchor" id="parte_01"></a>

Aqui carregamos bibliotecas e métodos que serão utilizados ao longo deste caderno.




In [None]:
!pip install matplotlib
import matplotlib.pyplot as plt     
%matplotlib inline 

!pip install numpy
import numpy as np

!pip install pandas
import pandas as pd

!pip install seaborn
import seaborn as sn

!pip install scikit-learn
from sklearn import datasets
from sklearn import preprocessing
from sklearn import utils

from sklearn.linear_model import LinearRegression


[Voltar ao sumário.](#topo)

### Parte 2: Carregando o conjunto de dados "breast cancer"

Conjunto de dados clássico de classificação binária (2 classes), com uma amostra de 569 pontos (212 malignos, 357 benignos) e 30 características. 


<a class="anchor" id="parte_02"></a>

In [None]:
data = datasets.load_breast_cancer()

In [None]:
import pandas as pd
pd.DataFrame(columns=(data.feature_names.tolist() + ['target']), data=np.c_[data.data, data.target])

[Voltar ao sumário.](#topo)

### Parte 3: Executando regressão linear em duas variáveis de "breast cancer" <a class="anchor" id="parte_03"></a>

Agora vamos executar o algoritmo de regressão linear sobre duas variáveis de nosso dataset. Vamos escolher as duas primeiras variáveis: raio médio e textura média do tumor.


In [None]:
def plot_dataset(x1, x2, y):
    plt.figure(figsize=(5,5))
    plt.scatter(x1, x2, c=y)
    plt.xlabel('mean radius')
    plt.ylabel('mean texture')
    plt.title('Conjunto de treinamento')
    plt.show()
    
def plot_model_predictions(model, X_train, X_test, y_train, y_test, plot_predict=False):
    plt.figure(figsize=(10,5))

    a = - model.coef_[0] / model.coef_[1]
    b = - model.intercept_ / model.coef_[1]
    
    ytrain = y_train
    ytest  = y_test 
    
    if plot_predict:
        ytrain = model.predict(X_train[:, 0:2])
        ytest  = model.predict(X_test[:, 0:2])
        
        ytrain = np.where(ytrain < 0, -1, 1)
        ytest = np.where(ytest < 0, -1, 1)

    plt.subplot(121)
    plt.scatter(X_train[:, 0], X_train[:, 1], c=ytrain)
    plt.plot(np.linspace(-2, 4, 10), a * np.linspace(-2, 4, 10) + b, c= "yellow")
    plt.xlabel('mean radius')
    plt.ylim(-3,6)
    plt.ylabel('mean texture')
    plt.title('Conjunto de treinamento')

    plt.subplot(122)
    plt.scatter(X_test[:, 0], X_test[:, 1], c=ytest)
    plt.plot(np.linspace(-2, 4, 10), a * np.linspace(-2, 4, 10) + b, c= "yellow")
    plt.ylim(-3,6)
    plt.xlabel('mean radius')
    plt.ylabel('mean texture')
    plt.title('Conjunto de teste')

    plt.show()

Antes de realizarmos a regressão, vamos plotar o dataset:

Agora vamos treinnar o modelo:

Por fim, vamos visualizar os resultados:

[Voltar ao sumário.](#topo)

### Parte 4: Avaliando o desempenho da regressão linear <a class="anchor" id="parte_04"></a>

Para avaliar o desempenho da nossa regressão linear, utilizaremos matrizes de confusão, que é uma maneira eficiente de visualizar os acertos em termos de tipo de erro: falsos positivos (não é câncer mas nosso classificador diz que é) e falsos negativos (um câncer que o classificador deixa de assinalar como tal).

In [None]:
def plot_confusion_matrix(y, y_pred):
    data = {'y': y, 'y_pred': y_pred }
    df = pd.DataFrame(data, columns=['y','y_pred'])
    cm = pd.crosstab(df['y'], df['y_pred'], rownames=['classe real'], colnames=['classe prevista'])
    sn.heatmap(cm, annot=True)
    plt.show()

Vamos plotar a matriz para o conjunto de treinamento:

Vamos plotar a matriz para o conjunto de teste:

[Voltar ao sumário.](#topo)

### Parte 5: Classificando "breast cancer" com todas as variáveis <a class="anchor" id="parte_05"></a>
    
Podemos verificar se conseguimos melhorar a classificação acima repetindo a regressão linear utilizando desta vez todas as variáveis.

[Voltar ao sumário.](#topo)

