<a href="https://colab.research.google.com/github/marcelodepaoli/21_ANNs/blob/main/02_Classifica%C3%A7%C3%A3o_com_Keras.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Keras TF 2.0 - Projeto de Classificação

Vamos explorar uma tarefa de classificação com a API do Keras API para TF 2.0

## Os dados

### Conjunto de dados (diagnóstico) de câncer de mama em Wisconsin
--------------------------------------------

**Características do Data Set:**

    :Número de instâncias: 569

    :Número de atributos: 30 atributos numéricos preditivos e a classe

    :Informações dos atributos:
        - radius (média das distâncias do centro aos pontos do perímetro)
        - texture (desvio padrão dos valores da escala de cinza)
        - perimeter
        - area
        - smoothness (variação local no comprimento do raio)
        - compactness (perímetro^2 / área - 1.0)
        - concavity (gravidade das porções côncavas do contorno)
        - concave points (número de porções côncavas do contorno)
        - symmetry 
        - fractal dimension ("aproximação da costa" - 1)

        A média, erro padrão e "pior" ou maior (média dos três maiores valores) desses atributos foram computados para cada imagem, resultando em 30 características. Por exemplo, o campo 3 é o raio médio, o campo
        13 é o Raio EP (SE standard error), o campo 23 é o Pior Raio.

        - classe:
                - WDBC-Malignant
                - WDBC-Benign

    :Estatísticas resumidas:

    ===================================== ====== ======
                                           Min    Max
    ===================================== ====== ======
    radius (mean):                        6.981  28.11
    texture (mean):                       9.71   39.28
    perimeter (mean):                     43.79  188.5
    area (mean):                          143.5  2501.0
    smoothness (mean):                    0.053  0.163
    compactness (mean):                   0.019  0.345
    concavity (mean):                     0.0    0.427
    concave points (mean):                0.0    0.201
    symmetry (mean):                      0.106  0.304
    fractal dimension (mean):             0.05   0.097
    radius (standard error):              0.112  2.873
    texture (standard error):             0.36   4.885
    perimeter (standard error):           0.757  21.98
    area (standard error):                6.802  542.2
    smoothness (standard error):          0.002  0.031
    compactness (standard error):         0.002  0.135
    concavity (standard error):           0.0    0.396
    concave points (standard error):      0.0    0.053
    symmetry (standard error):            0.008  0.079
    fractal dimension (standard error):   0.001  0.03
    radius (worst):                       7.93   36.04
    texture (worst):                      12.02  49.54
    perimeter (worst):                    50.41  251.2
    area (worst):                         185.2  4254.0
    smoothness (worst):                   0.071  0.223
    compactness (worst):                  0.027  1.058
    concavity (worst):                    0.0    1.252
    concave points (worst):               0.0    0.291
    symmetry (worst):                     0.156  0.664
    fractal dimension (worst):            0.055  0.208
    ===================================== ====== ======

    :Valores de atributos ausentes: None

    :Distribuição de classes: 212 - Malignant, 357 - Benign

    :Criador:  Dr. William H. Wolberg, W. Nick Street, Olvi L. Mangasarian

    :Doador: Nick Street

    :Data: November, 1995

Esta é uma cópia do UCI ML Breast Cancer Wisconsin (Diagnostic) dataset.
https://goo.gl/U2Uwz2

As características são calculadas a partir de uma imagem digitalizada de uma fine needle aspirate (FNA) de uma massa mamária. Eles descrevem características dos núcleos celulares presentes na imagem.

O plano de separação descrito acima foi obtido usando Multisurface Method-Tree (MSM-T) [K. P. Bennett, "Decision Tree Construction Via Linear Programming." Proceedings of the 4th Midwest Artificial Intelligence and Cognitive Science Society, pp. 97-101, 1992], um método de classificação que usa programação linear para construir uma árvore de decisão. Características relevantes foram selecionados usando uma busca exaustiva no espaço de 1-4 características e 1-3 planos de separação.

O programa linear real usado para obter o plano de separação no espaço tridimensional é o descrito em: [K. P. Bennett and O. L. Mangasarian: "Robust Linear Programming Discrimination of Two Linearly Inseparable Sets",
Optimization Methods and Software 1, 1992, 23-34].

Esse banco de dados também está disponível por meio do servidor UW CS ftp:

ftp ftp.cs.wisc.edu
cd math-prog/cpo-dataset/machine-learn/WDBC/

.. tópico:: Referências

   - W.N. Street, W.H. Wolberg and O.L. Mangasarian. Nuclear feature extraction for breast tumor diagnosis. IS&T/SPIE 1993 International Symposium on Electronic Imaging: Science and Technology, volume 1905, pages 861-870, San Jose, CA, 1993.
   - O.L. Mangasarian, W.N. Street and W.H. Wolberg. Breast cancer diagnosis and prognosis via linear programming. Operations Research, 43(4), pages 570-577, July-August 1995.
   - W.H. Wolberg, W.N. Street, and O.L. Mangasarian. Machine learning techniques to diagnose breast cancer from fine-needle aspirates. Cancer Letters 77 (1994) 163-171.

In [None]:
import pandas as pd
import numpy as np

In [None]:
import os
from google.colab import drive

drive.mount('/content/drive')
os.chdir("drive/My Drive/Colab Notebooks/IA/21_ANNs")
os.listdir()

In [None]:
df = pd.read_csv('DATA/cancer_classification.csv')

In [None]:
df.info()

In [None]:
df.describe().transpose()

## EDA

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
sns.countplot(x='benign_0__mal_1',data=df)

In [None]:
sns.heatmap(df.corr())

In [None]:
df.corr()['benign_0__mal_1'].sort_values()

In [None]:
df.corr()['benign_0__mal_1'].sort_values().plot(kind='bar')

In [None]:
df.corr()['benign_0__mal_1'][:-1].sort_values().plot(kind='bar')

## Train Test Split

In [None]:
X = df.drop('benign_0__mal_1',axis=1).values
y = df['benign_0__mal_1'].values

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.25,random_state=101)

## Dimensionando os dados

In [None]:
from sklearn.preprocessing import MinMaxScaler

In [None]:
scaler = MinMaxScaler()

In [None]:
scaler.fit(X_train)

In [None]:
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

## Criando o modelo

    # Para um modelo de classificação binária
    model.compile(optimizer='rmsprop',
                  loss='binary_crossentropy',
                  metrics=['accuracy'])
                  
    

In [None]:
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Activation,Dropout

In [None]:
X_train.shape

In [None]:
model = Sequential()

# https://stats.stackexchange.com/questions/181/how-to-choose-the-number-of-hidden-layers-and-nodes-in-a-feedforward-neural-netw

model.add(Dense(units=30,activation='relu'))

model.add(Dense(units=15,activation='relu'))


model.add(Dense(units=1,activation='sigmoid'))

#Para um modelo de classificação binária
model.compile(loss='binary_crossentropy', optimizer='adam')

## Treinando o Modelo 

### Exemplo Um: Escolhendo muitas épocas e overfitting!

In [None]:
# https://stats.stackexchange.com/questions/164876/tradeoff-batch-size-vs-number-of-iterations-to-train-a-neural-network
# https://datascience.stackexchange.com/questions/18414/are-there-any-rules-for-choosing-the-size-of-a-mini-batch

model.fit(x=X_train, 
          y=y_train, 
          epochs=600,
          validation_data=(X_test, y_test), verbose=1
          )

In [None]:
# model.history.history

In [None]:
model_loss = pd.DataFrame(model.history.history)

In [None]:
# model_loss

In [None]:
model_loss.plot()

## Exemplo Dois: Parada Antecipada

Obviamente treinamos demais! Vamos usar a parada antecipada para rastrear o val_loss e parar de treinar assim que começar a aumentar demais!

In [None]:
model = Sequential()
model.add(Dense(units=30,activation='relu'))
model.add(Dense(units=15,activation='relu'))
model.add(Dense(units=1,activation='sigmoid'))
model.compile(loss='binary_crossentropy', optimizer='adam')

In [None]:
from tensorflow.keras.callbacks import EarlyStopping

Pare de treinar quando uma quantidade monitorada parar de melhorar.

    Argumentos:
        monitor: Quantidade a ser monitorada.
        min_delta: Mudança mínima na quantidade monitorada para se qualificar como uma melhoria, ou seja, uma alteração absoluta menor que min_delta, não contará como melhoria.
        patience: Número de épocas sem melhora após as quais o treinamento será interrompido.
        verbose: modo verbosidade.
        mode: Um entre `{"auto", "min", "max"}`. No modo `min`, o treinamento irá parar quando a quantidade monitorada parar de diminuir; no modo `max` ele irá parar quando a quantidade monitorada parar de aumentar; no modo `auto`, a direção é inferida automaticamente a partir do nome da quantidade monitorada.

In [None]:
early_stop = EarlyStopping(monitor='val_loss', mode='min', verbose=1, patience=25)

In [None]:
model.fit(x=X_train, 
          y=y_train, 
          epochs=600,
          validation_data=(X_test, y_test), verbose=1,
          callbacks=[early_stop]
          )

In [None]:
model_loss = pd.DataFrame(model.history.history)
model_loss.plot()

## Exemplo Três: Adicionando DropOut Layers

In [None]:
from tensorflow.keras.layers import Dropout

In [None]:
model = Sequential()
model.add(Dense(units=30,activation='relu'))
model.add(Dropout(0.5))

model.add(Dense(units=15,activation='relu'))
model.add(Dropout(0.5))

model.add(Dense(units=1,activation='sigmoid'))
model.compile(loss='binary_crossentropy', optimizer='adam')

In [None]:
model.fit(x=X_train, 
          y=y_train, 
          epochs=600,
          validation_data=(X_test, y_test), verbose=1,
          callbacks=[early_stop]
          )

In [None]:
model_loss = pd.DataFrame(model.history.history)
model_loss.plot()

# Avaliação do modelo

In [None]:
predictions = (model.predict(X_test) > 0.5).astype("int32")

In [None]:
from sklearn.metrics import classification_report,confusion_matrix

In [None]:
# https://en.wikipedia.org/wiki/Precision_and_recall
print(classification_report(y_test,predictions))

In [None]:
print(confusion_matrix(y_test,predictions))