# Trabalho 2: Transfer Learning


# **Alunos**

*   André Dorte dos Santos
*   Luiz Massao Miyazaki


## Carregamento dos dados

Os .zips contendo o dataset está no google drive. O código abaixo faz o download, e extrai o zip. Note que você precisará logar no Google para que esse processo seja possível. Caso haja alguma falha ou erro no processo, reinicie o notebook, e tente novamente.

Depois desse processo, teremos no diretório:

*   isic2017-train: 2000 imagens.
*   isic2017-val: 150 imagens.
*   isic2017-test: 650 imagens.



In [None]:
!pip install PyDrive &> /dev/null

In [None]:
from pydrive.auth import GoogleAuth
from pydrive.drive import GoogleDrive
from google.colab import auth
from oauth2client.client import GoogleCredentials

auth.authenticate_user()
gauth = GoogleAuth()
gauth.credentials = GoogleCredentials.get_application_default()
drive = GoogleDrive(gauth)

downloaded = drive.CreateFile({'id':"1EH2tlRi4Iqq8WfLOXl6hMc5jTeiIRzaW"})
downloaded.GetContentFile('isic2017-trainval.zip')
!unzip -q isic2017-trainval.zip

downloaded = drive.CreateFile({'id':"1uP1tCj6-T2FXxk7g7gqoC_SGOhqIQyrM"})
downloaded.GetContentFile('isic2017-test.zip')
!unzip -q isic2017-test.zip

Em cada diretório, temos uma pasta contendo as lesões benignas ('/benign') e outra contendo as lesões malignas ('/malignant'). A separação dessa forma facilita a importação dos dados utilizando o keras.
Estude o uso da ImageDataGenerator do Keras, pois ela facilita o uso de aumentação e pré-processamento dos dados.


# Aumentação de Dados

1. Aplique aumentação de dados nas imagens, escolhendo três transformações. Mostre exemplos das
transformações escolhidas e justifique por que elas são válidas neste dataset (1,0)

In [None]:
import tensorflow as tf
from PIL import Image
import matplotlib.pyplot as plt
from random import sample, seed
seed(42)


train_datagen = tf.keras.preprocessing.image.ImageDataGenerator(preprocessing_function=tf.keras.applications.resnet50.preprocess_input,
        width_shift_range=0.2,
        height_shift_range=0.2,
        zoom_range=0.2,
        rotation_range= 20,
        horizontal_flip=True,
        vertical_flip=True)
test_datagen = tf.keras.preprocessing.image.ImageDataGenerator(preprocessing_function=tf.keras.applications.resnet50.preprocess_input)
train_generator = train_datagen.flow_from_directory(
        'isic2017-train/',
        target_size=(224, 224),
        batch_size=32,
        class_mode='categorical')
validation_generator = test_datagen.flow_from_directory(
        'isic2017-val/',
        target_size=(224, 224),
        batch_size=32,
        class_mode='categorical',
        shuffle=False)
test_generator = test_datagen.flow_from_directory(
        'isic2017-test/',
        target_size=(224, 224),
        batch_size=32,
        class_mode='categorical',
        shuffle=False)

Found 2000 images belonging to 2 classes.
Found 150 images belonging to 2 classes.
Found 600 images belonging to 2 classes.


Obtendo tamanhos dos batches

In [None]:
print(len(train_generator))
print(len(validation_generator))
print(len(test_generator))

63
5
19


## Treinamento dos Modelos

Com os dados carregados corretamente, basta treinar e avaliar o modelo!

In [None]:
# A métrica oficial da base de dados é a AUC

from sklearn.metrics import roc_auc_score
import numpy as np

# função para avaliar modelos com base na métrica AUC
def evaluation_model(eva_model, eva_data):
  preds = eva_model.predict(eva_data)

  batch_index = 0
  data_list = []
  while batch_index <= eva_data.batch_index:
      _, label = eva_data.next()
      data_list.extend(label)
      batch_index = batch_index + 1

  gt = np.argmax(data_list, axis=1)
  auc = roc_auc_score(gt, preds[:,1])
  print("auc :", auc)

# Modelo Baseline

2. Como baseline, construa e treine um modelo convolucional simples (1,0).


In [None]:
# Modelo Baseline
from tensorflow.keras import layers

baseline_model = tf.keras.Sequential([
  layers.Conv2D(
    filters=10,
    kernel_size=3
  ),
  layers.GlobalAveragePooling2D(),
  layers.Dense(2, activation='softmax')
])

In [None]:
# Treinamento Modelo Baseline
sgd = tf.keras.optimizers.SGD(lr=0.001)
baseline_model.compile(loss='categorical_crossentropy', optimizer=sgd, metrics=['accuracy'])

baseline_model.fit(
        train_generator,
        steps_per_epoch=63,
        epochs=10,
        validation_data=validation_generator,
        validation_steps=5)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<tensorflow.python.keras.callbacks.History at 0x7f55e48dd160>

In [None]:
evaluation_model(baseline_model, validation_generator)
score = baseline_model.evaluate(validation_generator)
print('Valid loss:', score[0])
print('Valid acc:', score[1])

auc : 0.6483333333333332
Valid loss: 0.47648289799690247
Valid acc: 0.8066666722297668


3. Escolha uma arquitetura cuja implementação e pesos pré-treinados na ImageNet estejam disponíveis
como extratora de features (1,0)


In [None]:
# Carregamento do modelo pré-treinado SEM as camadas densas (include_top = False)
model = tf.keras.applications.ResNet50(weights='imagenet', include_top=False)
# model.summary()

4. Inicialmente, descarte a saída original e congele suas as camadas. Adicione uma nova camada de
saída com o número de classes adequadas para este problema (1,0)


In [None]:
# Congela camadas pré-treinadas
for layer in model.layers:
    layer.trainable = False

# Insere novas camadas no fim da rede para classificação
full_model = tf.keras.Sequential([
  model,
  tf.keras.layers.GlobalAveragePooling2D(),
  tf.keras.layers.Dense(2, activation='softmax')
])

# full_model.summary()

In [None]:
# Treinamento da última camada do modelo congelado
sgd = tf.keras.optimizers.SGD(lr=0.001, momentum=0.9, decay=0.001, nesterov=True)

full_model.compile(loss='categorical_crossentropy', optimizer=sgd, metrics=['accuracy'])

full_model.fit(
        train_generator,
        steps_per_epoch=63,
        epochs=10,
        validation_data=validation_generator,
        validation_steps=5)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<tensorflow.python.keras.callbacks.History at 0x7f55d5dc3cc0>

In [None]:
evaluation_model(full_model, validation_generator)
score = full_model.evaluate(validation_generator)
print('Valid loss:', score[0])
print('Valid acc:', score[1])

auc : 0.7555555555555555
Valid loss: 0.5448468923568726
Valid acc: 0.8199999928474426


# Fine-Tuning
5. Descongele as camadas da rede extratora de features e realize o fine-tuning da rede, continuando o
treinamento (1,5)


In [None]:
model2 = tf.keras.applications.ResNet50(weights='imagenet', include_top=False)

for layer in model2.layers:
    layer.trainable = True

fine_model = tf.keras.Sequential([
  model2,
  tf.keras.layers.GlobalAveragePooling2D(),
  tf.keras.layers.Dense(2, activation='softmax')
])

# Treinamento do modelo descongelado (fine-tuning)
sgd = tf.keras.optimizers.SGD(lr=0.001, momentum=0.9, decay=0.001, nesterov=True)

fine_model.compile(loss='categorical_crossentropy', optimizer=sgd, metrics=['accuracy'])

fine_model.fit(
        train_generator,
        steps_per_epoch=63,
        epochs=10,
        validation_data=validation_generator,
        validation_steps=5)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<tensorflow.python.keras.callbacks.History at 0x7f55d280a160>

In [None]:
evaluation_model(fine_model, validation_generator)
score = fine_model.evaluate(validation_generator)
print('Valid loss:', score[0])
print('Valid acc:', score[1])

auc : 0.8147222222222222
Valid loss: 0.6388445496559143
Valid acc: 0.8266666531562805


# Avaliação do melhor modelo

6. Avalie o melhor modelo no conjunto de teste (0,5)

In [None]:
print("Modelo Baseline:")
evaluation_model(baseline_model, test_generator)
score = baseline_model.evaluate(test_generator)
print('Valid loss:', score[0])
print('Valid acc:', score[1])
print()

print("Modelo ResNet50 com camadas congeladas")
evaluation_model(full_model, test_generator)
score = full_model.evaluate(test_generator)
print('Valid loss:', score[0])
print('Valid acc:', score[1])
print()

print("Modelo ResNet50 com Fine-Tuning")
evaluation_model(fine_model, test_generator)
score = fine_model.evaluate(test_generator)
print('Valid loss:', score[0])
print('Valid acc:', score[1])
print()

Modelo Baseline:
auc : 0.5956008564704217
Valid loss: 0.5054080486297607
Valid acc: 0.79666668176651

Modelo ResNet50 com camadas congeladas
auc : 0.7953318822884041
Valid loss: 0.4722747206687927
Valid acc: 0.8183333277702332

Modelo ResNet50 com Fine-Tuning
auc : 0.7753180796659058
Valid loss: 0.6074337959289551
Valid acc: 0.824999988079071



# Conclusão
7. Compare e interprete os resultados e elabore uma conclusão discutindo os experimentos (4,0).

Nossas análises se encontram no relatório.