# PROJETO 5 - ANÁLISE DE LESÕES NA PELE COM INTELIGÊNCIA ARTIFICIAL

Neste projeto será feito uma classificação multiclasses de diferentes tipos de lesões na pele humana. Para isso, será usando modelos de deep learning com arquitetura CNN e Densenet. 

Dicionário dos dados: https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/DBW86T

Fonte dos dados: https://www.kaggle.com/datasets/kmader/skin-cancer-mnist-ham10000

## 1. Instalando e carregando pacotes

In [1]:
# Versão da linguagem Python
from platform import python_version
print('A versão da linguagem Python utilizada neste Jupyter Notebook é: ', python_version())

A versão da linguagem Python utilizada neste Jupyter Notebook é:  3.9.13


In [2]:
# Instala Pytorch
!pip install -q torch==1.13.0

In [3]:
# Instala Torchvision
!pip install -q torchvision==0.14.0

In [4]:
# Instala Lightning
!pip install -q pytorch-lightning==1.8.3

In [6]:
# Importa os pacotes/funções

# Manipulação das imagens
import os # Manipula o Sistema Operacional
import cv2 # Converte imagens em dados
import itertools # Iteração dos dados
from tqdm import tqdm # Barra de progressão
from glob import glob # Manipulação de imagens
from PIL import Image # Manipulação de imagens

# Manipulação e visualização dos dados
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')

# Pytorch
import torch
from torch import nn, optim
from torch.autograd import Variable
from torch.utils.data import DataLoader, Dataset
from torchvision import models, transforms

# Scikit-learn
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, classification_report

# Pacotes para o relatório de hardware
import gc
import types
import pkg_resources
import pytorch_lightning as pl

# Seend para reprodução dos resultados DSA
np.random.seed(10)
torch.manual_seed(10)
torch.cuda.manual_seed(10)

In [7]:
# Versões dos pacotes usados neste jupyter notebook
%reload_ext watermark
%watermark -a "Projeto 5 - IA para Análise de Imagens na Pele" --iversions

Author: Projeto 5 - IA para Análise de Imagens na Pele

torch            : 1.13.0
cv2              : 4.7.0
matplotlib       : 3.5.2
numpy            : 1.21.5
torchvision      : 0.14.0
pytorch_lightning: 1.8.3
PIL              : 9.2.0
pandas           : 1.4.4



## 2. Verificando o Hardware

In [8]:
# Relatório completo

# Verificando o dispositivo
processing_device = "cuda" if torch.cuda.is_available() else "cpu"

# Verificando se GPU pode ser usada (isso depende da plataforma CUDA estar instalada)
torch_aval = torch.cuda.is_available()

# Labels para o relatório de verificação
lable_1 = 'Visão Geral do Ambiente'
lable_2 = 'Se NVIDIA-SMI não for encontrado, então CUDA não está disponível'
lable_3 = 'Fim da Checagem'

# Função para verificar o que está importado nesta sessão
def get_imports():

    for name, val in globals().items():
        if isinstance(val, types.ModuleType):
            name = val.__name__.split(".")[0]

        elif isinstance(val, type):            
            name = val.__module__.split(".")[0]

        poorly_named_packages = {"PIL": "Pillow", "sklearn": "scikit-learn"}

        if name in poorly_named_packages.keys():
            name = poorly_named_packages[name]

        yield name

# Imports nesta sessão
imports = list(set(get_imports()))

# Loop para verificar os requerimentos
requirements = []
for m in pkg_resources.working_set:
    if m.project_name in imports and m.project_name!="pip":
        requirements.append((m.project_name, m.version))
        
# Pasta com os dados (quando necessário)
pasta_dados = r'dados'

print(f'{lable_1:-^100}')
print()
print(f"Device:", processing_device)
print(f"Pasta de Dados: ", pasta_dados)
print(f"Versões dos Pacotes Requeridos: ", requirements)
print(f"Dispositivo Que Será Usado Para Treinar o Modelo: ", processing_device)
print(f"CUDA Está Disponível? ", torch_aval)
print("Versão do PyTorch: ", torch.__version__)
print("Versão do Lightning: ", pl.__version__)
print()
print(f'{lable_2:-^100}\n')
!nvidia-smi
gc.collect()
print()
print(f"Limpando a Memória da GPU (se disponível): ", torch.cuda.empty_cache())
print("\nModelo da GPU:")
# Modelo da GPU usada
!nvidia-smi --query-gpu=name --format=csv,noheader
print(f'\n{lable_3:-^100}')

--------------------------------------Visão Geral do Ambiente---------------------------------------

Device: cpu
Pasta de Dados:  dados
Versões dos Pacotes Requeridos:  [('Pillow', '9.2.0'), ('tqdm', '4.64.1'), ('matplotlib', '3.5.2'), ('numpy', '1.21.5'), ('torch', '1.13.0'), ('pandas', '1.4.4'), ('torchvision', '0.14.0')]
Dispositivo Que Será Usado Para Treinar o Modelo:  cpu
CUDA Está Disponível?  False
Versão do PyTorch:  1.13.0+cpu
Versão do Lightning:  1.8.3

------------------Se NVIDIA-SMI não for encontrado, então CUDA não está disponível------------------


Limpando a Memória da GPU (se disponível):  None

Modelo da GPU:


'nvidia-smi' nÆo ‚ reconhecido como um comando interno
ou externo, um programa oper vel ou um arquivo em lotes.



------------------------------------------Fim da Checagem-------------------------------------------


'nvidia-smi' nÆo ‚ reconhecido como um comando interno
ou externo, um programa oper vel ou um arquivo em lotes.


## 3. Interpretação dos metadados

In [12]:
# Leitura do arquivo de metadados
df_inicial = pd.read_csv(os.path.join('dados', 'HAM10000_metadata.csv'))

# Visualiza o registro
df_inicial.head()

Unnamed: 0,lesion_id,image_id,dx,dx_type,age,sex,localization
0,HAM_0000118,ISIC_0027419,bkl,histo,80.0,male,scalp
1,HAM_0000118,ISIC_0025030,bkl,histo,80.0,male,scalp
2,HAM_0002730,ISIC_0026769,bkl,histo,80.0,male,scalp
3,HAM_0002730,ISIC_0025661,bkl,histo,80.0,male,scalp
4,HAM_0001466,ISIC_0031633,bkl,histo,75.0,male,ear


In [13]:
# Caminho para as imagens
caminho_imagens = glob(os.path.join('dados','*','*.jpg'))

In [15]:
# Cria um dicionário com id da imagem e caminho do arquivo no disco
dict_imagens = {os.path.splitext(os.path.basename(x))[0]: x for x in caminho_imagens}

In [17]:
# Imprimindo 5 registros do dicionário
dict(itertools.islice(dict_imagens.items(), 5))

{'ISIC_0024306': 'dados\\HAM10000_images_part_1\\ISIC_0024306.jpg',
 'ISIC_0024307': 'dados\\HAM10000_images_part_1\\ISIC_0024307.jpg',
 'ISIC_0024308': 'dados\\HAM10000_images_part_1\\ISIC_0024308.jpg',
 'ISIC_0024309': 'dados\\HAM10000_images_part_1\\ISIC_0024309.jpg',
 'ISIC_0024310': 'dados\\HAM10000_images_part_1\\ISIC_0024310.jpg'}

In [18]:
# Adiciona o path ao df_inicial
df_inicial['path'] = df_inicial['image_id'].map(dict_imagens.get)

In [19]:
# Visualiza o dataset
df_inicial.head()

Unnamed: 0,lesion_id,image_id,dx,dx_type,age,sex,localization,path
0,HAM_0000118,ISIC_0027419,bkl,histo,80.0,male,scalp,dados\HAM10000_images_part_1\ISIC_0027419.jpg
1,HAM_0000118,ISIC_0025030,bkl,histo,80.0,male,scalp,dados\HAM10000_images_part_1\ISIC_0025030.jpg
2,HAM_0002730,ISIC_0026769,bkl,histo,80.0,male,scalp,dados\HAM10000_images_part_1\ISIC_0026769.jpg
3,HAM_0002730,ISIC_0025661,bkl,histo,80.0,male,scalp,dados\HAM10000_images_part_1\ISIC_0025661.jpg
4,HAM_0001466,ISIC_0031633,bkl,histo,75.0,male,ear,dados\HAM10000_images_part_2\ISIC_0031633.jpg


In [20]:
# Tipos de lesões que serão analisadas de acordo com o dicionário de dados
tipo_lesao_dict = {'nv': 'Melanocytic nevi',
                   'mel': 'dermatofibroma',
                   'bkl': 'Benign keratosis-like',
                   'bcc': 'Basal cell carcinoma',
                   'akiec': 'Actinic keratoses',
                   'vasc': 'Vascular lesions',
                   'df': 'Dermatofibroma'}

In [21]:
# Extrair o tipo de lesão
df_inicial['tipo_lesao'] = df_inicial['dx'].map(tipo_lesao_dict.get)

In [22]:
# Visualiza o dataset
df_inicial.head()

Unnamed: 0,lesion_id,image_id,dx,dx_type,age,sex,localization,path,tipo_lesao
0,HAM_0000118,ISIC_0027419,bkl,histo,80.0,male,scalp,dados\HAM10000_images_part_1\ISIC_0027419.jpg,Benign keratosis-like
1,HAM_0000118,ISIC_0025030,bkl,histo,80.0,male,scalp,dados\HAM10000_images_part_1\ISIC_0025030.jpg,Benign keratosis-like
2,HAM_0002730,ISIC_0026769,bkl,histo,80.0,male,scalp,dados\HAM10000_images_part_1\ISIC_0026769.jpg,Benign keratosis-like
3,HAM_0002730,ISIC_0025661,bkl,histo,80.0,male,scalp,dados\HAM10000_images_part_1\ISIC_0025661.jpg,Benign keratosis-like
4,HAM_0001466,ISIC_0031633,bkl,histo,75.0,male,ear,dados\HAM10000_images_part_2\ISIC_0031633.jpg,Benign keratosis-like


In [23]:
# Converte a variável categórica em sua representação numérica
df_inicial['tipo_lesao_idx'] = pd.Categorical(df_inicial['tipo_lesao']).codes

In [24]:
# Visualiza o dataset
df_inicial.head()

Unnamed: 0,lesion_id,image_id,dx,dx_type,age,sex,localization,path,tipo_lesao,tipo_lesao_idx
0,HAM_0000118,ISIC_0027419,bkl,histo,80.0,male,scalp,dados\HAM10000_images_part_1\ISIC_0027419.jpg,Benign keratosis-like,2
1,HAM_0000118,ISIC_0025030,bkl,histo,80.0,male,scalp,dados\HAM10000_images_part_1\ISIC_0025030.jpg,Benign keratosis-like,2
2,HAM_0002730,ISIC_0026769,bkl,histo,80.0,male,scalp,dados\HAM10000_images_part_1\ISIC_0026769.jpg,Benign keratosis-like,2
3,HAM_0002730,ISIC_0025661,bkl,histo,80.0,male,scalp,dados\HAM10000_images_part_1\ISIC_0025661.jpg,Benign keratosis-like,2
4,HAM_0001466,ISIC_0031633,bkl,histo,75.0,male,ear,dados\HAM10000_images_part_2\ISIC_0031633.jpg,Benign keratosis-like,2


## 4. Pré-Processamento dos dados  

### 4.1 Extração da média e desvio padrão

In [27]:
# Função para cálculo de média e desvio
def func_calcula_img_mean_std(image_paths):

    # Define altura e largura que usaremos nas imagens
    # Densenet espera as imagens nesta dimensão
    img_h, img_w = 224, 224
    
    # Listas de controle
    imgs = []
    means, stdevs = [], []

    # Loop de leitura e resize das imagens
    for i in tqdm(range(len(image_paths))):
        img = cv2.imread(image_paths[i])
        img = cv2.resize(img, (img_h, img_w))
        imgs.append(img)

    # Stack de imagens
    imgs = np.stack(imgs, axis=3)
    print(imgs.shape)

    # Normalização
    imgs = imgs.astype(np.float32) / 255.

    # Loop de cálculo da média e desvio
    for i in range(3):
        pixels = imgs[:, :, i, :].ravel()  
        means.append(np.mean(pixels))
        stdevs.append(np.std(pixels))

    # BGR --> RGB
    means.reverse()  
    stdevs.reverse()

    print("normMean = {}".format(means))
    print("normStd = {}".format(stdevs))
    
    return means, stdevs

In [28]:
# Retorna a média e o desvio padrão de cada canal RGB
norm_mean, norm_std = func_calcula_img_mean_std(caminho_imagens)

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10015/10015 [02:48<00:00, 59.37it/s]


(224, 224, 3, 10015)
normMean = [0.7630331, 0.5456457, 0.5700467]
normStd = [0.1409281, 0.15261227, 0.16997086]


### 4.2 Preparação para o dataset de validação

In [30]:
# Verifica o número de imagens associadas ao lesion_id
df_temp = df_inicial.groupby('lesion_id').count()

# Visualiza o dataset
df_temp.head()

Unnamed: 0_level_0,image_id,dx,dx_type,age,sex,localization,path,tipo_lesao,tipo_lesao_idx
lesion_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
HAM_0000000,2,2,2,2,2,2,2,2,2
HAM_0000001,1,1,1,1,1,1,1,1,1
HAM_0000002,3,3,3,3,3,3,3,3,3
HAM_0000003,1,1,1,1,1,1,1,1,1
HAM_0000004,1,1,1,1,1,1,1,1,1


In [32]:
# Agora filtramos lesion_ids que possuem apenas uma imagem associada
df_temp = df_temp[df_temp['image_id'] == 1]

In [33]:
# Reset do índice
df_temp.reset_index(inplace = True)

In [34]:
# Visualiza o dataset
df_temp.head()

Unnamed: 0,lesion_id,image_id,dx,dx_type,age,sex,localization,path,tipo_lesao,tipo_lesao_idx
0,HAM_0000001,1,1,1,1,1,1,1,1,1
1,HAM_0000003,1,1,1,1,1,1,1,1,1
2,HAM_0000004,1,1,1,1,1,1,1,1,1
3,HAM_0000007,1,1,1,1,1,1,1,1,1
4,HAM_0000008,1,1,1,1,1,1,1,1,1


In [35]:
# Função para identificar lesion_ids que possuem imagens duplicadas e aqueles que possuem apenas uma imagem
def get_duplicates(x):
    unique_list = list(df_temp['lesion_id'])
    if x in unique_list:
        return 'unduplicated'
    else:
        return 'duplicated'

In [36]:
# Cria uma nova coluna que seja uma cópia da coluna lesion_id
df_inicial['duplicates'] = df_inicial['lesion_id']

In [38]:
# Aplica a função a esta nova coluna
df_inicial['duplicates'] = df_inicial['duplicates'].apply(get_duplicates)

In [39]:
# Contagem dos valores duplicados
df_inicial['duplicates'].value_counts()

unduplicated    5514
duplicated      4501
Name: duplicates, dtype: int64

In [40]:
# Filtro das imagens que não têm duplicatas
df_temp = df_inicial[df_inicial['duplicates'] == 'unduplicated']

In [41]:
# Define y
y = df_temp['tipo_lesao_idx']

In [42]:
# Cria dataset de validação sem duplicatas
_, df_val = train_test_split(df_temp, test_size = 0.2, random_state = 101, stratify = y)

In [43]:
# Visualiza o shape do dataset
df_val.shape

(1103, 11)

In [44]:
# Verifica a contagem dos itens
df_val['tipo_lesao_idx'].value_counts()

4    883
2     88
6     46
1     35
0     30
5     13
3      8
Name: tipo_lesao_idx, dtype: int64

### 4.3 Separação das amostras de treino e validação

In [45]:
# Esta função identifica se uma imagem faz parte do conjunto train ou val
def get_val_rows(x):
    val_list = list(df_val['image_id'])
    if str(x) in val_list:
        return 'val'
    else:
        return 'train'

In [47]:
# Identifica treino ou validação
df_inicial['train_or_val'] = df_inicial['image_id']

In [48]:
# Aplica a função a esta nova coluna
df_inicial['train_or_val'] = df_inicial['train_or_val'].apply(get_val_rows)

In [49]:
# Filtra as linhas de treino
df_treino = df_inicial[df_inicial['train_or_val'] == 'train']

In [50]:
# Verifica o número de registros
print('Dataset de treino: ', len(df_treino))
print('Dataset de validação: ', len(df_val))

Dataset de treino:  8912
Dataset de validação:  1103


In [51]:
# Total de itens por classe
# Dataset desbalanceado
df_treino['tipo_lesao_idx'].value_counts()

4    5822
6    1067
2    1011
1     479
0     297
5     129
3     107
Name: tipo_lesao_idx, dtype: int64

In [52]:
# Total de itens por classe
df_val['tipo_lesao'].value_counts()

Melanocytic nevi         883
Benign keratosis-like     88
dermatofibroma            46
Basal cell carcinoma      35
Actinic keratoses         30
Vascular lesions          13
Dermatofibroma             8
Name: tipo_lesao, dtype: int64

### 4.4 Dataset Augmentation

In [53]:
# Taxa de dataset augmentation a ser usada em cada classe
# É determinada de forma manual testando o balancemento no final
data_aug_rate = [15,10,5,50,0,40,5]

In [54]:
# Loop para o dataset augmentation
for i in range(7):
    
    if data_aug_rate[i]:
        
        # Equaliza a proporção de imagens por classe nos dados de treino
        # Geramos novas imagens multiplicando as imagens existentes pela taxa definida na lista de taxas
        df_treino = df_treino.append([df_treino.loc[df_treino['tipo_lesao_idx'] == i,:]] * (data_aug_rate[i] - 1), 
                                     ignore_index = True)

In [55]:
# Visualiza o dataset de treino
df_treino['tipo_lesao'].value_counts()

Melanocytic nevi         5822
Dermatofibroma           5350
dermatofibroma           5335
Vascular lesions         5160
Benign keratosis-like    5055
Basal cell carcinoma     4790
Actinic keratoses        4455
Name: tipo_lesao, dtype: int64

In [60]:
# Reset do índice
df_treino = df_treino.reset_index()

In [61]:
# Shape do dataset de treino
df_treino.shape

(35967, 13)