# Criação do dataset

Este notebook gera um novo adataset usando como base o dataset originalmente obtido de https://github.com/Shenggan/BCCD_Dataset

As imagens originais foram submetidas a um aumento de contraste e sem seguida rotacionadas em 45 graus sucessivamente, gerando imagens com as seguintes rotações: 0, 45, 90, 135, 180, 225, 270, 315.

Esta estratégia expande o dataset gerando variações de posicionamento das células alvo.

In [1]:
import os, errno
import pathlib
import pandas as pd
from PIL import Image, ImageFilter
from PIL import ImageEnhance
from pathlib import Path

In [2]:
path_base = "~/TCC_2020/dataset/"
blood_images = path_base + "blood/"

In [3]:
arquivos = os.listdir(blood_images)

FileNotFoundError: [Errno 2] No such file or directory: '~/TCC_2020/dataset/blood/'

In [48]:
print(f"{len(arquivos)} imagens no total.\n")
print(arquivos[:5])

366 imagens no total.

['BloodImage_00013.jpg', 'BloodImage_00149.jpg', 'BloodImage_00351.jpg', 'BloodImage_00068.jpg', 'BloodImage_00269.jpg']


In [53]:
labels = pd.read_csv(path_base + "labels.csv", usecols = [1, 2])
labels

Unnamed: 0,Image,Category
0,0,NEUTROPHIL
1,1,NEUTROPHIL
2,2,NEUTROPHIL
3,3,NEUTROPHIL
4,4,NEUTROPHIL
...,...,...
406,406,
407,407,NEUTROPHIL
408,408,NEUTROPHIL
409,409,NEUTROPHIL


In [8]:
# Criando listas com os numeros de imagens de cada categoria
# A lista é criada relacionando do nome do arquivo com seu label em (labels.csv)
# Algumas imagens contem mais de um tipo de célula, exemplo: 176 = MONOCYTE, LYMPHOCYTE
# São descartadas imagens com label duplo não idênctico ou sem label (nan)
# Tais imagens são descartadas porque a quantidade de imagens com mais de 
# um tipo celular é insuficiente para treinar a rede para reconhecer mais de uma classe simultaneamente
# Apesar de gerar as imagens, da mesma forma, não serão usados BASOPHIL porque há poucas amostras (3 apenas)
# Esta será uma limitação desta IA: reconhecerá apenas NEUTROPHIL, EOSINOPHIL, MONOCYTE e LYMPHOCYTE individualmente presentes em imagens de lâminas

NEUTROPHIL = []
BASOPHIL   = []
EOSINOPHIL = []
MONOCYTE   = []
LYMPHOCYTE = []
for index, label in labels.iterrows():
    if label['Category'] == 'NEUTROPHIL':
        NEUTROPHIL.append(label['Image'])
    if label['Category'] == 'BASOPHIL':
        BASOPHIL.append(label['Image'])
    if label['Category'] == 'EOSINOPHIL':
        EOSINOPHIL.append(label['Image'])
    if label['Category'] == 'MONOCYTE':
        MONOCYTE.append(label['Image'])
    if label['Category'] == 'LYMPHOCYTE':
        LYMPHOCYTE.append(label['Image'])
    if "," in str(label['Category']):
        categoria_dupla =  str(label['Category']).split(",")
        if categoria_dupla[0] == 'NEUTROPHIL' and categoria_dupla[1] == 'NEUTROPHIL':
            NEUTROPHIL.append(label['Image'])
        if categoria_dupla[0] == 'BASOPHIL' and categoria_dupla[1] == 'BASOPHIL':
            BASOPHIL.append(label['Image'])
        if categoria_dupla[0] == 'EOSINOPHIL' and categoria_dupla[1] == 'EOSINOPHIL':
            EOSINOPHIL.append(label['Image'])
        if categoria_dupla[0] == 'MONOCYTE' and categoria_dupla[1] == 'MONOCYTE':
            MONOCYTE.append(label['Image'])
        if categoria_dupla[0] == 'LYMPHOCYTE' and categoria_dupla[1] == 'LYMPHOCYTE':
            LYMPHOCYTE.append(label['Image'])
        
print(f"{len(NEUTROPHIL)} NEUTROPHIL")
print(f"{len(BASOPHIL)} BASOPHIL")
print(f"{len(EOSINOPHIL)} EOSINOPHIL")
print(f"{len(MONOCYTE)} MONOCYTE")
print(f"{len(LYMPHOCYTE)} LYMPHOCYTE")

208 NEUTROPHIL
3 BASOPHIL
89 EOSINOPHIL
21 MONOCYTE
33 LYMPHOCYTE


In [49]:
BASOPHIL

[8, 132, 171]

In [41]:
def imgTratarSalvar(imgPathOrigem, imgPathDestino, imgName, imgType):
    '''
    TODO Documentar a funcao e tratar excecoes de acesso a pasta e existencia ou nao do arquivo
    '''
    # Imagem original
    im = Image.open( str(imgPathOrigem + image) )
    
    # Mudanca de contraste da imagem original
    enh = ImageEnhance.Contrast(im).enhance(2)
    
    # Rotacoes na imagem com contraste aumentado
    enhTransposed45 = enh.rotate(45)
    enhTransposed90 = enh.rotate(90)
    enhTransposed135 = enh.rotate(135)
    enhTransposed180 = enh.rotate(180)
    enhTransposed225 = enh.rotate(225)
    enhTransposed270 = enh.rotate(270)
    enhTransposed315 = enh.rotate(315)

    # Salvando todas as novas imagens - 640 x 480 pxl
    enh.save(imgPathDestino + imgType + "_enhanced_" + image[-9:])
    enhTransposed45.save(imgPathDestino + imgType + "_enhanced45_" + image[-9:])
    enhTransposed90.save(imgPathDestino + imgType + "_enhanced90_" + image[-9:])
    enhTransposed135.save(imgPathDestino + imgType + "_enhanced135_" + image[-9:])
    enhTransposed180.save(imgPathDestino + imgType + "_enhanced180_" + image[-9:])
    enhTransposed225.save(imgPathDestino + imgType + "_enhanced225_" + image[-9:])
    enhTransposed270.save(imgPathDestino + imgType + "_enhanced270_" + image[-9:])
    enhTransposed315.save(imgPathDestino + imgType + "_enhanced315_" + image[-9:])

In [47]:
'''
TO DO Tratar excecoes de acesso a pasta e existencia do arquivo
'''

imgPathDestino = "~/TCC_2020/dataset/novo/"

BASOPHIL_PATH = imgPathDestino + "BASOPHIL/"
Path(BASOPHIL_PATH).mkdir(parents=True, exist_ok=True)

NEUTROPHIL_PATH = imgPathDestino + "NEUTROPHIL/"
Path(NEUTROPHIL_PATH).mkdir(parents=True, exist_ok=True)

EOSINOPHIL_PATH = imgPathDestino + "EOSINOPHIL/"
Path(EOSINOPHIL_PATH).mkdir(parents=True, exist_ok=True)

MONOCYTE_PATH = imgPathDestino + "MONOCYTE/"
Path(MONOCYTE_PATH).mkdir(parents=True, exist_ok=True)

LYMPHOCYTE_PATH = imgPathDestino + "LYMPHOCYTE/"
Path(LYMPHOCYTE_PATH).mkdir(parents=True, exist_ok=True)

for basophil in BASOPHIL:
    for image in arquivos:
        if basophil == int(image[-9:-4]):
            imgType = "basophil"
            imgTratarSalvar( blood_images, BASOPHIL_PATH, image, imgType )

for neutrophil in NEUTROPHIL:
    for image in arquivos:
        if neutrophil == int(image[-9:-4]):
            imgType = "neutrophil"
            imgTratarSalvar( blood_images, NEUTROPHIL_PATH, image, imgType )
            
for eosinophil in EOSINOPHIL:
    for image in arquivos:
        if eosinophil == int(image[-9:-4]):
            imgType = "eosinophil"
            imgTratarSalvar( blood_images, EOSINOPHIL_PATH, image, imgType )
            
for monocyte in MONOCYTE:
    for image in arquivos:
        if monocyte == int(image[-9:-4]):
            imgType = "monocyte"
            imgTratarSalvar( blood_images, MONOCYTE_PATH, image, imgType )
            
for lymphocite in LYMPHOCYTE:
    for image in arquivos:
        if lymphocite == int(image[-9:-4]):
            imgType = "lymphocite"
            imgTratarSalvar( blood_images, LYMPHOCYTE_PATH, image, imgType )            