# <font color='#4C5FDA'>**Breast Cancer Detection Based on CNNs Using Thermal Imaging** </font>

Original paper by Juan Pablo Zuluaga, Zeina Al Masry, Khaled Benaggoune, Safa Meraghni & Noureddine Zerhouni: [A CNN-based methodology for breast cancer diagnosis using thermal images](https://www.tandfonline.com/doi/full/10.1080/21681163.2020.1824685)

In [1]:
#@title **Instalar paquetes necesarios**

%%capture
! pip install torchmetrics
! pip install wandb -Uq
# ! pip install onnx

## <font color='#ECA702'>**Clonamos nuestro repo**</font>

Esto con el fin de traer todos los .py para poder entrenar 'localmente' en Colab y registrar las métricas en wandb.

In [2]:
! git clone https://github.com/gpintoruiz/Thermal-Imaging-Breast-Cancer-Detection.git

Cloning into 'Thermal-Imaging-Breast-Cancer-Detection'...
remote: Enumerating objects: 380, done.[K
remote: Counting objects: 100% (160/160), done.[K
remote: Compressing objects: 100% (126/126), done.[K
remote: Total 380 (delta 99), reused 70 (delta 34), pack-reused 220[K
Receiving objects: 100% (380/380), 7.78 MiB | 33.18 MiB/s, done.
Resolving deltas: 100% (226/226), done.


In [3]:
%cd Thermal-Imaging-Breast-Cancer-Detection/notebooks

/content/Thermal-Imaging-Breast-Cancer-Detection/notebooks


In [4]:
%ls

0.01-gpr-data-exploration-cv2.ipynb   alexnet.py       train_gkfold.py   vgg.py
0.01-gpr-data-exploration-pil.ipynb   make_dataset.py  train_one_run.py  xception-gfkfold.yaml
0.04-gpr-colab-experiments.ipynb      preprocess.py    train.py          xception-one-run.yaml
1.00-gpr-xception-from-scratch.ipynb  test.py          utils.py          xception.py


## <font color='#ECA702'>**Configuración inicial para conectarnos con Kaggle**</font>

1. Instalamos kaggle. Para poder usar comandos de Kaggle.

In [5]:
%%capture
! pip install kaggle

Subimos nuestro token de autenticación de Kaggle (si estamos en colab, sino colocarlo en la carpeta del proyecto)

In [None]:
from google.colab import files
files.upload()

1. Creamos los directorios de Kaggle
2. Copiamos nuestro token en .kaggle
3. Con `chmod 600` establecemos los permitos del token en 600, es decir, que solo yo tengo permisos de lectura y escritura sobre el archivo

In [7]:
! mkdir ~/kaggle

In [8]:
! mkdir ~/.kaggle
! cp kaggle.json ~/.kaggle/
! chmod 600 ~/.kaggle/kaggle.json

## <font color='#ECA702'>**Carga del dataset**</font>

Traemos el dataset [Thermal Images for Breast Cancer Diagnosis DMR-IR](https://www.kaggle.com/datasets/asdeepak/thermal-images-for-breast-cancer-diagnosis-dmrir) desde kaggle.

This dataset is a methodology for breast disease computer-aided diagnosis using dynamic thermography. The thermal images for breast tumors are classified according to DMR-IR standards.

Two types of tumors are classified in this dataset one is benign another is malignant.
- Benign: This type of tumor is usually well-defined and round or oval in shape. (non-cancerous tumor)
- Malignant: This type of tumor is usually poorly defined and irregular with lobules. (cancerous tumor)

In [9]:
%%capture
! kaggle datasets download -d asdeepak/thermal-images-for-breast-cancer-diagnosis-dmrir
! unzip thermal-images-for-breast-cancer-diagnosis-dmrir.zip

Después de descargar los datos. Debemos entender la estructura de las carpetas para poder trabajar con ellas de una mejor manera.
1. La carpeta principal `Imagens e Matrizes da Tese de Thiago Alves Elias da Silva` son todos los datos `data`.
2. La carpeta `12 Novos Casos de Testes` la podemos tomar como nuestro conjunto de prueba (`test`).
3. Mientras que la carpeta `Desenvolvimento da Metodologia` será nuestro conjunto de entrenamiento (`train`).

Luego dentro de nuestras carpetas de `train` y `test` encontramos dos categorías `DOENTES`y `SAUDAтХа├╝VEIS` o SAUDÁVEI. Los primeros son los casos malignos y los segundos benignos.

Dentro de cada una de las carpetas de pacientes saludables y enfermos se encuentran carpetas con números, cada número representa un paciente. Y para cada paciente tendremos dos carpetas más, una para las imágenes **segmentadas** en escala de grises y la otra para la matrix o mapa de calor.

Algo bueno de este dataset es que ya está dividido por pacientes, es decir, no tendremos imagenes del mismo paciente en el conjunto de entrenamiento y testeo. Por lo tanto, vamos a entrenar con N pacientes, y testear con K pacientes, que no son los mismos.

### <font color='#52F17F'>**Partición de los datos**</font>

Este comando nos permite cargar funciones de un .py en el entorno local de Colab. [Fuente](https://stackoverflow.com/questions/47345004/in-googles-colab-notebook-how-do-i-call-a-function-from-a-python-file)

In [10]:
execfile('make_dataset.py')

In [11]:
np.random.seed(2024)

def print_fold_patients(folds: dict, data: pd.DataFrame):
    for fold_name, indices in folds.items():
        train_patients = data.iloc[indices['train']]['patient'].unique()
        # val_patients = data.iloc[indices['val']]['patient'].unique()
        test_patients = data.iloc[indices['test']]['patient'].unique()

        print(f"{fold_name}:\n")
        print(f"Train patients: {train_patients}")
        # print(f"Validation patients: {val_patients}")
        print(f"Test patients: {test_patients}\n")

# Generar los datos
data = make_dataframe()

# Generar los folds
folds = make_folds(data)

# Imprimir los pacientes por cada fold
print_fold_patients(folds, data)

fold_1:

Train patients: ['66' '62' '61' '63' '64' '65' '14' '48' '69' '28' '04' '29' '00' '59'
 '35' '36' '58' '01' '56' '05' '53' '32' '51' '49' '55' '24' '02' '25'
 '31' '08' '07' '54' '26' '09' '38' '45' '13' '44' '11' '42' '15' '16'
 '40' '43' '39' '37' '46' '41']
Test patients: ['03' '06' '60' '27' '30' '52' '34' '17']

fold_2:

Train patients: ['66' '62' '61' '63' '64' '65' '14' '28' '04' '03' '29' '00' '35' '06'
 '36' '60' '58' '01' '05' '53' '32' '49' '27' '55' '24' '02' '25' '31'
 '08' '54' '30' '52' '09' '38' '45' '13' '44' '11' '42' '15' '16' '40'
 '34' '43' '39' '17' '37' '46']
Test patients: ['48' '69' '59' '56' '51' '07' '26' '41']

fold_3:

Train patients: ['66' '62' '61' '63' '64' '14' '48' '69' '28' '04' '03' '29' '00' '59'
 '35' '06' '36' '60' '56' '05' '53' '32' '51' '27' '55' '24' '02' '25'
 '31' '07' '54' '30' '52' '26' '09' '38' '45' '13' '44' '11' '40' '34'
 '43' '39' '17' '37' '46' '41']
Test patients: ['65' '58' '01' '49' '08' '42' '15' '16']

fold_4:

Train p

## <font color='#ECA702'>**Inicializamos el agende de wandb**</font>

### <font color='#52F17F'>**1. Nos logeamos en nuestra cuenta**</font>

In [12]:
import wandb
wandb.login()

<IPython.core.display.Javascript object>

[34m[1mwandb[0m: Logging into wandb.ai. (Learn how to deploy a W&B server locally: https://wandb.me/wandb-server)
[34m[1mwandb[0m: You can find your API key in your browser here: https://wandb.ai/authorize
wandb: Paste an API key from your profile and hit enter, or press ctrl+c to quit:

 ··········


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


True

### <font color='#52F17F'>**2. Hacemos call del agente**</font>


El sweep que estoy probando acá es el [siguiente](https://github.com/gpintoruiz/Thermal-Imaging-Breast-Cancer-Detection/blob/main/notebooks/xception-one-run.yaml). Se pueden cambiar los parámetros a probar como tú quieras de acuerdo con la [documentación](https://docs.wandb.ai/guides/sweeps/define-sweep-configuration) (recomiendo solo cambiar la arquitectura para que las comparaciones entre modelos sean equivalentes).

Si no tienes ni idea qué es un sweep mira el siguiente [tutorial](https://www.youtube.com/watch?v=9zrmUIlScdY&t=1361s&ab_channel=Weights%26Biases).

El comando `--count` sirve para decirle al agente cuántos runs hacer, aplica especialmente cuando el método del sweep es `bayes` o `random`


In [13]:
! wandb agent aiuis/dip-project/80af0iqh --count 1

[34m[1mwandb[0m: Starting wandb agent 🕵️
2024-06-30 20:04:26,892 - wandb.wandb_agent - INFO - Running runs: []
2024-06-30 20:04:37,223 - wandb.wandb_agent - INFO - Agent received command: run
2024-06-30 20:04:37,223 - wandb.wandb_agent - INFO - Agent starting run with config:
	architecture: xception
	augmented: True
	batch_size: 64
	crop: True
	learning_rate: 0.0008357465887034653
	normalize: True
	optimizer: sgd
2024-06-30 20:04:37,225 - wandb.wandb_agent - INFO - About to run command: /usr/bin/env python train_one_run.py --architecture=xception --augmented=True --batch_size=64 --crop=True --learning_rate=0.0008357465887034653 --normalize=True --optimizer=sgd
2024-06-30 20:04:42,237 - wandb.wandb_agent - INFO - Running runs: ['9khc3omb']
[34m[1mwandb[0m: Currently logged in as: [33mgpintoruiz[0m ([33maiuis[0m). Use [1m`wandb login --relogin`[0m to force relogin
[34m[1mwandb[0m: Tracking run with wandb version 0.17.3
[34m[1mwandb[0m: Run data is saved locally in [35m