# Dataset - Colorectal Cancer (CRC)

* Introducción
* Exploración del conjunto de datos
* Conjunto de datos 1
* Pre procesado de imágenes para la arquitectura Alexnet (2012)
* Muestra

## Introducción

El conjunto de datos consiste en un grupo de imágenes fueron liberadas bajo [Creative Commons Attribution 4.0 International License](https://creativecommons.org/licenses/by/4.0/) pudiéndose descargar en esta [página](https://zenodo.org/record/53169/export/hx).

Cabe mencionar que la realización de los experimentos fue aprobada por el comité de ética de la Universidad de Heildelberg (Alemania) tal y como mencionan los autores Kather et al. en su [artículo](https://www.nature.com/articles/srep27988?WT.feed_name=subjects_translational-research) y así mismo se siguió la [Declaración de Helsinki](http://www.who.int/bulletin/archives/79%284%29373.pdf).

## Exploración del conjunto de datos

Nota:

Los autores liberaron dos conjuntos de imágenes, si bien se realizan nuestras investigaciones sobre el primero de ellos, ambos son descritos a continuación.

### Conjunto de datos 1

En este conjunto se hallan 8 categorías de tejido, listadas a continuación. En cada una de ellas hay 625 imágenes que **no se solapan entre sí**. Cada imagen tiene un tamaño de 150x150 px (píxeles), que se corresponden con 74$\mathrm{\mu}$m de tejido. En total son 5000 imágenes.

Categorías seleccionadas por los investigadores
1. Epitelio canceroso
2. Estroma simple (de composición homogenea, estroma tumoroso, estroma extra-tumoral y tejido blando)
3. Estroma complejo (células tumorosas y/o alguna célula inmune)
4. Células inmunes (conglomerado de células inmunes y folículos linfoides submucosos)
5. Material variado (mucosas, hemorrargía, necrosado)
6. Glándulas mucosas normales
7. Tejido adiposo
8. Imagen de fondo (no se corresponde con tejido)

### Conjunto de datos 2

Se hallan 10 imágenes grandes, de tamaño 5000x5000 px, que provienen de distinta región con respecto a las imágenes del conjunto anterior. Según los investigadores pueden ser usadas para comprobar distintas combinaciones de descriptores de textura o clasificadores en un entorno real.

## Conjunto de datos 1

Se muestra una imagen por categoría. Cada imagen tiene 150x150 px, por lo que tiene 22500 *características* (features).

Las imágenes histológicas están en formato [TIF](https://en.wikipedia.org/wiki/TIFF).

In [None]:
# Imports To Do --> control loading module errors 
from PIL import Image

%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt

import numpy as np

from skimage.transform import resize

In [None]:
from PIL import Image
# just image info
# tutorial --> http://pillow.readthedocs.io/en/3.4.x/handbook/tutorial.html
# TO-DO path var + name + os-use (linux - windows) + randomize
myImage = Image.open("../img-raw/01_TUMOR/1A11_CRC-Prim-HE-07_022.tif_Row_601_Col_151.tif")
print(myImage.format, myImage.size, myImage.mode)

In [None]:
# show the image - inline? 2 alternatives + point 9.2 handson
#myImage.show()

# alternative 1
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt
myImageAux = plt.imread("../img-raw/01_TUMOR/1A11_CRC-Prim-HE-07_022.tif_Row_601_Col_151.tif")
plt.imshow(myImageAux.astype(np.uint8),interpolation="nearest")

In [None]:
# alternative 2
# working with mumpy as array
import numpy as np

# http://scikit-image.org/docs/dev/user_guide/numpy_images.html

myImageArray = np.array(myImage)
print(myImageArray.shape) #same result

# row = height - height = width - channels
height , width, channels = myImageArray.shape

print(height)
print(width)
print(channels)

print(myImageArray.size) #150x150x3 - heitgh x witdh x deepth (channels)

# the whole array nonsense to show it
#myImageArray

# print image
Image.fromarray(myImageArray)

In [None]:
# Re-dim imgs
# In order to get the exact size of Alexnet input, we have to up-size (256x256) and the down-size (227x227)

# image pre-processing: An example, related to data augmentation
# link module --> http://scikit-image.org/docs/dev/api/skimage.transform.html
# link function --> http://scikit-image.org/docs/dev/api/skimage.transform.html#skimage.transform.resize

# in the first cell there is the full import
from skimage.transform import resize

# original img
#skimage.io.imshow(myImageArray) # ok

# resize up img
myImageArrayUpSize = resize(myImageArray, (256, 256), preserve_range = False, mode='reflect')
print(myImageArrayUpSize.shape) # ok
#print(type(myImageArrayUpSize)) # ok
#skimage.io.imshow(myImageArrayUpSize) # ok

#Image.fromarray(myImageArrayUpSize) # does not work

# downsize: anti_aliasing true in order to avoid aliasing artifacts
# with aliasing artifacts
myImageArrayDownSize = resize(myImageArrayUpSize, (227, 227), preserve_range = False, mode='reflect')
print(myImageArrayDownSize.shape) # ok
#print(type(myImageArrayDownSize)) # ok
#skimage.io.imshow(myImageArrayDownSize) # ok

# without aliasing artifacts
#myImageArrayDownSize = resize(myImageArrayUpSize, (227, 227), anti_aliasing = True, anti_aliasing_sigma = float,preserve_range = False, mode='reflect')

#print(myImageArrayDownSize.shape)

#print(type(myImageArrayDownSize))