# Exploración y Preparación del Dataset


A continuación vamos a realizar el código que nos permita obtener los diferentes datasets que vamos a utilizar en los posteriores entrenamientos.

## Declaración de Librerías

In [1]:
# Para comenzar declaramos las librerías neesarias para la preparación del 
# dataset
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
from PIL import Image
from numpy import asarray
from numpy import expand_dims
from keras.preprocessing.image import load_img
from keras.preprocessing.image import img_to_array
from keras.preprocessing.image import ImageDataGenerator
from keras.preprocessing.image import save_img
from numpy import expand_dims
from keras.preprocessing.image import load_img
from keras.preprocessing.image import img_to_array
from keras.preprocessing.image import ImageDataGenerator
from keras.preprocessing.image import save_img
from zipfile import ZipFile
import os
import shutil
from skimage.io import imshow
import numpy as np
import pandas as pd
import time
from google.colab import files
import glob
import cv2 as cv
from google.colab.patches import cv2_imshow

## Upload de las imágenes y preparación de los directorios

In [4]:
# Subimos las imágenes con las que prepararemos nuestro dataset
uploaded = files.upload()

Saving NGC383Class.zip to NGC383Class.zip


In [5]:
# Obtenemos el current working directory
cwd = os.getcwd()
os.listdir(cwd)

['.config', 'NGC383Class.zip', 'sample_data']

In [6]:
# Creamos el directorio sobre el que desenziparemos nuestras imágenes
!mkdir /content/datangc

In [7]:
# Creamos el directorio sobre el que enziparemos nuestros resultados
!mkdir /content/datazip

In [None]:
!mkdir /content/datazip/Train
!mkdir /content/datazip/Test
!mkdir /content/datazip/Valid

In [9]:
# Extraemos las imágenes del fichero que hemos subido
#with ZipFile('NGC150.zip', 'r') as zipObj:   
with ZipFile('NGC383Class.zip', 'r') as zipObj:   
   zipObj.extractall('datangc')

In [None]:
# Comprobamos que se han extraído correctamente las imágenes sobre el directorio
# escogido
os.listdir('/content/datangc/')

In [None]:
# Si quisieramos cambiar el CWD
# path = '/content/datazip'
# os.chdir(path)

## Lectura y visualización del dataset

In [11]:
# Procedemos a la lectura de las imágenes y su nombre de fichero para añadirlo 
# a dos listas
path = glob.glob("/content/datangc/*.jpg")
cv_img = []
name_file = []
for img in path:
    name_file.append(img)
    n = cv.imread(img)
    cv_img.append(n)

In [12]:
# Creamos las variables necesarias para posteriormente poder graficas las 
# imágenes extraídas
Tot = len(cv_img)
Cols = 6
Rows = Tot // Cols 
Rows += Tot % Cols
Position = range(1,Tot + 1)

In [13]:
# Verificamos el tamaño del dataset 
len(cv_img)

383

In [None]:
# Sacamos por pantalla las imágenes que hemos leído
plt.figure(figsize=(50, 80))
#plt.xticks([]),plt.yticks([])
fig = plt.figure(1)

for k in range(Tot):
  ax = fig.add_subplot(Rows,Cols,Position[k])
  ax.imshow(cv_img[k])      
plt.show()

Output hidden; open in https://colab.research.google.com to view.

## Aumento del Dataset mediante la librería Augmentor

In [None]:
# Si no existe instalamos la librería que nos permitirá aumentar nuestro dataset
!pip install Augmentor

Collecting Augmentor
  Downloading https://files.pythonhosted.org/packages/cb/79/861f38d5830cff631e30e33b127076bfef8ac98171e51daa06df0118c75f/Augmentor-0.2.8-py2.py3-none-any.whl
Installing collected packages: Augmentor
Successfully installed Augmentor-0.2.8


A continuación tendremos diferentes funciones que nos permitirán aumentar nuestro dataset teniendo en cuenta diferentes características como rotación, zoom, desplazamiento vertical, horizontal, a la derecha, a la izquierda, ...

In [None]:
def augmentorwidthshiftrange(imglx,direct,subdir):
	# Indicamos de qué tipo y que características tendrá nuestra imagen, en este 
	# caso en qué rango se moverá la imagen
	datagen = ImageDataGenerator(width_shift_range=[-30,30])
	# verificamos que no tenga dimensión la imagen para poderla tratar
	samples = expand_dims(imglx, 0)
	directory = direct + subdir
	# preparamos las imágenes para crearlas teniendo en cuenta el ImagaDataGenerator
	# escogido y para grabarlas en el directorio indicado
	it = datagen.flow(samples, batch_size=1,save_to_dir=directory,
                                   save_prefix='galax',save_format='png')
	# Podremos sacar por pantalla las imágenes creadas
	fig, ax = plt.subplots(nrows=3, ncols=3, figsize=(16,10), sharex=True, sharey=True)
	for e in range(3):
		for i in range(3):
			# Generamos las imágenes según las características indicadas
			batch = it.next()
			# La convertimos a este tipo para poder visualizarla
			image = batch[0].astype('uint8')
			# Vemos la imagen en el subplot indicado
			ax[e,i].imshow(image)


In [None]:
def augmentorheighshiftrange(imglx,direct,subdir):
	samples = expand_dims(imglx, 0)
	datagen = ImageDataGenerator(height_shift_range=0.5)
	directory = direct + subdir
	it = datagen.flow(samples, batch_size=1,save_to_dir=directory,
                                   save_prefix='galax',save_format='png')
	fig, ax = plt.subplots(nrows=3, ncols=3, figsize=(16,10), sharex=True, sharey=True)

	for e in range(3):
		for i in range(3):
			batch = it.next()
			image = batch[0].astype('uint8')
			ax[e,i].imshow(image)			

In [None]:
def augmentorhorizontal_flip(imglx,direct,subdir):
	samples = expand_dims(imglx, 0)
	datagen = ImageDataGenerator(horizontal_flip=True)
	directory = direct + subdir
	it = datagen.flow(samples, batch_size=1,save_to_dir=directory,
                                   save_prefix='galax',save_format='png')
	fig, ax = plt.subplots(nrows=3, ncols=3, figsize=(16,10), sharex=True, sharey=True)

	for e in range(3):
		for i in range(3):
			batch = it.next()
			image = batch[0].astype('uint8')
			ax[e,i].imshow(image)

In [14]:
def augmentorrotator(imglx,direct,subdir,num):
	samples = expand_dims(imglx, 0)
	datagen = ImageDataGenerator(rotation_range=90)
	directory = direct + subdir
	it = datagen.flow(samples, batch_size=1,save_to_dir=directory,
                                   save_prefix='galax',save_format='jpg')
 
  # Para que vaya directamente a la grabación de las imagenes aumentadas 
	# quitamos la visualización por pantalla, de esta manera reducimos tiempo
	#fig, ax = plt.subplots(nrows=3, ncols=3, figsize=(16,10), sharex=True, sharey=True)

	for e in range(num):
		for i in range(num):
			batch = it.next()
			#image = batch[0].astype('uint8')
			#ax[e,i].imshow(image)

In [None]:
def augmentorbrightness(imglx,direct,subdir):
	samples = expand_dims(imglx, 0)
	datagen = ImageDataGenerator(brightness_range=[0.2,1.0])
	directory = direct + subdir
	it = datagen.flow(samples, batch_size=1,save_to_dir=directory,
                                   save_prefix='galax',save_format='png')
	fig, ax = plt.subplots(nrows=3, ncols=3, figsize=(16,10), sharex=True, sharey=True)

	for e in range(3):
		for i in range(3):
			batch = it.next()
			image = batch[0].astype('uint8')
			ax[e,i].imshow(image)

In [15]:
def augmentorzoom(imglx,direct,subdir,num):
	samples = expand_dims(imglx, 0)
	datagen = ImageDataGenerator(zoom_range=[0.5,1.0])
	directory = direct + subdir
	it = datagen.flow(samples, batch_size=1,save_to_dir=directory,
                                   save_prefix='galax',save_format='jpg')
	# Quitamos la parte de visualización para reducir tiempos de espera
	#fig, ax = plt.subplots(nrows=3, ncols=3, figsize=(16,10), sharex=True, sharey=True)

	for e in range(num):
		for i in range(num):
			batch = it.next()
			#image = batch[0].astype('uint8')
			#ax[e,i].imshow(image)

In [None]:
# Creación de las imágenes según las funciones anteriores
# Este trozo de código es usado para generar el dataset necesario para las 
# redes siamesas neuronales
dirs = '/content/datazip/'
subd = 's'
Tot = len(cv_img)
for k in range(Tot):
  os.makedirs(dirs + subd + str(k))
  augmentorzoom(cv_img[k],dirs, subd + str(k),3)
  #augmentorwidthshiftrange(cv_img[k],dirs, subd + str(k))
  #augmentorheighshiftrange(cv_img[k],dirs, subd + str(k))
  #augmentorhorizontal_flip(cv_img[k],dirs, subd + str(k))
  augmentorrotator(cv_img[k],dirs, subd + str(k),3)
  #augmentorbrightness(cv_img[k],dirs, subd + str(k))
  #direc = '/content/' + subd + str(k)
  #namezip = subd + str(k)
#shutil.make_archive(namezip, 'zip', direc)
#download = files.download(namezip + '.zip')


In [122]:
# Creamos las imágenes de Train, Test y Valid
# Si nos interesa ver tiempos de respuesta usamos el localtime
# localtime = time.localtime(time.time())
# print ("Local current time :", localtime)
dirs = '/content/datazip/Train/'
#subd = 'NGCIAC'
Tot = len(cv_img)
for k in range(Tot):
  os.makedirs(dirs + name_file[k][17:-4])
  augmentorzoom(cv_img[k],dirs, name_file[k][17:-4],3)
  #augmentorwidthshiftrange(cv_img[k],dirs, subd + str(k))
  #augmentorheighshiftrange(cv_img[k],dirs, subd + str(k))
  #augmentorhorizontal_flip(cv_img[k],dirs, subd + str(k))
  augmentorrotator(cv_img[k],dirs, name_file[k][17:-4],3)
  #augmentorbrightness(cv_img[k],dirs, subd + str(k))

#for k in range(Tot):
#  direc = dirs + subd + str(k)
#  namezip = subd + str(k)
#  shutil.copy(name_file[k], direc +'/'+name_file[k][17:])

In [None]:
name_file[3]

'/content/datangc/2MASXJ09065870_SDSS.jpg'

In [None]:
print(name_file[3][17:-4])

2MASXJ09065870_SDSS.


In [None]:
dirs = '/content/datazip/Test/'
#subd = 'NGCIAC'
Tot = len(cv_img)
for k in range(Tot):
  os.makedirs(dirs + name_file[k][17:-4])
  augmentorzoom(cv_img[k],dirs, name_file[k][17:-4],2)
  #augmentorwidthshiftrange(cv_img[k],dirs, subd + str(k))
  #augmentorheighshiftrange(cv_img[k],dirs, subd + str(k))
  #augmentorhorizontal_flip(cv_img[k],dirs, subd + str(k))
  #augmentorrotator(cv_img[k],dirs, subd + str(k),2)
  #augmentorbrightness(cv_img[k],dirs, subd + str(k))

In [None]:
dirs = '/content/datazip/Valid/'
#subd = 'NGCIAC'
Tot = len(cv_img)
for k in range(Tot):
  os.makedirs(dirs + name_file[k][17:-4])
  augmentorzoom(cv_img[k],dirs, name_file[k][17:-4],2)
  #augmentorwidthshiftrange(cv_img[k],dirs, subd + str(k))
  #augmentorheighshiftrange(cv_img[k],dirs, subd + str(k))
  #augmentorhorizontal_flip(cv_img[k],dirs, subd + str(k))
  #augmentorrotator(cv_img[k],dirs, subd + str(k),2)
  #augmentorbrightness(cv_img[k],dirs, subd + str(k))

## Obtención de las imágenes en formato comprido

In [127]:

dirs = '/content/datazip/Train'
shutil.make_archive('NGCs40', 'zip', dirs)
download = files.download('NGCs40.zip')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

In [121]:
# Por si hay que borrar directorios para repetir la operación
shutil.rmtree('/content/datazip/Train')

In [105]:
glob.glob(path + folder + '/.jpg')

[]

In [106]:
print(path + folder + '/.jpg')

/content/datazip/Train/NGC4003_SDSS/.jpg


In [29]:
path

'/content/datazip/Train/NGC0941_SDSS'

In [None]:
path = '/content/datazip/Train/'
for folder in galax:
  dir = path + folder
  print(path + folder)
  print(os.path.join(path + folder,'/.jpg'))

In [1]:
galax = ['NGC6394_SDSS', 'UGC12810_SDSS', 'NGC7311_SDSS', 'NGC0160_SDSS', 'NGC7466_SDSS', 'NGC2596_SDSS', 'NGC5980_SDSS', 
         'NGC1093_SDSS', 'NGC5947_SDSS', 'NGC6004_SDSS', 'NGC2916_SDSS', 'NGC0001_SDSS', 'NGC2253_SDSS', 'NGC2540_SDSS', 'NGC2906_SDSS', 'NGC6032_SDSS', 'NGC6063_SDSS', 
         'NGC0214_SDSS', 'NGC5267_SDSS', 'NGC2476_SDSS', 'NGC5145_SDSS', 'NGC5376_SDSS', 'NGC6977_SDSS', 'UGC03973_SDSS', 'NGC6411_SDSS', 'NGC7722_SDSS' , 'NGC6515_SDSS', 'NGC1060_SDSS',
         'NGC7631_SDSS', 'NGC0991_SDSS', 'NGC5888_SDSS', 'NGC0776_SDSS', 'NGC0477_SDSS', 'NGC3994_SDSS',  'NGC1132_SDSS' , 'NGC0755_SDSS', 'NGC1281_SDSS', 'NGC2526_SDSS', 'NGC4003_SDSS', 'NGC0941_SDSS' ]

In [57]:
len(galax)

40

In [58]:
len(set(galax))

40

In [None]:
path = '/content/datazip/Train/'
fold = 1
for folder in galax:
  print(folder)
  for i, filename in enumerate(glob.glob(path + folder + '/*.jpg')):
   #   print(filename)
      os.rename(filename, os.path.join(path + folder, 's' + str(i) + '.jpg'))
  #print(os.path.join(path,folder))  
  print(fold)  
  os.rename(os.path.join(path,folder), os.path.join(path,'s'+str(fold)))
  fold +=1

In [126]:
# Para comprobación después de lectura
os.listdir('/content/datazip/Train/s0')

['s16.jpg',
 's2.jpg',
 's13.jpg',
 's4.jpg',
 's17.jpg',
 's8.jpg',
 's14.jpg',
 's1.jpg',
 's10.jpg',
 's3.jpg',
 's15.jpg',
 's9.jpg',
 's0.jpg',
 's12.jpg',
 's11.jpg',
 's7.jpg',
 's5.jpg',
 's6.jpg']

In [None]:
# Por si estamos tomando tiempos de finalización
#localtime = time.localtime(time.time())
#print ("Local current time :", localtime)

Local current time : time.struct_time(tm_year=2020, tm_mon=10, tm_mday=10, tm_hour=17, tm_min=25, tm_sec=55, tm_wday=5, tm_yday=284, tm_isdst=0)
