# Criando bases de dados no formato numpy a partir de imagens

Nesse exemplo vamos criar uma base de dados contendo 3 imagens, no formato numpy. 

In [None]:
from scipy.misc import imread # Para ler imagens em memória
import numpy as np
import os

In [None]:
#Vamos baixar tres imagens de exemplo

if not os.path.isdir('caltech_samples'):
    os.mkdir('caltech_samples')
    import urllib
    for name in ['lagosta.png', 'crocodilo.png', 'dalmata.png']:
        urllib.urlretrieve('http://www.inf.ufpr.br/lghafemann/caltech_samples/%s' % name, 'caltech_samples/%s' % name)

In [None]:
#Começamos por listar as imagens que queremos incluir na base

path = "caltech_samples/"
files = os.listdir(path)

In [None]:
files

Vamos agora ler as imagens. Podemos fazer isso usando "for" para ler cada imagem na lista "files", ou podemos usar sintaxe do python que facilita a manipulação de listas (chamado list comprehension)

Mais informações: https://docs.python.org/2/tutorial/datastructures.html#list-comprehensions


In [None]:
#chama a função imread para cada nome de arquivo. Retorna uma lista de imagens
all_images = [imread(path + "/" + f) for f in files] 

In [None]:
print 'Tamanho da lista: ', len(all_images)
print 'Tamanho da primeira imagem: ', all_images[0].shape 

## Tranformando a lista de imagens em um tensor numpy

Para transformar a lista de imagens em um tensor numpy, podemos usar a função

```
X = np.array(lista)
```

Essa função irá colocar todas as imagens em um só tensor (matriz), com uma dimensão a mais:

Se as imagens forem do tamanho 224 x 224 x 3 (224 de altura x 224 de largura x 3 canais (RGB)), X terá tamanho N x 224 x 224 x 3, onde N é o número de imagens

In [None]:
X = np.array(all_images)

In [None]:
print 'Tamanho de X: ', X.shape

Para salvar a matriz em um arquivo, podemos usar a função ```np.save(arquivo, matriz)```

In [None]:
np.save("X.npy", X)

Posteriormente, para carregar a matriz do disco para a memória, podemos usar a função ```X = np.load(arquivo)```

In [None]:
x_loaded = np.load("X.npy")
x_loaded.shape

# Notas

* O método acima somente funciona se todas as imagens tiverem exatamente o mesmo tamanho (pois em uma matriz, todas as linhas possuem o mesmo número de colunas)
* Para fazer o pré-processamento, podemos usar várias funções do pacote scipy:
  * scipy.misc.imresize: Redimensiona uma imagem para determinado tamanho
  * scipy.misc.imrotate: Rotaciona imagem
  * scipy.ndimage.binary_erosion: Erosão (em imagens binárias). Possui também dilatação, etc.
  * scipy.ndimage.zoom: Zoom (mudança de escala da imagem)
  
