# INF0417 - Visão computacional
## Processamento de imagens em Python

# 1. Introdução
Em python, precisamos importar os pacotes que forneçam as funcionalidades que queremos. \
Neste curso vamos usar muito os pacotes `numpy`, `scipy` e `matplotlib`. \
Vamos importá-los!

In [None]:
import numpy as np
import scipy
from matplotlib import pyplot as plt

# plt.rcParams['figure.figsize'] = (10, 10)

`numpy` nos permite trabalhar com `num`eros em `py`thon! \
Ele é ótimo para trabalhar com vetores e matrizes. \
Vejamos como criar um vetor:

In [None]:
vetor_linha = np.array([[1, 2, 3]], dtype=float)

Tudo em `numpy` é um *array*, e arrays têm:

- `dtype`: Descreve o tipo de números presentes no arranjo (*e.g.*, `float`, `int`, `bool`)

- `shape`: Descreve as dimensões do arranjo

- `size`: Descreve o tamanho do arranjo (número de elementos no array)

In [None]:
vetor_linha.dtype

In [None]:
vetor_linha.shape

In [None]:
vetor_linha.size

# 2. Operações
Podemos **somar** e **subtrair** matrizes facilmente:

In [None]:
vetor_linha + vetor_linha

In [None]:
vetor_linha - vetor_linha

E quanto à **multiplicação de matrizes**?

In [None]:
vetor_linha @ (vetor_linha.T) # Multiplicacao de matrices, o mesmo que o operador * no MATLAB

E à **multiplicação elemento a elemento** (*i.e.*, [o produto de Hadamard](https://en.wikipedia.org/wiki/Hadamard_product_(matrices)))?

In [None]:
vetor_linha * vetor_linha # Multiplicação elemento a elemento, o mesmo que o operador .* no MATLAB

**Tarefa 1**: O que `.T` faz com o arranjo?

**Resposta**: 

Basicamente, podemos realizar muitas operações matemáticas chamando a função `numpy` apropriada:

In [None]:
x = np.linspace(0, 2*np.pi, num=100)
y = np.sin(x)
plt.plot(x, y) # Aqui usamos matplotlib, que foi importada acima
plt.show()

## 2.1 Indexação
No caso mais simples, queremos acessar um único índice do vetor:

In [None]:
ind = 0 # Arranjos começam no índice 0 (!)
x[ind]

Também podemos querer os primeiros 10 elementos. \
Isso se chama **fatiar**!

In [None]:
x[0:10]

Também podemos querer recuperar cada segundo índice:

In [None]:
x[::2] # Abreviação de x[0: -1: 2], onde -1 é a abreviação de "o último elemento de x"

**Tarefa 2**: Agora queremos obter cada terceiro índice de $\Large x$, começando no índice 5. \
Forneça o comando apropriado abaixo:

In [None]:
# Sua resposta

## 2.2 Indexação Booleana
Digamos que queremos pegar todos os valores de $\Large x$, onde $\Large y<0$. \
Então podemos usar a **indexação booleana**, e é super simples!

In [None]:
x[y<0]

In [None]:
plt.scatter(x[y<0], y[y<0])
plt.show()

**Tarefa 3**: Agora queremos indexar todos os valores de $\Large (x,y)$ de forma que $\Large y^2 < 0.5$. \
Forneça o código apropriado abaixo.

In [None]:
# Sua resposta


## 2.3 Indexação multidimensional
A indexação funciona basicamente da mesma forma!

In [None]:
x = np.array([[1,2,3], [4,5,6], [7,8,9]])

print(x)

In [None]:
x[0:2, 0:2] # Seleciona um bloco 2x2

## 2.4 Imagens
Felizmente para nós, imagens são *arrays*, então os comandos acima também aplicam a imagens! \
Começamos mostrando algumas maneiras de carregar imagens em python. \
Começamos usando `matplotlib` para carregar uma imagem.

In [None]:
image_mpl = plt.imread('capybaras.png')

plt.imshow(image_mpl) # Mostra algumas capivaras
plt.show()

Outra maneira é com o **OpenCV**. \
A imagem é automaticamente transformada em uma matriz `numpy`, porém com um modelo de cor BGR em vez de RGB.

In [None]:
import cv2

image_cv2 = cv2.imread('capybaras.png')
plt.imshow(image_cv2) # Agora as capivaras são azuis, pois o OpenCV usa BGR em vez de RGB
plt.show()

Também podemos usar **PIL**. \
A imagem não é transformada em um array `numpy` automaticamente, mas podemos convertê-la facilmente.

In [None]:
from PIL import Image

image_pil = Image.open('capybaras.png')
print(image_pil)

plt.imshow(image_pil)
plt.show()

In [None]:
image_pil = np.array(image_pil) # Converte um objeto PIL em um array numpy
print(image_pil)

plt.imshow(image_pil)
plt.show()

**Tarefa 4**: Qual é o tipo de dado da imagem e quais as suas dimensões? \
Quais são os valores de intensidades máxima e mínima?

**Resposta**:


# 3. Criando um filtro 2D
Muitas vezes queremos filtrar nossas imagens como parte do processamento. \
Vamos criar um **filtro de desfoque Gaussiano** (*Gaussian blur*) com `numpy`! \
O filtro Gaussiano age como **filtro passa-baixa** (*low-pass filter*) ou **fitro de *smoothing***, pois ele filtra as frequências altas da imagem.

In [None]:
kernel_size = 13

coords = np.linspace(-(kernel_size//2), kernel_size//2, num=kernel_size) # Vetor de coordenadas do filtro de tamanho N=kernel_size
(x, y) = np.meshgrid(coords, coords)

Acabamos de criar um *meshgrid* (malha ou grade)! \
Você pode pensar nele como um array contendo todas as coordenadas $\Large (x, y)$ do filtro.

In [None]:
plt.imshow(x) # Observe que o eixo x cresce para a direita
plt.colorbar()
plt.show()

In [None]:
plt.imshow(y) # Observe que o eixo y cresce para baixo!
plt.colorbar()
plt.show()

Agora queremos criar um filtro Gaussiano nesta grade!

**Tarefa 5**: A equação para um filtro Gaussiano é
$$
\Large \exp \left( \frac{-(x^2+y^2)}{2\sigma^2} \right)
$$ \
Vamos supor que $\Large \sigma=1$. \
Como você pode escrever isso em `numpy`? \
Escreva o código abaixo. \
*Dica*: Em `numpy`, a função $\Large \exp(\cdot)$ pode ser escrita como `np.exp()` e $\Large x^2$ pode ser escrito como `x**2`.

In [None]:
lp_filter = ... # Responda aqui

Além disso, queremos que o filtro some 1, para garantir que a imagem não fique super clara ou escura!

In [None]:
lp_filter = ... # Filtro Gaussiano normalizado 2-D

In [None]:
plt.imshow(lp_filter)
plt.show()

# 4. Convolvendo nosso filtro com a imagem
Agora que (com um pouco de sorte) temos um filtro passa-baixa funcionando, vamos realizar o [processo de filtragem da imagem](https://en.wikipedia.org/wiki/Kernel_(image_processing)) pela [**convolução**](https://en.wikipedia.org/wiki/Convolution) do nosso filtro com a imagem da capivara! \
Primeiro, vamos importar a função `conv2` do pacote `scipy` para realizar a **convolução**.

In [None]:
from scipy.signal import convolve2d as conv2

Agora vamos fazer a convolução!

In [None]:
image_lp = conv2(image_pil, lp_filter, mode='same')

Opa! Deu problema, nossas capivaras são coloridas! \
Isso significa que elas são tecnicamente matrizes 3D. \
Uma maneira fácil de corrigir este problema é fazer a convolução separadamente para cada canal de cor.

**Tarefa 6**: Convolva a imagem da capivara separadamente para cada canal de cor abaixo.

In [None]:
image_lp_r = ... # Aqui está como fazer isso para o canal vermelho
image_lp_g = ... # Faça a convolução para o canal verde
image_lp_b = ... # e para o azul

Quando temos vários arrays `numpy`, podemos *empilha-los* juntos, para obter um array combinado. \
Nota: Certifique-se de lembrar em qual dimensão você os empilha! \
Isso pode ser selecionado pelo parâmetro *axis* na função `np.stack`

In [None]:
image_lp = np.stack((image_lp_r, image_lp_g, image_lp_b), axis=-1)
image_lp.shape

Então, vamos mostrar nossa bela imagem resultante!

In [None]:
plt.imshow(image_lp) # uhoh...
plt.show()

Infelizmente, não era para ser =( \
Você deve se lembrar que a imagem tinha valores entre $\Large [0, 255]$ e era do tipo `uint8`. \
Quando a convolvemos, o tipo de dado tornou-se `float`, e agora a `matplotlib` está nos dizendo que nossa imagem é estranha.

In [None]:
plt.imshow(...) # A maneira mais fácil é simplesmente dividir a imagem por 255
plt.show()

In [None]:
plt.imshow(...) # Ou, também podemos convertê-la de volta para uint8!
plt.show()

# 5. Domínio de frequência (Fourier)
Você deve ter notado que a convolução foi um pouco lenta. \
Como a imagem é muito grande e o kernel também é muito grande, ela é bastante cara computacionalmente. \
Uma maneira mais rápida poderia ser fazendo a convolução no domínio de Fourier! \
Lembre-se que:
$$
\Large f*g = \mathcal{F}^{-1}\{F \cdot G\}
$$

In [None]:
# Calcule a transformada de Fourier da imagem
f_image_pil_r = ...
f_image_pil_g = ...
f_image_pil_b = ...

In [None]:
# Transformada de Fourier do filtro
# Note que o filtro DEVE TER o mesmo tamanho da imagem!!!
zero_padded_lp_filter = np.zeros(image_pil[:, :, 0].shape, dtype=float)

# Aqui nós deslocamos implicitamente o filtro (no canto superior esquerdo da imagem)
zero_padded_lp_filter[:kernel_size, :kernel_size] = lp_filter
plt.figure(figsize=(4.5, 4.5))
plt.imshow(zero_padded_lp_filter[:kernel_size, :kernel_size])

# Plotamos o espectro de magnitude (centralizado) da DFT na escala logarítimica
IM = np.fft.fft2(zero_padded_lp_filter)
# IM = np.fft.fftshift(IM)
IMmag = np.log(np.abs(IM) + 1) # FFT na escala log

fig = plt.figure(figsize=(40, 40))
ax = fig.gca()
plt.imshow(IMmag, cmap='gray')
ax.set_xticks([])
ax.set_yticks([])

# Então, precisamos colocá-lo de volta no lugar!
zero_padded_lp_filter = np.roll(zero_padded_lp_filter, shift=(-(kernel_size//2), -(kernel_size//2)), axis=(0,1))

# Plotamos o espectro de magnitude (centralizado) da DFT na escala logarítimica
IM = np.fft.fft2(zero_padded_lp_filter)
# IM = np.fft.fftshift(IM)
IMmag = np.log(np.abs(IM) + 1) # FFT na escala log

fig = plt.figure(figsize=(40, 40))
ax = fig.gca()
plt.imshow(IMmag, cmap='gray')
ax.set_xticks([])
ax.set_yticks([])

plt.figure()
plt.subplot(2, 2, 1)
plt.imshow(zero_padded_lp_filter[:kernel_size, :kernel_size])
plt.title('Canto superior esquerdo')
plt.subplot(2, 2, 2)
plt.imshow(zero_padded_lp_filter[-kernel_size:, :kernel_size])
plt.title('Canto superior direito')
plt.subplot(2, 2, 3)
plt.imshow(zero_padded_lp_filter[:kernel_size, -kernel_size:])
plt.title('Canto inferior esquerdo')
plt.subplot(2, 2, 4)
plt.imshow(zero_padded_lp_filter[-kernel_size:, -kernel_size:])
plt.title('Canto inferior direito')
plt.show()

# Transformada de Fourier do filtro
f_lp_filter = np.fft.fft2(zero_padded_lp_filter)

**Tarefa 7**: Agora multiplique e faça a transformada inversa para cada canal! \
*Dica*: A transformação inversa é `np.fft.ifft2`

In [None]:
image_lp_r_fast = ... # Responda aqui
image_lp_g_fast = ... # Responda aqui
image_lp_b_fast = ... # Responda aqui

**Tarefa 8**: Empilhe os canais como você fez antes.

In [None]:
image_lp_fast = ... # Responda aqui

In [None]:
plt.imshow(...) # Também podemos convertê-la de volta para uint8!
# Perceba que precisamos plotar somente a parte real de image_lp_fast que contem números complexos do tipo z = real + j*imag
plt.show()

**Verifique**: Parece a imagem basicamente idêntica às anteriores? \
Por quê?

# 6. Material de apoio para os laboratórios

Isso foi basicamente o tutorial básico de processamento de imagens. \
No entanto, há ainda uma infinidade de coisas por saber. \
Veja o compêndio de dicas de [`numpy`](http://datacamp-community-prod.s3.amazonaws.com/ba1fe95a-8b70-4d2f-95b0-bc954e9071b0)
e algumas [operações de álgebra linear mais avançadas](https://gist.github.com/Parskatt/18a7db9784a43aa598e59f21412b4ec2). \
A seguir, vamos revisar alguns materiais que poderam ajudá-lo com os laboratórios da disciplina.

## 6.1 Laboratório 1
No Laboratório 1, você construirá um **filtro de derivadas regularizado**. \
Este filtro decorre do [fato de que](https://en.wikipedia.org/wiki/Convolution#Differentiation):
$$
\Large \frac{\partial}{\partial x} (f*g(\sigma)) (x) = \left( f*\frac{\partial}{\partial x} g(\sigma) \right) ( x) = (f*\underbrace{\frac{-x}{\sigma^2} g(\sigma)}_{\text{d}f} ) (x)
$$
onde:
$$
\Large g = \exp \left( -\frac{x^2}{2\sigma^2} \right)
$$.

Então, usamos o filtro:
$$
\Large \text{d}f = \frac{-x}{\sigma^2}g(\sigma)$$
e o convolvemos com o nosso sinal $\Large f$.

Além disso, [***este filtro é separável quando está na sua versão 2D***](https://en.wikipedia.org/wiki/Separable_filter), o que é ótimo porque, dado que
$$
\Large \text{d}f(x,y) = \text{d}f(x)g(y)
$$
então
$$
\Large f * \text{d} f = (f * \text{d} f(x)) * g(y)
$$

Assim, podemos realizar nossa convolução 2D, que escala **quadraticamente** com o tamanho do *kernel* (*aka.* filtro), e compô-la em 2 convoluções separadas, que escalam apenas **linearmente**!

In [None]:
kernel_size = 7
sigma = 1.5
x = np.linspace(-(kernel_size//2), kernel_size//2, num=kernel_size)[np.newaxis, :] # Cria um vetor de tamanho 1xN (onde N é igual a kernel_size)
g = np.exp(-x**2 / (2 * sigma**2)) # Filtro Gaussiano 1-D
g = g / np.sum(g) # Filtro Gaussiano normalizado 1-D
df = -x * g / (sigma**2)

In [None]:
plt.plot(x[0], df[0])
plt.show()

É muuuuito importante que nosso filtro seja **simétrico**.

**Tarefa 9**: Explique por que o filtro não é simétrico se o tamanho do kernel for par! \
*Dica*: Tente alterar o tamanho do kernel acima e veja o que acontece :)

**Resposta**: 

Abaixo, mostramos como realizar a convolução e a imagem da derivada resultante

In [None]:
image_pil = Image.open('capybaras.png')
image_pil_gray = np.mean(np.array(image_pil), axis=-1)
dx = conv2(conv2(image_pil_gray, df, mode='same'), g.T, mode='same')
dy = conv2(conv2(image_pil_gray, df.T, mode='same'), g, mode='same')

In [None]:
plt.figure(figsize=(20, 20))
plt.subplot(1, 2, 1)
plt.imshow(dx, cmap='gray')
plt.subplot(1, 2, 2)
plt.imshow(dy, cmap='gray')
plt.show()

## 6.2 Laboratório 2

No Laboratório 2 você usará a paleta de cores da função `gopimage` para visualização. \
Ela utiliza uma complexa representação das imagens.

In [None]:
from INF0417 import gopimage

z = dx + 1j*dy

gopimage(z, figsize=(20, 20)) # Você deve ver (partes de) uma capivara colorida e ruidosa

Enquanto a imagem acima é muito bonita, ela é bastante ruidosa! \
Em vez disso, podemos olhar para uma representação melhor, *e.g.*, o ***tensor de estrutura***!

In [None]:
T = np.zeros_like(image_pil)
Tlp = np.zeros_like(T)
T[:, :, 0] = dx * dx
T[:, :, 1] = dx * dy
T[:, :, 2] = dy * dy

In [None]:
sigma = 1.0
kernel_size = 25
lp = np.exp(-0.5*(np.linspace(-(kernel_size//2), kernel_size//2, num=kernel_size) / sigma)**2)[np.newaxis, :]
lp = lp / np.sum(lp) # Normaliza o filtro
Tlp[:, :, 0] = conv2(conv2(T[:, :, 0], lp, mode ='same'), lp.T, mode ='same')
Tlp[:, :, 1] = conv2(conv2(T[:, :, 1], lp, mode ='same'), lp.T, mode ='same')
Tlp[:, :, 2] = conv2(conv2(T[:, :, 2], lp, mode ='same'), lp.T, mode ='same')

In [None]:
z = Tlp[:, :, 0] - Tlp[:, :, 2] + 2j*Tlp[:, :, 1]

In [None]:
gopimage(z, figsize=(20, 20)) # Você deve ver (partes de) uma capivara colorida

Observe que as cores aqui podem ser ligeiramente diferentes do que é o apresentado em aula. \
Uma diferença pode vir do fato de que o eixo $y$ é direcionado para abaixo.

**Tarefa 10**: Altere a direção do eixo $y$ (*e.g.*, invertendo a direção do filtro) e plote $z$ novamente. O que acontece?

In [None]:
# Escreva aqui a resposta
dx = ...
dy = ...

T = np.zeros_like(image_pil)
Tlp = np.zeros_like(T)
T[:, :, 0] = dx * dx
T[:, :, 1] = dx * dy
T[:, :, 2] = dy * dy

In [None]:
sigma = 1.0
kernel_size = 25
lp = np.exp(-0.5*(np.linspace(-(kernel_size//2), kernel_size//2, num=kernel_size) / sigma)**2)[np.newaxis, :]
lp = lp / np.sum(lp) # Normaliza o filtro
Tlp[:, :, 0] = conv2(conv2(T[:, :, 0], lp, mode ='same'), lp.T, mode ='same')
Tlp[:, :, 1] = conv2(conv2(T[:, :, 1], lp, mode ='same'), lp.T, mode ='same')
Tlp[:, :, 2] = conv2(conv2(T[:, :, 2], lp, mode ='same'), lp.T, mode ='same')

In [None]:
z = Tlp[:, :, 0] - Tlp[:, :, 2] + 2j*Tlp[:, :, 1]

In [None]:
gopimage(z, figsize=(20, 20)) # Você deve ver (partes de) uma capivara colorida

**Resposta**: 

**Tarefa 11**: O que acontece quando você aumenta o valor de `sigma`? O que acontece se você diminuir ele? Por quê?

**Resposta**: 