# Manipulando Imagens
 `Prof. Dr. Rooney R. A. Coelho`
 
* A classificação de imagens é uma das áreas mais interessantes do aprendizado de máquina. A capacidade dos computadores de reconhecer padrões e objetos a partir de imagens é uma ferramenta incrivelmente poderosa. 
* No entanto, antes de aplicarmos aprendizado de máquina às imagens, muitas vezes precisamos primeiro transformar as imagens brutas em recursos utilizáveis por nossos algoritmos de aprendizagem.
* Para trabalhar com imagens, usaremos a Open Source Computer Vision Library (OpenCV). Embora existam uma série de boas bibliotecas por aí, o OpenCV é a biblioteca mais popular e documentada para lidar com imagens. 


!pip install opencv-python

In [None]:
import cv2
import numpy as np
from matplotlib import pyplot as plt

# Carregando Imagens

Primeiramente vamos carregar uma imagem para pré-processamento
- As imagens são dados binários que são convertidos para `numpy` usando o comando `imread`
- Em escala de cinza temos uma matriz onde cada valor corresponde a uma intensidade (0-255)
- O imwrite do OpenCV salva imagens do filepath especificado. O formato da imagem é definido pela extensão do nome do arquivo (.jpg, .png, etc.). 
- Um comportamento para ter cuidado é que o imwrite substituirá arquivos existentes sem produzir um erro ou pedir confirmação.



In [None]:
image = cv2.imread('imagens/plane.jpg', cv2.IMREAD_GRAYSCALE)
plt.imshow(image, cmap='gray') 
plt.axis('off')
plt.show()

In [None]:
# Salvando a imagem
cv2.imwrite('imagens/plane_new.jpg', image)

In [None]:
#type(image)
image

In [None]:
image.shape

### Imagens coloridas

- Trabalhamos com três canais para representar uma imagem colorida
- O OpenCV trabalha com a codificação BGR ao invés do RGB
- Devemos inverter esses canais para visualizarmos uma imagem colorida

In [None]:
# Carregar a imagem em cores
image_bgr = cv2.imread('imagens/plane.jpg', cv2.IMREAD_COLOR)

# Mostrar um pixel
image_bgr[0,0]

In [None]:
# Converter para RGB
image_rgb = cv2.cvtColor(image_bgr, cv2.COLOR_BGR2RGB)
# Mostrar a imagem
plt.imshow(image_rgb), plt.axis('off')
plt.show()

# Reescalando as imagens

- Você quer redimensionar uma imagem para mais pré-processamento.
- Redimensionar imagens é uma tarefa comum no pré-processamento de imagens por duas razões. 
    - Primeiro imagens vêm em todas as formas e tamanhos, e para ser utilizável como características, as imagens devem ter
as mesmas dimensões. 
    - Essa padronização do tamanho da imagem vem com custos, imagens são matrizes de informação e quando reduzimos o tamanho da imagem
estamos reduzindo o tamanho dessa matriz e as informações que ela contém. 
- Aprendizado de máquina pode exigir milhares ou centenas de milhares de imagens. Quando essas imagens são muito grandes eles podem tomar muita memória
    - Redimensionando-as nós podemos reduzir drasticamente o uso da memória. 
- Alguns tamanhos de imagem comuns para máquina
aprendendo são 32 × 32, 64 × 64, 96 × 96 e 256 × 256.



In [None]:
image = cv2.imread('imagens/plane_256x256.jpg', cv2.IMREAD_GRAYSCALE)

image_50x50 = cv2.resize(image, (50,50))

plt.imshow(image_50x50, cmap='gray') 
plt.axis('off')
plt.show()

# Recortando as imagens
- Usamos quando Você deseja remover a parte externa da imagem para mudar suas dimensões.
- Uma vez que o OpenCV representa imagens como uma matriz de elementos, selecionando as linhas e
colunas que queremos manter somos capazes de cortar facilmente a imagem. 
- O corte pode ser particularmente útil se soubermos que só queremos manter uma certa parte de cada imagem.
    - Por exemplo, se nossas imagens vêm de uma câmera de segurança estacionária, podemos cortar todas as imagens para que elas contenham apenas a área de interesse.


In [None]:
image = cv2.imread('imagens/plane_256x256.jpg', cv2.IMREAD_GRAYSCALE)

# Seleciona a primeira metade das colunas e todas as linhas
image_cropped = image[:,:128]

plt.imshow(image_cropped, cmap='gray') 
plt.axis('off')
plt.show()

# Desfocando as imagens

- Para desfocar uma imagem, cada pixel é transformado para ser o valor médio de seus vizinhos.
- Este vizinho e a operação realizada são matematicamente representados como um kernel. 
- O tamanho deste kernel determina a quantidade de desfoque, com núcleos maiores produzindo imagens mais suaves. 
    - Podemos aplicar manualmente um kernel a uma imagem usando filter2D para produzir um efeito de desfoque semelhante


In [None]:
image = cv2.imread('imagens/plane_256x256.jpg', cv2.IMREAD_GRAYSCALE)

# Borrar a imagem
image_blurry = cv2.blur(image, (5,5))

plt.imshow(image_blurry, cmap='gray') 
plt.axis('off')
plt.show()

# Aumentando a Nitidez

- Você quer aumentar a nitidez de uma imagem.
- Aumentar a nitidez funciona de forma semelhante ao desfoque, exceto que em vez de usar um kernel para obter a média dos valores vizinhos, construímos um kernel para destacar o pixel em si. 
- O efeito resultante faz com que contrastes nas bordas se destaquem mais na imagem.

In [None]:
image = cv2.imread('imagens/plane_256x256.jpg', cv2.IMREAD_GRAYSCALE)

# Criar um kernel
kernel = np.array([[0,-1,0],
                   [-1,5,-1],
                   [0,-1,0]])

# Sharpen image
image_sharp = cv2.filter2D(image, -1, kernel)

plt.imshow(image_sharp, cmap='gray') 
plt.axis('off')
plt.show()

# Aumentando o Contraste

- Embora a imagem resultante muitas vezes não pareça "realista", precisamos lembrar que a imagem é apenas uma representação visual dos dados subjacentes. 
- Se a equalização do histograma é capaz de tornar objetos de interesse mais distinguíveis de outros objetos ou fundos (o que nem sempre é o caso), então pode ser uma adição valiosa ao nosso pipeline de pré-processamento de imagem.

In [None]:
image = cv2.imread('imagens/plane_256x256.jpg', cv2.IMREAD_GRAYSCALE)

# Criar um kernel
kernel = np.array([[0,-1,0],
                   [-1,5,-1],
                   [0,-1,0]])

# Enhance image
image_enhanced = cv2.equalizeHist(image)

plt.imshow(image_enhanced, cmap='gray') 
plt.axis('off')
plt.show()

In [None]:
# Carregar a imagem
image_bgr = cv2.imread('imagens/plane.jpg')
# Converter para YUV
image_yuv = cv2.cvtColor(image_bgr, cv2.COLOR_BGR2YUV)
# Aplicar o hisograma de equalização
image_yuv[:, :, 0] = cv2.equalizeHist(image_yuv[:, :, 0])
# Converter para RGB
image_rgb = cv2.cvtColor(image_yuv, cv2.COLOR_YUV2RGB)
# Mostrar a imagem
plt.imshow(image_rgb), plt.axis('off')
plt.show()

# Isolando cores
Isolar cores no OpenCV é simples. 
1. Primeiro convertemos uma imagem em HSV (matiz, saturação e valor). 
2. Em segundo lugar, definimos uma gama de valores que queremos isolar, que é provavelmente a parte mais difícil e demorada. 
3. Terceiro, criamos uma máscara para a imagem (só manteremos as áreas brancas):
4. Finalmente, aplicamos a máscara à imagem usando bitwise_and e convertemos no formato de saída desejado.


In [None]:
# Carregar a imagem
image_bgr = cv2.imread('imagens/plane_256x256.jpg')
# Converter BGR para HSV
image_hsv = cv2.cvtColor(image_bgr, cv2.COLOR_BGR2HSV)
# Definir o range para azul em HSV
lower_blue = np.array([50,100,50])
upper_blue = np.array([130,255,255])
# Criar uma máscara
mask = cv2.inRange(image_hsv, lower_blue, upper_blue)
# Mascarar a imagem
image_bgr_masked = cv2.bitwise_and(image_bgr, image_bgr, mask=mask)
# Converter de BGR para RGB
image_rgb = cv2.cvtColor(image_bgr_masked, cv2.COLOR_BGR2RGB)
# Mostrar a imagem
plt.imshow(image_rgb), plt.axis('off')
plt.show()

In [None]:
# Mostrar imagem
plt.imshow(mask, cmap='gray'), plt.axis("off")
plt.show()

In [None]:
#image_rgb[:,:,0]
mask

# Binarizando uma Imagem

* Produzir uma versão simplificada.
* Limiar é o processo de definição de pixels com intensidade maior que algum valor para ser branco e menor do que o valor para ser preto. 
* Uma técnica mais avançada é o limiar adaptativo, onde o valor limiar de um pixel é determinado pelas intensidades de pixels de seus vizinhos. 
    * Isso pode ser útil quando as condições de iluminação mudam sobre diferentes regiões em uma imagem
* Um grande benefício do limiar é tirar o ruído de uma imagem — mantendo apenas o mais importante
Elementos. 
    * Por exemplo, o limiar é frequentemente aplicado a fotos de texto impresso para isolar as letras da página.


In [None]:
# Carregar uma imagem em escala de cinza
image_grey = cv2.imread('imagens/plane_256x256.jpg', cv2.IMREAD_GRAYSCALE)
# Aplicar limiar adaptativo
max_output_value = 255
neighborhood_size = 99
subtract_from_mean = 10
image_binarized = cv2.adaptiveThreshold(image_grey,
                                        max_output_value,
                                        cv2.ADAPTIVE_THRESH_GAUSSIAN_C,
                                        cv2.THRESH_BINARY,
                                        neighborhood_size,
                                        subtract_from_mean)
# Mostrar imagem
plt.imshow(image_binarized, cmap='gray'), plt.axis('off')
plt.show()

In [None]:
# Aplicando cv2.ADAPTIVE_THRESH_MEAN_C
image_mean_threshold = cv2.adaptiveThreshold(image_grey,
                                            max_output_value,
                                            cv2.ADAPTIVE_THRESH_MEAN_C,
                                            cv2.THRESH_BINARY,
                                            neighborhood_size,
                                            subtract_from_mean)
# Mostrar a imagem
plt.imshow(image_mean_threshold, cmap='gray'), plt.axis('off')
plt.show()

# Removendo o plano de fundo
* Em nossa solução, começamos marcando um retângulo ao redor da área que contém o primeiro plano. 
* GrabCut assume que tudo fora deste retângulo é um fundo e usa essa informação para descobrir o que é provável de fundo dentro do quadrado
* Em seguida, uma máscara é criada que denota as diferentes regiões de fundo/primeiro plano definitivamente/prováveis


In [None]:
# Carregar a imagem e converter para RGB
image_bgr = cv2.imread('imagens/plane_256x256.jpg')
image_rgb = cv2.cvtColor(image_bgr, cv2.COLOR_BGR2RGB)

# Valores do retângulo: start x, start y, width, height
rectangle = (0, 56, 256, 150)

# Criar uma máscara inicial
mask = np.zeros(image_rgb.shape[:2], np.uint8)

# Arrays temporários usados pelo grabCut
bgdModel = np.zeros((1, 65), np.float64)
fgdModel = np.zeros((1, 65), np.float64)

# Rodar grabCut
cv2.grabCut(image_rgb, # Imagem
            mask, # Máscara
            rectangle, # Retângulo
            bgdModel, # Array temporário para o plano de fundo
            fgdModel, # Array temporário para o plano de fundo
            5, # Número de iterações
            cv2.GC_INIT_WITH_RECT)

# Criar uma máscara onde com certeza e prováveis planos de fundo são 0, caso contrário 1
mask_2 = np.where((mask==2) | (mask==0), 0, 1).astype('uint8')

# Multiplicar a imagem com a nova máscara para subtrair o plano de fundo
image_rgb_nobg = image_rgb * mask_2[:, :, np.newaxis]

# Mostrar imagem
plt.imshow(image_rgb_nobg), plt.axis("off")
plt.show()

In [None]:
# Mostrar a máscara
plt.imshow(mask, cmap='gray'), plt.axis('off')
plt.show()

In [None]:
# Mostrar a máscara
plt.imshow(mask_2, cmap='gray'), plt.axis("off")
plt.show()

# Detecção de Bordas

* A detecção de bordas é um dos principais tópicos de interesse na visão computacional. 
* As bordas são importantes porque são áreas de alta informação. 
    * Por exemplo, em nossa imagem um pedaço de céu se parece muito com o outro e é improvável que contenha informações únicas ou interessantes. 
* A detecção de bordas nos permite remover áreas de baixa informação e isolar as áreas de imagens que contêm mais informações.

In [None]:
# Load image as grayscale
image_gray = cv2.imread("imagens/plane_256x256.jpg", cv2.IMREAD_GRAYSCALE)
# Calculate median intensity
median_intensity = np.median(image_gray)
# Set thresholds to be one standard deviation above and below median intensity
lower_threshold = int(max(0, (1.0 - 0.33) * median_intensity))
upper_threshold = int(min(255, (1.0 + 0.33) * median_intensity))
# Apply canny edge detector
image_canny = cv2.Canny(image_gray, lower_threshold, upper_threshold)
# Show image
plt.imshow(image_canny, cmap="gray"), plt.axis("off")
plt.show()

# Detecção de cantos

* O detector de canto Harris é um método comumente usado para detectar a intersecção de duas bordas. 
* Nosso interesse em detectar cantos é motivado pela mesma razão que as bordas: cantos são pontos de alta informação. 
* cornerHarris contém três parâmetros importantes que podemos usar para controlar as bordas detectadas. 
1. Primeiro, block_size é o tamanho do vizinho em torno de cada pixel usado para detecção de canto.
2. Em segundo lugar, a abertura é o tamanho do kernel Sobel usado e, 
3. finalmente, há um parâmetro livre onde valores maiores correspondem à identificação de cantos mais suaves.


In [None]:
# Carregar imagens em escala de cinza
image_bgr = cv2.imread('imagens/plane_256x256.jpg')
image_gray = cv2.cvtColor(image_bgr, cv2.COLOR_BGR2GRAY)
image_gray = np.float32(image_gray)
# Configuar os parâmetros do detector de quinas
block_size = 2
aperture = 29
free_parameter = 0.04
# Detectar as quinas
detector_responses = cv2.cornerHarris(image_gray,
                                    block_size,
                                    aperture,
                                    free_parameter)
# Marcadores grandes para quinas 
detector_responses = cv2.dilate(detector_responses, None)

# Mantém apenas as respostas para quinas maiores que o limiar e marcar de branco
threshold = 0.02
image_bgr[detector_responses > threshold * detector_responses.max()] = [255,255,255]
# Converter para escala de cinza
image_gray = cv2.cvtColor(image_bgr, cv2.COLOR_BGR2GRAY)
# Mostrar imagem
plt.imshow(image_gray, cmap='gray'), plt.axis('off')
plt.show()

In [None]:
# Mostrar todas as prováveis quinas
plt.imshow(detector_responses, cmap='gray'), plt.axis('off')
plt.show()

In [None]:
plt.imshow(image_gray == 255, cmap='gray'), plt.axis('off')

In [None]:
# Carregar imagens
image_bgr = cv2.imread('imagens/plane_256x256.jpg')
image_gray = cv2.cvtColor(image_bgr, cv2.COLOR_BGR2GRAY)
# Números de quinas para detectar
corners_to_detect = 10
minimum_quality_score = 0.05
minimum_distance = 25

# Detectar as quinas
corners = cv2.goodFeaturesToTrack(image_gray,
                                corners_to_detect,
                                minimum_quality_score,
                                minimum_distance).astype('int')

# Desenhar um círculo branco em cada quina
for i,corner in enumerate(corners):
    x, y = corner[0]
    print(f'Canto {i+1}: ({x},{y})')
    cv2.circle(image_bgr,(x,y), 10, (255,255,255), -1)
    cv2.putText(image_bgr, str(i+1), (x-2,y+1), cv2.FONT_HERSHEY_SIMPLEX, 0.25, (0,0,0), 1, cv2.LINE_AA)
# Converter para escala de cinza
image_rgb = cv2.cvtColor(image_bgr, cv2.COLOR_BGR2GRAY)
# Mostrar imagem
plt.imshow(image_rgb, cmap='gray'), plt.axis('off')
plt.show()

# Criando atributos para Aprendizagem de Máquina

In [None]:
image = cv2.imread('imagens/plane_256x256.jpg', cv2.IMREAD_GRAYSCALE)

# Reescalar a imagem para 10x10 pixels
image_10x10 = cv2.resize(image, (10, 10))
print(image_10x10)

In [None]:
plt.imshow(image_10x10, cmap='gray'), plt.axis('off')
plt.show()

In [None]:
# Converter a imagem para um vetor unidimensional
image_10x10.flatten()

In [None]:
flattened = image_10x10.flatten()

plt.imshow(flattened.reshape((10,10)), cmap='gray'), plt.axis('off')
plt.show()

In [None]:
image = cv2.imread('imagens/plane_256x256.jpg', cv2.IMREAD_COLOR)

# Converter para RGB
image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)

# Reescalar a imagem para 10x10 pixels
image_10x10 = cv2.resize(image, (10, 10))
plt.imshow(image_10x10), plt.axis('off')
plt.show()

In [None]:
np.shape( image_10x10 )
#np.shape( image_10x10.flatten() )

In [None]:
flattened = image_10x10.flatten()

plt.imshow(flattened.reshape((10,10,3))), plt.axis('off')
plt.show()

### Classificação de acordo com a cor média

In [None]:
# Carregar a imagem em BGR
image_bgr = cv2.imread("imagens/plane_256x256.jpg", cv2.IMREAD_COLOR)
# Calcular a média de cada canal
channels = cv2.mean(image_bgr)
# Inverter o Azul e o Vermelho (fazendo RGB ao invés de BGR)
observation = np.array([(channels[2], channels[1], channels[0])])
# Mostra a média de cada canal
print(observation)

plt.imshow(observation), plt.axis('off')
plt.show()

### Encodificar o histograma de cores como atributos

* Podemos calcular a frequência das cores na imagem
* Cada canal pode conter um número entre 0 e 255

In [None]:
# Carregar imagem
image_bgr = cv2.imread("imagens/plane_256x256.jpg", cv2.IMREAD_COLOR)
# Converter para RGB
image_rgb = cv2.cvtColor(image_bgr, cv2.COLOR_BGR2RGB)
# Criar uma lista para o valor dos atributos
features = []
# Calcular o histograma para cada canal
colors = ('r','g','b')
# Para cada canal: calcular o histograma e adicionar à lista de features
for i, channel in enumerate(colors):
    histogram = cv2.calcHist([image_rgb], # Imagem
                            [i], # Índice do canal
                            None, # Sem usar máscara
                            [256], # Tamanho do histograma
                            [0,256]) # Range
    plt.plot(histogram, color = channel)
    plt.xlim([0,256])
    features.append(histogram)
plt.show()

# Criar um vetor para as features (concatenação dos histogramas)
observation = np.array(features).flatten()

In [None]:
#np.array(features).shape
observation.shape

## Teste dos histogramas

In [None]:
import glob

images = [cv2.imread(file, cv2.IMREAD_COLOR) for file in glob.glob('imagens/histogramas/*.jpg')]

n_fig = len(images)

# Converter para RGB
images_RGB = [cv2.cvtColor(image, cv2.COLOR_BGR2RGB) for image in images]

# Escalonar para 256x256
images_256x256 = [cv2.resize(image, (256, 256)) for image in images_RGB]

In [None]:
labels = ['Homem de Ferro',
        'Máquina de Combate',
        'Patriota de Ferro',
        'Hulk Buster',
        'Homem de Ferro']

In [None]:
plt.figure(figsize=(15,15)) # specifying the overall grid size

for idx, image in enumerate(images_256x256):
    plt.subplot(1, n_fig, idx+1)
    plt.title(labels[idx])    
    plt.imshow(image), plt.axis('off')

plt.show()

In [None]:
def imprime_histograma(image):
    # Remover o branco
    mask = cv2.inRange(image, (255,255,255), (255,255,255))
    mask = cv2.bitwise_not(mask)

    # Calcular o histograma para cada canal
    colors = ('r','g','b')
    # Para cada canal: calcular o histograma e adicionar à lista de features
    for i, channel in enumerate(colors):
        histogram = cv2.calcHist([image], # Imagem
                                [i], # Índice do canal
                                mask, # Máscara para o branco
                                [256], # Tamanho do histograma
                                [0,256]) # Range
        plt.plot(histogram, color = channel)
        plt.xlim([0,256])
        plt.ylim([0,1000])


In [None]:
plt.figure(figsize=(20,5)) # specifying the overall grid size

idx = 0
for image in images_256x256:
    plt.subplot(2, n_fig, idx+1)
    plt.title(labels[idx])
    plt.imshow(image), plt.axis('off')
    idx += 1

for image in images_256x256:
    plt.subplot(2, n_fig, idx+1)
    imprime_histograma(image)    
    idx += 1

plt.show()