# EDA - Exploratory Data Analysis

Neste notebook está listado o fluxo de avaliação e preparação de dados de um *DataSet* que servirão para treinamento e avaliação de um modelo de IA, usando Python e a biblioteca Tensorflow, para o reconhecimento de plantas de feijão

O intuíto deste notebook é apenas demonstrativo para exemplificar uma de inumeras formas de realizar um EDA sobre dados a serem utilizados, pois para cada tipo de dado, existem formas diferentes de se tratar os mesmos

# Coleta dos dados

O primeiro passo é realizar a coleta dos dados a serem utilizados, aqui, como se trata de um DataSet de feijões, foram coletadas algumas imagens e adicionadas na pasta **rawData**, onde estarão todos os dados não tratados

<img src="./rawData/feijao_1.jpg" width="512">

## Entendendo os dados

Os algoritmos para o treinamento de um modelo de reconhecimento de imagem necessitam que as imagens de entrada para seu treinamento sejam padronizadas, que todas possuam as mesmas dimensões de largura e altura

Podemos notar que as imagens em **rawData** não possuem padronização quanto a isso, então a primeira ação a ser tomada será corrigir isso

Com a ajuda de bibliotecas Python, iremos automatizar esse processo

## Primeira ação - Padronizando dimensões das imagens

Utilizando a biblioteca **OpenCV**, iremos redimensionar as imagens para 512x512 pixels, aplicando a técnica de *padding* para manter a proporção das imagens, evitando que fiquem distorcidas

In [1]:
# Instalando dependências
!pip install numpy
!pip install opencv-python



In [2]:
# Importando dependências
import cv2  # OpenCV
import os  # Funções auxiliares do SO

In [3]:
# Com as dependências instaladas e importadas, podemos começar a trabalhar
# Iremos setar algumas váriaveis que serão utilizadas no processo

rawImagesPath = "./rawData"
resizedImagesOutput = "./step1_resizedImages"

In [4]:
# Pegando a lista de imagens a serem tratadas

rawImagesNames = os.listdir(rawImagesPath)

In [5]:
print(rawImagesNames)

['feijao_1.jpg', 'feijao_10.jpg', 'feijao_2.jpg', 'feijao_3.jpg', 'feijao_4.jpg', 'feijao_5.jpg', 'feijao_6.jpg', 'feijao_7.jpg', 'feijao_8.jpg', 'feijao_9.jpg']


In [6]:
def resizeImage(image, width = None, height = None):
    defaultHeight = rawImageToResize.shape[0]
    defaultWidth = rawImageToResize.shape[1]

    if width is None and height is None:
        return image

    if width is None:
        aspectRatio = height / float(defaultHeight)
        
        newDimensions = (int(defaultWidth * aspectRatio), height)
        
    else:
        aspectRatio = width / float(defaultWidth)
        
        newDimensions = (width, int(defaultHeight * aspectRatio))
        
    resizedImage = cv2.resize(image, newDimensions)

    return resizedImage

In [7]:
# Primeiro, vejamos como são as proporções das imagens, o código abaixo irá mostrar na tela suas medidas


for imageName in rawImagesNames:
    rawImageToResize = cv2.imread(rawImagesPath + "/" + imageName)
    
    height = rawImageToResize.shape[0]
    width = rawImageToResize.shape[1]
    
    print(f"Imagem: {imageName} | Altura: {height} | Largura: {width}")


Imagem: feijao_1.jpg | Altura: 667 | Largura: 1200
Imagem: feijao_10.jpg | Altura: 459 | Largura: 612
Imagem: feijao_2.jpg | Altura: 627 | Largura: 940
Imagem: feijao_3.jpg | Altura: 174 | Largura: 290
Imagem: feijao_4.jpg | Altura: 600 | Largura: 900
Imagem: feijao_5.jpg | Altura: 533 | Largura: 800
Imagem: feijao_6.jpg | Altura: 3012 | Largura: 4512
Imagem: feijao_7.jpg | Altura: 480 | Largura: 640
Imagem: feijao_8.jpg | Altura: 667 | Largura: 1000
Imagem: feijao_9.jpg | Altura: 426 | Largura: 640


Obtemos o seguinte resultado, que contêm as proporções das imagens do *DataSet*

Imagem: feijao_1.jpg  |  Altura: 667 | Largura: 1200

Imagem: feijao_10.jpg |  Altura: 459 | Largura: 612

Imagem: feijao_2.jpg  |  Altura: 627 | Largura: 940

Imagem: feijao_3.jpg  |  Altura: 174 | Largura: 290

Imagem: feijao_4.jpg  |  Altura: 600 | Largura: 900

Imagem: feijao_5.jpg  |  Altura: 533 | Largura: 800

Imagem: feijao_6.jpg  | Altura: 3012 | Largura: 4512

Imagem: feijao_7.jpg  |  Altura: 480 | Largura: 640

Imagem: feijao_8.jpg  |  Altura: 667 | Largura: 1000

Imagem: feijao_9.jpg  |  Altura: 426 | Largura: 640


Deste resultado, podemos observar que o maior valor é de largura de 4512, então como queremos limitar as imagens a um formato de 512x512, devemos nos basear na largura no momento de fazer o tratamento das imagens, dessa forma teremos todas as imagens com uma largura de 512 e com uma altura proporcional que não cause distorção

In [8]:
# Agora iremos realizar os redimensionamentos e exibir na tela as novas proporções das imagens
for imageName in rawImagesNames:
    rawImageToResize = cv2.imread(rawImagesPath + "/" + imageName)
    
    resizedImage = resizeImage(rawImageToResize, width = 512)
    
    defaultHeight = resizedImage.shape[0]
    defaultWidth = resizedImage.shape[1]
    
    print(f"Imagem: {imageName} | Altura: {defaultHeight} | Largura: {defaultWidth}")
    

Imagem: feijao_1.jpg | Altura: 284 | Largura: 512
Imagem: feijao_10.jpg | Altura: 384 | Largura: 512
Imagem: feijao_2.jpg | Altura: 341 | Largura: 512
Imagem: feijao_3.jpg | Altura: 307 | Largura: 512
Imagem: feijao_4.jpg | Altura: 341 | Largura: 512
Imagem: feijao_5.jpg | Altura: 341 | Largura: 512
Imagem: feijao_6.jpg | Altura: 341 | Largura: 512
Imagem: feijao_7.jpg | Altura: 384 | Largura: 512
Imagem: feijao_8.jpg | Altura: 341 | Largura: 512
Imagem: feijao_9.jpg | Altura: 340 | Largura: 512


Todas as imagens agora possuem uma largura de 512 pixels, agora iremos trabalhar a altura, adicionando um *padding* para que completem a altura de 512 e obtenhamos a proporção 512x512 esperada

In [9]:
# Agora iremos adicionar o padding às imagens e salvá-las no diretório de output do passo 1

paddingPixelColor = (0, 0, 0)  # Cor RGB para preto

for imageName in rawImagesNames:
    rawImageToResize = cv2.imread(rawImagesPath + "/" + imageName)
    
    resizedImage = resizeImage(rawImageToResize, width = 512)
    
    defaultHeight = resizedImage.shape[0]
    
    missingPixels = 512 - defaultHeight 
    
    padding = int(missingPixels / 2)
    
    paddedImage = cv2.copyMakeBorder(resizedImage, padding, padding, 0, 0, cv2.BORDER_CONSTANT, value=paddingPixelColor)
    
    cv2.imwrite(resizedImagesOutput + "/" + imageName, paddedImage)

Com todas as imagens nas mesmas proporções, podemos seguir para a próxima etapa

<img src="./step1_resizedImages/feijao_1.jpg" width="512">

## Segunda ação - Removendo cores da imagem

A remoção do canal RGB de uma imagem faz com que ela se torne mais fácil de ser processada durante o treinamento, pois exigira menos memória da máquina

Iremos tratar nossas imagens para que fiquem apenas em tons de cinza


In [10]:
# Importando dependências
import cv2  # OpenCV
import os  # Funções auxiliares do SO

In [11]:
# Com as dependências instaladas e importadas, podemos começar a trabalhar
# Iremos setar algumas váriaveis que serão utilizadas no processo

resizedImagesPath = "./step1_resizedImages"
grayScaledImagesOutput = "./step2_grayScaleImages"

In [12]:
# Pegando a lista de imagens a serem tratadas

resizedImagesNames = os.listdir(resizedImagesPath)

In [13]:
# Iremos iterar por todas as imagens redimensionadas, remover seu canal RGB e salvá-las no diretório de saída do passo 2

for imageName in resizedImagesNames:
    imageToRemoveRgbChannel = cv2.imread(resizedImagesPath + "/" + imageName)
    
    grayImage = cv2.cvtColor(imageToRemoveRgbChannel, cv2.COLOR_BGR2GRAY)
    
    cv2.imwrite(grayScaledImagesOutput + "/" + imageName, grayImage)

Com as imagens em tons de cinza, podemos avançar ao próximo estágio

<img src="./step2_grayScaleImages/feijao_1.jpg" width="512">

## Terceira ação - Aplicando filtro *Canny* (Detecção de Bordas)

O filtro de Canny é uma técnica utilizada para detectar bordas de uma imagem, removendo ruídos e deixando apenas os contornos marcantes dos objetos das imagens

A utilização desse filtro pode ser empregada quando a estratégia para treinar o modelo de reconhecimento de imagens se baseia em suas bordas ou para a redução do tamanho das imagens para o processamento, visto que restarão poucos pixels após este pré-processamento

Para a aplicação do Filtro Canny não é necessário realizar nenhuma das ações já tomadas neste notebook, porém as etapas realizadas e as imagens geradas em cada uma podem ser usadas para treinar os modelos e comparar os resultados entre si, ficando explicito assim qual pré-processamento foi mais eficaz e realmente se faz necessário para treinar o modelo de reconhecimento

In [14]:
# Importando dependências
import cv2  # OpenCV
import os  # Funções auxiliares do SO

In [15]:
# Com as dependências instaladas e importadas, podemos começar a trabalhar
# Iremos setar algumas váriaveis que serão utilizadas no processo

grayScaledImagesPath = "./step2_grayScaleImages"
imageEdgesOutput = "./step3_imageEdges"

In [16]:
# Pegando a lista de imagens a serem tratadas

grayScaledImagesNames = os.listdir(grayScaledImagesPath)

In [17]:
# Iremos iterar por todas as imagens cinzas, aplicando o filtro Canny e salvá-las no diretório de saída do passo 3

for imageName in grayScaledImagesNames:
    grayImage = cv2.imread(grayScaledImagesPath + "/" + imageName)
    
    imageWithEdges = cv2.Canny(grayImage, 120, 200)
    
    cv2.imwrite(imageEdgesOutput + "/" + imageName, imageWithEdges)

Com as bordas detectadas, obtemos o seguinte resultado

<img src="./step3_imageEdges/feijao_1.jpg" width="512">

## Finalizações

Com os passos executados aqui, foram obtidos 3 conjuntos de imagens:

- Imagens redimensionadas para 512x512 pixels
- Imagens redimensionadas com apenas tons de cinza
- Imagens redimensionadas e sob efeito do filtro Canny (detecção de bordas)

Com esse conhecimento e tratamento inicial, pode-se estudar em seguida qual tipo de rede neural melhor atende às necessidades para que um modelo seja trainado para reconhecer feijões

Deve-se agora testar diferentes tipos de redes para o treinamento, utilizando totalmente ou parcialmente os conjuntos de images gerados, procurando aquele que apresentar a melhor taxa de sucesso

Independente de qual rede utilizar e qual conjunto de images escolher, é necessário que as imagens sejam categorizadas de acordo com aquilo que representam, neste caso, "feijao", e informar ao modelo do que se tratam essas imagens, para que o mesmo, após seu treinamento, ao receber uma nova imagem para avaliação, saiba quais são as possíveis classe que ele conhece para categorizar.