# Cálculo da Média e Desvio Padrão do Dataset

In [1]:
#! pip2 install opencv-python

In [2]:
import os, cv2, math
import numpy as np

In [3]:
base_dir = '../data/small_train/'
w=540
h=540

Seleciona as pastas contidas no diretório base das imagens, que correspondem às classes do dataset (ou targets).

In [4]:
classes = next(os.walk(base_dir))[1]

# Fórmula do Desvio Padrão

!["Fórmula"](https://cdn.kastatic.org/googleusercontent/N8xzWFc6eo0XBHEXZjz1SwvLSnPezvhTRF1P17kdjUG_tnJivGKkyCxbwVe4MZ0-USOxIZBohgcjdi8e7Z4Hswcqfw)

### Cálculo da Média

Como exibido na fórmula acima, um dos parâmetros que precisamos é a média aritmética do dataset.
Abaixo, vamos calcular esta média, percorrendo cada imagem e armazenando a soma de todos os elementos da matriz.
Sabemos que uma imagem colorida possui 3 canais, e iremos calcular tanto a média como o desvio padrão, para cada um dos canais de forma independente.

In [5]:
sum_0 = 0
sum_1 = 0
sum_2 = 0
num_img = 0

for folder_class in classes:

    files = next(os.walk(os.path.join(base_dir, folder_class)))[2]
    
    for f in files:
        img = cv2.imread(os.path.join(base_dir, folder_class, f))
        sum_0 += np.sum(img[:,:,0])
        sum_1 += np.sum(img[:,:,1])
        sum_2 += np.sum(img[:,:,2])
        num_img += 1

Com a somatória calculada, vamos dividir os resultados pelo número de elementos do dataset, que é igual ao número de elemento de cada matriz (cada canal da imagem) multiplicado pelo número de imagens (que também foi acumulado durante os cálculos).

In [6]:
mean_0 = sum_0 / (w * h * num_img)
mean_1 = sum_1 / (w * h * num_img)
mean_2 = sum_2 / (w * h * num_img)

### Cálculo do Desvio Padrão

Vamos percorrer novamente todas as imagens, mas agora, munidos das médias gerais de cada canal. Assim, podemos dar mais um passo na fórmula do desvio padrão, que é o armazenamento da diferença quadrática de todos os elementos de cada matriz.

In [7]:
sqr_sum_0 = 0
sqr_sum_1 = 0
sqr_sum_2 = 0

for folder_class in classes:

    files = next(os.walk(os.path.join(base_dir, folder_class)))[2]
    
    for f in files:
        img = cv2.imread(os.path.join(base_dir, folder_class, f))
        sqr_sum_0 += np.sum(np.subtract(img[:,:,0], [mean_0]) ** 2)
        sqr_sum_1 += np.sum(np.subtract(img[:,:,1], [mean_1]) ** 2)
        sqr_sum_2 += np.sum(np.subtract(img[:,:,2], [mean_2]) ** 2)
        break

Agora o que temos que fazer é concluir a aplicação da fórmula, aplicando o denominador e posteriormente a raiz quadrada para obtermos o desvio padrão do dataset para cada canal.

In [8]:
std_0 = math.sqrt(sqr_sum_0 / (w * h * num_img - 1))
std_1 = math.sqrt(sqr_sum_1 / (w * h * num_img - 1))
std_2 = math.sqrt(sqr_sum_2 / (w * h * num_img - 1))

## Resultado

Utilize os números abaixo para a normalização de cada imagem antes de alimentar sua rede neural. Assim você estará normalizando a imagem de acordo com os padrões encontrados em todo dataset.
Note que utilizamos apenas a base de treino para identificar a média e o desvio padrão. São estes parâmetros que devem ser utilizados para normalizar também a base de teste e, posteriormente, são também estes parâmetros que deverão ser utilizados quando o modelo entrar em produção.

In [13]:
print('Média do Canal 0: ' + str(mean_0))
print('Média do Canal 1: ' + str(mean_1))
print('Média do Canal 2: ' + str(mean_2))
print('')
print('Desvio Padrão do Canal 0: ' + str(std_0))
print('Desvio Padrão do Canal 1: ' + str(std_1))
print('Desvio Padrão do Canal 2: ' + str(std_2))

Média do Canal 0: 104.183330781893
Média do Canal 1: 106.9134984430727
Média do Canal 2: 111.30260913923182

Desvio Padrão do Canal 0: 4.2141225097
Desvio Padrão do Canal 1: 4.49451983235
Desvio Padrão do Canal 2: 4.5237623716
