# Imports

In [None]:
import numpy as np
from numpy.linalg import LinAlgError
import matplotlib.pyplot as plt
from sklearn.datasets import fetch_olivetti_faces
from sklearn import decomposition
from skimage.util import random_noise
from sklearn.decomposition import PCA, KernelPCA
import pandas as pd

# Finding the best combination of hyperparams for one image

Após estudo sobre decomposição SVD, PCA e Kernel PCA, foi realizado um experimento para encontrar a melhor combinação de hiperparâmetros, para uma imagem em específico no Dataset Olivetti Faces. As etapas feitas são descritas a seguir.

O dataset é descrito como: "Há dez imagens diferentes de cada um dos 40 indivíduos distintos. Para alguns desses indivíduos, as imagens foram tiradas em momentos diferentes, variando a iluminação, as expressões faciais (olhos abertos/fechados, sorrindo/não sorrindo) e os detalhes faciais (com/sem óculos). Todas as imagens foram tiradas contra um fundo escuro e homogêneo, com os indivíduos em posição ereta e frontal (com tolerância para algum movimento lateral)."

O experimento foi conduzido aplicando ruído a uma imagem e em seguida, um código em Python (ver: https://colab.research.google.com/drive/1QmmTbFbr2Px6oqdGrCFR5k1o0jMaP3PJ?usp=sharing) foi feito para aplicar a função KernelPCA com diferentes combinações de kernel, gamma, degree e coef0, parametros da função. Foram testados os cinco tipos de kernel, quatro valores de gama, cinco valores de grau e três valores de coeficiente. O experimento se repetiu para sete ruídos que a função random_noise pode aplicar, sendo eles: gaussiano, localvar, pimenta, sal, sal e pimenta, poisson e speckle.

Para cada combinação, foi calculado o Erro Quadrático Médio (MSE) e Relação Sinal-Ruído de Pico (PSNR). Todas as informações referentes a cada combinação foram salvas em um dataframe, por ruído, e exportados em arquivos csv.

In [None]:
gaussian_results = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/IC-Results/gaussian_scores.csv')

In [None]:
localvar_results = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/IC-Results/localvar_scores.csv')

In [None]:
pepper_results = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/IC-Results/pepper_scores.csv')

In [None]:
poisson_results = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/IC-Results/poisson_scores.csv')

In [None]:
sp_results = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/IC-Results/s&p_scores.csv')

In [None]:
salt_results = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/IC-Results/salt_scores.csv')

In [None]:
speckle_results = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/IC-Results/speckle_scores.csv')

# Comparison

Por fim, temos a comparação dos resultados, ordenando os datasets com base no PSNR, de forma decrescente, ou seja, os melhores resultados aparecem primeiro. Com isso, é perceptível que a combinação kernel: poly, gamma: 0.001, degree: 3, e coef0: 1 foi o que mais apareceu entre as 5 melhores colocações.

In [None]:
gaussian_results_sorted = gaussian_results.sort_values(by='PSNR', ascending=False)
localvar_results_sorted = localvar_results.sort_values(by='PSNR', ascending=False)
pepper_results_sorted = pepper_results.sort_values(by='PSNR', ascending=False)
poisson_results_sorted = poisson_results.sort_values(by='PSNR', ascending=False)
sp_results_sorted = sp_results.sort_values(by='PSNR', ascending=False)
salt_results_sorted = salt_results.sort_values(by='PSNR', ascending=False)
speckle_results_sorted = speckle_results.sort_values(by='PSNR', ascending=False)

In [None]:
print(' Gaussian\n', gaussian_results_sorted.head())
print('\n Localvar\n', localvar_results_sorted.head())
print('\n Pepper\n', pepper_results_sorted.head())
print('\n Poisson\n', poisson_results_sorted.head())
print('\n Salt & Pepper\n', sp_results_sorted.head())
print('\n Salt\n', salt_results_sorted.head())
print('\n Speckle\n', speckle_results_sorted.head())

 Gaussian
     Kernel    Gamma  Degree  Coef0       MSE       PSNR
124   poly  0.00100       3      1  0.002488  25.724881
161   poly  0.00001       5     10  0.002612  25.514682
143   poly  0.00010       4     10  0.002621  25.498332
122   poly  0.00100       2     10  0.002648  25.454544
140   poly  0.00010       3     10  0.002706  25.360977

 Localvar
     Kernel     Gamma  Degree  Coef0       MSE       PSNR
161   poly  0.000010       5     10  0.002436  25.817350
122   poly  0.001000       2     10  0.002484  25.732642
124   poly  0.001000       3      1  0.002493  25.717300
179   poly  0.000001       6     10  0.002499  25.706244
143   poly  0.000100       4     10  0.002504  25.697481

 Pepper
     Kernel  Gamma  Degree  Coef0       MSE       PSNR
124   poly  0.001       3      1  0.004363  23.286171
122   poly  0.001       2     10  0.005493  22.285946
121   poly  0.001       2      1  0.006256  21.720840
127   poly  0.001       4      1  0.006354  21.652899
130   poly  0.001  

# Finding the best number of principal components in PCA method

Após encontrar a melhor combinação de hiperparâmetros, foi realizado experimentos para comparar o desempenho da redução de ruído numa imagem, aplicando o PCA e o Kernel PCA.
A comparação consistiu  em aplicar o PCA variando o número de componentes de 0 a 200, para cada tipo de ruído. Com isso, foi possível perceber que o número de componentes principais que obteve melhor desempenho segundo a métrica PSNR foi 109. A seguir, seguem os resultados obtidos em forma de dataframe.

In [None]:
pca_components_results = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/IC-Results/pca_components_scores.csv')
pca_components_results

Unnamed: 0,N,Noise,MSE,PSNR
0,109,speckle,0.001832,27.055149
1,101,speckle,0.001838,27.040063
2,104,speckle,0.001839,27.037664
3,92,speckle,0.001843,27.027933
4,98,speckle,0.001844,27.026599
...,...,...,...,...
1795,199,pepper,0.018348,17.047741
1796,191,pepper,0.018413,17.032309
1797,195,pepper,0.018484,17.015751
1798,0,pepper,0.021132,16.434361


# Using Optuna to finding the best results with both kernel and normal PCA, then, comparing


Para a realização dos experimentos anteriores, notou-se a necessidade de repetir muitos processos, a fim de encontrar a melhor combinação de hiperparâmetros. Para evitar isso, foi usado o Optuna, um framework que permite encontrar os melhores hiperparâmetros para funções. Uma das aplicações do Optuna é em aprendizado de máquina, onde deseja-se encontrar quantas camadas uma rede deve ter, quantos neurônios, funções de ativação e etc.

Para este trabalho, o Optuna foi usado para testar diferentes kernels, gamas, alfas, coeficientes e graus, além do número de componentes principais. Dois testes foram feitos, um para encontrar os hiperparâmetros do kernel PCA, para cada tipo de ruído e o segundo foi para encontrar o melhor número de componentes principais do PCA, para cada tipo de ruído.

Com isso, foi possível encontrar, para cada ruído, qual tipo de PCA é capaz de obter o melhor resultado. Concluiu-se, portanto, que o kernel PCA obtem os melhores resultados de redução de ruído, apesar da diferença ser pequena:

**Gaussian**
*   Kernel: 24.751847662794376
*   PCA: 24.02337293220809

**Localvar**
*   Kernel: 24.974876234548816
*   PCA: 24.030955194269524

**Salt**
*   Kernel: 23.55797004699707
*   PCA: 23.06627082824707

**Pepper**
*   Kernel: 22.80729103088379
*   PCA: 22.427791595458984

**S&P**
*   Kernel: 23.862224578857422
*   PCA: 23.279590606689453

**Speckle**
*   Kernel: 27.44611452542037
*   PCA: 26.526247574368085