\* Notebook adaptado do material do professor Luis Gustavo Nonato

# PCA - Principal Component Analysis

## Conceitos Fundamentais

### Covariância e Variância

Considere duas sequências de valores $x=\{x_1,x_2,\ldots,x_k\}$ e $y=\{y_1,y_2,\ldots,y_k\}$. 

A covariância entre $x$ e $y$ é definida como:

$$
cov(x,y) = \frac{1}{n-1}\sum_i (x_i-\mu_x)(y_i-\mu_y)
$$

onde $\mu_x = \frac{1}{n}\sum_i x_i$ e $\mu_y=\frac{1}{n}\sum_i y_i$ são as médias dos valores de $x$ e $y$, respectivamente.

O valor $cov(x,x) = \frac{1}{n-1}\sum_i (x_i-\mu_x)^2$ é a variância de $x$.

In [None]:
import matplotlib.pyplot as plt
import numpy as np

# Definição do número de pontos:
n = 100

# Configuração de parâmetros de plot:
plt.rcParams['figure.figsize'] = [12, 6]
f, (ax1, ax2)  = plt.subplots(1, 2)

# Definição dos valores de x arbitrários:
X = np.random.uniform(-1, 1, n)

# Definição dos valores de y = 4 * x + ruído
Y = np.array([4 * X[i] + np.random.uniform(-0.15, 0.15) for i in range(n)])

# Plot da variância de Y:
ax1.set_aspect('equal')
ax1.axis('off')
ax1.scatter(X, Y, marker='o', color='red', edgecolor='black', linewidth=1)
ax1.plot([0, 0],[-5, 5], color='black')
ax1.plot([-5, 5],[0, 0], color='black')
ax1.plot([0, 0],[-4, 4], color='blue', linewidth=5)
ax1.plot([0, 1],[4, 4], ':k');
ax1.plot([0, -1],[-4, -4], ':k');
ax1.annotate('Variância da coordenada y', xy=(-0.05, 3), xytext=(-6, 3),
             arrowprops=dict(facecolor='black', shrink=0.05),
             )

# Plot da variância de X:
ax2.set_aspect('equal')
ax2.axis('off')
ax2.scatter(X,Y, marker='o', color='red', edgecolor='black', linewidth=1)
ax2.plot([0, 0],[-5, 5], color='black')
ax2.plot([-5, 5],[0, 0], color='black')
ax2.plot([-1, 1],[0, 0], color='blue', linewidth=5)
ax2.plot([1, 1],[4, 0],':k')
ax2.plot([-1, -1],[-4, 0],':k')
ax2.annotate('Variância da coordenada x', xy=(-0.5, 0), xytext=(-6, 2),
             arrowprops=dict(facecolor='black', shrink=0.05),
             )

In [None]:
import matplotlib.pyplot as plt
import numpy as np

# Definição do número de pontos:
n = 100

# Configuração de parâmetros de plot:
plt.rcParams['figure.figsize'] = [12, 6]
f, (ax1, ax2)  = plt.subplots(1,2)

# Definição dos valores de x arbitrários:
X_covariante = np.random.uniform(-1, 1, n)

# Definição dos valores de y "dependentes" de x (com ruído):
Y_covariante = np.array([X_covariante[i] + np.random.uniform(-0.15, 0.15) for i in range(n)])

# Plotagem das variáveis com alta covariância:
ax1.axis('off')
ax1.scatter(X_covariante, Y_covariante, marker='o', color='red', edgecolor='black', linewidth=1)
ax1.plot([0, 0], [-1, 1], color='black')
ax1.plot([-1, 1], [0, 0], color='black')
ax1.set_title('Alta covariância')
ax1.text(1, .8, r'$(x\uparrow,y\uparrow)$')
ax1.plot([.95, .95, 0], [0, .8, .8], '--k')
ax1.text(-.9, -.15, r'$(x\downarrow,y\downarrow)$')
ax1.plot([-.95, -.95, 0], [0, -.8, -.8], '--k')

# Definição dos valores de x arbitrários:
X_nao_covariante = np.random.uniform(-1, 1, n)

# Definição dos valores de y também arbitrários ("independentes" de x)
Y_nao_covariante = np.random.uniform(-1, 1, n)

# Plotagem das variáveis com baixa covariância:
ax2.axis('off')
ax2.scatter(X_nao_covariante, Y_nao_covariante, marker='o', color='red', edgecolor='black', linewidth=1)
ax2.plot([0, 0], [-1, 1], color='black')
ax2.plot([-1, 1], [0, 0], color='black')
ax2.set_title('Covariância Zero')
ax2.text(1, .3, r'$(x\uparrow,y\downarrow)$')
ax2.plot([1, 1, 0], [0, .5, .5], '--k');


### Matriz de Covariância

Considere $X=\{x_1,\ldots,x_n\} $ um conjunto de pontos em $\mathbb{R}^d$. 

Pode-se organizar os pontos como colunas de uma matriz $X$ (matriz de dados) com dimensões $d\times n$:

$$
   X=
    \begin{bmatrix}
      |&|&&|\\
      x_1&x_2&\dots&x_n\\
      |&|&&|
    \end{bmatrix}
    =
    \begin{bmatrix}
      x_{11}                & {x_{12}} &\dots  & x_{1n}\\
      {x_{21}} & x_{22}               &\dots  & {x_{2n}}\\
      \vdots               &\vdots               &\ddots &\vdots\\
      x_{d1}                & {x_{d2}}&\dots  & x_{dn}
    \end{bmatrix}
$$

Denotando as linhas da matriz $X$ por ${x}_{1:},\ldots,{x}_{d:}$ define-se
a matriz de covariância de $X$ por:

$$
cov(X)=
\begin{bmatrix}
      {cov(x_{1:},x_{1:})} & cov(x_{1:},x_{2:})          & \dots  &cov(x_{1:},x_{d:})\\
      cov(x_{2:},x_{1:})          & {cov(x_{2:},x_{2:})} & \dots  &cov(x_{2:},x_{d:})\\
      \vdots                      &      \vdots                 &\ddots  &\vdots\\
      cov(x_{d:},x_{1:})          &cov(x_{d:},x_{2:})           &\dots   &{cov(x_{d:},x_{d:})}
\end{bmatrix}
$$

**Importante**: Os elementos na diagonal da matriz correspondem à variância de cada coordenada dos vetores coluna de $X$.

**Propriedades**:
1. Cada entrada da matrix $cov(\mathbf{X})$ corresponde a covariância entre duas coordenadas dos vetores coluna 
2. $cov(\mathbf{X})$ é uma matriz simétrica
3. $cov(\mathbf{X})$ é semi-definida positiva 

### Centralização de Dados

Considerando $\mu=\frac{1}{n}\sum_i x_i$ e assumindo que os dados estejam centralizados, isto é, $\mu=0$, a matriz de covariância pode ser calculada como:

$$
cov(X)=\frac{1}{n-1}XX^\top
$$

A centralização de dados **não** altera sua distribuição original.

In [None]:
import numpy as np

A = np.array([[1,2],[3,4]])
print(A)

# Cálculo das médias dos valores das colunas:
print(np.mean(A, axis=0))

# Cálculo das médias dos valores das linhas:
print(np.mean(A, axis=1))

In [None]:
import numpy as np

X = np.random.uniform(0, 2, (10,10))

# Centralização dos valores da matriz:
Xcentralizado = X - np.mean(X, axis=1).reshape(-1, 1)

# Plotagem dos valores originais e centralizados:
fig, (ax1, ax2) = plt.subplots(1, 2)
ax1.scatter(X[0,:], X[1,:])
ax1.set_title('Valores Originais')
ax2.scatter(Xcentralizado[0,:], Xcentralizado[1,:])
ax2.set_title('Valores Centralizados')

## Análise de Componentes Principais

A ideia do método PCA é encontrar uma nova base para representar os dados de modo que a covariância entre coordenadas distintas nesta nova base seja zero.

In [None]:
import matplotlib.pyplot as plt
import numpy as np

# Definição do número de pontos:
n = 100

# Configuração de parâmetros de plot:
plt.rcParams['figure.figsize'] = [12, 6]
f, (ax1, ax2)  = plt.subplots(1, 2)

# Definição dos valores de X arbitrários:
X = np.random.uniform(-1, 1, n)

# Definição dos valores de Y "dependentes" de X (mais ruído):
Y = np.array([X[i] + np.random.uniform(-.15, .15) for i in range(n)])

# Plotagem das variáveis no sistema de coordenadas original:
ax1.axis('off')
ax1.set_aspect('equal')
ax1.set_title('Sistema de coordenadas original')
ax1.scatter(X, Y, marker='o', color='red', edgecolor='black', linewidth=1)
ax1.plot([0, 0], [-1.2, 1.2], color='black')
ax1.plot([0, 0], [-1.0, 1.0], color='blue',linewidth=5)
ax1.plot([-1.2, 1.2], [0, 0], color='black')
ax1.plot([-1, 1], [0, 0], color='blue', linewidth=5)

# Plotagem das variáveis no novo sistema de coordenadas:
ax2.axis('off')
ax2.set_aspect('equal')
ax2.set_title('Novo sistema de coordenadas');
ax2.scatter(X, Y, marker='o', color='red', edgecolor='black', linewidth=1)
ax2.plot([-1.2, 1.2], [-1.2, 1.2], color='black')
ax2.plot([-1.0, 1.0], [-1.0, 1.0], color='blue', linewidth=5)
ax2.plot([-0.5, 0.5], [0.5, -0.5], color='black')
ax2.plot([-0.1, 0.1], [0.1, -0.1], color='blue', linewidth=5)

Em termos matemáticos, buscamos uma matriz de mudança de base $P$ tal que

$$
Y=PX \Longrightarrow YY^\top = D
$$

em que $D$ é uma matriz diagonal onde os elementos da diagonal correspondem às variâncias das coordenadas.

Uma vez que $P$ tenha sido calculada, as coordenadas dos pontos na nova base serão "descorrelacionadas".

- algumas das coordenadas terão variância próximo de zero (coordenadas relacionada com ruído nos dados)
- a dimensão dos dados poderá ser reduzida sem grandes perdas de informação

**Calculando a mudança de base**

$$
Y=PX 
$$

$$
YY^\top=(PX)(PX)^\top=PXX^\top P^\top
$$

Pelo _Teorema Espectral_, se $A$ é uma matriz simétrica, então:

$$
A=UDU^\top \rightarrow U^\top AU=D
$$

em que $U$ é matriz ortogonal contendo os autovetores de $A$ e $D$ é matriz diagonal contendo os autovalores reais de $A$.


Mas $XX^\top$ é uma matriz simétrica semi-definida positiva. Logo, os autovalores $\lambda _i$ são reais e não negativos. Armazenando os autovetores de $XX^\top$ em uma matriz $U$ e fazendo:

$$P=U^\top$$

$$YY^\top=U^\top XX^\top U = D$$

$$
D=
\begin{bmatrix}
cov(y_{1:},y_{1:}) & 0 & \ldots & 0 \\
0 & cov(y_{2:},y_{2:}) & \ldots & 0 \\
  &            & \vdots & \\
0 & 0 & \ldots & cov(y_{d:},y_{d:}) \\
\end{bmatrix}
$$

**Importante**: $cov(y_{i:}, y_{i:}) = \lambda_i$, ou seja, os autovalores de $XX^\top$ correspondem às variâncias das coordenadas na nova base. Os autovetores de $XX^\top$ são os elementos da nova base, sendo que coordenadas distintas dos dados nesta nova base são "descorrelacionadas".

As coordenas dos pontos no novo sistema de coordenadas são dadas por:

$$
y_i=U^\top x_i
$$

Assumindo que os autovalores estão ordenados $\lambda_1\geq\cdots\geq\lambda_d$, o _Quociente de Rayleigh_ garante que:

$$
u_1^\top XX^\top u_1=\lambda_1 \rightarrow u_1 \quad\text{(direção de maior variância)} \\
u_d^\top XX^\top u_d=\lambda_d \rightarrow u_d \quad\text{(direção de menor variância)}
$$

Uma informação muito útil é calcular a porcentagem da informação que pode ser explicada por cada direção (_razão de variância explicada_). Tal porcentagem é dada por:

$$
\tilde{\lambda}_i = \frac{\lambda_i}{\sum_j \lambda_j}
$$

Em muitos casos, pode-se desprezar as direções (coordenadas) de menor variância, uma vez que estas tipicamente correspondem a ruído nos dados.

$$
\hat{Y}=
\begin{bmatrix}
y_{11} & y_{21} & \cdots & y_{n1} \\
       &        & \vdots & \\
y_{1k} & y_{2k} & \cdots & y_{nk} \\
0 & 0 & \cdots & 0 \\
       &        & \vdots & \\
0 & 0 & \cdots & 0 \\
\end{bmatrix}
$$

pode-se reconstuir os dados "sem ruído" na base original fazendo:

$$
\hat{X}=U\hat{Y}
$$

Consideranto apenas as $k$ primeiras coordenadas de cada ponto, temos uma representação dos dados em um espaço com $k \lt n$ dimensões. Ou seja, PCA pode ser utilizado como um método de _redução de dimensionalidade_.

## Calculando o PCA

### Exemplo Simples

Considere os dados gerados de forma a garantir uma "correlação" entre as coordenadas. Podemos calcular o PCA a partir da obtenção dos autovalores e autovetores de forma supracitada.

In [None]:
import matplotlib.pyplot as plt
import numpy as np

# Definição do número de pontos:
n = 200

# Definição dos valores de X[0] arbitrários (mas já centralizados):
X = np.random.uniform(-1, 1, (2,n))

# Definição dos valores de X[1] "dependentes" de X[0] (com ruído):
X[1,:] = X[0,:] + np.random.uniform(-.3, .3, n)

# Cálculo da matriz de covariancia:
XXt = X @ X.T
C = (1/(n-1)) * XXt

# Cálculo dos autovalores V e dos principal components:
V, PC = np.linalg.eigh(C)

# Inversão da ordem dos autovalores e autovetores (crescente p/ decrescente):
V = np.flip(V)
PC = np.flip(PC, axis=1)

# Configuração dos pontos:
fig, ax = plt.subplots(1, 1, figsize=(7,7))
ax.plot([-1,1], [0,0], color='k')
ax.plot([0,0], [-1,1], color='k')
ax.set_aspect('equal')
ax.scatter(X[0,:], X[1,:], marker='o', color='red', edgecolor='black', linewidth=1)

# Plotagem das direções principais:
ax.plot([-1.5 * PC[0,0], 1.5 * PC[0,0]], [-1.5 * PC[1,0], 1.5 * PC[1,0]], 
        color = 'blue', linewidth=3)
ax.plot([-1 * PC[0,1], 1 * PC[0,1]], [-1 * PC[1,1], 1 * PC[1,1]], 
        color = 'blue', linewidth=3)

# Cálculo da variância explicada:
V_ratio = V / np.sum(V)
print(V_ratio)

ax.plot([-V_ratio[0] * PC[0,0], V_ratio[0] * PC[0,0]], 
        [-V_ratio[0] * PC[1,0], V_ratio[0] * PC[1,0]], 
        color = 'cyan', linewidth=7)

ax.plot([-V_ratio[1] * PC[0,1], V_ratio[1] * PC[0,1]], 
        [-V_ratio[1] * PC[1,1], V_ratio[1] * PC[1,1]], 
        color = 'cyan', linewidth=7)

In [None]:
# Determinação das coordenadas no novo sistema:
Y = PC.T @ X

# Plotagem das coordenadas no novo sistema:
fig, ax = plt.subplots(1, 1, figsize=(9,7))
ax.plot([-1,1], [0,0], color='k')
ax.plot([0,0], [-1,1], color='k')
ax.set_aspect('equal')
ax.scatter(Y[0,:], Y[1,:], marker='o', color='red', edgecolor='black', linewidth=1);

In [None]:
# Reconstrução dos dados, zerando a segunda coordenada (direção de menor variância):
Yh = Y.copy()
Yh[1,:] = 0
Xh = PC @ Yh

# Plotando os pontos no sistema original:
fig, ax = plt.subplots(1,1)
ax.plot([-1,1], [0,0], color='k')
ax.plot([0,0], [-1,1], color='k')
ax.set_aspect('equal')
ax.scatter(Xh[0,:], Xh[1,:], marker='o', color='red', edgecolor='black', linewidth=1)

### Exemplos com dados reais (Dados de Câncer de Mama)

Dataset contendo 569 registros de 30 atributos (raio, textura, simetria, etc) de tumores de Câncer de Mama, classificando-os como _benignos_ ou _malignos_.

O cálculo do PCA abaixo é feito de maneira "mais direta" através da biblioteca sklearn.

In [None]:
from sklearn.datasets import load_breast_cancer
import numpy as np

# Carregamento dos dados originais:
breast_ds = load_breast_cancer()
breast_data = breast_ds.data
print('Shape inicial dos dados:', np.shape(breast_data))

In [None]:
# Adição dos rótulos "maligno" x "benigno":
labels = np.reshape(breast_ds.target, (569, 1))
breast_data = np.concatenate([breast_data, labels], axis=1)
print('Shape final dos dados:', np.shape(breast_data))

In [None]:
# Visualização dos atributos:
features = breast_ds.feature_names
print(features)

In [None]:
import pandas as pd

# Criação de DataFrame:
breast_df = pd.DataFrame(breast_data)

# Adição do label "maligno" x "benigno" às colunas do DataFrame:
feature_labels = np.append(features, 'label')
breast_df.columns = feature_labels
breast_df['label'].replace(0, 'Benign', inplace=True)
breast_df['label'].replace(1, 'Malignant', inplace=True)

# Exibição das primeiras linhas do DataFrame:
breast_df.head()

In [None]:
from sklearn.preprocessing import StandardScaler

# Normalização dos dados:
to_be_normalized_data = breast_df.loc[:, features].values
normalized_data = StandardScaler().fit_transform(to_be_normalized_data)

# Cálculo da média e desvio padrão:
print('Média =', np.mean(normalized_data), 'Desvio Padrão =', np.std(normalized_data))

# Normalização do DataFrame:
normalized_feature_labels = ['feature ' + str(i) for i in range(normalized_data.shape[1])]
normalized_breast_df = pd.DataFrame(normalized_data, columns=normalized_feature_labels)

# Exibição das últimas linhas do DataFrame normalizado:
normalized_breast_df.tail()

In [None]:
from sklearn.decomposition import PCA

# Cálculo do PCA com 2 componentes:
pca = PCA(n_components=2)
principal_components = pca.fit_transform(normalized_data)

# Cálculo da variância explicada por componente:
print('Variância por CP:', pca.explained_variance_ratio_)

# Criação de DataFrame com o resultado:
principal_components_df = pd.DataFrame(principal_components, columns=['1st PC', '2nd PC'])

# Exibição das primeiras linhas do DataFrame:
principal_components_df.head()

In [None]:
import matplotlib.pyplot as plt

# Configuração de parâmetros de plot:
plt.figure()
plt.figure(figsize=(10, 10))
plt.xticks(fontsize=12)
plt.yticks(fontsize=12)
plt.xlabel('1st Principal Component',fontsize=20)
plt.ylabel('2nd Principal Component',fontsize=20)
plt.title("Principal Component Analysis of Breast Cancer Dataset", fontsize=20)

# Configuração de labels e cores:
targets = ['Benign', 'Malignant']
colors = ['r', 'g']

# Plotagem da classificação benigno e maligno separada a partir de 2 componentes:
for target, color in zip(targets,colors):
    indices_to_keep = breast_df['label'] == target
    plt.scatter(principal_components_df.loc[indices_to_keep, '1st PC'], principal_components_df.loc[indices_to_keep, '2nd PC'], c=color, s=50)

plt.legend(targets,prop={'size': 15})