# Análise de Componentes Principais (PCA)

## 1. Introdução

A Análise de Componentes Principais (PCA) é uma técnica estatística e matemática utilizada para **redução de dimensionalidade** e **extração de padrões** em conjuntos de dados.  
O objetivo principal é transformar variáveis possivelmente correlacionadas em um novo conjunto de variáveis **não correlacionadas**, chamadas de **componentes principais**.

Esses componentes principais são ordenados de forma que:
- O primeiro componente explica a maior parte da variabilidade dos dados.
- O segundo explica a maior parte do que resta, e assim por diante.

### Motivação
- **Redução de dimensionalidade**: simplificar dados mantendo a maior parte da informação.  
- **Visualização**: projetar dados de alta dimensão em 2D ou 3D.  
- **Compressão**: representar dados com menos variáveis sem grande perda de informação.  
- **Eliminação de redundância**: variáveis altamente correlacionadas podem ser combinadas.

### Exemplos práticos
- Reconhecimento de imagens e compressão (ex.: JPEG, faces).  
- Biologia e genética (analisar milhares de genes e encontrar padrões).  
- Recomendação de produtos (filtrar variáveis relevantes).  
- Sensoriamento em engenharia (combinar sinais de sensores correlacionados).



---



## 2. Pré-requisitos matemáticos

Antes de compreender o PCA, é necessário revisar alguns conceitos fundamentais de Álgebra Linear.

### 2.1 Vetores e Matrizes
- **Vetor**: coleção ordenada de números que pode representar um ponto ou direção em um espaço.
- **Matriz**: tabela de números organizada em linhas e colunas.
- **Operações básicas**: soma de vetores, multiplicação escalar, multiplicação de matrizes.

Exemplo de vetor em R²:  
$$
\vec{v} = \begin{bmatrix} 2 \\ 3 \end{bmatrix}
$$

Exemplo de matriz 2x2:  
$$
A = \begin{bmatrix} 1 & 2 \\ 3 & 4 \end{bmatrix}
$$

---

### 2.2 Produto Interno e Projeção
- O **produto interno** mede o quanto dois vetores "apontam na mesma direção".
- Para vetores $\vec{u}$ e $\vec{v}$:

$$
\vec{u} \cdot \vec{v} = \| \vec{u} \| \cdot \| \vec{v} \| \cdot \cos(\theta)
$$

- A **projeção** de $\vec{u}$ sobre $\vec{v}$ é:

$$
\text{proj}_{\vec{v}}(\vec{u}) = \frac{\vec{u} \cdot \vec{v}}{\| \vec{v} \|^2} \cdot \vec{v}
$$

---

### 2.3 Autovalores e Autovetores
- Um **autovetor** de uma matriz $A$ é um vetor $\vec{x}$ que, ao ser multiplicado por $A$, apenas muda de escala.
- O valor dessa escala é o **autovalor** $\lambda$.

Formalmente:

$$
A \vec{x} = \lambda \vec{x}
$$

- Isso significa que $\vec{x}$ não muda de direção, apenas de magnitude.

---

### 2.4 Exemplo Numérico Simples
Considere a matriz:

$$
A = \begin{bmatrix} 2 & 0 \\ 0 & 3 \end{bmatrix}
$$

- Os autovalores são $\lambda_1 = 2$ e $\lambda_2 = 3$.  
- Os autovetores correspondentes são $\vec{x}_1 = [1, 0]^T$ e $\vec{x}_2 = [0, 1]^T$.

---

### 2.5 Decomposição Espectral
- Matrizes quadradas podem ser decompostas em termos de autovalores e autovetores.
- Se $A$ é diagonalizável:

$$
A = V \Lambda V^{-1}
$$

onde:
- $V$ é a matriz de autovetores.  
- $\Lambda$ é a matriz diagonal com os autovalores.

---

### 2.6 Matrizes Simétricas
- Uma matriz simétrica é aquela em que $A = A^T$.  
- Propriedade importante: matrizes simétricas têm **autovalores reais** e **autovetores ortogonais**.
- Isso é fundamental no PCA, pois a matriz de covariância é simétrica.

## Exemplo passo a passo: autovalores e autovetores

Vamos usar uma matriz simétrica simples, útil para a intuição do PCA.

$$
A=\begin{bmatrix}2 & 1\\[4pt] 1 & 2\end{bmatrix}
$$

### 1. Polinômio característico
Autovalores $\lambda$ satisfazem $\det(A-\lambda I)=0$.

$$
A-\lambda I=\begin{bmatrix}2-\lambda & 1\\[4pt]1 & 2-\lambda\end{bmatrix}
\quad\Rightarrow\quad
\det(A-\lambda I)=(2-\lambda)^2-1
$$

Expansão:

$$
(2-\lambda)^2-1
= \lambda^2-4\lambda+4-1
= \lambda^2-4\lambda+3
$$

Logo, o polinômio característico é
$$
p(\lambda)=\lambda^2-4\lambda+3
$$

### 2. Autovalores
Resolva $p(\lambda)=0$:

$$
\lambda^2-4\lambda+3=0
\quad\Rightarrow\quad
(\lambda-1)(\lambda-3)=0
$$

Autovalores:
$$
\lambda_1=1,\qquad \lambda_2=3
$$

### 3. Autovetor para $\lambda_2=3$
Resolva $(A-3I)\vec{v}=\vec{0}$.

$$
A-3I=\begin{bmatrix}-1 & 1\\[4pt] 1 & -1\end{bmatrix}
$$

Sistema:
$$
\begin{cases}
- x + y = 0 \\
x - y = 0
\end{cases}
\quad\Rightarrow\quad y=x
$$

Um autovetor é qualquer múltiplo de $\begin{bmatrix}1\\[2pt]1\end{bmatrix}$.
Vetor normalizado:

$$
\vec{v}_2=\frac{1}{\sqrt{2}}\begin{bmatrix}1\\[2pt]1\end{bmatrix}
$$

Verificação:

$$
A\begin{bmatrix}1\\[2pt]1\end{bmatrix}
=\begin{bmatrix}2\cdot1+1\cdot1\\[2pt]1\cdot1+2\cdot1\end{bmatrix}
=\begin{bmatrix}3\\[2pt]3\end{bmatrix}
=3\begin{bmatrix}1\\[2pt]1\end{bmatrix}
$$

### 4. Autovetor para $\lambda_1=1$
Resolva $(A-I)\vec{v}=\vec{0}$.

$$
A-I=\begin{bmatrix}1 & 1\\[4pt] 1 & 1\end{bmatrix}
$$

Sistema:
$$
\begin{cases}
x + y = 0 \\
x + y = 0
\end{cases}
\quad\Rightarrow\quad y=-x
$$

Um autovetor é qualquer múltiplo de $\begin{bmatrix}1\\[2pt]-1\end{bmatrix}$.
Vetor normalizado:

$$
\vec{v}_1=\frac{1}{\sqrt{2}}\begin{bmatrix}1\\[2pt]-1\end{bmatrix}
$$

Verificação:

$$
A\begin{bmatrix}1\\[2pt]-1\end{bmatrix}
=\begin{bmatrix}2\cdot1+1\cdot(-1)\\[2pt]1\cdot1+2\cdot(-1)\end{bmatrix}
=\begin{bmatrix}1\\[2pt]-1\end{bmatrix}
=1\begin{bmatrix}1\\[2pt]-1\end{bmatrix}
$$

### 5. Ortonormalidade e diagonalização
Como $A$ é simétrica, autovetores correspondentes a autovalores distintos são ortogonais.

$$
\vec{v}_1^\top \vec{v}_2
=\frac{1}{2}[1\ \ -1]\begin{bmatrix}1\\[2pt]1\end{bmatrix}
=\frac{1}{2}(1-1)=0
$$

Forme $V=[\vec{v}_2\ \vec{v}_1]$ e $\Lambda=\operatorname{diag}(3,1)$.

$$
V=\frac{1}{\sqrt{2}}
\begin{bmatrix}
1 & 1\\[4pt]
1 & -1
\end{bmatrix},
\qquad
\Lambda=
\begin{bmatrix}
3 & 0\\[4pt]
0 & 1
\end{bmatrix}
$$

Diagonalização:

$$
A = V\Lambda V^\top
$$

### 6. Interpretação geométrica
O operador $A$ escala os vetores ao longo de duas direções principais:
$\vec{v}_2$ (linha $y=x$) é ampliada por fator 3.
$\vec{v}_1$ (linha $y=-x$) é mantida por fator 1.

Para PCA isso é crucial, pois a matriz de covariância é simétrica e suas direções principais correspondem aos autovetores. Os maiores autovalores indicam eixos de maior variância.


In [1]:
import numpy as np

def eigen_decomp(A):
    """
    Decomposição espectral geral.
    Usa numpy.linalg.eig, serve para qualquer matriz quadrada.
    Retorna autovalores e autovetores ordenados do maior para o menor autovalor.
    """
    vals, vecs = np.linalg.eig(A)
    idx = np.argsort(vals)[::-1]
    vals = np.real_if_close(vals[idx])
    vecs = np.real_if_close(vecs[:, idx])

    # normaliza colunas para norma 1
    norms = np.linalg.norm(vecs, axis=0)
    norms[norms == 0] = 1.0
    vecs = vecs / norms
    return vals, vecs

def eigen_decomp_symmetric(A):
    """
    Decomposição espectral para matrizes simétricas.
    Usa numpy.linalg.eigh que é mais estável para A simétrica.
    Ideal para PCA em matriz de covariância.
    """
    vals, vecs = np.linalg.eigh(A)
    idx = np.argsort(vals)[::-1]
    vals = vals[idx]
    vecs = vecs[:, idx]

    # normaliza colunas para norma 1
    norms = np.linalg.norm(vecs, axis=0)
    norms[norms == 0] = 1.0
    vecs = vecs / norms
    return vals, vecs

def verify_eigenpairs(A, vals, vecs, tol=1e-9):
    """
    Verifica se A v ≈ λ v para cada par.
    Retorna resíduos e imprime um relatório simples.
    """
    residuals = []
    for i, lam in enumerate(vals):
        v = vecs[:, i]
        left = A @ v
        right = lam * v
        r = np.linalg.norm(left - right)
        residuals.append(r)
        print(f"λ[{i}] = {lam:.6f} | ||A v - λ v|| = {r:.3e}")
    return np.array(residuals)

# Exemplo 1: matriz simétrica 2x2
A = np.array([[2., 1.],
              [1., 2.]])

print("=== Decomposição com eigh (simétrica) ===")
vals_s, vecs_s = eigen_decomp_symmetric(A)
print("Autovalores:", vals_s)
print("Autovetores (colunas):\n", vecs_s)
_ = verify_eigenpairs(A, vals_s, vecs_s)

print("\n=== Decomposição geral com eig ===")
vals_g, vecs_g = eigen_decomp(A)
print("Autovalores:", vals_g)
print("Autovetores (colunas):\n", vecs_g)
_ = verify_eigenpairs(A, vals_g, vecs_g)

# Exemplo 2 opcional: matriz 3x3 qualquer
# B = np.array([[3., 2., 0.],
#               [2., 3., 0.],
#               [0., 0., 1.]])
# print("\n=== Matriz 3x3 ===")
# valsB, vecsB = eigen_decomp_symmetric(B)
# print("Autovalores:", valsB)
# print("Autovetores (colunas):\n", vecsB)
# _ = verify_eigenpairs(B, valsB, vecsB)


=== Decomposição com eigh (simétrica) ===
Autovalores: [3. 1.]
Autovetores (colunas):
 [[ 0.70710678 -0.70710678]
 [ 0.70710678  0.70710678]]
λ[0] = 3.000000 | ||A v - λ v|| = 0.000e+00
λ[1] = 1.000000 | ||A v - λ v|| = 0.000e+00

=== Decomposição geral com eig ===
Autovalores: [3. 1.]
Autovetores (colunas):
 [[ 0.70710678 -0.70710678]
 [ 0.70710678  0.70710678]]
λ[0] = 3.000000 | ||A v - λ v|| = 0.000e+00
λ[1] = 1.000000 | ||A v - λ v|| = 0.000e+00




---



## 3. Estatística básica necessária

Esta seção revisa os conceitos estatísticos essenciais para entender PCA.

### 3.1 Média e centralização
Dado um conjunto de n observações de uma variável X:
$$
\bar{x}=\frac{1}{n}\sum_{i=1}^{n} x_i
$$
A **centralização** consiste em subtrair a média de cada observação: $x_i^{c}=x_i-\bar{x}$.
Para dados multivariados $X\in\mathbb{R}^{n\times d}$ com colunas como variáveis, centraliza-se cada coluna.

### 3.2 Variância
A variância mede a dispersão de uma variável em torno da média.
$$
\mathrm{Var}(X)=\frac{1}{n-1}\sum_{i=1}^{n}\big(x_i-\bar{x}\big)^2
$$
Utiliza-se $n-1$ para obter um estimador não tendencioso da variância amostral.

### 3.3 Covariância
A covariância mede a variação conjunta de duas variáveis X e Y.
$$
\mathrm{Cov}(X,Y)=\frac{1}{n-1}\sum_{i=1}^{n}\big(x_i-\bar{x}\big)\big(y_i-\bar{y}\big)
$$
Interpretação:
- $\mathrm{Cov}>0$: tendem a aumentar juntas.
- $\mathrm{Cov}<0$: quando uma aumenta, a outra tende a diminuir.
- $\mathrm{Cov}\approx 0$: variações independentes em média.

### 3.4 Matriz de covariância
Para $X\in\mathbb{R}^{n\times d}$ centralizado por colunas, a matriz de covariância $ \Sigma \in \mathbb{R}^{d\times d} $ é:
$$
\Sigma = \frac{1}{n-1} X^{\top}X
$$
Elementos:
$$
\Sigma_{jj}=\mathrm{Var}(X_j), \quad \Sigma_{jk}=\mathrm{Cov}(X_j,X_k)
$$
Propriedades:
- $\Sigma$ é **simétrica** e **semidefinida positiva**.
- Autovalores de $\Sigma$ são **reais** e não negativos.

### 3.5 Correlação
A correlação de Pearson é a covariância normalizada pelas dispersões.
$$
\rho_{XY}=\frac{\mathrm{Cov}(X,Y)}{\sqrt{\mathrm{Var}(X)\,\mathrm{Var}(Y)}}
$$
$\rho\in[-1,1]$. É útil para comparar associações em escalas diferentes.

### 3.6 Padronização e escala
PCA é sensível à escala. Em muitos casos, padroniza-se cada variável para média zero e desvio padrão 1:
$$
z_i=\frac{x_i-\bar{x}}{s_x},\quad s_x=\sqrt{\mathrm{Var}(X)}
$$
Em dados com unidades heterogêneas, fazer PCA na **matriz de correlação** equivale a aplicar PCA nos dados padronizados.

### 3.7 Exemplo numérico curto
Considere duas variáveis $X$ e $Y$ com três observações cada:
$$
X=\{2,4,6\},\qquad Y=\{1,3,5\}
$$
Médias:
$$
\bar{x}=\frac{2+4+6}{3}=4,\quad \bar{y}=\frac{1+3+5}{3}=3
$$
Dados centralizados:
$$
X^c=\{-2,0,2\},\qquad Y^c=\{-2,0,2\}
$$
Variâncias:
$$
\mathrm{Var}(X)=\frac{(-2)^2+0^2+2^2}{3-1}=\frac{8}{2}=4, \quad
\mathrm{Var}(Y)=4
$$
Covariância:
$$
\mathrm{Cov}(X,Y)=\frac{(-2)(-2)+0\cdot 0+2\cdot 2}{2}=\frac{8}{2}=4
$$
Matriz de covariância:
$$
\Sigma=
\begin{bmatrix}
4 & 4\\[4pt]
4 & 4
\end{bmatrix}
$$
Observa-se correlação perfeita positiva $(\rho=1)$. Todas as variações estão ao longo de uma única direção, o que antecipa a ideia do PCA: um componente principal explica 100% da variância neste exemplo idealizado.

### 3.8 Observações práticas
- Outliers podem inflar variâncias e covariâncias. Em cenários robustos, considera-se pré-processamento ou alternativas robustas.
- Dados faltantes exigem imputação ou métodos que lidem com incompletude antes do PCA.
- Em pipelines de aprendizado de máquina, recomenda-se aplicar standard scaler antes do PCA quando existirem escalas distintas entre variáveis.




---



## 4. Do conceito à intuição do PCA

O PCA busca encontrar as direções no espaço dos dados onde a variabilidade é máxima.  
Essas direções são determinadas pelos **autovetores da matriz de covariância**, e a quantidade de variância explicada em cada direção é dada pelos **autovalores** correspondentes.

---

### 4.1 Direção de maior variância
- Imagine um conjunto de pontos no plano (2D) distribuídos em forma de nuvem.
- A direção ao longo da qual esses pontos se espalham mais é o **primeiro componente principal**.
- Essa direção corresponde ao autovetor associado ao maior autovalor da matriz de covariância.

---

### 4.2 Rotação do sistema de coordenadas
- O PCA equivale a **rotacionar o sistema de eixos** para alinhar os dados às direções de máxima variância.
- No novo sistema:
  - O primeiro eixo (PC1) explica a maior parte da variabilidade.
  - O segundo eixo (PC2) explica a maior parte do que sobra, e assim por diante.

Geometricamente:
- Antes: eixos fixos nos eixos originais (variáveis brutas).
- Depois: eixos girados de acordo com as direções de maior espalhamento dos dados.

---

### 4.3 Relação com autovalores e autovetores
- Seja $\Sigma$ a matriz de covariância dos dados centralizados.
- Autovalores $\lambda_i$ e autovetores $\vec{v}_i$ de $\Sigma$ satisfazem:
$$
\Sigma \vec{v}_i = \lambda_i \vec{v}_i
$$
- Interpretação:
  - $\vec{v}_i$: direção do i-ésimo componente principal.
  - $\lambda_i$: variância explicada ao longo dessa direção.

---

### 4.4 Exemplo em 2D (conceitual)
- Suponha dados em duas variáveis $X$ e $Y$ com forte correlação positiva.
- A matriz de covariância terá um autovalor grande e outro pequeno.
- O autovetor do maior autovalor aponta para a diagonal $y=x$.
- Isso significa que a maior variação está ao longo dessa linha.
- O segundo autovetor (diagonal $y=-x$) explica pouca variância.

---

### 4.5 Variação explicada
- A proporção de variância explicada por cada componente é:
$$
\text{Explained Variance Ratio}_i = \frac{\lambda_i}{\sum_j \lambda_j}
$$
- Essa métrica é usada para decidir quantos componentes manter.
- Em muitos casos, poucos componentes retêm a maior parte da variância total.

---

### 4.6 Intuição prática
- PCA não “cria” informação nova, apenas reorganiza o espaço para destacar o que mais varia.
- Se duas variáveis são redundantes (altamente correlacionadas), PCA pode condensá-las em um único eixo.
- Isso simplifica a análise sem perda significativa de informação.




---



## 5. Passo a passo do PCA (teórico)

Objetivo: encontrar uma base ortogonal em que a variância dos dados seja maximizada nos primeiros eixos, permitindo reduzir dimensões com mínima perda de informação.

### 5.1 Preparação dos dados
1) Organize os dados em uma matriz $X \in \mathbb{R}^{n \times d}$, linhas como amostras e colunas como variáveis.  
2) Centralize cada coluna: subtraia a média de cada variável. Obtenha $X_c$.

### 5.2 Matriz de covariância
Calcule a matriz de covariância $\Sigma \in \mathbb{R}^{d \times d}$:
$$
\Sigma = \frac{1}{n-1} X_c^{\top} X_c
$$
$\Sigma$ é simétrica e semidefinida positiva.

### 5.3 Decomposição espectral
Obtenha autovalores $\lambda_i$ e autovetores $\vec{v}_i$ de $\Sigma$:
$$
\Sigma \vec{v}_i = \lambda_i \vec{v}_i
$$
Ordene autovalores de forma decrescente $\lambda_1 \ge \lambda_2 \ge \dots \ge \lambda_d$. Os $\vec{v}_i$ formam uma base ortonormal.

### 5.4 Componentes principais e variância explicada
O i-ésimo componente principal é a direção $\vec{v}_i$.  
A variância explicada por ele é $\lambda_i$. A fração explicada é:
$$
\text{EVR}_i = \frac{\lambda_i}{\sum_{j=1}^{d} \lambda_j}
$$

### 5.5 Projeção dos dados
Projete os dados centralizados nos componentes principais:
$$
Z = X_c V
$$
onde $V=[\vec{v}_1\ \vec{v}_2\ \dots\ \vec{v}_d]$. As colunas de $Z$ são as coordenadas nas novas direções.

### 5.6 Redução de dimensionalidade
Escolha $k < d$. Use $V_k=[\vec{v}_1\ \dots\ \vec{v}_k]$ e $Z_k=X_c V_k$.  
Reconstrução aproximada em $d$ dimensões:
$$
\widehat{X} = Z_k V_k^{\top} + \text{média}
$$

---

## 5.7 Exemplo numérico simples

Dados em 2 variáveis, 5 amostras:
$$
X=
\begin{bmatrix}
2 & 0\\
0 & 2\\
3 & 1\\
4 & 3\\
5 & 5
\end{bmatrix}
$$

Média por coluna:
$$
\bar{x}=[2{,}8,\ 2{,}2]
$$

Centralização $X_c = X - \bar{x}$:
$$
X_c=
\begin{bmatrix}
-0{,}8 & -2{,}2\\
-2{,}8 & -0{,}2\\
\ \ 0{,}2 & -1{,}2\\
\ \ 1{,}2 & \ \ 0{,}8\\
\ \ 2{,}2 & \ \ 2{,}8
\end{bmatrix}
$$

Matriz de covariância $\Sigma=\frac{1}{n-1}X_c^\top X_c$ com $n=5$:
$$
\Sigma=
\begin{bmatrix}
3{,}7 & 2{,}3\\[2pt]
2{,}3 & 3{,}7
\end{bmatrix}
$$

Autovalores e autovetores de $\Sigma$:
$$
\lambda_1=6{,}0,\quad \lambda_2=1{,}4
$$
$$
\vec{v}_1=\frac{1}{\sqrt{2}}\begin{bmatrix}1\\[2pt]1\end{bmatrix},\quad
\vec{v}_2=\frac{1}{\sqrt{2}}\begin{bmatrix}-1\\[2pt]1\end{bmatrix}
$$

Variância explicada:
$$
\text{EVR}_1=\frac{6}{7{,}4}\approx 0{,}8108\quad (81{,}08\%),\qquad
\text{EVR}_2=\frac{1{,}4}{7{,}4}\approx 0{,}1892\quad (18{,}92\%)
$$

Projeção $Z=X_c V$ resulta aproximadamente em:
$$
Z \approx
\begin{bmatrix}
-2{,}1213 & -0{,}9899\\
-2{,}1213 & \ \ 1{,}8385\\
-0{,}7071 & -0{,}9899\\
\ \ 1{,}4142 & -0{,}2828\\
\ \ 3{,}5355 & \ \ 0{,}4243
\end{bmatrix}
$$

Se escolhermos $k=1$, mantemos apenas $\vec{v}_1$. A reconstrução $\widehat{X}=Z_1 \vec{v}_1^\top + \bar{x}$ aproxima os dados originais usando uma única dimensão, retendo cerca de 81 por cento da variância total.

---

## 5.8 Implementação em Python

### 5.8.1 PCA do zero com NumPy



In [2]:
import numpy as np

def pca_numpy(X, k=None, scale=False):
    """
    PCA do zero usando NumPy.
    X: matriz n x d com amostras em linhas.
    k: número de componentes a manter. Se None, mantém todos.
    scale: se True, padroniza colunas para média 0 e desvio 1 antes do PCA.
    Retorna: mean, components, eigenvalues, explained_variance_ratio, scores, X_recon (se k não None).
    """
    X = np.asarray(X, dtype=float)
    n, d = X.shape

    # opcional: padronização
    if scale:
        mu = X.mean(axis=0)
        sigma = X.std(axis=0, ddof=1)
        sigma[sigma == 0] = 1.0
        Xc = (X - mu) / sigma
        postprocess = lambda Y: Y * sigma + mu
    else:
        mu = X.mean(axis=0)
        Xc = X - mu
        postprocess = lambda Y: Y + mu

    # matriz de covariância d x d
    Sigma = (Xc.T @ Xc) / (n - 1)

    # autovalores e autovetores para matriz simétrica
    vals, vecs = np.linalg.eigh(Sigma)

    # ordenar decrescente
    idx = np.argsort(vals)[::-1]
    vals = vals[idx]
    vecs = vecs[:, idx]

    # componentes principais: colunas de vecs
    V = vecs

    # scores: coordenadas projetadas
    Z = Xc @ V

    # razão de variância explicada
    evr = vals / vals.sum()

    # se k definido, reduzir e reconstruir
    X_recon = None
    if k is not None:
        Vk = V[:, :k]
        Zk = Xc @ Vk
        X_recon = postprocess(Zk @ Vk.T)

    return mu, V, vals, evr, Z, X_recon

# Exemplo com os dados do item 5.7
X = np.array([
    [2., 0.],
    [0., 2.],
    [3., 1.],
    [4., 3.],
    [5., 5.]
])

mu, V, vals, evr, Z, Xr = pca_numpy(X, k=1, scale=False)
print("Média:", mu)
print("Autovalores:", vals)
print("Variância explicada:", evr)
print("Componentes (colunas):\n", V)
print("Scores Z (primeiras linhas):\n", Z[:5])
print("Reconstrução k=1 (primeiras linhas):\n", Xr[:5])

Média: [2.8 2.2]
Autovalores: [6.  1.4]
Variância explicada: [0.81081081 0.18918919]
Componentes (colunas):
 [[ 0.70710678 -0.70710678]
 [ 0.70710678  0.70710678]]
Scores Z (primeiras linhas):
 [[-2.12132034 -0.98994949]
 [-2.12132034  1.83847763]
 [-0.70710678 -0.98994949]
 [ 1.41421356 -0.28284271]
 [ 3.53553391  0.42426407]]
Reconstrução k=1 (primeiras linhas):
 [[1.3 0.7]
 [1.3 0.7]
 [2.3 1.7]
 [3.8 3.2]
 [5.3 4.7]]


## 6. Análise do algoritmo PCA

### 6.1 Pipeline e custos computacionais
Considere \(X \in \mathbb{R}^{n \times d}\) com amostras em linhas e variáveis em colunas.

1) Centralização das colunas  
Custo de tempo: \(O(nd)\). Custo de memória: \(O(d)\) para guardar as médias.

2) Opcional: padronização por desvio padrão  
Custo de tempo: \(O(nd)\). Importante quando as variáveis estão em escalas diferentes.

3) Cálculo de \(\Sigma = \frac{1}{n-1}X_c^\top X_c\)  
Custo de tempo: \(O(nd^2)\). Custo de memória: \(O(d^2)\).

4) Autodecomposição de \(\Sigma\) (simétrica)  
Custo de tempo: \(O(d^3)\) usando métodos clássicos. Retorna autovalores \(\lambda_i\) e autovetores \(v_i\).

5) Ordenação dos autovalores e autovetores  
Custo de tempo: \(O(d \log d)\).

6) Projeção nos \(k\) primeiros componentes  
\(Z = X_c V_k\) com custo \(O(ndk)\).

7) Reconstrução aproximada  
\(\widehat{X} = Z V_k^\top + \text{média}\) com custo \(O(ndk)\).

Resumo prático: para \(d\) moderado, o gargalo é a autodecomposição \(O(d^3)\). Para \(d\) grande, formar \(\Sigma\) já custa \(O(nd^2)\).

### 6.2 PCA via SVD em vez de autodecomposição
A SVD de \(X_c\) evita formar \(\Sigma\) e é mais estável numericamente.

\[
X_c = U S V^\top \quad \Rightarrow \quad \Sigma = \frac{1}{n-1} V S^2 V^\top
\]

Componentes principais são as colunas de \(V\). Autovalores são \(S^2/(n-1)\).  
Vantagem: estabilidade numérica superior e possibilidade de SVD truncada para \(k\) componentes.

Complexidade típica da SVD: \(O(nd^2)\) quando \(n \ge d\) e \(O(n^2 d)\) quando \(n \le d\).  
Para bases grandes, usar SVD econômica ou aleatorizada.

### 6.3 Caso \(n \ll d\) e formulação dual
Quando há muito mais variáveis que amostras, é eficiente diagonalizar \(X_c X_c^\top \in \mathbb{R}^{n \times n}\).  
Obtém-se \(U\) e \(S\), e depois \(V = X_c^\top U S^{-1}\) com normalização adequada.

### 6.4 Escala das variáveis
PCA é sensível à escala. Quando variáveis possuem unidades diferentes, padronizar para média zero e desvio um é recomendável.  
Alternativamente, aplicar PCA sobre a matriz de correlação equivale a padronizar antes.

### 6.5 Seleção de \(k\)
Critérios usuais:
- Variância explicada acumulada maior que um limiar, por exemplo 90 por cento ou 95 por cento.  
- Gráfico de cotovelo da variância explicada.  
- Validação de tarefa final, por exemplo desempenho de um modelo após redução.

### 6.6 Erro de reconstrução
Para dados centralizados, a soma dos autovalores equivale à variância total.  
Ao reter \(k\) componentes, o erro quadrático médio de reconstrução por amostra é a soma dos autovalores descartados.  
Isto fornece uma medida direta da perda ao reduzir a dimensionalidade.

### 6.7 Robustez e dados reais
- Outliers podem distorcer variâncias e direções. Pré-processamento e versões robustas de PCA podem ser necessários.  
- Dados faltantes exigem imputação antes do PCA tradicional.  
- A direção dos autovetores possui ambiguidade de sinal. Inverter o sinal de um componente não altera o subespaço.

### 6.8 Interpretação dos componentes
- Componentes são combinações lineares das variáveis originais.  
- Cargas fatoriais podem ser interpretadas pelas correlações das variáveis com cada componente.  
- Para interpretabilidade, observar magnitude e sinal das entradas dos autovetores ou usar gráficos biplot.

### 6.9 Memória
- Armazenar \(X\) em float64 consome aproximadamente \(8nd\) bytes.  
- Armazenar \(\Sigma\) consome \(8d^2\) bytes.  
- Em \(d\) muito grande, preferir SVD direta com esquemas econômicos para reduzir uso de memória.




---



## 7. Análise dos resultados no exemplo da Seção 5.7

### 7.1 Recapitulação dos números
Para os dados 2D fornecidos, a matriz de covariância foi
$$
\Sigma=
\begin{bmatrix}
3{,}7 & 2{,}3\\
2{,}3 & 3{,}7
\end{bmatrix}
$$
Autovalores e autovetores
$$
\lambda_1=6{,}0,\quad \lambda_2=1{,}4
$$
$$
v_1=\frac{1}{\sqrt{2}}\begin{bmatrix}1\\ 1\end{bmatrix},\quad
v_2=\frac{1}{\sqrt{2}}\begin{bmatrix}-1\\ 1\end{bmatrix}
$$

### 7.2 Interpretação geométrica
- O primeiro componente principal aponta para a diagonal $y=x$.  
- Isto indica que a maior parte da variação ocorre ao longo da soma das variáveis.  
- O segundo componente, na direção $y=-x$, mede discrepâncias entre as variáveis.

### 7.3 Variância explicada e escolha de $k$
Variância total é $\lambda_1+\lambda_2=7{,}4$.  
Proporções
$$
\text{EVR}_1 \approx 81{,}08\% \quad \text{e} \quad \text{EVR}_2 \approx 18{,}92\%.
$$
- Se o critério é 80 por cento, $k=1$ é suficiente.  
- Se o critério é 90 por cento, é necessário $k=2$.

### 7.4 Projeções e sinais
As coordenadas projetadas $Z$ que aparecem no código podem diferir por um sinal global em cada componente.  
Isto é esperado, pois autovetores têm ambiguidade de sinal.  
A interpretação não muda.

### 7.5 Reconstrução e erro
Com $k=1$ a reconstrução aproxima $X$ a partir de uma única coordenada ao longo de $v_1$.  
Erro quadrático médio de reconstrução por amostra é igual à soma dos autovalores descartados  
$$
\text{MSE} = \lambda_2 = 1{,}4
$$
que corresponde a aproximadamente 18,9 por cento da variância total.  
Conseqüência prática: boa compressão para visualizar ou simplificar, com perda moderada.

### 7.6 Cargas e interpretação
Como $v_1$ possui entradas positivas e de mesma magnitude, o primeiro componente corresponde a uma tendência comum das duas variáveis.  
Já $v_2$ captura diferenças entre as variáveis.  
Esta leitura é coerente com os dados, que crescem de forma aproximadamente conjunta, sobretudo nos últimos pontos.

### 7.7 Decisões para uso prático
- Para visualização, $k=1$ já resume a estrutura dominante.  
- Para reconstrução com baixa perda, manter $k=2$.  
- Em conjuntos com escalas heterogêneas, repetir a análise após padronização para verificar estabilidade das conclusões.

### 7.8 Próximos passos sugeridos
- Plotar gráfico de cotovelo com a variância explicada acumulada.  
- Construir biplot com variáveis e amostras para reforçar a leitura das cargas.  
- Testar robustez com remoção de outliers e com padronização.


## 8. Conclusão

A Análise de Componentes Principais (PCA) é uma ferramenta poderosa para compreender e simplificar conjuntos de dados de alta dimensão.  
Ao longo deste notebook, percorremos um caminho completo:

- Revisamos fundamentos de álgebra linear (autovalores, autovetores) e estatística (variância, covariância).
- Construímos passo a passo o algoritmo do PCA: centralização, matriz de covariância, decomposição espectral e projeção.
- Implementamos o PCA manualmente em Python e também com `scikit-learn`, comparando os resultados.
- Interpretamos a variância explicada e o papel de cada componente principal.
- Discutimos critérios para escolha de $k$, impacto na reconstrução e cuidados com escalas e outliers.

O PCA, portanto, não apenas reduz dimensionalidade mas também ajuda a **interpretar padrões latentes** nos dados, identificar redundâncias e melhorar a eficiência de modelos de aprendizado de máquina.

### Limitações
- Assume **linearidade**: não captura relações não lineares entre variáveis.
- É sensível à **escala das variáveis** e a outliers.
- Direções encontradas são baseadas exclusivamente em variância, não em relevância para uma tarefa de predição.

### Próximos passos
- Explorar **Kernel PCA** para relações não lineares.
- Testar **t-SNE** ou **UMAP** para visualização em alta dimensão.
- Avaliar PCA em datasets reais e verificar ganho em desempenho de modelos.

Em resumo, o PCA é uma técnica essencial no arsenal de estatística multivariada e aprendizado de máquina, fornecendo uma base sólida para compressão de dados, pré-processamento e exploração visual.




---

