# üîç SVD: Decomposi√ß√£o que Revela o Essencial dos Dados

## M√≥dulo 9: √Ålgebra Linear para IA

Fala pessoal! üëã Chegamos no m√≥dulo 9 e agora vamos falar de uma das t√©cnicas mais poderosas da √°lgebra linear: a **Decomposi√ß√£o SVD** (Singular Value Decomposition)!

T√°, mas o que √© essa tal de SVD? Imagina que voc√™ tem uma foto de 4K ultra detalhada, mas precisa envi√°-la pelo WhatsApp sem perder muito da qualidade. Ou ent√£o voc√™ tem um sistema de recomenda√ß√£o do Netflix que precisa entender os padr√µes de milh√µes de usu√°rios. A SVD √© como um "detector de padr√µes essenciais" que consegue pegar o que realmente importa nos seus dados!

**Neste notebook voc√™ vai aprender:**
- üßÆ O que √© SVD matematicamente (de forma descomplicada!)
- üì∏ Como comprimir imagens mantendo a qualidade
- üé¨ Como criar sistemas de recomenda√ß√£o
- üìä Redu√ß√£o de dimensionalidade na pr√°tica
- üîß Implementa√ß√£o em Python com NumPy

Bora descobrir o essencial dos dados! üöÄ

In [None]:
# Setup inicial - importando as bibliotecas que vamos usar
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.image import imread
import seaborn as sns
from sklearn.datasets import make_blobs
import pandas as pd
from PIL import Image
import requests
from io import BytesIO

# Configura√ß√µes para gr√°ficos mais bonitos
plt.style.use('seaborn-v0_8')
plt.rcParams['figure.figsize'] = (10, 6)
plt.rcParams['font.size'] = 12

# Seed para reprodutibilidade
np.random.seed(42)

print("üîß Setup completo! Vamos come√ßar a descobrir o essencial dos dados!")

## 1. ü§î O Que √â SVD? Quebrando o Conceito

Lembra quando falamos sobre **transforma√ß√µes lineares** no M√≥dulo 6? A SVD √© como se fosse uma "receita de bolo" para decompor qualquer matriz em tr√™s ingredientes fundamentais!

Matematicamente, para qualquer matriz $A$ de dimens√µes $m \times n$, a SVD nos d√°:

$$A = U \Sigma V^T$$

Onde:
- $U$ √© uma matriz $m \times m$ ortogonal (colunas s√£o ortonormais)
- $\Sigma$ √© uma matriz diagonal $m \times n$ com valores singulares
- $V^T$ √© uma matriz $n \times n$ ortogonal transposta

### üè† Analogia da Casa

Pensa na sua matriz $A$ como uma casa:
- $U$: As **dire√ß√µes dos c√¥modos** (como os dados se espalham no espa√ßo linha)
- $\Sigma$: A **import√¢ncia de cada c√¥modo** (valores singulares em ordem decrescente)
- $V^T$: As **dire√ß√µes dos m√≥veis** (como os dados se espalham no espa√ßo coluna)

A magia acontece porque os valores em $\Sigma$ est√£o ordenados do maior para o menor. Os maiores valores capturam os padr√µes mais importantes!

**üéØ Dica do Pedro:** A SVD sempre existe para qualquer matriz! Diferente da decomposi√ß√£o em autovalores que s√≥ funciona para matrizes quadradas, a SVD √© universal!

In [None]:
# Vamos criar uma matriz simples para ver a SVD em a√ß√£o
# Essa matriz representa dados com padr√µes claros
A = np.array([
    [1, 2, 3],
    [2, 4, 6],
    [1, 3, 5],
    [3, 6, 9]
])

print("üè† Nossa matriz A (a 'casa' que vamos decompor):")
print(A)
print(f"\nDimens√µes: {A.shape[0]} linhas x {A.shape[1]} colunas")

# Aplicando SVD
U, sigma, Vt = np.linalg.svd(A)

print("\nüîç Componentes da SVD:")
print(f"U (dire√ß√µes dos c√¥modos): {U.shape}")
print(f"Sigma (import√¢ncia): {sigma.shape}")
print(f"V^T (dire√ß√µes dos m√≥veis): {Vt.shape}")

print("\nüìä Valores singulares (em ordem decrescente):")
print(sigma)

## 2. üßÆ A Matem√°tica por Tr√°s da SVD

T√°, mas como diabos a SVD funciona matematicamente? Vou te explicar de forma descomplicada!

### üîç Os Valores Singulares

Os valores singulares $\sigma_i$ s√£o as ra√≠zes quadradas dos autovalores de $A^T A$ (ou $A A^T$):

$$\sigma_i = \sqrt{\lambda_i(A^T A)}$$

### üéØ As Matrizes U e V

- $U$: Cont√©m os **vetores singulares √† esquerda** (autovetores de $AA^T$)
- $V$: Cont√©m os **vetores singulares √† direita** (autovetores de $A^T A$)

### üèóÔ∏è Propriedades Importantes

1. **Ortogonalidade**: $U^T U = I$ e $V^T V = I$
2. **Ordena√ß√£o**: $\sigma_1 \geq \sigma_2 \geq ... \geq \sigma_r \geq 0$
3. **Posto**: O n√∫mero de valores singulares n√£o-nulos = posto da matriz

### üß© Reconstru√ß√£o da Matriz

A matriz original pode ser reconstru√≠da como:

$$A = \sum_{i=1}^{r} \sigma_i \mathbf{u}_i \mathbf{v}_i^T$$

Onde $r$ √© o posto da matriz. Cada termo $\sigma_i \mathbf{u}_i \mathbf{v}_i^T$ √© uma matriz de posto 1!

**üéØ Dica do Pedro:** Pensa na SVD como uma "receita" que te diz exatamente como misturar padr√µes simples (matrizes de posto 1) para reconstruir seus dados complexos!

In [None]:
# Vamos verificar as propriedades matem√°ticas da SVD
print("üî¨ Verificando as propriedades matem√°ticas da SVD:\n")

# 1. Verificar se U^T * U = I (matriz identidade)
UtU = U.T @ U
print("1Ô∏è‚É£ U^T * U (deve ser pr√≥ximo da identidade):")
print(np.round(UtU, 3))

# 2. Verificar se V^T * V = I
VtV = Vt @ Vt.T
print("\n2Ô∏è‚É£ V^T * V (deve ser pr√≥ximo da identidade):")
print(np.round(VtV, 3))

# 3. Reconstruir a matriz original
# Primeiro, vamos criar a matriz Sigma completa
Sigma = np.zeros_like(A, dtype=float)
np.fill_diagonal(Sigma, sigma)

A_reconstruida = U @ Sigma @ Vt
print("\n3Ô∏è‚É£ Matriz original vs reconstru√≠da:")
print("Original:")
print(A)
print("\nReconstru√≠da:")
print(np.round(A_reconstruida, 3))

# 4. Erro de reconstru√ß√£o
erro = np.linalg.norm(A - A_reconstruida)
print(f"\n4Ô∏è‚É£ Erro de reconstru√ß√£o: {erro:.10f}")
print("Liiindo! Praticamente zero! üéâ")

## 3. üìä Visualizando a SVD em A√ß√£o

Agora vamos ver como a SVD "enxerga" os dados! Vou criar um exemplo visual para mostrar como ela identifica as dire√ß√µes principais nos dados.

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/algebra-linear-para-ia-modulo-09_img_01.png)

In [None]:
# Vamos criar dados 2D com padr√£o claro para visualizar a SVD
np.random.seed(42)

# Dados que t√™m uma dire√ß√£o principal clara
n_points = 100
x = np.random.randn(n_points)
y = 2 * x + 0.5 * np.random.randn(n_points)  # y correlacionado com x

# Matriz de dados (cada linha √© um ponto)
dados = np.column_stack([x, y])

# Aplicar SVD
U_dados, sigma_dados, Vt_dados = np.linalg.svd(dados, full_matrices=False)

# Visualiza√ß√£o
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

# Gr√°fico 1: Dados originais com dire√ß√µes principais
ax1.scatter(x, y, alpha=0.6, s=50)
ax1.set_title('Dados Originais com Dire√ß√µes Principais da SVD')
ax1.set_xlabel('X')
ax1.set_ylabel('Y')
ax1.grid(True, alpha=0.3)

# Plotar as dire√ß√µes principais (vetores singulares)
centro = np.mean(dados, axis=0)
escala = 3

# Primeira dire√ß√£o principal (maior valor singular)
v1 = Vt_dados[0] * sigma_dados[0] * escala
ax1.arrow(centro[0], centro[1], v1[0], v1[1], 
          head_width=0.3, head_length=0.2, fc='red', ec='red', linewidth=3,
          label=f'1¬™ dire√ß√£o (œÉ={sigma_dados[0]:.2f})')

# Segunda dire√ß√£o principal (menor valor singular)
v2 = Vt_dados[1] * sigma_dados[1] * escala
ax1.arrow(centro[0], centro[1], v2[0], v2[1], 
          head_width=0.3, head_length=0.2, fc='blue', ec='blue', linewidth=3,
          label=f'2¬™ dire√ß√£o (œÉ={sigma_dados[1]:.2f})')

ax1.legend()

# Gr√°fico 2: Valores singulares
ax2.bar(['œÉ‚ÇÅ', 'œÉ‚ÇÇ'], sigma_dados, color=['red', 'blue'], alpha=0.7)
ax2.set_title('Valores Singulares (Import√¢ncia das Dire√ß√µes)')
ax2.set_ylabel('Valor Singular')
ax2.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print(f"üéØ A primeira dire√ß√£o captura {(sigma_dados[0]**2 / np.sum(sigma_dados**2) * 100):.1f}% da vari√¢ncia!")
print(f"üéØ A segunda dire√ß√£o captura {(sigma_dados[1]**2 / np.sum(sigma_dados**2) * 100):.1f}% da vari√¢ncia!")

## 4. üé® Compress√£o de Imagens com SVD

Agora vem a parte mais legal! Vamos usar SVD para comprimir imagens. √â como se a gente tivesse um "Instagram filter" matem√°tico que remove o que n√£o √© essencial!

### ü§î Como Funciona?

1. **Decompomos** a imagem usando SVD: $A = U \Sigma V^T$
2. **Mantemos apenas** os $k$ maiores valores singulares
3. **Reconstru√≠mos** usando: $A_k = \sum_{i=1}^{k} \sigma_i \mathbf{u}_i \mathbf{v}_i^T$

### üìê Taxa de Compress√£o

Para uma imagem $m \times n$, mantendo $k$ componentes:
- **Original**: $m \times n$ pixels
- **Comprimida**: $k(m + n + 1)$ valores
- **Taxa de compress√£o**: $\frac{mn}{k(m+n+1)}$

**üéØ Dica do Pedro:** A SVD √© perfeita para imagens porque muitas vezes os primeiros valores singulares capturam a ess√™ncia da imagem, e os demais s√£o s√≥ "ru√≠do"!

In [None]:
# Vamos criar uma imagem sint√©tica para demonstrar a compress√£o
# (Em projetos reais, voc√™ carregaria uma imagem real)

# Criando uma imagem sint√©tica com padr√µes interessantes
x = np.linspace(0, 4*np.pi, 200)
y = np.linspace(0, 4*np.pi, 200)
X, Y = np.meshgrid(x, y)

# Imagem com padr√µes senoidais (simula texturas naturais)
imagem = np.sin(X) * np.cos(Y) + 0.5 * np.sin(2*X + Y) + 0.3 * np.sin(X - 2*Y)
# Normalizar para 0-255 (escala de cinza)
imagem = ((imagem - imagem.min()) / (imagem.max() - imagem.min()) * 255).astype(np.uint8)

print(f"üì∏ Imagem criada com dimens√µes: {imagem.shape}")
print(f"üíæ Tamanho original: {imagem.size} pixels")

# Aplicar SVD na imagem
U_img, sigma_img, Vt_img = np.linalg.svd(imagem, full_matrices=False)

print(f"üîç N√∫mero de valores singulares: {len(sigma_img)}")
print(f"üèÜ Maior valor singular: {sigma_img[0]:.2f}")
print(f"ü•â Menor valor singular: {sigma_img[-1]:.2f}")

In [None]:
# Fun√ß√£o para reconstruir imagem com k componentes
def reconstruir_imagem_svd(U, sigma, Vt, k):
    """Reconstr√≥i imagem usando apenas os k primeiros componentes SVD"""
    return (U[:, :k] @ np.diag(sigma[:k]) @ Vt[:k, :]).astype(np.uint8)

# Testando diferentes n√≠veis de compress√£o
componentes = [1, 5, 10, 20, 50, 100]

fig, axes = plt.subplots(2, 3, figsize=(15, 10))
axes = axes.ravel()

for i, k in enumerate(componentes):
    # Reconstruir imagem
    img_comprimida = reconstruir_imagem_svd(U_img, sigma_img, Vt_img, k)
    
    # Calcular taxa de compress√£o
    m, n = imagem.shape
    tamanho_original = m * n
    tamanho_comprimido = k * (m + n + 1)
    taxa_compressao = tamanho_original / tamanho_comprimido
    
    # Calcular vari√¢ncia preservada
    variancia_preservada = np.sum(sigma_img[:k]**2) / np.sum(sigma_img**2) * 100
    
    # Plotar
    axes[i].imshow(img_comprimida, cmap='gray')
    axes[i].set_title(f'k={k} componentes\nCompress√£o: {taxa_compressao:.1f}x\nVari√¢ncia: {variancia_preservada:.1f}%')
    axes[i].axis('off')

plt.suptitle('üé® Compress√£o de Imagem usando SVD', fontsize=16, y=1.02)
plt.tight_layout()
plt.show()

print("\nüéØ Observe como:")
print("- Com poucos componentes, vemos os padr√µes principais")
print("- Conforme aumentamos k, mais detalhes aparecem")
print("- A compress√£o vs qualidade √© um trade-off cl√°ssico!")

In [None]:
# Vamos plotar como os valores singulares decaem
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

# Gr√°fico 1: Valores singulares
ax1.plot(sigma_img, linewidth=2, color='blue')
ax1.set_title('Decaimento dos Valores Singulares')
ax1.set_xlabel('√çndice do Componente')
ax1.set_ylabel('Valor Singular')
ax1.set_yscale('log')
ax1.grid(True, alpha=0.3)

# Destacar alguns componentes importantes
componentes_destacados = [0, 4, 9, 19, 49]
ax1.scatter(componentes_destacados, sigma_img[componentes_destacados], 
           color='red', s=100, zorder=5)

# Gr√°fico 2: Vari√¢ncia acumulada
variancia_acumulada = np.cumsum(sigma_img**2) / np.sum(sigma_img**2) * 100
ax2.plot(variancia_acumulada, linewidth=2, color='green')
ax2.set_title('Vari√¢ncia Explicada Acumulada')
ax2.set_xlabel('N√∫mero de Componentes')
ax2.set_ylabel('Vari√¢ncia Explicada (%)')
ax2.grid(True, alpha=0.3)

# Linha de 90% de vari√¢ncia
idx_90 = np.where(variancia_acumulada >= 90)[0][0]
ax2.axhline(y=90, color='red', linestyle='--', alpha=0.7)
ax2.axvline(x=idx_90, color='red', linestyle='--', alpha=0.7)
ax2.text(idx_90+5, 85, f'90% com {idx_90+1} componentes', 
         bbox=dict(boxstyle='round', facecolor='white', alpha=0.8))

plt.tight_layout()
plt.show()

print(f"üí° Para capturar 90% da vari√¢ncia, precisamos de apenas {idx_90+1} componentes!")
print(f"üéØ Isso representa uma compress√£o de {len(sigma_img)/(idx_90+1):.1f}x!")

## 5. üé¨ Sistema de Recomenda√ß√£o com SVD

Agora vamos para o Netflix da matem√°tica! üçø A SVD √© a base de muitos sistemas de recomenda√ß√£o, incluindo o famoso Netflix Prize!

### üéØ Como Funciona?

1. **Matriz Usu√°rio-Item**: Linhas = usu√°rios, Colunas = filmes, Valores = avalia√ß√µes
2. **Problema**: Matriz tem muitos valores faltando (nem todo mundo viu todos os filmes)
3. **Solu√ß√£o**: SVD encontra padr√µes latentes (g√™neros, prefer√™ncias)
4. **Predi√ß√£o**: Usa os padr√µes para prever avalia√ß√µes faltantes

### üßÆ A Matem√°tica

Se $R$ √© nossa matriz de avalia√ß√µes:

$$R \approx U_k \Sigma_k V_k^T$$

Onde:
- $U_k$: Prefer√™ncias dos usu√°rios por fatores latentes
- $\Sigma_k$: Import√¢ncia de cada fator
- $V_k^T$: Como cada filme se relaciona com os fatores

**üéØ Dica do Pedro:** Os fatores latentes s√£o como "g√™neros abstratos" - podem ser a√ß√£o, romance, sci-fi, ou combina√ß√µes mais complexas que s√≥ a matem√°tica consegue encontrar!

In [None]:
# Vamos criar um dataset sint√©tico de avalia√ß√µes de filmes
np.random.seed(42)

# Par√¢metros do sistema
n_usuarios = 50
n_filmes = 30
n_fatores_reais = 3  # Vamos simular 3 "g√™neros" latentes

# Criar fatores latentes verdadeiros
# Usu√°rios: prefer√™ncias por cada fator (0-1)
usuarios_fatores = np.random.beta(2, 2, (n_usuarios, n_fatores_reais))

# Filmes: intensidade de cada fator (0-1)
filmes_fatores = np.random.beta(2, 2, (n_filmes, n_fatores_reais))

# Gerar avalia√ß√µes baseadas nos fatores latentes
avaliacoes_completas = usuarios_fatores @ filmes_fatores.T

# Normalizar para escala 1-5 (como avalia√ß√µes reais)
avaliacoes_completas = 1 + 4 * avaliacoes_completas

# Simular dados faltantes (nem todo mundo viu todos os filmes)
mascara_observada = np.random.random((n_usuarios, n_filmes)) < 0.3  # 30% de dados observados

# Matriz com dados faltantes (NaN onde n√£o foi avaliado)
avaliacoes_observadas = avaliacoes_completas.copy()
avaliacoes_observadas[~mascara_observada] = np.nan

print(f"üé¨ Sistema de Recomenda√ß√£o Criado!")
print(f"üë• Usu√°rios: {n_usuarios}")
print(f"üéûÔ∏è Filmes: {n_filmes}")
print(f"üìä Avalia√ß√µes observadas: {np.sum(mascara_observada)} de {n_usuarios * n_filmes} ({np.mean(mascara_observada)*100:.1f}%)")
print(f"üé≠ Fatores latentes reais: {n_fatores_reais}")

In [None]:
# Para aplicar SVD, precisamos lidar com valores faltantes
# Estrat√©gia simples: substituir NaN pela m√©dia de cada filme

def preencher_com_media(matriz):
    """Preenche valores NaN com a m√©dia de cada coluna (filme)"""
    matriz_preenchida = matriz.copy()
    for j in range(matriz.shape[1]):
        coluna = matriz[:, j]
        media_coluna = np.nanmean(coluna)
        matriz_preenchida[np.isnan(coluna), j] = media_coluna
    return matriz_preenchida

# Preencher dados faltantes
avaliacoes_preenchidas = preencher_com_media(avaliacoes_observadas)

# Aplicar SVD
U_rec, sigma_rec, Vt_rec = np.linalg.svd(avaliacoes_preenchidas, full_matrices=False)

print("üìà SVD aplicada no sistema de recomenda√ß√£o!")
print(f"üîç Valores singulares encontrados: {len(sigma_rec)}")

# Visualizar os valores singulares
plt.figure(figsize=(12, 5))

plt.subplot(1, 2, 1)
plt.plot(sigma_rec[:15], 'bo-', linewidth=2, markersize=8)
plt.title('Primeiros 15 Valores Singulares')
plt.xlabel('Componente')
plt.ylabel('Valor Singular')
plt.grid(True, alpha=0.3)

# Destacar os 3 primeiros (esperamos que capturem os fatores reais)
plt.scatter([0, 1, 2], sigma_rec[:3], color='red', s=100, zorder=5)
plt.text(0.5, sigma_rec[0]*0.9, '3 fatores\nlatentes?', 
         bbox=dict(boxstyle='round', facecolor='yellow', alpha=0.7))

plt.subplot(1, 2, 2)
variancia_acum_rec = np.cumsum(sigma_rec**2) / np.sum(sigma_rec**2) * 100
plt.plot(variancia_acum_rec[:15], 'go-', linewidth=2, markersize=8)
plt.title('Vari√¢ncia Explicada Acumulada')
plt.xlabel('N√∫mero de Componentes')
plt.ylabel('Vari√¢ncia Explicada (%)')
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print(f"\nüéØ Os primeiros 3 componentes explicam {variancia_acum_rec[2]:.1f}% da vari√¢ncia!")
print(f"üéâ Como esperado, j√° que simulamos 3 fatores latentes!")

In [None]:
# Fazer predi√ß√µes usando SVD com k=3 componentes
k = 3
avaliacoes_preditas = U_rec[:, :k] @ np.diag(sigma_rec[:k]) @ Vt_rec[:k, :]

# Avaliar qualidade das predi√ß√µes
# Vamos calcular erro apenas nos dados que foram "escondidos"
mascara_teste = ~mascara_observada  # Dados que o modelo n√£o viu

# RMSE (Root Mean Square Error)
erro_quadratico = (avaliacoes_completas[mascara_teste] - avaliacoes_preditas[mascara_teste])**2
rmse = np.sqrt(np.mean(erro_quadratico))

print(f"üéØ Avalia√ß√£o do Sistema de Recomenda√ß√£o:")
print(f"üìä RMSE: {rmse:.3f} (escala 1-5)")
print(f"üìà Erro m√©dio: {np.mean(np.abs(avaliacoes_completas[mascara_teste] - avaliacoes_preditas[mascara_teste])):.3f}")

# Vamos ver alguns exemplos de predi√ß√µes
print("\nüîç Exemplos de Predi√ß√µes vs Realidade:")
print("(Para filmes que os usu√°rios n√£o avaliaram originalmente)\n")

exemplos = np.where(mascara_teste)
for i in range(min(10, len(exemplos[0]))):
    usuario = exemplos[0][i]
    filme = exemplos[1][i]
    real = avaliacoes_completas[usuario, filme]
    predito = avaliacoes_preditas[usuario, filme]
    print(f"üë§ Usu√°rio {usuario:2d}, üé¨ Filme {filme:2d}: Real={real:.2f}, Predito={predito:.2f}, Erro={abs(real-predito):.2f}")

print(f"\nüéâ Liiindo! A SVD conseguiu capturar os padr√µes de prefer√™ncia!")

## 6. üìä Redu√ß√£o de Dimensionalidade: PCA vs SVD

T√°, mas qual a diferen√ßa entre SVD e PCA? Spoiler: eles s√£o primos! üë®‚Äçüë©‚Äçüëß‚Äçüë¶

### üîó A Conex√£o

O PCA (que vamos ver no pr√≥ximo m√≥dulo) √© basicamente SVD aplicada na matriz de covari√¢ncia:

1. **PCA**: Encontra dire√ß√µes de m√°xima vari√¢ncia
2. **SVD**: Decomp√µe qualquer matriz em dire√ß√µes principais
3. **Conex√£o**: PCA pode ser calculado via SVD!

### üéØ Quando Usar Cada Um?

- **SVD**: Dados faltantes, matrizes n√£o-quadradas, sistemas de recomenda√ß√£o
- **PCA**: Redu√ß√£o de dimensionalidade cl√°ssica, an√°lise de componentes principais

**üéØ Dica do Pedro:** SVD √© mais geral e poderosa, PCA √© mais espec√≠fica para an√°lise de vari√¢ncia. √â como comparar um canivete su√≠√ßo com uma chave de fenda especializada!

In [None]:
# Vamos criar dados de alta dimensionalidade para demonstrar redu√ß√£o
# Simulando dados de sensores, pixels, features, etc.

np.random.seed(42)

# Criar dados com estrutura latente
n_amostras = 200
n_dimensoes = 50
n_fatores_latentes = 5

# Fatores latentes (vari√°veis n√£o observadas que geram os dados)
fatores_latentes = np.random.randn(n_amostras, n_fatores_latentes)

# Matriz de carregamentos (como cada fator afeta cada dimens√£o)
carregamentos = np.random.randn(n_fatores_latentes, n_dimensoes)

# Gerar dados de alta dimensionalidade
dados_alta_dim = fatores_latentes @ carregamentos + 0.1 * np.random.randn(n_amostras, n_dimensoes)

print(f"üìä Dados de alta dimensionalidade criados:")
print(f"üìè Dimens√µes originais: {dados_alta_dim.shape}")
print(f"üéØ Fatores latentes reais: {n_fatores_latentes}")

# Centralizar os dados (importante para PCA/SVD)
dados_centralizados = dados_alta_dim - np.mean(dados_alta_dim, axis=0)

# Aplicar SVD
U_dim, sigma_dim, Vt_dim = np.linalg.svd(dados_centralizados, full_matrices=False)

# Calcular vari√¢ncia explicada por cada componente
variancia_explicada = (sigma_dim**2) / np.sum(sigma_dim**2) * 100
variancia_acumulada = np.cumsum(variancia_explicada)

# Visualizar
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

# Vari√¢ncia explicada por componente
ax1.bar(range(1, 16), variancia_explicada[:15], alpha=0.7, color='skyblue')
ax1.bar(range(1, 6), variancia_explicada[:5], alpha=0.9, color='red', 
        label='5 primeiros (fatores reais)')
ax1.set_title('Vari√¢ncia Explicada por Componente')
ax1.set_xlabel('Componente')
ax1.set_ylabel('Vari√¢ncia Explicada (%)')
ax1.legend()
ax1.grid(True, alpha=0.3)

# Vari√¢ncia acumulada
ax2.plot(range(1, 21), variancia_acumulada[:20], 'bo-', linewidth=2)
ax2.axhline(y=95, color='red', linestyle='--', alpha=0.7, label='95% da vari√¢ncia')
ax2.axvline(x=5, color='green', linestyle='--', alpha=0.7, label='5 componentes (real)')
ax2.set_title('Vari√¢ncia Explicada Acumulada')
ax2.set_xlabel('N√∫mero de Componentes')
ax2.set_ylabel('Vari√¢ncia Acumulada (%)')
ax2.legend()
ax2.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print(f"\nüéØ Os primeiros 5 componentes explicam {variancia_acumulada[4]:.1f}% da vari√¢ncia!")
print(f"üéâ Reduzimos de {n_dimensoes} para 5 dimens√µes mantendo quase toda informa√ß√£o!")

## 7. üî• Exerc√≠cio Pr√°tico: Netflix Simplificado

Agora √© sua vez! Vamos criar um mini-Netflix usando SVD! üçø

**üéØ Seu Desafio:**
1. Complete o c√≥digo para criar um sistema de recomenda√ß√£o
2. Teste diferentes n√∫meros de componentes
3. Avalie a qualidade das predi√ß√µes
4. Fa√ßa recomenda√ß√µes para um usu√°rio espec√≠fico

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/algebra-linear-para-ia-modulo-09_img_02.png)

In [None]:
# üé¨ EXERC√çCIO: Construa seu pr√≥prio Netflix!

# Dados do mini-Netflix
filmes = ['A√ß√£o 1', 'A√ß√£o 2', 'Romance 1', 'Romance 2', 'Com√©dia 1', 'Com√©dia 2', 'Terror 1', 'Terror 2']
usuarios = ['Alice', 'Bob', 'Carol', 'David', 'Eva']

# Matriz de avalia√ß√µes (5 usu√°rios x 8 filmes, escala 1-5, NaN = n√£o assistiu)
avaliacoes = np.array([
    [5, 4, 1, 2, 3, 3, 1, 1],  # Alice: gosta de a√ß√£o, n√£o gosta de terror
    [4, 5, 2, 1, 4, 4, 2, 1],  # Bob: a√ß√£o e com√©dia
    [1, 2, 5, 4, 2, 3, 1, 2],  # Carol: romance
    [2, 1, 4, 5, 1, 2, 4, 5],  # David: romance e terror
    [3, 4, 3, 2, 5, 4, 2, 1],  # Eva: com√©dia
], dtype=float)

# Simular dados faltantes (alguns filmes n√£o foram assistidos)
np.random.seed(42)
mascara_faltantes = np.random.random(avaliacoes.shape) < 0.3  # 30% de dados faltantes
avaliacoes_com_faltantes = avaliacoes.copy()
avaliacoes_com_faltantes[mascara_faltantes] = np.nan

print("üé¨ Mini-Netflix Dataset:")
print("\nAvalia√ß√µes observadas (NaN = n√£o assistiu):")
df_avaliacoes = pd.DataFrame(avaliacoes_com_faltantes, index=usuarios, columns=filmes)
print(df_avaliacoes)

# TODO: Complete as fun√ß√µes abaixo!

def preencher_dados_faltantes(matriz):
    """
    Preenche dados faltantes com a m√©dia de cada filme
    TODO: Implemente esta fun√ß√£o!
    """
    # Sua implementa√ß√£o aqui
    matriz_preenchida = matriz.copy()
    for j in range(matriz.shape[1]):
        coluna = matriz[:, j]
        media = np.nanmean(coluna)
        matriz_preenchida[np.isnan(coluna), j] = media
    return matriz_preenchida

def aplicar_svd_recomendacao(matriz, k=2):
    """
    Aplica SVD e reconstr√≥i matriz com k componentes
    TODO: Complete esta fun√ß√£o!
    """
    # Preencher dados faltantes
    matriz_preenchida = preencher_dados_faltantes(matriz)
    
    # Aplicar SVD
    U, sigma, Vt = np.linalg.svd(matriz_preenchida, full_matrices=False)
    
    # Reconstruir com k componentes
    matriz_reconstruida = U[:, :k] @ np.diag(sigma[:k]) @ Vt[:k, :]
    
    return matriz_reconstruida, sigma

# Testar sua implementa√ß√£o
predicoes, valores_singulares = aplicar_svd_recomendacao(avaliacoes_com_faltantes, k=3)

print("\nüîÆ Predi√ß√µes do sistema:")
df_predicoes = pd.DataFrame(np.round(predicoes, 2), index=usuarios, columns=filmes)
print(df_predicoes)

print(f"\nüìä Valores singulares: {np.round(valores_singulares, 2)}")

In [None]:
# üéØ PARTE 2 DO EXERC√çCIO: An√°lise e Recomenda√ß√µes

def recomendar_filmes(usuario_idx, avaliacoes_originais, predicoes, filmes, top_k=3):
    """
    Recommenda filmes que o usu√°rio n√£o assistiu
    TODO: Complete esta fun√ß√£o!
    """
    # Identificar filmes n√£o assistidos (eram NaN)
    nao_assistidos = np.isnan(avaliacoes_originais[usuario_idx])
    
    # Pegar predi√ß√µes para filmes n√£o assistidos
    predicoes_nao_assistidos = predicoes[usuario_idx][nao_assistidos]
    filmes_nao_assistidos = np.array(filmes)[nao_assistidos]
    
    # Ordenar por predi√ß√£o (maior para menor)
    indices_ordenados = np.argsort(predicoes_nao_assistidos)[::-1]
    
    # Retornar top k recomenda√ß√µes
    top_filmes = filmes_nao_assistidos[indices_ordenados[:top_k]]
    top_predicoes = predicoes_nao_assistidos[indices_ordenados[:top_k]]
    
    return list(zip(top_filmes, top_predicoes))

# Testar recomenda√ß√µes para cada usu√°rio
print("üé¨ RECOMENDA√á√ïES PERSONALIZADAS:")
print("=" * 50)

for i, usuario in enumerate(usuarios):
    recomendacoes = recomendar_filmes(i, avaliacoes_com_faltantes, predicoes, filmes)
    
    print(f"\nüë§ {usuario}:")
    print(f"   Filmes j√° assistidos: {[filmes[j] for j in range(len(filmes)) if not np.isnan(avaliacoes_com_faltantes[i, j])]}")
    print(f"   üî• Recomenda√ß√µes:")
    for j, (filme, predicao) in enumerate(recomendacoes, 1):
        print(f"      {j}. {filme} (predi√ß√£o: {predicao:.2f})")

# Visualizar matriz de correla√ß√£o dos padr√µes encontrados
plt.figure(figsize=(12, 8))

plt.subplot(2, 2, 1)
sns.heatmap(avaliacoes, annot=True, cmap='RdYlBu_r', center=3, 
            xticklabels=filmes, yticklabels=usuarios, cbar_kws={'label': 'Avalia√ß√£o'})
plt.title('Matriz Real (sem dados faltantes)')

plt.subplot(2, 2, 2)
sns.heatmap(predicoes, annot=True, fmt='.1f', cmap='RdYlBu_r', center=3,
            xticklabels=filmes, yticklabels=usuarios, cbar_kws={'label': 'Predi√ß√£o'})
plt.title('Predi√ß√µes SVD')

plt.subplot(2, 2, 3)
plt.bar(range(len(valores_singulares)), valores_singulares, alpha=0.7)
plt.title('Valores Singulares (Fatores Latentes)')
plt.xlabel('Componente')
plt.ylabel('Valor Singular')

plt.subplot(2, 2, 4)
# Erro por usu√°rio
erros_usuario = []
for i in range(len(usuarios)):
    mask_observados = ~np.isnan(avaliacoes_com_faltantes[i])
    if np.any(mask_observados):
        erro = np.mean(np.abs(avaliacoes[i][mask_observados] - predicoes[i][mask_observados]))
        erros_usuario.append(erro)
    else:
        erros_usuario.append(0)

plt.bar(usuarios, erros_usuario, alpha=0.7, color='orange')
plt.title('Erro M√©dio por Usu√°rio')
plt.ylabel('MAE (Mean Absolute Error)')
plt.xticks(rotation=45)

plt.tight_layout()
plt.show()

print(f"\nüéâ Parab√©ns! Voc√™ criou seu pr√≥prio sistema de recomenda√ß√£o!")
print(f"üìä Erro m√©dio geral: {np.mean(erros_usuario):.3f}")

## 8. üöÄ SVD Truncada: Otimizando para Big Data

Quando seus dados s√£o ENORMES (tipo Instagram com bilh√µes de fotos), a SVD cl√°ssica pode ser lenta demais. Entra em cena a **SVD Truncada**! ‚ö°

### ü§î O Que √â?

Em vez de calcular TODOS os valores singulares, calculamos apenas os $k$ maiores:
- **SVD Completa**: $O(min(m^2n, mn^2))$ - muito lenta!
- **SVD Truncada**: $O(k \cdot min(m,n))$ - muito mais r√°pida!

### üîß Implementa√ß√µes Populares
- **scikit-learn**: `TruncatedSVD`
- **scipy**: `svds` (sparse SVD)
- **randomized SVD**: Para matrizes muito grandes

**üéØ Dica do Pedro:** Para dados reais, sempre use SVD truncada! √â como pedir apenas as fatias mais gostosas da pizza em vez de comer a pizza inteira! üçï

In [None]:
# Comparando SVD completa vs truncada
from sklearn.decomposition import TruncatedSVD
from scipy.sparse.linalg import svds
import time

# Criar matriz grande para testar performance
np.random.seed(42)
m, n = 1000, 500
matriz_grande = np.random.randn(m, n)

print(f"üî• Testando performance em matriz {m}x{n}")
print("=" * 50)

# 1. SVD completa (NumPy)
start_time = time.time()
U_completa, sigma_completa, Vt_completa = np.linalg.svd(matriz_grande, full_matrices=False)
tempo_completa = time.time() - start_time

print(f"‚è±Ô∏è SVD Completa (NumPy): {tempo_completa:.3f}s")
print(f"üìä Componentes calculados: {len(sigma_completa)}")

# 2. SVD truncada (scikit-learn)
k = 50  # Queremos apenas 50 componentes
start_time = time.time()
svd_truncada = TruncatedSVD(n_components=k, random_state=42)
U_truncada = svd_truncada.fit_transform(matriz_grande)
sigma_truncada = svd_truncada.singular_values_
Vt_truncada = svd_truncada.components_
tempo_truncada = time.time() - start_time

print(f"‚ö° SVD Truncada (sklearn): {tempo_truncada:.3f}s")
print(f"üìä Componentes calculados: {k}")
print(f"üöÄ Speedup: {tempo_completa/tempo_truncada:.1f}x mais r√°pida!")

# 3. Comparar precis√£o dos valores singulares
erro_valores = np.abs(sigma_completa[:k] - sigma_truncada)
print(f"\nüéØ Erro m√©dio nos valores singulares: {np.mean(erro_valores):.6f}")
print(f"üìà Erro m√°ximo: {np.max(erro_valores):.6f}")

# Visualizar compara√ß√£o
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

# Comparar valores singulares
ax1.plot(sigma_completa[:k], 'b-', linewidth=2, label='SVD Completa', alpha=0.7)
ax1.plot(sigma_truncada, 'r--', linewidth=2, label='SVD Truncada', alpha=0.7)
ax1.set_title('Compara√ß√£o dos Valores Singulares')
ax1.set_xlabel('Componente')
ax1.set_ylabel('Valor Singular')
ax1.legend()
ax1.grid(True, alpha=0.3)

# Comparar tempos
metodos = ['SVD\nCompleta', 'SVD\nTruncada']
tempos = [tempo_completa, tempo_truncada]
cores = ['blue', 'red']

bars = ax2.bar(metodos, tempos, color=cores, alpha=0.7)
ax2.set_title('Compara√ß√£o de Performance')
ax2.set_ylabel('Tempo (segundos)')

# Adicionar valores nas barras
for bar, tempo in zip(bars, tempos):
    height = bar.get_height()
    ax2.text(bar.get_x() + bar.get_width()/2., height + 0.01,
             f'{tempo:.3f}s', ha='center', va='bottom')

plt.tight_layout()
plt.show()

print(f"\nüí° Vari√¢ncia explicada pelos {k} componentes: {svd_truncada.explained_variance_ratio_.sum()*100:.1f}%")

## 9. üé≠ Interpretando os Fatores Latentes

Uma das partes mais legais da SVD √© tentar entender o que os fatores latentes representam! √â como ser um detetive matem√°tico! üïµÔ∏è‚Äç‚ôÇÔ∏è

### üîç O Que Procurar?

1. **Padr√µes nos vetores singulares**: Quais vari√°veis t√™m pesos altos juntas?
2. **Magnitude dos valores singulares**: Qu√£o importante √© cada fator?
3. **Interpreta√ß√£o do dom√≠nio**: O que faz sentido no contexto dos dados?

### üé¨ Exemplo: Sistema de Filmes
- **Fator 1**: Pode ser "A√ß√£o vs Romance"
- **Fator 2**: Pode ser "Mainstream vs Indie"
- **Fator 3**: Pode ser "Cl√°ssico vs Moderno"

**üéØ Dica do Pedro:** Os fatores latentes s√£o como "DNA dos dados" - capturam a ess√™ncia que nossos olhos n√£o conseguem ver diretamente!

In [None]:
# Vamos criar um exemplo mais elaborado para interpretar fatores latentes
# Simulando dados de avalia√ß√£o de produtos com caracter√≠sticas conhecidas

np.random.seed(42)

# Produtos com caracter√≠sticas conhecidas
produtos = {
    'iPhone': [9, 2, 8, 9, 7],      # [tecnologia, pre√ßo_baixo, design, marca, durabilidade]
    'Samsung': [8, 3, 7, 7, 8],
    'Xiaomi': [7, 8, 6, 5, 6],
    'Motorola': [6, 7, 5, 6, 7],
    'Notebook_Gaming': [9, 1, 6, 8, 8],
    'Notebook_Basico': [4, 9, 4, 4, 5],
    'Tablet_Pro': [8, 2, 9, 8, 7],
    'Tablet_Kids': [3, 8, 5, 3, 6],
    'Smartwatch': [7, 4, 8, 7, 6],
    'Fones_Premium': [6, 2, 9, 9, 8]
}

caracteristicas = ['Tecnologia', 'Custo-Benef√≠cio', 'Design', 'Marca', 'Durabilidade']
nomes_produtos = list(produtos.keys())

# Converter para matriz
matriz_produtos = np.array(list(produtos.values()))

print("üõçÔ∏è Matriz de Caracter√≠sticas dos Produtos:")
df_produtos = pd.DataFrame(matriz_produtos, index=nomes_produtos, columns=caracteristicas)
print(df_produtos)

# Aplicar SVD
U_prod, sigma_prod, Vt_prod = np.linalg.svd(matriz_produtos, full_matrices=False)

print(f"\nüîç An√°lise SVD:")
print(f"üìä Valores singulares: {np.round(sigma_prod, 2)}")

# Analisar os primeiros fatores latentes
n_fatores = 3

fig, axes = plt.subplots(2, 2, figsize=(15, 12))

# 1. Import√¢ncia dos fatores
variancia_prod = (sigma_prod**2) / np.sum(sigma_prod**2) * 100
axes[0,0].bar(range(1, len(sigma_prod)+1), variancia_prod, alpha=0.7)
axes[0,0].set_title('Import√¢ncia dos Fatores Latentes')
axes[0,0].set_xlabel('Fator')
axes[0,0].set_ylabel('Vari√¢ncia Explicada (%)')
axes[0,0].grid(True, alpha=0.3)

# 2. Primeiro fator latente (caracter√≠sticas)
fator1_caract = Vt_prod[0, :]
cores = ['red' if x > 0 else 'blue' for x in fator1_caract]
axes[0,1].bar(caracteristicas, fator1_caract, color=cores, alpha=0.7)
axes[0,1].set_title('Fator 1: Carregamentos das Caracter√≠sticas')
axes[0,1].set_ylabel('Carregamento')
axes[0,1].tick_params(axis='x', rotation=45)
axes[0,1].grid(True, alpha=0.3)

# 3. Primeiro fator latente (produtos)
fator1_prod = U_prod[:, 0] * sigma_prod[0]
cores_prod = ['red' if x > 0 else 'blue' for x in fator1_prod]
axes[1,0].barh(nomes_produtos, fator1_prod, color=cores_prod, alpha=0.7)
axes[1,0].set_title('Fator 1: Scores dos Produtos')
axes[1,0].set_xlabel('Score do Fator')
axes[1,0].grid(True, alpha=0.3)

# 4. Visualiza√ß√£o 2D dos primeiros dois fatores
fator1_prod = U_prod[:, 0] * sigma_prod[0]
fator2_prod = U_prod[:, 1] * sigma_prod[1]

axes[1,1].scatter(fator1_prod, fator2_prod, s=100, alpha=0.7)
for i, produto in enumerate(nomes_produtos):
    axes[1,1].annotate(produto, (fator1_prod[i], fator2_prod[i]), 
                      xytext=(5, 5), textcoords='offset points', fontsize=8)
axes[1,1].set_title('Produtos no Espa√ßo dos 2 Primeiros Fatores')
axes[1,1].set_xlabel(f'Fator 1 ({variancia_prod[0]:.1f}% var)')
axes[1,1].set_ylabel(f'Fator 2 ({variancia_prod[1]:.1f}% var)')
axes[1,1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Interpreta√ß√£o dos fatores
print("\nüé≠ INTERPRETA√á√ÉO DOS FATORES LATENTES:")
print("=" * 50)

for i in range(min(3, len(sigma_prod))):
    print(f"\nüîç FATOR {i+1} ({variancia_prod[i]:.1f}% da vari√¢ncia):")
    
    # Caracter√≠sticas mais importantes
    carregamentos = Vt_prod[i, :]
    indices_ordenados = np.argsort(np.abs(carregamentos))[::-1]
    
    print("   Caracter√≠sticas mais relevantes:")
    for j in indices_ordenados[:3]:
        sinal = '+' if carregamentos[j] > 0 else '-'
        print(f"   {sinal} {caracteristicas[j]}: {carregamentos[j]:.3f}")
    
    # Produtos extremos
    scores_produtos = U_prod[:, i] * sigma_prod[i]
    produto_max = np.argmax(scores_produtos)
    produto_min = np.argmin(scores_produtos)
    
    print(f"   Produto mais positivo: {nomes_produtos[produto_max]} ({scores_produtos[produto_max]:.3f})")
    print(f"   Produto mais negativo: {nomes_produtos[produto_min]} ({scores_produtos[produto_min]:.3f})")

print("\nüéâ Liiindo! Conseguimos descobrir os fatores que diferenciam os produtos!")

## 10. ‚ö° Exerc√≠cio Desafio: An√°lise de Sentimentos

Agora o desafio final! Vamos usar SVD para an√°lise de sentimentos em reviews! üé≠

**üéØ Seu Objetivo:**
1. Criar uma matriz termo-documento
2. Aplicar SVD para encontrar t√≥picos latentes
3. Classificar sentimentos usando os fatores encontrados
4. Interpretar os t√≥picos descobertos

**üîß Dicas:**
- Use bag-of-words ou TF-IDF
- Experimente diferentes n√∫meros de componentes
- Visualize os t√≥picos encontrados

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/algebra-linear-para-ia-modulo-09_img_03.png)

In [None]:
# üé≠ DESAFIO: An√°lise de Sentimentos com SVD

# Dataset sint√©tico de reviews de filmes
reviews = {
    "Filme incr√≠vel, adorei a hist√≥ria e os personagens!": 1,  # Positivo
    "Excelente cinematografia, muito bem dirigido.": 1,
    "Hist√≥ria emocionante, chorei no final.": 1,
    "√ìtimos efeitos especiais, recomendo!": 1,
    "Perfeito para assistir com a fam√≠lia.": 1,
    "Filme horr√≠vel, hist√≥ria sem sentido.": 0,  # Negativo
    "Muito chato, quase dormi no cinema.": 0,
    "P√©ssimos atores, roteiro terr√≠vel.": 0,
    "Waste de tempo, n√£o recomendo.": 0,
    "Boring e previs√≠vel demais.": 0,
    "Filme mediano, alguns momentos bons.": 1,  # Neutro/Positivo
    "Hist√≥ria interessante mas execu√ß√£o fraca.": 0,  # Neutro/Negativo
}

textos = list(reviews.keys())
sentimentos = list(reviews.values())

print(f"üìù Dataset de Reviews:")
print(f"Total de reviews: {len(textos)}")
print(f"Positivos: {sum(sentimentos)}, Negativos: {len(sentimentos) - sum(sentimentos)}")

# TODO: Implemente as fun√ß√µes abaixo!

def criar_vocabulario(textos):
    """
    Cria vocabul√°rio b√°sico removendo pontua√ß√£o e convertendo para min√∫sculas
    TODO: Complete esta fun√ß√£o
    """
    import re
    vocabulario = set()
    
    for texto in textos:
        # Remover pontua√ß√£o e converter para min√∫sculas
        palavras = re.findall(r'\b\w+\b', texto.lower())
        vocabulario.update(palavras)
    
    return sorted(list(vocabulario))

def criar_matriz_termo_documento(textos, vocabulario):
    """
    Cria matriz termo-documento (bag of words)
    TODO: Complete esta fun√ß√£o
    """
    import re
    matriz = np.zeros((len(textos), len(vocabulario)))
    
    for i, texto in enumerate(textos):
        palavras = re.findall(r'\b\w+\b', texto.lower())
        for palavra in palavras:
            if palavra in vocabulario:
                j = vocabulario.index(palavra)
                matriz[i, j] += 1
    
    return matriz

# Criar representa√ß√£o vetorial dos textos
vocab = criar_vocabulario(textos)
matriz_docs = criar_matriz_termo_documento(textos, vocab)

print(f"\nüî§ Vocabul√°rio criado:")
print(f"Tamanho do vocabul√°rio: {len(vocab)}")
print(f"Primeiras 10 palavras: {vocab[:10]}")
print(f"\nüìä Matriz termo-documento: {matriz_docs.shape}")
print(f"Densidade: {np.count_nonzero(matriz_docs) / matriz_docs.size * 100:.1f}% (palavras √∫nicas)")

# Aplicar SVD
U_text, sigma_text, Vt_text = np.linalg.svd(matriz_docs, full_matrices=False)

print(f"\nüîç SVD aplicada:")
print(f"Componentes: {len(sigma_text)}")
print(f"Valores singulares: {np.round(sigma_text[:5], 2)}")

In [None]:
# An√°lise dos t√≥picos encontrados pela SVD

def analisar_topicos_svd(Vt, vocabulario, n_topicos=3, n_palavras=5):
    """
    Analisa os t√≥picos latentes encontrados pela SVD
    TODO: Complete esta fun√ß√£o
    """
    print("üé≠ T√ìPICOS LATENTES DESCOBERTOS PELA SVD:")
    print("=" * 50)
    
    for i in range(min(n_topicos, Vt.shape[0])):
        print(f"\nüìã T√≥pico {i+1}:")
        
        # Palavras com maior peso positivo
        carregamentos = Vt[i, :]
        indices_pos = np.argsort(carregamentos)[::-1][:n_palavras]
        indices_neg = np.argsort(carregamentos)[:n_palavras]
        
        print("   Palavras mais positivas:")
        for idx in indices_pos:
            if carregamentos[idx] > 0:
                print(f"   + {vocabulario[idx]}: {carregamentos[idx]:.3f}")
        
        print("   Palavras mais negativas:")
        for idx in indices_neg:
            if carregamentos[idx] < 0:
                print(f"   - {vocabulario[idx]}: {carregamentos[idx]:.3f}")

# Analisar t√≥picos
analisar_topicos_svd(Vt_text, vocab, n_topicos=3)

# Projetar documentos no espa√ßo latente
n_componentes = 2
documentos_projetados = U_text[:, :n_componentes] @ np.diag(sigma_text[:n_componentes])

# Visualizar documentos no espa√ßo latente
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

# Scatter plot dos documentos
cores = ['red' if s == 0 else 'blue' for s in sentimentos]
labels = ['Negativo' if s == 0 else 'Positivo' for s in sentimentos]

scatter = ax1.scatter(documentos_projetados[:, 0], documentos_projetados[:, 1], 
                     c=cores, s=100, alpha=0.7)

# Adicionar labels aos pontos
for i, (x, y) in enumerate(documentos_projetados):
    ax1.annotate(f'Doc{i+1}', (x, y), xytext=(5, 5), 
                textcoords='offset points', fontsize=8)

ax1.set_title('Documentos no Espa√ßo Latente SVD')
ax1.set_xlabel('Componente 1 (T√≥pico Principal)')
ax1.set_ylabel('Componente 2 (Segundo T√≥pico)')
ax1.grid(True, alpha=0.3)

# Criar legenda manual
from matplotlib.patches import Patch
legend_elements = [Patch(facecolor='red', label='Negativo'),
                  Patch(facecolor='blue', label='Positivo')]
ax1.legend(handles=legend_elements)

# Import√¢ncia dos componentes
variancia_text = (sigma_text**2) / np.sum(sigma_text**2) * 100
ax2.bar(range(1, min(8, len(sigma_text)+1)), variancia_text[:min(7, len(variancia_text))], 
        alpha=0.7, color='green')
ax2.set_title('Import√¢ncia dos T√≥picos Latentes')
ax2.set_xlabel('T√≥pico')
ax2.set_ylabel('Vari√¢ncia Explicada (%)')
ax2.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Avaliar separa√ß√£o dos sentimentos
print(f"\nüéØ AN√ÅLISE DE SEPARA√á√ÉO:")
media_pos = np.mean(documentos_projetados[np.array(sentimentos) == 1], axis=0)
media_neg = np.mean(documentos_projetados[np.array(sentimentos) == 0], axis=0)

print(f"üìä Centro dos positivos: [{media_pos[0]:.3f}, {media_pos[1]:.3f}]")
print(f"üìä Centro dos negativos: [{media_neg[0]:.3f}, {media_neg[1]:.3f}]")
print(f"üìè Dist√¢ncia entre centros: {np.linalg.norm(media_pos - media_neg):.3f}")

if np.linalg.norm(media_pos - media_neg) > 1:
    print("üéâ Excelente! SVD conseguiu separar bem os sentimentos!")
else:
    print("ü§î SVD teve dificuldade em separar os sentimentos neste dataset simples.")

print(f"\nüí° O primeiro componente explica {variancia_text[0]:.1f}% da vari√¢ncia!")
print(f"üí° Os dois primeiros explicam {variancia_text[0] + variancia_text[1]:.1f}% da vari√¢ncia!")

## 11. üîÑ SVD vs PCA vs NMF: O Confronto dos Gigantes

Antes de encerrar, vamos comparar a SVD com outras t√©cnicas de decomposi√ß√£o! √â como um UFC da matem√°tica! ü•ä

### ü•ä SVD vs PCA vs NMF

| T√©cnica | Quando Usar | Vantagens | Desvantagens |
|---------|-------------|-----------|-------------|
| **SVD** | Qualquer matriz, sistemas de recomenda√ß√£o | Universal, precisa | Pode ser lenta |
| **PCA** | Redu√ß√£o de dimensionalidade, an√°lise de vari√¢ncia | Interpret√°vel, eficiente | S√≥ matrizes quadradas de covari√¢ncia |
| **NMF** | Dados n√£o-negativos, t√≥picos em texto | Componentes interpret√°veis | S√≥ dados ‚â• 0 |

### üéØ Conex√µes Matem√°ticas

- **PCA ‚âà SVD** da matriz de covari√¢ncia
- **SVD** √© mais geral que PCA
- **NMF** for√ßa positividade nos componentes

**üéØ Dica do Pedro:** SVD √© como um canivete su√≠√ßo - resolve quase tudo. PCA √© especialista em vari√¢ncia. NMF √© perfeito quando voc√™ quer componentes que fazem sentido intuitivo (como ingredientes de uma receita)!

In [None]:
# Compara√ß√£o pr√°tica: SVD vs PCA vs NMF
from sklearn.decomposition import PCA, NMF
from sklearn.preprocessing import StandardScaler

# Criar dados teste (imagem simples)
np.random.seed(42)
n_pixels = 100
imagem_teste = np.random.exponential(2, (n_pixels, n_pixels))  # Dados n√£o-negativos

# Adicionar alguns padr√µes estruturados
x, y = np.meshgrid(np.linspace(0, 10, n_pixels), np.linspace(0, 10, n_pixels))
padrao1 = 5 * np.exp(-((x-3)**2 + (y-3)**2) / 4)  # Gaussiana
padrao2 = 3 * np.exp(-((x-7)**2 + (y-7)**2) / 6)  # Outra gaussiana
imagem_teste += padrao1 + padrao2

print(f"üñºÔ∏è Imagem teste criada: {imagem_teste.shape}")
print(f"üìä Min: {imagem_teste.min():.2f}, Max: {imagem_teste.max():.2f}")

# Aplicar as tr√™s t√©cnicas
n_components = 10

# 1. SVD
start_time = time.time()
U_comp, sigma_comp, Vt_comp = np.linalg.svd(imagem_teste, full_matrices=False)
imagem_svd = U_comp[:, :n_components] @ np.diag(sigma_comp[:n_components]) @ Vt_comp[:n_components, :]
tempo_svd = time.time() - start_time

# 2. PCA (aplicado nas linhas da imagem)
start_time = time.time()
pca = PCA(n_components=n_components)
scaler = StandardScaler()
imagem_scaled = scaler.fit_transform(imagem_teste)
componentes_pca = pca.fit_transform(imagem_scaled)
imagem_pca = scaler.inverse_transform(pca.inverse_transform(componentes_pca))
tempo_pca = time.time() - start_time

# 3. NMF (Non-negative Matrix Factorization)
start_time = time.time()
nmf = NMF(n_components=n_components, random_state=42, max_iter=1000)
componentes_nmf = nmf.fit_transform(imagem_teste)
imagem_nmf = componentes_nmf @ nmf.components_
tempo_nmf = time.time() - start_time

# Calcular erros de reconstru√ß√£o
erro_svd = np.linalg.norm(imagem_teste - imagem_svd)
erro_pca = np.linalg.norm(imagem_teste - imagem_pca)
erro_nmf = np.linalg.norm(imagem_teste - imagem_nmf)

print(f"\n‚ö° COMPARA√á√ÉO DE PERFORMANCE:")
print(f"{'M√©todo':<8} {'Tempo (ms)':<12} {'Erro Recons.':<15} {'RMSE':<10}")
print("-" * 50)
print(f"{'SVD':<8} {tempo_svd*1000:<12.1f} {erro_svd:<15.3f} {erro_svd/np.sqrt(imagem_teste.size):<10.4f}")
print(f"{'PCA':<8} {tempo_pca*1000:<12.1f} {erro_pca:<15.3f} {erro_pca/np.sqrt(imagem_teste.size):<10.4f}")
print(f"{'NMF':<8} {tempo_nmf*1000:<12.1f} {erro_nmf:<15.3f} {erro_nmf/np.sqrt(imagem_teste.size):<10.4f}")

# Visualizar resultados
fig, axes = plt.subplots(2, 2, figsize=(12, 12))

# Original
im1 = axes[0,0].imshow(imagem_teste, cmap='viridis')
axes[0,0].set_title('Original')
axes[0,0].axis('off')
plt.colorbar(im1, ax=axes[0,0], fraction=0.046, pad=0.04)

# SVD
im2 = axes[0,1].imshow(imagem_svd, cmap='viridis')
axes[0,1].set_title(f'SVD (erro: {erro_svd:.1f})')
axes[0,1].axis('off')
plt.colorbar(im2, ax=axes[0,1], fraction=0.046, pad=0.04)

# PCA
im3 = axes[1,0].imshow(imagem_pca, cmap='viridis')
axes[1,0].set_title(f'PCA (erro: {erro_pca:.1f})')
axes[1,0].axis('off')
plt.colorbar(im3, ax=axes[1,0], fraction=0.046, pad=0.04)

# NMF
im4 = axes[1,1].imshow(imagem_nmf, cmap='viridis')
axes[1,1].set_title(f'NMF (erro: {erro_nmf:.1f})')
axes[1,1].axis('off')
plt.colorbar(im4, ax=axes[1,1], fraction=0.046, pad=0.04)

plt.suptitle(f'Compara√ß√£o: SVD vs PCA vs NMF ({n_components} componentes)', fontsize=14)
plt.tight_layout()
plt.show()

# Comparar vari√¢ncia explicada
var_svd = np.sum(sigma_comp[:n_components]**2) / np.sum(sigma_comp**2) * 100
var_pca = np.sum(pca.explained_variance_ratio_) * 100
var_nmf = 100 - (erro_nmf**2 / np.linalg.norm(imagem_teste)**2) * 100

print(f"\nüìä VARI√ÇNCIA EXPLICADA:")
print(f"SVD: {var_svd:.1f}%")
print(f"PCA: {var_pca:.1f}%")
print(f"NMF: {var_nmf:.1f}% (aproximado)")

print(f"\nüéØ Vencedor em precis√£o: {'SVD' if erro_svd <= min(erro_pca, erro_nmf) else 'PCA' if erro_pca <= erro_nmf else 'NMF'}")
print(f"üèÉ Vencedor em velocidade: {'SVD' if tempo_svd <= min(tempo_pca, tempo_nmf) else 'PCA' if tempo_pca <= tempo_nmf else 'NMF'}")

## 12. üéì Resumo: O Que Aprendemos Sobre SVD

Parab√©ns! Voc√™ completou uma jornada √©pica pela SVD! üéâ Vamos recapitular os pontos principais:

### üßÆ **Fundamentos Matem√°ticos**
- SVD decomp√µe qualquer matriz: $A = U \Sigma V^T$
- $U$: dire√ß√µes no espa√ßo das linhas
- $\Sigma$: import√¢ncia de cada dire√ß√£o (valores singulares)
- $V^T$: dire√ß√µes no espa√ßo das colunas

### üé® **Aplica√ß√µes Pr√°ticas**
- **Compress√£o de Imagens**: Mant√©m qualidade com menos dados
- **Sistemas de Recomenda√ß√£o**: Encontra padr√µes de prefer√™ncia
- **Redu√ß√£o de Dimensionalidade**: Remove ru√≠do, mant√©m informa√ß√£o
- **An√°lise de Texto**: Descobre t√≥picos latentes

### ‚ö° **Otimiza√ß√µes**
- **SVD Truncada**: Para datasets grandes
- **Randomized SVD**: Para matrizes enormes
- **Sparse SVD**: Para dados esparsos

### üéØ **Dicas Importantes**
1. SVD sempre existe (diferente de eigendecomposition)
2. Valores singulares em ordem decrescente
3. Primeiros componentes capturam padr√µes principais
4. Trade-off entre compress√£o e qualidade

### üîÆ **Pr√≥ximos Passos**
No pr√≥ximo m√≥dulo, vamos mergulhar em **Autovetores e Autovalores** - os primos da SVD que s√£o essenciais para PCA!

**üéØ Dica Final do Pedro:** A SVD √© como um "raio-X matem√°tico" - ela revela a estrutura interna dos seus dados que voc√™ n√£o consegue ver a olho nu. Use com sabedoria e sempre experimente diferentes n√∫meros de componentes!

### üìö **Para Estudar Mais**
- Randomized SVD para Big Data
- SVD em sistemas de recomenda√ß√£o reais
- Conex√µes entre SVD e outras decomposi√ß√µes
- SVD para processamento de sinais

Liiindo! Agora voc√™ √© um expert em SVD! üöÄ‚ú®

In [None]:
# üéä PARAB√âNS! C√≥digo de celebra√ß√£o!
import matplotlib.patches as patches
from matplotlib.patches import FancyBboxPatch

fig, ax = plt.subplots(figsize=(12, 8))

# Criar visualiza√ß√£o de celebra√ß√£o
ax.text(0.5, 0.7, 'üéâ PARAB√âNS! üéâ', fontsize=40, ha='center', va='center', 
        transform=ax.transAxes, weight='bold')

ax.text(0.5, 0.5, 'Voc√™ dominou a SVD!', fontsize=24, ha='center', va='center',
        transform=ax.transAxes, style='italic')

# Estat√≠sticas do notebook
conceitos_aprendidos = [
    '‚úÖ Decomposi√ß√£o SVD matem√°tica',
    '‚úÖ Compress√£o de imagens',
    '‚úÖ Sistemas de recomenda√ß√£o', 
    '‚úÖ Redu√ß√£o de dimensionalidade',
    '‚úÖ An√°lise de sentimentos',
    '‚úÖ Interpreta√ß√£o de fatores latentes',
    '‚úÖ SVD vs PCA vs NMF',
    '‚úÖ Otimiza√ß√µes e truques'
]

y_start = 0.35
for i, conceito in enumerate(conceitos_aprendidos):
    ax.text(0.1, y_start - i*0.03, conceito, fontsize=12, 
            transform=ax.transAxes, va='center')

# Caixa de destaque
bbox = FancyBboxPatch((0.05, 0.05), 0.9, 0.4, 
                      boxstyle="round,pad=0.02", 
                      facecolor='lightblue', 
                      edgecolor='navy', 
                      alpha=0.3,
                      transform=ax.transAxes)
ax.add_patch(bbox)

ax.text(0.5, 0.25, 'üöÄ Pr√≥ximo Destino: Autovetores e Autovalores! üöÄ', 
        fontsize=16, ha='center', va='center', transform=ax.transAxes, 
        weight='bold', color='navy')

ax.text(0.5, 0.15, 'Voc√™ est√° preparado para descobrir os eixos de rota√ß√£o da IA!', 
        fontsize=14, ha='center', va='center', transform=ax.transAxes, 
        style='italic', color='navy')

ax.set_xlim(0, 1)
ax.set_ylim(0, 1)
ax.axis('off')

plt.tight_layout()
plt.show()

print("\n" + "="*60)
print("üéì M√ìDULO 9 CONCLU√çDO COM SUCESSO! üéì")
print("="*60)
print("üìä Voc√™ implementou:")
print("   ‚Ä¢ Sistema de recomenda√ß√£o completo")
print("   ‚Ä¢ Compressor de imagens")
print("   ‚Ä¢ Analisador de sentimentos")
print("   ‚Ä¢ Comparador de t√©cnicas de decomposi√ß√£o")
print("\nüèÜ Conquistas desbloqueadas:")
print("   ü•á Mestre da Decomposi√ß√£o SVD")
print("   ü•à Expert em Sistemas de Recomenda√ß√£o")
print("   ü•â Especialista em Compress√£o de Dados")
print("\nüéØ Pr√≥xima aventura: Autovetores e Autovalores!")
print("üìö Continue sua jornada na √Ålgebra Linear para IA!")
print("\n" + "="*60)
print("At√© o pr√≥ximo m√≥dulo! üëã")
print("- Pedro Guth")