In [52]:
import numpy as np
from sklearn.decomposition import PCA
import pandas as pd

In [3]:
X = np.array([[75, 43, 17, 95, 9],
                [0, 22, 0, 70, 11],
                [55, 0, 4, 110, 0],
                [0, 0, 12, 0, 11],
                [0, 25, 0, 0, 19],
                [35, 40, 0, 0, 0],
                [135, 0, 5, 145, 25],
                [0, 40, 27, 180, 15],
                [75, 0, 0, 85, 0],
                [125, 32, 7, 0, 10]])

# Questão 1

In [4]:
A = np.dot(X.T, X)
A

array([[49350,  8625,  3045, 39125,  5300],
       [ 8625,  7182,  2035, 12825,  2024],
       [ 3045,  2035,  1252,  7640,   885],
       [39125, 12825,  7640, 86675,  7950],
       [ 5300,  2024,   885,  7950,  1634]])

Decomposição Espectral
$$A = \Gamma\Lambda\Gamma^T$$

$\Gamma$: Matriz de autovetores  
$\Lambda$: Matriz diagonal de autovalores

In [26]:
autovals, autovecs = np.linalg.eig(A)

Lambda = np.diag(autovals) # matriz diagonal de autovalores
Gamma = autovecs # matriz de autovetores

In [28]:
decomposicao = np.dot(np.dot(Gamma, Lambda), Gamma.T) # A = Gamma * Lambda * Gamma^T
decomposicao

array([[49350.,  8625.,  3045., 39125.,  5300.],
       [ 8625.,  7182.,  2035., 12825.,  2024.],
       [ 3045.,  2035.,  1252.,  7640.,   885.],
       [39125., 12825.,  7640., 86675.,  7950.],
       [ 5300.,  2024.,   885.,  7950.,  1634.]])

In [29]:
# comprovando que a decomposição é igual a matriz original
np.allclose(A, decomposicao)

True

In [23]:
S = np.cov(X.T)
S

array([[ 2.70555556e+03, -1.63888889e+02, -6.16666667e+01,
         5.41666667e+02,  3.33333333e+01],
       [-1.63888889e+02,  3.44622222e+02,  6.45111111e+01,
        -1.12444444e+02,  4.44444444e-01],
       [-6.16666667e+01,  6.45111111e+01,  8.15111111e+01,
         3.00888889e+02,  1.83333333e+01],
       [ 5.41666667e+02, -1.12444444e+02,  3.00888889e+02,
         4.41694444e+03,  1.22222222e+02],
       [ 3.33333333e+01,  4.44444444e-01,  1.83333333e+01,
         1.22222222e+02,  7.04444444e+01]])

In [31]:
autovals_S, autovecs_S = np.linalg.eig(S)

Lambda_S = np.diag(autovals_S) # matriz diagonal de autovalores
Gamma_S = autovecs_S # matriz de autovetores

In [32]:
decomposicao_S = np.dot(np.dot(Gamma_S, Lambda_S), Gamma_S.T) # S = Gamma * Lambda * Gamma^T
decomposicao_S

array([[ 2.70555556e+03, -1.63888889e+02, -6.16666667e+01,
         5.41666667e+02,  3.33333333e+01],
       [-1.63888889e+02,  3.44622222e+02,  6.45111111e+01,
        -1.12444444e+02,  4.44444444e-01],
       [-6.16666667e+01,  6.45111111e+01,  8.15111111e+01,
         3.00888889e+02,  1.83333333e+01],
       [ 5.41666667e+02, -1.12444444e+02,  3.00888889e+02,
         4.41694444e+03,  1.22222222e+02],
       [ 3.33333333e+01,  4.44444444e-01,  1.83333333e+01,
         1.22222222e+02,  7.04444444e+01]])

In [33]:
# comprovando que a decomposição é igual a matriz original
np.allclose(S, decomposicao_S)

True

# Questão 2

In [39]:
print(autovals)

[115056.09500004  24768.29407747   5193.5074843     368.83725172
    706.26618647]


os dois maiores autovalores são: 
- $\lambda_1 = 115056.09$  
- $\lambda_2 = 24768.29$

ou seja, serão os dois primeiros fatores

In [62]:
F = np.linalg.norm(autovecs, axis=1) # norma dos autovetores

C = autovecs[:, [0, 1]] #dois primeiros fatores
Fat = np.dot(X, C) # fatores
print(Fat) # vetores bidimensionais

[[-126.53337785  -12.75488628]
 [ -62.32276665   36.65403958]
 [-120.6133389    12.28578212]
 [  -1.82244183    0.62262027]
 [  -5.22744059   -0.70618658]
 [ -24.1053305   -30.3746639 ]
 [-193.8931581   -36.8531751 ]
 [-158.70778482   96.38169874]
 [-110.01801615  -18.13944316]
 [ -71.5213153  -105.88207386]]


In [77]:
# ordene os ângulos dos vetores o1, ..., o10 com relação ao eixo-x

angulos_radianos = np.arctan2(Fat[:, 1], Fat[:, 0]) # angulos em radianos
angulos_graus = np.degrees(angulos_radianos) # angulos em graus

indices = np.argsort(angulos_graus) # ordenando os angulos
vetores_ordenados = Fat[indices] # ordenando os vetores
angulos_ordenados = angulos_graus[indices] # ordenando os angulos

for i, (vetor, angulo) in enumerate(zip(vetores_ordenados, angulos_ordenados)):
    print(f'Vetor {i+1}: {vetor} - Ângulo: {angulo:.2f}°')

Vetor 1: [-126.53337785  -12.75488628] - Ângulo: -174.24°
Vetor 2: [-5.22744059 -0.70618658] - Ângulo: -172.31°
Vetor 3: [-110.01801615  -18.13944316] - Ângulo: -170.64°
Vetor 4: [-193.8931581  -36.8531751] - Ângulo: -169.24°
Vetor 5: [-24.1053305 -30.3746639] - Ângulo: -128.44°
Vetor 6: [ -71.5213153  -105.88207386] - Ângulo: -124.04°
Vetor 7: [-158.70778482   96.38169874] - Ângulo: 148.73°
Vetor 8: [-62.32276665  36.65403958] - Ângulo: 149.54°
Vetor 9: [-1.82244183  0.62262027] - Ângulo: 161.14°
Vetor 10: [-120.6133389    12.28578212] - Ângulo: 174.18°


In [80]:
def calcular_angulo(v1, v2):
    produto_escalar = np.dot(v1, v2)
    normas = np.linalg.norm(v1) * np.linalg.norm(v2)
    cos_theta = produto_escalar / normas
    # Garantir que o valor esteja no intervalo válido para arccos
    cos_theta = np.clip(cos_theta, -1, 1)
    angulo = np.arccos(cos_theta)
    return np.degrees(angulo)  # Convertendo para graus para facilitar a interpretação

# quais os dois clientes que possuem o menor e o maior ângulo entre eles no conjunto {o1, ..., o10}?

menor_angulo = np.inf
maior_angulo = -np.inf
clientes = None

for i in range(10):
    for j in range(i+1, 10):
        angulo = calcular_angulo(Fat[i], Fat[j])
        if angulo < menor_angulo:
            menor_angulo = angulo
            clientes_menor_angulo = (i, j)
        if angulo > maior_angulo:
            maior_angulo = angulo
            clientes_maior_angulo = (i, j)

print(f'Clientes com menor ângulo: {clientes_menor_angulo} - Ângulo: {menor_angulo:.2f}°')
print(f'Clientes com maior ângulo: {clientes_maior_angulo} - Ângulo: {maior_angulo:.2f}°')

Clientes com menor ângulo: (1, 7) - Ângulo: 0.81°
Clientes com maior ângulo: (7, 9) - Ângulo: 87.23°


In [81]:
# olhando para a matriz original X, calcule os angulos no R5 para os clientes do item anterior. 
# Teve semelhanças? Qual a interpretação do ângulo entre dois clientes?

clientes_menor_angulo = np.array(clientes_menor_angulo)
clientes_maior_angulo = np.array(clientes_maior_angulo)

vetores_menor_angulo = X[clientes_menor_angulo]
vetores_maior_angulo = X[clientes_maior_angulo]

angulo_menor = calcular_angulo(vetores_menor_angulo[0], vetores_menor_angulo[1])
angulo_maior = calcular_angulo(vetores_maior_angulo[0], vetores_maior_angulo[1])

print(f'Vetores dos clientes com menor ângulo: {vetores_menor_angulo}')
print(f'Ângulo entre os clientes com menor ângulo: {angulo_menor:.2f}°')

print(f'Vetores dos clientes com maior ângulo: {vetores_maior_angulo}')
print(f'Ângulo entre os clientes com maior ângulo: {angulo_maior:.2f}°')

Vetores dos clientes com menor ângulo: [[  0  22   0  70  11]
 [  0  40  27 180  15]]
Ângulo entre os clientes com menor ângulo: 10.37°
Vetores dos clientes com maior ângulo: [[  0  40  27 180  15]
 [125  32   7   0  10]]
Ângulo entre os clientes com maior ângulo: 86.17°


O ângulo entre dois vetores (clientes) pode ser interpretado como uma medida de sua similaridade. Um ângulo pequeno (próximo de 0) indica que os vetores são similares ou têm a mesma direção, sugerindo que os clientes têm características semelhantes. Um ângulo de 90 graus indica que os vetores são ortogonais (independentes), sugerindo que os clientes não compartilham características semelhantes. Um ângulo próximo de 180 graus indica que os vetores são opostos, sugerindo diferenças máximas entre as características dos clientes.

# Questão 3

In [49]:
X_centralizado = X - np.mean(X, axis=0)

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_centralizado)

print("Dois primeiros fatores (componentes principais) para os 10 clientes:\n", X_pca)

Dois primeiros fatores (componentes principais) para os 10 clientes:
 [[ 32.04635237  14.7813696 ]
 [-12.81253819 -48.00239105]
 [ 41.38494652  -5.20414137]
 [-78.40890902 -28.22880902]
 [-79.77600089 -28.99874589]
 [-71.18630027   3.67758625]
 [ 97.74626304  61.76671876]
 [ 93.6973055  -80.79379681]
 [ 22.70205116  21.04536286]
 [-45.39317021  89.95684668]]


In [83]:
# ordenar em ordem crescente os ângulos entre os vetores p_1, ..., p_10 e o eixo-x.
angulos_radianos_pca = np.arctan2(X_pca[:, 1], X_pca[:, 0]) # angulos em radianos
angulos_graus_pca = np.degrees(angulos_radianos_pca) # angulos em graus

indices_pca = np.argsort(angulos_graus_pca) # ordenando os angulos
vetores_ordenados_pca = X_pca[indices_pca] # ordenando os vetores
angulos_ordenados_pca = angulos_graus_pca[indices_pca] # ordenando os angulos

for i, (vetor, angulo) in enumerate(zip(vetores_ordenados_pca, angulos_ordenados_pca)):
    print(f'Vetor {i+1}: {vetor} - Ângulo: {angulo:.2f}°')

# quais os dois clientes que possuem o menor e o maior ângulo entre eles no conjunto {p_1, ..., p_10}?

menor_angulo_pca = np.inf
maior_angulo_pca = -np.inf
clientes_pca = None

for i in range(10):
    for j in range(i+1, 10):
        angulo = calcular_angulo(X_pca[i], X_pca[j])
        if angulo < menor_angulo_pca:
            menor_angulo_pca = angulo
            clientes_menor_angulo_pca = (i, j)
        if angulo > maior_angulo_pca:
            maior_angulo_pca = angulo
            clientes_maior_angulo_pca = (i, j)

print(f'Clientes com menor ângulo: {clientes_menor_angulo} - Ângulo: {menor_angulo:.2f}°')
print(f'Clientes com maior ângulo: {clientes_maior_angulo} - Ângulo: {maior_angulo:.2f}°')

Vetor 1: [-78.40890902 -28.22880902] - Ângulo: -160.20°
Vetor 2: [-79.77600089 -28.99874589] - Ângulo: -160.02°
Vetor 3: [-12.81253819 -48.00239105] - Ângulo: -104.94°
Vetor 4: [ 93.6973055  -80.79379681] - Ângulo: -40.77°
Vetor 5: [41.38494652 -5.20414137] - Ângulo: -7.17°
Vetor 6: [32.04635237 14.7813696 ] - Ângulo: 24.76°
Vetor 7: [97.74626304 61.76671876] - Ângulo: 32.29°
Vetor 8: [22.70205116 21.04536286] - Ângulo: 42.83°
Vetor 9: [-45.39317021  89.95684668] - Ângulo: 116.78°
Vetor 10: [-71.18630027   3.67758625] - Ângulo: 177.04°
Clientes com menor ângulo: [1 7] - Ângulo: 0.81°
Clientes com maior ângulo: [7 9] - Ângulo: 87.23°


In [84]:

# por fim, calcule o angulo entre os vetores dos clientes dos clientes no R5 que tiveram o menor e o maior angulo no R2
# (espaço dos dois primeiros fatores). Teve semelhanças?

clientes_menor_angulo_pca = np.array(clientes_menor_angulo_pca)
clientes_maior_angulo_pca = np.array(clientes_maior_angulo_pca)

vetores_menor_angulo_pca = X_pca[clientes_menor_angulo_pca]
vetores_maior_angulo_pca = X_pca[clientes_maior_angulo_pca]

angulo_menor_pca = calcular_angulo(vetores_menor_angulo_pca[0], vetores_menor_angulo_pca[1])
angulo_maior_pca = calcular_angulo(vetores_maior_angulo_pca[0], vetores_maior_angulo_pca[1])

print(f'Vetores dos clientes com menor ângulo: {vetores_menor_angulo_pca}')
print(f'Ângulo entre os clientes com menor ângulo: {angulo_menor_pca:.2f}°')

Vetores dos clientes com menor ângulo: [[-78.40890902 -28.22880902]
 [-79.77600089 -28.99874589]]
Ângulo entre os clientes com menor ângulo: 0.18°
