# Questão ponderada: Álgebra linear na redução de dimensionalidade

A questão ponderada começa a partir da seção "Autovalores e autovetores da matriz de covariância". Tudo que vem antes foi feito para fins de aprendizagem.

In [1]:
import numpy as np

In [2]:
vector_gradient = [30, 25, 28, 20, 32]
vector_productivity = [20, 18, 22, 16, 25]

### Normalização

In [3]:
def normalize(vector):
  result_vector = []

  stardart_deviation = np.std(vector)
  for n in vector:
    result_vector.append((n - np.mean(vector)) / stardart_deviation)

  return result_vector

In [4]:
v1 = normalize(vector_gradient)
v1

[0.7150969419341942,
 -0.4767312946227961,
 0.23836564731139806,
 -1.6685595311797865,
 1.1918282365569903]

In [5]:
v2 = normalize(vector_productivity)
v2

[-0.06401843996644777,
 -0.7042028396309277,
 0.5761659596980321,
 -1.3443872392954075,
 1.536442559194752]

## Matriz de covariância

In [18]:
covariance_matrix = np.cov(v1, v2)

In [19]:
covariance_matrix

array([[1.25      , 1.12541002],
       [1.12541002, 1.25      ]])

# Autovalores e autovetores da matriz de covariância

In [20]:
covariance_matrix = [[4, 2], [2, 3]]

In [21]:
eigenvalues, eigenvectors = np.linalg.eig(covariance_matrix)

In [22]:
eigenvalues

array([5.56155281, 1.43844719])

In [23]:
eigenvectors

array([[ 0.78820544, -0.61541221],
       [ 0.61541221,  0.78820544]])

# Realizar uma Análise de Componentes Principais
Agora que temos os autovetores, eles formam as direções dos componentes principais. Ordenamos os componentes principais pela magnitude dos autovalores. O primeiro componente principal é aquele associado ao maior autovalor, pois explica a maior variância.

# Determinar a Proporção da Variância Explicada

A proporção da variância explicada por cada componente é dada pelo quociente entre o autovalor correspondente e a soma de todos os autovalores.

In [24]:
total = sum(eigenvalues)
variance_ratios = [(ev / total) for ev in eigenvalues]
variance_ratios

[0.7945075446869758, 0.20549245531302424]

# Redução de Dimensionalidade

Para reduzir a dimensionalidade, mantemos apenas os componentes principais que explicam a maior parte da variância, descartando aqueles com autovalores menores. Isso é útil em grandes conjuntos de dados para reduzir o número de variáveis e ainda assim capturar a maior parte da informação.