## Algoritmo PCA em Python 
##### *PCA (Principal Component Analysis)

Técnica de redução da dimensionalidade: transformar um conjunto de variáveis possilvemente correlacionadas em um conjunto de valores de variáveis linearmente não correlacionadas, chamadas de componentes principais. Este processo é realizado mantendo-se o máximo possível da variabilidade presente no conjunto de dados original.

#### PCA é especialmente útil em situações com dados de alta dimensionalidade (com muitas variáveis), onde a visualização e análise se tornam complexas.

- facilita a visualização de dados, a descoberta de padrões importantes e a redução do ruído, mantendo ao mesmo tempo as características mais significativas do conjunto de dados.
- útil: análise exploratória de dados, pré-processamento para algoritmos de Machine Learning, compressão de dados, etc.

#### Funcionamento do algortimo PCA pode ser descrito da seguinte maneira:

- Normalização dos Dados: Inicialmente os dados são normalmente padrozinizados, especialmente se as variáveis tem unidade de medida diferentes. Isso envolve subtrair a média e dividir pelo desvio padrão de cada variável.
- Cálculo da Matriz de Convariância: A matriz de covariância é calculada para entender como as variáveis no conjunto de dados estão variando em relação umas ás outras.
- Determinação de Autovalores e Autovetores: A partir da matriz de covariância são calculados os autovalores e autovetores. Os autovalores indicam a quantidade de variância que pode ser atribuída a cada autovetor ( ou componente principal).
- Seleção de Componentes Principais: Os componentes principais são selecionados com base na quantidade de variância que eles representam. Geralmente, escolhe-se um número de componentes que somam a maior parte da variância total, o que permite uma representação simplificada do conjunto de dados original.
- Transformação dos Dados:  Por fim os dados originais são tranformados em um novo conjunto de dados com base nos componentes principais selecionados.

#### Dataset: Quiz com respostas de 40 alunos com 49 perguntas (Dados fictícios)

Objetivo: reduzir a dimensionalidade do dataset, onde cada resposta representa uma varíavel, no caso queremos reduzir a quantidade de perguntas.

In [1]:
# Imports
import numpy as np
import pandas as pd

In [2]:
# Importando o dataset
df = pd.read_csv("dataset.csv", index_col=0)

In [3]:
df.shape

(40, 49)

In [4]:
df.head(10)

Unnamed: 0,186,295,321,337,464,469,502,506,563,931,...,1401,1402,1414,1422,1524,1551,1553,1559,1561,1568
NSCLC_A549_1,171210.5829,1246687.0,527193.487,411155.8781,59929.70461,49255.07973,171273.1364,159183.1286,663694.9741,35070.49713,...,95049.95991,1719464.0,645473.192,89954.00002,52983.82193,1672322.0,686730.5,259889.4715,1563879.0,189971.5111
NSCLC_H1703_2,204751.3591,1338013.0,571379.0841,486137.092,89261.66256,72052.72202,187464.2389,180000.614,443440.3745,89938.26439,...,131002.1274,829009.0,293504.7109,42264.73772,97472.8842,1608167.0,940825.2,363398.5823,304311.4,35762.79339
NSCLC_H1703_1,203558.4952,1040438.0,498460.6875,411052.8868,96002.36973,0.0,193894.4078,179518.9387,736672.9068,107041.3412,...,108827.848,854173.0,313811.6234,51125.12753,95633.56928,1931491.0,1086556.0,417606.081,436556.8,53865.65208
NSCLC_A549_2,245859.2006,1371136.0,153050.9373,495539.7034,81436.65785,85158.56741,0.0,186757.144,809830.2341,43565.82607,...,106003.5982,2037000.0,762600.1361,116878.2991,58497.52991,2077164.0,846116.7,328548.1739,1824857.0,243842.0526
NSCLC_H1437_1,214448.178,1107106.0,524333.567,484994.8797,92368.82235,69868.5498,181168.8533,0.0,635990.2172,51087.42828,...,83218.09256,1269266.0,459612.8875,64837.50435,0.0,943472.0,402230.0,153070.9443,374591.5,44104.41364
NSCLC_H2228_1,183191.6157,1174738.0,492585.8915,449578.4386,79716.72953,75515.06063,183437.4307,160558.7349,276662.4819,0.0,...,95778.0245,2198629.0,822515.6724,111458.2223,71137.63905,651840.9,324327.6,120577.9019,239850.4,26049.74665
NSCLC_H2228_2,175265.4691,1202537.0,534477.6418,411424.5102,78543.10781,73022.58488,188280.2568,166795.8967,279301.0355,0.0,...,80946.89867,2151175.0,801903.5808,111787.1274,73818.14014,983533.8,410931.9,158182.4198,480516.2,81599.98032
NSCLC_H1437_2,209841.9595,1227508.0,557683.282,439658.0081,85554.76639,53375.19676,180316.8659,162056.8933,480095.9724,39254.9881,...,74083.46712,1273900.0,474645.304,61945.54567,30605.31487,1056893.0,437782.2,169338.1717,448340.7,47908.89141
NSCLC_H3122_1,193689.119,897012.2,429777.7038,376694.1029,58148.61391,70389.01583,176004.3086,158849.0344,293541.8231,11293.18377,...,60621.49012,762510.4,274212.8825,0.0,11919.22697,999800.2,335671.1,125139.132,1894311.0,0.0
NSCLC_H322_2,182119.5458,976448.8,397898.3481,408685.133,89009.23679,74915.7233,194904.8565,181511.354,304541.2244,47592.74145,...,77568.36857,1694218.0,632915.1408,82073.82128,49384.36621,842417.9,258149.3,101574.0772,1193769.0,64014.81829


In [5]:
# Convertendo a matriz para o formato NumPy
df_matriz = df.to_numpy()

In [6]:
df_matriz.shape

(40, 49)

In [7]:
#Dados
df_matriz

array([[ 171210.5829 , 1246686.524  ,  527193.487  , ...,  259889.4715 ,
        1563879.456  ,  189971.5111 ],
       [ 204751.3591 , 1338013.461  ,  571379.0841 , ...,  363398.5823 ,
         304311.3998 ,   35762.79339],
       [ 203558.4952 , 1040438.105  ,  498460.6875 , ...,  417606.081  ,
         436556.8065 ,   53865.65208],
       ...,
       [ 204221.0677 , 1278411.147  ,  566328.7108 , ...,  148904.9146 ,
         708831.1396 ,  121367.7799 ],
       [ 175149.2572 , 1101994.558  ,  175843.386  , ...,  144382.0813 ,
          77809.90877,  287232.319  ],
       [ 225370.32   , 1407596.388  ,       0.     , ...,  115385.9564 ,
          61827.40414,  176777.0753 ]])

#### Implementação do PCA-Version 1

In [8]:
# Função com implementação do algoritmo PCA
def PCA_V1(input):
    
    # Calculando a média de cada coluna
    mean = np.mean(input, 0)
    
    # Subtraindo a média da matriz de entrada original
    normalised_input = np.subtract(input, mean)
    
    # Calculando a transposta da matriz normalizada
    normalised_input_transpose = np.transpose(normalised_input)
    
    # Número de amostras (linhas)
    num_of_samples = input.shape[0]
    
    # Multiplicando as matrizes e dividindo por "num_of_samples" para obter a matriz de covariância
    cov_mat = (np.dot(normalised_input_transpose, normalised_input)) / (num_of_samples)
    
    # Localizando autovalores and autovetores
    value, vector = np.linalg.eig(np.array(cov_mat))
    
    # Ordenando os autovetores de acordo com os autovalores
    index = value.argsort()[::-1]
    eigen_value = value[index]
    prin_component = vector[:,index]
    
    # Multiplicando matriz de componente principal com a matriz de dados de entrada para obter o PCA
    pca_output = np.dot(normalised_input, prin_component)

    return pca_output, eigen_value, prin_component, cov_mat

In [9]:
# Executando o PCA
pca_out, eigenval_v1, principal_component, cov_matrix = PCA_V1(df_matriz)

In [10]:
# Somando a variância explicada por 10 componentes principais
variancia_explicada_v1 = (eigenval_v1[0] / sum(eigenval_v1)) + \
                         (eigenval_v1[1] / sum(eigenval_v1)) + \
                         (eigenval_v1[2] / sum(eigenval_v1)) + \
                         (eigenval_v1[3] / sum(eigenval_v1)) + \
                         (eigenval_v1[4] / sum(eigenval_v1)) + \
                         (eigenval_v1[5] / sum(eigenval_v1)) + \
                         (eigenval_v1[6] / sum(eigenval_v1)) + \
                         (eigenval_v1[7] / sum(eigenval_v1)) + \
                         (eigenval_v1[8] / sum(eigenval_v1)) + \
                         (eigenval_v1[9] / sum(eigenval_v1)) 

In [11]:
# Convertendo para valor percentual
variancia_explicada_percentual = variancia_explicada_v1 * 100

In [12]:
print("Total de Variância dos Dados Explicada Por 10 Componentes Principais:", variancia_explicada_percentual)

Total de Variância dos Dados Explicada Por 10 Componentes Principais: (95.78350204185794+0j)


In [13]:
# Calculando a variância total
total_variance_v1 = sum(eigenval_v1)

In [14]:
# Calculando a variância explicada por cada componente principal
variance_explained_v1 = [(i / total_variance_v1) for i in eigenval_v1]

In [15]:
# Calculando a variância explicada acumulada
cumulative_variance_explained_v1 = np.cumsum(variance_explained_v1)

In [16]:
# Exibindo a variância explicada por cada um dos 10 primeiros componentes principais
variance_explained_v1[:10]

[(0.4006389994390449+0j),
 (0.14908971340570917+0j),
 (0.1299670987240649+0j),
 (0.09534871230146726+0j),
 (0.06440429234620818+0j),
 (0.038147042357559724+0j),
 (0.028828684990927906+0j),
 (0.02227699929068101+0j),
 (0.016360170455751843+0j),
 (0.012773307107164412+0j)]

In [17]:
# Exibindo a variância acumulada dos 10 primeiros componentes principais
cumulative_variance_explained_v1[:10]

array([0.400639  +0.j, 0.54972871+0.j, 0.67969581+0.j, 0.77504452+0.j,
       0.83944882+0.j, 0.87759586+0.j, 0.90642454+0.j, 0.92870154+0.j,
       0.94506171+0.j, 0.95783502+0.j])

Cerca de 96% da informação (variação) de 49 variáveis está representada em 10 componentes principais.

#### Implementação do PCA-Version 2

In [18]:
# Função com implementação do algoritmo PCA
def PCA_V2(input_data):
    
    # Calculando a média de cada coluna
    mean = np.mean(input_data, axis=0)
    
    # Subtraindo a média da matriz de entrada original
    normalised_input = input_data - mean
    
    # Calculando a matriz de covariância
    # A divisão é feita por (num_of_samples - 1) para a covariância da amostra
    cov_mat = np.cov(normalised_input, rowvar = False)
    
    # Localizando autovalores e autovetores usando uma função mais adequada para matrizes simétricas
    eigenvalues, eigenvectors = np.linalg.eigh(cov_mat)
    
    # Ordenando os autovetores de acordo com os autovalores em ordem decrescente
    sorted_indices = np.argsort(eigenvalues)[::-1]
    sorted_eigenvalues = eigenvalues[sorted_indices]
    sorted_eigenvectors = eigenvectors[:, sorted_indices]
    
    # Multiplicando a matriz de componente principal com a matriz de dados de entrada para obter o PCA
    pca_output = np.dot(normalised_input, sorted_eigenvectors)

    return pca_output, sorted_eigenvalues, sorted_eigenvectors, cov_mat

In [19]:
# Executando o PCA
pca_out, eigenval_v2, principal_component, cov_matrix = PCA_V2(df_matriz)

In [20]:
# Calculando a variância total
total_variance_v2 = sum(eigenval_v2)

In [21]:
# Calculando a variância explicada por cada componente principal
variance_explained_v2 = [(i / total_variance_v2) for i in eigenval_v2]

In [22]:
# Calculando a variância explicada acumulada
cumulative_variance_explained_v2 = np.cumsum(variance_explained_v2)

In [23]:
# Exibindo a variância explicada por cada um dos 10 primeiros componentes principais
variance_explained_v2[:10]

[0.4006389994390449,
 0.14908971340570912,
 0.12996709872406514,
 0.09534871230146692,
 0.06440429234620812,
 0.03814704235755987,
 0.028828684990927934,
 0.022276999290681027,
 0.016360170455751763,
 0.012773307107164452]

In [24]:
# Exibindo a variância acumulada dos 10 primeiros componentes principais
cumulative_variance_explained_v2[:10]

array([0.400639  , 0.54972871, 0.67969581, 0.77504452, 0.83944882,
       0.87759586, 0.90642454, 0.92870154, 0.94506171, 0.95783502])

#### Implementação do PCA-Version 3

In [25]:
import sklearn
from sklearn.decomposition import PCA

In [26]:
# Aplicando PCA
pca = PCA(n_components = 10)
X_pca = pca.fit_transform(df_matriz)

In [27]:
# Variância explicada por cada componente
variance_explained_v3 = pca.explained_variance_

In [28]:
# Proporção da variância explicada por cada componente
variance_explained_v3_ratio = pca.explained_variance_ratio_

In [29]:
# Variância explicada acumulada
cumulative_variance_v3_ratio = np.cumsum(variance_explained_v3_ratio)

In [30]:
print("Proporção da variância explicada por cada componente:\n\n", variance_explained_v3_ratio)

Proporção da variância explicada por cada componente:

 [0.400639   0.14908971 0.1299671  0.09534871 0.06440429 0.03814704
 0.02882868 0.022277   0.01636017 0.01277331]


In [31]:
print("Variância explicada acumulada:\n\n", cumulative_variance_v3_ratio)

Variância explicada acumulada:

 [0.400639   0.54972871 0.67969581 0.77504452 0.83944882 0.87759586
 0.90642454 0.92870154 0.94506171 0.95783502]
