<a href="https://colab.research.google.com/github/CarolineAndradeR/Data-Science/blob/main/An%C3%A1lise_de_componente_Principal_PCA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

PCA - captura quais são os principais componentes presentes em um conjunto de dados, aqueles que possam ter maior relevância ou mais importância para serem analisados. É aplicável a variáveis numéricas (quantitativas). É usado o PCA quando é necessário reduzir o custo cumputacional de processamento (custo de tempo/financeiro).

O PCA trata o tamanho na horizontal, além do dessa técnica existe outras como a Redução de Dimensionalidade, onde se tem muitas colunas ou variáveis (dimensões) e depois de aplicar a técnica vamos ter um número reduzido de dimensões, mas sem perde significância.

Como método de aprendizagem supervisionado, pode ser aplicado:
* Redução de dimensionalidade.
* Redução de ruído dos dados. (Ruídos - separa o que é informação relevante do que não é)

Como aplicação direta:
* Análise exploratório, para descobrir componentes principais de conjuntos de dados e trazer insights sobre os dados.
* Mitigação do overfit de algoritmos de ML.
* Simplificação de tomada de decisão.

**Premissas para utilização do método**

Escolher duas ou mais variáveis númericas para aplicar o método. Elas devem ser tratadas previamente para que sejam normalizadas. Nesse momento é utilizado o métdo simples de normalização para o intervalo [0:1], as variáveis numéricas serão convertidas de seus valores originais para números entre 0 e 1. A ideia geral da normalização pe que os dados fiquem mais bem distribuídos para que possamos aplicar os métodos analíticos.

**Como é feito o cálculo do PCA**

1. Cálculo da matriz de covariância.

    Baseada em duas variáveis denominação x1 e x2, é o cálculo da combinação de cada combinação das n variáveis.
2. Cálculo dos autovetores e autovalores.

    Utiliza conceitos de álgebra matricial, podemos pensar na forma simplificada da seguinte forma, assumindo como sendo a matriz da covariância como sendo A é Y os autovalores. E I sendo a matriz identidade, da mesma dimensão (tamanho) da matriz A. DET é o cálculo do determinante.

    Equação: det(A-Y)=0

    Com os valores de Y calculados, precisamos resolver uma nova  equação para cálculo dos autovetores.

    [A - YI].v = 0
3. Ordenamento dos autovetores de acordo com os autovalores e a escolha dos K maiores autovalores (componentes principais).

    Esta etapa é relativamente simples: ao termos os autovalores calculados, ordemos um vetor com todos esses valores e escolhemos os K autovalores como determinantes dos componente principais.
4. Tranformar os dados originais n-dimensionais em k-dimensões.


In [1]:
import pandas as pd
# Biblioteca auxiliar
from sklearn.decomposition import PCA

# Leitura de um conjunto de dados no Git
df = pd.read_csv("https://raw.githubusercontent.com/diogenesjusto/FIAP-On-Line-Graduation/main/datasets/diamonds.csv")
df.head()

Unnamed: 0.1,Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,1,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
1,2,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31
2,3,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31
3,4,0.29,Premium,I,VS2,62.4,58.0,334,4.2,4.23,2.63
4,5,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75


In [2]:
# Criando um sub conjunto com as variaveis númericas
df2 = df[['carat', 'depth', 'table', 'price','x','y','z']]

df_normalized=(df2 - df2.mean()) / df2.std()
# Escolha de 3 componentes principais.
pca = PCA(n_components=3)
pca.fit(df_normalized)
pca.components_.T

array([[ 0.45244549, -0.03469601, -0.00549481],
       [-0.00091613, -0.73067971,  0.67282929],
       [ 0.09951609,  0.67506738,  0.72806947],
       [ 0.42551927, -0.03525794, -0.10544948],
       [ 0.45321251,  0.00351255, -0.03950882],
       [ 0.4472649 ,  0.00215791, -0.05418879],
       [ 0.44595366, -0.08903518,  0.03960344]])

# **Aplicação prática PCA**

In [6]:
# Análise de portfólio de investimentos.
# yfinance - Biblioteca de carga dos dados com base no site do yahoo
!pip install yfinance
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import yfinance as yf
import bs4 as bs
import requests



In [7]:
def obter_sp500_instrumentos():
    ret = requests.get('http://en.wikipedia.org/wiki/List_of_S%26P_500_companies')
    envelope = bs.BeautifulSoup(ret.text, 'html')
    table = envelope.find('table', {'class': 'wikitable sortable'})
    acoes = []
    for row in table.findAll('tr')[1:]:
        acao = row.findAll('td')[0].text
        if not '.' in acao:
            acoes.append(acao.replace('',''))

    return acoes
acoes = obter_sp500_instrumentos()

In [None]:
# Extraí os dados a partir de '2020-01-01'
precos = yf.download(acoes, start='2020-01-01')['Adj Close']
rs = precos.apply(np.log).diff(1)
precos.head()