<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Análise-de-Componentes-Principais-(PCA)" data-toc-modified-id="Análise-de-Componentes-Principais-(PCA)-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Análise de Componentes Principais (PCA)</a></span><ul class="toc-item"><li><span><a href="#Simulação-I" data-toc-modified-id="Simulação-I-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Simulação I</a></span></li><li><span><a href="#Simulação-II" data-toc-modified-id="Simulação-II-1.2"><span class="toc-item-num">1.2&nbsp;&nbsp;</span>Simulação II</a></span></li><li><span><a href="#Aplicação-I:-Diamantes" data-toc-modified-id="Aplicação-I:-Diamantes-1.3"><span class="toc-item-num">1.3&nbsp;&nbsp;</span>Aplicação I: Diamantes</a></span><ul class="toc-item"><li><span><a href="#Etapa-1:-Carregar-e-transformar-os-Dados" data-toc-modified-id="Etapa-1:-Carregar-e-transformar-os-Dados-1.3.1"><span class="toc-item-num">1.3.1&nbsp;&nbsp;</span>Etapa 1: Carregar e transformar os Dados</a></span></li><li><span><a href="#Etapa-2:-Normalizar-os-dados" data-toc-modified-id="Etapa-2:-Normalizar-os-dados-1.3.2"><span class="toc-item-num">1.3.2&nbsp;&nbsp;</span>Etapa 2: Normalizar os dados</a></span></li><li><span><a href="#Etapa-3:-Utilizando-PCA" data-toc-modified-id="Etapa-3:-Utilizando-PCA-1.3.3"><span class="toc-item-num">1.3.3&nbsp;&nbsp;</span>Etapa 3: Utilizando PCA</a></span></li><li><span><a href="#Etapa-4:-Análise" data-toc-modified-id="Etapa-4:-Análise-1.3.4"><span class="toc-item-num">1.3.4&nbsp;&nbsp;</span>Etapa 4: Análise</a></span></li><li><span><a href="#Análise-de-Loadings" data-toc-modified-id="Análise-de-Loadings-1.3.5"><span class="toc-item-num">1.3.5&nbsp;&nbsp;</span>Análise de Loadings</a></span><ul class="toc-item"><li><span><a href="#Visualização-de-dados" data-toc-modified-id="Visualização-de-dados-1.3.5.1"><span class="toc-item-num">1.3.5.1&nbsp;&nbsp;</span>Visualização de dados</a></span></li></ul></li></ul></li><li><span><a href="#Aplicação-2:-NLP" data-toc-modified-id="Aplicação-2:-NLP-1.4"><span class="toc-item-num">1.4&nbsp;&nbsp;</span>Aplicação 2: NLP</a></span><ul class="toc-item"><li><span><a href="#Carregando-dados" data-toc-modified-id="Carregando-dados-1.4.1"><span class="toc-item-num">1.4.1&nbsp;&nbsp;</span>Carregando dados</a></span></li><li><span><a href="#Conhecendo-o-CountVectorizer" data-toc-modified-id="Conhecendo-o-CountVectorizer-1.4.2"><span class="toc-item-num">1.4.2&nbsp;&nbsp;</span>Conhecendo o CountVectorizer</a></span></li><li><span><a href="#Reduzindo-o-vocabulário" data-toc-modified-id="Reduzindo-o-vocabulário-1.4.3"><span class="toc-item-num">1.4.3&nbsp;&nbsp;</span>Reduzindo o vocabulário</a></span></li><li><span><a href="#Modelando" data-toc-modified-id="Modelando-1.4.4"><span class="toc-item-num">1.4.4&nbsp;&nbsp;</span>Modelando</a></span></li></ul></li></ul></li></ul></div>

In [None]:
import numpy as np
import scipy as sp
import pandas as pd
import seaborn as sns
from matplotlib import pyplot as plt

from sklearn.model_selection import train_test_split

sns.set_theme(context="notebook", style="darkgrid")


# Análise de Componentes Principais (PCA)

PCA é um, fundamentalmente, um **algoritmo de redução dimensional**: utilizando PCA, podemos transformar as variáveis de nossa dataset de forma a reduzir o número total de variáveis. O algoritmo utiliza a **covariância entre variáveis** para estimar *novas variáveis* com duas propriedades:

1. As novas variáveis são combinações lineares das variáveis originais;
1. Elas são ortogonais entre si, ou seja, tem correlação 0!

Se temos um conjunto de dados com muitas variáveis correlatas entre si podemos utilizar PCA para *reduzir a redundância de informação*: as novas variáveis calculadas pelo algoritmo não serão correlatas! O algoritmo de PCA tem diversas aplicações em ML (e serve como *protótipo* para os outros algoritmos de *redução dimensional* que aprenderermos ao longo do bootcamp):

1. Eliminar correlação entre variáveis de entrada em um modelo de regressão;
1. Facilitar a visualização de relações em datasets de alta dimensionalidade;
1. Reduzir a redundância de variáveis e estimar o número **real** de dimensões independentes.

Antes de mergulharmos nas aplicações, vamos entender e visualizar como o algoritmo funciona a partir de um conjunto de dados sintético.

## Simulação I

Vamos começar nossa simulação vendo como o algoritmo PCA se comporta quando aplicado sobre um dataset de 2 variáveis altamente correlatas.

In [None]:
def simular_dado_mv_x(parametros_x1, parametros_x2, samples):
    x1 = np.random.normal(loc=parametros_x1[0], scale=parametros_x1[1], size=samples)
    x2 = x1 + np.random.normal(
        loc=parametros_x2[0], scale=parametros_x2[1], size=samples
    )
    return pd.DataFrame(
        {
            "x1": x1,
            "x2": x2,
        }
    )


In [None]:
tb_simul_x = simular_dado_mv_x((0, 5), (0, 1), 100)
tb_simul_x.head()


In [None]:
sns.scatterplot(data=tb_simul_x, x="x1", y="x2")


Para utilizarmos o algoritmo PCA precisamos garantir que nossos dados estão **normalizados**. Para tanto, utilizaremos o `StandardScaler` da biblioteca `sklearn`:

In [None]:
from sklearn.preprocessing import StandardScaler


In [None]:
scaler = StandardScaler()
scaler.fit(tb_simul_x)
X_norm = scaler.transform(tb_simul_x)


Agora que temos nossos dados normalizados, podemos aplicar o algoritmo à nossa tabela:

In [None]:
from sklearn.decomposition import PCA


In [None]:
pca = PCA(n_components=2)
pca.fit(X_norm)
pca_X_norm = pca.transform(X_norm)


O resultado do método `.transform` é a **transformação do dataset `X_norm`** utilizando o algoritmo PCA estimado a partir do **dataset `X_norm`** - como escolhemos 2 componentes, será uma matriz de duas colunas e com o mesmo número de pontos que `X_norm`:

In [None]:
pca_X_norm[0:5, :]


Em varias aplicações, um array será suficiente. Mas para visualizar nossos componentes, podemos transformar este array em um `DataFrame` e junta-lo aos dados originais e normalizados:

In [None]:
tb_sca_x = pd.DataFrame(X_norm, columns=["X1_sca", "X2_sca"])
tb_pca_x = pd.DataFrame(pca_X_norm, columns=["PC1", "PC2"])
tb_full_x = pd.concat([tb_simul_x, tb_sca_x, tb_pca_x], axis=1)

tb_full_x.head()


Podemos utilizar o atributo `.components` para visualizar os **loadings**: os coeficientes de combinação linear estimados para cada componente/variável:

In [None]:
components = pca.components_.T
components


Vamos converter o resultado disso em um `DataFrame` para ficar mais claro o que estamos vendo:

In [None]:
loadings = pd.DataFrame(components, columns=["PC1", "PC2"], index=tb_simul_x.columns)
loadings


Uma forma de entender PCA é pensar que os eixos X1 e X2 podem ser *rotacionados* e os nossos pontos de dados podem ser **projetados** sobre esses novos eixos. Para visualizar essa rotação vamos utilizar um tipo de *biplot*, que mostra como os eixos da PCA (os componentes `PC_0` e `PC_1`) estão em relação aos eixos originais:

In [None]:
fig = plt.figure(figsize=(10, 10))
sns.scatterplot(data=tb_full_x, x="X1_sca", y="X2_sca")
plt.arrow(0, 0, components[0, 0], components[1, 0], color="red")
plt.text(
    components[0, 0] * 1.25,
    components[1, 0] * 1.25,
    "PC_0",
    color="black",
    ha="center",
    va="center",
    fontsize="large",
    fontweight="bold",
)
plt.arrow(0, 0, components[0, 1], components[1, 1], color="red")
plt.text(
    components[0, 1] * 1.25,
    components[1, 1] * 1.25,
    "PC_1",
    color="black",
    ha="center",
    va="center",
    fontsize="large",
    fontweight="bold",
)


## Simulação II

The PCA algorithm will try to find the directions in which the most information is contained. By information, we always mean to say - variance.

Rather than attempting to *predict* the y values from the x values, the unsupervised learning problem attempts to learn about the *relationship* between your features (your `X`).

In principal component analysis, this relationship is quantified by finding a list of the *principal axes* in the data, and using those axes to describe the dataset.

In [None]:
def simular_dado_mv(parametros_x1, parametros_x2, desvpad_E, samples):
    x1 = np.random.normal(loc=parametros_x1[0], scale=parametros_x1[1], size=samples)
    x2 = x1 + np.random.normal(
        loc=parametros_x2[0], scale=parametros_x2[1], size=samples
    )
    E = np.random.normal(loc=0, scale=desvpad_E, size=samples)
    y = parametros_x1[2] * x1 + parametros_x2[2] * x2 + E
    x3 = (desvpad_E / 2) * y + np.random.normal(
        loc=0, scale=desvpad_E * 3, size=samples
    )
    return pd.DataFrame({"y": y, "X1": x1, "X2": x2, "X3": x3})


tb_sim = simular_dado_mv((0, 10, 2), (0, 5, -2), 4, 100)
tb_sim.head()


In [None]:
sns.pairplot(tb_sim)


Vamos criar duas regressões para estimar a relação entre as variáveis X e y de nosso dataset:

1. A variável `X3` parece ser a mais correlata com nossa variável resposta, então vamos utilizar uma regressão simples com `X3` como variável de entrada e `y` como variável resposta;
1. Vamos construir uma segunda regressão utilizando `X1` e `X2` como variáveis de entrada e `y` como variável resposta.

Para mensurar a capacidade preditiva de cada uma desses features, vamos utilizar o RMSE destas duas regressões.

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error


In [None]:
X = tb_sim[["X3"]]
y = tb_sim["y"]
fit_x3 = LinearRegression()
fit_x3.fit(X, y)


Vamos calcular o erro desta primeira regressão:

In [None]:
rmse_x3 = np.sqrt(mean_squared_error(y, fit_x3.predict(X)))
print(np.round(rmse_x3, 2))


In [None]:
X = tb_sim[["X1", "X2"]]
y = tb_sim["y"]
fit_x1x2 = LinearRegression()
fit_x1x2.fit(X, y)


Agora, vamos calcular o erro de nossa segunda regressão:

In [None]:
rmse_x1x2 = np.sqrt(mean_squared_error(y, fit_x1x2.predict(X)))
print(np.round(rmse_x1x2, 2))


Embora a correlação entre `X3` e `y` seja maior que as correlações de `X1` e `X2`, a segunda regressão apresentou um erro bem inferior à primeira. O que está acontencendo? Vamos analisar os coeficientes de nossa segunda regressão para entender melhor:

In [None]:
fit_x1x2.coef_


In [None]:
tb_sim.corr()


Nas duas tabelas acima podemos ver duas coisas:

1. `X1` e `y` são diretamente proporcionais enquanto `X2` e `y` são inversamente proporcionais;
1. `X1` e `X2` são positivamente correlatos.

Quando visualizamos as relações entre essas três variáveis a correlação entre `X1` e `X2` *oculta* a relação destas com `y`! Na prática, esse tipo de redundância pode nos levar à uma avaliação errônea das variáveis importantes de nosso dataset quando utilizamos comparações um à um de nossas variáveis!

Vamos utilizar PCA para remover a estrutura de correlação de nossas variáveis de entrada antes de alimentarmos ao nosso modelo:

In [None]:
norm = StandardScaler()
norm.fit(tb_sim[["X1", "X2"]])

norm_x1x2 = norm.transform(tb_sim[["X1", "X2"]])


In [None]:
pca_t = PCA(n_components=2)
pca_t.fit(norm_x1x2)


In [None]:
X_pca = pd.DataFrame(pca_t.transform(norm_x1x2), columns=["PC0", "PC1"])
tb_sim_pca = pd.concat([tb_sim, X_pca], axis=1)
tb_sim_pca.head()


In [None]:
sns.pairplot(tb_sim_pca)


In [None]:
loadings = pd.DataFrame(pca_t.components_.T, columns=["PC1", "PC2"], index=["X1", "X2"])
loadings


## Aplicação I: Diamantes

Até agora vimos como PCA pode ser utilizada para transformar nossas variáveis em novas variáveis, busca simplificar a estrutura de correlação entre nossas variáveis X. 

Na segunda simulação, vimos como utilizando PCA conseguimos *desvendar* certas relações que estão escondidas pela correlação entre variáveis de entrada.

Agora, vamos utilizar *PCA para simplificar* um conjunto de dados com o qual trabalhamos: **diamantes**!

### Etapa 1: Carregar e transformar os Dados

Vamos utilizar uma função pré-definida (que vimos na apresentação das soluções do projeto) para ler e transformar nossos dados, criando alguns features a partir das sugestões do *notebook* da solução:

In [None]:
def etl_diamonds(diamonds):
    print("Linhas na base original:", str(len(diamonds)))
    x_0 = diamonds["x"] == 0
    y_0 = diamonds["y"] == 0
    z_0 = diamonds["z"] == 0
    dim_0 = x_0 | y_0 | z_0
    diamonds_c = diamonds[~dim_0].copy()
    dict_clarity = {
        "I1": 0,
        "SI2": 1,
        "SI1": 2,
        "VS2": 3,
        "VS1": 4,
        "VVS2": 5,
        "VVS1": 6,
        "IF": 7,
    }
    diamonds_c["clarity_num"] = diamonds_c["clarity"].map(dict_clarity)
    dict_color = {
        "D": 0,
        "E": 1,
        "F": 2,
        "G": 3,
        "H": 4,
        "I": 5,
        "J": 6,
    }
    diamonds_c["color_num"] = diamonds_c["color"].map(dict_color)
    dict_cut = {
        "Fair": 0,
        "Good": 1,
        "Very Good": 2,
        "Premium": 3,
        "Ideal": 4,
    }
    diamonds_c["cut_num"] = diamonds_c["cut"].map(dict_cut)
    diamonds_c["volume"] = diamonds_c["x"] * diamonds_c["y"] * diamonds_c["z"]
    diamonds_c["density"] = diamonds_c["carat"] / diamonds_c["volume"]
    density_inf = np.quantile(diamonds_c["density"], 0.01)
    density_sup = np.quantile(diamonds_c["density"], 0.99)
    density_in = (density_inf < diamonds_c["density"]) & (
        diamonds_c["density"] < density_sup
    )
    diamonds_c = diamonds_c[density_in].copy()

    diamonds_c["log_carat"] = np.log(diamonds_c["carat"])
    diamonds_c["log_price"] = np.log(diamonds_c["price"])
    diamonds_c = diamonds_c.drop(
        ["cut", "color", "price", "clarity", "density", "carat", "clarity", "volume", "density"], axis=1
    ).reset_index()
    print("Linhas na etapa atual:", str(len(diamonds_c)))
    return diamonds_c


In [None]:
tb_diamonds = pd.read_csv("data/tb_diamantes.csv")
tb_diamonds_c = etl_diamonds(tb_diamonds)
tb_diamonds_c.head()


In [None]:
X_var = [
    "depth",
    "table",
    "x",
    "y",
    "z",
    "clarity_num",
    "color_num",
    "cut_num",
    "log_carat",
]
y_var = "log_price"


A função acima converteu todas as variáveis categóricas originais em variáveis ordinais. Nosso dataset após as transformações e limpezas contém apenas variáveis numéricas e sem NAs

### Etapa 2: Normalizar os dados

Como vamos utilizar PCA, precisamos *normalizar* nossos dados. Vamos construir um `StandardScaler` para as nossas variáveis de entrada.

In [None]:
norm = StandardScaler()
norm.fit(tb_diamonds_c[X_var])

tb_diamonds_norm = pd.DataFrame(norm.transform(tb_diamonds_c[X_var]), columns=X_var)
tb_diamonds_norm['log_price'] = tb_diamonds_c['log_price']
tb_diamonds_norm.head()


Vamos visualizar nossa matriz de correlação para entender se podemos ter problemas de colinearidade entre as variáveis de entrada:

In [None]:
sns.heatmap(tb_diamonds_norm.corr(), vmin=-1, vmax=1, center=0)


### Etapa 3: Utilizando PCA

Com nosso dataset limpo e normalizado, podemos utilizar PCA para **estimar a quantidade real de informação que temos**: *features* altamente correlatas **são redundantes** e **ocultam relações com nossa variável resposta**!

In [None]:
X = tb_diamonds_norm.drop("log_price", axis=1)
pca_t = PCA()
pca_t.fit(X)
pca_X_norm = pca_t.transform(X)


Além de estimar os componentes, o algoritmo de PCA calcula **a % de informação sobre o dataset original está contida em cada componente**. Podemos acessar essa informação através do atributo `.explained_variance_ratio`:

In [None]:
[np.round(x, 2) for x in pca_t.explained_variance_ratio_]


Como podemos ver acima, o primeiro componente representa, sozinho, **53% da informação contida nas 9 variáveis originais!** Uma forma comum de avaliar o número de componentes que devemos utilizar em nossa análise é através do *scree plot*:

In [None]:
plt.plot(pca_t.explained_variance_ratio_)


O *scree plot* acima nos mostra que a partir do segundo cada componente adicional representa muito pouca informação. Vamos utilizar esta leitura para inicializar nosso PCA com apenas 2 componentes através do argumento `n_components`

In [None]:
X = tb_diamonds_norm.drop("log_price", axis=1)
pca_t = PCA(n_components=2)
pca_t.fit(X)


In [None]:
tb_pca_diam = pd.DataFrame(
    pca_t.transform(X), columns=["PC_" + str(i) for i in range(pca_t.n_components_)]
)

tb_pca_diam["log_price"] = tb_diamonds_norm["log_price"]
tb_pca_diam.head()


### Etapa 4: Análise

### Análise de Loadings

In [None]:
loadings = pd.DataFrame(pca_t.components_.T, columns=["PC_0", "PC_1"], index=X.columns)
loadings


In [None]:
plt.figure(figsize=(7, 7))
p1 = sns.scatterplot(data=loadings, x="PC_0", y="PC_1")
for line in range(0, loadings.shape[0]):
    p1.text(
        loadings.iloc[line, 0] + 0.05,
        loadings.iloc[line, 1],
        loadings.index[line],
        horizontalalignment="left",
        size="medium",
        color="black",
    )


#### Visualização de dados

In [None]:
sns.scatterplot(data=tb_pca_diam, x="PC_0", y="log_price", hue="PC_1", palette = 'Spectral', s = 5, alpha = 0.2)


Com a análise acima podemos concluir que as informações são altamente redundantes - apenas o componente 0 apresenta correlação direta com a variável resposta. Sabendo isto, poderíamos ou buscar mais informações ou voltar ao processo de exploração de dados para construir novos *features* (discretizando variáveis continuas por exemplo) ou explorar nossos *features* categóricos.

## Aplicação 2: NLP

Além da importância no processo de exploração, PCA pode ser utilizado para reduzir informações antes de utiliza-las em um modelo. Uma forma comum desta utilização acontece quando temos mais features do que pontos - algo comum nas tarefas de NLP (*natural language processing*).

Vamos utilizar PCA para construir uma regressão capaz de prever a quantidade de gordura em uma tabela de ingredientes a partir da **descrição deste ingrediente**

### Carregando dados

In [None]:
food = pd.read_csv("data/Food Composition.csv")
food = food[food['Fat Factor'] > 0].copy()
food.head()

Vamos criar um campo novo a partir da concatenação das variáveis `Food Name` e `Food Description`

In [None]:
food["text"] = food["Food Name"] + " " + food["Food Description"]


### Conhecendo o CountVectorizer

Para trabalharmos com texto (texto livre, não categorias) precisamos buscar alguma estratégia para transformar este texto em variáveis numéricas. Uma forma simples é através do modelo *Bag-of-Word*: vamos criar uma coluna numérica para cada palavra que aparece em nossas descrições. Essa coluna conterá o número de ocorrências de sua palavra em cada um de nossos textos.

Para construir essa matriz podemos utilizar o `CountVectorizer` da `sklearn`:

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

O `CountVectorizer` se comporta como o `StandardScaler`: ele possui um método `.fit()` e um método `.transform()`. Vamos utilizar esses dois métodos para encontrar nossa matriz de *bag-of-words*:

In [None]:
ck = CountVectorizer(stop_words="english")
ck_fit = ck.fit(food["text"])
X = ck_fit.transform(food["text"]).toarray()
X.shape

Podemos transformar X em um DataFrame, mas como não vamos visualiza-lo diretamente (**2094** colunas!) esta etapa não é necessária.

### Reduzindo o vocabulário

O número de colunas é muito grande e provavelmente cheio de colinearidades. Como o dataset é grande demais para visualizarmos, precisaremos utilizar uma redução dimensional antes de alimentar estes dados ao nosso modelo.

Vamos utilizar nosso *scree plot* para escolher o número de componentes em nosso PCA:


In [None]:
norm = StandardScaler()
norm.fit(X)

X_sca = norm.transform(X)

In [None]:
pca_t = PCA()
pca_t.fit(X_sca)


In [None]:
fig, ax = plt.subplots(1, 2, figsize=(15,7))
ax[0].plot(pca_t.explained_variance_ratio_)
ax[1].plot(np.cumsum(pca_t.explained_variance_ratio_))

Pelos gráficos acima podemos ver que a partir de **800 componentes** não temos quase nenhuma informação adicional. Entretanto, temos apenas **1045** linhas de dados - um modelo com 800 variáveis ainda tem variáveis demais!

Olhando para o *scree plot** podemos ver que a quantidade de informação adicional cai radicalmente após cerca de 190 componentes. Vamos testar um modelo com este número e avaliar o erro:

In [None]:
pca_t = PCA(n_components=190)
pca_t.fit(X_sca)


Os loadings de uma redução dimensional do modelo *bag-of-words* representam um modelo **muito comum** em NLP: **o modelo de tópicos**. Vamos ordernar nossa tabela de loadings por alguns de nossos componentes para visualizar o que é um modelo de tópicos:

In [None]:
loadings = pd.DataFrame(pca_t.components_.T, index=ck.get_feature_names_out())
loadings.sort_values(1, ascending=False).head(10)


### Modelando

Com nossas novas variáveis podemos modelar a variável `Fat Factor` utilizando nossos componentes, criados a partir das descrições dos ingredientes:

In [None]:
X_pca = pca_t.transform(X_sca)
y = food["Fat Factor"]

X_train, X_test, y_train, y_test = train_test_split(X_pca, y, random_state = 42)


In [None]:
reg_fit = LinearRegression()
reg_fit.fit(X_train, y_train)


In [None]:
fat_pred = reg_fit.predict(X_test)
rmse_fat = np.sqrt(mean_squared_error(y_test, fat_pred))

print(np.round(rmse_fat, 2))

Podemos visualizar o modelo através de um *scatterplot* comparando previsões com valores reais no conjunto de teste:

In [None]:
sns.scatterplot(x = fat_pred, y = y_test, s = 25)

Agora, vamos testar com menos componentes:

In [None]:
pca_t = PCA(n_components=30)
pca_t.fit(X_sca)
X_pca = pca_t.transform(X_sca)
y = food["Fat Factor"]

X_train, X_test, y_train, y_test = train_test_split(X_pca, y, random_state = 42)
reg_fit = LinearRegression()
reg_fit.fit(X_train, y_train)

fat_pred = reg_fit.predict(X_test)
rmse_fat = np.sqrt(mean_squared_error(y_test, fat_pred))

print(np.round(rmse_fat, 2))

In [None]:
sns.scatterplot(x = fat_pred, y = y_test, s = 25)