# Aula 07 - Agrupamento hierárquico e redução de dimensionalidade

Até o momento em nosso módulo, discutimos questões sobre separabilidade linear e não linear de classes de dados, situação em que introduzimos a noção de algoritmos baseados em **vetores suporte** e entendemos como o uso do *kernel trick* pode nos auxiliar em diversas situações quando os dados não são linearmente separáveis. Em seguida, iniciamos nossa discussão sobre **métodos de boosting**, em que focamos nos algoritmos de *AdaBoost* e *GradientBoosting*.

Por fim, a parte final do nosso módulo vem tratando sobre aprendizagem não supervisionada. Até o momento, nos familiarizamos com dois dos principais métodos utilizados: o **K-Means** e o **DBSCAN**. Na aula de hoje, vamos finalizar os novos assuntos do módulo, ainda em aprendizagem não supervisionada, com a análise de **agrupamento hierárquico** e **redução de dimensionalidade**.

## 1. Agrupamento hierárquico

### Hierarchical clustering

O clustering hierárquico (também chamado de análise de cluster hierárquica ou HCA) é um método de análise de cluster que **busca construir uma hierarquia de clusters**.

Existem 2 tipos de agrupamento hierárquico:
- <b> Aglomerativo </b> (de baixo para cima) e
- <b> Divisivo </b> (de cima para baixo).

Os algoritmos ascendentes tratam cada ponto de dados como um único cluster e mesclam os clusters mais próximos, subindo na hierarquia até que todos os clusters tenham sido mesclados, e reste apenas um único cluster com todos os pontos de dados restantes.

Já os algoritmos "de cima para baixo" funcionam de maneira oposta: eles começam com um cluster que contém todos os pontos de dados e, em seguida, executam divisões para descer na hierarquia. 

Em ambos os casos, podemos visualizar a hierarquia usando um <a href="https://en.wikipedia.org/wiki/Dendrogram"> dendrograma </a> ou árvore.

___

**Métodos Aglomerativos.** Nesse caso, todos os elementos começam separados e vão sendo agrupados em etapas, um a um, até que tenhamos um único cluster com todos os elementos. O número ideal de clusters é escolhido dentre todas as opções.  

**Métodos Divisivos.** Todos os elementos começam juntos em um único cluster, e vão sendo separados um a um, até que cada elemento seja seu próprio cluster. Assim como no método aglomerativo, escolhemos o número ótimo de clusters dentre todas as possíveis combinações.

___

**Vamos entender em um pouco mais de detalhes.**

Imaginemos uma situação em que desejemos agrupar um conjunto de dados quaisquer. Conforme a ilustração abaixo, imaginemos que nossos dados são representados pelos oito pontos rotulados de 'a' a 'h'. No método aglomerativo, começamos por considerar que cada um dos pontos é, por si só, um cluster isolado. À medida que **subimos na hierarquia**, consideramos que **dados similares devem pertencer a um mesmo cluster**. 

No exemplo da figura, com nosso critério de similaridade, consideramos que 'f' e 'g' são similares, em um dado nível da hierárquia, e, assim, podem ser aglomerados sob um único cluster "fg". Repetimos o processo até que tenhamos todos os dados sob um mesmo agrupamento.

<img src = "https://media.geeksforgeeks.org/wp-content/uploads/20190508025311/781ff66c-b380-4a78-af25-80507ed6ff26-300x300.png">

[Fonte da imagem](https://acervolima.com/ml-clustering-hierarquico-clustering-aglomerativo-e-divisivo/)

A partir daí, podemos nos perguntar: **mas o quê, exatamente, consideramos como pontos "similares"?**

Há uma série de medidas que podem ser utilizadas para esse fim, sendo que a **distância euclidiana** é uma das mais usuais. Em outras palavras, isso significa dizer que esperamos que, em um espaço de features, observações similares estejam mais próximas entre si.

No gráfico abaixo, podemos ver um exemplo de como funciona o agrupamento hierárquico ascendente.
<img style="height:400px;"  src="https://miro.medium.com/max/257/0*iozEcRXXWXbDMrdG.gif">
<img style="height:400px;"  src="https://miro.medium.com/max/480/0*BfO2YN_BSxThfUoo.gif">


Passos (aglomerativo):
1. Trate cada ponto de dados como um único cluster.
2. Escolha uma medida de similaridade / dissimilaridade (métrica de distância como distância euclidiana, como uma medida de similaridade, e um critério de ligação que especifica a dissimilaridade de conjuntos como uma função das distâncias entre pares de observações).
3. Combine os dois clusters com a menor ligação, ou seja, os dois clusters que estão mais próximos de acordo com nossa medida escolhida.
4. Repita 3 até que tenhamos apenas um cluster com todos os pontos de dados.
5. Escolha quantos aglomerados queremos olhando para o dendrograma.

**Algumas observações:**
- O clustering hierárquico não exige que especifiquemos o número de clusters e podemos até selecionar qual número de clusters parece melhor, já que estamos construindo uma árvore.
- Além disso, o algoritmo não é sensível à escolha da métrica de distância; todos eles tendem a funcionar igualmente bem, enquanto com outros algoritmos de agrupamento, a escolha da métrica de distância é crítica.
- Um caso de uso particularmente bom de métodos de agrupamento hierárquico é quando os dados subjacentes têm uma estrutura hierárquica e você deseja recuperar a hierarquia; outros algoritmos de cluster não podem fazer isso.
- Essas vantagens do agrupamento hierárquico têm o custo de menor eficiência, pois tem uma complexidade de tempo de O (n³), ao contrário da complexidade linear de K-Means e GMM.

PS. O objeto AgglomerativeClustering executa um agrupamento hierárquico usando uma abordagem ascendente: cada observação começa em seu próprio cluster, e os clusters são sucessivamente mesclados. Os critérios de ligação determinam a métrica usada para a estratégia de fusão:
- **Ward** minimiza a soma das diferenças quadradas em todos os clusters. É uma abordagem de minimização de variância e, nesse sentido, é semelhante à função objetivo k-means, mas tratada com uma abordagem hierárquica aglomerativa.
- **A ligação máxima ou completa** minimiza a distância máxima entre as observações de pares de agrupamentos.
- **A ligação média** minimiza a média das distâncias entre todas as observações de pares de agrupamentos.
- **A ligação única** minimiza a distância entre as observações mais próximas de pares de clusters.

![](https://scikit-learn.org/stable/_images/sphx_glr_plot_linkage_comparison_0011.png)

https://medium.com/@will.lucena/agrupamento-hier%C3%A1rquico-329e30a9f32d

![image.png](attachment:image.png)

Uma visualização importante quando lidamos com os clusters hierárquicos é o chamado **dendrograma**: um tipo de gráfico em forma de "árvore" em que cada nó representa um cluster, e que dispomos a formação dos aglomerados segundo a nossa métrica de distância/similaridade.

https://towardsdatascience.com/hierarchical-clustering-explained-e59b13846da8
![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)
![image-3.png](attachment:image-3.png)
![image-4.png](attachment:image-4.png)
![image-5.png](attachment:image-5.png)
![image-6.png](attachment:image-6.png)
![image-7.png](attachment:image-7.png)
http://www.each.usp.br/lauretto/cursoR2017/04-AnaliseCluster.pdf



https://scikit-learn.org/stable/modules/generated/sklearn.cluster.AgglomerativeClustering.html



### Exemplo HCA

In [None]:
import pandas as pd
import seaborn as sns

In [None]:
df = pd.read_csv('Mall_Customers.csv')

In [None]:
df

In [None]:
df['score_group'] = df['Spending Score (1-100)'].apply(lambda x:
                                                      '< 25' if x < 25
                                                      else '< 50' if x < 50
                                                      else '< 75' if x < 75
                                                      else '75+')

In [None]:
df[['Spending Score (1-100)', 'score_group']]

In [None]:
sns.scatterplot(data = df, y = 'Annual Income (k$)', x = 'Age')

A princípio, vemos que parece existir uma correlação positiva entre as variáveis acima, mas é difícil agrupar dados.

In [None]:
sns.scatterplot(data = df, y = 'Annual Income (k$)', x = 'Age', hue = 'score_group')

Quando adicionamos informação sobre o grupo do 'score', vemos algumas tendências, apesar de haver, ainda, muita sobreposição. 

In [None]:
sns.heatmap(df.corr(method = 'spearman'), annot = True, cmap = 'Blues')

In [None]:
sns.scatterplot(data = df, y = 'Spending Score (1-100)', x = 'Age', hue = 'score_group')

In [None]:
sns.scatterplot(data = df, y = 'Spending Score (1-100)', x = 'Age', hue = 'Genre')

É difícil segmentar o dataset. Mas vamos tentar aplicar a metodologia do HCA para extrair alguns insights?

In [None]:
df.head()

In [None]:
X = df.loc[:, ['Annual Income (k$)', 'Spending Score (1-100)']].values

In [None]:
sns.scatterplot(data = df, y = 'Spending Score (1-100)', x = 'Age', hue = 'score_group')

Será que conseguimos achar alguma segmentação interessante com essas variáveis, sem recorrer ao que "forçamos"?

In [None]:
X = df.iloc[:, [3, 4]].values

In [None]:
import scipy.cluster.hierarchy as sch
import matplotlib.pyplot as plt

plt.figure(figsize=(16,6))
dendrogrm = sch.dendrogram(sch.linkage(X, method = 'ward'),leaf_rotation=90.,leaf_font_size=8)
plt.title('Dendrogram')
plt.xlabel('Customers')
plt.ylabel('Euclidean distance')
plt.show()


Vemos que a abordagem cria uma hierárquia entre os consumidores, agrupando aqueles com padrões mais similares, de acordo com consumo e idade.

In [None]:
from sklearn.cluster import AgglomerativeClustering

# Note que o número de clusters é definido arbitrariamente
hc = AgglomerativeClustering(n_clusters = 5, affinity = 'euclidean', linkage = 'ward')
y_hc = hc.fit_predict(X)

In [None]:
y_hc

In [None]:
import numpy as np
plt.scatter(np.mean(X[y_hc == 0, 0]), np.mean(X[y_hc == 0, 1]), s = 50, c = 'red')
plt.scatter(np.mean(X[y_hc == 1, 0]), np.mean(X[y_hc == 1, 1]), s = 50, c = 'blue')
plt.scatter(np.mean(X[y_hc == 2, 0]), np.mean(X[y_hc == 2, 1]), s = 50, c = 'green')
plt.scatter(np.mean(X[y_hc == 3, 0]), np.mean(X[y_hc == 3, 1]), s = 50, c = 'cyan')
plt.scatter(np.mean(X[y_hc == 4, 0]), np.mean(X[y_hc == 4, 1]), s = 50, c = 'magenta')

plt.xlabel('Annual Income (k$)')
plt.ylabel('Spending Score (1-100)')

Plotando as médias de cada conjunto, podemos definir 5 perfis de consumidores, a saber:
- em vermelho: alta renda e baixo consumo;
- em azul: média renda e médio consumo;
- em verde: alta renda e alto consumo;
- em ciano: baixa renda e alto consumo;
- em rosa: baixa renda e baixo consumo.

In [None]:
# Para visualizar os agrupamentos que fizemos, vamos definir alguns perfis de consumidores?
plt.scatter(X[y_hc == 0, 0], X[y_hc == 0, 1], s = 25, c = 'red', label = 'Careful')
plt.scatter(X[y_hc == 1, 0], X[y_hc == 1, 1], s = 25, c = 'blue', label = 'Standard')
plt.scatter(X[y_hc == 2, 0], X[y_hc == 2, 1], s = 25, c = 'green', label = 'Target')
plt.scatter(X[y_hc == 3, 0], X[y_hc == 3, 1], s = 25, c = 'cyan', label = 'Careless')
plt.scatter(X[y_hc == 4, 0], X[y_hc == 4, 1], s = 25, c = 'magenta', label = 'Sensible')

plt.scatter(np.mean(X[y_hc == 0, 0]), np.mean(X[y_hc == 0, 1]), s = 50, marker = 'x', c = 'red')
plt.scatter(np.mean(X[y_hc == 1, 0]), np.mean(X[y_hc == 1, 1]), s = 50, marker = 'x', c = 'blue')
plt.scatter(np.mean(X[y_hc == 2, 0]), np.mean(X[y_hc == 2, 1]), s = 50, marker = 'x', c = 'green')
plt.scatter(np.mean(X[y_hc == 3, 0]), np.mean(X[y_hc == 3, 1]), s = 50, marker = 'x', c = 'cyan')
plt.scatter(np.mean(X[y_hc == 4, 0]), np.mean(X[y_hc == 4, 1]), s = 50, marker = 'x', c = 'magenta')

plt.title('Clusters of customers')
plt.xlabel('Annual Income (k$)')
plt.ylabel('Spending Score (1-100)')
plt.legend()
plt.show()

Desse modo, criamos uma segmentação que identifica 5 perfis de consumidores, em uma distribuição de features que, inicialmente, era bastante difícil de segmentar!

A escolha do número de clusters é um tanto quanto arbitrária, e muito de sua definição vem justamente do problema de negócio que desejamos resolver.

## 2. Redução de Dimensionalidade

Quando lidamos com a visualização de duas, ou, até mesmo, três features simultaneamente, é possível recorrer a gráficos de dispersão sem grandes problemas. No entanto, como procedemos quando temos um conjunto maior de features?

Para essas, e outras, situações, podemos trabalhar com técnicas de **redução de dimensionalidade**. No geral, tais técnicas buscarão projeções dos dados sob algum critério, avaliando manter o máximo de informação, mesmo em espaços de menores dimensões.

Para avaliarmos um exemplo de utilização da técnica, vamos aplicá-la a um [conjunto de dados de uma pesquisa de Marketing](https://www.kaggle.com/datasets/mahdinavaei/customermarketing).

In [None]:
df = pd.read_csv('Customer marketing.csv', sep="\t")

In [None]:
df.head()

In [None]:
df.info()

In [None]:
# Vamos criar uma nova coluna para idade
df['age'] = 2023 - df['Year_Birth']

In [None]:
df[['age', 'Year_Birth']]

In [None]:
plt.figure(figsize = (15,15))
sns.heatmap(data = pd.get_dummies(df.corr(method = 'spearman')),
            annot = True,
           cmap = 'Blues',
           fmt = '.2f')

In [None]:
df.drop(columns = ['Z_CostContact', 'Z_Revenue'], inplace = True)

In [None]:
plt.figure(figsize = (15,15))
sns.heatmap(data = pd.get_dummies(df.corr(method = 'spearman')),
            annot = True,
           cmap = 'Blues',
           fmt = '.2f')

In [None]:
sns.pairplot(data = df.drop(columns = ['ID_', 'Year_Birth']),
            hue = 'Response')

#### Análise de Componentes Principais (PCA)

A análise de componentes principais (PCA; *principal components analysis*) tem por objetivo obter uma projeção dos dados nas direções em que as **componentes principais** tenham máxima variância estatística. Isso significa que, após a projeção, passamos de um espaço original para um espaço de dimensões reduzidas, em que, inevitavelmente, perdemos um pouco de informação (pois estamos "descartando dimensões"). No entanto, ao manter as projeções que conservam a maior parte da variância nos dados, estamos, concomitantemente, tentando reter aquilo do dado que é mais informativo sobre eles!

Para saber em mais detalhes sobre o método:
- [Descrição de PCA na Wikipedia](https://pt.wikipedia.org/wiki/An%C3%A1lise_de_componentes_principais)
- [PCA with Python](https://www.geeksforgeeks.org/principal-component-analysis-with-python/)
- [PCA for dummies](https://programmathically.com/principal-components-analysis-explained-for-dummies/)
- [A step-by-step explanation of PCA](https://builtin.com/data-science/step-step-explanation-principal-component-analysis)

<img src="https://www.analyticsvidhya.com/wp-content/uploads/2016/03/2-1-e1458494877196.png" width=800>

Vamos ver o método na prática?

In [None]:
df2 = pd.get_dummies(df.drop(columns = ['Dt_Customer', 'Year_Birth', 'ID_']))
df2

In [None]:
from sklearn.preprocessing import StandardScaler
df_scaled = StandardScaler().fit_transform(df2)

In [None]:
df3 = pd.DataFrame(df_scaled, columns = df2.columns)

In [None]:
df3

[PCA no sklearn](https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html)

In [None]:
from sklearn.decomposition import PCA

In [None]:
pca = PCA(n_components = 2)

In [None]:
pca.fit(df3.dropna())

In [None]:
df_components = pd.DataFrame(pca.transform(df3.dropna()), columns = ['PCA_1', 'PCA_2'])

In [None]:
df_components

O que o código acima fez:
- quando usamos o **.fit** em PCA, estamos encontrando uma **matriz de projeção** que leva os dados do espaço original para o espaço de componentes principais. No nosso caso, passamos de um espaço de **36 dimensões para apenas 2!**;
- quando utilizamos o **.transform**, aplicamos a projeção calculada no fit aos dados, levando-os ao espaço de componentes principais;
- vale notar que, ao fazermos isso, **perdemos um pouco de explicabilidade**. Nossas componentes principais são **combinações lineares das features originais!**

In [None]:
plt.figure(figsize = (10,6))
sns.scatterplot(data = df_components,
               x = 'PCA_1',
               y = 'PCA_2')

Vamos modelar os clusters com o HCA?

In [None]:
hc = AgglomerativeClustering(n_clusters = 3, affinity = 'euclidean', linkage = 'ward')
y_hc = hc.fit_predict(df_components)

In [None]:
y_hc

In [None]:
df4 = df3.dropna()

In [None]:
df4

In [None]:
df4.loc[:,'cluster'] = y_hc

In [None]:
df4

In [None]:
df.columns

In [None]:
plt.figure(figsize = (12,12))
sns.scatterplot(data = df4,
               x = 'Income',
               y = 'MntMeatProducts',
               hue = 'cluster')

Aqui, como fizemos anteriormente, também conseguimos definir alguns perfis, a saber:
- baixa renda e baixo consumo de carnes;
- renda intermediária e consumo intermediário;
- renda alta e consumo alto.

Se acharmos que faz mais sentido, podemos alterar o número de agrupamentos:

In [None]:
hc = AgglomerativeClustering(n_clusters = 5, affinity = 'euclidean', linkage = 'ward')
y_hc = hc.fit_predict(df_components)

df4.loc[:,'cluster'] = y_hc

In [None]:
plt.figure(figsize = (12,12))
sns.scatterplot(data = df4,
               x = 'Income',
               y = 'MntMeatProducts',
               hue = 'cluster')

In [None]:
df.columns

In [None]:
plt.figure(figsize = (12,12))
sns.scatterplot(data = df4,
               x = 'Income',
               y = 'MntMeatProducts',
               hue = 'cluster')

In [None]:
df_components.loc[:, 'cluster'] = y_hc

In [None]:
plt.figure(figsize = (8,6))
sns.scatterplot(data = df_components,
               x = 'PCA_1',
               y = 'PCA_2',
               hue = 'cluster')

In [None]:
pca

In [None]:
pca.components_.shape

pca.components_ contém os coeficientes da nossa projeção!

In [None]:
pca.components_

In [None]:
plt.bar(range(0, len(pca.components_[0])), pca.components_[0])

O gráfico acima contém o "peso" atribuído a cada uma das features originais para chegarmos à composição total da primeira componente principal! 

Em suma:

- com a PCA, buscamos projeções ortogonais (independentes) de componentes principais, com o objetivo de reduzir a dimensionalidade do problema sendo tratado, ao mesmo tempo em que buscamos conservar o máximo de informação possível;
- o número de componentes principais, a princípio, pode ser definido arbitrariamente. Entretanto, podemos computar métricas que nos indiquem "quanto de informação retemos", do dataset original, a fim de auxiliar nessa escolha;
- cada componente principal será uma **combinação linear** das features originais, mas podemos utilizá-la normalmente como qualquer outro tipo de atributo (mas é importante ter essa consideração em mente, pois afeta a explicabilidade do modelo!).

In [None]:
pca.explained_variance_ratio_ # <- indica a "fração de variância" que conseguimos explicar com cada componente principal! Cumulativamente, deve somar 1 (100 %)

Para mais detalhes sobre esse parâmetro, vocês podem consultar, por exemplo, [esta explicação](https://vitalflux.com/pca-explained-variance-concept-python-example/).

____

#### Observações importantes

Com a análise ilustrativa de PCA, objetivamos obter uma intuição acerca da interpretação do método! Note que não consideramos diversas boas práticas que deveríamos ter adotado, como limpeza do conjunto de dados, tratamento de possíveis valores nulos etc. Poderíamos, inclusive, ter criado novas features, por exemplo, para denotar o consumo total, ou similares, caso julgássemos cabível.