# 10 Unsupervised Learning

Enquanto no aprendizado supervisionado estamos preocupados na predição de nossa variável de resposta Y, com base em nossas variáveis independentes X1, X2 ... Xp. No aprendizado não supervisionado estamos interessados em descobrir coisas interessantes sobre medições em X1, X2 ... Xp. 

Respondemos perguntas como:

- Existe uma maneira informativa de visualizar os dados?

- Descobrimos subgrupos entre as variáveis ou entre as observações?

## 10.1 The Challenge of Unsupervised Learning

No aprendizado supervisionado, há uma noção clara do que estamos buscando como saída do modelo (a nossa predição de Y). Há métricas para acompanharmos o quanto nosso modelo performa.

No aprendizado não supervisionado costuma ser mais subjetivo e não há um objetivo simples para a análise como a predição de uma resposta. 

- É frequentemente utilizado em análise exploratória;
- Dificil avaliar os resultados obtidos. Não existe um mecanismo universalmente aceito para executar a validação cruzada
  ou validar em um conjunto de dados independentes.
- Não sabemos a resposta verdadeira, não é um problema supervionado.

## 10.2 Principal Components Analysis

Os componentes principais nos permite resumir um conjunto de variáveis correlacionadas em um número menor de variáveis representativas que explicam coletivamente a maior parte da nossa variabilidade no conjunto original.

- Produz variáveis derivadas para uso em problemas supervisionados;
- Serve como uma ferramenta para a visualização de dados.

### 10.2.1 What Are Principal Components?

Ele encontra uma representação de baixa dimensão de um conjunto de dados que contém o máximo possível da variação.

A idéia é que cada uma das n observações viva no espaço p-dimensional. 

PCA procura um pequeno número e dimensões tão interessantes quanto possível, onde o conceito de interessante é medido pela quantidade em que as observações variam ao longo de cada dimensão. 

Cada uma das dimensões encontradas pelo PCA é uma combinação linear dos recursos p.

O PCA matemáticamente definino como uma transformação ortogonal que transforma os dados para um novo sistema de coordenadas de forma que a variância por qualquer projeção dos dados fica ao longo da primeira coordenada (First Princical Component), a segunda maior variância fica ao longo da segunda coordenada, e assim por diante.

__Otimização__

![](figure/figure10.3.png)

![](figure/pca_gif.gif) ![](figure/pca.png)

 Visão animada: https://setosa.io/ev/principal-component-analysis/

![](figure/figure10.1.png)

- os vetores de carregamento do componente principal como as direções no espaço de recursos ao longo das quais os dados variam mais

- o componente principal pontua como projeções nessas direções

### 10.2.2 Another Interpretation of Principal Components

![](figure/figure10.2.png)

Esquerda: as duas primeiras direções dos componentes principais abrangem o plano que melhor se ajusta aos dados. Isto
minimiza a soma das distâncias ao quadrado de cada ponto ao plano. 

Direita:Os dois primeiros vetores de pontuação dos componentes principais fornecem as coordenadas da projeção das 90 observações. A variação no plano é maximizada.

#### The Proportion of Variance Explained

![](figure/figure10.4.png)

#### Deciding How Many Principal Components to Use

Quantos componentes principais são necessários? 

Podemos utilizar o metódo do cotovelo para encontrar o número ideal de componentes principais

## 10.3 Clustering Methods

### 10.3.1 K-Means Clustering

É uma abordagem simples de particioar um conjunto de dados em K clusters distintos e sem sobreposição

### Premissas

1 - Cada observação pertence a pelo menos um dos clusters K

2 - Os clusters não se sobrepõem: nenhuma observação pertence a mais de um cluster.


A ideia por trás do agrupamento K-means é que um bom agrupamento é aquele para o qual o variação dentro do cluster é a menor possível.

### Otimização

![](figure/figure10.11.png)

A variação dentro do cluster para o k-ésimo cluster é a soma de todas as distâncias euclidianas quadradas aos pares entre as observações no k-ésimo cluster, divididas pelo número total de observações no k-ésimo cluster.

### Etapas

1. Inicializar os centroides aleatoriamente (centros do cluster).


2. Iterar até que pare as atribuições aos clusters.

    a) Para cada k cluster, computar o centróide do cluster (média das observações de k cluster).
    
    b) Atribua cada observação ao cluster cujo centróide está mais próximo (onde o mais próximo for definido usando a distância euclidiana)


![](figure/figure10.6.png)

![](figure/k_means.gif)

### 10.3.2 Hierarchical Clustering

Uma desvantegem do k-means é especificar a quantidade de clusters k. Agrupamento hierárquico é uma abordagem alternativa que não requer a necessidade de informar o número de clusters. Outra vantagem adicional sobre o K-means é uma representação atraente baseada em árvore das observações, chamada dendrograma.

#### Interpreting a Dendrogram

![](figure/figure10.8.png)

Quarenta e cinco observações geradas no espaço bidimensional. Na realidade, existem três classes distintas, mostradas em cores separadas. No entanto, trataremos esses rótulos de classe como desconhecidos e procuraremos agrupar as observações para descobrir as classes a partir dos dados.

![](figure/figure10.9.png)

As fusões mais abaixo da árvore representam as observações mais similares. A medida que as folhas se fudem em galhos, as observações vão se diferenciando.

![](figure/figure10.10.png)

Não dá para tirar conclusões sobre a similaridade de duas observações com base no eixo vertical. Em vez disso, tiramos conclusões sobre a semelhança de duas observações com base na localização no eixo vertical onde os ramos que contêm essas duas observações primeiro são fundidos.

A altura do corte no dendrograma serve o mesmo papel que o agrupamento K em K-means: controla o número de clusters obtidos.

Os conjuntos distintos de observações abaixo do corte podem ser interpretados como aglomerados.

O termo hierárquico refere-se ao fato de que os clusters obtidos pelo corte do dendrograma a uma determinada altura são necessariamente aninhados dentro dos clusters obtidos pelo corte do dendrograma a qualquer altura maior.

Em um conjunto de dados arbitrário, essa suposição de estrutura hierárquica pode não ser realista.

#### The Hierarchical Clustering Algorithm

Para construir o dendograma:

1 - definimos algum tipo de medida de dissimilaridade entre cada par de observações (geralmente distância euclidiana);

2 - o algoritmo prossegue iterativamente. Começando na parte inferior do dendrograma, cada uma das n observações é tratada como seu próprio cluster. Os dois clusters
que são mais parecidos entre si são fundidos para que agora haja n-1 clusters.

3 - em seguida, os dois clusters mais semelhantes entre si são fundido novamente, de modo que agora existem n - 2 clusters. O algoritmo continua
dessa maneira, até que todas as observações pertençam a um único cluster e o dendograma está completo.

O mesmo conceito que usamos de dissimilaridade entre pares de observações, precisa ser levado para a visão de pares de cluster. Essa noção de dissimilaridade é conhecida como ligação. São quatros tipos comuns de ligação: completo, médio, único e centróide.

![](figure/hierarch.gif)

## Algorithm 

1. Comece com n observações e uma medida (como a distância euclidiana) de todas as $\binom{n}{2} = n (n -1)/ 2$ dissimilaridades em pares. Trate cada observação como seu próprio cluster.

2. For $i = n, n − 1, . . . , 2$:

    a) Examine todas as dissimilaridades entre pares inter-cluster entre os grupos i clusters e identifique o par de clusters menos diferente (ou seja, mais semelhante). Fundir esses dois clusters. A dissimilaridade entre esses dois grupos indica a altura no dendrograma na qual a fusão deve ser colocada.
    
    b) Calcular as novas diferenças pares inter-clusters entre os $i - 1$ clusters restantes.

### Linkage

 __Complete__ 

Dissimilaridade máxima do intercluster.

![](figure/linkage_complete.png)

__Single__ 

Dissimilaridade mínima do intercluster. Articulação única pode resultar em prolongamento clusters nos quais observações únicas são fundidas uma de cada vez.

![](figure/linkage_single.png)
__Average__ 

Dissimilaridade média do intercluster. 
![](figure/linkage_average.png)

__Centroid__

Dissimilaridade entre o centróide para o cluster A (uma média vetor de comprimento p) e o centróide para o cluster B. Centroid ligação pode resultar em inversões indesejáveis.

![](figure/linkage_centroid.png)

### 10.3.3 Practical Issues in Clustering

### Small Decisions with Big Consequences

Deveriámos padronizar os dados?

No caso do agrupamento hierárquico,

- Qual medida de dissimilaridade deveria ser usada?
- Qual tipo de ligação deveria ser usada?
- Onde devemos cortar o dendograma para obter aglomerados?

No caso do agrupamento K-means, quantos clusters devemos procurar
para os dados?

### Referências

Análise dos Componentes Principais 

https://pt.wikipedia.org/wiki/An%C3%A1lise_de_componentes_principais#:~:text=Dado%20um%20conjunto%20de%20pontos,dist%C3%A2ncias%20dos%20pontos%20%C3%A0%20linha.

StatQuest: Principal Component Analysis (PCA), Step-by-Step 

https://www.youtube.com/watch?v=FgakZw6K1QQ

Clustering with Scikit with GIFs 

https://dashee87.github.io/data%20science/general/Clustering-with-Scikit-with-GIFs/

Gentle Introduction to Eigenvalues and Eigenvectors for Machine Learning 

https://machinelearningmastery.com/introduction-to-eigendecomposition-eigenvalues-and-eigenvectors/

Hierarchical Clustering 3: single-link vs. complete-link 
    
https://www.youtube.com/watch?v=VMyXc3SiEqs

Essence of linear algebra 

https://www.youtube.com/watch?v=fNk_zzaMoSs&list=PLZHQObOWTQDPD3MizzM2xVFitgF8hE_ab