### Hierarchical Cluster Analysis

  - Dados n elementos
  - Dados k grupos
  - Calcula-se a distância entre elementos
    - a distância calculada é a Euclidiana, mas poderia ser outras (fórmula abaixo) ~ triângulo de Pitagoras.

In [1]:
import os, sys
import pandas as pd # pandas e seu alias pd
import numpy as np  # numpy  e seu alias np

from   scipy import stats

from scipy.cluster.hierarchy import dendrogram, linkage
# from sklearn.cluster import AgglomerativeClustering

sys.path.insert(1, '../libs/')
from stat_lib import *

import seaborn as sns

import matplotlib.pyplot as plt # matplotlib e seu alias plt
%matplotlib inline

### Abrindo a tabela de Iris de Fisher & Anderson
  - comprimento (largura) das pétalas (sépalas)
    - calcula-se a distância:
      - presume-se que o quanto mais perto (próximo de zero) será da mesma espécie
      - desenha-se o dendrograma
        - calcula-se erros
        - colore-se as espécies

    - Repare que d_ij == d_ji

In [3]:
fname = "../data/Iris.csv"
if os.path.exists(fname):
    df = pd.read_csv(fname)
else:
    print("Impossível abrir '%s'"%(fname))
    raise('Error')
    
print(df.shape)
df.columns = ['id', 'sepal_len', 'sepal_width', 'petal_len', 'petal_width', 'species']

df.head(6)

(150, 6)


Unnamed: 0,id,sepal_len,sepal_width,petal_len,petal_width,species
0,1,5.1,3.5,1.4,0.2,Iris-setosa
1,2,4.9,3.0,1.4,0.2,Iris-setosa
2,3,4.7,3.2,1.3,0.2,Iris-setosa
3,4,4.6,3.1,1.5,0.2,Iris-setosa
4,5,5.0,3.6,1.4,0.2,Iris-setosa
5,6,5.4,3.9,1.7,0.4,Iris-setosa


In [None]:
df.iloc[51:53]

<center><font size="5">$d_{ij} = \sqrt( (x_{i} - x_{j})^2$</font></center>

### Posso generalizar para K colunas

<center><font size="5">$d_{ij} = \sqrt(\sum_{k=1}^{K}(x_{ik} - x_{jk})^2$</font></center>

onde,
   - i, j são linhas diferentes
   - k são colunas

  - Uma vez calculada a matriz de distância
    - Liga-se 2 a dois os elementos mais próximos
    - Até se chegar a 2 elementos finais ligados por um nó raiz:
      - Este tipo de árvore chama-se **dendrograma**
<br><br>
  - Esta técnica clusteriza elementos com nomes (labels) e posições espaciais conhecidas
    - a diferenca entre as posições espaciais é a distância
    - também pode-se usar a correlação como "uma distância"
<br><br> 
  - Logo, o HCA é uma Clusterização SUPERVISIONADA
  - aqui não separamos dados de treinamento e testes
  - a comparação entre Labels (nomes das folhas = extremidades do dendrograma) e a predição da clusterização deve ser calculada, a média de acerto é a acuracidade (ver mais abaixo)m

![dendrograma](../figure/dendrogram.png)
      
      - Em genética, se o comprimento dos ramos for proporcional ao tempo (tempo de especiação):
        - Este tipo de árvore chamase Árvore Filogenética
        - O nó se chama ancestral
        - O nó mais acima, o que junta todas os nós e folhas, chama-se último ancestral comumn
        - Se um ramo aparece até os dias presentes: "tal espécie ainda existe"
        - Se um ramo pára num passado qualquer: "tal espécie está extinta"
        
      - Na árvore da vida o ancestral comum chama-se **LUCA** !
   
**last universal common ancestor or last universal cellular ancestor (LUCA)**

        
https://en.wikipedia.org/wiki/Last_universal_common_ancestor


### Árovre da Vida de Carl Wöese

Carl Wöese

https://en.wikipedia.org/wiki/Carl_Woese

  - Árvore da vida
    - LUCA
      - Archaea
      - Bacteria
      - Eukariota

![arvore da vida](../figure/Phylogenetic_tree.png)
      

### Vamos ver se o drendograma consegue separar bem as 3 espécies de Iris: Setoxa, Versicolor, Virginica

In [None]:
df.species.unique()

In [None]:
species = list(df.species)

labels = ["%d - %s"%(i, species[i]) for i in range(len(species))]
labels = ['S']*50 + ['E']*50 + ['I']*50

In [None]:
df.columns

In [None]:
data  = df[ ['sepal_len', 'sepal_width', 'petal_len', 'petal_width']]

plt.figure(figsize=(24,14))
colors = ['red', 'blue', 'green']

# https://docs.scipy.org/doc/scipy/reference/generated/scipy.cluster.hierarchy.linkage.html
Z = linkage(data, method='single', metric='euclidean')

# https://docs.scipy.org/doc/scipy/reference/generated/scipy.cluster.hierarchy.dendrogram.html
dicr = dendrogram(Z, labels=labels, leaf_font_size=20, leaf_rotation=0,
                  orientation='top', distance_sort='descending', show_leaf_counts=True);

In [None]:
#-- dicr[0] contém as informações calculadas
dicr.keys()

In [None]:
# predição de espécies ~ nomes (labels) das folhas
dicr['ivl'][:10]

### Cálculo de acuracidade

In [None]:
ok = [True if labels[i] == dicr['ivl'][i] else False for i in range(len(labels))]
ok[:10], np.mean(ok)

In [None]:
"".join(dicr['ivl'])

In [None]:
"".join(labels)

### Posso girar um eixo do dendrograma sem perder nem ganhar informação

In [None]:
labels2 = ['S']*50 + ['I']*50 + ['E']*50

In [None]:
ok = [True if labels2[i] == dicr['ivl'][i] else False for i in range(len(labels2))]
ok[:10], np.mean(ok)