# Aula11_analise_hierarquica_dendrograma_mapas_de_calor


Análises de dendrogramas e mapas de calor efetuam agrupamentos hierarquicos (clusters ou classes) sobre dados quantitativos -- clusters são formados por similaridade (descubre-se qual caso/variável se assemelha mais com o outro; descobrindo a similaridade, fundem-se em clusters). Caso a variável esteja em formato categórico em relação aos indivíduos/casos, deve-se realizar redefinição de casos a partir de uma das variáveis do banco de dados e criar uma tabela cruzada para que se possibilite a análise. A finalidade dessas análises é parear variáveis e casos para definir quais são os que possuem maior verossimilhança.


Passos para realização de interpretações em análises hierárquicas via dendrogramas e mapas de calor:


1) Observar se os casos estão adequados para a realização das análises; caso os dados estejam muito dispersos ou hajam casos extremos, necessita-se de uma padronização (uma forma indicada é a utilização de z-score);

2) após padronização (caso tenha sido necessário), agrupa-se clusters formados por similaridade;

3) as duas técnicas de análise de distância entre clusters são 1) distância euclidiana e 2) manhattan (ambas são arbitrariamente escolhidas e muito parecidas em seus algoritmos, recomenda-se fazer uso das duas e observar qual dá maior suporte às interpretações);

4) com todos os agrupamentos feitos, a melhor forma de observá-los se dá por meio da altura dos galhos no dendrograma;

5) a partir do momento em que se agrupa conjuntos similares e forma-se clusters, deve-se observar com quais outros (clusters) ele deve ser comparado (interpretação: dos primeiros casos aos últimos; dos casos mais distantes aos mais próximos; dos que formaram blocos-padrão; dos que demonstraram idiosincrasias e são dessemelhantes em relação aos demais);  

6) a definição de K (clusters/classes) em dendrogramas pode ser realizada por meio de alguns comandos, mas geralmente a ideia do dendrograma é fazer um rastreamento de todas as ramificações possíveis de um conjunto de dados (ou seja, poder-se observar quais são os agrupamentos que se formam e não delimitar quanto o pesquisador quer, como é o caso dos K-Means, que serão vistos na próxima aula).

In [None]:
library(tidyverse)

#### Primeiro caso: fragmento de banco de dados sobre prefeitos eleitos em 2016  

Banco de dados: 

In [None]:
df <- read_csv("Aula11_analise_hierarq_prefeitos.csv")

df

Visto que o banco de dados é categórico e se quer realizar uma análise hierárquica, é necessário fazer um redesenho da análise ou abrir mão do método. 

Solução: refefinir as variáveis a partir das categorias e fazer uma tabela cruzada para agrupar: 

- Variável dependente: Ideologia Partidária
- Váriáveis independentes: percentuais de 1) Classe da Cidade, 2) Região Geoeconômica do IBGE e 3) Escolaridade em cada categoria de ideologia partidária.

Assim sendo, proporções de categorias ideológicas por em cada categoria das variáveis independentes:

In [None]:
dfprop <- read_csv("Aula11_analise_hierarq_prefeitos_matriz_var_dep_indep.csv")
dfprop

In [None]:
# Clusterização Hierárquica com distancia manhattan e metodo Ward 

# matriz de distância
d <- dist(dfprop, method = "manhattan") 
fit <- hclust(d, method="average")

#Gráfico
plot(fit) 

# definição de 4 clusters
groups <- cutree(fit, k=4) 

# opcional: delimitação de 4 clusters em vermelho (base de origem)
rect.hclust(fit, k=4, border="red")

In [None]:
# Clusterização Hierárquica com distancia euclidiana e metodo médio

# matriz de distância
d <- dist(dfprop, method = "euclidian") 
fit <- hclust(d, method="average")

#Gráfico
plot(fit) 

# definição de 4 clusters
groups <- cutree(fit, k=4) 

# opcional: delimitação de 4 clusters em vermelho (base de origem)

rect.hclust(fit, k=4, border="red")

A principal característica da distância Manhatann é ser proveniente de uma soma da diferença entre todas as distâncias das variáveis, e enquanto a distância euclidiana busca apresentar as distâncias mais simples entre as variáveis após a diagonalização -- entre quem trabalha com sistematização de redes neurais, há avaliação de que a distância euclidiana promove menos distorções (Medrano-Marques & Delbrio 1999). Ela é recomendável também por ser mais simples e direta na exposição de como os dados irão se hierarquizar. Contudo, recomenda-se em AED a utilização das duas, para fins de comparação e avaliação do melhor diagnóstico.

### Mapa de Calor 


Análise de padrões em ministérios econômicos brasileiros. 

Casos: 

- nomeações. 



Variáveis: 

a) meses de permanência em secretaria; 

b) meses de permanência de ministro na pasta da nomeação;

c) idade do(a) nomeado(a);

d) tempo de carreira prévio (t1: ano de saída da graduação (ou ensino médio aos s/g); t2: ano da nomeação).

In [None]:
df2 <- read_csv("Aula11_analise_hierarq.csv")
df2

n.row(df2)

andf2 <- as.matrix(df2) 

heatmap(andf2)

Resultados: observa-se no mapa de calor a independência entre a variável "tempo de permanência do ministro" e as demais.
"Idade" demonstrou independência em relação às outras duas: "tempo de permanência e "tempo previo de carreira"

##### Mapa de calor sobre os padrões ideológicos de prefeitos eleitos no Brasil: 

In [None]:
andf3 <- as.matrix(dfprop[,2:10]) 

heatmap(andf3)