In [None]:
from scipy.spatial.distance import pdist, squareform
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
#cluster com dendrograma
from scipy.cluster.hierarchy import dendrogram, linkage, fcluster
from sklearn.cluster import AgglomerativeClustering
from sklearn.preprocessing import StandardScaler

In [None]:
#database
df = pd.read_excel("databases/pandemicQuarterDatabase.xlsx")

In [None]:
# choosing the pandemic quarter
#1T or 2T or 3T or 4T or 5T or 6T
trimestre = '1T'; 

descricao = "Inf_Income_Education"
nomeimag = 'Renda_Infod_Nivel'

listaEstado = ['AC','AL','AM','AP','BA','CE','DF','ES','GO','MA','MG','MS','MT','PA','PB','PE','PI','PR','RJ','RN','RO','RR','RS','SC','SE','SP','TO']

dadosT = df

#separando por Trimestre
dadosT = dadosT.set_index('TriPand')
dadosT = dadosT.loc[trimestre]

In [None]:
# choosing the variables

columns = ['UF','MediaPerCapita','txInfod','FundC','FundI','MedioComp','MedioI','NA_Nivel','S_Inst','SuperiorC','SuperiorI','dblf', 'dtm', 'MdCasosDia','MedMortesDia' ]
dadosT = pd.DataFrame(dadosT, columns = columns)

In [None]:
estados = dadosT.iloc[:,0].to_list()
movements = dadosT.drop(dadosT.columns[0], axis=1)

In [None]:
# 1) problema/dados
# 2) tratamento dados, padronização
# 3) coeficiente de semelhança - medida de dissimilaridade (euclidiana)
# 4) processo de aglomeração (euclid, average) - dendrograma
#    E k-means (gráfico do cotovelo) para estimar k grupos
#    CCC - Coef. Corr. Cofenética (maior que 0,7)
# 5) análises

In [None]:
# 2) tratamento dados, padronização

scaler = StandardScaler()
movements = scaler.fit_transform(movements)


In [None]:
# 3) coeficiente de semelhança - medida de dissimilaridade (euclidiana)
# MATRIZ DE CORRELAÇÃO EUCLEDIANA

# squareform é para pegar o resultado e mostrar em matriz
mat = pdist(movements, 'euclid')
matDistancias = squareform(mat)

In [None]:
matDistanciastabela = pd.DataFrame(matDistancias,columns=listaEstado, index=listaEstado)

In [None]:
# determinar a correlação cofenética 
# generate the linkage matrix

# metodo single, complete, average, centroid, median, ward
# linkage para agrupamento hierárquico
mergings = linkage(movements, method='average', metric='euclidean')

from scipy.cluster.hierarchy import cophenet
from scipy.spatial.distance import pdist

c, coph_dists = cophenet(mergings, mat)
c

In [None]:
# dataframe com as informações do LINKAGE - vai ser salvo em um arquivo excel
dfmer = pd.DataFrame(mergings)

In [None]:
# set the fig size
fig= plt.figure(figsize=(9,5))

# Plot the dendrogram
dendrogram(mergings,
           labels=estados,
           leaf_rotation=75,
           leaf_font_size=12
          )
#plt.title(f'Dendrogram {trimestre}  {descricao}')
#plt.title(f'Dendrogram')
plt.xlabel('States')
plt.ylabel('Euclidean Distance')

# salvar cada dendrograma
plt.savefig(f'databases/{trimestre}_{nomeimag}.png')
plt.show()

In [None]:
from sklearn.cluster import KMeans
wcss = []
 
for i in range(1, 15):
    kmeans = KMeans(n_clusters = i)
    kmeans.fit(mergings)
    #print i, kmeans.inertia_
    wcss.append(kmeans.inertia_)
    
plt.plot(range(1, 15), wcss)
plt.title('Elbow Method')
plt.xlabel('Clusters Number')
plt.ylabel('Within Sum of Square') #within cluster sum of squares

plt.savefig(f'databases/{trimestre}_{nomeimag}_Elbow.png')
plt.show()

In [None]:
from sklearn.cluster import KMeans
from math import sqrt

In [None]:
def optimal_number_of_clusters(wcss):
    x1, y1 = 2, wcss[0]
    x2, y2 = 20, wcss[len(wcss)-1]

    distances = []
    for i in range(len(wcss)):
        x0 = i+2
        y0 = wcss[i]
        numerator = abs((y2-y1)*x0 - (x2-x1)*y0 + x2*y1 - y2*x1)
        denominator = sqrt((y2 - y1)**2 + (x2 - x1)**2)
        distances.append(numerator/denominator)
    
    return distances.index(max(distances)) + 2

In [None]:
# calculando a quantidade ótima de clusters
n = optimal_number_of_clusters(wcss)

In [None]:
# criterio de numero de clusters
rotulos_k = fcluster(mergings, t=n, criterion='maxclust')

In [None]:
# https://medium.com/@isnardgurgel/an%C3%A1lises-com-algoritmos-de-clustering-40d52f36f67c

# Precisamos estabelecer um corte que otimize e capture o que estamos buscando (a covariância dos ativos).

# fazendos as importações necessárias
from scipy.cluster.hierarchy import fcluster

# Escolhendo o ponto de corte da nossa árvore do dendrograma
# Faça uma alteração nesse valor mudam os clusters
#labels = rotulos_dist 
labels = rotulos_k

# criando um dataframe com as labes e as empresas= df
dfCluster = pd.DataFrame({'Clusters': labels, 'Estados': estados})

# Criando uma crosstab: ct
ct = pd.crosstab(dfCluster['Clusters'], dfCluster['Estados'])

# transformando a crosstab em um cluster map
sns.clustermap(ct, figsize=(9, 5), cbar_pos = None, dendrogram_ratio=(0.001))

plt.savefig(f'databases/{trimestre}_{nomeimag}_Map.png')

In [None]:
dfmer = dfmer.append(pd.DataFrame(dfCluster))                          
dfmer = dfmer.append(pd.DataFrame(matDistanciastabela))

In [None]:
dfmer.to_excel(f'databases/{trimestre}_{nomeimag}.xlsx', encoding='utf-8', index=False)