In [None]:
# Hierarchical Clustering
# Change the NAME.csv

import pandas as pd
from sklearn.cluster import AgglomerativeClustering
import matplotlib.pyplot as plt
from scipy.cluster.hierarchy import dendrogram, linkage

# Carregar o arquivo CSV
try:
    df = pd.read_csv('NAME.csv')
except FileNotFoundError:
    print("Erro: Arquivo NAME.csv não encontrado.")
    # Crie um dataframe dummy para demonstração se o arquivo não existir
    data = {'Classe': ['Classe_A', 'Classe_B', 'Classe_A', 'Classe_C', 'Classe_B'],
            2000: [0.1, 0.2, 0.15, 0.3, 0.25],
            1500: [0.5, 0.6, 0.55, 0.4, 0.65],
            1000: [0.8, 0.7, 0.75, 0.9, 0.6]}
    df = pd.DataFrame(data)
    print("Criado um dataframe dummy para demonstração.")

# Imprimir as colunas do DataFrame para verificar o nome correto da coluna de classe
print("Colunas do DataFrame:")
print(df.columns)

# Separar as classes dos dados espectrais
# Substitua 'Classe' pelo nome da coluna que contém a informação da classe no seu arquivo CSV
# Por exemplo, se a coluna for 'Class', use df['Class']
# Você pode verificar a saída do print(df.columns) acima para o nome correto.
try:
    classes = df['Classe'] # Tente usar 'Classe' primeiro, como no código original
    classe_column_name = 'Classe'
except KeyError:
    # Se 'Classe' não for encontrada, tente outros nomes comuns ou inspecione a saída do print
    # Para este exemplo, vamos assumir que a coluna é 'Class' com base na descrição e no DataFrame dummy
    try:
        classes = df['Class']
        classe_column_name = 'Class'
    except KeyError:
        print("Erro: Não foi possível encontrar a coluna 'Classe' ou 'Class'. Por favor, verifique as colunas do seu arquivo CSV.")
        # Adicione aqui a lógica para lidar com a falta da coluna,
        # por exemplo, sair ou criar uma coluna dummy
        exit()


dados_espectrais = df.drop(classe_column_name, axis=1)

# Converter os dados espectrais para um array numpy
X = dados_espectrais.values

# Realizar o Hierarchical Clustering
# Aqui, usamos AgglomerativeClustering do scikit-learn para agrupar os dados.
# O linkage='ward' minimiza a variância dos clusters que estão sendo mesclados.
# O distance_threshold=0 e n_clusters=None permite obter a árvore completa.
model = AgglomerativeClustering(distance_threshold=0, n_clusters=None, linkage='ward')
model = model.fit(X)

# Gerar a matriz de ligação para o dendrograma
# A função linkage da scipy é necessária para plotar o dendrograma.
linked = linkage(X, 'ward')

# Plotar o dendrograma
plt.figure(figsize=(10, 7))
dendrogram(linked,
           orientation='top',
           labels=classes.tolist(), # Usar as classes como rótulos
           distance_sort='descending',
           show_leaf_counts=True)
plt.title('Hierarchical Clustering Dendrogram')
plt.xlabel('Amostras')
plt.ylabel('Distância Euclidiana')
plt.show()

# Você pode acessar os resultados do clustering se definir n_clusters
# Exemplo: para 3 clusters
# model_3_clusters = AgglomerativeClustering(n_clusters=3, linkage='ward')
# clusters = model_3_clusters.fit_predict(X)
# print("\nClusters atribuidos para cada amostra (3 clusters):")
# print(clusters)