## Installing libraries

In [1]:
!pip install holoviews
!pip install hvplot



In [None]:
# Imports
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA
import seaborn as sns
import matplotlib.pyplot as plt
import hvplot.pandas

In [None]:
# Carregando os dados e definindo índice
data = pd.read_csv("crypto_market_data.csv", index_col="coin_id")

data.head()

In [None]:
# Prints a summary of the data, including the mean, standard deviation, minimum, maximum, and number of observations for each column.
# Plots a histogram of each column in the DataFrame.
print(data.describe())
data.hist(figsize=(10, 10))
plt.show()

In [None]:
# Função para encontrar o melhor valor de k usando o método do cotovelo
def find_best_k(data, range_k):
    scaler = StandardScaler()
    scaled_data = scaler.fit_transform(data)
    scaled_data_df = pd.DataFrame(scaled_data, index=data.index, columns=data.columns)

    inertia_values = []
    for num_clusters in range_k:
        kmeans = KMeans(n_clusters=num_clusters, random_state=42)
        kmeans.fit(scaled_data_df)
        inertia_values.append(kmeans.inertia_)

    # Plotando o método do cotovelo
    plt.plot(range_k, inertia_values, marker='o')
    plt.xlabel("Number of clusters (k)")
    plt.ylabel("Inertia")
    plt.title("Elbow Method for Optimal k")
    plt.show()

    # Retornando o melhor valor de k
    best_k = 4
    return best_k

In [None]:
# Função para realizar o clustering e visualizar os resultados com hvPlot
def cluster_and_visualize(data, best_k, pca=False):
    # Prepara os dados
    scaler = StandardScaler()
    scaled_data = scaler.fit_transform(data)
    scaled_data_df = pd.DataFrame(scaled_data, index=data.index, columns=data.columns)

    # Inicializa o modelo K-means
    kmeans = KMeans(n_clusters=best_k, random_state=42)

    # Aplica PCA se necessário
    if pca:
        pca_model = PCA(n_components=3)
        pca_data = pca_model.fit_transform(scaled_data_df)
        scaled_data_df = pd.DataFrame(pca_data, index=data.index, columns=["PC1", "PC2", "PC3"])

    # Ajusta o modelo K-means
    cluster_labels = kmeans.fit_predict(scaled_data_df)

    # Adiciona coluna de clusters ao DataFrame original
    data["cluster"] = cluster_labels
    data_with_clusters = data.copy()


    # Adiciona colunas PCA ao DataFrame se necessário
    if pca:
        data_with_clusters[["PC1", "PC2", "PC3"]] = scaled_data_df[["PC1", "PC2", "PC3"]]

    # Visualiza os clusters com hvPlot
    if pca:
        plot = data_with_clusters.hvplot.scatter(x="PC1", y="PC2", by="cluster", hover_cols=["crypto_name"])
    else:
        plot = data_with_clusters.hvplot.scatter(x="price_change_percentage_24h", y="price_change_percentage_7d", by="cluster", hover_cols=["crypto_name"])

    return plot

In [None]:
# Plotando  clusters usando seaborn
sns.scatterplot(data=data_with_clusters, x="price_change_percentage_24h", y="price_change_percentage_7d", hue="cluster")
plt.title("Cryptocurrency Clusters (Original Data)")
plt.show()

# Encontrando o melhor valor de k usando o método do cotovelo
best_k_original_data = find_best_k(data, range_k=range(1, 11))

# Realizando o clustering e visualizando com dados originais
plot_original_data = cluster_and_visualize(data, best_k_original_data)

# Otimizando clusters com PCA
pca_model = PCA(n_components=3)
pca_data = pca_model.fit_transform(data)
explained_variance = pca_model.explained_variance_ratio_.sum()

# Criando DataFrame com dados da PCA
pca_df = pd.DataFrame(pca_data, index=data.index, columns=["PC1", "PC2", "PC3"])

# Encontrando o melhor valor de k usando o método do cotovelo com dados da PCA
best_k_pca_data = find_best_k(pca_df, range_k=range(1, 11))

# Realizando o clustering e visualizando com dados da PCA
plot_pca_data = cluster_and_visualize(data, best_k_pca_data, pca=True)

# Visualizando e comparando os resultados
composite_plot_elbow = plot_original_data + plot_pca_data
composite_plot_elbow.options(width=500, height=400, title="Elbow Method Comparison")  # Ajuste o tamanho conforme necessário

In [None]:
# Imprime o melhor valor para k usando os dados originais
best_k_original = 4
print("O melhor valor para k usando os dados originais é:", best_k_original)

# Imprime o melhor valor para k usando o PCA
best_k_pca = 4
print("O melhor valor para k usando o PCA é:", best_k_pca)

# Responder à pergunta sobre o impacto de usar menos características na análise de clusters
impact_of_fewer_features = "Ao usar menos características, a variabilidade dos dados é reduzida, impactando a formação dos clusters."
print(impact_of_fewer_features)