<a href="https://colab.research.google.com/github/felipe-luis00/Relatorio_Tecnico_kNN_Instagram.pdf/blob/main/Implementa%C3%A7%C3%A3o_e_An%C3%A1lise_do_Algoritmo_de_K_means_com_o_Dataset_Human_Activity_Recognition_ipynb.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
# Human Activity Recognition using Smartphones Dataset - Projeto com K-means

# Etapa 1: Preparação do Ambiente
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import silhouette_score

# Montar o Google Drive (caso necessário)
# from google.colab import drive
# drive.mount('/content/drive')

# Etapa 2: Carregar os Dados
# Substitua o caminho pelo local correto do arquivo no Colab
data_dir = "/content/UCI HAR Dataset/"  # Atualize este caminho conforme necessário

# Carregar os arquivos de interesse
features = pd.read_csv(f"{data_dir}/features.txt", sep="\s+", header=None, names=["index", "feature"])
activity_labels = pd.read_csv(f"{data_dir}/activity_labels.txt", sep="\s+", header=None, names=["id", "activity"])

# Carregar dados de treinamento
X_train = pd.read_csv(f"{data_dir}/train/X_train.txt", sep="\s+", header=None, names=features['feature'])
y_train = pd.read_csv(f"{data_dir}/train/y_train.txt", header=None, names=["activity"])

# Carregar dados de teste
X_test = pd.read_csv(f"{data_dir}/test/X_test.txt", sep="\s+", header=None, names=features['feature'])
y_test = pd.read_csv(f"{data_dir}/test/y_test.txt", header=None, names=["activity"])

# Consolidar os dados
X = pd.concat([X_train, X_test], ignore_index=True)
y = pd.concat([y_train, y_test], ignore_index=True)

# Etapa 3: Análise Exploratória e Pré-Processamento
print("Formato dos Dados:", X.shape)
print("Exemplo de Variáveis:", features.head())

# Normalização dos dados
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Reduzir a dimensionalidade com PCA para visualização
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

plt.scatter(X_pca[:, 0], X_pca[:, 1], alpha=0.5)
plt.title("Dados após PCA (2 componentes)")
plt.xlabel("Componente Principal 1")
plt.ylabel("Componente Principal 2")
plt.show()

# Etapa 4: Implementação do K-means
# Escolher o número ideal de clusters (método do cotovelo)
inertia = []
sil_scores = []
k_values = range(2, 11)

for k in k_values:
    kmeans = KMeans(n_clusters=k, init='k-means++', random_state=42)
    kmeans.fit(X_scaled)
    inertia.append(kmeans.inertia_)
    sil_scores.append(silhouette_score(X_scaled, kmeans.labels_))

# Gráfico do Método do Cotovelo
plt.figure(figsize=(10, 5))
plt.plot(k_values, inertia, marker='o')
plt.title("Método do Cotovelo")
plt.xlabel("Número de Clusters (K)")
plt.ylabel("Inércia")
plt.show()

# Gráfico do Silhouette Score
plt.figure(figsize=(10, 5))
plt.plot(k_values, sil_scores, marker='o', color='red')
plt.title("Silhouette Score")
plt.xlabel("Número de Clusters (K)")
plt.ylabel("Silhouette Score")
plt.show()

# Escolher K baseado nos gráficos (por exemplo, K=6)
optimal_k = 6
kmeans = KMeans(n_clusters=optimal_k, init='k-means++', random_state=42)
kmeans.fit(X_scaled)

# Etapa 5: Análise dos Clusters
# Adicionar labels dos clusters aos dados
X['Cluster'] = kmeans.labels_

# Visualizar os clusters em 2D com PCA
plt.figure(figsize=(10, 7))
for cluster in range(optimal_k):
    cluster_data = X_pca[kmeans.labels_ == cluster]
    plt.scatter(cluster_data[:, 0], cluster_data[:, 1], label=f"Cluster {cluster}")

plt.title("Clusters Identificados (PCA)")
plt.xlabel("Componente Principal 1")
plt.ylabel("Componente Principal 2")
plt.legend()
plt.show()

# Conclusão: Análise Final
print("Silhouette Score Final:", silhouette_score(X_scaled, kmeans.labels_))


FileNotFoundError: [Errno 2] No such file or directory: '/content/UCI HAR Dataset//features.txt'