<a href="https://colab.research.google.com/github/felipe-luis00/Projeto-Implementa-o-e-An-lise-do-Algoritmo-de-K-means-com-o-Dataset-Human-Activity-Recognition/blob/main/construa_um_codigo_completo_com_base_a_base_de_da_.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Construindo um Código Completo para o Reconhecimento de Atividades Humanas

**Excelente!** Com base na sua proposta e nas discussões anteriores, vamos construir um código Python completo, utilizando a biblioteca Scikit-learn e o conjunto de dados UCI HAR.

**Importante:**
* **Download do Dataset:** Certifique-se de ter baixado o dataset UCI HAR e colocado-o em um diretório conhecido.
* **Bibliotecas:** Instale as bibliotecas necessárias: `pandas`, `numpy`, `scikit-learn`, e `matplotlib`.

In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
import matplotlib.pyplot as plt

# Carregar os dados
data = pd.read_csv("seu_caminho/UCI_HAR_Dataset/train/X_train.txt", delim_whitespace=True, header=None)
y = pd.read_csv("seu_caminho/UCI_HAR_Dataset/train/y_train.txt", header=None)

# Normalizar os dados
scaler = StandardScaler()
data_scaled = scaler.fit_transform(data)

# Método do cotovelo para encontrar o número ideal de clusters
wcss = []
for i in range(1, 11):
    kmeans = KMeans(n_clusters=i, init='k-means++', random_state=42)
    kmeans.fit(data_scaled)
    wcss.append(kmeans.inertia_)

plt.plot(range(1, 11), wcss)
plt.title('Método do Cotovelo')
plt.xlabel('Número de clusters')
plt.ylabel('WCSS')
plt.show()

# Escolher o número de clusters com base no gráfico
k = 3  # Exemplo, ajuste de acordo com o gráfico

# Criar o modelo K-means
kmeans = KMeans(n_clusters=k, init='k-means++', random_state=42)

# Ajustar o modelo aos dados
kmeans.fit(data_scaled)

# Obter os rótulos dos clusters
labels = kmeans.labels_

# Avaliar os resultados
silhouette_avg = silhouette_score(data_scaled, labels)
print("Silhouette Score:", silhouette_avg)

# Visualização (Exemplo com PCA para redução de dimensionalidade)
from sklearn.decomposition import PCA

pca = PCA(n_components=2)
principalComponents = pca.fit_transform(data_scaled)
principalDf = pd.DataFrame(data = principalComponents
             , columns = ['principal component 1', 'principal component 2'])

finalDf = pd.concat([principalDf, pd.DataFrame({'cluster':labels})], axis = 1)

import seaborn as sns
plt.figure(figsize=(16,8))
sns.scatterplot(x='principal component 1', y='principal component 2', hue='cluster', data=finalDf)
plt.title('Visualização dos Clusters')
plt.show()

  data = pd.read_csv("seu_caminho/UCI_HAR_Dataset/train/X_train.txt", delim_whitespace=True, header=None)


FileNotFoundError: [Errno 2] No such file or directory: 'seu_caminho/UCI_HAR_Dataset/train/X_train.txt'

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


**Explicação:**
1. **Carregamento dos Dados:** Carrega os dados de treinamento (features e rótulos) em dataframes Pandas.
2. **Normalização:** Normaliza os dados utilizando o StandardScaler para garantir que todas as features tenham a mesma escala.
3. **Método do Cotovelo:** Calcula a soma dos quadrados das distâncias intra-cluster (WCSS) para diferentes valores de K e plota o gráfico para identificar o ponto de inflexão (cotovelo).
4. **Criação do Modelo K-means:** Cria um modelo K-means com o número de clusters escolhido.
5. **Ajuste do Modelo:** Ajusta o modelo aos dados normalizados.
6. **Avaliação:** Calcula o silhouette score para avaliar a qualidade dos clusters.
7. **Visualização:** Utiliza PCA para reduzir a dimensionalidade dos dados para 2D e plota os clusters em um gráfico de dispersão.

**Observações:**
* **Caminho do arquivo:** Substitua "seu_caminho" pelo caminho correto para o seu dataset.
* **Número de clusters:** Ajuste o valor de `k` de acordo com o gráfico do método do cotovelo.
* **Visualização:** Explore outras técnicas de visualização como t-SNE ou UMAP para diferentes tipos de dados.
* **Outras métricas:** Experimente outras métricas de avaliação como Calinski-Harabasz Index e Davies-Bouldin Index.
* **Algoritmos:** Explore outros algoritmos de clustering como DBSCAN ou Hierarchical Clustering.
* **Validação cruzada:** Utilize a validação cruzada para avaliar a performance do modelo em dados não vistos.

**Próximos Passos:**
* **Análise dos Clusters:** Analise as características de cada cluster para entender quais atividades eles representam.
* **Melhorias:** Experimente diferentes configurações de hiperparâmetros, técnicas de pré-processamento e algoritmos de clustering.
* **Outras tarefas:** Utilize os resultados do clustering para outras tarefas como classificação ou previsão.

**Este código fornece uma base sólida para o reconhecimento de atividades humanas utilizando o conjunto de dados UCI HAR. Adapte-o às suas necessidades e explore as diversas possibilidades que o aprendizado de máquina oferece!**

**Gostaria de explorar alguma parte do código com mais detalhes ou adicionar alguma funcionalidade?**

<div class="md-recitation">
  Sources
  <ol>
  <li><a href="https://statisticallyrelevant.com/k-means-clustering-in-python/">https://statisticallyrelevant.com/k-means-clustering-in-python/</a></li>
  <li><a href="https://code.likeagirl.io/customer-segmentation-analysis-dda6f156a41d">https://code.likeagirl.io/customer-segmentation-analysis-dda6f156a41d</a></li>
  <li><a href="https://github.com/LucasMatheusSA/DataAnalytics-Python-R">https://github.com/LucasMatheusSA/DataAnalytics-Python-R</a></li>
  <li><a href="https://towardsdatascience.com/pca-using-python-scikit-learn-e653f8989e60">https://towardsdatascience.com/pca-using-python-scikit-learn-e653f8989e60</a></li>
  </ol>
</div>