# DISRUPTIVE ARCHITECTURES: IOT, IOB & GENERATIVA IA
# Checkpoint Parte 1 - Classificação

## Integrantes:

#### Breno Lemes Santiago RM: 552270
#### Felipe Guedes Gonçalves RM: 550906
#### Luiz Fellipe Soares de Sousa Lucena RM: 551365
#### Nina Rebello Francisco RM: 99509
#### Vitória Maria de Camargo RM: 552344

Aprendizado Não Supervisionado - CLUSTERING / AGRUPAMENTO

O K-Means é um algoritmo de aprendizado de máquina não supervisionado que agrupa dados em um número k de clusters. O número de clusters é definido pelo usuário e o algoritmo tentará agrupar os dados mesmo que esse número não seja o ideal para o caso específico. Portanto, temos que criar uma técnica que nos ajude a decidir quantos clusters devemos usar para o modelo K-Means.

Referências:

https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html

https://www.youtube.com/watch?v=FqIGui0rwh4 (How to Choose the Number of Clusters)

https://www.analyticsvidhya.com/blog/2021/01/in-depth-intuition-of-k-means-clustering-algorithm-in-machine-learning/

https://medium.com/pizzadedados/kmeans-e-metodo-do-cotovelo-94ded9fdf3a9

https://www.kaggle.com/code/eriveltonguedes/7-clusteriza-o-k-means-erivelton


In [None]:
# Importando os pacotes:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Importando o algoritmo K-Means:
from sklearn.cluster import KMeans

# Métrica de avaliação para modelos de clustering:
from sklearn.metrics import silhouette_score

# Vamos utilizar o dataset Iris dentro do pacote datasets do sklearn:
from sklearn import datasets

# O pacote warnings inibe a visualização de avisos nos outputs do Colab.
import warnings
warnings.filterwarnings('ignore')

In [None]:
# Importando a base de dados
# Criamos a variável dados para receber o conjunto de dados
dados = pd.read_csv("/content/household_power_consumption.csv")

In [None]:
dados

In [None]:
# Convertendo a variável dados em um dicionário Python
dados = dict(dados)

In [None]:
dados

In [None]:
type(dados)

In [None]:
# Visualizando as features:
dados['Global_active_power']

In [None]:
# Visualizando o target:
dados['Sub_metering_2']

In [None]:
# Criamos o dataframe df apenas com as colunas referentes às features:
df = pd.DataFrame(dados, columns=["Global_active_power", "Sub_metering_2"])
df

**Método Elbow**

O método Elbow é uma técnica muito popular e a ideia é executar o agrupamento k-means para um intervalo de clusters k (digamos de 1 a 10) e para cada valor, estamos calculando a soma das distâncias ao quadrado de cada ponto até seu centro atribuído (distorções).

In [None]:
df.replace('?', pd.NA, inplace=True)
df = df.apply(pd.to_numeric, errors='coerce')
df.fillna(df.mean(), inplace=True)
df


In [None]:
distorcoes = []
K = range(1,10)
for k in K:
    modelo01 = KMeans(n_clusters=k)
    modelo01.fit(df)
    distorcoes.append(modelo01.inertia_)

# Observação:
# O método "inertia_" permite calcular as distorções, ou seja,
# Soma das distâncias ao quadrado das amostras até o centro do cluster (centroides) mais próximo,
# ponderadas pelos pesos das amostras, se fornecidas

In [None]:
distorcoes

Observando a Curva de Elbow

In [None]:
plt.figure(figsize=(10,5))
plt.plot(K, distorcoes, '-bx')

# Define os labels do eixos do gráfico:
plt.xlabel('K: número de clusters')
plt.ylabel('Distorção')

# Define um título para o gráfico:
plt.title('Método Elbow aplicado para o valor otimizado de k')

# Mostra o gráfico:
plt.show()

In [None]:
modelo_KMeans = KMeans(n_clusters=2)
modelo_KMeans.fit(df)

In [None]:
# A partir do modelo treinado, fazemos as predições dos clusters e criamos uma coluna chamada "k_means"
df['clusters'] =modelo_KMeans.predict(df)

In [None]:
df['clusters'].unique()

In [None]:
# Adicionando a coluna "target" com os dados originais do dataset, para podermos comparar...
df['target'] = dados['Sub_metering_2']

In [None]:
df['target'] = pd.to_numeric(df['target'], errors='coerce')
df['target'].fillna(df['target'].mean(), inplace=True)

In [None]:
# Comparando graficamente os dados originais e a coluna de clusters criada pelo algoritmo K-Means


fig, axes = plt.subplots(1, 2, figsize=(12,5))

axes[0].scatter(df['Global_active_power'], df['Sub_metering_2'], c=df['target'], cmap=plt.cm.Set1)
axes[1].scatter(df['Global_active_power'], df['Sub_metering_2'], c=df['clusters'], cmap=plt.cm.Set2)
axes[0].set_title('Coluna "target" original', fontsize=13)
axes[1].set_title('Clusters criados pelo algoritmo K_Means', fontsize=13)

Avaliação do modelo de Clustering

Silhouette Score é uma ferramenta para avaliar a adequação dos resultados de agrupamento, fornecendo uma medida quantitativa de quão bem definidos e distintos são os agrupamentos.

Fontes de pesquisa:

https://www.educative.io/answers/what-is-silhouette-score

https://en.wikipedia.org/wiki/Silhouette_(clustering)



In [173]:
silhouette = silhouette_score(df, df['clusters'])
print(f"Silhouette score: {silhouette:.4f}")

KeyboardInterrupt: 

**DESAFIO:**

Utilizando o dataset "Mall Customers", disponível em https://www.kaggle.com/datasets/kandij/mall-customers, agrupar os clientes com base nas características de receita anual (Annual Income (k$)) e pontuação de gastos (Spending Score).

- Determine o valor ideal de k, com base no método Elbow.
- Treine o modelo usando o algoritmo K-Means e avalie a qualidade dos clusters, utilizando a métrica Silhoutte Score.