<a href="https://colab.research.google.com/github/MathMachado/DSWP/blob/master/Notebooks/NB15_ML_UL_APRENDIZAGEM_NAO_SUPERVISIONADA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# MACHINE LEARNING | APRENDIZAGEM NÃO SUPERVISIONADA | CLUSTERING & PCA (Principal Components Analysis)

## Leitura Complementar
https://scikit-learn.org/stable/

# Introdução aos Algoritmos de Aprendizagem não-supervisionada
* Unsupervised Learning são um tipo de Machine Learning que trabalha com dataframes não-rotulados;
* Intuitivamente, os modelos desta classe tentam estabelecer relacionamento entre os dados;
* Algoritmo mais comum: clustering.

# Clustering
* Agrupa objetos similares.
* Aplicações de Clustering:
  - Rotular os dados;
  - Entender padrões escondindos nos dados;

## Exemplo

### Carrega as bibliotecas

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

### Carrega os dados

In [2]:
from sklearn.datasets.samples_generator import make_blobs
X, y = make_blobs(n_features = 2, n_samples = 1000, centers = 3, cluster_std = 1, random_state = 20111974)

ModuleNotFoundError: No module named 'sklearn.datasets.samples_generator'

In [None]:
X

In [None]:
y[:30]

### Relação entre as variáveis

In [None]:
f, ax = plt.subplots(figsize=(15, 7))
sns.scatterplot(x = X[:, 0], y = X[:, 1], hue = y, data = X)

### Distância ou Similaridade
* Dados do mesmo grupo/cluster são similares ao passo que dados pertencentes a diferentes grupos/clusters são diferentes;
* Precisamos medir a similaridade e diferenças entre os dados;
* Considere as seguintes medidas:

 - Distância de Minkowiski:

 <img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/4060cc840aeab9e41b5e47356088889e2e7a6f0f">

 - Se p = 1 --> Distância de Manhattan;
 - Se p = 2 --> Euclidiana.

 - Cosseno: Adequado para dados de texto

 <img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/1d94e5903f7936d3c131e040ef2c51b473dd071d">

In [None]:
from sklearn.metrics.pairwise import euclidean_distances, cosine_distances, manhattan_distances
from scipy.spatial.distance import cdist

## Tipos de Clustering
* Métodos de particionamento:
  - Particionar N pontos em k partições.
  - Inicialmente, partições aleatórias são criadas e gradualmente os dados são movidos para outras partições;
  - Usa-se as distâncias entre os pontos para otimizar os clusters;
  - Exemplo: KMeans
* Métodos Hierárquicos
  - Decomposição do dataframe;
  - Approach 1: assume cada dado individual como cluster e na sequência os dados vão sendo agrupados conforme a similaridade;
  - Approach 2: Começa com 1 cluster para todos os dados e, na sequência, particiona-se em clusters menores;
* Métodos Density-based
  - Vai acrescentando dados ao cluster até que a densidade exceda um certo threashold.

## Métodos de Particionamento
### KMeans
> K-means é um algoritmo simples de Machine Learning que agrupa um conjunto de dados ou pontos em k clusters especificado pelo usuário.
>> O algoritmo é um tanto ingênuo, pois agrupa os dados em k clusters, mesmo que k não seja o número certo de agrupamentos a serem usados. Portanto, ao usar k-means, os usuários precisam de alguma maneira de determinar se estão usando o número certo de clusters.
>>> Formas de se determinar o número ideal de clusters:
* **Método de Elbow** - um dos métodos mais populares para determinar o valor ótimo de k;
* **Silhoute Score**;
* **Calinski Harabaz Score**;
* **Dendograma**.

#### Como funciona o k-Means
Animação para entendermos K-Means: http://tech.nitoyon.com/en/blog/2013/11/07/k-means/

#### Elbow Method
* O método de Elbow calcula:
    * **Distorção**: é a média das distâncias dos centros dos respectivos clusters. Normalmente, a métrica de distância euclidiana é usada.
    * **Inércia**: É a soma das distâncias quadradas das amostras ao centro de aglomerado mais próximo.
* Para determinar o número ideal de clusters, selecione o valor de k no gráfico de Elbow a partir do qual a distorção/inércia começa a diminuir de maneira linear.

### Algoritmo K-Means
1. Inicializa k centroides de forma aleatória;
2. Atribui cada dado/ponto ao centroide mais próximo, criando clusters;
3. Recalcula centroide, que é a média de todos os dados/pontos que pertencem a cada cluster;
4. Repete os passos 2 e 3 até que não se tenha dados/pontos para atribuir aos centroides;

* Os centróides são escolhidos de forma a minimizar a soma dos quadrados do cluster.

In [None]:
from sklearn.datasets import make_blobs, make_moons

In [None]:
# Função adaptada de: https://www.geeksforgeeks.org/elbow-method-for-optimal-value-of-k-in-kmeans/
def Numero_Clusters_Elbow(X):
    distortions = []
    inertias = []
    mapping1 = {}
    mapping2 = {}
    K = range(1,10)
    for k in K:
        #Building and fitting the model
        kmeanModel = KMeans(n_clusters=k).fit(X)
        kmeanModel.fit(X)
        distortions.append(sum(np.min(cdist(X, kmeanModel.cluster_centers_, 'euclidean'),axis=1)) / X.shape[0])
        inertias.append(kmeanModel.inertia_)
        mapping1[k] = sum(np.min(cdist(X, kmeanModel.cluster_centers_, 'euclidean'),axis=1)) / X.shape[0]
        mapping2[k] = kmeanModel.inertia_

    # Using the different values of Distortion
    print('Cálculo da Distorção:')
    for key,val in mapping1.items():
        print(str(key)+' : '+str(val))

    plt.plot(K, distortions, 'bx-')
    plt.xlabel('Values of K')
    plt.ylabel('Distortion')
    plt.title('The Elbow Method using Distortion')
    plt.show()

    # Using the different values of Inertia
    print('Cálculo da Inertia:')
    for key,val in mapping2.items():
        print(str(key)+' : '+str(val))

    plt.plot(K, inertias, 'bx-')
    plt.xlabel('Values of K')
    plt.ylabel('Inertia')
    plt.title('The Elbow Method using Inertia')
    plt.show()

### Exemplo 1

In [None]:
X_ex1, y_ex1 = make_blobs(n_features = 2 , n_samples = 1000, cluster_std = .5, random_state = 20111974)
X_ex1

In [None]:
f, ax = plt.subplots(figsize = (15, 7))
plt.scatter(X_ex1[:, 0], X_ex1[:, 1], s = 10)

Quantos clusters tem a figura acima?

In [None]:
Numero_Clusters_Elbow(X_ex1)

Os gráficos de Elbon/Inércia apontam que o número ideal de clusters são 2. Entretanto, vamos pedir ao KMeans para construir 3 clusters:

In [None]:
from sklearn.cluster import KMeans

In [None]:
# Instancia:
kmeans = KMeans(n_clusters = 3)

In [None]:
# fit():
kmeans.fit(X_ex1)

In [None]:
f, ax = plt.subplots(figsize = (15, 7))
plt.scatter(X_ex1[:, 0], X_ex1[:, 1], s = 10, c = kmeans.predict(X_ex1))

E agora, com 2 clusters:

In [None]:
# Instancia:
kmeans = KMeans(n_clusters = 2)

In [None]:
# fit():
kmeans.fit(X_ex1)

In [None]:
f, ax = plt.subplots(figsize = (15, 7))
plt.scatter(X_ex1[:, 0], X_ex1[:, 1], s = 10, c = kmeans.predict(X_ex1))

### Dendograma
* O dendograma corrobora 2 clusters conforme sugerido por Elbow.

In [None]:
from scipy.cluster.hierarchy import ward, dendrogram
plt.figure()
dendrogram(ward(X_ex1))
plt.show()

### Exemplo 2

In [None]:
X_ex2, y_ex2 = make_moons(n_samples = 1000, noise = .09, random_state = 20111974)
X_ex2

In [None]:
f, ax = plt.subplots(figsize = (15, 7))
plt.scatter(X_ex2[:, 0], X_ex2[:, 1],s = 10)

In [None]:
# Quantos clusters tem os dados acima
Numero_Clusters_Elbow(X_ex2)

Número ideal de clusters são 2.

In [None]:
kmeans = KMeans(n_clusters = 2)
kmeans.fit(X_ex2)

In [None]:
f, ax = plt.subplots(figsize = (15, 7))
plt.scatter(X_ex2[:, 0], X_ex2[:, 1], s = 10, c = kmeans.predict(X_ex2))

### Dendograma

In [None]:
from scipy.cluster.hierarchy import ward, dendrogram
plt.figure()
dendrogram(ward(X_ex2))
plt.show()

### Limitações do K-Means
* Chance/possibilidade de um dado/ponto pertencer à múltiplos clusters;
* K-Means tenta encontrar os mínimos locais e isso depende dos valores iniciais que são gerados aleatoriamente.

### Hierarchical Clustering
* Combina múltiplos clusters similares para criar um cluster ou OU particionar um cluster para criar clusters menores de forma a agrupar dados/pontos similares;
* Tipos de hierarchaial Clustering:
  - Agglomerative Method - botton-up approach.
  - Divisive Method - top-down approach.

#### Agglomerative Method
* Inicia atribuindo um cluster para cada dado/ponto;
* Combina clusters que possuem alta medida de similaridade;
* As diferenças entre os métodos surgem devido a diferentes maneiras de definir a distância (ou similaridade) entre os clusters. As seções a seguir descrevem várias técnicas aglomerativas em detalhes.
  - Single Linkage Clustering
  - Complete linkage clustering
  - Average linkage clustering
  - Average group linkage

### Exemplo 3

In [None]:
X_ex3, y_ex3 = make_moons(n_samples = 1000, noise = .05, random_state = 20111974)
X_ex3

In [None]:
f, ax = plt.subplots(figsize = (15, 7))
plt.scatter(X_ex3[:, 0], X_ex3[:, 1], s = 10)

In [None]:
from sklearn.cluster import AgglomerativeClustering
agc = AgglomerativeClustering(linkage = 'single', n_clusters = 2)
agc.fit(X_ex3)

In [None]:
f, ax = plt.subplots(figsize = (15, 7))
plt.scatter(X_ex3[:, 0], X_ex3[:, 1], s = 10, c = agc.labels_)

### Dendograma

In [None]:
from scipy.cluster.hierarchy import ward, dendrogram
plt.figure()
dendrogram(ward(X_ex3))
plt.show()

## Density Based Clustering - DBSCAN

### Exemplo 4

In [None]:
centers = [[1, 1], [-1, -1], [1, -1]]
X_ex4, labels_true = make_blobs(n_samples=750, centers = centers, cluster_std = 0.4, random_state = 20111974)

In [None]:
f, ax = plt.subplots(figsize = (15, 7))
plt.scatter(X_ex4[:, 0], X_ex4[:, 1], s = 10)

In [None]:
from sklearn.cluster import DBSCAN

In [None]:
from sklearn.preprocessing import StandardScaler
X_ex4 = StandardScaler().fit_transform(X_ex4)

db = DBSCAN(eps = 0.3, min_samples = 10).fit(X_ex4)
core_samples_mask = np.zeros_like(db.labels_, dtype = bool)
core_samples_mask[db.core_sample_indices_] = True
labels = db.labels_

In [None]:
f, ax = plt.subplots(figsize = (15, 7))
plt.scatter(X_ex4[:, 0], X_ex4[:, 1], s = 10, c = labels)

# Medir a Performance dos Clusters

## completeness_score
- 'Completeness' significa que todos os pontos/dados que são membros de uma determinada classe são elementos do mesmo cluster.
- Accuracy é 1.0 se o dado/ponto pertencente à mesma classe também pertence ao mesmo cluster, mesmo que múltiplas classes pertençam ao mesmo cluster.

In [None]:
from sklearn.metrics.cluster import completeness_score

In [None]:
completeness_score(labels_true = [10, 10, 11, 11], labels_pred = [1, 1, 0, 0])

* Acurácia= 1 porque todos os dados/pontos pertencentes à mesma classe também pertence ao mesmo cluster.

In [None]:
completeness_score(labels_true = [11, 22, 22, 11], labels_pred = [1, 0, 1, 1])

Porque a Acurácia = 0.3?

In [None]:
print(completeness_score([10, 10, 11, 11], [0, 0, 0, 0]))

Porque a Acurácia= 1?

## Homogeneity_score
- Uma clusterização satisfaz a homogeneidade se todos os seus clusters contiverem apenas pontos/dados que são membros de uma única classe.

In [None]:
from sklearn.metrics.cluster import homogeneity_score

In [None]:
homogeneity_score([0, 0, 1, 1], [1, 1, 0, 0])

In [None]:
homogeneity_score([0, 0, 1, 1], [0, 1, 2, 3])

In [None]:
homogeneity_score([0, 0, 0, 0], [1, 1, 0, 0])

* Mesma classe subdividida em 2 clusters.

## silhoutte_score
* Calculado usando a distância intra-cluster média (a) e a distância média do cluster mais próximo (b) para cada amostra.
* **Decisão**: Quanto Maior --> Melhor.

### Exemplo 5
* Selecionar o número de clusters usando silhoutte_score no KMeans

In [None]:
from sklearn.datasets import make_blobs
X_ex5, y_ex5 = make_blobs(n_samples = 1000,
                          n_features = 2,
                          centers = 4,
                          cluster_std = 1,
                          center_box = (-10.0, 10.0),
                          shuffle = True,
                          random_state = 20111974)

X_ex5

In [None]:
f, ax = plt.subplots(figsize = (15, 7))
plt.scatter(X_ex5[:, 0], X_ex5[:, 1], s = 10)

In [None]:
range_n_clusters = [2, 3, 4, 5, 6]

In [None]:
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score

In [None]:
for n_cluster in range_n_clusters:
    kmeans = KMeans(n_clusters=n_cluster)
    kmeans.fit(X_ex5)
    labels = kmeans.predict(X_ex5)
    print (n_cluster, silhouette_score(X_ex5, labels))
    print('------------------------------------------')
    #print (n_cluster, completeness_score(X_ex5, labels))

In [None]:
f, ax = plt.subplots(figsize = (15, 7))
plt.scatter(X_ex5[:, 0], X_ex5[:, 1], s = 10, c = labels)

* O número ótimo/recomendado de cluster é 2. Porque?

## calinski_harabaz_score
* Este score é calculado como razão entre a dispersão dentro do cluster e a dispersão entre cluster.
* **Decisão**: Quanto menor --> Melhor.

In [None]:
from sklearn.metrics import calinski_harabaz_score

for n_cluster in range_n_clusters:
    kmeans = KMeans(n_clusters= n_cluster)
    kmeans.fit(X_ex5)
    labels = kmeans.predict(X_ex5)
    print (n_cluster, calinski_harabaz_score(X_ex5, labels))

In [None]:
Numero_Clusters_Elbow(X_ex5)

# Principal Components Analysis
- O PCA é uma técnica de redução de dimensionalidade (número de colunas/features de uma tabela) que transforma as features de um dataset em componentes principais. Ele ajuda a identificar as dimensões mais relevantes para a análise, preservando a maior parte da variabilidade dos dados. O PCA ajuda a reduzir o número de colunas correlacionadas, removendo a redundância nos dados. Em outras palavras, o PCA mantém (ou mostra) quais são as colunas mais importantes para os modelos de Machine Learning.

    - Etapas principais para usar o PCA:
        * Entender o Dataset: Entender as correlações entre as colunas é muito importante para Machine Learning de forma geral;

        * Pré-Processamento: Escalar os dados para garantir que todas as variáveis estejam na mesma escala (usando StandardScaler ou MinMaxScaler).

        * Aplicar o PCA: Transformar os dados originais em componentes principais.

        * Interpretar os Resultados: Identificar quais componentes principais retêm mais variabilidade e decidir quantos componentes usar.

A seguir, criamos um dataframe fake usando a library Faker para aprendermos os principais conceitos por trás do PCA.

In [None]:
!pip install faker

In [None]:
# Re-importar as bibliotecas após o reset do ambiente
from faker import Faker
import pandas as pd
import numpy as np
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt

# Inicializar o Faker e definir a semente aleatória
fake = Faker()
Faker.seed(42)

# Gerar um conjunto de dados sintético com 5000 linhas e 10 colunas
n_rows = 5000
n_columns = 10

# Criar dados aleatórios para as colunas
np.random.seed(42)
data = {
    f"Feature_{i+1}": np.random.uniform(10, 100, n_rows) + np.random.normal(0, 10, n_rows)
    for i in range(n_columns)
}

# Adicionar correlações leves entre algumas features
data["Feature_2"] = data["Feature_1"] + np.random.normal(0, 5, n_rows)
data["Feature_3"] = data["Feature_2"] * 0.5 + data["Feature_4"] * 0.3

# Converter para um DataFrame
df = pd.DataFrame(data)

# Exibir o conjunto de dados gerado para o usuário
df.head()

### 1. Escalar os Dados

In [None]:
from sklearn.preprocessing import StandardScaler

# Escalar o dataset
scaler = StandardScaler()
scaled_data = scaler.fit_transform(df)
scaled_data

### 2. Aplicar PCA

In [None]:
# Calcular a variância explicada acumulada usando PCA
pca = PCA(n_components=10)
pca.fit(df)
explained_variance_ratio = pca.explained_variance_ratio_
cumulative_variance = np.cumsum(explained_variance_ratio)

# Gerar um gráfico para visualizar a variância explicada acumulada
plt.figure(figsize=(10, 6))
plt.plot(range(1, 11), cumulative_variance, marker='o', linestyle='--', linewidth=2)
plt.xticks(range(1, 11))
plt.title("Variância Explicada Acumulada por Número de Componentes", fontsize=16)
plt.xlabel("Número de Componentes Principais", fontsize=14)
plt.ylabel("Variância Explicada Acumulada", fontsize=14)
plt.grid(alpha=0.5)
plt.show()


In [None]:
cumulative_variance

### 3. Selecionar o Número de Componentes

In [None]:
cumulative_variance = np.cumsum(explained_variance)

# Gráfico da variância explicada acumulada
plt.figure(figsize=(8, 5))
plt.plot(range(1, 11), cumulative_variance, marker='o', linestyle='--')
plt.xlabel("Número de Componentes")
plt.ylabel("Variância Explicada Acumulada")
plt.title("Escolha do Número de Componentes")
plt.grid()
plt.show()

#### EXPLICAÇÃO:
- Olhando o gráfico, observamos que a variância acumulada atinge 100% no 8º componente.
- Nesse caso, escolhemos 8 componentes principais, porque eles explicam a maior parte da variância.
- Se, por outro lado, quisermos reduzir ainda mais o número de componentes principais, podemos por exemplo escolher 7 componentes principais, pois a variância explicada é aproximadamente igual a 90%.

### 4. Reduzir Dimensionalidade
- Abaixo eu escolhi 2 componentes principais somente para mostrar o gráfico. Para número de componentes principais maior que 3, não conseguimos visualizar o gráfico.

In [None]:
# Selecionar os 2 principais componentes
pca_2 = PCA(n_components=2)
pca_2_result = pca_2.fit_transform(scaled_data)

# Transformar os dados e criar um novo DataFrame com os componentes principais
df_pca_2d = pd.DataFrame(data=pca_2_result, columns=["PC1", "PC2"])
df_pca_2d["Label"] = "Cluster"  # Pode adicionar clusters ou categorias para análise
df_pca_2d.head()

### 5. Visualizar os Clusters em 2D


In [None]:
# Gráfico dos dois principais componentes
plt.figure(figsize=(8, 6))
plt.scatter(df_pca_2d["PC1"], df_pca_2d["PC2"], alpha=0.5)
plt.xlabel("Componente Principal 1")
plt.ylabel("Componente Principal 2")
plt.title("Visualização com os Dois Principais Componentes")
plt.grid()
plt.show()

### Conclusão sobre o PCA:
O PCA simplifica os dados reduzindo sua dimensionalidade, o que facilita a análise e visualização sem perder muita variabilidade. Isso é especialmente útil em clustering, classificação e visualizações de dados multidimensionais.

# Exercícios
Considere o dataframe a seguir, criado através da library faker.

In [None]:
from faker import Faker
import pandas as pd
import numpy as np

# Inicializa a criação dos dados fakes
fake = Faker()
Faker.seed(42)
np.random.seed(42)

# Define o número de linhas e colunas do dataframe
n_rows = 5000
n_columns = 20

data = {
    'ID': range(1, n_rows + 1),
    'Name': [fake.name() for _ in range(n_rows)],
    'Age': np.random.randint(18, 70, n_rows),
    'Salary': np.random.uniform(20000, 120000, n_rows),
    'Department': [fake.job() for _ in range(n_rows)],
    'Date_of_Joining': [fake.date_this_century() for _ in range(n_rows)],
    'Performance_Score': np.random.uniform(0, 10, n_rows),
    'Location': [fake.city() for _ in range(n_rows)],
    'Marital_Status': np.random.choice(['Single', 'Married', 'Divorced'], n_rows),
    'Children': np.random.randint(0, 5, n_rows),
    'Home_Loan': np.random.choice([True, False], n_rows),
    'Education': np.random.choice(['High School', 'Bachelor', 'Master', 'PhD'], n_rows),
    'Work_Experience': np.random.randint(1, 30, n_rows),
    'Health_Score': np.random.uniform(50, 100, n_rows),
    'Bonus_Amount': np.random.uniform(1000, 15000, n_rows),
    'Travel_Distance': np.random.uniform(1, 50, n_rows),
    'Commute_Time': np.random.randint(10, 120, n_rows),
    'Annual_Leave_Days': np.random.randint(10, 30, n_rows),
    'Job_Level': np.random.choice(['Entry', 'Mid', 'Senior', 'Executive'], n_rows),
    'Attrition_Flag': np.random.choice([True, False], n_rows)
}

# Cria o dataframe
df = pd.DataFrame(data)

df.head()




1. Preparação dos Dados
- Exercício: Use o dataframe criado anteriorment. Preprocessar os dados para garantir que todas as features estejam escaladas (usando `StandardScaler` ou `MinMaxScaler`). Por que é importante escalar os dados antes de aplicar PCA ou clustering?

2. Aplicação de K-Means
- Exercício: Aplique o algoritmo K-Means ao dataset com diferentes valores de `k` (número de clusters). Para cada valor de `k`, calcule a soma dos erros quadrados (SSE) e determine o melhor número de clusters usando o método do cotovelo.

3. PCA para Redução de Dimensionalidade
- Exercício: Aplique PCA ao dataset para reduzir suas dimensões para 2 componentes principais. Visualize os dados em um gráfico de dispersão (scatter plot) usando as duas primeiras componentes principais.

4. Combinação de PCA e K-Means
- Exercício: Use PCA para reduzir o dataset para 2 componentes principais e, em seguida, aplique o K-Means ao dataset reduzido. Visualize os clusters no espaço bidimensional das componentes principais.

5. Interpretação da Variância Explicada
- Exercício: Após aplicar PCA, calcule e visualize a variância explicada por cada componente principal. Quantos componentes são necessários para explicar 90% da variância nos dados?

6. Comparação entre K-Means e Hierarchical Clustering
- Exercício: Aplique tanto o K-Means quanto o agrupamento hierárquico ao mesmo dataset. Compare os resultados dos clusters formados pelas duas abordagens.

7. Avaliação dos Clusters
- Exercício: Após formar clusters com K-Means, avalie a qualidade dos clusters usando métricas como Silhouette Score e Calinski-Harabasz Index. Qual métrica é mais confiável para o seu dataset?

8. Aplicação de DBSCAN (Density-Based Spatial Clustering)
- Exercício: Use o algoritmo DBSCAN para agrupar os dados. Ajuste os parâmetros `eps` e `min_samples` para melhorar a detecção de clusters. Em quais situações DBSCAN é mais eficaz do que K-Means?

9. Identificação de Outliers com PCA
- Exercício: Após aplicar PCA, identifique e visualize outliers no espaço das componentes principais. Dica: Use um gráfico de dispersão para destacar os pontos que estão longe da média.

10. Clustering com PCA e Análise de Resultados
- Exercício: Combine PCA com um método de clustering (como K-Means ou DBSCAN) para criar grupos. Em seguida, analise cada grupo formado para identificar características comuns entre os dados em cada cluster.