<a href="https://colab.research.google.com/github/emamanni/AnalisiDeiDati24-25/blob/main/18_K_medoids.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Algoritmo $K$-medoids

In questo notebook si utilizza l'algoritmo $K$-medoids per clusterizzare un dataset contenente $m=15$ osservazioni e $n=5$ feature miste (2 numeriche e 3 categoriche).

Come metrica di distanza utilizziamo Gower, dove:

$$
d_{\mathrm{gower}} = 1 - s_{\mathrm{gower}}.
$$

Per il calcolo della matrice delle distanze utilizzeremo la libreria di Python `gower`, che considera pesi uguali per tutte le feature e restituisce direttamente la distanzarestituisce direttamente la distanza, senza necessità di effettuare manualmente la trasformazione.

Inoltre, per quanto riguarda l'algoritmo $K$-medoids, utilizzeremo l'implementazione presente nella libreria `pyclustering`.

In [None]:
# "Montiamo" il drive per poter accedere al file
from google.colab import drive
drive.mount("/content/drive", force_remount=True)

import os

# Percorso alla directory che contiene i file da utilizzare
# Percorso da modificare in base alla propria macchina
folder_path = '/content/drive/MyDrive/Colab Notebooks/Notebook Corso Analisi dei Dati/FileDiSupporto'

Mounted at /content/drive


In [None]:
import pandas as pd

file_path_csv = os.path.join(folder_path, 'customers.csv')

# leggiamo il dataset
data = pd.read_csv(file_path_csv, header=0)

print(data)

    Customer  Age  Gender      Education Level Marital Status  Income
0          1   35    Male    Bachelor's Degree        Married   50000
1          2   28  Female  High School Diploma         Single   40000
2          3   42  Female      Master's Degree        Married   70000
3          4   31    Male    Bachelor's Degree         Single   45000
4          5   55    Male  High School Diploma        Married   60000
5          6   38  Female    Bachelor's Degree         Single   55000
6          7   25    Male  High School Diploma         Single   35000
7          8   40  Female     Doctorate Degree        Married   80000
8          9   33    Male      Master's Degree        Married   75000
9         10   29  Female    Bachelor's Degree        Married   65000
10        11   45    Male  High School Diploma         Single   55000
11        12   37  Female    Bachelor's Degree        Married   70000
12        13   50    Male      Master's Degree         Single   90000
13        14   26  F

In [None]:
!pip install gower
!pip install pyclustering



In [None]:
import numpy as np
from pyclustering.cluster.kmedoids import kmedoids
from pyclustering.utils import calculate_distance_matrix
from gower import gower_matrix
import matplotlib.pyplot as plt
import random

# Calcoliamo la matrice di disanza di Gower
gower_mat = gower_matrix(data)

print(gower_mat, "\n")

# Consideriamo K=3 cluster
k = 3

# Generiamo casualmente i K medoidi
random.seed(54)  # Impostiamo un valore fisso del seme per garantire riproducibilità
medoidi_iniziali = random.sample(range(len(data)), k)

# Applichiamo l'algoritmo K-Medoids con la distanza di Gower precomputata
kmedoids_algo = kmedoids(gower_mat, medoidi_iniziali, data_type='distance_matrix')
kmedoids_algo.process()

# Risultati
cluster = kmedoids_algo.get_clusters()
medoidi = kmedoids_algo.get_medoids()

print("Medoidi:", medoidi)
print("Cluster:", cluster)

[[0.         0.57857144 0.45158732 0.23849207 0.35317463 0.4234127
  0.5019841  0.5277778  0.34246033 0.34880954 0.5218254  0.3642857
  0.6706349  0.76031744 0.33611113]
 [0.57857144 0.         0.5063492  0.3876984  0.5746032  0.31150794
  0.25674602 0.5825397  0.7083333  0.50357145 0.40992063 0.5857143
  0.7253969  0.18174604 0.890873  ]
 [0.45158732 0.5063492  0.         0.64246035 0.45714286 0.43293652
  0.7392857  0.26507938 0.30198413 0.33611113 0.6535714  0.3015873
  0.552381   0.6642857  0.5511905 ]
 [0.23849207 0.3876984  0.64246035 0.         0.5202381  0.25714287
  0.26349208 0.69484127 0.4873016  0.47142857 0.35555556 0.53134924
  0.5043651  0.5218254  0.5031746 ]
 [0.35317463 0.5746032  0.45714286 0.5202381  0.         0.6202381
  0.4265873  0.50793654 0.3781746  0.5511905  0.3075397  0.54444444
  0.53968257 0.68492067 0.39404762]
 [0.4234127  0.31150794 0.43293652 0.25714287 0.6202381  0.
  0.47301587 0.43769842 0.61904764 0.2920635  0.43174604 0.28531745
  0.58055556 0.39