# K-Means Clustering


Proviamo con un esempio su un dataset reale

## Obiettivo:

Per prima cosa ci devono essere chiare la struttura dei dati e l'obiettivo da raggiungere nella creazione dei cluster.

In questo caso il dataset è descritto sotto e il nostro obiettivo è creare gruppi omogenei di clienti per scopi di marketing.
Come verranno creati e come interpretare i risultati dipende molto dalle richieste del reparto marketing e dalla nostra comprensione dei dati, quindi il primo step è EDA! 

----

## The Data

LINK: https://archive.ics.uci.edu/ml/datasets/bank+marketing

   This dataset is public available for research. The details are described in [Moro et al., 2011]. 


      [Moro et al., 2011] S. Moro, R. Laureano and P. Cortez. Using Data Mining for Bank Direct Marketing: An Application of the CRISP-DM Methodology. 
      In P. Novais et al. (Eds.), Proceedings of the European Simulation and Modelling Conference - ESM'2011, pp. 117-121, Guimarães, Portugal, October, 2011. EUROSIS.

      Available at: [pdf] http://hdl.handle.net/1822/14838
                    [bib] http://www3.dsi.uminho.pt/pcortez/bib/2011-esm-1.txt
     For more information, read [Moro et al., 2011].

    # bank client data:
    1 - age (numeric)
    2 - job : type of job (categorical: 'admin.','blue-collar','entrepreneur','housemaid','management','retired','self-employed','services','student','technician','unemployed','unknown')
    3 - marital : marital status (categorical: 'divorced','married','single','unknown'; note: 'divorced' means divorced or widowed)
    4 - education (categorical: 'basic.4y','basic.6y','basic.9y','high.school','illiterate','professional.course','university.degree','unknown')
    5 - default: has credit in default? (categorical: 'no','yes','unknown')
    6 - housing: has housing loan? (categorical: 'no','yes','unknown')
    7 - loan: has personal loan? (categorical: 'no','yes','unknown')
    # related with the last contact of the current campaign:
    8 - contact: contact communication type (categorical: 'cellular','telephone')
    9 - month: last contact month of year (categorical: 'jan', 'feb', 'mar', ..., 'nov', 'dec')
    10 - day_of_week: last contact day of the week (categorical: 'mon','tue','wed','thu','fri')
    11 - duration: last contact duration, in seconds (numeric). Important note: this attribute highly affects the output target (e.g., if duration=0 then y='no'). Yet, the duration is not known before a call is performed. Also, after the end of the call y is obviously known. Thus, this input should only be included for benchmark purposes and should be discarded if the intention is to have a realistic predictive model.
    # other attributes:
    12 - campaign: number of contacts performed during this campaign and for this client (numeric, includes last contact)
    13 - pdays: number of days that passed by after the client was last contacted from a previous campaign (numeric; 999 means client was not previously contacted)
    14 - previous: number of contacts performed before this campaign and for this client (numeric)
    15 - poutcome: outcome of the previous marketing campaign (categorical: 'failure','nonexistent','success')
    # social and economic context attributes
    16 - emp.var.rate: employment variation rate - quarterly indicator (numeric)
    17 - cons.price.idx: consumer price index - monthly indicator (numeric)
    18 - cons.conf.idx: consumer confidence index - monthly indicator (numeric)
    19 - euribor3m: euribor 3 month rate - daily indicator (numeric)
    20 - nr.employed: number of employees - quarterly indicator (numeric)
    21 - y - has the client subscribed a term deposit? (binary: 'yes','no')

## Imports

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## Exploratory Data Analysis

## Leggiamo il file csv in "https://raw.githubusercontent.com/pg-88/IFOA_ML_AI/main/Risorse/dataset/bank-full.csv"

Quindi procediamo a vedere com'è strutturato il dataset sia da un punto di vista di tipi di dati, numero e tipo di feature sia da un punto di vista statistico 

**N.B.** In questa fase siamo ancora a caccia di collegamenti interessanti per capire cosa potremmo aspettarci dai dati.

In questa fase è importante capire e interpretare bene i dati, se possibile conviene parlare con qualcuno che conosce bene il sistema altrimenti rischiamo di immaginare collegamenti che non hanno valore nel mondo reale.

Se non siamo esperti e non abbiamo un esperto sotto mano conviene approfondire **bene** la fase di EDA.

### Analisi delle Feature Continue (numeriche)

Concentriamoci prima su quello che è già in formato numerico e proviamo a capire se c'è qualche logica interessante che spicca.

#### Partiamo con qualche grafico

La prima cosa che mi viene in mente è di vedere come l'età dei clienti (possibili clienti) influisce sul sistema.

In [2]:
## grafico delle frequenze delle varie età dei clienti

#### Età - Prestito Sì/No

Vista la distribuzione di età sartebbe interessante vedere quanti di questi clienti hanno un prestito e quanti invece no.


In [None]:
## greafico istogrammi con indicazione di chi ha già un prestio

**Osservazione**:

Al marketing già questa informazione potrebbe essere utile ovvero raggruppare tutte le persone che non hanno un prestito e sono nella fascia di età giusta.

Mentre potrebbe essere interessante anche sapere chi ha già un prestito per una differente strategia di marketing

**PDAYS**

In numero di giorni trascorsi da quando il cliente è stato contattato è un altro parametro interessante, se devo decidere chi chiamare parto da quelli che non ho mai contattato o che ho contattato molto tempo fa.

*Attenzione* in questa feature si usa il numero 999 per indicare che un cliente non è mai stato contattato.

In [None]:
## grafico pdays per mostrare quanti clienti sono stati contattati recentemente

**Contact duration - Quanto è durata la chiamata?**

Utile ad esempio per capire se il cliente è disponibile

In [3]:
## grafico durtata chiamate

## differenziamo per telefono o cellulare 

* - previous: Numero di volte in cui il cliente è stato contattato prima della campagna attuale
* - poutcome: Risultato della precedente campagna di marketing

In [4]:
# 

## Categorie
Feature non numeriche ma che riportano un'indicazione


In [6]:
df.head()

Unnamed: 0,age,job,marital,education,default,housing,loan,contact,month,day_of_week,...,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,subscribed
0,56,housemaid,married,basic.4y,no,no,no,telephone,may,mon,...,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
1,57,services,married,high.school,unknown,no,no,telephone,may,mon,...,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
2,37,services,married,high.school,no,yes,no,telephone,may,mon,...,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
3,40,admin.,married,basic.6y,no,no,no,telephone,may,mon,...,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
4,56,services,married,high.school,no,no,yes,telephone,may,mon,...,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no


 #### Tipo di lavoro

 Proviamo a fare un grafico a istogrammi per le frequenze dei diversi tipi di lavori presenti nel dataframe

In [5]:
## tipo di lavoro

In [6]:
## tipi di lavoro ordinati per frequenze

**Stessa cosa per i titoli di studio**

In [7]:
# titoli di studio


**Vediamo il titolo di studio in rapporto al default**

Il campo default indica se non è stato possibile ripagare il prestito.


In [8]:
## titoli di studio con default in evidenza

**N.B.**:

Conoscere bene il significato dei dati ci evita errori banali


In [10]:
## trovare il lavoro e il titolo di studio di chi ha fatto default

In [9]:
# pair plot - può essere molto impegnativo per la macchina

## Clustering

### Preparazione dati 

**Ricordiamoci che stiamo creando un modello non supervisionato, non ci sono Train e Test split perché non avrei nulla da testare**

Abbiamo però bisogno di trasformare in numeri le feature che contengono categorie, e *scalare* i valori numerici.

In [186]:
df.head()

Unnamed: 0,age,job,marital,education,default,housing,loan,contact,month,day_of_week,...,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,subscribed
0,56,housemaid,married,basic.4y,no,no,no,telephone,may,mon,...,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
1,57,services,married,high.school,unknown,no,no,telephone,may,mon,...,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
2,37,services,married,high.school,no,yes,no,telephone,may,mon,...,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
3,40,admin.,married,basic.6y,no,no,no,telephone,may,mon,...,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
4,56,services,married,high.school,no,no,yes,telephone,may,mon,...,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no


### Metodo di Pandas `get_dummies()

Genera dei valori numerici sulla base delle categorie. Quindi trova i valori unici di ogni categoria, ad esempio per default abbiamo visto: 'yes', 'no', 'unknown' e genera 3 nuove feature: default_yes, default_no, default_unknown.
Ogni feature avrà valori 0 oppure 1.

Non ci dobbiamo preoccupare di forzati rapporti di linerità perché si tratta di unsupervised.


In [8]:
X = pd.get_dummies(df)

In [12]:
X.head()

0        0
1        0
2        0
3        0
4        0
        ..
41183    0
41184    0
41185    0
41186    0
41187    0
Name: default_yes, Length: 41188, dtype: uint8

### Scalare i dati

Siccome KMeans si basa su distanze dei dati in un sistema di n-dimensioni, è necessario che le quantità numeriche vengano riportate tutte su una scala comune, in caso contrario non sarebbe possibile trovare valori sensati.

Infatti alcune feature hanno valori tra 0 e 1, altre hanno valori con un range molto più esteso, questo porterebbe a misure sballate sul calcolo dei centi dei cluster.

- Per scalare i dati si usa `StandardScaler` di scikit learn -> preprocessing

In [13]:
from sklearn.preprocessing import StandardScaler

**Ora possiamo usare l'oggetto StandardScaler**

In [14]:
scaler = StandardScaler()

In [15]:
scaled_X = scaler.fit_transform(X)

#### Fit-Transform

Non avendo test set ne label posso fare direttamente il fitting e il transform, mentre con gli algoritmi supervised dovevo agire separatamente.

### Creazione e Fitting di un KMeans Model

Note of our method choices here:

* fit(X[, y, sample_weight])
    * calcola il modello 
  
* fit_predict(X[, y, sample_weight])
    * calcola i centri dei cluster e fa la previsione sul campione, ritorna le label dei cluster

* predict(X[, sample_weight])
    * colloca il campione in un cluster del modello

In [11]:
from sklearn.cluster import KMeans

**Modello** con 2 cluster

L'idea è che voglio 2 insiemi di clienti, per capire quale insieme è più interessato al marketing.

Vediamo poi se il risultato sarà adeguato

In [17]:
model = KMeans(n_clusters=2)

In [18]:
cluster_labels = model.fit_predict(scaled_X)



#### Cosa Abbiamo ottenuto?

In [13]:
# attenzione se non ho impostato il rnadom_state i valori possono cambiare

cluster_labels

In [20]:
len(scaled_X)

41188

In [21]:
len(cluster_labels)

41188

## Riunire con il dataframe

In sostanza abbiamo generato un campo di dati che rappresenta delle label, per capire esattamente come sono composte queste label andiamo a ricongiungere il risultato con i dati originali.

**N.B.:** Prendo il dataframe non scalato!

In [15]:
# dataframe non scalato con valori dummy
X.head()


In [22]:
# aggiungo il campo cluster


### Risultato:

Abbiamo creato una nuova colonna del dataset che è una label.

*Come posso interpretare quste label?*

Vediamo la correlazione:

In [16]:
## heatmap correlation

In [17]:
# array correlazione

In [18]:
## plot della correlazione in istogrammi con pandas


## Conclusioni 
Abbiamo ottenuto 2 label e sappiamo quali sono i valori che influiscono maggiormente per far si che un cliente appartenga a un cluster piuttosto che all'altro.

**Ci rimangono 2 dubbi:**
* Cosa rappresentano queste label?

* Abbiamo fatto bene a dividere in 2 cluster il nostro dataset?

Per capire cosa rappresentano le label trovate dobbiamo guardare con attenzione i dati e il grafico di correlazione, magari parlare con qualcuno che conosce molto bene il problema reale aiuta a farci capire meglio cosa abbiamo trovato.

Per capire se abbiamo fatto bene a scegliere 2 cluster ci sono dei metodi che ci possono dare un'indicazione migliore di quanto abbiamo fatto finora cioè a sentimento.


## Choosing K Value SSD ed Elbow Method

Andiamo a generare n modelli e calcoliamo SSD

In [19]:
# ciclo for per la creazione dei modelli


**SSD**
si può ricavare direttamente dal modello, infatti è un attributo che si chiama `inertia_` sempre prendendo in prestito un termine dallo studio dei sistemi di vettori. 

In [20]:
## vediamo in un grafico il valore dell'SSD 

Analyzing SSE Reduction

In [29]:
## valori nel vettore
ssd

[2469792.3616627525,
 2370786.5743646966,
 2271503.291848565,
 2219379.8165977024,
 2141338.8100297097,
 2104687.2262974633,
 2047992.063517177,
 2012166.6999391837]

In [30]:
## calcolare la differenza tra elementi di una Serie pandas metodo diff()

0             NaN
1   -99005.787298
2   -99283.282516
3   -52123.475251
4   -78041.006568
5   -36651.583732
6   -56695.162780
7   -35825.363578
dtype: float64

In [21]:
## proviamo col grafico a barre 


### In generale 
questo sistema ci può dare un'indicazione "sull'adattamento" dei dati ai cluster.

Tuttavia nel unsupervised machine learning è molto più importante avere una buona comprensione dei dati per capire cosa si può e non si può fare e cosa aspettarci dal modello.

Sicuramente non possiamo aspettarci una rigorosità assoluta e matematica ma dobbiamo sfruttare gli strumenti che abbiamo comprendendone i limiti.