# Data Analysis (26/03 - 02/04)
Attributi possono essere qualitativi/quantitativi. Per attributi quantitavi va tenuta in considerazione l'unità di misura (si pensi ad una variabile altezza presente in due copie di un dataset: una in Europa, misurata in *cm* e l'altra in America ma convertita in *feet*. Questo fattore va tenuto in conto, ad esempio nel momento in cui decida di addestrare il mio algoritmo su un dataset Europeo, e successivamente testi il mio algoritmo con dati aventi unità di misura differente.
## Proprietà fondamentali
Attributi possono essere distinti in:
- **Nominali:** ID, colore, zip codes...
- **Ordinali:** il loro valore è una categoria ordinata e la distanza tra le categorie non è nota, per esempio altezza (basso, medio, alto), ranking (da 1 a 10).
- **Interval:** attributi su cui ha senso calcolare delle differenze (es: temperatura, data...)
- **Ratio:** attributi su cui ha senso fare dei rapporti dei loro valori (es: temperatura in Kelvin perché non include lo zero, lunghezza, tempo...)

Questa classificazione è sostanzialmente basata sul tipo di operazioni che posso fare sugli attributi:
- Uguaglianza: $=, \neq$
- Confronto ordinale: $<, \le, >, \ge$
- Addizione: $+,-$
- Moltiplicazione: $\times, \div$ 

Le **operazioni** effettuabili sui miei dati determineranno le tecniche di machine learning e data mining utilizzabili. Alcuni esempi di operazioni effettuabili:
- Nominali: moda, entropia, test di correlazione $\chi^2$...
- Ordinali: mediana, calcolo di percentili, correlazione dei ranghi, test dei segni...
- Interval: media, deviazione standard, coefficiente di Pearson, t test, F test...
- Ratio: media geometrica, media armonica, variazione percentuale...

Le **trasformazioni** effettuabili sui miei dati:
- Nominali: permutazioni dei valori (se gli ID dei miei dipendenti venissero riassegnati farebbe qualche differenza?)
- Ordinali: qualsiasi cambio dei valori che mantenga l'ordinamento (quindi $value_{new} = f(value_{old}$ tale che $f$ sia monotona)
- Interval: qualsiasi operazione che mantenga la proporzione tra i vari intervalli (una funzione affine ad esempio)
- Ratio: qualsiasi operazione che mantenga il rapporto dei vari valori (come una moltiplicazione per una costante)

## Attributi discreti e continui
Discreti possono assumere un insieme finito di valori, Continui possono assumere un insieme infinito di valori (tenere comunque a mente che la rappresentazione e memorizzazione su un calcolatore comporterà una discretizzazione di questi).

## Tipologie di strutture dati
Il dati possono essere memorizzati secondo diverse tipologie di struture che determineranno gli algoritmi di apprendimento applicabili
- Un insieme di **record**: 
    - dati matriciali: ciascun record è costituito da un insieme fisso di attributi
    - testuali: ad esempio gli attributi possono essere delle parole e i record possono corrispondere a documenti. In ciascuna cella avrò il numero di occorrenze di quella parola per quel particolare documento.
    - transizioni di stato
- Un **grafo**: WWW, strutture molecolari...
- Dati **ordinati**: dati spaziali, temporali, sequenze...

## Qualità dei dati
Le misure sono tipicamente affette da rumore, quindi questo fattore è da tenere presente. Prima di fare una qualunque analisi del nostro sistema è opportuno porsi delle domande: è presente del rumore nel nostro dataset? In quale misura? 

Vi sono degli *outliers* nel nostro dataset? Eventualmente potrei utilizzare la mediana piuttosto che la media, che è meno influenzata dalla presenza di outliers. In tecniche di apprendimento non supervisionato, come il clustering, la presenza di outliers può influenzare notevolmente l'accuratezza del risultato prodotto dall'algoritmo. Potrei quindi decidere di filtrare eventuali outliers.

Va tenuto conto anche di valori mancanti (è necessario capire se la loro mancanza abbia un certo significato, in modo da poter associare un valore di default evaentualmente) o duplicati. Spesso gli algoritmi di machine learning escludono i record con valori mancanti, ma questo potrebbe causare notevoli problemi qualora il numero di dati mancanti sia alto. Il motivo dell'assenza di alcuni valori può essere dovuto a:
- informazioni non raccolte: ad esempio in un questionario una persona potrebbe non voler specificare il sesso.
- informazioni non applicabili: un salario ad un bambino

In questi casi potrei cercare di dedurre il valore inferendolo da altri record simili a quello con il valore mancante oppure a partire da altri attributi dello stesso record (dall'altezza e dall'indice di massa corporea potrei inferire il peso). Posso cercare di eliminare record con troppi valori mancanti, fare una stima, ignorare tale attributo, rimpiazzarli con valori quantitativi con una probabilità associata.

Eventuali duplicati (o dati molto simili) vanno gestiti attraverso un processo di **data cleaning**.

# Data preprocessing
Prima di applicare algoritmi di machine learning potrei effettuare operazioni di preprocessing dei dati al fine di facilitare la successiva gestione di tali dati.
- **Aggregazione:** potrei cercare di aggregare tra loro più attributi o più record per ridurre il numero di dati, per effettuare cambi di scala (aggregare paesi in regioni, regioni in nazioni...) o per avere dati più stabili, con meno variazioni.
- **Campionamento (sampling):** quando ho un dataset molto grande posso fare un campionamento del dataset e applicare inizialmente le tecniche di machine learning su un dataset ridotto (analogamente per la valutazione del modello ottenuto). Tecniche di **stratified cross validation** (che mantengono le proprietà statistiche del dataset originale) sono consigliate a questo scopo. Il campionamento può essere casuale, senza reinserimento, con reinserimento, *stratified* (divido i dati in partizioni ed estraggo campioni casuali da ciascuna partizione)...
[Quanto deve essere grande il sample?](https://en.wikipedia.org/wiki/Sample_size_determination) In genere più è grande, più è alta la precisione nella stima di parametri sconosciuti. Questo fenomeno è descritto da varie leggi matematiche, tra cui la legge dei grandi numeri e il teorema del limite centrale.

- **Dimensionality reduction:** in modo da poter usare tecniche che lavorino solo sugli attributi principali
- **Feature subset selection:** cercare di identificare le feature (variabili) più rilevanti e quali invece contengano rumore
- **Feature creation:** ho una conoscenza sul dominio che potrei sfruttare per inserire nuovi attributi nel mio dataset (ad esempio da altezza e peso ricavare l'indice di massa corporea)
- **Attribute transformation:** un peso di una persona in milligrammi potrebbe essere trasformato in kilogrammi. Possono essere applicati trasformazioni lineari o non-lineari per favorire l'apprendimento (esempio: trasformazione logaritmica per passare da un modello esponenziale ad uno lineare).
- **Discretization and Binarization:** se so che gli attributi numerici sono afflitti da rumore, potrei decidere di discretizzare questi valori.

## Curse of dimensionality
Si tratta di un fenomeno che sorge lavorando con dati in spazi con un alto numero di dimensioni. Al crescere del numero di dimensioni, lo spazio cresce esponenzialmente e i dati diventano presto sparsi (tanto volume non occupato dalle istanze del data set). Supponiamo che ciascuna variabile (ciascuna dimensione) possa assumere 2 valori. Con $n$ variabili si avrebbero $2^n$ possibili combinazioni dei loro valori. Con più variabili che osservazioni si incorre nel rischio di overfitting. Nelle tecniche di clustering, con un elevato numero di dimensioni accade che i punti (dati) tendono a risultare equidistanti tra loro, vanificando i tentativi di formare dei cluster sulla base della vicinanza tra questi punti. 

Un esempio banale ma esplicativo di clustering: 8 caramelle (8 record). Si hanno due variabili binarie (assumono valore vero o falso) che ne descrivono il colore:  "rossastra" e "bluastra". 4 caramelle con colore tendende al rosso e 4 con colore tendente al blu.

|    | Rossastra | Bluastra |
|----|-----------|----------|
| c1 | 1         | 0        |
| c2 | 1         | 0        |
| c3 | 1         | 0        |
| c4 | 1         | 0        |
| c5 | 0         | 1        |
| c6 | 0         | 1        |
| c7 | 0         | 1        |
| c8 | 0         | 1        |

Non sarà difficile per l'algoritmo di clustering individuare due cluster. Pensiamo però ora di avere 8 variabili binarie che ne descrivono il colore più specificamente.

|    | Rossa | Arancio | Gialla | Fucsia |  Blu   | Azzurro | Verde | Viola |
|----|--------|---------|--------|--------|--------|---------|-------|-------|
| c1 | 1      | 0       | 0      | 0      | 0      | 0       | 0     | 0     |
| c2 | 0      | 1       | 0      | 0      | 0      | 0       | 0     | 0     |
| c3 | 0      | 0       | 1      | 0      | 0      | 0       | 0     | 0     |
| c4 | 0      | 0       | 0      | 1      | 0      | 0       | 0     | 0     |
| c5 | 0      | 0       | 0      | 0      | 1      | 0       | 0     | 0     |
| c6 | 0      | 0       | 0      | 0      | 0      | 1       | 0     | 0     |
| c7 | 0      | 0       | 0      | 0      | 0      | 0       | 1     | 0     |
| c8 | 0      | 0       | 0      | 0      | 0      | 0       | 0     | 1     |

L'algoritmo di clustering non è più in grado di individuare somiglianze (correlazioni tra variabili) tra alcune di queste caramelle.

È possibile ovviare a ciò utilizzando tecniche di ***dimensionality reduction*** come:
- **Principal Component Analysis (PCA)**:
- **Singular Value Decomposition:**
- **Feature Subset Selection:** si cerca di eliminare features ridondanti (esempio: prezzo di un prodotto e relativa imposta) o features poco significative (esempio: colore occhi in un problema di clustering dei clienti di un supermercato)

## Similarità e Dissimilarità dei dati
La **similarità** definisce quanto due campioni siano simili; è spesso misurata nel range $[0,1]$. La **dissimilarità** indica quanto due campioni non si assomiglino. Più questa è bassa, più i campioni si assomigliano (se sono identici, la dissimilarità sarà 0). Il limite superiore può variare, ad esempio può essere utilizzata la distanza euclidea tra due punti come misura di dissimilarità.

A seconda del tipo di attributi possiamo individuare:
- **Nominali:** possiamo verificare se questi siano uguali o meno.  
    - Dissimilarità: $d=\begin{cases}0 & \text{if } p=q \\ 1 & \text{if } p\neq q \end{cases}$
    - Similarità:    $s=\begin{cases}1 & \text{if } p=q \\ 0 & \text{if } p\neq q \end{cases}$
- **Ordinali:** avendo un ordinamento tra questi $n$ elementi, possiamo utilizzare i loro indici ($|p-q|$ rappresenta la distanza in termini di numero di elementi tra $p$ e $q$. Se questi coincidono, allora $|p-q|=0$, se questi sono agli estremi opposti, allora $|p-q|=n-1$
    - Dissimilarità: $d = \frac{|p-q|}{n-1}$
    - Similarità:    $s = 1 - \frac{|p-q|}{n-1}$
- **Interval o Ratio:** 
    - Dissimilarità: $d = |p-q|$ (distanza euclidea, ma possono anche essercene altre)
    - Similarità:    $s = -d$, $s = \frac{1}{1+d}$ or $s = 1 - \frac{d - min_d}{max_d - min_d}$
    
Come distanza per attributi di tipo interval, possiamo utilizzare la **distanza euclidea** $d = \sqrt{\sum_{i=1}^{n}{\left(p_i - q_i \right)^2}}$, dove $n$ rappresenta il numero di features (dimensioni). In questo caso la standardizzazione risulta necessaria in modo che ciascuna feature contribuisca in ugual modo nel calcolo della distanza. È quindi possibile costruire una matrice di similarità o di dissimilarità andando a misurare le distanze tra tutti i dati, secondo i valori di loro attributi di tipo interval.

Una generalizzazione di distanza Euclidea e della distanza di Manhattan è la **distanza di Minkowski**

$$d = \left(\sum_{i=1}^{n}{|p_i - q_i |^r}\right)^{\frac{1}{r}}$$

dove $r$ è un parametro:
- $r=1$: norma $l_1$
- $r=2$: distanza Euclidea
- $r\rightarrow\infty$: norma $l_\infty$

Una distanza deve rispettare le proprietà di definizione positiva, simmetria e disuguaglianza triangolare.

Anche la similarità deve rispettare alcune proprietà: 
- $s(p,q)=1 \Leftrightarrow p=q$ (massima similarità)
- $s(p,q) = s(q,p) \; \forall q,p$ (simmetria)
di conseguenza la similarità non è una distanza.

### Similarità tra vettori binari
Per quanto riguarda la **similarità tra vettori binari** (dove $p$ e $q$ hanno solo attributi binari) possiamo definire il **Simple Matching Coefficient** e il **coefficiente di Jaccard**:

- $M_{00}$: numero di attributi dove $p=0$ e $q=0$
- $M_{01}$: numero di attributi dove $p=0$ e $q=1$
- $M_{10}$: numero di attributi dove $p=1$ e $q=0$
- $M_{11}$: numero di attributi dove $p=1$ e $q=1$

$$SMC = \frac{\text{numero di matches}}{\text{numero di attributi}} = \frac{M_{11} + M_{00}}{M_{01} +M_{10} +M_{11} +M_{00}}$$

$$J = \frac{\text{numero di } M_{11} \text{ matches}}{\text{numero di attributi non entrambi zero}} = \frac{M_{11}}{M_{01} +M_{10} +M_{11}}$$

#### Esempio
$p = 1000000000$

$q = 0000001001$
- $M_{00}$: 7
- $M_{01}$: 2
- $M_{10}$: 1
- $M_{11}$: 0

$SMC = \frac{7+0}{7+2+1+0} = 0.7$

$J = \frac{0}{2+1+0} = 0$

### Similarità del coseno
Dati due vettori $d_1,d_2$ si ha:

$$\cos(d_1,d_2) = \frac{(d_1 \bullet d_2)}{||d_1|| \cdot ||d_2||}$$

dove $\bullet$ indica il prodotto scalare e $||d||$ indica la lunghezza del vettore (norma).

#### Esempio
$d_1 = 3205000200$

$d_2 = 1000000102$

$\cos(d_1,d_2) = \frac{5}{6.481+2.245} = 0.3150$

### Misure di correlazione
Per calcolare la correlazione, prima si standardizzano $p$ e $q$, poi si calcola il prodotto scalare:

$$p'_k=\frac{\left(p_k-mean(p)\right)}{std(p)} \quad q'_k=\frac{\left(q_k-mean(q)\right)}{std(q)}$$

$$correlation(p,q) = p'\bullet q'$$

# Tipologie di errori
Distinguiamo
- Pitfalls: errori non scontati
- Pratfalls: errori macroscopici, grossolani

È buona pratica essere sempre scettici sui dati a disposizione.

#### Esempio
Carico in weka il dataset `weather-nominal.arff` e uso gli algoritmi:
- `OneR`: albero decisionale ad un livello
- `J48`: implementazione degli alberi decisionali (C4.5)

`OneR` ottiene un'accuratezza pari al 43% (utilizzando 10-fold cross validation) mentre `J48` ottiene un'accuratezza pari al 50%. 

Cambiamo ora il valore della variabile `outlook` assegnando `unknown` alle prime 4 istanze la cui label (variable `play`) corrispondente è `no`. Questo può essere fatto andando nella sezione `preprocess`. L'accuratezza di `OneR` sale al 93%, mentre quella di `J48` rimane al 50% (non usa la variabile `utlook`per effettuare gli split).


# Introduzione a WEKA
Utilizzeremo WEKA, un software all'avanguardia 🙃 e al passo con i tempi 🙃🙃 la cui ultima versione rilasciata risale al 2013 🙃🙃🙃.

Dopo averlo installato e aperto, utilizziamo il modulo `Explorer`e clicchiamo `Open > Cartella di installazione/data` dove troveremo alcuni dataset di esempio in formato `.arff` (sostanzialmente dei `.csv` con un'intestazione che descrive se gli attributi siano nominali, ordinali...). Scegliamo il dataset `iris` (descritto [QUI](https://archive.ics.uci.edu/ml/datasets/Iris)). 

Nella sezione `Visualize` possiamo vedere combinazioni di attributi e come ciascun attributo sia distribuito.

- Classe (setosa, versicolor, virginica): attributo nominale
- Petal Length: attributo interval
- Petal witdh: attributo interval

Nella sezione *Classify* possiamo segliere un algoritmo di classificazione. Scegliamo `rules/ZeroR`: classificazione in base all'attributo maggiormente frequente (in questo caso, sono uniformemente distribuiti, 50 record per tipo di fiore). Selezionando `Start` vengono visualizzati i risulati della classificazione, tra cui la **confusion matrix** e misure di accuratezza (Precision, Recall, ROC area...). 

Sempre nella sezione *Classify* è possibile selezionare un algoritmo di classificazione diverso, ad esempio l'albero decisionale `trees/J48` che corrisponde all'implementazione dell'algoritmo **C4.5**. Nella sezione *Test Options* possiamo scegliere quale dataset utilizzare per effettuare la validazione del modello (scegliendo *Cross-validation* si opera una **stratified** cross validation).

Nelle opzioni (*more options*) è possibile indicare il `Random seed` che determina come verranno mescolati i records in modo da poter ripetere un esperimento con lo stesso riordinamento (non variando il seed).

Cliccando sul campo in cui è visualizzato il nome dell'algoritmo utilizzato è possibile scegliere la sua configurazione (ad esempio scegliere il `minNumSplit`). Se dovessi aumentare eccessivamente la complessità dell'albero (ad esempio non faccio pruning, oppure impostando `minNumSplit=1`).