<div style="width: 100%; clear: both;">
<div style="float: left; width: 50%;">
<img src="http://www.uoc.edu/portal/_resources/common/imatges/marca_UOC/UOC_Masterbrand.jpg", align="left">
</div>
<div style="float: right; width: 50%;">
<p style="margin: 0; padding-top: 22px; text-align:right;">M2.955 · Models avançats de mineria de dades.
   · PAC2</p>
<p style="margin: 0; text-align:right;">2021-1 · Màster universitari en Ciència de dades (Data science)</p>
<p style="margin: 0; text-align:right; padding-button: 100px;">Estudis de Informàtica, Multimedia i Telecomunicacions</p>
</div>
</div>
<div style="width:100%;">&nbsp;</div>


# PAC 2: Mètodes no supervisats

Al llarg d'aquesta pràctica veurem com aplicar diferents tècniques no supervisades, així com algunes de les seves aplicacions reals:

 - **[Clustering amb diferents estratègies](#ej1)**: k-means i regla del colze, basades en densitat i jeràrquiques.
 - **[Aplicació: generació d'imatges amb reducció de dimensionalitat](#ej2)**. PCA i UMAP.
 - **[Aplicació: identificació de punts d'interès turístics](#ej3)**.

<div class="alert alert-block alert-info">
<strong>Nom i cognoms:</strong>
</div>

---

Per a això necessitarem les següents llibreries:

In [None]:
import random

import umap
import numpy as np
import pandas as pd
import sklearn
from sklearn import cluster        # Algorismes de clustering.
from sklearn import datasets       # Crear datasets.
from sklearn import decomposition  # Algorismes de reducció de dimensionalitat.

# Visualizació.
import matplotlib
import matplotlib.pyplot as plt

%matplotlib inline

<a id="ej1"></a>

## 1. Mètodes de *clustering* (4 punts)

Aquest exercici tracta d'explorar diferents tècniques d'agrupament ajustant-les a diferents conjunts de dades.

L'objectiu és doble: entendre la influència dels paràmetres en el seu comportament, i conèixer les seves limitacions en la cerca d'estructures de dades.

### Generació dels conjunts de dades

In [None]:
X_blobs, y_blobs = datasets.make_blobs(n_samples=1000, n_features=2, centers=4, cluster_std=1.6, random_state=42)
X_moons, y_moons = datasets.make_moons(n_samples=1000, noise=.07, random_state=42)
X_circles, y_circles = datasets.make_circles(n_samples=1000, factor=.5, noise=.05, random_state=42)

Cada dataset té 2 variables: una variable *X* que conté 2 features (columnes) i tantes files com mostres. I una variable *y* que conté les etiquetes que identifiquen cada cluster.

Al llarg de l'exercici no s'usarà la variable *y* (només amb l'objectiu de visualitzar). L'objectiu és aconseguir trobar les estructures descrites per les variables *y* a través dels diferents models de *clustering*.

In [None]:
fig, axis = plt.subplots(2, 3, figsize=(13, 8))
for i, (X, y, ax, name) in enumerate(zip([X_blobs, X_moons, X_circles] * 2,
                                         [None] * 3 + [y_blobs, y_moons, y_circles],
                                         axis.reshape(-1),
                                         ['Blob', 'Moons', 'Circles'] * 2)):
    ax.set_title('Dataset: {}, '.format(name) + ('el que analitzaràs' if i < 3 else 'els grups a trobar'))
    ax.scatter(X[:,0], X[:,1], s=15, c=y, alpha=.3, cmap='jet')
    ax.axis('equal')
plt.tight_layout()

### 1 a. K-means

En aquest apartat es demana provar l'algorisme k-*means* sobre els tres datasets presentats anteriorment, ajustant amb els paràmetres adequats, i analitzar els seus resultats.

In [None]:
X, y = X_blobs, y_blobs

És habitual indicar amb $k$ el nombre de clusters a detectar per k-*means*. Una tècnica per a estimar $k$ és, com s'explica en la teoria:

> Els criteris anteriors (minimització de distàncies intra grup o maximització de distàncies inter grup) poden usar-se per a establir un valor adequat per al paràmetre k. Valors de k per als quals ja no s'aconsegueixen millores significatives en l'homogeneïtat interna dels segments o l'heterogeneïtat entre segments diferents, haurien de descartar-se.

El que popularment es conèixer com a *regla del colze*.

En primer lloc és necessari calcular la suma dels errors quadràtics ([*SSE*](https://bl.ocks.org/rpgove/0060ff3b656618e9136b)) que consisteix en la suma de tots els errors (distància de cada punt al seu centroide assignat) al quadrat.

$$SSE = \sum_{i=1}^{K} \sum_{x \in C_i} euclidean(x, c_i)^2$$

On $K$ és el nombre de clusters a buscar per *k-means*, $x \in C_i$ són els punts que pertanyen i-èsim cluster, $c_i$ és el centroide del cluster $C_i$ (al que pertany el punt $x$), y $euclidean$ és la [distància euclidiana](https://en.wikipedia.org/wiki/Euclidean_distance).

Aquest procediment realitzat per a cada possible valor $k$, resulta en una funció monòtona decreixent, on l'eix $x$ representa els diferents valors de $k$, i l'eix $y$ el $SSE$. Intuïtivament es pot observar un significatiu descens de l'error, que indicarà el valor idoni de $k$.

**Es demana realitzar la representació gràfica de la regla del colze junt amb la seva interpretació, utilitzant la llibreria ```matplotlib``` i la implementació en ```scikit-learn``` de [*k-means*](http://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html).**

<div class="alert alert-block alert-info">
    <strong>Implementació:</strong> càlcul i visualització de la regla del colze en el dataset Blobs.
</div>

<div class="alert alert-block alert-info">
<strong>Anàlisi:</strong> Què s'interpreta en la gràfica? Com podria millorar-se l'elecció de $k$?.
</div>

<div class="alert alert-block alert-info">
<strong>Implementació:</strong> càlcul i visualització dels grups en el dataset Blobs.
</div>

<div class="alert alert-block alert-info">
<strong>Anàlisi:</strong> Què ha succeït? Explica els motius pels quals creus que s'ha produït aquest resultat.
</div>

In [None]:
X, y = X_moons, y_moons

<div class="alert alert-block alert-info">
    <strong>Implementació:</strong> càlcul i visualització de la regla del colze en el dataset Moons.
</div>

<div class="alert alert-block alert-info">
<strong>Anàlisi:</strong> Què s'interpreta en la gràfica? Com podria millorar-se l'elecció de $k$?.  
</div>

<div class="alert alert-block alert-info">
<strong>Implementació:</strong> càlcul i visualització dels grups en el dataset Moons.
</div>

<div class="alert alert-block alert-info">
<strong>Anàlisi:</strong> Què ha succeït? Explica els motius pels quals creus que s'ha produït aquest resultat.
</div>

In [None]:
X, y = X_circles, y_circles

<div class="alert alert-block alert-info">
<strong>Implementació:</strong> càlcul i visualització de la regla del colze en el dataset Circles.
</div>

<div class="alert alert-block alert-info">
<strong>Anàlisi:</strong> Què s'interpreta en la gràfica? Com podria millorar-se l'elecció de $k$?.  
</div>

<div class="alert alert-block alert-info">
<strong>Implementació:</strong> càlcul i visualització dels grups en el dataset Circles.
</div>

<div class="alert alert-block alert-info">
<strong>Anàlisi:</strong> Què ha succeït? Explica els motius pels quals creus que s'ha produït aquest resultat.
</div>

### 1 b. Algorismes basats en densitat: DBScan

En aquest apartat es demana aplicar clustering per densitat, com [DBSCAN](https://en.wikipedia.org/wiki/DBSCAN), als datasets anteriors per detectar els grups subjacents.

In [None]:
X, y = X_blobs, y_blobs

<div class="alert alert-block alert-info">
<strong>Implementació:</strong> prova la implementació de <a href="http://scikit-learn.org/stable/modules/generated/sklearn.cluster.DBSCAN.html">DBSCAN en scikit-learn</a> jugant amb els 
paràmetres <i>eps</i> i <i>min_samples</i> per trobar els grups (i <i>outliers</i>) del dataset Blobs.
</div>

<div class="alert alert-block alert-info">
<strong>Anàlisi:</strong> Què ha succeït? Explica els motius pels quals creus que s'ha produït aquest resultat.
</div>

In [None]:
X, y = X_moons, y_moons

<div class="alert alert-block alert-info">
<strong>Implementació:</strong> prova la implementació de DBScan jugant amb els paràmetres <i>eps</i> i <i>min_samples</i> per trobar els grups (i <i>outliers</i>) del dataset Moons.
</div>

<div class="alert alert-block alert-info">
<strong>Anàlisi:</strong> Què ha succeït? Explica els motius pels quals creus que s'ha produït aquest resultat.
</div>

In [None]:
X, y = X_circles, y_circles

<div class="alert alert-block alert-info">
<strong>Implementació:</strong> prova la implementació de DBScan jugant amb els paràmetres <i>eps</i> i <i>min_samples</i> per trobar els grups (i <i>outliers</i>) del dataset Circles.
</div>

<div class="alert alert-block alert-info">
<strong>Anàlisi:</strong> Què ha succeït? Explica els motius pels quals creus que s'ha produït aquest resultat.
</div>

### 1 c.  Algorismes jeràrquics

En aquest apartat es demana visualitzar mitjançant un [dendrograma](https://en.wikipedia.org/wiki/Dendrogram) la construcció progressiva dels grups mitjançant un algorisme jeràrquic aglomeratiu (estratègia *bottom-up*). Amb això es pretén trobar un mètode gràfic per a entendre el comportament de l'algorisme i trobar els *clusters* desitjats en cada dataset.

In [None]:
X, y = X_blobs, y_blobs

<div class="alert alert-block alert-info">
<strong>Implementació:</strong> prova la implementació de <a href="https://docs.scipy.org/doc/scipy/reference/cluster.hierarchy.html">clustering jeràrquic de scipy</a> provant diferents <a href="https://en.wikipedia.org/wiki/Hierarchical_clustering#Linkage_criteria">criteris d'enllaç o <i>linkage</i></a> permetent identificar els clusters subjacents (mostrant el seu resultat) i el seu dendrograma per al dataset Blobs.<br>
Pots importar les llibreries necessàries per a això.
</div>

<div class="alert alert-block alert-info">
<strong>Anàlisi:</strong> Interpreta el dendrograma i comenta quin criteri d'enllaç s'ha comportat millor. Per què?
</div>

In [None]:
X, y = X_moons, y_moons

<div class="alert alert-block alert-info">
<strong>Implementació:</strong>
prova la implementació de <a href="https://docs.scipy.org/doc/scipy/reference/cluster.hierarchy.html">clustering jeràrquic de scipy</a> provant diferents <a href="https://en.wikipedia.org/wiki/Hierarchical_clustering#Linkage_criteria">criteris d'enllaç o <i>linkage</i></a> permetent identificar els clusters subjacents (mostrant el seu resultat) i el seu dendrograma per al dataset Moons.<br>
Pots importar les llibreries necessàries per a això.
</div>

<div class="alert alert-block alert-info">
<strong>Anàlisi:</strong> Interpreta el dendrograma i comenta quin criteri d'enllaç s'ha comportat millor. Per què?
</div>

In [None]:
X, y = X_circles, y_circles

<div class="alert alert-block alert-info">
<strong>Implementació:</strong>
prova la interpretació de <a href="https://docs.scipy.org/doc/scipy/reference/cluster.hierarchy.html">clustering jeràrquic de scipy</a> provant diferents <a href="https://en.wikipedia.org/wiki/Hierarchical_clustering#Linkage_criteria">criteris d'enllaç o <i>linkage</i></a> permetent identificar els clusters subjacents (mostrant el seu resultat) i el seu dendrograma per al dataset Circles.<br>
Pots importar les llibreries necessàries per a això.
</div>

<div class="alert alert-block alert-info">
<strong>Anàlisi:</strong> Interpreta el dendrograma i comenta quin criteri d'enllaç s'ha comportat millor. Per què?
</div>

<a id="ej2"></a>

## 2. Aplicació: generació d'imatges amb reducció de dimensionalitat (3 punts)

És possible aplicar una àmplia varietat d'algorismes per a la reducció de dimensionalitat. Per a aquest exercici s'emprarà el dataset MNIST, compost de milers de dígits manuscrits del 0 al 9. Cadascuna de les imatges està formada per 784 píxels (imatges de 28 x 28) i, per tat, es parteix d'un nombre alt de dimensions.

In [None]:
X, y = sklearn.datasets.fetch_openml('mnist_784', version=1, return_X_y=True, as_frame=False)

Pel que cada mostra (les 70k files del dataset) es componen de 784 dimensions:

In [None]:
X.shape

In [None]:
fig, axis = plt.subplots(1, 10, figsize=(12, 6))
for i, ax in enumerate(axis):
    ax.imshow(X[y == str(i)][0].reshape(28, 28), cmap='gray_r')
    ax.set_title(str(i))
    ax.axis('off')
plt.tight_layout()

Si cada algorisme obté resultats diferents a l'hora de reduir la dimensionalitat, quina representació és més fidel a la distribució original?

Abans de reduir les 784 dimensions originals de cada mostra a 2 per a poder visualitzar-les en 2 dimensions, és molt útil conèixer, o almenys intuir, l'estructura en alta dimensionalitat de les dades.

Per a això es pot fer ús del dendrograma com a heurística per a conèixer la disposició original de les dades i comprovar si la projecció és similar al mostrat pel dendrograma.

<div class="alert alert-block alert-info">
<strong>Implementació:</strong> aprendre una projecció a 2 dimensions de les mostres de X amb <a href="https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html">PCA</a> i projectar el conjunt X a dos dimensions. Després visualizar-ho en un scatter plot.

Utilitza les etiquetes de y (el número manuscrit al qual es correspon cada mostra), en el paràmetre *label* (en l'anomenada a scatter) i la funció *legend* en la visualització per a saber la classe corresponent a cada punt i interpretar el resultat de la reducció de dimensionalitat i, finalment, poder interpretar el resultat de la projecció.
</div>

<div class="alert alert-block alert-info">
<strong>Anàlisi:</strong> Què pots interpretar de la projecció? Les classes han quedat visiblement separades? Per què?
</div>

En la gràfica anterior, cada punt representa una mostra en 2 dimensions. Amb PCA és possible <a href="https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html#sklearn.decomposition.PCA.inverse_transform">invertir la transformació</a> perquè, a partir de cada punt 2D, s'obtingui de nou (aproximadament) la imatge original (784 dimensions).

Per la qual cosa és possible "generar" noves imatges triant punts aleatòriament del pla 2D, i demanar-li al model PCA après que inverteixi la transformació per a obtenir les "teòriques" imatges que haurien estat projectades a aquests punts de l'espai projectat.

<div class="alert alert-block alert-info">
<strong>Implementació:</strong> calcular el màxim i mínim de cadascuna de les dues dimensions i, per a cadascuna d'elles, <a href="https://numpy.org/doc/stable/reference/generated/numpy.linspace.html">generar una 
seqüència</a> de 10 valors amb igual separació.
</div>

Amb les dues seqüències de 10 (una per cada dimensió del pla de projecció) valors és possible combinar els punts de totes dues seqüències per a generar 100 combinacions (punts 2D) que divideixen el pla sobre el qual PCA ha projectat les mostres.

<div class="alert alert-block alert-info">
<strong>Implementació:</strong> invertir la transformació per a cadascun dels 100 punts i visualitzar la seva imatge associada en una matriu de 10 x 10 imatges (tractant de preservar la seva posició en l'espai projectat).
</div>

<div class="alert alert-block alert-info">
<strong>Anàlisi:</strong> Què pots interpretar de les imatges reconstruïdes / interpolades? Genera números o transicions entre números visualment creïbles? Per què?
</div>

<div class="alert alert-block alert-info">
<strong>Anàlisi:</strong> Podria haver-se aconseguit el mateix amb <a href="https://scikit-learn.org/stable/modules/generated/sklearn.manifold.TSNE.html">t-SNE</a>? ¿Per què?
</div>

<div class="alert alert-block alert-info">
<strong>Implementació:</strong> aprendre una projecció a 2 dimensions de les mostres de X amb <a href="https://towardsdatascience.com/how-exactly-umap-works-13e3040e1668">UMAP</a> (amb els paràmetres per defecte) utilitzant la llibreria <a href="https://umap-learn.readthedocs.io/en/latest/">umap-learn</a> i projectar el conjunt X a dues dimensions. Després visualitza-ho en un scatter plot.

Utilitza les etiquetes de y (el número manuscrit al qual es correspon cada mostra), en el paràmetre *label* (en l'anomenada a scatter) i la funció *legend* en la visualització per a saber la classe corresponent a cada punt i interpretar el resultat de la reducció de dimensionalitat i, finalment, poder interpretar el resultat de la projecció.
</div>

<div class="alert alert-block alert-info">
<strong>Anàlisi:</strong> Què pots interpretar de la projecció? Les classes han quedat visiblement separades? Per què?
</div>

<div class="alert alert-block alert-info">
<strong>Implementació:</strong> igual que anteriorment amb PCA, calcula el màxim i mínim per a cadascuna de les dues dimensions i inverteix la transformació amb el model après per UMAP per a cadascun dels 100 punts i visualitza la seva imatge associada en una matriu de 10 x 10 imatges (tractant de preservar la seva posició en l'espai projectat).
    
<strong>Consell</strong>: la inversió de la transformació en UMAP és més costosa computacionalment que amb PCA, per la qual cosa recomano que només la invoquis una vegada amb les 100 mostres en lloc de fer 100 crides (una per cada mostra). Això redueix dràsticament el temps d'execució.
</div>

<div class="alert alert-block alert-info">
<strong>Anàlisi:</strong> 
Què pots interpretar de les imatges reconstruïdes / interpolades? Genera números o transicions entre números visualment creïbles? Per què?
</div>

<a id="ej3"></a>

## 3. Aplicació: identificació de punts d'interès turístics (3 punts)

En aquest exercici es busca automatitzar la localització de llocs turístics a través de les metadades de les fotografies de flickr.

Per això s'entrega junt a PEC el dataset: ``barcelona.csv``. Ja que es demana trobar els punts de major interès turístic d'aquesta ciutat.

**Opcional: si vols fer-ho per a una altra regió**

1. Però si vols fer-ho per a una altra part del món, pots descarregar-te el dataset complet [aquí](https://drive.google.com/file/d/0B-mRR4rjwHPONVFfX2VmTmxZcHM/view?usp=sharing) i descomprimir per extraure el *CSV*.

2. Per a seleccionar les coordenades de la zona d'interès pots usar l'opció *Export* manual de [OpenStreetMaps](https://www.openstreetmap.org/).

3. Finalment, per a filtrar les dades que es corresponen a la zona desitjada pots usar el programa *AWK* mitjançant la següent línia:

``awk -F"," 'NR == 1 {print $5","$6} (NR > 1 && $5 > 41.3560 && $5 < 41.4267 && $6 > 2.1300 && $6 < 2.2319) {print $5","$6}' photo_metadata.csv``

On ``$5`` fa referència a la latitud, i ``$6`` a la longitud. Substitueix els valors mínim i màxim per a obtenir les dades de localització referents a la teva àrea d'interès.

In [None]:
geo_df = pd.read_csv('barcelona.csv', header=0)
geo_df.sample(5)

<div class="alert alert-block alert-info">
<strong>Implementació:</strong> sempre que tractem un problema real, és necessari entendre les dades a tractar. 
Visualitza les localitzacions de les fotografies mitjançant un scatter plot. Prova diferents paràmetres de grandària (<i>size</i>) <i>s</i>, i opacitat <i>alpha</i> fins aconseguir un resultat fàcil d'interpretar. 
</div>

<div class="alert alert-block alert-info">
<strong>Anàlisi:</strong> 
després d'haver provat els algorismes d'agrupament en l'exercici 1. Quin algorisme creus que seria més adequat després de visualitzar les dades? Per què?
</div>

<div class="alert alert-block alert-info">
<strong>Implementació:</strong> per a fer prototips de modelatge primer es recomana triar un subconjunt de les dades que sigui representatiu. Selecciona una mostra del DataFrame original i visualitza com en el punt anterior, per a comprovar la seva similitud.
</div>

<div class="alert alert-block alert-info">
<strong>Implementació:</strong> ajusta l'algorisme de clustering triat per a trobar els diferents grups sobre el conjunt reduït, i visualitza el resultat colorejant cada punt sobre la base del grup al qual pertany. Com a pista, al voltant de 20 clusters és un número raonable, i és possible donar-los un color diferent a cadascun amb el <i>colormap: tab20</i>.
</div>

<div class="alert alert-block alert-info">
<strong>Implementació:</strong> si has utilitzat el mètode de <i>clustering</i> que permet la detecció de <i>outliers</i>, representa només els punts que no has consdiderat <i>outliers</i>, és a dir, els que pertanyen a algun <i>cluster</i>.
</div>

<div class="alert alert-block alert-info">
<strong>Anàlisi:</strong> interpreta com és el lloc que representa cada <i>cluster</i> (si trobes una associació lògica).
</div>

<div class="alert alert-block alert-info">
<strong>OPCIONAL Implementació:</strong> representa els punts sense sorrol sobre un mapa utilitzant la llibreria <a href="https://pypi.org/project/smopy/">Smopy</a>. Per a facilitar la interpretació, pots representar cada cluster com el punt mitjà de tots els punts que el conformen.
</div>