# Gaussian Mixture Models

En aquesta pràctica treballarem amb la tècnica de Gaussian Mixture Models que ens pot servir tant per realitzar agrupaments (_clustering_) o per generar noves mostres del nostre conjunt de dades. Treballarem amb el _dataset_ dels digits.

Les passes que s'han de realitzar són les següents:

1. Càrrega de dades.
2. Reducció de la dimensionalitat.
3. Selecció del model: parametrització.
4. Generació de nous exemples.
5. Extra: Validació dels nous exemples.

## Reducció de la dimensionalitat

Una de les tècniques més emprades per reduir la informació de les dades amb les quals tractam és l'anàlisi de components principals (PCA). [enllaç](https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html?highlight=pca#sklearn.decomposition.PCA)

Aquesta tècnica ens permet descompondre les dades d'entrada en un conjunt ortogonal de components que expliquen la màxima quantitat de variància. La implementació de _Scikit_ ens permet seleccionar entre dues opcions: un nombre de components fixat o el nombre de components mínim per explicar una quantitat de variància fixada.

Una tècnica existent per tal d'obtenir un bon equilibri entre la informació que perdem i el nombre de components que seleccionem, és dibuixar la **variància explicada acumulada** segons el nombre de components i seleccionar allà on veiem que la corba torna horitzontal. Aquesta tècnica es coneix amb el nom de la _regla del colze_.


### Feina a fer

En primer lloc, heu de carregar el conjunt de dades dels [digits](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_digits.html).

En segon lloc, heu d'aplicar PCA a les dades mantenint totes les components i realitzar un gràfic que mostri la variància acumulada segons el nombre de components. Amb aquest gràfic podrem decidir quantes components mantenir. Tornar a aplicar PCA, aquest cop, amb el nombre de components seleccionades en la passa anterior.

Per calcular la variància segons el nombre de components consulteu l'atribut `explained_variance_`. Per obtenir la suma acumulada d'un array `numpy` podeu emprar el mètode `cumsum`.

Com podeu suposar, seleccionar el nombre de components d'acord amb un gràfic no és la manera més pràctica de fer-ho. Heu de fer una funció que decideixi quantes components són necessaries "per aplanar la corva".


## Selecció del nombre de gaussianes de la mixtura.

La següent passa consisteix a construir una mixtura de Gaussianes que s'adapti a les nostres dades. Però abans hem de trobar el paràmetre principal d'aquest mètode, que és el nombre de gaussianes a seleccionar. Tal com ho hem fet amb el PCA aquí també realitzarem aquesta selecció aplicant un criteri gràfic.

La propia classe de _Scikit_ de Gaussian Mixture Model (GaussianMixture) té implementat un mètode anomenat Bayesian information criterion (`bic`) que ens dona un criteri de com el model s'adapta a un conjunt de dades, com menor és el seu valor millor s'adapta el model a les dades [enllaç](https://scikit-learn.org/stable/modules/generated/sklearn.mixture.GaussianMixture.html#sklearn-mixture-gaussianmixture).

### Feina a fer

Visualitzar el criteri bic pel rang:`[1,10]` gaussianes. Cercar visualment el mínim local.

## Generació de nous exemples

Un cop hem seleccionat el nombre de gaussianes, podem ajustar el model i simplement usant el mètode `sample` de la classe `GaussianMixture` podrem generar noves mostres del conjunt de dades.

### Feina a fer

Generar 100 mostres i visualitzar-les. Per això, has d'emprar el mètode `sample` de la classe `GaussianMixture` i després desfer la projecció del PCA amb el mètode `inverse_transform`.

## Validació dels resultats obtinguts

Com ho faries per validar que el nou conjunt generat és similar al conjunt original?

## Extra, extra!

Si us sobra temps, és molt interessant fer aquesta feina amb el conjunt de dades de les cares en entorns reals. [enllaç](https://scikit-learn.org/0.16/modules/generated/sklearn.datasets.fetch_lfw_people.html#sklearn.datasets.fetch_lfw_people).

## Notes

Més informacions:


* PCA, lectura en 6 minuts [enllaç](https://medium.com/analytics-vidhya/principal-component-analysis-pca-558969e63613)

* Tutorial PCA [enllaç](http://www.cs.cmu.edu/~elaw/papers/pca.pdf)

* Bayesian Information Criterion [enllaç](https://stanfordphd.com/BIC.html)