#![Spark Logo](http://spark-mooc.github.io/web-assets/images/ta_Spark-logo-small.png) + ![Python Logo](http://spark-mooc.github.io/web-assets/images/python-logo-master-v3-TM-flattened_small.png)

## Segmentació comportamental basada en clustering (ML no supervisat) 

Aquesta exercici simula l'exercici complet de generació de segments (clusters) de clients utilitzant un dataset d'usuaris i avaluacions de pel·lícules alliberats per una empresa de streaming multimèdia sota demanda per Internet.

*Aquest notebook cobreix:*
* **Part 1:** ETL dels fitxers
* **Part 2:** Enginyeria de característiques
* **Part 3:** Clustering
* **Part 4:** Validació dels resultats
* **Part 5:** Normalització de les dades

## Part 1: ETL de los fitxers

** Resum **

Els arxius que usarem contenen una agregació de 1.000.209 qualificacions anònimes d'aproximadament 3.900 pel·lícules de 6.040 usuaris realitzades durant l'any 2000.

** Fitxer de qualificacions **

Totes les qualificacions estan contingudes en l'arxiu "ratings.dat" i tenen el següent format:

*UserID::MovieID::Rating::Timestamp*

- UserIDs: el rang del qual es troba entre 1 i 6040
- MovieIDs: el rang del qual es troba entre 1 i 3952
- Rating: les qualificacions es realitzen en una escala de 5 estels (sense decimals)
- Timestamp: la marca de temps es representa en segons

**Nota:** Per a cada usuari hi ha com a mínim 20 qualificacions

** Fitxer d'usuaris **

La informació sobre els usuaris està continguda en el fitxer "users.dat" i té el següent format:

*UserID::Gender::Age::Occupation::Zip-code*

Tota la informació demogràfica és proporcionada voluntàriament pels usuaris i no es comprova la seva exactitud. Solament els usuaris que hagin proporcionat dades demogràfiques s'inclouen en aquest conjunt de dades.

- Gender: El gènere es denota per "M" per a homes i "F" per a dones
- Age: Distribuïda en els següents rangs:

	*  1:  "- 18"
	* 18:  "18-24"
	* 25:  "25-34"
	* 35:  "35-44"
	* 45:  "45-49"
	* 50:  "50-55"
	* 56:  "56 - "

- Occupation: Es tria de les següents opcions:

	*  0:  "other" or not specified
	*  1:  "academic/educator"
	*  2:  "artist"
	*  3:  "clerical/admin"
	*  4:  "college/grad student"
	*  5:  "customer service"
	*  6:  "doctor/health care"
	*  7:  "executive/managerial"
	*  8:  "farmer"
	*  9:  "homemaker"
	* 10:  "K-12 student"
	* 11:  "lawyer"
	* 12:  "programmer"
	* 13:  "retired"
	* 14:  "sales/marketing"
	* 15:  "scientist"
	* 16:  "self-employed"
	* 17:  "technician/engineer"
	* 18:  "tradesman/craftsman"
	* 19:  "unemployed"
	* 20:  "writer"
    
** FFitxer de pel·lícules **

La informació es troba en l'arxiu "movies.dat" i està en el següent format:

*MovieID::Title::Genres*

- Title: Els títols són idèntics als títols proporcionats per la IMDB (incloent any de llançament)
- Genres: Els gèneres estan separats per *pipes* i se seleccionen de la següent llista:
    * Action
	* Adventure
	* Animation
	* Children's
	* Comedy
	* Crime
	* Documentary
	* Drama
	* Fantasy
	* Film-Noir
	* Horror
	* Musical
	* Mystery
	* Romance
	* Sci-Fi
	* Thriller
	* War
	* Western
    
- Alguns MovieIDs no corresponen a una pel·lícula a causa d'un duplicat accidental a la seva entrades i/o a entrades de prova
- Les pel·lícules s'introdueixen principalment a mà, per la qual cosa poden existir errors i incoherències

In [0]:
# Aggregate all imports here
import os
import re
from pprint import pprint
from collections import OrderedDict

Començarem per visualitzar una mostra de les dades. Per a això usarem les funcions predefinides en els notebooks de Databricks per explorar el seu sistema d'arxius.

Fer servir `display(dbutils.fs.ls("/databricks-datasets/cs110x/ml-1m/data-001")` per mostrar la descripció de les dades que es van a usar.

In [0]:
BASE_DATA_PATH = "/databricks-datasets/cs110x/ml-1m/data-001"
display(dbutils.fs.ls(BASE_DATA_PATH))

path,name,size
dbfs:/databricks-datasets/cs110x/ml-1m/data-001/README,README,5577
dbfs:/databricks-datasets/cs110x/ml-1m/data-001/movies.dat,movies.dat,171308
dbfs:/databricks-datasets/cs110x/ml-1m/data-001/movies.dat.gz,movies.dat.gz,58049
dbfs:/databricks-datasets/cs110x/ml-1m/data-001/ratings.dat,ratings.dat,24594131
dbfs:/databricks-datasets/cs110x/ml-1m/data-001/ratings.dat.gz,ratings.dat.gz,5816216
dbfs:/databricks-datasets/cs110x/ml-1m/data-001/users.dat,users.dat,134368
dbfs:/databricks-datasets/cs110x/ml-1m/data-001/users.dat.gz,users.dat.gz,40690


Ara usarem la comanda `print dbutils.fs.head` per a visualitzar el contingut dels fitxers "movies.dat", "user.dat" i "ratings.dat"

In [0]:
users_path = os.path.join(BASE_DATA_PATH, "users.dat")
print(dbutils.fs.head(users_path))

In [0]:
ratings_path = os.path.join(BASE_DATA_PATH, "ratings.dat")
print(dbutils.fs.head(ratings_path))

In [0]:
movies_path = os.path.join(BASE_DATA_PATH, "movies.dat")
print(dbutils.fs.head(movies_path))

Carregar els diferents fitxers (usuaris, pel·lícules i qualificacions) en tres RDDs per al seu posterior processament.

In [0]:
N_RDD_ROWS_SAMPLE = 5

In [0]:
rawUsersTextRdd = sc.textFile(users_path)
pprint(rawUsersTextRdd.take(5))

In [0]:
rawRatingsTextRdd = sc.textFile(ratings_path)
pprint(rawRatingsTextRdd.take(N_RDD_ROWS_SAMPLE))

In [0]:
rawMoviesTextRdd = sc.textFile(movies_path)
pprint(rawMoviesTextRdd.take(N_RDD_ROWS_SAMPLE))

Com t'has adonat observant els fitxers, el fitxer d'usuaris conté algunes línies amb més d'un `zip-code`. Per a simplicitat, eliminarem aquestes línies del fitxer. Per a això crearem una funció que elimini totes les línies que contingui algun caràcter que no sigui '0123456789:MF'.

In [0]:
def isValidLine(line):
    """Verifies if a line is valid to be converted to a dataframe.
    Args:
        line (str): A string.

    Returns:
        boolean: True if valid, False otherwise.
    """    
    full_correct_matching = re.match(
      '^[\d:MF]*$',
      line
    )
    return full_correct_matching is not None

In [0]:
filteredUsersTextRdd = rawUsersTextRdd.filter(lambda x: isValidLine(x))

Com en anteriors ocasions, crea un esquema a mesura per a cadascun dels fitxers.

In [0]:
from pyspark.sql.types import *

# Custom Schema for users
def build_schema(column_type_duples):
  return StructType([ \
    StructField(c[0], c[1], False) for c in column_type_duples
  ])

# UserID::Gender::Age::Occupation::Zip-code
userSchema = build_schema([
  ("UserID", IntegerType()),
  ("Gender", IntegerType()),
  ("Age", IntegerType()),
  ("Occupation", IntegerType()),
  ("Zip-code", IntegerType()),
])
pprint(userSchema)

In [0]:
# UserID::MovieID::Rating::Timestamp
ratingsSchema = build_schema([
  ("UserID", IntegerType()),
  ("MovieID", IntegerType()),
  ("Rating", IntegerType()),
  ("Timestamp", IntegerType()),
])

In [0]:
# MovieID::Title::Genres
moviesSchema = build_schema([
  ("MovieID", IntegerType()),
  ("Title", StringType()),
  ("Genres", StringType()),
])

Elimina les línies no vàlides contingudes en `rawUsersTextRdd`.

In [0]:
filteredUsersTextRdd = rawUsersTextRdd.filter(lambda x: isValidLine(x))

Per poder usar fàcilment diferents algorismes de clustering és convenient que tots els atributs siguin numèrics, per a això convertirem l'atribut gender dels usuaris en 1 si és home ('M') o 0 si és dona ('F'), canvia en l'esquema que has creat anteriorment l'atribut gender a `IntegerType()` si ho tenies com `char` o `string`.

Després transforma el RDD en un DataFrame usant la funció [toDF()](https://spark.apache.org/docs/1.6.2/api/python/pyspark.sql.html#pyspark.sql.SQLContext) indicant-li que schema ha d'usar com un paràmetre de la funció (`schema= customSchema`).

Per realitzar aquesta transformació a DataFrame, primer cal convertir cada línia en una llista d'enters, ja que així s'indica en el nostre esquema. Per a això usarem les funcions de Python [split()](https://docs.python.org/2/library/stdtypes.html#str.split) i [int()](https://docs.python.org/2/library/functions.html#int). Pots combinar aquestes dues transformacions juntament amb la conversió de l'atribut `gender` en la mateixa funció lambda o fer una funció amb nom. Després usa una funció `map` per aplicar els canvis a totes les línies del RDD d'usuaris.

Finalment, comprova que les dades mostrades pel comando `display(usersDF)` són correctes.

In [0]:
GENDER_MAP = {
  'M': 1,
  'F': 0,
}
SEPARATOR = '::'

def replace_gender_to_int(line):
  parts = line.split(SEPARATOR)
  parts[1] = GENDER_MAP[parts[1]]
  return [int(p) for p in parts]  


# UserID::Gender::Age::Occupation::Zip-code
integerGendersUsersTextRdd = filteredUsersTextRdd.map(replace_gender_to_int)

usersDF = integerGendersUsersTextRdd.toDF(schema=userSchema)

display(usersDF.head(5))

UserID,Gender,Age,Occupation,Zip-code
1,0,1,10,48067
2,1,56,16,70072
3,1,25,15,55117
4,1,45,7,2460
5,1,25,20,55455


Ara aplica les mateixes transformacions, excepte la de l'atribut gender, al RDD de ratings.

In [0]:
ratingsDF = rawRatingsTextRdd.map(lambda x: [int(c) for c in x.split(SEPARATOR)]).toDF(schema=ratingsSchema)

display(ratingsDF)

UserID,MovieID,Rating,Timestamp
1,1193,5,978300760
1,661,3,978302109
1,914,3,978301968
1,3408,4,978300275
1,2355,5,978824291
1,1197,3,978302268
1,1287,5,978302039
1,2804,5,978300719
1,594,4,978302268
1,919,4,978301368


## Part 2: Enginyeria de característiques

L'enginyeria de característiques és el procés d'utilitzar el coneixement del domini de les dades per crear les característiques que fan que els algorismes de machine learning treballin de forma correcta. Això és fonamental en l'aplicació del machine learning a dades del món real, i en general és difícil i costosa. L'enginyeria de característiques és un tema informal, però es considera essencial en el machine learning aplicat.

Calcularem unes quantes característiques molt senzilles com el nombre de pel·lícules vistes per cada usuari, la mitjana de les seves qualificacions i la seva variància.

Per obtenir aquestes característiques usarem la funció [groupBy()](https://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrame.groupBy) dels DataFrames de Spark, així com les funcions d'agregació que ens proporciona SparkQL (https://spark.apache.org/docs/latest/api/python/pyspark.sql.html#moduli-pyspark.sql.functions).

Per simplicitat usarem la funció [àlies()](https://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.SQLContext) per posar els següents noms a les columnes: NumMovies, AvgRating i VarRating.

In [0]:
import pyspark.sql.functions as func

aggRatingsDF = (
  ratingsDF
  .groupBy(ratingsDF.UserID)
  .agg(
    func.count('MovieID').alias('NumMovies'),
    func.avg('Rating').alias('AvgRating'),
    func.variance('Rating').alias('VarRating')
  )
)

aggRatingsDF.show()

Ara ajuntarem les característiques que hem extret del fitxer de ratings amb el fitxer d'usuaris. Com no volem haver de preocupar-nos pels valors nuls en les característiques, solament ens quedarem amb els usuaris que hagin qualificat alguna pel·lícula. Per realitzar això, usarem un inner join. Trobarem els detalls d'aquesta funció aquí [join()](https://spark.apache.org/docs/1.6.2/api/python/pyspark.sql.html).

In [0]:
usersDF.

In [0]:
joinedDF = usersDF.join(
  aggRatingsDF,
  usersDF.UserID == aggRatingsDF.UserID,
  'inner'
)

display(joinedDF)

UserID,Gender,Age,Occupation,Zip-code,UserID.1,NumMovies,AvgRating,VarRating
148,1,50,17,57747,148,624,3.733974358974359,0.956404082808576
463,1,25,7,55105,463,123,3.0,1.5081967213114758
471,1,35,7,8904,471,105,3.628571428571429,1.543406593406593
496,1,18,4,55455,496,119,4.294117647058823,0.9042871385842476
833,1,35,7,46825,833,21,4.047619047619048,0.9476190476190473
1088,0,1,10,98103,1088,1176,3.337585034013605,1.12253509914604
1238,0,35,20,11215,1238,45,3.7111111111111112,0.8919191919191914
1342,1,35,0,94560,1342,92,2.9782608695652173,1.054467271858576
1580,0,18,4,76201,1580,37,3.5405405405405403,0.644144144144144
1591,1,50,7,26501,1591,314,4.340764331210191,0.6598665065830978


Ara anem a guardar les dades generades per poder reutilitzar-les en un futur sense haver de re-executar tot el notebook, per a això executarem el següent codi.

In [0]:
sqlContext.sql("DROP TABLE IF EXISTS joinedDF")
dbutils.fs.rm("dbfs:/user/hive/warehouse/joinedDF", True)
sqlContext.registerDataFrameAsTable(joinedDF, "joinedDF")

## Part 3: Clustering

Un algorisme d'agrupament (en anglès, clustering) és un procediment d'agrupació d'una sèrie de vectors d'acord amb un criteri. Aquests criteris són en general distancia o similitud. La proximitat es defineix en termes d'una determinada funció de distància, com la d'Euclides, encara que existeixen unes altres mes robustes o que permeten estendre-la a variables discretes.

Existeixen dues grans famílies de clustering:

* *Agrupament jeràrquic*, que pot ser aglomeratiu o divisiu.
* *Agrupament no jeràrquic*, en els quals el nombre de grups es determina per endavant i les observacions es van assignant als grups en funció de la seva proximitat. En aquesta família existeixen una gran quantitat de mètodes, en aquesta PAC usarem el mètode de k-means (k-mitjanes).

### k-means

K-means és un mètode de clustering, que té com a objectiu la partició d'un conjunt de _n_ observacions en _k_ grups en el qual cada observació pertany al grup el valor mitjà del qual és més proper. Un dels avantatges d'aquest mètode és que l'agrupació del conjunt de dades pot il·lustrar-se en una partició de l'espai de dades en [cel·les de Voronoi](https://es.wikipedia.org/wiki/Pol%C3%ADgonos_de_Thiessen#Diagramas_de_Voron.C3.B3i_en_el_plano_euclidiano_.7F.27.22.60UNIQ--postMath-00000001-QINU.60.22.27.7F).


El problema és computacionalment difícil (NP-hard). No obstant això, hi ha heurístiques molt eficients que s'empren comunament i que convergeixen ràpidament a un òptim local.

L'algorisme de k-means més comuna utilitza una tècnica de refinament iteratiu, tal com es descriu a continuació:

Donat un conjunt inicial de _k_ centroides $$ m_1^{(1)},...,m_k^{(1)} $$ l'algorisme contínua alternant entre aquests dos passos:


* *Pas d'asignació:* Assigna cada observació al grup amb la mitjana més propera (és a dir, la partició de les observacions d'acord amb el diagrama de Voronoi generat pels centroides).

$$ S_{i}^{(t)} = \\{ x_p: || x_p - m_i^{(t)} || \leq || x_p - m_j^{(t)} || \forall 1 \leq j \leq k \\} $$

* *Pas d'actualizació:* Calcular els nous centroides com el centroides de les observacions en el grup.
$$ m_i^{(t+1)} = \frac{1}{|S_i^{(t)}|} \sum^{x_j \in S_i^{(t)}} x_j$$

L'algorisme es considera que ha convergit quan les assignacions ja no canvien. Els centroides solen iniciar-se de forma aleatòria.

El següent pas és preparar les dades per aplicar el k-means. Atès que tot el dataset és numèric i consistent, aquesta serà una tasca senzilla i directa.

L'objectiu és utilitzar el mètode de clustering per determinar _k_ usuaris estàndard (mitjana) que representin la totalitat dels usuaris que tenim en el nostre dataset. El primer pas en la construcció del nostre model de clustering és convertir les característiques que hem calculat en el nostre DataFrame a un vector de característiques utilitzant el mètode [pyspark.ml.feature.VectorAssembler()](https://spark.apache.org/docs/1.6.2/api/python/pyspark.ml.html#pyspark.ml.feature.VectorAssembler).

El VectorAssembler és una transformació que combina una llista donada de columnes en una únic vector. Aquesta transformació és molt útil quan volem combinar característiques en cru de les dades amb altres generades en aplicar diferents funcions sobre les dades en un únic vector de característiques. Per integrar en un únic vector tota aquesta informació abans d'executar un algorisme d'aprenentatge automàtic, el VectorAssembler pren una llista amb els noms de les columnes d'entrada (llista de strings) i el nom de la columna de sortida (string).

- Convertir la taula SQL `joinedDF` en un `dataframe` anomenat datasetDF usant la funció table del sqlContext
- Establir les columnes d'entrada del VectorAssember: `['Age','NumMovies','AvgRating','VarRating']`
- Establir la columnes de sortida com `"features"`

In [0]:
from pyspark.ml.feature import VectorAssembler

datasetDF = joinedDF

vectorizer = VectorAssembler()
vectorizer.setInputCols(['Age','NumMovies','AvgRating','VarRating'])
vectorizer.setOutputCol('features')

Guardar en la memòria cau el dataframe `datasetDF` i renombrarlo a clusteringDF

In [0]:
clusteringDF = datasetDF.cache()

- Llegir la documentació i els exemples de [k-means](https://spark.apache.org/docs/1.6.2/ml-clustering.html#k-means)
- Executar la següent cel·la

In [0]:
from pyspark.ml.clustering import KMeans
from pyspark.ml import Pipeline

kmeans = KMeans()
print(kmeans.explainParams())

La següent cel·la està basada en [Spark 3 ML Pipeline API for clustering](https://spark.apache.org/docs/latest/mllib-clustering.html#k-means).

El primer pas és establir els valors dels paràmetres:
- Definir el nombre de clusters (k) com 10
- Definir el nombre màxim d'iteracions a 25
- Definir el random seed a 1

Ara, crearem el [ML Pipeline](https://spark.apache.org/docs/1.6.2/api/python/pyspark.ml.html#pyspark.ml.Pipeline) (flux d'execució) i establirem les fases del pipeline com vectoritzar i posteriorment aplicar l'algorisme de clustering que hem definit.

Finalment, crearem el model entrenant-ho amb el DataFrame `clusteringDF`.

- Llegir la documentació [k-means](https://spark.apache.org/docs/2.0.1/mllib-clustering.html#k-means).
- Completa i executa la següent cel·la, assegura't d'entendre que és el que succeeix.

In [0]:
K_CLUSTERS = 10
MAX_ITERATIONS = 25
SEED = 1

# Now we set the parameters for the method
kmeans = KMeans().setK(K_CLUSTERS).setMaxIter(MAX_ITERATIONS).setSeed(SEED)

clusteringPipeline = Pipeline()

# We will use the new spark.ml pipeline API. If you have worked with scikit-learn this will be very familiar.
clusteringPipeline.setStages([vectorizer, kmeans])

# Let's train on the entire dataset to see what we get
clusteringModel = clusteringPipeline.fit(clusteringDF)

Executar la següent cel·la i observar els centroides que has obtingut. Després respon a les següents preguntes:

- Creïs que els centrodides són significatius?
- Què creïs que ha succeït?

In [0]:
# ['Age','NumMovies','AvgRating','VarRating']
# Shows the result.
centers = clusteringModel.stages[1].clusterCenters()
print("Centroids: ")
for center in centers:
    print(center)

<!-- 'Age','NumMovies','AvgRating','VarRating' --> 

Tot i que la representació, i per tant la comprensió, d'aquests centroides amb més de 2-3 dimensions és complexa, podem observar alguns patrons a les diferents dimensions. Podem observar com, algunes dimensions, presenten centroides molt propers. Això succeeix amb l'edat, la mitjana de puntuacions i la variància de puntuacions. Concretament, aquestes dimensions oscil·len entre:

- **Edat**: [27.93 - 36.66]. Observem com els centroides tenen una distància màxima de gairebé 10, tot i que les dades del conjunt es mouen entre 1 i 56, un rang molt més ampli.
- **Mitjana de puntuacions**: [3.295 - 3.771] 
- **Variància de puntuacions**: [0.9923 - 1.1018]

A partir d'aquí, podem observar com els centroides es defineixen principalment pel nombre de pel·lícules visualitzades. En el nostre cas, els centroides oscil·len entre 40.53 i 882.26. Aquest fet condicionarà, probablement, els grups (*clusters*) en funció de quantes pel·lícules hagi valorat l'usuari.

Inspecciona visualment si els centroides predits d'alguns dels elements de clusteringDF estan prop dels valors reals i si tenen sentit, després respon les següents preguntes:

- Com afecta el no haver normalitzat les dades? 
- Hi ha algun atribut més important que els altres? En cas que la resposta sigui afirmativa, Com?

Executa la següent cel·la per veure que cluster s'han assignat cadascun dels registres del DataFrame. Els identificadors de cluster comencen per 0.

In [0]:
predictions = clusteringModel.transform(datasetDF)
display( predictions.select(['Age','NumMovies','AvgRating','VarRating','prediction']))

Age,NumMovies,AvgRating,VarRating,prediction
50,624,3.733974358974359,0.956404082808576,1
25,123,3.0,1.5081967213114758,7
35,105,3.628571428571429,1.543406593406593,0
18,119,4.294117647058823,0.9042871385842476,7
35,21,4.047619047619048,0.9476190476190473,5
1,1176,3.337585034013605,1.12253509914604,3
35,45,3.7111111111111112,0.8919191919191914,5
35,92,2.9782608695652173,1.054467271858576,0
18,37,3.5405405405405403,0.644144144144144,5
50,314,4.340764331210191,0.6598665065830978,9


Com hem introduït a l'explicació anterior, la diferència de magnituds entre les variables afecta fortament als centroides. Donat que el nombre de pel·lícules valorades contempla un rang molt més ampli que la resta de dimensions, les distàncies entre centroides es veuen molt afectades per aquesta variable. Aquest problema es pot resoldre normalitzant totes les dimensions abans de realitzar la predicció.

Com hem exposat, efectivament, el nombre de pel·lícules (`NumMovies`) és més important que la resta i, com hem dit, afecta els clusters fent que sigui la mètrica dominant mer definir quin grup pertoca a cada usuari.

## Part 5: Normalització de les dades

Una bona practica quan usem mètodes de machine learning basats en distàncies és assegurar-nos que tots els atributs estan en la mateixa escala. Això no succeeix en el nostre dataset ja que cada atribut té un rang diferent.

Prova les següents opcions de normalització i re-executa el notebook amb les dades normalitzades:

* **normalització:** Converteix tots els atributs al rang [0,1] usant la següent fórmula
$$ x' = \frac{x - min}{max-min} $$

* **estandarizació (z-scores):** Converteix tots els atributs en una distribució normal amb mitjana = 0 i variància = 1 usant la següent fórmula
$$ z = \frac{x - \mu}{\sigma}$$

- Tenen ara els centroides més sentit?
- Has aconseguit reduir error? Això implica que ara els centroides estan millor calculats?

In [0]:
# For the following exercise, we'll create two different pipelines: one of every normalisation.
# Through pipelines objects we can get the full transformed datframe. Calling the method 'transform', all transformes will be applied
# to the original dataframe, specially usefull por calculating RSME cost.
vectorizer_raw = VectorAssembler(inputCols=['Age','NumMovies','AvgRating','VarRating'], outputCol='rawFeatures')

In [0]:
from pyspark.ml.feature import MinMaxScaler


normalizer = MinMaxScaler(inputCol='rawFeatures', outputCol='features')

normalizedClusteringPipeline = Pipeline()
normalizedClusteringPipeline.setStages([vectorizer_raw, normalizer, kmeans])

normalizedClusteringModel = normalizedClusteringPipeline.fit(clusteringDF)
normalized_kmeans = normalizedClusteringModel.stages[-1] # K-means is the last stage of our pipeline
normalized_features_df = normalizedClusteringModel.transform(clusteringDF)


In [0]:
from pyspark.ml.feature import StandardScaler


standardizer = StandardScaler(inputCol='rawFeatures', outputCol='features', withMean=True)

standardizePipeline = Pipeline()
standardizePipeline.setStages([vectorizer_raw,  standardizer, kmeans])

standardizedClusteringModel = standardizePipeline.fit(clusteringDF)
standardized_kmeans = standardizedClusteringModel.stages[-1] # K-means is the last stage of our pipeline
standardized_features_df = standardizedClusteringModel.transform(clusteringDF)


In [0]:
kmeans_normalized_models = [
  {
    'desc': 'Dades normalitzades',
    'model': normalized_kmeans
  },
  {
    'desc': 'Dades estandaritzades',
    'model': standardized_kmeans
  },
]

for norm_kmeans in kmeans_normalized_models:
  print(norm_kmeans['desc'])
  centers = norm_kmeans['model'].clusterCenters()
  print("Centroides:")
  for center in centers:
      print(center)
            
  print('\n#####\n')

> Observem com els centroides ara són molt més dispersos en totes les dimensions. Previsiblement, això ens atorgarà el mateix pes a totes les variables i els grups o *clusters* s'assignaran a partir de tota la informació disponible.

Com podem observar a la taula superior, certament hem aconseguit reduir el valor de RMSE. Sabem que, com més baix sigui aquest valor, millor podem considerar el nostre model. Seguint aquesta idea, podem dir que el millor preprocessat ha sigut la normalització de les `features` a tractar.

Tot i això, cal tenir en compte que les distàncies usades per calcular RMSE són absolutes, i no ràtios. Això vol dir que l'escala de les dades originals afecten directament al valor final de la mètrica. Per exemple, en les dades normalitzades [0-1], la distància entre els centroides i els valors sempre serà més baixa que amb les dades en cru del dataset. La utilitat real de normalitzar les dades és evitar que una de les variables que el model tracta tingui més pes (fals) que altres a causa de la magnitud dels valors. Per dir-ho d'una forma planera, el que té sentit és comprar RMSE de diferents prediccions (habitualment de diferents models), però no de diferents prediccions fruit de diferents dades.

En el nostre cas, es centroides sí que estan millor calculats. Aquesta millor no és deu únicament a la reducció de RMSE, sinó que també és a causa de que les dimensions tenen ara el mateix pes. 

Tot plegat, hem pogut observar les diferents necessitats que es resolen mitjançant la normalització. Cal tenir en compte que en la majoria dels casos de processament de dades, com en el nostre cas, no només és desitjable normalitzar, sinó que resulta una necessitat per evitar resultats incorrectes.