## üî∞Laboratorio Mineria de Datos
## üîîK-MEANS

**üôã‚Äç‚ôÄÔ∏è  ALUMNA** : LEYDI DIANA CHOQUE SARMIENTO


In [7]:
!pip install pyspark==3.0.1 py4j==0.10.9



In [15]:
from pyspark import SparkContext
sc = SparkContext.getOrCreate()
from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[*]").getOrCreate()

# **Pr√°ctica de laboratorio 5b: k-Means para cuantificar atributos**

#### Los algoritmos de agrupaci√≥n de datos, adem√°s de utilizarse en el an√°lisis exploratorio para extraer patrones de similitud entre objetos, pueden utilizarse para comprimir el espacio de datos.

#### En este notebook usaremos nuestra base de datos Sentiment Movie Reviews para los experimentos. Primero usaremos la t√©cnica word2vec que aprende una transformaci√≥n de tokens desde una base a un vector de atributos. A continuaci√≥n, utilizaremos el algoritmo k-Means para comprimir la informaci√≥n sobre estos atributos y proyectar cada objeto en un espacio de atributos de tama√±o fijo.

#### Las celdas de ejercicio comienzan con el comentario `# EJERCICIO` y los c√≥digos a completar est√°n marcados con los comentarios `<COMPLETO>`.

#### **En este notebook:**
#### *Parte 1:* Word2Vec
#### *Parte 2:* k-Means para cuantificar atributos
#### *Parte 3:* Aplicar un k-NN

###üî∞ **Parte 0: Preliminares**

#### Para este notebook usaremos la base de datos de rese√±as de pel√≠culas que se usar√° para el segundo proyecto.

#### La base de datos tiene los campos separados por '\t' y el siguiente formato:
    `"id de frase","id de oraci√≥n","Frase","Sentimiento"`

#### Para esta pr√°ctica de laboratorio solo usaremos el campo "Frase".

In [19]:
import os
import numpy as np

def parseRDD(point):
    """ Parser for the current dataset. It receives a data point and return
        a sentence (third field).
    Args:
        point (str): input data point
    Returns:
        str: a string
    """    
    data = point.split('\t')
    return (int(data[0]),data[2])

def notempty(point):
    """ Returns whether the point string is not empty
    Args:
        point (str): input string
    Returns:
        bool: True if it is not empty
    """   
    return len(point[1])>0

filename = os.path.join("Data","MovieReviews2.tsv")
rawRDD = sc.textFile(filename,100)
header = rawRDD.take(1)[0]

dataRDD = (rawRDD
           #.sample(False, 0.1, seed=42)
           .filter(lambda x: x!=header)
           .map(parseRDD)
           .filter(notempty)
           #.sample( False, 0.1, 42 )
           )

print ('Read {} lines'.format(dataRDD.count()))
print ('Sample line: {}'.format(dataRDD.takeSample(False, 1)[0]))

Read 8528 lines
Sample line: (101380, 'An enjoyable , if occasionally flawed , experiment .')


###üî∞ **Parte 1: Word2Vec**

#### La t√©cnica [word2vec][word2vec] aprende a trav√©s de una red neuronal sem√°ntica una representaci√≥n vectorial de cada token en un corpus de tal manera que las palabras sem√°nticamente similares son similares en la representaci√≥n vectorial.

#### PySpark contiene una implementaci√≥n de esta t√©cnica, para aplicarla basta con pasar un RDD en el que cada objeto representa un documento y cada documento est√° representado por una lista de tokens en el orden en que aparecen originalmente en el corpus. Despu√©s del proceso de entrenamiento, podemos transformar un token usando el m√©todo [`transform`](https://spark.apache.org/docs/latest/ml-features) para convertir cada token en una representaci√≥n vectorial.

#### En este punto, cada objeto en nuestra base estar√° representado por una matriz de tama√±o variable.

[word2vec]: https://code.google.com/p/word2vec/

### **(1a) Generaci√≥n de RDD a partir de tokens**

#### Use la funci√≥n de tokenizaci√≥n `tokenize` para generar un RDD `wordsRDD` que contenga listas de tokens de nuestra base de datos original.

In [21]:
# EXERCICIO
import re

split_regex = r'\W+'

stopfile = os.path.join("Data","stopwords.txt")
stopwords = set((sc.textFile(stopfile)).collect())

def tokenize(string):
    """ An implementation of input string tokenization that excludes stopwords
    Args:
        string (str): input string
    Returns:
        list: a list of tokens without stopwords
    """
    str_list = re.split(split_regex, string)
    str_list = filter(lambda w: len(w)>0, map(lambda w: w.lower(), str_list))
    return [w for w in str_list if w not in stopwords]

wordsRDD = dataRDD.map(lambda x: tokenize(x[1]))

print (wordsRDD.take(1)[0])

['quiet', 'introspective', 'entertaining', 'independent', 'worth', 'seeking']


In [22]:
# TEST Tokenize a String (1a)
assert wordsRDD.take(1)[0]==[u'quiet', u'introspective', u'entertaining', u'independent', u'worth', u'seeking'], 'lista incorreta!'

### **(1b) Aplicando la transformaci√≥n word2vec**

#### Cree una plantilla word2vec aplicando el m√©todo `fit` al RDD creado en el ejercicio anterior.

#### Para aplicar este m√©todo debes hacer un pipeline de m√©todos, primero ejecutando `Word2Vec()`, luego aplicando el m√©todo `setVectorSize()` con el tama√±o que queremos para nuestro vector (usa el tama√±o 5), seguido de ` setSeed()` para la semilla aleatoria, en caso de experimentos controlados (usaremos 42) y finalmente `fit()` con nuestro `wordsRDD` como par√°metro.

In [23]:
# EXERCICIO
from pyspark.mllib.feature import Word2Vec

model = (Word2Vec()
         .setVectorSize(5)
         .setSeed(42)
         .fit(wordsRDD))

print (model.transform(u'entertaining'))
print (list(model.findSynonyms(u'entertaining', 2)))

[-0.13553844392299652,0.03944551944732666,0.03806566819548607,0.08553558588027954,-0.02614559605717659]
[('cgi', 0.989105761051178), ('something', 0.9889155626296997)]


In [24]:
dist = np.abs(model.transform(u'entertaining')-np.array([-0.13553844392299652,0.03944551944732666,0.03806566819548607,0.08553558588027954,-0.02614559605717659])).mean()
assert dist<1e-6, 'valores incorretos'
assert list(model.findSynonyms(u'entertaining', 1))[0][0] == 'cgi', 'valores incorretos'

### **(1c) Generando un RDD de arreglos**

#### Como primer paso, necesitamos generar un diccionario donde la clave son las palabras y el valor es el vector que representa esa palabra.

#### Para esto primero generaremos una lista `uniqueWords` que contiene las palabras √∫nicas de las palabras RDD, eliminando aquellas que aparecen menos de 5 veces [$^1$](#1). A continuaci√≥n, crearemos un diccionario `w2v` donde la clave es un token y el valor es un `np.array` del arreglo transformado de ese token[$^2$](#2).

#### Finalmente, creemos un RDD llamado `vectorsRDD` donde cada registro est√° representado por una matriz donde cada fila representa una palabra transformada.

In [25]:
# EXERCICIO
uniqueWords = (wordsRDD
               .flatMap(lambda ws: [(w, 1) for w in ws])
               .reduceByKey(lambda x,y: x+y)
               .filter(lambda wf: wf[1]>=5)
               .map(lambda wf: wf[0])
               .collect()
               )

print ('{} tokens √∫nicos'.format(len(uniqueWords)))

w2v = {}
for w in uniqueWords:
    w2v[w] = model.transform(w)
w2vb = sc.broadcast(w2v)       
print ('Vetor entertaining: {}'.format( w2v[u'entertaining']))

vectorsRDD = (wordsRDD
              .map(lambda ws: np.array([w2vb.value[w] for w in ws if w in w2vb.value]))
             )
recs = vectorsRDD.take(2)
firstRec, secondRec = recs[0], recs[1]
print (firstRec.shape, secondRec.shape)

3388 tokens √∫nicos
Vetor entertaining: [-0.13553844392299652,0.03944551944732666,0.03806566819548607,0.08553558588027954,-0.02614559605717659]
(5, 5) (10, 5)


In [26]:
# TEST Tokenizing the small datasets (1c)
assert len(uniqueWords) == 3388,  'valor incorreto'
assert np.mean(np.abs(w2v[u'entertaining']-[-0.13553844392299652,0.03944551944732666,0.03806566819548607,0.08553558588027954,-0.02614559605717659]))<1e-6,'valor incorreto'
assert secondRec.shape == (10,5)

###üî∞ **Parte 2: k-Means para cuantificar atributos**

#### Llegados a este punto, es f√°cil ver que no podemos aplicar nuestras t√©cnicas de aprendizaje supervisado a esta base de datos:

   * #### La regresi√≥n log√≠stica requiere un vector de tama√±o fijo que represente cada objeto
   * #### k-NN necesita una forma clara de comparar dos objetos, ¬øqu√© m√©trica de similitud debemos aplicar?
  
#### Para resolver esta situaci√≥n, realicemos una nueva transformaci√≥n en nuestro RDD. Primero, aprovechemos el hecho de que dos tokens con un significado similar se asignan a vectores similares para agruparlos en un solo atributo.

#### Al aplicar k-Means a este conjunto de vectores, podemos crear $k$ puntos representativos y, para cada documento, generar un histograma de recuento de tokens en los cl√∫steres generados.

#### **(2a) Agrupando los vectores y creando centros representativos**

#### Como primer paso generaremos un RDD con los valores del diccionario `w2v`. A continuaci√≥n, aplicaremos el algoritmo `k-Means` con $k = 200$ y $seed = 42$.

In [27]:
# EXERCICIO
from  pyspark.mllib.clustering import KMeans

vectors2RDD = sc.parallelize(np.array(list(w2v.values())),1)
print ('Sample vector: {}'.format(vectors2RDD.take(1)))

modelK = KMeans.train(vectors2RDD, 200, seed=42)

clustersRDD = vectors2RDD.map(lambda x: modelK.predict(x))
print ('10 first clusters allocation: {}'.format(clustersRDD.take(10)))

Sample vector: [array([-0.07269461,  0.09603201,  0.20506908, -0.03772384,  0.08151765])]
10 first clusters allocation: [5, 136, 37, 12, 145, 66, 63, 84, 140, 66]


In [28]:
# TEST Amazon record with the most tokens (1d)
assert clustersRDD.take(10)==[5, 136, 37, 12, 145, 66, 63, 84, 140, 66], 'valor incorreto'

#### **(2b) Transformaci√≥n de matriz de datos en vectores cuantificados**

#### El siguiente paso es transformar nuestro RDD de frases en un RDD de pares (id, vector cuantificado). Para ello crearemos una funci√≥n cuantificadora que recibir√° como par√°metros el objeto, el modelo k-means, el valor de k y el diccionario word2vec.

#### Para cada punto, separemos el id y apliquemos la funci√≥n `tokenize` a la cadena. Luego transformamos la lista de tokens en una matriz word2vec. Finalmente, aplicamos cada vector de esta matriz al modelo k-Means, generando un vector de tama√±o $k$ donde cada posici√≥n $i$ indica cu√°ntos tokens pertenecen al cl√∫ster $i$.

In [29]:
# EXERCICIO
def quantizador(point, model, k, w2v):
    key = point[0]
    words = tokenize(point[1])
    matrix = np.array( [w2v[w] for w in words if w in w2v] )
    features = np.zeros(k)
    for v in matrix:
        c = model.predict(v)
        features[c] += 1
    return (key, features)
    
quantRDD = dataRDD.map(lambda x: quantizador(x, modelK, 500, w2v))

print (quantRDD.take(1))

[(64, array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 1., 1., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 

In [30]:
# TEST Implement a TF function (2a)
assert quantRDD.take(1)[0][1].sum() == 5, 'valores incorretos'