# Clasificador K-NN en Spark usando pyspark.dataframes

### Se importan las librerías necesarias

In [1]:
import findspark
findspark.init()
from pyspark.sql import SparkSession
from pyspark import SparkContext, SparkConf
from pyspark.ml.feature import MaxAbsScaler
import random
import math
import sys
import time
import numpy as np 

### Se crea la sesión y config. de Spark

In [2]:
conf = (SparkConf()
        .setAppName("Data exploration URL - KNN Spark RDD") \
        .set('spark.driver.cores', '6') \
        .set('spark.executor.cores', '6') \
        .set('spark.driver.memory', '7G') \
        .set('spark.executor.memory', '7G'))
sc = SparkContext(conf=conf)

In [3]:
spark = SparkSession.builder.getOrCreate()

In [4]:
sc._conf.getAll()

[('spark.app.startTime', '1618773523232'),
 ('spark.executor.id', 'driver'),
 ('spark.driver.port', '40455'),
 ('spark.driver.cores', '6'),
 ('spark.driver.memory', '7G'),
 ('spark.executor.cores', '6'),
 ('spark.rdd.compress', 'True'),
 ('spark.executor.memory', '7G'),
 ('spark.app.id', 'local-1618773525351'),
 ('spark.serializer.objectStreamReset', '100'),
 ('spark.master', 'local[*]'),
 ('spark.submit.pyFiles', ''),
 ('spark.submit.deployMode', 'client'),
 ('spark.app.name', 'Data exploration URL - KNN Spark RDD'),
 ('spark.ui.showConsoleProgress', 'true'),
 ('spark.driver.host', 'fedora')]

In [5]:
sc

### Función para calcular el tiempo de ejecución

In [44]:
def tiempo(start, end):
    medida = 'segundos'
    tiempo = end - start
    if (tiempo >= 60):
        tiempo = tiempo / 60
        medida = 'minutos'
    print("Tiempo de ejecución: ", round(tiempo, 2), medida)

### Calcular la distancia euclideana.
#### Summary:
        Se calcula la distancia entre las columnas de dos renglones de un dataset, funciona
        con argumentos provenientes de un renglón de un dataframe de Spark.
#### Args: 
        row1(numpy.ndarray): Recibe una instancia del dataset
        row2(pyspark.ml.linalg.SparseVector): Recibe una instancia del dataset

In [7]:
def euclidean_distance(row1, row2):
    distance = 0.0
    columns = len(row1[0])
    for column in range(columns):
        distance += pow(row1[0][column] - row2[column], 2)
    distance = math.sqrt(distance)
    return distance

### Obtener los vecinos más cercanos.
#### Summary: 
      Se recorre cada renglón del dataframe dado y se calcula la distancia entre cada 
      uno de estos y el renglón de prueba.
      El RDD "distances", almacenará las distancias calculadas, 
      posteriormente se ordena de modo ascendente y se almancenan los primeros k-elementos 
      en la lista "k_neighbors"

#### Args: 
      train(pyspark.rdd.RDD): Recibe el conjunto de entrenamiento
      test_row(numpy.ndarray): Recibe una instancia del conjunto de test
      k(int): Número de vecinos que se desean obtener

In [39]:
def get_neighbors(train, test_row, k):
    rdd_distances = train.map(lambda element: (element[0], euclidean_distance(test_row, element[1])))
    rdd_distances = rdd_distances.filter(lambda element: element[1] > 0.0)
    k_neighbors = rdd_distances.takeOrdered(k, key= lambda  x: x[1]) 
    return k_neighbors

### Predecir las etiquetas usando k-nn.
#### Summary:
      Se obtiene la lista de los k-vecinos más cercanos, y se almacena el valor de
      la etiqueta en la lista "output_labels". Posteriormente se calcula el valor 
      promedio de las etiquetas y se almacena en la variable "prediction" y se retorna.

#### Args: 
      train(pyspark.rdd.RDD): Recibe el conjunto de entrenamiento
      test_row(numpy.ndarray): Recibe una instancia del conjunto de test
      k(int): Número de vecinos que se desean obtener

In [35]:
def predict_classification(train, test_row, k):
    neighbors = get_neighbors(train, test_row, k)
    output_labels = [row[0] for row in neighbors]
    prediction = max(set(output_labels), key=output_labels.count)
    return prediction

### Clacular el porcentaje de exactitud.
#### Summary:
      Esta función calcula el porcentaje de exactitud del uso de k-NN, comparando
      las etiquetas reales de las instancias del dataset de entrenamiento y las
      etiquetas obtenidas mediante la predicción usando k-NN.
#### Args: 
      real_labels(numpy.ndarray): Recibe el dataframe de test que contiene los
                                                    valores reales de las etiquetas
      predicted(list): Lista con las etiquetas obtenidas mediante K-NN

In [113]:
def accuracy(real_labels, predicted):
    """
    correct = 0
    total_rows = real_labels.count()
    print(total_rows)
    for i in range(total_rows):
        real_label = np.array(real_labels.zipWithIndex().filter(lambda element: element[1] == i).map(lambda element: element[0][0]).collect(), dtype = float)
        if(real_label == predicted[i]):
            correct += 1
    print("Correct labels: ", correct, 'of', (total_rows))
    accuracy = correct / float(total_rows)
    return accuracy
    """
    correct = 0
    total_rows = len(real_labels)
    for i in range(total_rows):
        if(real_labels[i] == predicted[i]):
            correct += 1
    print("Correct labels: ", correct, 'of', (total_rows))
    accuracy = correct / float(total_rows)
    return accuracy

### Crear la función que calcule los vecinos más cercanos.
#### Summary:
      Se asignan los parámetros para calcular los k-vecinos más cercanos y hacer predicciones
      de las etiquetas a las que pertenecen, calculando la distancia entre las columnas de cada
      uno de los renglones del dataframe de "test" y el de "train", comparando las 
      reales con las otenidas por el clasificador y, finalmente, dado el porcentaje de exactitud obtenido. 
#### Args: 
      train(pyspark.rdd.RDD): Recibe el conjunto de entrenamiento
      test(pyspark.rdd.RDD): Recibe el conjunto de test
      k(int): Número de vecinos que se desean obtener

In [111]:
def k_nearest_neighbors(train, test, k):
    predictions = []
    total_test_rows = test.count()
    for index in range(total_test_rows):
        test_row = np.array(test.zipWithIndex().filter(lambda element: element[1] == index).map(lambda element: element[0][1]).collect(), dtype = object)
        output = predict_classification(train, test_row, k)
        predictions.append(output)
    labels_array = np.array(test.map(lambda x: x[0]).collect(), dtype = float)
    mean_accuracy = accuracy(labels_array, predictions)
    print("Mean accuracy: " + str(mean_accuracy))

### Se cargan los datos al dataframe 

In [106]:
# Load training data
data = spark.read.format("libsvm")\
    .option("header", "false")\
    .option("inferSchema","true")\
    .load("../data/url_svmlight/Dimension_100_x_1000.svm")

In [107]:
data.printSchema()

root
 |-- label: double (nullable = true)
 |-- features: vector (nullable = true)



### Normalización

In [108]:
scaler = MaxAbsScaler(inputCol="features", outputCol="features_norm")

# Compute summary statistics and generate MaxAbsScalerModel
scalerModel = scaler.fit(data)

# rescale each feature to range [-1, 1].
scaledData = scalerModel.transform(data)

scaledData = scaledData.drop("features")

In [109]:
#Dividir los datos en conjunto de train y de test
seed = 1234
splits = scaledData.randomSplit([0.7, 0.3], seed)

train = splits[0]
test = splits[1]

# Se asignan los RDD para el posterior procesamiento
rdd_train = train.rdd
rdd_test = test.rdd
# rdd_total = data.rdd

scaledData.head(1)

[Row(label=1.0, features_norm=SparseVector(987, {1: 1.0, 3: 0.2745, 4: 0.4667, 5: 0.1667, 9: 1.0, 10: 0.1429, 16: 0.9928, 17: 0.9858, 18: 0.2117, 20: 1.0, 21: 0.0139, 22: 0.0208, 23: 1.0, 32: 1.0, 36: 1.0, 40: 1.0, 44: 1.0, 47: 1.0, 53: 1.0, 55: 1.0, 61: 1.0, 63: 1.0, 65: 1.0, 67: 1.0, 69: 1.0, 71: 1.0, 73: 1.0, 75: 1.0, 78: 0.2, 80: 0.1667, 81: 1.0, 83: 1.0, 85: 1.0, 87: 1.0, 89: 1.0, 91: 1.0, 93: 1.0, 95: 1.0, 101: 1.0, 103: 1.0, 105: 1.0, 107: 1.0, 109: 1.0, 111: 1.0, 130: 1.0, 132: 1.0, 138: 1.0, 140: 1.0, 142: 1.0, 144: 1.0, 146: 1.0, 148: 1.0, 252: 1.0, 278: 1.0, 385: 1.0, 497: 1.0, 604: 1.0, 638: 1.0, 640: 1.0}))]

## Se invoca al método y se envían los parámetros

In [114]:
start_time = time.time()
k_nearest_neighbors(rdd_train, rdd_test, k = 5)
end_time = time.time()
print(tiempo(start_time, end_time))

Correct labels:  55 of 69
Mean accuracy: 0.7971014492753623
Tiempo de ejecución:  34.28 segundos
None


## Prueba de cada método de K-NN  con el archivo Dimensión 5 x 76

In [20]:
# Se asignan los RDD para el posterior procesamiento
rdd_train = train.rdd
rdd_test = test.rdd
rdd_total = data.rdd

In [21]:
# Se agrega un índice a las instancias para poder recorrerlas posteriormente mediante un filtro.
rdd_index = rdd_total.zipWithIndex()
# Se selecciona solo la columna que contiene los valores de las características.
rdd_columns = rdd_total.map(lambda x: x[1])

In [24]:
# Se prueba el método de distancia euclideana con RDD
# Renglón no. 1
rdd_row1 = rdd_index.filter(lambda x: x[1] == 0)
# Se transforma en un array de Numpy solo con los valores de las columnas
row1 = np.array(rdd_row1.map(lambda element: element[0][1]).collect(), dtype = object)
# Las distancias se almacenan en un RDD
rdd_distances = rdd_columns.map(lambda x: euclidean_distance(row1, x))
start_time = time.time()
rdd_distances.collect()
end_time = time.time()
print(tiempo(start_time,end_time))

Tiempo de ejecución:  0.29 segundos
None


In [33]:
# Prueba de la función get_neighbors()
# Renglón no. 1
rdd_row1 = rdd_index.filter(lambda x: x[1] == 0)
# Se transforma en un array de Numpy solo con los valores de las columnas
row1 = np.array(rdd_row1.map(lambda element: element[0][1]).collect(), dtype = object)
start_time = time.time()
print(get_neighbors(rdd_total, row1, 3))
end_time = time.time()
print(tiempo(start_time,end_time))

[(0.0, 2.0243685305406998), (0.0, 2.02465364064394), (0.0, 2.031920353046332)]
Tiempo de ejecución:  0.2687826156616211 segundos
None


### Prueba actual

In [120]:
# Prueba de la función predict_classification()
# Renglón no. 1
rdd_row1 = rdd_index.filter(lambda x: x[1] == 0)
# Se transforma en un array de Numpy solo con los valores de las columnas
row1 = np.array(rdd_row1.map(lambda element: element[0][1]).collect(), dtype = object)
start_time = time.time()
prediction = predict_classification(rdd_total, row1, 3)
print('Expected label: %d, Got: %d.' % (rdd_row1.take(1)[0][0][0], prediction))
end_time = time.time()
print(tiempo(start_time,end_time))

Expected label: 0, Got: 0.
Tiempo de ejecución:  0.6830856800079346
None


In [115]:
sc.stop()