## 1. Estandarización

In [1]:
def estandarizacion(x,media,desv):
    """Esta función estandariza el valor de un número en base al arreglo que pertenece.

    Args:
        x (int): Un valor escalar del arreglo.
        media (float): Valor de la media aritmética de los valores del arreglo.
        desv (float): Valor de la desviación estándar de los valores del arreglo

    Returns:
        float: Nuevo valor estandarizado.
    """
    return round((x - media)/float(desv),3)

In [2]:
# Creación de un RDD a partir de una arreglo
numsRDD = sc.parallelize([3,5,7,3,6,8,9,7,6,8,2,5])
# Obtención de la media del arreglo
media = numsRDD.mean()
# Desviación estándar del arreglo
desv = (numsRDD.map(lambda x: (x - media)**2).mean())**(1/2)
# Estandarizar todos los valores del arreglo
numsEstandarizados = numsRDD.map(lambda x: estandarizacion(x, media, desv))
# Mostrar los nuevos valores estandarizados
print(numsEstandarizados.collect())

[-1.293, -0.353, 0.588, -1.293, 0.118, 1.058, 1.529, 0.588, 0.118, 1.058, -1.764, -0.353]


## 2. Escalonamiento Min-Max

In [3]:
def escalonamiento(x,Min,Max):
    """Esta función aplica escalonamiento al valor de un número del arreglo.

    Args:
        x (int): Un valor escalar del arreglo.
        Min (int): Valor mínimo del arreglo.
        Max (int): Valor máximo del arreglo

    Returns:
        float: Nuevo valor escalonado (entre 0 y 1).
    """
    return round((x - Min)/(Max - Min),3)

In [4]:
# Creación de un RDD a partir de una arreglo
numsRDD = sc.parallelize([3,5,7,3,6,8,9,7,6,8,2,5])
# Obtención del valor mínimo del arreglo
minimo = numsRDD.min()
# Obtención del valor máximo del arreglo
maximo = numsRDD.max()
# Escalar todos los valores del arreglo
numsEscalados = numsRDD.map(lambda x: escalonamiento(x, minimo, maximo))
# Mostrar los nuevos valores escalonados
print(numsEscalados.collect())

[0.143, 0.429, 0.714, 0.143, 0.571, 0.857, 1.0, 0.714, 0.571, 0.857, 0.0, 0.429]


## 3. Normalización

In [5]:
def normalizacion(x,N):
    """Esta función aplica normalización al valor de un número del arreglo.

    Args:
        x (int): Un valor escalar del arreglo.
        N (float): Normal del arreglo.

    Returns:
        float: Nuevo valor normalizado.
    """
    return round(x/N,3)

In [6]:
import numpy as np
from operator import add

# Creación de un RDD a partir de una arreglo
numsRDD = sc.parallelize([3,5,7,3,6,8,9,7,6,8,2,5])
# Halla la normal de un vector
normal = np.power((numsRDD.map(lambda x: np.power(x,2)).reduce(add)),1/2)
# Normalizar todos los valores del arreglo
numsNormalizados = numsRDD.map(lambda x: normalizacion(x, normal))
# Mostrar los nuevos valores normalizados
print(numsNormalizados.collect())

[0.141, 0.235, 0.33, 0.141, 0.283, 0.377, 0.424, 0.33, 0.283, 0.377, 0.094, 0.235]


## 4. Similitud de cosenos

#### Fórmula obtenida de las diapositivas de ´Preprocesamiento de datos´

In [7]:
def similitudCosenos(x,y):
    """Calcula la similitud de coseno de dos arreglos.

    Args:
        x (array): Primer arreglo.
        y (array): Segundo arreglo

    Returns:
        float: Valor de la similitud de cosenos de 2 arreglos.
    """
    # Forma un arreglo de tuplas con cada valor de ambos arreglos
    tuplas = x.zip(y)
    # Obtiene la sumatoria del producto de los pares
    productoRDD = tuplas.map(lambda x: x[0]*x[1]).reduce(add)
    # Obtiene la norma del arreglo x
    normXRDD = tuplas.map(lambda x: np.power(x[0],2)).reduce(add)
    # Obtiene la norma del arreglo y
    normYRDD = tuplas.map(lambda x: np.power(x[1],2)).reduce(add)
    # Retorna el valor de la similitud de coseno de los dos arreglos
    return (productoRDD/(normXRDD*normYRDD))

In [8]:
# Creación de dos RDDs a partir de arreglos
firstRDD = sc.parallelize([2, 0, 1, 1, 0, 2, 1, 1])
secondRDD = sc.parallelize([2, 1, 1, 0, 1, 1, 1, 1])
# Mostrar similitud de cosenos de dos arreglos
print('Similitud de Cosenos:',similitudCosenos(firstRDD, secondRDD))

Similitud de Cosenos: 0.075


#### Fórmula obtenida del internet

In [9]:
def similitudCosenos(x,y):
    """Calcula la similitud de coseno de dos arreglos.

    Args:
        x (array): Primer arreglo.
        y (array): Segundo arreglo

    Returns:
        float: Valor de la similitud de cosenos de 2 arreglos.
    """
    # Forma un arreglo de tuplas con cada valor de ambos arreglos
    tuplas = x.zip(y)
    # Obtiene la sumatoria del producto de los pares
    productoRDD = tuplas.map(lambda x: x[0]*x[1]).reduce(add)
    # Obtiene la norma del arreglo x
    normXRDD = tuplas.map(lambda x: np.power(x[0],2)).reduce(add)
    # Obtiene la norma del arreglo y
    normYRDD = tuplas.map(lambda x: np.power(x[1],2)).reduce(add)
    # Retorna el valor de la similitud de coseno de los dos arreglos
    return (productoRDD/(np.power(normXRDD,1/2)*np.power(normYRDD,1/2)))

In [10]:
# Creación de dos RDDs a partir de arreglos
firstRDD = sc.parallelize([2, 0, 1, 1, 0, 2, 1, 1])
secondRDD = sc.parallelize([2, 1, 1, 0, 1, 1, 1, 1])
# Mostrar la similitud de cosenos de dos arreglos
print('Similitud de Cosenos:',similitudCosenos(firstRDD, secondRDD))

Similitud de Cosenos: 0.8215838362577491


## 5. Distancia de Jaccard

#### Para atributos binarios

In [11]:
def distanciaJaccard(x,y):
    """Calcula la distancia de Jaccard de dos arreglos de atributos binarios.

    Args:
        x (array): Primer arreglo.
        y (array): Segundo arreglo

    Returns:
        float: Valor de la distancia de Jaccard de 2 arreglos.
    """
    # Forma un arreglo de tuplas con cada valor de ambos arreglos
    tuplas = x.zip(y)
    # Obtiene la sumatoria del producto de los pares
    productoRDD = tuplas.map(lambda x: x[0]*x[1]).reduce(add)
    # Obtiene la sumatoria de la suma binaria de los arreglos
    denRDD = tuplas.map(lambda x: min(1,x[0]+x[1])).reduce(add)
    # Retorna el valor de la distancia de Jaccard de los dos arreglos
    return (1 - productoRDD/denRDD)

In [12]:
# Creación de dos RDDs a partir de arreglos
firstRDD = sc.parallelize([1, 0, 1, 0, 0, 0, 0])
secondRDD = sc.parallelize([1, 0, 0, 1, 0, 1, 1])
# Mostrar la Distancia de Jaccard de dos arreglos
print('Distancia de Jaccard:',distanciaJaccard(firstRDD, secondRDD))

Distancia de Jaccard: 0.8
