## **Instalamos pyspark**

In [1]:
! pip install pyspark



## **Llamamos a su libreria y la guardamos en una variable para usarla**

In [2]:
from pyspark import SparkContext
sc = SparkContext()

## **Distancia de Mikowski**

In [3]:
#Creamos el primer vector 
vector1 = [0, 2, 3, 4] 
#Creamos el segundo vector
vector2 = [2, 4, 3, 7] 
#Inicializamos el valor de P
p = 3
#3.503 salida con los vectores

**Creamos un vector 3 donde tendremos una tupla la cual se creara con un zip, en la cual se juntaran los 2 vectores(vector1 y vector2) para asi poder utilizarlo en nuestro**

In [4]:
vector3 = list(zip(vector1,vector2))

**Creamos nuestro RDD utilizando sc**

In [5]:
mikowskiRDD = sc.parallelize(vector3)

**Aplicamos las funciones en nuestro RDD**

In [6]:
#mikowskiRDD.map(lambda x: abs(x[0] - x[1])^p)
#En esta parte creamos nuestra funcion anonima lambda en la cual 
#le pasaremos las tuplas 1 a 1 para asi poder hallar con ellas la 
#resta del primer valor "(x[0])" menos el segundo "(x[1])" 
#y todo esto aplicandole el valor absoluto a dicha resta(abs) 
#para una vez obtenido ese resultado se le eleve a la potencia p (**p).

#.sum() 
#Luego se le agrega el ".sum()" para que todos los valores obtenidos 
#anteriormente se sumen.

#^(1.0/p)
#Por ultimo se le eleva a la potencia "(1.0/p)" o se le saca la raiz "p".
#Una vez obtenido todos estos, nos da la distancia de mikowski

mikowskiRDD.map(lambda x: abs(x[0] - x[1])**p).sum()**(1.0/p)

3.503398060386724

## **Distancia Euclidiana**

In [7]:
#Creamos el primer vector 
vector1 = [1, 2, 3] 
#Creamos el segundo vector
vector2 = [3, 2, 1] 

**Creamos un vector 3 donde tendremos una tupla la cual se creara con un zip, en la cual se juntaran los 2 vectores(vector1 y vector2) para asi poder utilizarlo en nuestro**

In [8]:
vector3 = list(zip(vector1,vector2))

**Creamos nuestro RDD utilizando sc**

In [9]:
mikowskiRDD = sc.parallelize(vector3)

**Para la distancia auclidiana el valor de p es 2**

In [10]:
mikowskiRDD.map(lambda x: abs(x[0] - x[1])**2).sum()**(1.0/2)

2.8284271247461903

## **Similitud de Cosenos**

In [11]:
#Creamos el primer vector 
vector1 = [1, 1, 2, 1, 1, 1, 1, 0, 0, 0] 
#Creamos el segundo vector
vector2 = [1, 1, 1, 0, 1, 1, 1, 1, 1, 1] 
#Creamos un tercer vector
vector3 = list(zip(vector1,vector2))

**Creamos un RDD para cada uno de nuestros vectores ya que con estos se hallaras distintas operaciones**

In [12]:
cosenos1RDD = sc.parallelize(vector1)
cosenos2RDD = sc.parallelize(vector2)
cosenos3RDD = sc.parallelize(vector3)

**Creamos nuestras funciones para RDD**


In [13]:
#cosenos3RDD.map(lambda x: x[0]*x[1]).sum()
#Primero le aplicamos una funcion map en la cual pasamos una funciona 
#lambda la cual hara que multipliquemos ambos valores de la tupla 
#para asi onbtener con la funcion .sum(), la suma de todos estos

#cosenos1RDD.map(lambda x:x^2).sum()^(1/2)
#Ahora de igual manera le aplicamos la funcion map en la cual pasaremos 
#una funcion lambda la cual hara que elevemos al cuadrado todos los 
#valores del vector 1 para asi sumarlos y a ese resultado sacarle la 
#raiz cuadrada.

#cosenos2RDD.map(lambda x:x^2).sum()^(1/2))
#Ahora de igual manera le aplicamos la funcion map en la cual 
#pasaremos una funcion lambda la cual hara que elevemos al cuadrado 
#todos los valores del vector 2 para asi sumarlos y a ese resultado 
#sacarle la raiz cuadrada.

#Por ultimos dividiremos la funcion cosenos3RDD.map(lambda x: x[0]*x[1]).sum()
#entre la multiplicacion de la funcion cosenos1RDD.map(lambda x:x^2).sum()^(1/2) 
#por cosenos2RDD.map(lambda x:x^2).sum()^(1/2))

respuesta = cosenos3RDD.map(lambda x: x[0]*x[1]).sum() / (cosenos1RDD.map(lambda x:x**2).sum()**(1/2) * cosenos2RDD.map(lambda x:x**2).sum()**(1/2))
respuesta

0.7378647873726218

## **Estandarizacion**

In [14]:
#importamos la libreria math
import math
x = [1500,1200,1700,1300,1800]

**Creamos nuestro RDD utilizando sc**

In [15]:
#Creamos nuestro RDD
xRDD = sc.parallelize(x)

**Aplicamos las funciones a nuestro RDD**

In [16]:
#Hallamos la media de los valores
meanRDD = xRDD.mean() 
#utilizamos la variable meanRDD para hallar la varianza
varRDD = xRDD.map(lambda x: (x - meanRDD)**2).mean()
#utilizamos la varaible de varRDD para hallar el std
stdRDD = math.sqrt(varRDD)
#Hallamos el valor de la estandarizacion
toCenterRDD = xRDD.map(lambda x: (x-meanRDD) / stdRDD)
toCenterRDD.collect()

[0.0,
 -1.3155870289605438,
 0.8770580193070292,
 -0.8770580193070292,
 1.3155870289605438]

## **Escalonamiento**

In [17]:
x = [5,6,7,8,9,4,10,15,12,18,52,14,26,27,35,34,51,50]

**Creamos nuestro RDD con sc**

In [18]:
#Creamos nuestro RDD
xRDD = sc.parallelize(x)

**Aplicamos las funciones a nuestro RDD**

In [19]:
#Hallamos el valor maximo
minRDD = xRDD.max()
#Hallamo el valor minimo
maxRDD = xRDD.min()
#Hallamos el escalonamineto aplicando las variables maximo y minimo
scaleRDD = xRDD.map(lambda x: (x - minRDD) / (maxRDD - minRDD))
#Mostramos los daots
scaleRDD.collect()

[0.9791666666666666,
 0.9583333333333334,
 0.9375,
 0.9166666666666666,
 0.8958333333333334,
 1.0,
 0.875,
 0.7708333333333334,
 0.8333333333333334,
 0.7083333333333334,
 -0.0,
 0.7916666666666666,
 0.5416666666666666,
 0.5208333333333334,
 0.3541666666666667,
 0.375,
 0.020833333333333332,
 0.041666666666666664]

##**Normalizacion**

In [20]:
import math
x = [1,2,3,4]

**Creamos nuestro RDD con sc**

In [21]:
#CREamos nuestro RDD
xRDD = sc.parallelize(x)

**Aplicamos las funciones a nuestro RDD**

In [22]:
#Con la funcion map elevamos al cuadrado todos los datos del
#RDD y los sumamos a este le sacamos la raiz cuadrada
nxRDD = (xRDD.map(lambda x: x**2).sum()) ** (1/2)
#El resultado anterior se le divide a todos los datos del RDD iinicial
normRDD = xRDD.map(lambda x: x/nxRDD)
#Mostramos el resultado de la normalizacion 
normRDD.collect()

[0.18257418583505536,
 0.3651483716701107,
 0.5477225575051661,
 0.7302967433402214]

##**Distancia de Jaccard**

In [23]:
x = [1,2,3,4]
y = [5,6,7,8]

**Creamos un vector 3 donde tendremos una tupla la cual se creara con un zip, en la cual se juntaran los 2 vectores(x y y).**

In [24]:
z = list(zip(x,y))

**Creamos nuestro RDD con sc**

In [25]:
#Creamos nuestro RDD
zRDD = sc.parallelize(z)

**Aplicamos las funciones a nuestro RDD**

In [26]:
#Creamos una varieble con la suma de los productos 
sumProdRDD = zRDD.map(lambda x: x[0]*x[1]).sum()
#Pasamos la funciona map en la cual utilizaremos el siguiente caso
# 1 _ = 1
# _ 1 = 1
# _ _ = 0
sumSumRDD = zRDD.map(lambda x: 1 if (x[0]==1 or x[1]==1) else 0 ).sum()
#Dividimos ambas variables y este resultado le restamos a 1
jaccardRDD = 1 - (sumProdRDD / sumSumRDD)
jaccardRDD

-69.0