# Algoritmos de Similitud - Distancia Euclideana

## Introducción al Tipo de Algoritmo

Los algoritmos de similitud calculan la similitud de pares de nodos utilizando diferentes métricas basadas en vectores.

## Descripción del Algoritmo

La distancia euclidiana mide la distancia en línea recta entre dos puntos en el espacio n-dimensional.
Formula

<img src="ed1.png">

La biblioteca contiene procedimientos y funciones para calcular la similitud entre conjuntos de datos. La función se utiliza mejor al calcular la similitud entre pequeños números de conjuntos. Los procedimientos paralelizan el cálculo y, por lo tanto, son más apropiados para calcular similitudes en conjuntos de datos más grandes.

## Proceso 

1. Debemos crear el grafo de nodos para su posterior análisis con ayuda del algoritmo.

2. Utilizar el algoritmo con el grafo creado del proceso anterior. 

Nota: Par utilizar el agoritmo deben existir valores numericos para compara entre nodos, se genera un arreglo para cada nodo el cual debe tener la misma longitud en todos los casos.

## Ejemplos Sencillos

Seguir los pasos anteriores:

Paso 1

### Resultado Neo4j

<img src="ed2.png">

Paso 2

Vamos a calcular la similitud entre Zhen y Praveena

### Resultado Neo4j

<img src="ed3.png">

Vamos a calcular la similitud entre Zhen y todas las personas con las que se relaciona.

### Resultado Neo4j

<img src="ed4.png">

## Llamada desde Python

In [9]:
from neo4j import GraphDatabase

uri = "bolt://localhost:7687"
driver = GraphDatabase.driver(uri, auth=("neo4j", "5658"),encrypted=False)
    
personas = []
similares = []
similitud = []
def get_ed(tx):
    result = tx.run("MATCH (p1:Person {name: 'Zhen'})-[likes1:LIKES]->(cuisine) "
                    "MATCH (p2:Person {name: 'Praveena'})-[likes2:LIKES]->(cuisine) "
                    "RETURN p1.name AS from, p2.name AS to, "
                    "gds.alpha.similarity.euclideanDistance(collect(likes1.score), collect(likes2.score)) AS similarity")
    for record in result:
        personas.append(record["from"])
        similares.append(record["to"])
        similitud.append(record["similarity"])

print("Distancia Euclidiana")
print("-------------------------------------------------------------")
with driver.session() as session:
    ciudades = session.read_transaction(get_ed)
    print("Solución")
    print("Persona ", " -> ", "Persona Similar ", " -> ", " Valor de Similitud")
    for i in range(len(personas)):
        print(personas[i], " -> ", similares[i]," -> ", similitud[i])
                       
driver.close()

Distancia Euclidiana
-------------------------------------------------------------
Solución
Persona   ->  Persona Similar   ->   Valor de Similitud
Zhen  ->  Praveena  ->  6.708203932499369


In [8]:
from neo4j import GraphDatabase

uri = "bolt://localhost:7687"
driver = GraphDatabase.driver(uri, auth=("neo4j", "5658"),encrypted=False)
    
personas = []
similares = []
similitud = []
def get_ed(tx):
    result = tx.run("MATCH (p1:Person {name: 'Zhen'})-[likes1:LIKES]->(cuisine) "
                    "MATCH (p2:Person)-[likes2:LIKES]->(cuisine) WHERE p1<>p2 "
                    "RETURN p1.name AS from, p2.name AS to, "
                    "gds.alpha.similarity.euclideanDistance(collect(likes1.score), collect(likes2.score)) AS similarity")
    for record in result:
        personas.append(record["from"])
        similares.append(record["to"])
        similitud.append(record["similarity"])

print("Distancia Euclideana")
print("-------------------------------------------------------------")
with driver.session() as session:
    ciudades = session.read_transaction(get_ed)
    print("Solución")
    print("Persona ", " -> ", "Persona Similar ", " -> ", " Valor de Similitud")
    for i in range(len(personas)):
        print(personas[i], " -> ", similares[i]," -> ", similitud[i])
                       
driver.close()

Distancia Euclideana
-------------------------------------------------------------
Solución
Persona   ->  Persona Similar   ->   Valor de Similitud
Zhen  ->  Praveena  ->  6.708203932499369
Zhen  ->  Michael  ->  3.605551275463989


# Ejemplo usando datos reales

## Lugares Turisticos Guayaquil

Identificar el grado de similitud entre datos que voy a ingresar como vector y comparar lugares turisticos, en el caso de que de cero significa que son completamente identicos.

datos=["Mediano","si","no","si","no"]
datos=[2,1,0,1,0]

### Resultado
<img src="ed5.png">

Esto compara el nuevo lugar pasado como parametro con todos los nodos y de esta forma nos da ordenados de menor a mayor los datos y nos dic que eso lugares son mas similares al que ingrese.

# Mejoras y Recomendaciones

Se puede hacer uso para proyectar predicciones en base a datos de entrenamiento y de prueba.

Revisar adecuadamente la documentacion de Neo4j a veces hay errores de sintaxis.

# Conclusiones y Trabajos 
Puedo concluir que el uso de este algoritmo nos ayuda con la obtencion de la similitud entre nodos en base a determinadas caracteristicas, que deben ser numericas y se pasan al algoritmo como vectores.