# Social Recomendations

En este notebook vamos a estudiar un caso de uso real de una base de datos de grafos para entender el potencial que nos puede proveer en casos reales.

## Talent.net
Talent.net es una aplicación de recomendaciones que permite a los usuarios descubrir su propia red profesional e identificar a otros usuarios y su conjunto de habilidades particulares. 

Los usuarios trabajan en empresas y en proyectos y tienen uno o más intereses o habilidades. 

Con esta información, Talent.net puede describir la red profesional de un usuario identificando otros suscriptores que comparten sus intereses. 

Las búsquedas se pueden restringir a la compañía en la que trabaja actualmente del usuario, o extenderala para abarcar toda la base de suscriptores. 

Talent.net también puede identificar individuos con habilidades específicas que están directa o indirectamente
conectados al usuario actual. 

Dichas búsquedas son útiles cuando se busca a un experto en la una materia para un compromiso laboral.

Para entender mejor el modelo de datos de talent.net podemos consultar la siguiente imagen.

<img src="../images/neo4j/talent1.png" alt="Initial Graph"/>

El gráfico de muestra sólo tiene dos compañías, cada una con varios empleados. Un empleado está conectado a la empresa en la que trabaja por una relación WORKS_FOR. Cada empleado está interesado (INTERESTED_IN) en uno o más temas y ha trabajado (TRABAJADO_ON) en uno o más proyectos. Ocasionalmente, los empleados de diferentes compañías pueden trabajar en el mismo proyecto.

Con este grafo podemos modelar dos casos de uso:

* Dado un usuario inferir sus relaciones sociales, esto es identificar su red social profesional basada en interes y habilidades comunes.
* Recomendar trabajadores con los que ha trabajado o que han trabajado con alguien con el que ha trabajado con una competencia concreta.

El primer caso de uso ayuda a construir comunidades entorno a intereses comunes y el segundo caso de uso ayuda a identificar personas para roles concretos en un trabajo.

Para empezar con el ejemplo, vamos a importar las librerías, borrar la base de datos existente y crear el grafo de ejemplo de la imagen anterior.

In [None]:
%load_ext cypher
%matplotlib inline

In [None]:
%%cypher http://neo4j:1234@127.0.0.1:7474/db/data
MATCH (n) DETACH DELETE n

In [None]:
%%cypher http://neo4j:1234@127.0.0.1:7474/db/data
CREATE (acme:Company { name:"Acme, Inc." })
CREATE (charlie:User { name:"Charlie" })
CREATE (ben:User { name:"Ben" })
CREATE (sarah:User { name:"Sarah" })
CREATE (charlie)-[:WORKS_FOR]->(acme)
CREATE (ben)-[:WORKS_FOR]->(acme)
CREATE (sarah)-[:WORKS_FOR]->(acme)
CREATE (startup:Company { name:"Startup, Ltd." })
CREATE (arnold:User { name:"Arnold" })
CREATE (emily:User { name:"Emily" })
CREATE (gordon:User { name:"Gordon" })
CREATE (kate:User { name:"Kate" })
CREATE (arnold)-[:WORKS_FOR]->(startup)
CREATE (emily)-[:WORKS_FOR]->(startup)
CREATE (gordon)-[:WORKS_FOR]->(startup)
CREATE (kate)-[:WORKS_FOR]->(startup)
CREATE (platform:Project { name:"Next Gen Platform" })
CREATE (quantum:Project { name:"Quantum Leap" })
CREATE (phoenix:Project { name:"Phoenix" })
CREATE (charlie)-[:WORKED_ON]->(platform)
CREATE (ben)-[:WORKED_ON]->(platform)
CREATE (sarah)-[:WORKED_ON]->(platform)
CREATE (emily)-[:WORKED_ON]->(platform)
CREATE (sarah)-[:WORKED_ON]->(quantum)
CREATE (emily)-[:WORKED_ON]->(quantum)
CREATE (kate)-[:WORKED_ON]->(quantum)
CREATE (arnold)-[:WORKED_ON]->(phoenix)
CREATE (kate)-[:WORKED_ON]->(phoenix)
CREATE (medicine:Topic { name:"Medicine" })
CREATE (cars:Topic { name:"Cars" })
CREATE (rest:Topic { name:"REST" })
CREATE (graphs:Topic { name:"Graphs" })
CREATE (java:Topic { name:"Java" })
CREATE (travel:Topic { name:"Travel" })
CREATE (design:Topic { name:"Design" })
CREATE (art:Topic { name:"Art" })
CREATE (music:Topic { name:"Music" })
CREATE (drama:Topic { name:"Drama" })
CREATE (charlie)-[:INTERESTED_IN]->(medicine)
CREATE (charlie)-[:INTERESTED_IN]->(cars)
CREATE (charlie)-[:INTERESTED_IN]->(graphs)
CREATE (ben)-[:INTERESTED_IN]->(rest)
CREATE (ben)-[:INTERESTED_IN]->(graphs)
CREATE (sarah)-[:INTERESTED_IN]->(rest)
CREATE (sarah)-[:INTERESTED_IN]->(graphs)
CREATE (sarah)-[:INTERESTED_IN]->(java)
CREATE (arnold)-[:INTERESTED_IN]->(rest)
CREATE (arnold)-[:INTERESTED_IN]->(graphs)
CREATE (arnold)-[:INTERESTED_IN]->(java)
CREATE (arnold)-[:INTERESTED_IN]->(travel)
CREATE (emily)-[:INTERESTED_IN]->(design)
CREATE (emily)-[:INTERESTED_IN]->(art)
CREATE (gordon)-[:INTERESTED_IN]->(graphs)
CREATE (gordon)-[:INTERESTED_IN]->(music)
CREATE (kate)-[:INTERESTED_IN]->(music)
CREATE (kate)-[:INTERESTED_IN]->(drama)

## 1. Inferir relaciones sociales

In [None]:
%%cypher http://neo4j:1234@127.0.0.1:7474/db/data
MATCH (subject:User {name:'Sarah'})
MATCH (subject)-[:WORKS_FOR]->(company:Company)<-[:WORKS_FOR]-(person:User),
      (subject)-[:INTERESTED_IN]->(interest)<-[:INTERESTED_IN]-(person:User)
RETURN person.name AS name,
       count(interest) AS score,
       collect(interest.name) AS interests
ORDER BY score DESC

* El primer match busca el sujeto de la búsqueda 'Shara' en los nodos etiquetados como 'User' y asigna el resultado a la variable 'subject'.
* El segundo match busca 'Users' que trabajan en la misma compañía y que comparten uno o más intereses. Si el 'subject' de la sentencia es Sarah que trabaja para Acme, entonces Ben se ajusta al patrón dos veces, Bentrabaja en Acme y está interesado en 'graphs' (primera coincidencia) y rest (segunda coincidencia). En el caso de Charlie sólo se ajusta una vez trabaja para Acme y está interesado en 'graphs'.
* La cláusula RETURN crea una proyección para los datos que cumplen el patrón. Para cada 'User' encontrado extrae su nombre, cuenta el número de intereses que tiene en común con el 'subject' de la sentencia (le pone el alias 'score') y utilizamos collect para devolvel los intereses comunes en fomra de lista. Para aquellos 'Users' que se ajustan al patrón varias veces (Ben en este caso) collect agrega sus resultados en una sóla fila.
* Por último ordenamos los resultados en función del 'score' de forma descendente.

El subgrafo que cumple el patrón anterior es el siguiente:

<img src="../images/neo4j/talent3.png" alt="Initial Graph"/>

La sentencia anterior sólo búsca personas que trabajan en la misma compañía que Sarah, si queremos extender la búsqueda para encontrar personas de otras compañías tendríamos que cambiar la consulta. 

In [None]:
%%cypher http://neo4j:1234@127.0.0.1:7474/db/data
MATCH (subject:User {name:'Sarah'})
MATCH (subject)-[:INTERESTED_IN]->(interest:Topic)<-[:INTERESTED_IN]-(person:User),
      (person)-[:WORKS_FOR]->(company:Company)
RETURN person.name AS name,
       company.name AS company,
       count(interest) AS score,
       collect(interest.name) AS interests
ORDER BY score DESC

Esta sentencia cambia respecto a la anterior en lo siguiente:
* En la sentencia MATCH quitamos la parte del patrón que forzaba a que las personas trabajaran en la misma compañía que el 'subject' de la sentencia. Aunque seguimos buscando a que compañía trabaja cada 'User' porque nos interesa devolverlo en el resultado.
* En la cláusula RETURN ahora incluimos los detalles de la compañía en la que trabaja cada 'User'.

El subgrafo que cumple el patrón anterior es el siguiente:

<img src="../images/neo4j/talent4.png" alt="Initial Graph"/>

## 2. Buscar compañeros con intereses particulares



In [None]:
%%cypher http://neo4j:1234@127.0.0.1:7474/db/data
MATCH (subject:User {name:'Sarah'})
MATCH p=(subject)-[:WORKED_ON]->(:Project)-[:WORKED_ON*0..2]-(:Project)<-[:WORKED_ON]-(person:User)-[:INTERESTED_IN]->(interest:Topic)
WHERE person<>subject AND interest.name IN ['Java', 'Travel', 'Medicine']
WITH person, interest, min(length(p)) as pathLength
ORDER BY interest.name
RETURN person.name AS name,
       count(interest) AS score,
       collect(interest.name) AS interests,
       ((pathLength - 1)/2) AS distance
ORDER BY score DESC
LIMIT 10

* El primer MATCH busca el sujeto de la búsqueda 'Shara' en los nodos etiquetados como 'User' y asigna el resultado a la variable 'subject'.
* El segundo MATCH encuentra 'Users' que están conectados con el 'subject' o bien porque han trabajado en el mismo 'Project' que el 'subject' o bien porque han trabajado en el mismo 'Project' que 'Users' que han trabajado con el 'subject' en el mismo 'Project'. Por cada 'User' que cumple el patrón, capturamos sus 'Interests'. El resultado lo dejmos en la varibale p.
* El resultado del patrón es refinado por la cáusula WHERE que excluye los nodos que coinciden con el 'subject' y se asegura de filtrar dotos los 'Users' que no están interesados en algo que nos interesa en la búsqueda. Para cada resultado qu cumple el patrón, le asignamos el path entero de la coincidencia, es decir el camino entre el 'subject' de la query hasta el 'User' que cumple la búsqueda de sus intereses.
* La cláusula WITH se encarga de filtrar los caminos que son redundantes (entre el nodo que representa el 'subject' y el nodo 'User' que tiene el interes concreto puede haber varios caminos), cogiendo sólo los que tienen la distancia mínima. Después enlaza este resultado con la cláusual RETURN.
* La cláusula RETURN crea una proyección de los datos, se queda con el nombre de los 'Users' (les asigna el alias 'name'), cuenta los intereses de cada 'User' (les asigna el alias 'score'), agrega los 'Interest' de cada 'User' en una lista y por último calculamos cómo de lejos esta el 'User' que cumple el patrón con el 'subject' de la búsqueda. Para ello le restamos 1 (la relacción INTERESTE_IN del final del patrón) y dividimos por dos (el 'User' está separado del 'subject' por pares de relacciones WORKED_ON).
* Por último ordenamos el resultado por 'score'.

La segunda sentencia MATCH utiliza una variable que indica como de largo tiene que se el camino entre dos nodos, [:WORKED_ON*0..2], en este caso nos interesan sólo los que tiene como máximo logitud 2.

El subgrafo que cumple el patrón anterior es el siguiente:

<img src="../images/neo4j/talent5.png" alt="Initial Graph"/>

Vamos a ver más en detalle como funciona la query anterior (consulta la siguiente imagen). El primer paso hace referencia a cada uno de los caminos que cumplen los MATCH y el WHERE. Como podemos ver hay un camino redundante, Charlie aparece directamente relaccionado con Sarah a través del proyecto 'Next Gem Platform' y a través de Emily y el proyecto 'Quantum Leap'.

El segundo paso hace referencia al filtrado que se realiza en la cláusula WITH. Obtenemos tripletas con el nombre del usuario, el interés y el camino más corto.

El tercer paso representa la cláusula RETURN donde agregamos la información para cada usuario que cumple el patrón.

<img src="../images/neo4j/talent6.png" alt="Initial Graph"/>

## 3. Añadir la relacción WORKED_WITH

La sentencia anterior que busca compañeros de compañeros si se combierte en muy frecuente puede ineteresarnos cambiarla por una relacción ya calculada, puesto que es una sentencia costosa. De esta forma optimizamos el rendimiento para este tipo de búquedas.

Para ello vamos a crear una nueva relacción que vamos a llamar WORKED_WITH entre nodos 'User' que nos indica que usuarios han trabajado conjuntamente.

In [None]:
for name in ['Charlie', 'Ben', 'Sarah', 'Arnold', 'Emily', 'Gordon', 'Kate']:
    %%cypher http://neo4j:1234@127.0.0.1:7474/db/data \
    MATCH (subject:User {name: {name}}) \
    MATCH (subject)-[:WORKED_ON]->()<-[:WORKED_ON]-(person:User) \
    WHERE NOT((subject)-[:WORKED_WITH]-(person)) \
    WITH DISTINCT subject, person \
    CREATE UNIQUE (subject)-[:WORKED_WITH]-(person) \
    RETURN subject.name AS startName, person.name AS endName

Una vez añadida la relacción, nuestr grafo queda de la siguiente manera.

<img src="../images/neo4j/talent7.png" alt="Initial Graph"/>

Con estos cambios realizados, la query anterior se simplificaría y quedaría de la siguiente forma

In [None]:
%%cypher http://neo4j:1234@127.0.0.1:7474/db/data
MATCH (subject:User {name:'Sarah'})
MATCH p=(subject)-[:WORKED_WITH*0..1]-(:Person)-[:WORKED_WITH]-(person:User)-[:INTERESTED_IN]->(interest:Topic)
WHERE person<>subject AND interest.name IN ['Java', 'Travel', 'Medicine']
WITH person, interest, min(length(p)) as pathLength
RETURN person.name AS name,
       count(interest) AS score,
       collect(interest.name) AS interests,
       (pathLength - 1) AS distance
ORDER BY score DESC
LIMIT 10