# NoSQL (Neo4j) (sesión 7)

![Image of HBase](https://neo4j.com/wp-content/themes/neo4jweb/assets/images/neo4j-logo-2015.png)

Esta hoja muestra cómo acceder a bases de datos Neo4j y también a conectar la salida con Jupyter.

Se puede utilizar el propio interfaz de Neo4j también en la dirección http://127.0.0.1:7474.

Iniciamos Neo4j:

In [None]:
%%bash
~/start-neo4j.sh

In [None]:
from pprint import pprint as pp
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib

%matplotlib inline
matplotlib.style.use('ggplot')

Vamos a cargar la extensión `ipython-cypher` para poder lanzar consultas Cypher directamente a través de la hoja. En mi ordenador he configurado "`root`" como el _password_.

Para iniciar Neo4j hay que ir primero a la página de su browser y hacer login con el usuario y clave iniciales:

http://127.0.0.1:7474

Usuario: neo4j
Password: neo4j

Después pide la nueva clave. Yo he puesto "`root`" en esta hoja.

Utilizaremos una extensión de Jupyter Notebook que se llama `ipython-cypher`. Está instalada en la máquina virtual. Si no, se podría instalar con:

    sudo pip2 install ipython-cypher
    
Después, todas las celdas que comiencen por `%%cypher` y todas las instrucciones Python que comiencen por `%cypher` se enviarán a Neo4j para su interpretación

In [None]:
%load_ext cypher
%config CypherMagic.uri='http://neo4j:root@127.0.0.1:7474/db/data'

In [None]:
%config CypherMagic.auto_html=True

La carga de datos CSV no se puede realizar directamente desde la hoja, porque la extensión `ipython-cypher` falla por alguna cuestión de codificación UTF-8. Además, el CSV que acepta Neo4j no es estándar y he enviado un fallo para que lo arreglen (no parece que estén muy por la labor):

https://github.com/neo4j/neo4j/issues/8472

Mientras tanto, se pueden importar los Posts de Stackoverflow español simplemente añadiendo una barra inversa a cada barra inversa que aparece en el fichero:

    sed -ie 's/\\/\\\\/g' Posts.csv
    
Ya lo he preparado en el fichero que aparece abajo. Sin embargo, no se puede ejecutar aquí, hay que ir al browser: http://127.0.0.1:7474.

In [None]:
%%cypher
USING PERIODIC COMMIT 10000
LOAD CSV WITH HEADERS FROM "http://neuromancer.inf.um.es:8080/es.stackoverflow/Posts-for-neo4j.csv" AS row
CREATE (n)
SET n = row
FOREACH(ignoreMe IN CASE WHEN trim(row.PostTypeId) = "1" THEN [1] ELSE [] END | 
  SET n :Question)
FOREACH(ignoreMe IN CASE WHEN trim(row.PostTypeId) = "2" THEN [1] ELSE [] END | 
  SET n :Answer)
FOREACH(ignoreMe IN CASE WHEN trim(row.OwnerUserId) <> "" THEN [1] ELSE [] END | 
  MERGE (u:User {Id: n.OwnerUserId})
  MERGE (u)-[:WROTE]->(n)
)
SET n :Post
;

### El lenguaje Cypher

El lenguaje Cypher tiene una sintaxis de _Query By Example_. Acepta funciones y permite creación y búsqueda de nodos y relaciones. Tiene algunas peculiaridades que veremos a continuación. Por lo pronto, se puede ver un resumen de características en la [Cypher Reference Card](https://neo4j.com/docs/cypher-refcard/current/).

La anterior consulta utiliza la construcción `LOAD CSV` para leer datos CSV dentro de nodos. La cláusula `CREATE` crea nuevos nodos. La `SET` permite poner valores a las propiedades de los nodos.

Para hacer asignaciones condicionales, el lenguaje no ofrece una construcción adecuada. Por lo tanto, hay que utilizar una construcción `FOREACH` donde se utiliza otra construcción `CASE WHEN` con una condición. Si se cumple, se devuelve una lista con un elemento. Si no, una lista vacía. En el caso de la lista con un elemento (cuando se cumple la condición) se ejecuta la parte final del `FOREACH` tan sólo una vez.

En el caso de la consulta de arriba, a todos los datos leídos se les copia los datos de la línea (primer `SET`). Después, dependiendo del valor de `PostTypeId`, se les etiqueta como `:Question` o como `:Answer`. Si tienen un usuario asignado a través de `OwnerUserId`, se añade un usuario si no existe y se crea la relación `:WROTE`.

Finalmente se le asigna también el tag `:Post` a cada pregunta o respuesta. Esto añade más de una etiqueta a algunos nodos, y permite buscarlos por diferentes criterios.

También hay otros posts especiales que no eran preguntas ni respuestas. A estos no se les asigna una segunda etiqueta:

In [None]:
%%cypher
match (n:Post) WHERE size(labels(n)) = 1 RETURN n;

Creamos un índice sobre el `Id` para acelerar las siguientes búsquedas:

In [None]:
%%cypher
CREATE INDEX ON :Post(Id);

Añadimos una relación entre las preguntas y las respuestas:

In [None]:
%%cypher
MATCH (a:Answer), (q:Question {Id: a.ParentId})
MERGE (a)-[:ANSWERS]->(q)
;

In [None]:
%%cypher
MATCH q=(r)-[:ANSWERS]->(p) RETURN p,r LIMIT 100;

La consulta RQ4 se puede resolver de manera muy fácil. En esta primera consulta se devuelve los nodos:

In [None]:
%%cypher
// RQ4
MATCH
(u)-[:WROTE]->()-[:ANSWERS]->()<-[:WROTE]-(u2),
(u2)-[:WROTE]->()-[:ANSWERS]->()<-[:WROTE]-(u)
WHERE u2 <> u AND u.Id < u2.Id
RETURN DISTINCT u,u2
;

O bien retornar los `Id` de cada usuario:

In [None]:
%%cypher
MATCH
(u)-[:WROTE]->()-[:ANSWERS]->()<-[:WROTE]-(u2),
(u2)-[:WROTE]->()-[:ANSWERS]->()<-[:WROTE]-(u)
WHERE u2 <> u AND toInt(u.Id) < toInt(u2.Id)
RETURN DISTINCT u.Id,u2.Id
ORDER BY toInt(u.Id)
;

Y finalmente, la creación de relaciones `:RECIPROCATE` entre los usuarios. Se introduce también la construcción `WITH`.

`WITH` sirve para introducir "espacios de nombres". Permite importar nombres de filas anteriores, hacer alias con `AS` e introducir nuevos valores con funciones de Cypher. La siguiente consulta es la misma de arriba, RQ4, pero creando relaciones `:RECIPROCATE` entre cada dos usuarios que se ayudan recíprocamente.

In [None]:
%%cypher
// RQ4 creando relaciones de reciprocidad
MATCH
(u:User)-[:WROTE]->()-[:ANSWERS]->()<-[:WROTE]-(u2:User),
(u2)-[:WROTE]->()-[:ANSWERS]->()<-[:WROTE]-(u)
WHERE u2 <> u AND u.Id < u2.Id
WITH u AS user1,u2 AS user2
MERGE (user1)-[:RECIPROCATE]->(user2)
MERGE (user2)-[:RECIPROCATE]->(user1)
;

## EJERCICIO: Construir los nodos `:Tag` para cada uno de los tags que aparecen en las preguntas. Construir las relaciones `post-[:TAGGED]->tag` para cada tag y también `tag-[:TAGS]->post`

Para ello, buscar en la ayuda las construcciones `WITH` y `UNWIND` y las funciones `replace()` y `split()` de Cypher. La siguiente consulta debe retornar 1192 resultados:

In [None]:
%%cypher
MATCH p=(t:Tag)-[:TAGS]->(:Question) WHERE t.name =~ "^java$|^c\\+\\+$" RETURN count(p);