# Neo4j

## Conexión con Cassandra y borrado de datos

In [None]:
%load_ext cypher

In [None]:
from py2neo import Graph, Node, Relationship

graph = Graph()

In [None]:
# Borrado de todos los nodos y relaciones
graph.delete_all()

## Carga de datos en Pandas

A partir del fichero Excel desnormalizamos los datos

In [None]:
import pandas as pd
df_mov = pd.read_excel("../../data/black.xlsx", sheet_name= "Movimientos")
df_miembros = pd.read_excel("../../data/black.xlsx", sheet_name= "Miembros")
df = pd.merge(df_mov, df_miembros, on = ['id_miembro'], how = 'inner')
df.info()

## Carga de datos en Neo4j

Limpiamos los datos para que no tengan nulos y evitar problemas con la sentencia MERGE de Neo

In [None]:
df.loc[df.comercio.isnull(),['comercio']] = 'Desconocido'
df.loc[df.organizacion.isnull(),['organizacion']] = 'Desconocido'
df.loc[df.actividad.isnull(),['actividad']] = 'Desconocido'
df.loc[df.actividad_completa.isnull(),['actividad_completa']] = 'Desconocido'

La carga se realizará en Neo a partir de la lista de datos en formato JSON, generados con Pandas

In [None]:
import json

json_string = df.to_json(orient = 'records')
json_list = json.loads(json_string)

En Neo se van a crear 3 tipos de nodos y 2 tipos de relaciones

<br><br> 

<img src="images/Modelo%20Neo4j.png" width=600 height=500>

<br><br> 

Adicionalmente se van a guardar los siguientes atributos:

**Nodo Comercio**
- Nombre del comercio
- Actividad a la que se dedica
- Categoría de actividad (Podríamos haber creado un tipo de nodo independente)

**Nodo Persona**
- Nombre de la persona

**Nodo Organización**
- Nombre de la organización

**Nodo Movimiento**
- Fecha en formato UNIX Timestamp (el mismo formato que está en el JSON)
- hora y minuto de la compra
- Importe de la compra

Respecto a las relaciones, vamos a almacenar los siguientes atributos:

**Relación PERTECENE**
- Función que hace la persona en una organización

Creamos los nodos y relaciones en Neo4j simplemente iterando sobre la lista de JSONs.

In [None]:
import datetime

for index, movimiento_json in enumerate(json_list):
    # Nodos
    persona = Node("Persona", nombre=movimiento_json["nombre"])
    comercio = Node("Comercio", nombre=movimiento_json["comercio"], 
                                actividad = movimiento_json["actividad"],
                                actividad_completa = movimiento_json["actividad_completa"])
    organizacion = Node("Organizacion", nombre = movimiento_json["organizacion"])
    movimiento = Node("Movimiento",
            fecha = movimiento_json['fecha'],
            hora =  movimiento_json["hora"],
            minuto =  movimiento_json["minuto"],
            importe = movimiento_json["importe"])
    
        
    # Relaciones  
    rel_persona_organizacion = Relationship(persona, "PERTENECE", organizacion,
                                           funcion = movimiento_json["funcion"])
    rel_persona_movimiento = Relationship(persona, "REALIZA", movimiento)
    rel_movimiento_comercio = Relationship(movimiento, "OCURRE", comercio)
       
    graph.merge(persona | comercio | organizacion | rel_persona_organizacion)
    graph.create(movimiento | rel_persona_movimiento | rel_movimiento_comercio)
    
    if index % 500 == 0:
        print(index)


<br><br> 

<img src="images/Resultado%20Neo4j.png" width=800 height=600>

<br><br> 

### Comprobaciones previas ...

Número de movimientos ...

In [None]:
%%cypher
MATCH (:Movimiento)
RETURN count(*)

Número de personas ...

In [None]:
%%cypher
MATCH (:Persona)
RETURN count(*)

Número de comercios

In [None]:
%%cypher
MATCH (c:Comercio)
WHERE c.nombre <> 'Desconocido'
RETURN count(*)

Número de organizaciones

In [None]:
%%cypher
MATCH (o:Organizacion)
WHERE o.nombre <> 'Desconocido'
RETURN count(*)

All good!

## Funciones de utilidad para la consulta de datos

Neo4j, en su versión actual, no puede guardar datos de tipo fecha en los atributos, por lo que se almacena en formato TIMESTAMP de Unix (el formato original).  

La siguiente función de utilidad convierte una columna de una DataFrame en formato TIMESTAMP a Fecha

In [None]:
def transform_date(df, column_name):
    if column_name in df.columns:
        # Las fechas están en formato UNIX TIMESTAMP. Las volvemos a convertir a formato Date...
        df[column_name] = pd.to_datetime(df[column_name], unit = 'ms')
        
    return df

Función de utilidad para convertir los resultados devueltos por la base de datos en un DataFrame de Pandas

In [None]:
def get_dataframe(data):
    df = pd.DataFrame(list(data), columns = data.keys())
        
    return df

## Consulta a Neo4j

### Los 10 movimientos mas caros

Para obtener las lista de personas que mas han gastado simplemente relacionamos los 3 tipos de nodos y devolvemos los campos que nos interesan

In [None]:
%%cypher
MATCH (persona:Persona)-[:REALIZA]-(movimiento:Movimiento)-[:OCURRE]-(comercio:Comercio)
RETURN persona.nombre, comercio.actividad_completa, movimiento.importe
ORDER BY movimiento.importe DESC
LIMIT 10

Utilizamos la función ** graph.run()** para obtener un ResultSet de datos, que es transformada en un Dataframe de Pandas

In [None]:
query = """
MATCH (persona:Persona)-[:REALIZA]-(movimiento:Movimiento)-[:OCURRE]-(comercio:Comercio)
RETURN persona.nombre, comercio.actividad_completa, movimiento.importe
ORDER BY movimiento.importe DESC
LIMIT 10
""" 

data = graph.run(query)
df = get_dataframe(data)
df = transform_date(df, 'compra.fecha')
df

La misma query que el caso anterior pero utilizando un método distinto.  
El fin es el mismo: Una DataFrame de Pandas

In [None]:
df = %cypher MATCH (persona:Persona)-[:REALIZA]-(movimiento:Movimiento)-[:OCURRE]-(comercio:Comercio) \
             RETURN persona.nombre, comercio.actividad_completa, movimiento.importe \
             ORDER BY movimiento.importe DESC \
             LIMIT 10
            
df.get_dataframe()

### Importes de una persona agrupados por actividad

En este caso se realiza una agrupación de los datos. Observa que Neo4j lo realiza automáticamente al utilizar una función de agrupación de datos como **SUM()**

In [None]:
%%cypher
MATCH (persona:Persona)-[:REALIZA]-(movimiento:Movimiento)-[:OCURRE]-(comercio:Comercio)
WHERE comercio.actividad = 'HOGAR'
RETURN persona.nombre, comercio.actividad_completa, SUM(movimiento.importe) as importe
ORDER BY importe DESC
LIMIT 10


In [None]:
query = """
MATCH (organizacion:Organizacion)-[:PERTENECE]-(persona:Persona)-[:REALIZA]-(movimiento:Movimiento)-[:OCURRE]-(comercio:Comercio)
WHERE persona.nombre = {name}
RETURN persona.nombre, comercio.actividad, SUM(movimiento.importe) as importe
ORDER BY importe DESC
"""

data = graph.run(query, name='Mariano Pérez Claver')
get_dataframe(data)