# Tecnologías NoSQL -- Tutorial en JISBD 2017

Toda la información de este tutorial está disponible en https://github.com/dsevilla/jisbd17-nosql.
Diego Sevilla Ruiz, [dsevilla@um.es](mailto:dsevilla@um.es).

![Slide0](./images/slide000.jpg)

In [None]:
%load utils/functions.py

In [None]:
ds(1,2)

In [None]:
ds(3)

In [None]:
sayEmoji(u"💔💤💩 SQL vs NoSQL 💩💤💔")

In [None]:
ds(4)

In [None]:
%%bash
docker pull mongo
#SUDO_ASKPASS=/usr/bin/qt4-ssh-askpass sudo pip2 install --upgrade pymongo

In [None]:
!docker run --rm -d --name mongo -p 27017:27017 mongo

In [None]:
import pymongo
from pymongo import MongoClient
client = MongoClient("localhost", 27017)
client

In [None]:
client.database_names()

Creamos una base de datos `presentations`:

In [None]:
db = client.presentations

Y la colección `jisbd17`:

In [None]:
jisbd17 = db.jisbd17
jisbd17

In [None]:
jisbd17.insert_one({'_id' : 'slide000',
                   'title': 'blah',
                   'text' : '',
                   'image': None,
                   'references' : 
                       [{'type' : 'web',
                         'ref' : 'http://nosql-database.org'},
                        {'type' : 'book',
                         'ref' : 'Sadalage, Fowler. NoSQL Distilled'}
                       ],
                   'xref' : ['slide010', 'slide002'],
                   'notes': 'blah blah'
                  })

In [None]:
jisbd17.find_one()

In [None]:
import os
import glob
files = glob.glob('slides/slides-dir/*.png')

Añadiendo las imágenes a la base de datos...

In [None]:
for file in files:
    img = load_img(file)
    img_to_thumbnail(img)
    slidename = os.path.basename(os.path.splitext(file)[0])
    jisbd17.update_one({'_id': slidename},
                       {'$set' : {'image': img_to_base64(img)}},
                      True)

In [None]:
for slide in jisbd17.find():
    print slide['_id'], slide.get('title')

In [None]:
slide0 = jisbd17.find_one({'_id': 'slide000'})

In [None]:
img_from_base64(slide0['image'])

In [None]:
yoda(u'Modelado de datos tú no hacer...')

In [None]:
inciso_slide = 9
ds(inciso_slide,3)

In [None]:
jisbd17.find_one({'_id': 'slide000'})

## ¿Qué es NoSQL?

## ¿Por qué NoSQL?

## Map-Reduce

In [None]:
map_reduce_slide=40
for i in range(0,7):
    ds(map_reduce_slide + i)

## ¿Qué es NoSQL?

## ¿Qué es NoSQL?

## NoSQL

## MongoDB (documentos)

![Image of MongoDB](https://webassets.mongodb.com/_com_assets/cms/MongoDB-Logo-5c3a7405a85675366beb3a5ec4c032348c390b3f142f5e6dddf1d78e2df5cb5c.png)

In [None]:
import re

def read_slides():
    in_slide = False
    slidetitle = ''
    slidetext = ''
    slidenum = 0
    with open('slides/slides.tex', 'r') as f:
        for line in f:
            # Remove comments
            line = line.split('%')[0]
            line = line.decode('utf-8')
            
            if not in_slide:
                if '\\begin{frame}' in line:
                    in_slide = True
            elif '\\frametitle' in line:
                q = re.search('\\\\frametitle{([^}]+)',line)
                slidetitle = q.group(1)
                continue
            elif '\\framebreak' in line or re.match('\\\\only<[^1]',line) or '\\end{frame}' in line:
                
                # Añadir la diapositiva a la lista
                slideid = 'slide{:03d}'.format(slidenum)
                print slideid
                jisbd17.update_one({'_id': slideid},
                       {'$set' : {'title': slidetitle,
                                  'text' : slidetext
                                 }},
                      True)

                # Next
                slidetext = ''
                slidenum += 1
                if '\\end{frame}' in line:
                    in_slide = False
                    slidetitle = ''
            else:
                slidetext += line
                
read_slides()

In [None]:
!docker exec -it mongo mongo

In [None]:
!docker stop mongo

## HBase (wide-column)

![Image of HBase](http://hbase.apache.org/images/hbase_logo_with_orca_large.png)

Usaré la imagen docker de HBase a partir de aquí: https://github.com/krejcmat/hadoop-hbase-docker, ligeramente modificada. Para iniciar los contenedores (un master y dos "slave"):

    git clone https://github.com/dsevilla/hadoop-hbase-docker.git
    cd hadoop-hbase-docker
    ./start-container.sh latest 2

    # Un conenedor máster, 2 slave, simulan un clúster distribuido de tres nodos
    # Los contenedores arrancan, el shell entra en el master:

    ./configure-slaves.sh
    ./start-hadoop.sh
    ./start-hbase.sh
    hbase-daemon.sh start thrift  # Servidor para conexión externo

Ahora ya podemos conectar a la base de datos. Dentro del contenedor, ejecutando `hbase shell` nos vuelve a mostrar el shell. En él, podemos ejecutar consultas, creación de tablas, etc.:

    status
    # Crear tabla
    # Put
    # Consultas sencillas

También se puede conectar de forma remota. Usaremos, desde Python, el paquete `happybase`:

    sudo pip2 install happybase

In [None]:
import happybase
happybase.__version__

In [None]:
host = '127.0.0.1'
connection = happybase.Connection(host)
connection.tables()

## Neo4j (Grafos)

![Image of HBase](https://neo4j.com/wp-content/themes/neo4jweb/assets/images/neo4j-logo-2015.png)

Se puede utilizar el propio interfaz de Neo4j también en la dirección http://127.0.0.1:7474.

In [None]:
%%bash
docker pull neo4j
docker run -d --rm --name neo4j -p 7474:7474 -p 7687:7687 neo4j

Vamos a cargar la extensión `ipython-cypher` para poder lanzar consultas Cypher directamente a través de la hoja. En mi ordenador he configurado "`root`" como _password_.

Para iniciar Neo4j hay que ir primero a la página de su browser y hacer login con el usuario y clave iniciales:

http://127.0.0.1:7474

Usuario: neo4j
Password: neo4j

Después pide la nueva clave. Yo he puesto "`root`" en esta hoja.

Utilizaremos una extensión de Jupyter Notebook que se llama `ipython-cypher`. Está instalada en la máquina virtual. Si no, se podría instalar con:

    sudo pip2 install ipython-cypher
    
Después, todas las celdas que comiencen por `%%cypher` y todas las instrucciones Python que comiencen por `%cypher` se enviarán a Neo4j para su interpretación

In [None]:
%load_ext cypher
%config CypherMagic.uri='http://neo4j:root@127.0.0.1:7474/db/data'

In [None]:
%config CypherMagic.auto_html=False
%config CypherMagic.auto_pandas=True

In [None]:
%%cypher
match (n) return n.name;