
# Diseño de software para cómputo científico

----

## Unidad 3: NO-SQL


## B-Tree

![image.png](attachment:image.png)

B-trees were invented by Rudolf Bayer and Edward M.McCreight while working at Boeing Research Labs.

## ACID

![image-2.png](attachment:image-2.png)


### Bases de datos no-relacionales

<small>Fuentes 
        <a href="https://www.thoughtworks.com/insights/blog/nosql-databases-overview">https://www.thoughtworks.com/insights/blog/nosql-databases-overview</a>, 
        <a href="https://www.scylladb.com/resources/nosql-vs-sql/">https://www.scylladb.com/resources/nosql-vs-sql/</a>
</small>

- Las bases de datos relacionales han dominado la industria del software, proporcionando mecanismos para almacenar datos de forma persistente, control de concurrencia, transacciones y un API estándar y mecanismos para integrar datos de aplicaciones.
- En los últimos años, han surgido untipo de bases de datos, conocidas como bases de datos **NoSQL**, que desafían el dominio de las bases de datos relacionales. 

![image.png](attachment:image.png)

### NoSQL qué significa

NoSQL fue un hashtag (`#nosql`) elegido para una reunión para discutir estas nuevas bases de datos. El resultado más importante del surgimiento de NoSQL es Polyglot Persistence. NoSQL no tiene una definición prescriptiva, pero podemos hacer un conjunto de observaciones comunes, como:

- No usar el modelo relacional
- Funciona bien en cluster
- Principalmente de código abierto
- Construido para el estado actual de la web.
- Sin esquema (No explícito)

### Por qué las bases de datos NoSQL?

- Principalmente combate la frustracion del desajuste de impedancia entre las estructuras de datos relacionales y las estructuras de datos en memoria de la aplicación. 
- El uso de bases de datos NoSQL permite a los desarrolladores desarrollar sin tener que convertir estructuras en memoria en estructuras relacionales.

![image.png](attachment:image.png)

### Por qué las bases de datos NoSQL?

- También se está alejando el uso de bases de datos como puntos de integración a favor de encapsular bases de datos con aplicaciones e integrar el uso de servicios.
- El surgimiento de la web como plataforma también creó un cambio de factor vital en el almacenamiento de datos como la necesidad de soportar grandes volúmenes de datos al ejecutarse en clústeres.
- Las bases de datos relacionales no fueron diseñadas para ejecutarse eficientemente en clústeres.
- Las necesidades de almacenamiento de datos de una aplicación ERP son mucho más diferentes que las necesidades de almacenamiento de datos de un Facebook o un Etsy, por ejemplo.

![image.png](attachment:image.png)

### Big Data

![image.png](attachment:image.png)

 A mi también me gusta **V**olatilidad

### Modelos de distribución:

Las bases de datos NO-SQL suelen ser útiles para sistemas de agregación.

Las bases de datos orientadas a los agregados facilitan la distribución de datos, ya que el mecanismo de distribución mueven la agregación y no se preocupa por los datos relacionados. Hay dos estilos de distribución de datos:

- **Sharding:** Sharding distribuye diferentes datos a través de múltiples servidores, por lo que cada servidor actúa como la única fuente para un subconjunto de datos.
- **Replicación:** la replicación copia datos en varios servidores, por lo que cada bit de datos se puede encontrar en varios lugares. La replicación viene en dos formas,
    - **Maestro-esclavo** convierte a un nodo en la copia autorizada que maneja las escrituras mientras que los esclavos se sincronizan con el maestro y pueden manejar las lecturas.
    - **punto a punto** permite escrituras en cualquier nodo; Los nodos se coordinan para sincronizar sus copias de los datos.
        
   

### Teorema CAP

El teorema de CAP explica por qué una base de datos distribuida no puede garantizar tanto la coherencia como la disponibilidad frente a las particiones de red. 

El teorema dice que una aplicación puede garantizar solo dos de las siguientes tres características al mismo tiempo:

- **Consistencia:** se da la misma respuesta a todos
- **Disponibilidad:** el acceso continúa, incluso durante una falla parcial del sistema
- **Tolerancia de partición:** las operaciones permanecen intactas, incluso si algunos nodos no pueden comunicarse

Un compromiso útil es permitir una **consistencia eventual**.

Determinar si los datos de su aplicación son un candidato adecuado para la coherencia eventual es una decisión comercial.

### ACID vs BASE

Las bases de datos relacionales y algunas bases de datos NoSQL (aquellas que soportan una fuerte consistencia) que cumplen con estos cuatro objetivos se consideran compatibles con ACID. Esto significa que los datos son consistentes después de completar las transacciones.

Sin embargo, otras bases de datos NoSQL no relacionales recurren al modelo BASE para lograr beneficios como escala y resistencia. BASE significa:

- **Basic Availability:** los datos están disponibles la mayor parte del tiempo, incluso durante una falla que interrumpe parte de la base de datos. Los datos se replican y se distribuyen en muchos sistemas de almacenamiento diferentes.
- **Soft state:** las réplicas no son consistentes todo el tiempo.
- **Eventual consistency:** los datos serán consistentes en algún momento, sin garantía de cuándo.



## Tipos de bases de datos: Document databases

![image.png](attachment:image.png)

- La base de datos almacena y recupera documentos, que pueden ser XML, JSON, BSON, etc. 
- Estos documentos son estructuras de datos de árbol jerárquico, autodescriptivas, que pueden consistir en mapas, colecciones y valores escalares. 
- Los documentos almacenados son similares entre sí, pero no tienen que ser exactamente iguales. 
- Las claves son parte de los documentos.
- Ejemplos MongoDB, CouchDB, Terrastore, OrientDB o RavenDB.

### Tipos de bases de datos: Document databases - Un ejemplo con MongoDB

```python
>>> import datetime
>>> import pymongo  ## pip install pymongo
>>> db = pymongo.MongoClient('mongodb://localhost:27017/')
>>> posts = db['posts']
>>> post = {"author": "Mike",
...         "text": "My first blog post!",
...         "tags": ["mongodb", "python", "pymongo"],
...         "date": datetime.datetime.utcnow()}
>>> post_id = posts.insert_one(post).inserted_id
ObjectId('...')
```

### Tipos de bases de datos: Document databases - Un ejemplo con MongoDB

```python
>>> posts.find_one({"author": "Mike"})
{u'_id': ObjectId('...'),
 u'author': u'Mike',
 u'date': datetime.datetime(...),
 u'tags': [u'mongodb', u'python', u'pymongo'],
 u'text': u'My first blog post!'}
```

### Tipos de bases de datos: Document databases - Un ejemplo con MongoDB + ODM

```python
>>> import mongokit import as mk  # pip install mongokit
>>> connection = mk.Connection()
>>> @connection.register
... class BlogPost(mk.Document):
...     structure = {
...             'title': unicode, 'body': unicode,
...             'author': unicode, 'rank': int,
...             'date_creation': datetime.datetime}
...     required_fields = ['title','author', 'date_creation']
...     default_values = {'rank': 0, 'date_creation': datetime.datetime.utcnow}
```

### Tipos de bases de datos: Document databases - Un ejemplo con MongoDB + ODM

```python
>>> blogpost = con.test.example.BlogPost()
>>> blogpost['title'] = u'my title'
>>> blogpost['body'] = u'a body'
>>> blogpost['author'] = u'me'
>>> blogpost
{'body': u'a body', 'title': u'my title', 'date_creation': datetime.datetime(...), ...}
>>> blogpost.save()
```

### Tipos de bases de datos: Column databases

![image.png](attachment:image.png)

- Estas bases de datps almacenan filas que tienen arbitraria cantidad de columnas asociadas con una clave de fila. 
- Las columnas son grupos de datos relacionados a los que **a menudo** se accede juntos. 
- Para un Cliente, a menudo accedemos a la información de su Perfil al mismo tiempo, pero no a sus Pedidos.
- La diferencia es que varias filas no tienen que tener las mismas columnas, y las columnas se pueden agregar a cualquier fila en cualquier momento sin tener que agregarlo a otras filas.
- Ejemplos: Casandra, HBase, Hypertable y SciDB.

### Tipos de bases de datos: Column databases - Un ejemplo con SciDB

```python
>>> from scidbpy import connect  # pip install scidb-py
>>> db = connect('http://localhost:8080')
>>> db.arrays.foo[:]
   i    x
0  0  0.0
1  1  1.0
2  2  2.0
>>> ar = db.input(
...     upload_data=numpy.arange(3)).store("ar")
>>> db.join(ar, 'foo').apply('j', ar.i + 1)[:]
   i  x  x_1  j
0  0  0  0.0  1
1  1  1  1.0  2
2  2  2  2.0  3
```

## Tipos de bases de datos: Graph databases

![image.png](attachment:image.png)

- Permiten almacenar entidades y relaciones entre estas entidades. 
- Las entidades también se conocen como nodos, que tienen propiedades. Piense en un nodo como una instancia de un objeto en la aplicación. 
- Las relaciones se conocen como edges que pueden tener propiedades. 

## Tipos de bases de datos: Graph databases

![image.png](attachment:image.png)

- Los edgest tienen significado direccional.
- Los nodos están organizados por relaciones que le permiten encontrar patrones interesantes entre los nodos. 
- La organización del gráfico permite que los datos se almacenen una vez y luego se interpreten de diferentes maneras según las relaciones.
- Los edgest tienen significado direccional.
- Los nodos están organizados por relaciones que le permiten encontrar patrones interesantes entre los nodos.

## Tipos de bases de datos: Graph databases

![image.png](attachment:image.png)

 
- La organización del gráfico permite que los datos se almacenen una vez y luego se interpreten de diferentes maneras según las relaciones.
- Por lo general, cuando almacenamos una estructura similar a un gráfico en RDBMS, es para un solo tipo de relación ("quién es mi gerente" es un ejemplo común). Más relaciones cambios de esquema 
- Del mismo modo, en bases de datos relacionales modelamos el gráfico de antemano.
- Ejemplos: Neo4J, Infinite Graph y OrientDB.

### Tipos de bases de datos: Graph databases - Un ejemplo con Neo4J

```python
>>> from neomodel import nm # pip install neomodel
>>> nm.config.DATABASE_URL = 'bolt://neo4j:password@localhost:7687'

>>> class Country(nm.StructuredNode):
...     code = nm.StringProperty(unique_index=True, required=True)

>>> class Person(nm.StructuredNode):
...     uid = nm.UniqueIdProperty()
...     name = nm.StringProperty(unique_index=True)
...     country = RelationshipTo(Country, 'IS_FROM')
```

### Tipos de bases de datos: Graph databases - Un ejemplo con Neo4J

```python
>>> jim = Person(name='jim').save() # Create
>>> jim.name = "Jim
>>> jim.save() # Update, (with validation)
>>> jim.id # neo4j internal id
```

```python
>>> all_nodes = Person.nodes.all()
>>> jim = Person.nodes.get(name='Jim')
```

```python
>>> germany = Country(code='DE').save()
>>> jim.country.connect(germany)
>>> if jim.country.is_connected(germany):
...     print("Jim's from Germany")
```

## Tipos de bases de datos: Key-Value databases

- Son los almacenes de datos NoSQL más simples para usar desde una perspectiva API.
- El cliente puede obtener el valor de la clave, poner un valor para una clave o eliminar una clave del almacén de datos. 
- El valor es un BLOB que el almacén de datos solo almacena, sin importarle qué hay dentro.
- Dado que las tiendas de valores clave siempre utilizan el acceso de clave principal, generalmente tienen un gran rendimiento y se pueden escalar fácilmente.

## Tipos de bases de datos: Key-Value databases

![image.png](attachment:image.png)

- Algunas de las bases de datos de este tipo populares son Riak, Redis (a menudo denominado servidor de estructura de datos)o Memcached y sus sabores.
- No todas son iguales, existen grandes diferencias entre estos productos
- Por ejemplo: los datos de Memcached no son persistentes, mientras que en Riak sí lo son, estas características son importantes al implementar ciertas soluciones.

### Tipos de bases de datos: Key-Value databases - Un ejemplo con redis

```python
>>> import redis # pip install Redis
>>> redis_db = redis.StrictRedis(host="localhost", port=6379, db=0)
>>> redis_db.keys() # see what keys are in Redis
[]
>>> redis_db.set('full stack', 'python')
True
>>> redis_db.keys()
"['full stack']
>>> redis_db.get('full stack')
"Python"
```

In [14]:
import pickle
from collections.abc import MutableMapping
import attr

@attr.s()
class KVDatabase(MutableMapping):
    path = attr.ib()
    
    def _get_data(self):
        try:
            with open(self.path, "rb") as fp:
                return pickle.load(fp)
        except:
            return {}
    def _set_data(self, d):
        with open(self.path, "wb") as fp:
            return pickle.dump(d, fp)
        
    def __setitem__(self, k, v):
        data = self._get_data()
        data[k] = v
        self._set_data(data)
    def __getitem__(self, k):
        data = self._get_data()
        return data[k]
    def __delitem__(self, k):
        data = self._get_data()
        del data[k]
        self._set_data(data)
    def __len__(self):
        return len(self._get_data())
    def __iter__(self):
        raise NotImplementedError()
    
    
db = KVDatabase("db/file.pkl")
db["coso"] = 25

## Tipos de bases de datos: Key-Value databases

In [17]:
db = KVDatabase("db/file.pkl")
db.get("lkkihyg")

- Obviamente esto es una porqueria.
- Podemos pensar en ponerle transacciones.
- Guardar la estructura de datos en algo como B-Tree
- Pensar en guardar indices.

# ZODB - Zope Object Database

<small>
    <b>Sources:</b> 
    <a href="https://www.slideshare.net/jace/zodb-the-zope-object-database">https://www.slideshare.net/jace/zodb-the-zope-object-database</a>, 
    <a href="http://www.zodb.org">http://www.zodb.org</a>
</small>

- Una base de datos orientada a objetos almacena objetos
  en lugar de registros de la base de datos
- Los objetos generalmente se organizan jerárquicamente
  La mayoría de las bases de datos de objetos están vinculadas a un
  lenguaje (Excepto db4objects que funciona para Java y C#)
  
## ZODB
- Alto rendimiento
- Operación transparente y almacenamiento en caché
- Transaccional: Deshacer ilimitado
- Multihilo
- Complementos de almacenamiento
- Necesita Python

# ZODB - Zope Object Database

- No es una base de datos relacional (de hecho es key-value)
- Sin soporte SQL
- Sin modelo de seguridad
- Sin interfaz de consulta:
   - Se debe acceder a los objetos a través del contenedor
   - Un motor de búsqueda separado está disponible
- Todas las clases deben derivarse de
- Clase base "persistente" proporcionada por ZODB
- El código no necesita ser consciente de ZODB

# ZODB - Ejemplos 

In [3]:
import persistent
import ZODB, ZODB.FileStorage
import BTrees

class Account(persistent.Persistent): 

    def __init__(self):
        self.movimientos = persistent.list.PersistentList()
    
    @property
    def balance(self):
        return sum(self.movimientos)
    
    def deposit(self, amount):
        self.movimientos.append(amount)

In [4]:
#db.close()
storage = ZODB.FileStorage.FileStorage('zodb/mydata.fs')
db = ZODB.DB(storage)

Ignoring index for /home/juan/proyectos/dis_ssw/src/clase14/zodb/mydata.fs


In [5]:
with db.transaction() as connection:
    # ACID
    root = connection.root
    root.accounts = BTrees.OOBTree.BTree()
    root.accounts['account-1'] = Account()

# ZODB - Ejemplos 

In [11]:
with db.transaction() as connection:
    root = connection.root
    account = root.accounts["account-1"]
    account.deposit(13.)    
    print(account.balance)
    print(account.movimientos)

72.0
[11.0, 11.0, 11.0, 13.0, 13.0, 13.0]


In [12]:
with db.transaction() as connection:
    root = connection.root
    account = root.accounts["account-1"]
    account.deposit(11.5)
    print(account.balance)
    print(account.movimientos)

83.5
[11.0, 11.0, 11.0, 13.0, 13.0, 13.0, 11.5]


In [13]:
with db.transaction() as connection:
    root = connection.root
    account = root.accounts["account-1"]
    print(account.movimientos)

[11.0, 11.0, 11.0, 13.0, 13.0, 13.0, 11.5]


## Sobre los BTree

- Además de `PersistentList` y `PersistentMapping`, el paquete *BTrees* proporciona estructuras de datos persistentes generales, especialmente los objetos `BTree` y `TreeSet`. 
- Los objetos `BTree` y `TreeSet` son escalables y pueden contener fácilmente millones de objetos.

![image.png](attachment:image.png)

## Cerrando: Como elegir bases NO-SQL

Algunas pautas generales:

- **Key-Value:** útiles para almacenar información de sesión, perfiles de usuario, preferencias, datos del carrito de compras. Evitaríamos usarlas cuando necesitemos consultar por datos, tener relaciones entre los datos que están siendo almacenados o necesitemos operar en múltiples claves al mismo tiempo.
- **Document:** útiles para sistemas de gestión de contenido, plataformas de blogs, análisis web, análisis en tiempo real, aplicaciones de comercio electrónico. Evitaríamos usarlas para sistemas con transacciones que abarcan múltiples operaciones o consultas contra estructuras agregadas variables.
- **Column:** útiles para sistemas de gestión de contenido, plataformas de blogs, mantenimiento de contadores, uso que caduca, volumen de escritura pesado como la agregación de registros. Evitaríamos usarlas para sistemas que están en desarrollo temprano, cambiando los patrones de consulta.
- **Graph:** adecuadas para espacios problemáticos donde tenemos datos conectados, como redes sociales, datos espaciales, información de enrutamiento de bienes y dinero, motores de recomendación.

## Cerrando 2: La mentira del "schema-less"

- Todas las bases de datos NoSQL afirman que no tienen esquema, lo que significa que la base de datos no impone ningún esquema. 
- No-SQL tienen esquema implícito.
- Las bases de datos con esquemas sólidos, como las bases de datos relacionales, se pueden migrar guardando cada cambio de esquema, más su migración de datos, en una secuencia controlada por la versión. Las bases de datos sin esquema aún necesitan una migración cuidadosa debido al esquema implícito en cualquier código que acceda a los datos.