# Titan: Base de datos distribuida
# ¿Qué es Titan?



Titan es una **base de datos de grafos** altamente escalable, optimizada para almacenar y consultar grandes gráficos con miles de **millones de vértices** y aristas distribuidas en un grupo de múltiples máquinas. Titan es una **base de datos transaccional** que soporta de forma concurrente miles de usuarios, realizar recorridos complejos en el grafo y consultas de grafos analíticos.

## Antes de todo ¿Que es una base de datos de grafos? y ¿para qué la usaríamos?

Imaginemos Facebook:

![](https://www.juanmerodio.com/wp-content/uploads/opengraph-facebook.jpg)

La cantidad de relaciones que tinen las diferentes páginas, personas y comentarios es muy diversa y para lograr realizar recomendaciones de amistad, se requeriría una cantidad enorme de joins por tabla. Para mejorar la forma de consultar, navegar y editar la información, se utiliza este modelo de datos llamado grafos. Una descripción general de este modelo es:
 
 > Una base de datos orientada a grafos representa la información como nodos de un grafo y sus relaciones con las aristas del mismo, de manera que se pueda usar teoría de grafos para recorrer la base de datos ya que esta puede describir atributos de los nodos (entidades) y las aristas (relaciones).

Algunas de sus ventajas son:

* **Número indeterminado de atributos**: una persona puede tener relacionados cuatro nombres mientras que otra solamente dos, sin desperdiciar espacio.
* **Fácil de recorrer**: se puede recorrer directamente la base de datos de forma jerárquica, obtener el nodo abuelo del nodo y viceversa. Con `join` es más dificil:
![image](https://user-images.githubusercontent.com/15641721/48666997-3556fa80-eaab-11e8-94d2-dc320be4432a.png)


* **Diferentes usos según las relaciones**: Como se describe en la siguiente imagen:

![](https://image.slidesharecdn.com/titan-biggraphdata-2012-120614135441-phpapp01/95/titan-the-rise-of-big-graph-data-58-728.jpg?cb=1339746823)

Con la relación de padres y hermanos, se puede tener un grafo social, pero si incluimos los gustos de las personas, es posible realizar recomendaciones basado en los gustos de las personas que tienen "*likes*" similares a uno.



# Beneficios

* Soporte para grafos muy grandes. Los grafos de Titan escalan con el número de máquinas en el clúster.

* Soporte para muchas transacciones concurrentes y procesamiento de grafos operacionales. La capacidad transaccional de Titan se amplía con la cantidad de máquinas en el clúster y responde a consultas complejas en grandes grafos en milisegundos.

* Compatibilidad con análisis de grafos globales y procesamiento de grafos por lotes a través del marco de Hadoop.

* Compatibilidad con geo, rango numérico y búsqueda de texto completo de vértices y bordes en gráficos muy grandes.

* Soporte nativo para el popular modelo de datos de gráficos de propiedades expuesto por TinkerPop.

* Soporte nativo para el lenguaje de navegación de grafos de Gremlin.

* Fácil integración con el servidor de gráficos Gremlin para la conectividad independiente del lenguaje de programación.

* Numerosas configuraciones de nivel de gráfico proporcionan mandos para el rendimiento de ajuste.

* Los índices centrados en vértices proporcionan consultas a nivel de vértice para aliviar problemas con el infame problema de supernodo.

* Proporciona una representación de disco optimizada para permitir un uso eficiente del almacenamiento y la velocidad de acceso.

* Código abierto bajo la licencia de Apache 2.


# Titan y Teorema CAP

Recordemos el teorema CAP:

> Un sistema de datos distribuidos pude asegurar, a lo sumo, dos de las siguientes propiedades: fuerte consistencia, alta disponibilidad y tolerancia a particiones.

![](http://s3.thinkaurelius.com/docs/titan/1.0.0/images/titan-captheorem.png)

Como se muestra en la imagen, titan puede con las 3 propiedades **pero no simultaneamente**. Titan es "*backend agnostic*", esto hace referencia a que puede cambiar su *backend* para ajustarse a las necesidades. 

### Titan y Cassandra

Apache Cassandra es una base de datos NoSQL distribuida y basada en un modelo de almacenamiento de «clave-valor». Sus beneficios con titan son: 

* Continuamente disponible sin un solo punto de falla.
* No hay cuellos de botella de lectura / escritura en el grafo
* La escalabilidad elástica permite la introducción y eliminación de máquinas.
* La capa de almacenamiento en caché garantiza que los datos a los que se accede continuamente estén disponibles en la memoria.
* Aumente el tamaño de la memoria caché agregando más máquinas al clúster.
* Integración con Hadoop.


### Titan y HBase

HBase es una base de datos distribuida no relacional de código abierto modelada a partir de Google BigTable. Bigtable es un sistema de almacenamiento distribuido para administrar datos estructurados que está diseñado para escalar a un tamaño muy grande: petabytes de datos en miles de servidores de productos básicos. Los beneficios con titan son:


* Estrecha integración con el ecosistema de Hadoop.
* Soporte nativo para una consistencia fuerte.
* Escalabilidad lineal con la adición de más máquinas.
* Estrictamente consistente en lectura y escritura.
* Clases básicas convenientes para respaldar trabajos de Hadoop MapReduce con tablas HBase.

### Titan y Berkeley DB

Berkeley DB es una librería de manejo de base de datos. Soporta múltiples datos para una misma clave. Berkeley DB permite miles de hilos de control manipulando bases de datos de hasta 256 terabytes en muchos sistemas, incluidos la mayoría de los tipo-UNIX y Windows, e incluso sistemas operativos de tiempo real. Como base de datos no distribuida, es utilizada por Titan para el *testing* y fines de exploración.

# Arquitectura Titan

![](http://s3.thinkaurelius.com/docs/titan/0.5.1/images/titan-architecture-layer-diagram.svg)


La arquitectura modular de Titan le permite interactuar con una amplia gama de tecnologías de almacenamiento, índices y clientes; También facilita el proceso de extensión de Titan para admitir nuevos. Aquí se destaca que las aplicaciones pueden acceder directamente a la API de Titan o pueden recurrir a usar TinkerPop y este realiza toda la comunicación con titan. Al mismo tiempo, se vuelve a ejemplificar que Titan puede tener un backend distinto e incluso puede variar su indexador.

**Nota:** Apache TinkerPop es un framework de computo de grafos para bases de datos de grafos (OLTP) y sistmas de análisis de grafos. (OLAP).


## Arquitectura distribuida

Titan cuenta con 3 diferentes formas :

### Nativa

![](http://s3.thinkaurelius.com/docs/titan/1.0.0/images/titan-modes-distributed.png)


* Se conecta de forma remota o local al clúster
* Puede escalar el tamaño hasta el clúster puede
* Utiliza la API nativa de Titan
* Posible cuello de botella de procesamiento

### Remota 

![](http://s3.thinkaurelius.com/docs/titan/1.0.0/images/titan-modes-rexster.png)

* Pone Rexster (servidor de grafos) en el frente para permitir el acceso a la APi. 
* Se conecta de forma remota al clúster.
* Puede escalar el tamaño en la medida en que el clúster 
* Posible cuello de botella de procesamiento

* **Nota**: Rexster es un servidor de grafos que expone cualquier grafo de Blueprints a través de REST y un protocolo binario llamado RexPro.


### Embebido 

![](http://s3.thinkaurelius.com/docs/titan/1.0.0/images/titan-modes-embedded.png)

* Titan y Rexster corren en cada nodo
* Mejora considerable del rendimiento / escalabilidad.



# Algunas limitaciones

## Espacio posible
Titan soporta un trillón (2^60) de aristas y la mitad en vértices. Esta limitación la impone el esquema de ID que ocupa Titan.

## Busqueda

Obtener una arista por su ID no tiene un tiempo de operación constante es O(log (k)) donde k es el número de bordes incidentes en el vértice adyacente.

## Titan retirado

![image](https://user-images.githubusercontent.com/15641721/48667604-dbf5c800-eab8-11e8-9e35-6faddef44d72.png)

![image](https://user-images.githubusercontent.com/15641721/48667608-e57f3000-eab8-11e8-922f-1d56fd805020.png)

Desde el 2016 no hay commits sobre la implementación de titan, pero ahora existe [JanusGraph](http://janusgraph.org/) que es un *fork* de titan y sigue implementando más mejoras hasta el día de hoy.

# Mini demo con titan

 # Instalación del sistema para correr Gremlin
 
 Google Colab no tiene nada para correr Gremlin, así que instalaremos todo en los servidores de google. No hay que preocuparse por nada porque despues google reiniciará estos servidores.

In [0]:
!add-apt-repository -y ppa:webupd8team/java > /dev/null 2>&1
! echo dd-apt-repository ppa:webupd8team/java ready
    
!apt-get install -qq openjdk-8-jdk > /dev/null
! echo apt-get install openjdk-8-jdk ready

!apt-get update -qq
! echo apt-get update ready


# Descargar Titan

Descargamos la versión más usada de titan (1.0) y la descomprimimos.

In [0]:
!wget http://s3.thinkaurelius.com/downloads/titan/titan-1.0.0-hadoop1.zip
!unzip -q titan-1.0.0-hadoop1.zip 
!rm titan-1.0.0-hadoop1.zip 
!ls

# Ingresar a la carpeta de titán

Accedemos a la carpeta donde descomprimimos titan.

In [0]:
cd titan-1.0.0-hadoop1

# Ejecutar Gremlin

Antes de ejecutarlo, es necesario destaca que el grafo a cargar es el siguiente:

![](http://s3.thinkaurelius.com/docs/titan/1.0.0/images/graph-of-the-gods-2.png)


Es posible apreciar  que hay diferentes relaciones entre los nodos y estos a su vez son **hibridos**, es decir, son de diferentes tipos,hay titanes, dioses, localizaciones, etc. El fin de la siguiente demo es utiizar comandos de busqueda de grafo para explorar este *dataset*. Para empezar, ejecutar la siguiente casilla para abrir Gremlin, esperar a que salga lo siguiente:
```

         \,,,/
         (o o)
-----oOOo-(3)-oOOo-----
plugin activated: aurelius.titan
plugin activated: tinkerpop.server
plugin activated: tinkerpop.utilities
...
plugin activated: tinkerpop.hadoop
plugin activated: tinkerpop.tinkergraph
gremlin> 

```

Luego, dentro de gremlin, ingresar una a una las siguientes líneas:
```
graph = TitanFactory.open('conf/titan-berkeleyje-es.properties')
GraphOfTheGodsFactory.load(graph)
g = graph.traversal()

```

En caso de salir: 

```console
Adding this property for key [~T$SchemaName] and value [rtname] violates a uniqueness constraint [SystemIndex#~T$SchemaName]
```
No preocuparse, solo responder `N` y seguir con el siguiente comando. Luego de ejecutar las 3 líneas, el grafo ya está cargado, por lo tanto podemos realizar las consultas en este. Por ejemplo, se iniciará buscando el nodo **Neptune**, para eso se realiza el siguiente comando:

```
neptune = g.V().has('name', 'neptune').next()
```
Esto, lo que hace es solicitar todos los vertices  (`g.V()`) y luego filtrar por aquel que tenga el nombre 'neptune' (**`has('name', 'neptune')`**). Finalmente se utiliza el **`next()`** para obtener el objeto nodo.


## ¿Como es la sintaxis?

gremlin> g.V().has('name', 'hercules').out('father').out('father').values('name')
==>saturn
La consulta de puede leer como:
1. `g`: para identificar el grafo actual.
2. `V()`: obtener todos los vertices del grafo
3. `has('name', 'hercules')`: filtrar por aquellos vertices cuya property "name" es "hercules".
4. `out('father')`: navegar a los nodos que son "apuntados" por la relación "father" desde el nodo "hercules".
5. `out('father')`: navegar nuevamente a los nodos que son "apuntados" por la relación "father" desde el nodo que antes habíamos llegado.
6. `values('name')`: obtener la propery "name" de los que llegamos.

## Continuar demo

Ahora queremos ver los hermanos de neptune.

> `g.V(neptune).in('brother')`

¿Y si queremos saber sus nombers?

> `g.V(neptune).in('brother').values('name')`


Y si ahora hacemos `g.V(neptune).in('brother').out('lives').in('lives').values('name')` ¿que saldrá?



In [0]:
! bin/gremlin.sh