##Metodología

### Sobre el Dataset
El dataset fue obtenido, el día 25 de junio del 2015, del servicio de libros electónicos "Cambridge Books Online" creado por la "Cambridge University Press (CUP)" la casa editorial más antigua y la segunda editorial universitaria más grande en el mundo después de la Editorial de la Universidad de Oxford. Este conjunto de datos  http://ebooks.cambridge.org/download?f=titlelist_csv&prodCode=CBO&type=titlelist contiene 20242 registros de los cuales luego con la herramienta de hoja de cálculo Libre Office Calc:
1. Se filtraron unicamente aquellos que pertenecen a la categoría de "Ciencias de la Computación" para luego obtener un dataset definitivo de 297 títulos y 3 columnas (Titulo del libro, Categría y Subcategoría).
2. Se realizó la limpieza de algunos datos, especialmente en lo que tiene que ver con la eliminación de espacios duplicados.

![Dataset](./images/small_dataset.png)

##Conclusiones y Resultados

* La librería python para Análisis de Datos Pandas permite procesar cómodamente datos jerárquicos
* Al aplicar el patron Child References se tuvo problemas de repetición de datos en el segundo nivel del árbol

##Trabajos Futuros

* Automatizar el proceso de inserción de la estructura arbol en la base de datos MongoDB utilizando por ejemplo la libreria ete2

In [2]:
# Basic alternative:
"""
import csv
data = list()
with open(file='./datasets/cambridge-cs-titles.csv') as f:
    r = csv.reader(f)
    data = [row for row in r]
"""

In [3]:
import pandas as pd

In [4]:
data = pd.read_csv('datasets/cambridge-cs-titles.csv')

In [72]:
data[:10]

Unnamed: 0,MainSubject,SubSubject,Title,eISBN
0,Computer science,Knowledge management,Sentiment Analysis,9781139084789
1,Computer science,Social,Twitter: A Digital Socioscope,9781316182635
2,Computer science,Social,Design and Development of Training Games,9781107280137
3,Computer science,Computer hardware,Workload Modeling for Computer Systems Perform...,9781139939690
4,Computer science,Algorithmics,A Computational Introduction to Number Theory ...,9780511814549
5,Computer science,Algorithmics,Flexible Pattern Matching in Strings,9781316135228
6,Computer science,Knowledge management,Mining of Massive Datasets,9781139924801
7,Computer science,General computer science,The Computing Universe,9781139032643
8,Computer science,Artificial intelligence and natural language p...,Principles of Automated Negotiation,9780511751691
9,Computer science,Programming languages and applied logic,Thinking Functionally with Haskell,9781316092415


###Database access

In [2]:
from pymongo import MongoClient

In [30]:
# Usando una instancia local de la BD
# client = MongoClient('mongodb://localhost:27017')
# Usando mongodblab cloud
client = MongoClient('mongodb://miltonlab:1000tonlab@ds047792.mongolab.com:47792/biblioteca')

In [31]:
db = client['biblioteca']

In [28]:
from timeit import Timer

![Ejemplo estructura](http://docs.mongodb.org/manual/_images/data-model-tree.png)

##Model Tree Structures with Parent References (Parent Links)
Almacena cada nodo del árbol en un documento; adicionalmente a la información del nodo del árbol el documento almacena el 'id' del nodo padre.

In [37]:
def test_parent_references():
    db.subjects.drop()
    #subsubject = data['Sub-Subject'].astype('category')
    # Store titles (leafts)
    titles = data[['SubSubject', 'Title', 'eISBN']]
    for i, row in titles.iterrows():
        db.subjects.insert( {'_id': row['eISBN'], 'name': row['Title'], 'parent': row['SubSubject']} )
    # Store SubSubject (level 3)
    grouped = data.groupby(['MainSubject', 'SubSubject'])
    for (mainsubject, subsubject), group in grouped:
        db.subjects.insert( {'_id': subsubject, 'parent': mainsubject} )
    # Store MainSubject (level 2). Not necesary categorize but usefull in the future
    mainsubjects = data['MainSubject'].astype('category').cat.categories
    for mainsubject in mainsubjects: 
        db.subjects.insert( {'_id': mainsubject, 'parent': 'eBooks Cambridge'})

In [7]:
def test_parent_references_old():
    bd.categorias.drop()
    bd.categorias.insert( { '_id': "MongoDB", 'parent': "Databases" } ) 
    bd.categorias.insert( { '_id': "dbm", 'parent': "Databases" } ) 
    bd.categorias.insert( { '_id': "Databases", 'parent': "Programming" } ) 
    bd.categorias.insert( { '_id': "Languages", 'parent': "Programming" } ) 
    bd.categorias.insert( { '_id': "Programming", 'parent': "Books" } ) 
    bd.categorias.insert( { '_id': "Books", 'parent': None } )

In [38]:
t = Timer(lambda: test_parent_references())
time = t.timeit(number=1)
print('%.2f ' % time)

48.71 


| Pros        | Cons           
| ------------- |:-------------:|
| Consulta para recuperar el padre de un nodo más rápida y sencilla|   |
| Provee una solución simple para el almacenamiento | Se requiere múltimples consultas para recuperar subárboles|
| Se puede crear un índice sobre el campo 'parent' para permitir búsquedas rápidas |       |
|||
|Se puede consultar por el campo 'parent' para encontrar inmediatamente los nodos hijos |       |

### TODO: Cambiar el resto del patrón de acuerdo al nuevo modelo de datos

In [25]:
bd.categorias.find_one({'_id': 'MongoDB'}).get('parent')

'Databases'

In [29]:
bd.categorias.create_index('parent')

'parent_1'

In [31]:
cursor = bd.categorias.find({'parent' : 'Databases'})
for c in cursor:
    print(c)

{'_id': 'MongoDB', 'parent': 'Databases'}
{'_id': 'dbm', 'parent': 'Databases'}


##Model Tree Structures with Child References

El patrón "Child References" almacena cada nodo del árbol en un documento; adicionalmente a la información del nodo de árbol, el documento almacena en un arreglo los id(s) de los nodos hijos.

In [26]:
def test_child_references():
    db.subjects.drop()
    # Store titles (leafts) whitout chlidren
    titles = data[['Title', 'eISBN']]
    for i, row in titles.iterrows():
        db.subjects.insert( {'_id': row['eISBN'], 'name': row['Title'], 'children': []} )
    # Store the subsubject with your title children
    grouping1 = data[['SubSubject', 'eISBN']].groupby(['SubSubject'])
    for subsubject, group in grouping1:
        db.subjects.insert( { "_id": subsubject, "children": group['eISBN'].values.tolist()})
    # Store the mainsubject with your subsubject children
    mainsubject = data['MainSubject'].astype('category').cat.categories[0]
    subsubjects = data['SubSubject'].astype('category').cat.categories.tolist()
    db.subjects.insert( { "_id": mainsubject, "children": subsubjects})
    # Store the root with MainSubject children. Not necesary categorize but usefull in the future
    ###mainsubjects = data['MainSubject'].astype('category').cat.categories.tolist()
    db.subjects.insert( {'_id': 'eBooks Cambridge', 'children': [mainsubject]})

###TODO: Cambiar el resto del patrón de acuerdo al nuevo modelo de datos

In [9]:
def test_child_references_old():
    bd.categorias.drop()
    bd.categorias.insert( { "_id": "MongoDB", "children": [] } ) 
    bd.categorias.insert( { "_id": "dbm", "children": [] } ) 
    bd.categorias.insert( { "_id": "Databases", "children": ["MongoDB", "dbm"] } ) 
    bd.categorias.insert( { "_id": "Languages", "'children": [] } ) 
    bd.categorias.insert( { "_id": "Programming", "children": ["Databases", "Languages"] } ) 
    bd.categorias.insert( { "_id": "Books", "children": ["Programming"] } )

In [32]:
t = Timer(lambda: test_child_references())
time = t.timeit(number=1)
print('%.2f ' % time)

32.98 


| Pros        | Cons           
| ------------- |:-------------:|
| La consulta para recuperar los hijos inmediatos de un nodo es más rápida y sencilla |   |
| Se puede crear un índice sobre el campo 'children' para permitir búsquedas rápidas por los nodos hijos| |
| Se puede consultar por un nodo en el campo 'children' para encontrar su *nodo padre así como sus nodos hermanos* |       |
|||
|Provee una solución adecuada para almacenamiento de árboles siempre y cuando no sean necesarias las operaciones en subárboles||
|Puede proveer una solución adecuada para almacenar grafos donde un nodo puede tener múltiples padres||

In [32]:
bd.categorias.find_one( { "_id": "Databases" } ).get("children")

['MongoDB', 'dbm']

In [34]:
bd.categorias.create_index("children")

'children_1'

In [37]:
cursor = bd.categorias.find( { "children": "MongoDB" } )
for c in cursor:
    print(c)

{'_id': 'Databases', 'children': ['MongoDB', 'dbm']}


##Model Tree Structures with an Array of Ancestor

El patrón "Arreglo de Ancestros" almacena cada nodo del árbol en un documento; adicionalmente al nodo de árbol, el documento almacena en un arreglo los id(s) de los nodos ancestros o camino.

#TODO: AQUI

In [None]:
def test_array_ancestors()
    pass

In [11]:
def test_array_ancestor_old():
    bd.categorias.drop()
    bd.categorias.insert( { "_id": "MongoDB", "ancestors": [ "Books", "Programming", "Databases" ], "parent": "Databases" } )
    bd.categorias.insert( { "_id": "dbm", "ancestors": [ "Books", "Programming", "Databases" ], "parent": "Databases" } )
    bd.categorias.insert( { "_id": "Databases", "ancestors": [ "Books", "Programming" ], "parent": "Programming" } )
    bd.categorias.insert( { "_id": "Languages", "ancestors": [ "Books", "Programming" ], "parent": "Programming" } )
    bd.categorias.insert( { "_id": "Programming", "ancestors": [ "Books" ], "parent": "Books" } )
    bd.categorias.insert( { "_id": "Books", "ancestors": [ ], "parent": None } )

In [12]:
t = Timer(lambda: test_array_ancestor())
time = t.timeit(number=10)
print('%.2f ' % time)

15.69 


| Pros        | Cons           
| ------------- |:-------------:|
| | Adicionalmente al campo "ancestors" se necesita almacenar la referencia a la categoría del padre inmediata en el campo 'parent' |
| La consulta para recuperar los ancestros o el camino de un nodo es rápida y sencilla| |
| Se puede crear un índice sobre el campo 'ancestors' para permitir búsquedas rápidas por los nodos ancestros|       |
|Se puede consultar por el campo 'ancestros' para encontrar todos sus **descendientes**||
|||
|El patrón "Array of Ancestors" provee una solución rápida y eficiente para encontrar todos los descendientes y los ancestros de un nodo creando un índice sobre los elementos del campo 'ancestors'. Esto hace a este patrón una buena elección para trabajar con subárboles ||
||Este patrón es ligeramente más lento que el patrón "Materialized Paths" pero es más sencillo de usar|

In [14]:
bd.categorias.find_one( { "_id": "MongoDB" } ).get("ancestors")

['Books', 'Programming', 'Databases']

In [15]:
bd.categorias.create_index("ancestors")

'ancestors_1'

In [17]:
cursor = bd.categorias.find( { "ancestors": "Programming" } )
for c in cursor:
    print(c)

{'_id': 'MongoDB', 'parent': 'Databases', 'ancestors': ['Books', 'Programming', 'Databases']}
{'_id': 'dbm', 'parent': 'Databases', 'ancestors': ['Books', 'Programming', 'Databases']}
{'_id': 'Databases', 'parent': 'Programming', 'ancestors': ['Books', 'Programming']}
{'_id': 'Languages', 'parent': 'Programming', 'ancestors': ['Books', 'Programming']}


##Model Tree Structures with Materialized Paths

Este patrón almacena cada nodo del árbol en un documento; adicionalmente al nodo de árbol, el documento almacena en forma de un string los ids(s) de los nodos ancestros o camino. 
Aunque el patrón "Materialized Paths" requiere pasos adicionales de trabajo con strings y expresiones regulares, el patrón también provee más flexibilidad en el trabajo con el camino, tales como la búsqueda de nodos por caminos parciales. 

In [21]:
def test_materialized_paths():
    bd.categorias.drop()
    bd.categorias.insert( { "_id": "Books", "path": None } )
    bd.categorias.insert( { "_id": "Programming", "path": ",Books," } )
    bd.categorias.insert( { "_id": "Databases", "path": ",Books,Programming," } )
    bd.categorias.insert( { "_id": "Languages", "path": ",Books,Programming," } )
    bd.categorias.insert( { "_id": "MongoDB", "path": ",Books,Programming,Databases," } )
    bd.categorias.insert( { "_id": "dbm", "path": ",Books,Programming,Databases," } )


In [22]:
t = Timer(lambda: test_materialized_paths())
time = t.timeit(number=10)
print('%.2f ' % time)

10.06 


| Pros        | Cons           
| ------------- |:-------------:|
| Se puede realizar la consulta para recuperar ordenàndolo por el campo 'path' |  |
| Se puede usar expresiones regulares sobre el campo 'path' para encontrar por ejemplo los descendientes de un nodo | |
| Se puede crear un índice sobre el campo 'path'|       |
| Las consultas sobre el índice mejorarán significativamente o aparotarán alguna mejora dependiendo del tamaño que tenga el índice: mientras más pequeño más rápida será la consulta (**TODO: Probar 2 casos**) ||

In [40]:
cursor = bd.categorias.find().sort("path")
for c in cursor:
    print(c)

{'_id': 'Books', 'path': None}
{'_id': 'Programming', 'path': ',Books,'}
{'_id': 'Databases', 'path': ',Books,Programming,'}
{'_id': 'Languages', 'path': ',Books,Programming,'}
{'_id': 'MongoDB', 'path': ',Books,Programming,Databases,'}
{'_id': 'dbm', 'path': ',Books,Programming,Databases,'}


In [49]:
cursor = bd.categorias.find( { "path": {"$regex": r",Programming," }} )
for c in cursor:
    print(c)
print('---------')
cursor = bd.categorias.find( { "path": {"$regex": r"^,Books," }} )
for c in cursor:
    print(c)    

{'_id': 'Databases', 'path': ',Books,Programming,'}
{'_id': 'Languages', 'path': ',Books,Programming,'}
{'_id': 'MongoDB', 'path': ',Books,Programming,Databases,'}
{'_id': 'dbm', 'path': ',Books,Programming,Databases,'}
---------
{'_id': 'Programming', 'path': ',Books,'}
{'_id': 'Databases', 'path': ',Books,Programming,'}
{'_id': 'Languages', 'path': ',Books,Programming,'}
{'_id': 'MongoDB', 'path': ',Books,Programming,Databases,'}
{'_id': 'dbm', 'path': ',Books,Programming,Databases,'}


In [50]:
bd.categorias.create_index("path")

'path_1'

###Model Tree Structures with Nested Sets

![Nested Sets](http://docs.mongodb.org/manual/_images/data-model-example-nested-set.png)

El patrón "Nested Sets" identifica cada nodo en el árbol como señales "pare" en un recorrido de ida y vuelta del árbol. 
La aplicación visita cada nodo en el árbol 2 veces; la primera durate el viaje inicial y la segunda durante el viaje de retorno. 
Este patrón almacena cada nodo del árbol en un documento; adicionalmente a la información del nodo del árbol el documento almacena el id del nodo padre, los nodos parada inicial el campo **left** y parada de retorno en el campo **right**. Es adecuado para árboles estáticos que no cambian.

In [59]:
def test_nested_sets():
    bd.categorias.drop()
    bd.categorias.insert( { "_id": "Books", "parent": 0, "left": 1, "right": 12 } )
    bd.categorias.insert( { "_id": "Programming", "parent": "Books", "left": 2, "right": 11 } )
    bd.categorias.insert( { "_id": "Languages", "parent": "Programming", "left": 3, "right": 4 } )
    bd.categorias.insert( { "_id": "Databases", "parent": "Programming", "left": 5, "right": 10 } )
    bd.categorias.insert( { "_id": "MongoDB", "parent": "Databases", "left": 6, "right": 7 } )
    bd.categorias.insert( { "_id": "dbm", "parent": "Databases", "left": 8, "right": 9 } )


In [60]:
t = Timer(lambda: test_nested_sets())
time = t.timeit(number=10)
print('%1.2f ' % time)

7.19 


In [65]:
categoria = bd.categorias.find_one( { "_id": "Databases" } )
cursor =  bd.categorias.find( {"left" : {"$gt": categoria["left"] }, 
                               "right": {"$lt": categoria["right"]}}
                             )
                  
for c in cursor:
    print(c)

{'right': 7, 'parent': 'Databases', 'left': 6, '_id': 'MongoDB'}
{'right': 9, 'parent': 'Databases', 'left': 8, '_id': 'dbm'}


| Pros        | Cons           
| ------------- |:-------------:|
| Provee una solució rápida y eficiente para la encontrar subárboles |  |
| | Ineficiente cuando se trarta de operaciones de modificación del árbol|
