# Índices en Python

Primero definimos nuestras tablas (esto va a venir de un `.csv`). En este ejemplo tenemos una tabla de **Personas**, otra de **Proyectos** y una relación entre ambas entidades. Cabe destacar que una persona puede trabajar en 0 o 1 proyecto, pero un proyecto puede tener más de una persona.

In [1]:
Personas = [
    (1, 'Persona 1'),
    (5, 'Persona 5'),
    (2, 'Persona 2'),
    (3, 'Persona 3'),
    (10, 'Persona 10'),
    (4, 'Persona 4'),
    (6, 'Persona 6'),
]

Proyectos = [
    (1, 'Proyecto 1'),
    (2, 'Proyecto 2'),
    (3, 'Proyecto 3'),
]

# Formato (id_persona, id_proyecto)
Persona_Proyecto = [
    (1, 1),
    (2, 3),
    (10, 1),
    (5, 2),
    (6, 2),
]

Vamos a ingresar a las personas a un BTree, pero necesitamos encadenar las hojas. Por lo mismo vamos a crear un objeto `NodoBTree`.

Para utilizar un Btree, utilizaremos la librería `BTrees`. Puedes ver la documentación de la librería aquí https://pythonhosted.org/BTrees/

In [2]:
from BTrees.OOBTree import OOBTree

class NodoBTree:
    def __init__(self, _tupla, _siguiente=None):
        self.tupla = _tupla
        self.siguiente = _siguiente
        
    def __str__(self):
        return f'{self.tupla}'
     
t_personas = OOBTree()

for persona in Personas:
    t_personas.update({ persona[0]: NodoBTree(persona) })

# Tenemos que generar una lista con las llaves ordenadas 
# para poder encadenar las hojas
llaves = list(t_personas.keys())
llaves.sort()

# Encadenamos las hojas
for i in range(1, len(llaves)):
    t_personas[llaves[i - 1]].siguiente = t_personas[llaves[i]]
    
# Recorremos el árbol partiendo por la primera persona
persona_actual = t_personas[t_personas.minKey()]
print(persona_actual)
while persona_actual.siguiente:   
    persona_actual = persona_actual.siguiente
    print(persona_actual)

(1, 'Persona 1')
(2, 'Persona 2')
(3, 'Persona 3')
(4, 'Persona 4')
(5, 'Persona 5')
(6, 'Persona 6')
(10, 'Persona 10')


Vamos a repetir el procedimiento para la relación, indexando en un árbol para el `id_persona`.

In [3]:
t_relacion = OOBTree()

for elemento in Persona_Proyecto:
    t_relacion.update({ elemento[0]: NodoBTree(elemento) })
    
# Tenemos que generar una lista con las llaves ordenadas 
# para poder encadenar las hojas
llaves = list(t_relacion.keys())
llaves.sort()

# Encadenamos las hojas
for i in range(1, len(llaves)):
    t_relacion[llaves[i - 1]].siguiente = t_relacion[llaves[i]]

Mientras que los proyectos son indexados con un Hash

In [4]:
h_proyectos = dict()

for proyecto in Proyectos:
    h_proyectos[proyecto[0]] = proyecto
    
# Imprimimos los proyectos
for p_key in h_proyectos.keys():
    print(h_proyectos[p_key])

(1, 'Proyecto 1')
(2, 'Proyecto 2')
(3, 'Proyecto 3')


Ahora escribiremos el algoritmo que hará el *join* entre las tres relaciones.

------
# Actividad - Algoritmos Join

## Esquema 

Para esta actividad trabajaremos con el siguiente esquema:

* Usuarios(<u>id</u>, nombre)
* Favoritos(<u>userId,movieId</u>)
* Peliculas(movieId, title, genres)

Estas tablas se encuentran en los archivos `usuarios.csv`, `favoritos.csv` y `peliculas.csv`, respectivamente. Hay dos versiones de esta base de datos, una pequeña y una grande, almacenadas en las carpetas `small` y `big` respectivamente.


```
SELECT usuarios.nombre, peliculas.titulo, favorito.rating 
FROM usuarios, peliculas, favoritos 
WHERE usuarios.id = favoritos.userId AND favoritos.movieID = peliculas.movieId
```

## Parte 1: Cargar y poblar árboles
La primera parte será para poblar nuestras estrcturas con nuestros datos. En específico deberás realizar los siguiente:

* Cargue los `csv` de acuerdo al esquema, para esta parte puedes usar simplemente los que se encuentran en la carpeta `small`.
* Genere árboles para usuarios y ratings.
* Genere un `Hash` para películas.

In [5]:
# Código que carga los csv
import pandas as pd

usuarios = pd.read_csv("small/usuarios.csv", error_bad_lines=False)   # "big/nombres_b.csv"
favoritos = pd.read_csv("small/favoritos.csv", error_bad_lines=False)  # "big/favoritos.csv"
peliculas = pd.read_csv("small/movies.csv", error_bad_lines=False)   # "big/movies.csv"

# a = [tuple(x) for x in usuarios.values]


In [6]:
# Código que genera los árboles
def relacionar(llaves, tree):
    llaves.sort()
    for i in range(1, len(llaves)):
        tree[llaves[i - 1]].siguiente = tree[llaves[i]]

usuarios_tree = OOBTree()
for index, row in usuarios.iterrows():
    usuarios_tree.update({row.id: NodoBTree((row.id, row.nombre))})
    
relacionar(list(usuarios_tree.keys()), usuarios_tree)
    
favoritos_tree = OOBTree()
for index, row in favoritos.iterrows():
    favoritos_tree.update({row.userID: NodoBTree((row.userID, row.movieId))})
    
relacionar(list(favoritos_tree.keys()), favoritos_tree)



In [7]:
# Código que genera el hash
peliculas_hash = {p.movieId : (p.title, p.genres) for i, p in peliculas.iterrows()}

## Parte 2: Algoritmos
En esta parte, deberás ir programando los algoritmos necesarios para ejecutar la operación `Join` utilizando un BTree. En concreto esto es lo que deberás hacer.

### Parte 2.1: Intersección
Considera las dos listas definidas en el códogo a continuación. Estas listas representan dos relaciones unarias `R` y `S`. Escriba un algoritmo que imprima la intersección entre estas dos tablas, y que pase una sola vez por cada elemento.

In [8]:
R = [1, 2, 3, 6, 7, 10, 11, 12]
S = [1, 2, 4, 8, 10, 13, 14]

# Código que imprime la intersección
# Asumiremos que las listas están ordenadas
r_iterator = iter(R)
s_iterator = iter(S)
current_r = next(r_iterator)
current_s = next(s_iterator)
while r_iterator or s_iterator:
    try:
        if current_r == current_s:
            print(current_r)
            current_r = next(r_iterator)
            current_s = next(s_iterator)
        elif current_r < current_s:
            current_r = next(r_iterator)
        else:
            current_s = next(s_iterator)
    except StopIteration:
        break

1
2
10


### Parte 2.2: Join entre dos relaciones

Extienda el algoritmo anterior para hacer un `Join` entre usuarios y rating en `userId` que solo pase una vez por cada tupla de cada relación

In [9]:
# Código que genera un Join entre usuarios y ratings
# usuarios_tree, favoritos_tree

    
#actual = usuarios_tree[usuarios_tree.minKey()]
#print(actual)
#while actual.siguiente:   
#    actual = actual.siguiente
#    print(persona_actual)
usuario_actual = usuarios_tree[usuarios_tree.minKey()]
favorito_actual = favoritos_tree[favoritos_tree.minKey()]
print("nombre usuario |", "id película favorita")
while usuario_actual and favorito_actual:
    if usuario_actual.tupla[0] < favorito_actual.tupla[0]:
        usuario_actual = usuario_actual.siguiente
    elif usuario_actual.tupla[0] > favorito_actual.tupla[0]:
        favorito_actual = favorito_actual.siguiente
    else:
        print((usuario_actual.tupla[1], favorito_actual.tupla[1]))
        usuario_actual = usuario_actual.siguiente
        favorito_actual = favorito_actual.siguiente




nombre usuario | id película favorita
('Szilard Onillon', 5060)
('Jamaica Ashpole', 131724)
('Norik Climpson', 72378)
('Virginica Sparshott', 4967)
('Shawnna Radnall', 608)
('Fulgencio Mullett', 1084)
('Nevenka Stewert', 49824)
('Adelmo Milson', 597)
('Crystal Rowson', 6044)
('Nathanial Windley', 140110)
('Anouar Cock', 2028)
('Ervin Hartwright', 63992)
('Martires Dingle', 4148)
('Yiying Terow', 784)
('Jalisa Dwyer', 166635)
('Rafa Theophilus', 91529)
('Dame Biggin', 82459)
('Haidee Pares', 185135)
('Nector Rundle', 3839)
('Alvydas Micklewright', 6365)
('Keith Huckel', 173307)
('Tyisha Kearvell', 74789)
('Klaus Pillinger', 8961)
('Shirly Ferns', 139385)
('Matilde McDowall', 187593)
('Cuiying Horracks', 593)
('Chau Reiley', 5060)
('Leyla Levett', 72998)
('Sidiki Hewday', 111759)
('Josimar Trewartha', 122904)
('Oumy Plester', 5060)
('Mariano Faux', 1459)
('Lofti Ashbrood', 2943)
('Amberly Hitchings', 45499)
('Rosina OMaley', 595)
('Monsif Groundwater', 6662)
('Kermit Winkley', 1073)
('Ar

('Hesham Dutton', 66097)
('Ralf Golding', 5575)
('Yanhua Leeves', 4085)
('Cyrille Duffy', 130842)
('Yolonda Anstead', 595)
('Abdelkhalek Perry', 1032)
('Micheline Dancey', 6377)
('Yongjie Handly', 44555)
('Letisha Horracks', 82459)
('Ludivine Morgan', 33794)
('Aime Bramham', 168252)
('Zuleica Lewsky', 170939)
('Messoud Wickens', 1084)
('Hinda Hender', 62081)
('Jonelle Gigney', 597)
('Gerlinde Joslin', 79132)
('Mirjam Gatley', 56949)
('Raissa Baskerville', 112556)
('Haiou Pudsey', 166528)
('Viviane Worledge', 5060)
('Andere Cockett', 6460)
('Vinod Aconley', 708)
('Salete Barry', 2935)
('Inca Fildes', 128360)
('Chunling Timmis', 187595)
('Lauro William', 99114)
('Elenore Bromiley', 46976)
('Aragones Hindle', 187541)
('Polonio Geddis', 156387)
('Eufemia Saxton', 98961)
('Maryann Bricker', 62956)
('Ascencion Yard', 81845)
('Zurine Denyer', 5063)
('Abdourahmane Such', 5445)
('Garnik Lichfield', 136469)
('Eduard Messer', 79132)
('Eustoquio Diver', 94959)
('Pool Mullard', 6349)
('Isamael Cary

# Parte 3: Programando una consulta

Ahora, extenderemos nuestros `Joins` programados para que tengan la capacidad de realizar consultas como en `sql`. Deberán poder realizar la siguiente consulta:

```
SELECT usuarios.nombre, favoritos.userId, favoritos.movieID, pelicula.titulos 
FROM usuarios, peliculas, favoritos 
WHERE usuarios.id = favoritos.userId AND favoritos.movieID = peliculas.movieId
```

Lo que deben programar es la funcion `join_tablas(usuarios,peliculas,favoritos)`, que reciba las tres estructuras creadas inicialmente (los árboles y el hash), y retorne una lista de de tuplas. 
Cada tupla debe ser de la forma `(nombre_usuario, userId, movieID, titulo_película)`. La idea es que se utilice el *hash join* para extender la información de cada pelicula con la que hace match.

In [10]:
# Aquí deberían crear la función join_tablas(usuarios,peliculas,favoritos):

def join_tablas(usuarios_tree, peliculas_hash, favoritos_tree):
    
    usuario_actual = usuarios_tree[usuarios_tree.minKey()]
    favorito_actual = favoritos_tree[favoritos_tree.minKey()]
    ret = []
    while usuario_actual and favorito_actual:
        if favorito_actual.tupla[1] in peliculas_hash and usuario_actual.tupla[0] == favorito_actual.tupla[0]:
            # (nombre_usuario, userId, movieID, titulo_película)
            ret.append(
                (usuario_actual.tupla[1], usuario_actual.tupla[0], favorito_actual.tupla[1], 
                 peliculas_hash[favorito_actual.tupla[1]][0])
            )
            usuario_actual = usuario_actual.siguiente
            favorito_actual = favorito_actual.siguiente
        elif usuario_actual.tupla[0] < favorito_actual.tupla[0]:
            usuario_actual = usuario_actual.siguiente
        else:
            favorito_actual = favorito_actual.siguiente
    return ret

In [11]:
# Sección para probar el output de su función

retorno_consulta = join_tablas(usuarios_tree, peliculas_hash, favoritos_tree)
print(retorno_consulta)

[('Szilard Onillon', 1, 5060, 'M*A*S*H (a.k.a. MASH) (1970)'), ('Jamaica Ashpole', 2, 131724, 'The Jinx: The Life and Deaths of Robert Durst (2015)'), ('Norik Climpson', 3, 72378, '2012 (2009)'), ('Virginica Sparshott', 4, 4967, "No Man's Land (2001)"), ('Shawnna Radnall', 5, 608, 'Fargo (1996)'), ('Fulgencio Mullett', 6, 1084, 'Bonnie and Clyde (1967)'), ('Nevenka Stewert', 7, 49824, 'Dreamgirls (2006)'), ('Adelmo Milson', 8, 597, 'Pretty Woman (1990)'), ('Crystal Rowson', 9, 6044, 'Blind Date (1984)'), ('Nathanial Windley', 10, 140110, 'The Intern (2015)'), ('Anouar Cock', 11, 2028, 'Saving Private Ryan (1998)'), ('Ervin Hartwright', 12, 63992, 'Twilight (2008)'), ('Martires Dingle', 13, 4148, 'Hannibal (2001)'), ('Yiying Terow', 14, 784, 'Cable Guy, The (1996)'), ('Jalisa Dwyer', 15, 166635, 'Passengers (2016)'), ('Rafa Theophilus', 16, 91529, 'Dark Knight Rises, The (2012)'), ('Dame Biggin', 17, 82459, 'True Grit (2010)'), ('Haidee Pares', 18, 185135, 'Sherlock - A Study in Pink (2

## Parte 4: Nested Loop Join

Por último, en esta sección queremos que programen la misma consulta anterior pero con un *Nested Loop Join*. Su código debería verse de esta forma:

```python
for usuario in usuarios:
    for favorito in favoritos: 
        for pelicula in peliculas: 
```

Creen la función `nested_loop_join(usuarios, peliculas, favoritos)`. Esta función debería recibir una lista de usuarios, de películas y de favoritos. Debe retornar una lista de tuplas donde cada tupla debe ser de la forma `(nombre_usuario, userId, movieID, titulo_película)`.


In [12]:
# Aquí deberían crear la función:

# función de la forma más básica posible
def nested_loop_join(usuarios, peliculas, favoritos):
    ret = []
    for usuario in usuarios:
        for favorito in favoritos:
            for pelicula in peliculas: 
                if usuario[0] == favorito[0] and pelicula[0] == favorito[1]:
                    ret.append((usuario[1], usuario[0], pelicula[0], pelicula[1]))
    return ret

# una forma también básica, con un poco de lógica para comparar menos tuplas
def nested_loop_join_2(usuarios, peliculas, favoritos):
    ret = []
    for usuario in usuarios:
        for favorito in favoritos:
            if usuario[0] == favorito[0]:
                for pelicula in peliculas: 
                    if pelicula[0] == favorito[1]:
                        ret.append((usuario[1], usuario[0], pelicula[0], pelicula[1]))
    return ret

# Parte 5: Discusión

Para esta sección debes discutir dos cosas:

1. Debes comparar el tiempo de ejecución que demora la función `nested_loop_join` con respecto a la función `join_tablas`. Primero debes considerar que los índices ya están creados para luego comparar los tiempos de ejecución considerando que tu *Join* primero crea los índices y después computa el resultado. Asegúrate de hacer este experimento con ambos datasets.

2. Considerando el tiempo que demoran los índices en crearse, ¿Por qué crees que los sistemas de bases de datos usan estas técnicas basadas en índices para computar consultas?

Para tomar el tiempo de ejecución, recuerden que puedes utilizar la librería `time` de `Python` 🐍.

In [13]:
# Código y discusión
# Pueden agregar todas las casillas que quieran para desarrollar esta parte

In [14]:
# 1)
from timeit import default_timer as timer

# tiempo de ejecución sin crear los índices

users = list(map(tuple, usuarios.values))
movies = list(map(tuple, peliculas.values))
favorites = list(map(tuple, favoritos.values))

# RECOMIENDO NO DESCOMENTAR NI EJECUTAR, ES MUUUUUUUUUUUUY LENTO (> 10 minutos)
#start = timer()
#nested_loop_join(users, movies, favorites)
#end = timer()
#print("tiempo ejecución nested_loop_join:", end - start)

start = timer() 
nested_loop_join_2(users, movies, favorites)
end = timer() 
print("tiempo ejecución nested_loop_join_2:", end - start)

start = timer() 
join_tablas(usuarios_tree, peliculas_hash, favoritos_tree)
end = timer() 
print("tiempo ejecución join_tablas:", end - start)


tiempo ejecución nested_loop_join_2: 5.9060476999999985
tiempo ejecución join_tablas: 0.0041886999999967145


In [15]:
# tiempo de ejecución creando índices

# RECOMIENDO NO DESCOMENTAR NI EJECUTAR, ES MUUUUUUUUUUUUY LENTO (> 10 minutos)
#start = timer()
#nested_loop_join(users, movies, favorites)
#end = timer()
#print("tiempo ejecución nested_loop_join:", end - start)

start = timer()
nested_loop_join_2(users, movies, favorites)
end = timer() 
print("tiempo ejecución nested_loop_join_2:", end - start)

start = timer()
# crear índices
usuarios_tree = OOBTree()
for index, row in usuarios.iterrows():
    usuarios_tree.update({row.id: NodoBTree((row.id, row.nombre))}) 
relacionar(list(usuarios_tree.keys()), usuarios_tree)
favoritos_tree = OOBTree()
for index, row in favoritos.iterrows():
    favoritos_tree.update({row.userID: NodoBTree((row.userID, row.movieId))})   
relacionar(list(favoritos_tree.keys()), favoritos_tree)
peliculas_hash = {p.movieId : (p.title, p.genres) for i, p in peliculas.iterrows()}
# ejecutar
join_tablas(usuarios_tree, peliculas_hash, favoritos_tree)
end = timer() 
print("tiempo ejecución join_tablas:", end - start)


tiempo ejecución nested_loop_join_2: 6.729810400000002
tiempo ejecución join_tablas: 5.5220829999999985


2) 
Como se puede apreciar con los resultados, realizar un nested loop join siempre es muy costoso de ejecutar. Si bien utilizando un buffer, podría ocurrir que el tiempo de ejecución del nested loop join fuera menor al tiempo total del join con B+ Tree + hash (ejecución + tiempo que se tarda en crear los índices), los sistemas de bases de datos utilizan estos sistemas pues no deben crear los índices cada vez que se realice una consulta. Lo anterior, nos permite que en la mayoría de los casos (para las consultas que están diseñadas estos índices, que debieran ser las más comunes) sólo debamos considerar el tiempo de ejecución, el cuál es notoriamente menor al tiempo en que se tardan en crear los índices. 