# Índices en Python

Primero definimos nuestras tablas (esto va a venir de un `.csv`). En este ejemplo tenemos una tabla de **Personas**, otra de **Proyectos** y una relación entre ambas entidades. Cabe destacar que una persona puede trabajar en 0 o 1 proyecto, pero un proyecto puede tener más de una persona.

In [4]:
Personas = [
    (1, 'Persona 1'),
    (5, 'Persona 5'),
    (2, 'Persona 2'),
    (3, 'Persona 3'),
    (10, 'Persona 10'),
    (4, 'Persona 4'),
    (6, 'Persona 6'),
]

Proyectos = [
    (1, 'Proyecto 1'),
    (2, 'Proyecto 2'),
    (3, 'Proyecto 3'),
]

# Formato (id_persona, id_proyecto)
Persona_Proyecto = [
    (1, 1),
    (2, 3),
    (10, 1),
    (5, 2),
    (6, 2),
]

Vamos a ingresar a las personas a un BTree, pero necesitamos encadenar las hojas. Por lo mismo vamos a crear un objeto `NodoBTree`.

Para utilizar un Btree, utilizaremos la librería `BTrees`. Puedes ver la documentación de la librería aquí https://pythonhosted.org/BTrees/

In [5]:
from BTrees.OOBTree import OOBTree

class NodoBTree:
    def __init__(self, _tupla, _siguiente=None):
        self.tupla = _tupla
        self.siguiente = _siguiente
        
    def __str__(self):
        return f'{self.tupla}'
     
t_personas = OOBTree()

for persona in Personas:
    t_personas.update({ persona[0]: NodoBTree(persona) })

# Tenemos que generar una lista con las llaves ordenadas 
# para poder encadenar las hojas
llaves = list(t_personas.keys())
llaves.sort()

# Encadenamos las hojas
for i in range(1, len(llaves)):
    t_personas[llaves[i - 1]].siguiente = t_personas[llaves[i]]
    
# Recorremos el árbol partiendo por la primera persona
persona_actual = t_personas[t_personas.minKey()]
print(persona_actual)
while persona_actual.siguiente:   
    persona_actual = persona_actual.siguiente
    print(persona_actual)

(1, 'Persona 1')
(2, 'Persona 2')
(3, 'Persona 3')
(4, 'Persona 4')
(5, 'Persona 5')
(6, 'Persona 6')
(10, 'Persona 10')


Vamos a repetir el procedimiento para la relación, indexando en un árbol para el `id_persona`.

In [6]:
t_relacion = OOBTree()

for elemento in Persona_Proyecto:
    t_relacion.update({ elemento[0]: NodoBTree(elemento) })
    
# Tenemos que generar una lista con las llaves ordenadas 
# para poder encadenar las hojas
llaves = list(t_relacion.keys())
llaves.sort()

# Encadenamos las hojas
for i in range(1, len(llaves)):
    t_relacion[llaves[i - 1]].siguiente = t_relacion[llaves[i]]
    


Mientras que los proyectos son indexados con un Hash

In [7]:
h_proyectos = dict()

for proyecto in Proyectos:
    h_proyectos[proyecto[0]] = proyecto
    
# Imprimimos los proyectos
for p_key in h_proyectos.keys():
    print(h_proyectos[p_key])

(1, 'Proyecto 1')
(2, 'Proyecto 2')
(3, 'Proyecto 3')


Ahora escribiremos el algoritmo que hará el *join* entre las tres relaciones.

------
# Actividad - Algoritmos Join

## Esquema 

Para esta actividad trabajaremos con el siguiente esquema:

* Usuarios(<u>id</u>, nombre)
* Favoritos(<u>userId,movieId</u>)
* Peliculas(movieId, title, genres)

Estas tablas se encuentran en los archivos `usuarios.csv`, `favoritos.csv` y `peliculas.csv`, respectivamente. Hay dos versiones de esta base de datos, una pequeña y una grande, almacenadas en las carpetas `small` y `big` respectivamente.


```
SELECT usuarios.nombre, peliculas.titulo, favorito.rating 
FROM usuarios, peliculas, favoritos 
WHERE usuarios.id = favoritos.userId AND favoritos.movieID = peliculas.movieId
```

## Parte 1: Cargar y poblar árboles
La primera parte será para poblar nuestras estrcturas con nuestros datos. En específico deberás realizar los siguiente:

* Cargue los `csv` de acuerdo al esquema, para esta parte puedes usar simplemente los que se encuentran en la carpeta `small`.
* Genere árboles para usuarios y ratings.
* Genere un `Hash` para películas.

In [8]:
# Código que carga los csv
import inspect


import os
datos = dict()


for archivo in os.listdir("small"):
    print(archivo)
    
movies = []
archivo = "movies.csv"
with open (f"small/{archivo}") as file:
    file.__next__()
    for line in file:
        lista = line.rstrip().split(",")
        movies.append((int(lista[0]),lista[1],lista[2]))
        
usuarios = []
archivo = "usuarios.csv"
with open (f"small/{archivo}") as file:
    file.__next__()
    for line in file:
        lista = line.rstrip().split(",")
        usuarios.append((int(lista[0]),lista[1]))
        
favoritos = []
archivo = "favoritos.csv"
with open (f"small/{archivo}") as file:
    file.__next__()
    for line in file:
        lista = line.rstrip().split(",")
        favoritos.append((int(lista[0]),int(lista[1])))


favoritos.csv
usuarios.csv
movies.csv


In [29]:


def crear_arbol(tree,weas):
    for wea in weas:
        tree.update({ wea[0]: NodoBTree(wea) })
    # Tenemos que generar una lista con las llaves ordenadas 
    # para poder encadenar las hojas
    llaves = list(tree.keys())
    llaves.sort()
# Encadenamos las hojas
    for i in range(1, len(llaves)):
        tree[llaves[i - 1]].siguiente = tree[llaves[i]]
def recorrer_arbol (tree):
    actual = tree[tree.minKey()]
    while actual.siguiente:
        actual = actual.siguiente
        print(actual)
            
t_movies = OOBTree()   
crear_arbol (t_movies,movies)
#recorrer (t_movies)
t_usuarios = OOBTree()   
crear_arbol (t_usuarios,usuarios)
#recorrer (t_usuarios)
t_favoritos = OOBTree()   
crear_arbol (t_favoritos,favoritos)

In [42]:
def hashear(weas):
    h_weas = dict()
    for wea in weas:
        h_weas[wea[0]] = wea
    return h_weas
def recorrer_hash(h_weas,t_weas):
    # Imprimimos los proyectos
    for p_key in t_weas.keys():
        
        print(h_weas[p_key])
h_movies = hashear (movies) 
h_usuarios = hashear (usuarios)
h_favoritos = hashear (favoritos)




## Parte 2: Algoritmos
En esta parte, deberás ir programando los algoritmos necesarios para ejecutar la operación `Join` utilizando un BTree. En concreto esto es lo que deberás hacer.

### Parte 2.1: Intersección
Considera las dos listas definidas en el códogo a continuación. Estas listas representan dos relaciones unarias `R` y `S`. Escriba un algoritmo que imprima la intersección entre estas dos tablas, y que pase una sola vez por cada elemento.

In [None]:
import time

In [9]:
## opcion 1 
time_init = time.time()
R = [1, 2, 3, 6, 7, 10, 11, 12]
S = [1, 2, 4, 8, 10, 13, 14]

r=0
s=0
join = []
while True:
    if S[s] == R[r]:
        join.append(S[s])
        s += 1

    elif S[s] < R[r]:
        s += 1
    elif R[r] < S[s]:
        r+=1
    if r == len(R) or s == len(S):
        break
time_fin = time.time()
print(join)
print(time_fin-time_init)


[1, 2, 10]
0.0004868507385253906


In [10]:
## opcion 2
time_init = time.time()
R = [1, 2, 3, 6, 7, 10, 11, 12]
S = [1, 2, 4, 8, 10, 13, 14]
R = set(R)
S = set(S) 
list(R.intersection(S))
time_fin = time.time()
print(join)
print(time_fin-time_init)

[1, 2, 10]
0.0003409385681152344


### Parte 2.2: Join entre dos relaciones

Extienda el algoritmo anterior para hacer un `Join` entre usuarios y rating en `userId` que solo pase una vez por cada tupla de cada relación

In [None]:
# Código que genera un Join entr

# Parte 3: Programando una consulta

Ahora, extenderemos nuestros `Joins` programados para que tengan la capacidad de realizar consultas como en `sql`. Deberán poder realizar la siguiente consulta:

```
SELECT usuarios.nombre, favoritos.userId, favoritos.movieID, pelicula.titulos 
FROM usuarios, peliculas, favoritos 
WHERE usuarios.id = favoritos.userId AND favoritos.movieID = peliculas.movieId
```

Lo que deben programar es la funcion `join_tablas(usuarios,peliculas,favoritos)`, que reciba las tres estructuras creadas inicialmente (los árboles y el hash), y retorne una lista de de tuplas. 
Cada tupla debe ser de la forma `(nombre_usuario, userId, movieID, titulo_película)`. La idea es que se utilice el *hash join* para extender la información de cada pelicula con la que hace match.

In [None]:
##Aquí deberían crear la función:
def join_tablas(usuarios,peliculas,favoritos):
    


In [None]:
# Sección para probar el output de su función

# retorno_consulta = join_tablas(usuarios,peliculas,favoritos)
# print(retorno_consulta)

## Parte 4: Nested Loop Join

Por último, en esta sección queremos que programen la misma consulta anterior pero con un *Nested Loop Join*. Su código debería verse de esta forma:

```python
for usuario in usuarios:
    for favorito in favoritos: 
        for pelicula in peliculas: 
```

Creen la función `nested_loop_join(usuarios, peliculas, favoritos)`. Esta función debería recibir una lista de usuarios, de películas y de favoritos. Debe retornar una lista de tuplas donde cada tupla debe ser de la forma `(nombre_usuario, userId, movieID, titulo_película)`.


In [None]:
# Aquí deberían crear la función:
def nested_loop_join(usuarios,peliculas,favoritos):
    for usuario in usuarios:
        for favorito in favoritos: 
            for pelicula in pelicula:
                


# Parte 5: Discusión

Para esta sección debes discutir dos cosas:

1. Debes comparar el tiempo de ejecución que demora la función `nested_loop_join` con respecto a la función `join_tablas`. Primero debes considerar que los índices ya están creados para luego comparar los tiempos de ejecución considerando que tu *Join* primero crea los índices y después computa el resultado. Asegúrate de hacer este experimento con ambos datasets.

2. Considerando el tiempo que demoran los índices en crearse, ¿Por qué crees que los sistemas de bases de datos usan estas técnicas basadas en índices para computar consultas?

Para tomar el tiempo de ejecución, recuerden que puedes utilizar la librería `time` de `Python` 🐍.

In [None]:
# Código y discusión
# Pueden agregar todas las casillas que quieran para desarrollar esta parte