# Fundamentos de bases de datos
## Laboratorio 2022 - Tarea 4

**Objetivos:** 

* Trabajar sobre los conceptos básicos de procesamiento y optimización de consultas, en particular la confección de planes lógicos y físico.
* Contrastar el modelo de procesamiento de consultas visto en el curso con los planes generados por PostgreSQL.

**Referencias y material de consulta**

- Material del curso de Fundamentos de Bases de datos sobre diseño relacional
- [EN, 2011] Capítulo 19, Fundamentals of Database Systems, Elmasri & Navathe, 6th Edition, Pearson, 2011
- Explaining the Postgres Query Optimizer , Bruce Momjian, (https://momjian.us/main/presentations/internals.html)
- Query Execution Techniques in PostgresSQL, Neil Conway, (http://www.neilconway.org/talks/executor.pdf)
- Documentación de PostgreSQL, Uso del comando EXPLAIN (https://www.postgresql.org/docs/current/sql-explain.html)


**Entrega:** Realizar todas las actividades que se describen en este notebook. Si es necesario, se pueden agregar más celdas tanto de tipo markdown como código. Se pide entregar, los DOS siguientes archivos:
1. el `notebook modificado` que refleje el trabajo realizado por el grupo, incluyendo respuestas, explicaciones y el código generado.
2. el `pdf` correspondiente al notebook entregado (verificar que todas las partes queden contenidas en el pdf, para que éste pueda ser leído correctamente).

**IMPORTANTE:** 
1. Comprobar antes de realizar la entrega final, haber completado la primera sección "Datos del grupo"

**PLAZO DE ENTREGA:** **lunes 11/11/2022 23:59**


# Datos del grupo

**Identificación del grupo:** bdatosNN
    
**Integrantes:**
* nombre apellido integrante i - cédula de identidad integrante i

## Descripción de la realidad 

El objetivo de esta tarea es trabajar sobre los conceptos de procesamiento y optimización de consultas, en particular la confección de planes lógicos y físicos por parte del manejador. Para esto utilizaremos dos consultas, comparando los planes obtenidos aplicando el modelo de procesamiento de consultas visto en el teórico con los planes generados por el manejador PostgreSQL. La tarea se organiza en dos partes: primero generar los planes según el modelo visto en el curso y luego analizar y comparar con los planes generados por PostgreSQL.

## Configuración de ambiente SQL

In [2]:
!pip3 install ipython-sql
!pip3 install psycopg2



You should consider upgrading via the 'C:\Users\bcent\AppData\Local\Programs\Python\Python310\python.exe -m pip install --upgrade pip' command.




You should consider upgrading via the 'C:\Users\bcent\AppData\Local\Programs\Python\Python310\python.exe -m pip install --upgrade pip' command.


In [2]:
%load_ext sql

In [3]:
#conexion local

host = "localhost"
database = "movies"
user = "postgres"
password = "b"

connection_string = f"postgresql://{user}:{password}@{host}/{database}"

%sql $connection_string



## Modelo de datos

Se trabajará sobre el moodelo de datos utilizado en la Tarea 2

# 1. Actividad 1

Considere la consulta expresa en la siguiente celda:

In [14]:
%%sql SELECT j.name, m.name 
FROM jobs j JOIN casts c ON j.id = c.job_id
     JOIN movies m ON c.movie_id = m.id
	 JOIN movie_genres mg ON m.id = mg.movie_id
WHERE
	j.name = 'Director'
	AND mg.genre_id = 18


 * postgresql://postgres:***@localhost/movies
390 rows affected.


name,name_1
Director,Sin City
Director,Sin City
Director,Sin City
Director,Cube Zero
Director,Shaft
Director,The Da Vinci Code
Director,Harry Potter and the Order of the Phoenix
Director,Tarzan
Director,Tarzan
Director,Dawn of the Dead


## Actividad 1.A

Obtener los planes lógicos de acuerdo a lo visto en el curso.

> (a) Obtener el árbol canónico correspondiente a la consulta.

> (b) Generar un plan lógico, partiendo del árbol canónico y aplicando las heurísticas vistas en el curso.


**Resultado actividad 1A - Parte A:** 




**Resultado actividad 1A - Parte B:** 

![Alt text](./plan-logico.png)

## Actividad 1.B

Generar un plan físico para el plan lógico visto de la parte 1.A

**Resultado actividad 1.B:** 

In [16]:
%%sql
select tablename,indexname,tablespace,indexdef  from pg_indexes where tablename = 'movie_genres' or tablename = 'movies' or tablename = 'casts' or tablename = 'jobs' or tablename = 'movie_genres';



 * postgresql://postgres:***@localhost/movies
4 rows affected.


tablename,indexname,tablespace,indexdef
casts,casts_pkey,,"CREATE UNIQUE INDEX casts_pkey ON public.casts USING btree (movie_id, person_id, job_id, role)"
jobs,jobs_pkey,,CREATE UNIQUE INDEX jobs_pkey ON public.jobs USING btree (id)
movie_genres,movie_genres_pkey,,"CREATE UNIQUE INDEX movie_genres_pkey ON public.movie_genres USING btree (movie_id, genre_id)"
movies,movies_pkey,,CREATE UNIQUE INDEX movies_pkey ON public.movies USING btree (id)


| Condicion | implementacion |
| --- | ----------- |
 | $\sigma_{(j.name=Director)}$   | busqueda lineal  |
 | $\|><\|_{j.id=c.job\_id}$ | loop anidado por bloques |
 | $\sigma_{(mg.genre\_id=18)}$ | busqueda lineal |
 | $\|><\|_{c.movie\_id=mg.movie\_id}$ | loop anidado por bloque |
 | $\|><\|_{c.movie\_id=m.id}$ | index join |

# 2 Actividad 2
Obtener e interpretar planes de ejecución en PostgreSQL

> (a) Indique brevemente que permiten hacer los comandos ANALYZE, EXPLAIN y EXPLAIN ANALYZE (ver Manual de PosgreSQL).

> (b) ¿Cómo se interpretan los resultados que devuelven los comandos EXPLAIN y EXPLAIN ANALYZE? En particular ¿En qué unidad de medida se miden los costos?

> (c) Ejecute el comando EXPLAIN para la consulta de la Actividad 1.

> (d) Analice el plan obtenido en la parte 2c y compárelo con el plan físico generado en la actividad 1. 

> (e) Ejecute SET enable_seqscan = OFF y vuelva a obtener el plan físico para la consulta de la actividad 1. En caso de que obtenga un plan físico diferente, explique claramente a que se deben las diferencias. 


**Resultado actividad 2 - Parte A:** 




Analyze -> permite actualizar los datos estadísticos de la base de datos, para que el optimizador pueda tomar mejores decisiones. 

Explain -> permite obtener el plan de ejecución de una consulta, sin ejecutarla.

Explain analyze -> permite obtener el plan de ejecución de una consulta y además ejecutarla, para obtener información sobre el tiempo de ejecución de cada operación.



**Resultado actividad 2 - Parte B:** 




Explain -> Se interpreta como una tabla, donde cada fila representa una operación que se debe realizar para ejecutar la consulta. En cada fila se indica el tipo de operación, el costo estimado de la operación, el número de filas estimadas que se van a procesar y el número de filas estimadas que se van a devolver. El costo se mide convencionalmente en cantidad de operaciones de disco.

Explain analyze -> lo mismo que el anterior con la diferencia que en este caso se obtiene información sobre el tiempo de ejecución de cada operación asi como el número de filas que se procesaron y devolvieron. Loops indica la cantidad de veces que se ejecuto la operacion asi como el tiempo total de ejecución de la consulta. En este caso el costo se mide en tiempo de ejecución.

**Resultado actividad 2 - Parte C:** 




In [6]:
%%sql

SET ENABLE_SEQSCAN TO ON;

EXPLAIN SELECT j.name, m.name
FROM jobs j JOIN casts c ON j.id = c.job_id
      JOIN movies m ON c.movie_id = m.id
      JOIN movie_genres mg ON m.id = mg.movie_id
WHERE j.name = 'Director'
      AND mg.genre_id = 18
      

 * postgresql://postgres:***@localhost/movies
Done.
14 rows affected.


QUERY PLAN
Hash Join (cost=57.14..810.80 rows=32 width=34)
Hash Cond: (c.job_id = j.id)
-> Nested Loop (cost=50.37..778.15 rows=9724 width=24)
-> Hash Join (cost=49.95..89.10 rows=371 width=32)
Hash Cond: (m.id = mg.movie_id)
-> Seq Scan on movies m (cost=0.00..34.95 rows=1595 width=24)
-> Hash (cost=45.31..45.31 rows=371 width=8)
-> Seq Scan on movie_genres mg (cost=0.00..45.31 rows=371 width=8)
Filter: (genre_id = 18)
-> Index Only Scan using casts_pkey on casts c (cost=0.41..1.60 rows=26 width=16)


**Resultado actividad 2 - Parte D:** 




Este plan de ejecucion es muy distinto al presentado en la parte 1.
Lo primero que se hace es filtrar movie_genres linealmente y luego se le aplica una funcion de hash para poder utilizarla en el join con movie. Luego, se ejecuta un join entre el resultado anterior y la tabla cast, y finalmente un join entre el resultado anterior y la tabla job (ya filtrada por name=Director).

**Resultado actividad 2 - Parte E:** 




In [4]:

%%sql


SET ENABLE_SEQSCAN TO OFF;

EXPLAIN SELECT j.name, m.name
FROM jobs j JOIN casts c ON j.id = c.job_id
      JOIN movies m ON c.movie_id = m.id
      JOIN movie_genres mg ON m.id = mg.movie_id
WHERE j.name = 'Director'
      AND mg.genre_id = 18
      

 * postgresql://postgres:***@localhost/movies
Done.
13 rows affected.


QUERY PLAN
Hash Join (cost=20.40..914.13 rows=32 width=34)
Hash Cond: (c.job_id = j.id)
-> Nested Loop (cost=0.97..868.82 rows=9724 width=24)
-> Merge Join (cost=0.56..179.77 rows=371 width=32)
Merge Cond: (m.id = mg.movie_id)
-> Index Scan using movies_pkey on movies m (cost=0.28..100.37 rows=1595 width=24)
-> Index Only Scan using movie_genres_pkey on movie_genres mg (cost=0.28..70.78 rows=371 width=8)
Index Cond: (genre_id = 18)
-> Index Only Scan using casts_pkey on casts c (cost=0.41..1.60 rows=26 width=16)
Index Cond: (movie_id = m.id)


El plan de ejecucion es distinto al presentado en la parte 2.3 debido a la opcion enable_seqscan = OFF, que deshabilita el uso de secuencias de scan. 
Al deshabilitar la misma, no se permite el acceso secuencial por lo que se tienen que aprovechar los índices para poder acceder a los datos. Esto hace que el plan de ejecución sea distinto al anterior, ya que ahora se ejecuta un join entre movie y movie_genres (ya filtrada). Luego, se ejecuta un join entre el resultado anterior y la tabla cast, y finalmente un join entre el resultado anterior y la tabla job (ya filtrada por name=Director).