# Challenge Tecnico de SQL

**Objetivos:** 

* Realizar consultas en SQL, interactuando con una base de datos alojada en un servidor de base de datos PostgreSQL. 

En este challenge vamos a partir de una base de datos de películas con datos [obtenidos del sitio IMDB]()

**Entrega:** Realizar todas las actividades que se describen en este notebook. Si es necesario, se pueden agregar más celdas tanto de tipo markdown como código. Entregar el notebook modificado que refleje el trabajo realizado por el grupo, incluyendo respuestas, explicaciones y el código generado.

# 3. Conexión a la base de datos desde el notebook

Independientemente de que instancia usemos, vamos a utilizar la biblioteca [ipython-sql](https://pypi.org/project/ipython-sql/) para ejecutar comandos en forma interactiva desde este notebook.

La celda a continuación instala esta biblioteca

In [None]:
!pip3 install ipykernel
!pip3 install ipython-sql
!pip3 install psycopg2

 y luego cargamos el módulo 

In [None]:
%load_ext sql

# Fix for prettytable style issue with modern approach
import prettytable
if 'DEFAULT' not in prettytable.__dict__:
    from prettytable import TableStyle
    prettytable.DEFAULT = TableStyle.DEFAULT

%config SqlMagic.style = 'DEFAULT'


Si estamos usando un servidor local usamos estre string de conexión, reemplazando PASS por la contraseña que hayan elegido para el usuario portgres al momento de la instalación

In [None]:
#conexion local

%sql postgresql://emilianogonzalez@localhost/imdb



En cualquiera de los dos casos, luego hacemos esta consulta de prueba

In [None]:
%sql SELECT * FROM movies LIMIT 10

# 4. Consultas a resolver

A continuación se plantean las consultas a resolver. Para cada una de ellas proveer una solución en lenguaje SQL. Para las consultas en SQL **no se podrán utilizar** subconsultas en el FROM, vistas, ni la cláusula WITH

En algunos casos se solicitará además discutir si es posible o no solucionar esa consulta en Álgebra Relacional o Cálculo Relacional, y de ser posible se deberá proveer una solución en el lenguaje indicado en cada caso.


## Consulta 1

Devolver el nombre y apellido de aquellas personas para las cuales no se tiene registrada fecha de fallecimiento.
Ordenar los resultados por nombre en forma ascendente, y devolver sólo los primeros 10 resultados.


In [15]:
%%sql 
select p.name 
from people p 
where p.birthdate isnull 
order by p.name limit 10;




 * postgresql://bdatos24:***@localhost:25432
10 rows affected.


name
Aaron Au
Aaron Berg
Aaron Brumfield
Aaron D. Spears
Aaron Fors
Aaron Hendry
Aaron Hitz
Aaron ''Ike'' Stielstra
Aaron Izbicki
Aaron Joseph



## Consulta 2

Devolver el total de películas estrenadas en 2012 y el promedio de sus presupuestos. El resultado debe tener dos columnas: una llamada `total_2012` y otra `promedio_2012`.


In [17]:
%%sql 
select count(*) as "total_2012",avg(budget) as "promedio_2012" 
from movies m 
where "date" >= '2012-01-01' and "date" < '2013-01-01';


 * postgresql://bdatos24:***@localhost:25432
1 rows affected.


total_2012,promedio_2012
49,69828081.63265306


¿es posible resolver esta consulta en Álgebra Relacional? De serlo, proveea una solución y de lo contrario explique por qué no es posible.

### Solución en Álgebra relacional a la consulta 2
No se puede hacer en algebra relacional ya que no se puede sacar promedio, no se pueden calcular totales.




## Consulta 3

Para cada saga, devolver su nombre y la cantidad de películas que la componen. Ordenar los resultados por cantidad de películas en forma descendiente.


In [20]:
%%sql 
select s.name as "Nombre de la Saga", count (mis.movie_id) as "Cantidad de peliculas" 
from movie_in_saga mis right outer join sagas s on s.id = saga_id 
group by s.name,saga_id 
order by "Cantidad de peliculas" desc ;

 * postgresql://bdatos24:***@localhost:25432
216 rows affected.


Nombre de la Saga,Cantidad de peliculas
Star Wars,11
James Bond - 007,9
The Fast and the Furious,7
Shrek,5
Jurassic Park,5
Alien,5
Terminator,5
Pirates of the Caribbean,4
Resident Evil,4
Underworld,4


¿es posible resolver esta consulta en Cálculo Relacional? De serlo, proveea una solución y de lo contrario explique por qué no es posible.

### Solución en Cálculo relacional a la consulta 3

No se puede hacer en Calculo relacional ya que no se puede contar elementos , no se pueden calcular totales.


## Consulta 4

Devolver parejas nombre de película, nombre de persona, tal que esa persona es la única que forma parte del cast de esa película. Dicho de otra manera, para aquellas películas donde una sola persona realiza todos los trabajos, devolver el nombre de la película y el nombre de la persona.

In [22]:
%%sql 
select m.name, p.name
from movies m join casts c
  on m.id = c.movie_id 
  join people p 
  on p.id = c.person_id
where m.id in 
(
  select c1.movie_id  
  from casts c1
  group by c1.movie_id  
  having count(c1.person_id) = 1
);

 * postgresql://bdatos24:***@localhost:25432
4 rows affected.


name,name_1
Vuelve,Iván Noel
Megacities - Life in Loops,Wolfgang Thaler
The Crazies,George A. Romero
R100,Hitoshi Matsumoto


¿es posible resolver esta consulta en Álgebra Relacional? De serlo, proveea una solución y de lo contrario explique por qué no es posible.

### Solución en Álgebra relacional a la consulta 4

$Casts(\underline{movie\_id},\underline{person\_id}, \underline{job\_id},\underline{role})$  
$Movies(\underline{id}, name, date, runtime, budget, revenue, homepage, vote\_average)$  
$People(\underline{id}, name, birthdate, deathdate, gender)  $

$A = \Pi_{(\$1, \$2, \$6)} (Casts \Join_{ \space (\$1=\$5)} Movies)$

$A(\underline{movie\_id}, \underline{person\_id}, name)$  

$B = (A - (A \Join_{ \space (\$2 \neq \$5 \space \land \space \$1 = \$4)} A))$

$Sol = \Pi_{(\$3, \$5)} (\rho_{(person\_id -> id, \space name -> movie\_name)} \space (B) * People)$



## Consulta 5
Para cada saga, actores que participaron en todas sus películas. Devolver parejas id de saga, id de persona.

In [23]:
%%sql 
select distinct mis.saga_id , c.person_id 
from casts c natural join movie_in_saga mis
where (c.job_id = 4 or c.job_id = 15) and 
not exists 
    (select * from movie_in_saga mis2
    where mis2.saga_id = mis.saga_id 
    and mis2.movie_id <> mis.movie_id
    and not exists 
            (select * from casts c2 
            where c2.movie_id = mis2.movie_id and
            (c2.job_id = 4 or c2.job_id = 15) and
            c2.person_id = c.person_id));

 * postgresql://bdatos24:***@localhost:25432
673 rows affected.


saga_id,person_id
84,3
84,10942
188,62
188,109
188,147
188,328
188,585
188,888
188,1121
188,2139


¿es posible resolver esta consulta en Cálculo Relacional? De serlo, proveea una solución y de lo contrario explique por qué no es posible.

### Solución en Cálculo relacional a la consulta 5

$\{<s.saga\_id, c.person\_id> \space / \space movie\_in\_saga(s) \land \space casts(c) \land \space s.movie\_id = c.movie\_id \land \space$
$(c.job\_id = 4 \lor \space c.job\_id = 15)\space \land$
$(\lnot \exists m) (movie\_in\_saga( m ) \land m.saga\_id = s.saga\_id \land m.movie\_id \neq c.movie.id \space \land$ 
$(\forall c2) ((cast(c2) \land c2.movie\_id = m.movie\_id \space \land \space (c2.job\_id = 4 \lor \space c2.job\_id = 15)) \to (c.person\_id \neq c2.person\_id)))\}$


## Consulta 6
Nombres de sagas que satisfacen que la fecha de la saga sea igual a la fecha de estreno de la película más reciente de la saga.

In [24]:
%%sql 
select s.name 
from (sagas s join movie_in_saga mis  on s.id = mis.saga_id ) join movies m on m.id = mis.movie_id
group by s.name,s.date
having s.date = max(m.date);


 * postgresql://bdatos24:***@localhost:25432
21 rows affected.


name
The Dark Knight Trilogy
Pirates of the Caribbean
xXx
Underworld
Karate Kid
Speed
Back to the Future
Star Wars
Wolverine
Tomb Raider


## Consulta 7
Nombre y cantidad de películas de las sagas con las 5 mayores cantidades de películas. Ordenarlas por cantidad de películas en forma descendiente.

In [25]:
%%sql
select distinct s.name, count(mis.movie_id)
from sagas s join movie_in_saga mis on s.id = mis.saga_id  
group by s.id
having count(mis.movie_id) in 
    (select distinct count(mis3.movie_id)
        from movie_in_saga mis3
        group by mis3.saga_id
        order by count(mis3.movie_id) desc
        limit 5)
order by count(mis.movie_id) desc; 

 * postgresql://bdatos24:***@localhost:25432
10 rows affected.


name,count
Star Wars,11
James Bond - 007,9
The Fast and the Furious,7
Alien,5
Jurassic Park,5
Shrek,5
Terminator,5
Pirates of the Caribbean,4
Resident Evil,4
Underworld,4


## Consulta 8
Películas que sólo son referenciadas por películas con las que comparten al menos un género

In [14]:
%%sql
select  distinct mr.reference_to 
from (movie_references mr join movie_genres mg on mg.movie_id = mr.reference_to)
    join movie_genres mg2 on mr.referenced_by = mg2.movie_id
where mg.genre_id = mg2.genre_id;


 * postgresql://bdatos24:***@localhost:25432
17 rows affected.


reference_to
118
479
503
806
1272
1636
6575
14555
20289
20713


¿es posible resolver esta consulta en Cálculo Relacional? De serlo, proveea una solución y de lo contrario explique por qué no es posible.

### Solución en Cálculo relacional a la consulta 8
$\{ < m.reference\_to> / \space movie\_references(m) \wedge \newline
(\space (\exists g)(movie\_genres(g)\wedge g.movie\_id = m.reference\_to) \wedge \newline 
(\exists g2)(movie\_genres(g2)\wedge g2.movie\_id = m.referenced\_by) \wedge g.genre\_id = g2.genre\_id \space ) \}$
