<img src="Figuras/gbdi.jpg" width=550><br>

# Introdução à Linguagem SQL

## A <b>DML:</b><i> <b>D</b>ata <b>M</b>anipulation <b>L</b>anguage</i><br>

Parte 3

**Objetivo:** Explorar comandos básicos da linguagem sub-linguagem de manipulaçào de dados em SQL,\
    usando como exemplo de teste uma <i>toy database</i> que contém dados sobre as mátriculas de 15 alunos:\
    &emsp; &emsp; __a base de Dados `Universidade`__

__Atividades:__ 
 * Explorar a especificação de múltiplas tabelas na cláusula `FROM` do comando `SELECT`
   * Condições de junção na cláusula `WHERE`
   * Condições de junção na cláusula `FROM`
   * Correspondência entre as junções da teoria e a sintaxe em SQL
   * Exemplo de aplicação de um `NATURAL FULL JOIN`

## 1. Conectar com a Base de Dados

Para começar, sempre é necessário, em cada `Notebook`:
  * Carregar os pacotes que serão usados;
  * Estabelecer a coneção com a base.

In [None]:
############## Importar os módulos necessários para o Notebook:
import ipywidgets as widgets     #---
from sqlalchemy import create_engine

############## Conectar com um servidor SQL na base Universidade ###################### --> Postgres.universidade
%load_ext sql

# Connection format: %sql dialect+driver://username:password@host:port/database
# engine = create_engine('postgresql://postgres:pgadmin@localhost/universidade')
# %sql postgresql://postgres:pgadmin@localhost/universidade
engine = create_engine('postgresql://postgres:postgres@localhost/universidade')
%sql postgresql://postgres:postgres@localhost/universidade


## 2 Trabalhando com mais de uma tabela

A cláusula `FROM` permite indicar mais de uma tabela.

O resultado de um comando sempre deve ser exatamente <u><b>uma</b></u> tabela.\
Assim, quando mias de uma é especificada, elas têm que ser operadas
  * ou por Junção $R_1\stackrel{c}{\bowtie}R_2$
  * ou por Produto Cartesiano $R_1\times R_2$,\
    <font size="6">&emsp; &#9758;</font> 
    para que o resultado sempre seja uma tabela só.

<font color="red" size="6">&emsp;&emsp; &#9758;</font> Uma junção requer 
    uma comparação <font color="blue" size="3">$c=(R_1.a_1\;\theta\; R_2.a_2)$</font><br>
    &emsp; &emsp; &emsp; &emsp; envolvendo um (ou mais) atributo <font color="blue" size="3">$a_1$</font>
    da relação <font color="blue" size="3">$R_1$</font><br>
    &emsp; &emsp; &emsp; &emsp; &emsp; &emsp; &emsp; com um (ou mais) atributo <font color="blue" size="3">$a_2$</font>
    da relação <font color="blue" size="3">$R_2$</font>.

Caso a condição não seja expressa, impõe-se a execução do produto cartesiano.

<br>

  * A condição <font color="blue" size="3">$c$</font> pode ser expressa \
    tanto na cláusula `WHERE` quanto na cláusula `FROM`.

### 2.1 Indicar condições de junção na cláusula `WHERE`

A cláusula `WHERE` é mais direta, mas permite expressar apenas $\theta$-junções e equi-junçoes:\
&emsp; Basta indicar a condição de cada junção, expressando na comparação um atributo de cada tabela a ser operada.

  * Junções são expressas na cláusula `WHERE` indicando as comparações entre atributos \
    das duas relações
    <font color="blue" size="3">$R_1$</font> e <font color="blue" size="3">$R_2$</font> envolvidas na operação:\
    <font color="blue" size="3">$R_1.a_1 \theta R_2.a_1 \wedge R_1.a_2 \theta R_2.a_2 \wedge \ldots R_1.a_i \theta R_2.a_i$</font>,\
     sendo que as relações são indicadas na cláusula `FROM` separadas por vírgulas.

Exemplo:
<i>Listar as notas em que o aluno 'Celso' foi aprovado</i>:<br>
 $\sigma_{\left({\mbox{Aluno.nome='Celso'}}\;\wedge\;\mbox{Matricula.NUSP}>=5.0\right)}$
 `Aluno`$\stackrel{\mbox{NUSP} \;\theta\; \mbox{NUSP}}{\bowtie}$ `Matricula`

Em SQL:

In [None]:
%%sql
SELECT Aluno.NUSP,Matricula.CodigoTurma, Nota
    FROM Aluno, Matricula                 --<<  tabelas
    WHERE Aluno.NUSP=Matricula.NUSP AND   --<< condição de junção 
          Nota>=5.0 AND                   --<< outras condições...
          Aluno.Nome='Celso';

Note-se que:
  * Para operar $N$ tabelas por junção, deve haver haver $N-1$ condições de junção.
  * Se depois de executar todas as junções ainda houver mais de uma tabela, \
    elas serão operadas por produto cartesiano.
  * Uma condição que "junta" duas tabelas pode ter qualquer quantidade de operadores de comparação, expressos tanto por conectivos lógicos quanto por expressões de tupla.

Exemplo:
<i>Listar o horário de aulas das disciplinas do aluno 'Celso' em que ele foi aprovado</i>:

In [None]:
%sql Result1 << /* Comparando cada atributo */          \
SELECT A.Nome, T.Sigla, H.Dia, H.Horario                \
    FROM Aluno A, matricula M, Turma T, Horaturma H     \
    WHERE A.NUSP=M.NUSP AND                             \
	             M.CodigoTurma=T.Codigo AND             \
				              T.Sigla=H.Sigla AND                             \
							  T.Numero=H.Numero AND                           \
       Nome='Celso' AND  /* Não existe outro atributo `Nome` em nenhuma tabela ... */ \
	   M.Nota>5;

## Compare com:
%sql Result2 << /* Comparando tuplas */                 \
SELECT A.Nome, T.Sigla, H.Dia, H.Horario                \
    FROM Aluno A, matricula M, Turma T, Horaturma H     \
    WHERE A.NUSP=M.NUSP AND                             \
	             M.CodigoTurma=T.Codigo AND             \
				              (T.Sigla, T.Numero)=(H.Sigla, H.Numero) AND     \
       Nome='Celso' AND                                 \
	   M.Nota>5;

print ('\nComparando atributos: Result1:\n', Result1, sep='')
print ('\nComparando Tuplas: Result2:\n', Result2, sep='')

### 2.2 Indicar condições de junção na cláusula `FROM`

A cláusula `FROM` permite expressar qualquer tipo de junção:

A sintaxe geral da cláusula  `From` é:
<div class=”square” style="background-color:#EAF0F0;"><b><font size="3" face="courier" color="blue">
SELECT [<u>ALL</u> | DISTINCT] $<$lista de atributos$>$<br>
   &emsp; FROM $<$Tabela$>$, $<$Tabela$>$...<br>
<br>
$<$Tabela$>$ = $<$Tabela Juntada$>$ | <br>
   &emsp; &emsp; &emsp; &emsp; ($<$Tabela Juntada$>$)<br>
<br>
$<$Tabela Juntada$>$ = $<$Tabela$>$ |<br>
   &emsp; &emsp; $<$Tabela$>$ $<$join-type$>$ ($<$Tabela Juntada$>$)<br>
   &emsp; &emsp; &emsp; &emsp; {ON $<$Condição Junção$>$ |<br>
   &emsp; &emsp; &emsp;&emsp;&emsp;USING ($<$atrib1$>$ [, ...])}<br>
<br>
$<$join-type$>$ = [<u>INNER</u>] | [CROSS] | [NATURAL] |<br>
   &emsp; &emsp; &emsp; &emsp; &emsp;&emsp; [{LEFT | RIGHT | FULL} OUTER]<br>
   &emsp; &emsp; &emsp; &emsp; &emsp;&emsp; JOIN
</font></b>
</div>

#### 2.2.1 Junção Natural $\times$ Equi-junção

Uma <b>Equi-junção</b> compara atributos usando aigualdade (=) como sendo o operador de comparação $\theta$,\
 &emsp; &emsp; e pode comparar quaisquer pares de atributos cujo tipo possa ser comparado por igualdade.
 * Por exemplo, pode comparar um atributo de tipo `integer` com outro de tipo `float`, ou
 * uma <i>string</i> de tamanho 10 (`VARCHAR(10)`) com outra de tamanho 20 (`VARCHAR(20)`).
 * Uma equi-junção pode ser representada:
   * na clausua `WHERE` indicando a respectiva condiçào de junção,
   * ou na cláusula `JOIN` usando a sintaxe:\
<b><font size="3" face="courier" color="blue">
SELECT ...<br>
   &emsp; FROM ...<br>
   &emsp; &emsp; $<$Tabela_Esquerda$>$ [INNER] JOIN $<$Tabela_Direita$>$<br>
   &emsp; &emsp; &emsp; &emsp; ON $<$Condição_Junção$>$<br>
   &emsp; &emsp;...<br>

Uma <b>Junção Natural</b> também compara atributos usando a igualdade (=) como sendo o operador de comparação $\theta$,\
 &emsp; &emsp; Mas <u>somente pode comparar pares de atributos que tenham o mesmo tipo.</u>
 * Uma equi-junção pode ser representada somente na cláusula `JOIN` usando a sintaxe:\
<b><font size="3" face="courier" color="blue">
SELECT ...<br>
   &emsp; FROM ...<br>
   &emsp; &emsp; [$<$Tabela_Esquerda$>$ [NATURAL] JOIN $<$Tabela_Direita$>$]  -- Caso 1<br>
    &emsp;<br>
   &emsp; &emsp; [$<$Tabela_Esquerda$>$ JOIN $<$Tabela_Direita$>$  -- Caso 2<br>
   &emsp; &emsp; &emsp; &emsp; USING ($<$Atributo$>$)]<br>
   &emsp; &emsp;...<br>
   </font></b>
  * onde, no <b><font face="courier">Caso 1</font></b>, os atributos comparados são os que têm, \
     &emsp; &emsp; &emsp; além de tudo (comparação por igualdade e mesmo tipo) Também o mesmo nome em ambas as relações.

<br>

Como o tipo dos atributos comparados na Equi-junção pode ser diferente, o resultado do operador inclui:
  * todos os atributos de ambas as relações, inclusive o par de atributos comparados.

Como o tipo dos atributos comparados na Junção Natural também é o mesmo, o resultado do operador inclui:
 * todos os atributos da primeira relação e
 * todos os atributos da segunda relação a menos do atributo comparado.

<br>

<u>Exemplo de uma Junção Natural versus Equi-junção</u>

<i>Listar os códigos de todas as disciplinas em que cada aluno se matriculou:</i>

In [None]:
%%sql
SELECT A.Nome, T.Sigla, M.Nota
    FROM Aluno A JOIN Matricula M
                      USING (NUSP)                --< USING: Junção natural
                 JOIN Turma T
                      ON M.CodigoTurma= T.Codigo  --< ON: Equi-Junção
	WHERE Nome='Celso';

<br>

Além da sintaxe, note o que acontece com <u>os atributos comparados:</u>

In [None]:
%%sql
SELECT *
    FROM Aluno A JOIN Matricula M
                      USING (NUSP)                --< USING: Junção natural
                 JOIN Turma T
                      ON M.CodigoTurma= T.Codigo  --< ON: Equi-Junção
	WHERE Nome='Celso';

Note que:
 * o atributo comparado por igual na junção natural não repete na resposta, (um `NUSP` só)
 * mas o atributo comparado por igual na equi-junção repete na resposta (`CódigoTurma` e `Codigo`).

Isso fica mais explícito se pedirmos todos os atributos de cada tabela (veja que o `NUSP`'ressurge' como `NUSP_1`:

In [None]:
%%sql
SELECT A.*, M.*, T.*
    FROM Aluno A JOIN Matricula M
                      USING (NUSP)                --< USING: Junção natural
                 JOIN Turma T
                      ON M.CodigoTurma= T.Codigo  --< ON: Equi-Junção
	WHERE Nome='Celso';

#### 2.2.2 Junção externa

Uma junção externa executa uma junção das duas tabelas, mas:\
 &emsp; &emsp; <u>sempre que uma tupla de uma das tabelas não encontra nenhuma tupla parceira na outra tabela</u>\
  &emsp; &emsp; (e portanto não gera nenhuma tupla no resultado)\
 ela pode incluir essa tupla no resultado deixando nulos todos os atributos provenientes da outra tabela,\
 &emsp; &emsp; conforme sejam solicitadas as tuplas não emparelhadas da tabela da esquerda (`LEFT`), da direita (`RIGHT`) ou ambas (`FULL`).

A junção externa só pode ser indicada na cláusula `FROM`.\
A sintaxe é a seguinte:

<div class=”square” style="background-color:#EAF0F0;"><b><font size="3" face="courier" color="blue">
SELECT ...<br>
   &emsp; FROM ...<br>
   &emsp; &emsp; $<$Tabela_Esquerda$>$ [{LEFT | RIGHT | FULL} OUTER] JOIN $<$Tabela_Direita$>$<br>
   &emsp; &emsp; &emsp; &emsp; ON $<$Condição Junção$>$<br>
   &emsp; &emsp;...<br>
</font></b>
</div>

<br>

<u>Exemplo de uma Junção Externa</u>

<i>Listar todas as disciplinas, com seus respectivos pré-requisitos:</i>

In [None]:
%%sql
SELECT D.Sigla, D.Nome, Pre.Sigla "Sigla Pre", Pre.Nome "Nome pre" 
    FROM Discip D LEFT OUTER JOIN Discip Pre    /*--- Note a tabela Discip sendo usada duas vezes:
                                                    - como a tabela de disciplinas (com alias D) e
                                                    - como a tabela de pré-requisitos (com alias Pre). */
                                  ON D.SiglaPreReq=Pre.Sigla;

Veja que não existe a propriedade da distributividade do operador de seleção ($\sigma$) com o operador de junção externa \
 &emsp; &emsp; &emsp; <b><font size="5">&#9758;</font></b> ao contrário do que acontece com uma junção interna!

<br>

Por exemplo, a consulta usada para exemplificar junções externas na aula sobre o Modelo Relacional, foi a seguinte:\
$\pi_{\{Disciplina, Nome\}} \left({ \left( \sigma_{(curso = \mbox{$ ''computacao'' $})}Aluno \right)  \stackrel{(Nome=NomeA)} {]{\times}[} Matricula} \right)$

onde, naquele caso as relações `Aluno` e `Matricula` eram diferentes daquelas na base `Universidade`:\
 &emsp; &emsp; as matrículas dos alunos eram feitas diretamente na relação de mátriculas (e não via as turmas, como na basse `Universidade`)

Vamos reproduzir essa consulta, recriando as relações tal como no exemplo da aula teórica:

In [None]:
%%sql
WITH Aluno AS (
    SELECT * FROM (VALUES ('Zeca', 25, 'computação'),
				          ('Zico', 18, 'eletronica'),
						  ('Juca', 21, 'odontologia'),
						  ('Tuca', 18, 'computação'),
						  ('Teca', 21, 'computação') ) T(Nome, Idade, Curso)
               WHERE Curso='computação'),

    Matricula AS (
	SELECT * FROM (VALUES ('Zeca', 'SCC111', 8.0),
				          ('Zeca', 'SCC112', 9.0),
				   		  ('Zico', 'SCC112', 8.5),
				          ('Juca', 'SCC113', 8.0),
				          ('Tuca', 'SCC114', 7.0) ) T(NomeA, Disciplina, Nota))
SELECT Disciplina, Nome
    FROM  Aluno FULL OUTER JOIN Matricula
	          ON Nome=NomeA
			  ;


Veja que nesse exemplo, \
 &emsp; <font size="5">&#9758;</font> o operador de seleção $\sigma$ é aplicado sobre a relação `Aluno` <b><u>antes</u></b> de submeter essa relação como a relação da esquerda do operador de junção
${]{\times}[}$.

<br>

Caso o operador de seleção seja aplicado depois da junção:\
$\pi_{\{Disciplina, Nome\}} \left(\sigma_{(curso = \mbox{\scriptsize``computacao''})}\left({ Aluno  \stackrel{(Nome=NomeA)} {]\times[} Matricula} \right)\right)$


o resultado é diferente:

In [None]:
%%sql
WITH Aluno AS (
    SELECT * FROM (VALUES ('Zeca', 25, 'computação'),
				          ('Zico', 18, 'eletronica'),
						  ('Juca', 21, 'odontologia'),
						  ('Tuca', 18, 'computação'),
						  ('Teca', 21, 'computação') ) T(Nome, Idade, Curso)
               ),

    Matricula AS (
	SELECT * FROM (VALUES ('Zeca', 'SCC111', 8.0),
				          ('Zeca', 'SCC112', 9.0),
				   		  ('Zico', 'SCC112', 8.5),
				          ('Juca', 'SCC113', 8.0),
				          ('Tuca', 'SCC114', 7.0) ) T(NomeA, Disciplina, Nota))
SELECT Disciplina, Nome
    FROM  Aluno FULL OUTER JOIN Matricula
	          ON Nome=NomeA
    WHERE Curso='computação';


Nesse caso, a junção externa encontra pares para todos os nomes de alunos, pois `Juca` e `Tuca` estão matrículados.\
Mas mesmo que houvessem nomes em `Disciplina` que não correspondessem a nenhum nome em `Aluno`,\
 &emsp; &emsp; ainda assim, as tuplas que pudessem ter sido geradas com curso nulo seriam descartadas na seleção $\sigma$ da cláusula `WHERE`~.
 

### 2.3 Correspondência entre os operadores de junção com a sintaxe SQL

  * Na teoria existem três operadores de Junção Interna:
	* $\theta$-junção,
    * equi-junção, e
    * junção natural.

  * Esses operadores sao interpretados em SQL assim:
    * Junções em que o operador de comparação não é o '=' são <u>$\theta$-junção;</u>
    * Junções comparando com '=' expressas na cláusula `WHERE` ou com a construção `ON` na cláusula `FROM` são <u>equi-junção</u>.
    * Junções comparando com '=' expressas com a construção `USING` ou `NATURAL JOIN` na cláusula `FROM` são <u>Junções Naturais</u>.

### 2.3.1 Aplicação de `NATURAL FULL OUTER JOIN`

Combinar `NATURAL FULL OUTER JOIN` pode ser útil para identificar diferenças em duas tabelas com a mesma estrutura (e mesmos nomes de atributos).

Suponha que temos uma tabela com o `NUSP` dos alunos que tiveram alguma reprovação, e outra com os alunos que tiveram alguma aprovação.\
provavelmente, a maioria dos alunos estará em ambas as tabelas.

A seguinte consulta mostra quem aprovou em todas as disciplinas e quem reprovou em todas:\
<small>(Cada uma dessas duas tabelas está sendo criada temporariamente, com um comando que será estudado logo a seguir)</small>

In [None]:
%%sql
WITH Aprov as (   -- Criar uma tabela com alunos que reprovaram em ao menos uma disciplina
    SELECT DISTINCT NUSP FROM Matricula R WHERE Nota <5),
  Reprov AS (     -- Criar uma tabela com alunos que aprovaram em ao menos uma disciplina
    SELECT DISTINCT NUSP FROM Matricula R WHERE Nota >=5)

SELECT * 
    FROM (SELECT 'Aprovou todas'  AS Result1, Aprov.* FROM Aprov) T1
       NATURAL FULL OUTER JOIN                                      --======<<<< Usando Natural-Join externo
         (SELECT 'Reprovou todas' AS Result2, Reprov.* FROM Reprov) T2
WHERE T1 IS NULL or T2 IS NULL;

Nesse comando:
  * Como a junção natural não repete os atributos que ocorrem nas duas tabelas,\
     o resultado contém apenas um conjunto de atributos.
  * A junção externa inclui os alunos que não estão na outra tabela.
  * A condição da cláusula `WHERE` remove os alunos que estão em ambas as tabelas.

__Pergunta:__ <i>Qual a vantagem dessa solução sobre usar os operadores sobre conjuntos?</i> \
(ou seja, sobre:)

In [None]:
%%sql
WITH Aprov as (
    SELECT NUSP FROM Matricula R WHERE Nota >=5),
  Reprov AS ( 
    SELECT NUSP FROM Matricula R WHERE Nota <5)

(SELECT *, 'Aprov' FROM Aprov EXCEPT SELECT *, 'Aprov' FROM Reprov)
    UNION                                                          ---====<<<< usando operadores de conjunto
(SELECT *, 'Reprov' FROM Reprov EXCEPT SELECT *, 'Reprov' FROM Aprov)
ORDER BY NUSP;


__Resposta:__ Responder com junção requer <u>ler cada tabela apenas uma vez,</u>\
  &emsp; enquanto usar operadores sobre conjuntos requer <u>ler cada tabela duas vezes.</u>

In [None]:
%%sql 
WITH Aprov as (
    SELECT DISTINCT NUSP, 'Aprov' Situacao
        FROM Matricula M
        WHERE NUSP NOT IN (SELECT NUSP FROM Matricula R WHERE Nota <5)
	),
  Reprov AS ( 
    SELECT DISTINCT NUSP, 'Reprov'
        FROM Matricula M
        WHERE NUSP NOT IN (SELECT NUSP FROM Matricula R WHERE Nota >=5)
	)
SELECT * FROM Aprov UNION SELECT * FROM Reprov
ORDER BY 1

Outro exemplo (adaptado da aula sobre a teoria da Álgebra Relacional):\
<i>Listar todos os alunos de computação, cada um com as respectivas disciplinas em que se matricularam.


In [None]:
%%sql
SELECT Aluno.Nome, Discip.Nome, Matricula.Nota, Turma.Ano
    FROM  Aluno FULL OUTER JOIN                           --< Aluno     tem o nome do aluno e o curso
              (Matricula JOIN                             --< Matricula tem as turmas onde ele se matriculou
                  (Turma JOIN Discip                      --< Turma     tem a disciplina a que corresponde aquela turma
                       ON Discip.Sigla=Turma.sigla)       --< Discip    tem o nome da disciplina    
                 ON Turma.Codigo=Matricula.CodigoTurma)
			ON Aluno.NUSP=Matricula.NUSP
    WHERE Aluno.Curso='Computação'
    ORDER BY Aluno.NUSP, Matricula.CodigoTurma, Turma.Ano

Veja que o `Aluno Daniel` é da 'Computação', mas como não se matriculou em nenhuma disciplina,\
 &emsp; sem o `OUTER JOIN` ele teria ficado fora da listagem.

## Agradecimentos

Material do Prof. Caetano Traina Jr.