<img src="Figuras/gbdi.jpg" width=550><br>


# Introdução à <b>Linguagem SQL</b>

## A <b>DML:</b><i> <b>D</b>ata <b>M</b>anipulation <b>L</b>anguage</i><br>
Parte 2


**Objetivo:** Explorar comandos básicos da sub-linguagem de manipulaçào de dados em SQL,\
    usando como exemplo de teste uma <i>toy database</i> que contém dados sobre as mátriculas de 15 alunos:\
    &emsp; &emsp; __a base de Dados `Universidade`__

__Atividades:__ 
 * Explorar as condições da cláusula `WHERE` do comando `SELECT`
   * Operadores de comparação
   * `BETWEEN`
   * `LIKE`
   * Expressões regulares
   * Comparação de tuplas

## 1. Conectar com a Base de Dados

Para começar, em cada `Notebook` sempre é necessário:
  * Carregar os pacotes que serão usados;
  * Estabelecer a coneção com a base.

In [None]:
############## Importar os módulos necessários para o Notebook:
import ipywidgets as widgets     #---
from sqlalchemy import create_engine

############## Conectar com um servidor SQL na base Universidade ###################### --> Postgres.universidade
%load_ext sql

# Connection format: %sql dialect+driver://username:password@host:port/database
engine = create_engine('postgresql://postgres:pgadmin@localhost/universidade')
%sql postgresql://postgres:pgadmin@localhost/universidade

## 2 Sintaxe geral

  * Para recuperar dados das tuplas de uma relação, especificam-se as condições de seleção de tuplas na cláusula `WHERE`.
  * Essa cláusula corresponde um operador de seleção <font size="5">$\sigma_{(c)}R$</font>, onde as `condições` $c$ se aplicam a operadores:
    * de seleção ou
    * de junções internas:

<div class=”square” style="background-color:#EAF0F0;"><b><font size="3" face="courier" color="blue">
SELECT  $<$lista de atributos$>$<br>
   &emsp; FROM $<$lista de Tabelas$>$<br>
   &emsp; [WHERE $<$condições$>$];
   </font></b>
</div>

* Uma `<condição>` pode comparar um (ou mais) `<atributo>` das tabelas solicitadas na cláusula `WHERE` por exemplo com uma constante:

In [None]:
%%sql
SELECT * 
    FROM Aluno
    WHERE Cidade = 'Sao Carlos';  -- Cidade é texto, deve ser comparado com string entre ' '
                                  -- E pode existir diversas tuplas que atendem a essa condição

In [None]:
%%sql
SELECT * 
    FROM Aluno
    WHERE NUSP = 1234;   -- NUSP é número, deve ser comparado com número
                         -- e como é chave, no máximo uma tupla é recuperada.

In [None]:
%%sql
SELECT * 
    FROM Aluno
    WHERE NUSP = 12345   /* Se nenhuma tupla atende à condição, 
                            o resultado é uma relação nula      */ 
    ;

  * Cada `<condição>` $c$ da cláusula `WHERE` gera um operador algébrico, que pode ser 
    * <font size="4">$\sigma_{\left(c\right)}R_1$</font> &emsp; &emsp; ou
    * <font size="4">$R_1\stackrel{c}{{ \bowtie }}R_2$</font>.

<br>

  * Se o atributo $a_1$ for de uma <b>tabela $R_1$</b> e a comparação é com\
    uma constante `cte` ou outro atributo $a_2$ da mesma tabela,\
    então a condição corresponde a uma seleção:\
    <font size="4">$\sigma _{\left(a_1\theta \mbox{cte}\right)}R_1$</font> &emsp; ou &emsp;
    <font size="4">$\sigma _{\left(a_1\theta a_2\right)}R_1$</font>.

  * Se o atributo $a_1$ for de uma <b>tabela $R_1$</b> e \
    o outro atributo $a_2$ for de uma <b>outra tabela $R_2$,</b>
    então a condição corresponde a uma junção:\
        <font size="4">$\stackrel{(R_1.a_1\;\theta\; R_2.a_2)}{R_1 \bowtie R_2}$</font>.


## 2.1 Condições de comparação

Existem vários operadores de comparação <font size="4">$\theta $</font> disponíveis no padrão `SQL`.\
Além disso, as condições podem ser compostas pelos operadores lógicos `AND`, `OR` e `NOT`.

<br>

<div class=”square” style="background-color:#EAF030;"><b><font size="3" face="courier" color="blue">
Condições de comparação na cláusula `WHERE`</div>
<div class=”square” style="background-color:#E0E0E0;"><b><font size="3" face="courier" color="blue">
$<$condição$>$ = {<br>
 $<$atr$>$ $<$operator$>$ $<$val$>$<br>
  | $<$atr$>$ [NOT] BETWEEN $<$val1$>$ AND $<$val2$>$<br>
  | $<$atr$>$ [NOT] LIKE $<$val1$>$ [ESCAPE $<$val2$>$]<br>
</div>
<div class=”square” style="background-color:#C0C0E0;"><b><font size="3" face="courier" color="blue">
  | $<$atr$>$ IS [NOT] NULL}<br>
  | $<$atr$>$ [NOT] IN ( $<$val1$>$ [, <$<$aln$>$ ] | $<$select list$>$) &emsp; &emsp; &emsp; &emsp; &emsp; &emsp; Estudado em outro notebook<br>
  | EXISTS ( $<$select expr$>$)<br>
  | $<$atr$>$ [NOT] {=, $<$, $<$=, $>$, $>$=, $<>$, !=} {ALL|SOME|ANY} ($<$select list$>$)}<br>
</div>
<div class=”square” style="background-color:#E0E0E0;"><b><font size="3" face="courier" color="blue">
  | ($<$condição$>$)<br>
  | NOT $<$condição$>$ <br>
  | $<$condição$>$ OR $<$condição$>$<br>
  | $<$condição$>$ AND $<$condição$>$}
</div>

<br>


#### 2.1.1 Comparação com constantes

Qualquer operador de comparação $<$operador$>$ válido para o tipo de dados do atributo pode ser usado.

Para os tipos tradicionais (números, texto, datas, etc.), \
todos os operadores de igualdade e de ordem são aplicáveis:\
&emsp; $<$operator$>$ $\in \{=, != \mbox{ou} <>, <, <=, >, >= \}$

Comparar por 'diferente de' pode ser indicado pelos símbolos $!= \mbox{ou} <>$

In [None]:
%%sql
SELECT * 
    FROM Aluno
    WHERE Cidade != 'Sao Carlos' -- Note que atributos nulos também são excluídos
              ---^^---

In [None]:
%%sql
SELECT * 
    FROM Aluno
    WHERE Idade < 21;   -- Alunos menores de 21 anos

#### 2.1.2 Comparador `Between`

A condição
<div class=”square” style="background-color:#E0E0E0;"><b><font size="3" face="courier" color="blue">
$<$condição$>$ =  $<$atr$>$ [NOT] BETWEEN $<$val1$>$ AND $<$val2$>$
</div>

Esse operador é inclusivo: valores iniciais e finais são incluídos na resposta.\
Ou seja, onde: &emsp;     $val_1$ $\le$ $atr$ $\le$ $val_2$.

In [None]:
%%sql
SELECT * 
    FROM Aluno
    WHERE Idade Between 20 AND 25;   -- Comparando números

In [None]:
%%sql
SELECT * 
    FROM Aluno
    WHERE Cidade BETWEEN 'A' AND 'M';   -- Comparando textos: usa-se a ordem lexicográfica

In [None]:
%%sql
SELECT * 
    FROM Alunoc
    WHERE Cidade BETWEEN 'A' AND 'C';   -- 'Campinas' > 'C'

In [None]:
%%sql
SELECT * 
    FROM Aluno
    WHERE Cidade BETWEEN 'A' AND 'Ce';   -- 'Campinas' < 'Ce'

Em princípio, o `val1` deve ser menor ou igual ao valor `val2` na expressão <b><font size="3" face="courier" color="blue">$<$atr$>$ [NOT] BETWEEN $<$val1$>$ AND $<$val2$>$</font></b>.\
Mas se isso não for o caso, é possível pedir que o gerenciador 'ordene' os valores adequadamente com &nbsp; <b><font size="3" face="courier" color="blue">BETWEEN SYMMETRIC</font></b> :

Por exemplo:

In [None]:
%%sql
SELECT * 
    FROM Aluno
    WHERE Idade BETWEEN SYMMETRIC  (SELECT Idade FROM ALUNO WHERE NUSP='1234')  
                               AND (SELECT Idade FROM ALUNO WHERE NUSP='2345'); -- não sei qual deles tem a idade menor...

#### 2.1.3 Comparador `LIKE`

O operador de comparação `LIKE` compara dados de `tipo texto` usando a sintaxe:
<div class=”square” style="background-color:#EAF0F0;"><b><font size="3" face="courier" color="blue">
 $<$atr$>$ LIKE $<$padrao$>$ [ESCAPE $<$char$>$]
   </font></b>
</div>
onde $<$padrão$>$ é o texto a ser comparado.

o $<$padrão$>$ reconhece dois caracteres especiais:
  * `_` substitui <u>um</u> caracter qualquer;
  * `%` substitui <u>qualquer quantidade</u> de caracteres (incluindo nenhum)


   Exemplos:
  * 's_o carlos' -- bate com 'sao carlos', 'são carlos', 'sAo carlos', ...
  * 'Luiz%' -- bate com 'Luiz', 'Luiza', 'Luizinho', ...
  * '%Luiz%' -- bate com 'São Luiz', 'Luiz Alves', 'São Luiz do Norte', ...

In [None]:
%%sql
SELECT * 
    FROM Aluno
    WHERE Cidade LIKE '%in%';   -- Que cidade tem 'in' no nome?

In [None]:
%%sql
SELECT * 
    FROM Aluno
    WHERE Cidade LIKE 'Ara%';   -- Que cidade começa com 'Ara'?

In [None]:
%%sql
SELECT * 
    FROM Aluno
    WHERE Cidade LIKE 'Rio Claro';   -- Que cidade se chama 'Rio Claro'?

Caso o $<$padrão$>$ contenha `_` ou `%`, pode-se usar um caracter de `escape` precedendo o caracter.\
O `escape` <i>default</i>  é `\` para usar como `\_` ou `\%`\, mas o scape pode ser indicado explicitamente com `ESCAPE`.\
Por exemplo (bobinho, pois não existe uma cidade com `%` no nome):

In [None]:
%%sql
SELECT * 
    FROM Aluno
    WHERE Cidade LIKE 'Ara#%' ESCAPE '#';   -- Que cidade tem '%' no nome?

O comando  `LIKE` é sensível à caixa da letra.\
Se for necessário usar insensível à caixa, o comando é expresso como `ILIKE`:

In [None]:
%%sql
SELECT * 
    FROM Aluno
    WHERE Curso ILIKE 'mateMática';

#### 2.1.4 Expressões regulares

A expressão `LIKE` foi definida desde a primeira versão de SQL, anterior a 1985,\
 &emsp; &emsp; e portanto é parte integrante da linguagem.\
Isso faz com que os SGBDs tenham recursos poderosos para otimizar as consultas e recuperar os dados com eficiência. 

No entanto, do ponto de vista da expressividade das consultas, outros recursos foram sendo incorporados, \
e hoje o recurso das `Expressões Regulares` está disponível quase universalmente.

O padrão de interpretação de  `Expressões Regulares POSIX` é muito adotado em SQL,\
mas não está regulamentado ainda em `ISO SQL`.

Em <img src="Figuras/Postgres.png" width=100>, ele é definido pelo operador ` ~ `:

<div class=”square” style="background-color:#EAF0F0;"><b><font size="3" face="courier" color="blue">
SELECT  $<$condição$>$={ ...<br>
   &emsp; &emsp; | $<$atr$>$ {~ | !~ | ~* | !~*} $<$reg-expression$>$ }<br>
   </font></b>
</div>

onde:
  * `~`  - $<$atr$>$ bate com $<$reg-expression$>$, sensível à caixa da letra
  * `!~`  -  $<$atr$>$ bate com $<$reg-expression$>$, não sensível à caixa da letra
  * `~*`  -  $<$atr$>$ não bate com $<$reg-expression$>$, sensível à caixa da letra
  * `!~*` -  $<$atr$>$ não bate com $<$reg-expression$>$, não sensível à caixa da letra



In [None]:
%%sql
SELECT *
    FROM Aluno
    WHERE Nome ~ 'Carl';  -- Nome tem a substring 'Carl'

In [None]:
%%sql
SELECT *
    FROM Aluno
    WHERE Cidade ~ 'o.*o';  -- Cidade contém ao menos dois `o`

## 2.2 Expressões de comparação

As comparações podem ser comparadas em uma expressão, onde \
cada comparação individual resulta `TRUE`, `FALSE` ou `UNKNOWN` <small>(mais a frente trataremos de `UKNOWN`)</small>.

As epressões podem usar:
  * operadores lógicos `AND`, `OR`, `NOT` e
  * parenteses `( )`

Por exemplo:\
&emsp; Encontre os alunos, indicando por seu nome e número USP:\
&emsp; &emsp; cujo nome começa com a letra 'C'\
&emsp; &emsp; &emsp; &emsp; com idade entre 20 e 25 anos,\
&emsp; &emsp; &emsp; &emsp; das cidade de São Carlos ou Araraquara.

In [None]:
%%sql
SELECT NUSP, Nome
    FROM Aluno
    WHERE Nome ~'^C'
      AND Idade BETWEEN 20 AND 25
      AND (Cidade = 'Sao Carlos' OR Cidade = 'Araraquara');

### 2.2.1 Comparações de <i><b>rows</b></i>

Cada tupla é de fato implementada como uma <i><b>rows</b></i> em SQL.\
Além disso, qualquer sequência de atributos é tratada como se fosse um tupla,\
tanto na teoria quanto na linguagem, e deve ser expressa entre `( )`.

A linguagem SQL considera que qualquer sequência de atributos é uma <i><b>rows</b></i>,\
&emsp; mas permite que sequencias de apenas um atributo possa ser expressa sem os `( )`, \
&emsp; (como estamos fazendo até aqui),\
&emsp; e por isso é possível expressar:

In [None]:
%%sql
SELECT *
FROM Aluno
WHERE (Nome)=('Denise');  -- equivalente a:  Nome ='Denise'

Se quizermos trabalhar com uma sequência com mais de um atributo, então ela deve estar expressa entre `( )`.

Por exemplo:\
<i>Selecione os alunos cujos atributos `idade`  e `cidade` tenham os valores 21 e `Araraquara`</i>

In [None]:
%%sql
SELECT Nome
    FROM Aluno
    WHERE (Idade, Cidade) = (21, 'Araraquara');

É claro que se pode comparar os atributos individualmente como abaixo, \
mas as vezes fica mais fácil usar a expressão de tupla, \
especialmente quando a condição é para junções.

In [None]:
%%sql
SELECT Nome
    FROM Aluno
    WHERE Idade = 21 AND Cidade = 'Araraquara';

### 2.2.2 Teorema de De Morgan

Lembre-se do teorema de De Morgan para condições lógicas:\
<div class=”square” style="background-color:#EAF0F0;"><b><font size="3" face="courier" color="blue">
   $\overline{A\wedge B}=\overline{A}\vee \overline{B}$<br>
    &emsp; &emsp; e <br>
   $\overline{A\vee B}=\overline{A}\wedge \overline{B}$
   </font></b>
</div>

Portanto
<i>Selecione os alunos cujos atributos `idade`  e `cidade` <b>não</b> tenham os valores 21 e `Araraquara`</i>:\
&emsp; &star; não pode ser de Araraquara e ter 21 anos, \
&emsp; &emsp; &emsp; mas pode ser de Araraquara se não tiver 21 anos,\
&emsp; &emsp; &emsp; ou ter 21 anos se não for de Araraquara &star;

(Idade, Cidade) != (21, 'Araraquara')\
&emsp; é equivalente a \
Idade != 21 __OR__ Cidade != 'Araraquara':

In [None]:
%sql Result1 <<                \
SELECT Nome, Idade, Cidade      \
    FROM Aluno                   \
    WHERE (Idade, Cidade) != (21, 'Araraquara');
%sql Result2 <<                \
SELECT Nome, Idade, Cidade      \
    FROM Aluno                   \
    WHERE Idade != 21 OR Cidade != 'Araraquara';

print ('\nResult1:\n', Result1, sep='')
print ('\nResult2:\n', Result2, sep='')

Além disso, a concatenação de atributos também respeita a ordem lexicográfica:

In [None]:
%sql Result1 <<              \
SELECT Nome, idade, cidade    \
    FROM Aluno                 \
    WHERE Idade=22;
%sql Result2 <<                             \
SELECT Nome, idade, cidade                   \
    FROM Aluno                                \
    WHERE (Idade, Cidade) < (22, 'Botucatu');

print ('\nPara recordar: Result1:\n', Result1, sep='')
print ('\nResult2:\n', Result2, sep='')

Veja que usando `WHERE (Idade, Cidade) < (22, 'Botucatu')`,
  * Pela idade se recupera todos os alunos cuja `Idade` vai até 22 anos,
  * e dentre quem tem 22 anos, apenas aqueles cuja cidade vai até (excluindo) `Botucatu`\
    o que inclui o 'Cícero' de 'Araraquara' (cuja `Cidade`$<$ 'Botucatu'),\
     mas exclui  o 'Celso' de 'São Carlos' (cuja `Cidade`$\ge$ 'Botucatu'),\

## Agradecimentos

Material do Prof. Caetano Traina Jr.