# Introdução

O objetivo deste capítulo é introduzir ao leitor o que exatamente é SQL, e orientar como reproduzir facilmente os códigos ao longo do livro.


## O que é SQL?

Para definirmos o que é SQL, precisamos antes passar pelos seguintes conceitos:

* **Dados** são valores que, de forma isolada, não possuem significado ou utilidade. Podemos pensar em dados como matéria-prima para informação. Por exemplo, imagine um arquivo composto por fichas de pacientes de uma clínica. Cada ficha é composta por dados de pacientes, como, por exemplo, nome, endereço e datas das consultas. Observe que dado é o elemento básico deste arquivo.

* **Registro** é a combinação de diferentes dados, de modo a criar algum contexto e sentido para os mesmos. No exemplo do arquivo de pacientes da clínica, observe que os dados de cada ficha, de forma isolada, não possuem utilidade. No entanto, a combinação dos dados na ficha de um particular paciente, ou melhor, em um registro, gera contexto e significado para eles.

* **Informação** é o resultado do processamento e interpretação dos dados. Por exemplo, o número de dias desde a última consulta de um determinado paciente é uma informação extraída a partir da interpretação de um registro. Outro exemplo, o dia da semana com o maior número de atendimento é uma informação extraída a partir do processamento dos dados de todos os registros.

* **Banco de dados** é uma coleção de arquivos inter-relacionados. No exemplo da clínica, além do arquivo dos pacientes, podemos considerar que existem mais arquivos como, por exemplo, o dos funcionários. Estes arquivos em conjunto formam o banco de dados da clínica. Observe que o conceito de banco de dados se aplica tanto para dados informatizados como não informatizados.

* **SGBD** (Sistema Gerenciador de Banco de Dados) é um programa para gerenciar e facilitar o uso do banco de dados, atuando como uma interface entre os usuários e o banco de dados. Por meio do SGBD é possível não só ler os dados armazenados, como inserir novos, atualizá-los e removê-los de forma eficiente e segura, entre outras funcionalidades. No exemplo da clínica, uma vez que seus dados são não informatizados, podemos imaginar que o papel do SGBD poderia ser realizado por uma pessoa responsável por gerenciar os arquivos. Esta pessoa seria responsável buscar, inserir, alterar e apagar os registros dos pacientes sob solicitação, por exemplo, de uma secretária.

Podemos classificar os dados em três grupos:

* **Estruturados**: São os dados que seguem uma estrutura organizacional pré-definida. Quando voltamos ao exemplo do cadastro dos pacientes, todo cadastro obedece a mesma estrutura (mesmos campos). Logo, poderiamos facilmente armazená-los eletronicamente em uma tabela, onde cada linha representa o registro de um paciente e cada coluna, um campo presente na ficha.

* **Não estruturados**: São os dados que não se encaixam em uma estrutura organizacional pré definida. No exemplo da clínica poderíamos dizer que a imagem do raio-x é um dado não estruturado. Fotos, vídeos, áudios e textos livres são alguns exemplos de dados não estruturados.

* **Semiestruturados**: São dados que possuem estrutura organizacional, mas esta estrutura pode variar. No exemplo da clínica foi dito que as fichas dos pacientes são compostas pelos campos nome, endereço e datas das consultas. Agora imagine se os campos presentes não fossem exatamente os mesmos em cada ficha. Neste caso poderíamos dizer que estaríamos lidando com dados semiestruturados.

Já os bancos de dados possuem diferentes tipos, cada um projetado para atender diferentes necessidades. Podemos classificar os mais conhecidos em dois grupos:

* **Relacionais**: É o tipo de banco de dados mais popular, projetado para garantir a consistência e a integridade dos dados. Neste tipo os registros são organizados em tabelas que podem ser relacionadas por meio de chaves (campos identificadores). Alguns dos SGBDs mais conhecidos são MySQL, SQL Server, Oracle Database, PortgreSQL, SQLite.

* **NoSQL** (Not Only SQL): Este tipo é projetado para lidar com dados não estruturados ou semiestruturados. O armazenamento dos dados pode ser feito em formato de documentos, grafos, chave-valor ou colunas. Alguns dos SGBDs mais conhecidos são MongoDB, Cassandra, Neo4j, Redis e HBase.

Finalmente podemos definir **SQL** (Structured Query Language ou Linguagem de Consulta Estruturada) como uma linguagem de programação baseada em álgebra relacional, que surgiu nos anos 70 para interação com **bancos de dados relacionais**. Diferentemente de linguagens como Python, que são consideradas imperativas (isto é, o programador precisa especificar passo a passo o que o sistema deve executar para que um determinado resultado seja obtido), SQL é uma linguagem declarativa, o que na prática significa que o programador declara qual resultado deseja e permite que o sistema determine como obtê-lo. No exemplo da clínica, supondo que ela passou por uma transformação digital, e todos aqueles dados agora estão armazenados eletronicamente em um banco de dados relacional, agora operações de CRUD (create, read, update, delete ou inserção, leitura, atualização e remoção), entre outras operações, devem ser realizadas via instruções em linguagem SQL por meio de um SGBD.

A linguagem SQL pode ser dividida nas seguintes partes:

* **DDL** (*Data Definition Language* ou Linguagem de Definição de Dados): engloba comandos para criação (<code>CREATE</code>), alteração (<code>ALTER</code>) e deleção (<code>DROP</code>) de objetos em um banco de dados;

* **DML** (*Data Manipulation Language* ou Linguagem de Manipulação de Dados): engolba comandos para operações de CRUD no banco de dados, entre eles os comandos de inserção de novos dados (<code>INSERT</code>), consulta ou leitura no banco de dados (<code>SELECT</code>), atualização nos dados (<code>UPDATE</code>) e remoção de linhas (<code>DELETE</code>). Em alguns materiais o comando <code>SELECT</code> faz parte de um grupo chamado DQL (*Data Query Language* ou Linguagem de Consulta de Dados).

* **DCL** (*Data Control Language* ou Linguagem de Controle de Dados): engloba comandos para controle de acesso aos dados, entre eles o <code>GRANT</code> para conceder e o <code>REVOKE</code> para retirar privilégios de acesso;

* **DTL** (*Data Transaction Language* ou Linguagem de Transação de Dados): engloba comandos para o controle de transações no banco de dados, entre eles os comando <code>BEGIN</code>, <code>COMMIT</code> e <code>ROLLBACK</code>, para o início, fim e reversão de uma transação, respectivamente.

A maioria das operações em banco de dados no contexto da ciência de dados é realizada por meio de comandos DML, em especial o SELECT. Os comandos DDL também são utilizados, porém em menor escala. Já os comandos DCL e DTL são menos comuns de serem utilizados por profissionais de ciência de dados. 

A maioria das operações em banco de dados no contexto da ciência de dados é realizada por meio de comandos DML, em especial o <code>SELECT</code>. Além disso, para prepararmos o ambiente necessário para a prática, bem como exemplificar conceitos de normalização e relacionamentos que serão vistos, alguns comandos DDL também serão utilizados. Sendo assim, este livro irá desprezar a partir de agora os comandos DCL e DTL.

(introduction:reproduction)=
## Como reproduzir os exemplos?

Neste seção você vai aprender como como criar um banco de dados [SQLite](https://www.sqlite.org/index.html) e executar instruções SQL no [Jupyter Notebook](https://jupyter.org/). Este conhecimento é necessário para a reprodução dos exemplos em todo o livro.

In [1]:
# Setup
import os

DB_FILE = "mydb.db"
if os.path.exists(DB_FILE):
    os.remove(DB_FILE)

Como primeiro passo, instale as seguintes bibliotecas no seu ambiente Python:

* ipykernel
* ipython-sql

```{code-cell}
print(2 + 2)
```

`````{admonition} Importante
:class: important

Os exemplos práticos deste livro foram desenvolvidos utilizando Python 3.9.13 com as bibliotecas ipykernel e ipython-sql nas versões 6.25.0 e 0.5.0, respectivamente. Em caso de problemas para reproduzir os exemplos, considere utilizar as mesmas versões.
`````

`````{admonition} Dica
:class: tip

Para instalar a versão específica de uma biblioteca, por exemplo, ipython-sql 0.5.0, execute no notebook <code>!pip install ipython-sql==0.5.0</code>.
`````

Instaladas todas as dependências, execute o seguinte **comando mágico** no notebook:

In [2]:
%load_ext sql

Este comando carrega a extensão **sql**, utilizada para estabelecer a conexão com o banco de dados que iremos criar.

`````{admonition} Dica
:class: tip

Os comandos mágicos do Jupyter Notebook são funções que fornecem funcionalidades extras ao notebook, além do que pode-se realizar via código Python. 

Para saber mais, acesse esta [documentação](https://ipython.readthedocs.io/en/stable/interactive/magics.html).
`````

Em seguida, execute o comando abaixo para conectar-se com o banco de dados SQLite. Caso o banco ainda não exista, ele será criado. Note que **mydb.db** é o nome escolhido para para o banco de dados neste exemplo. Você pode escolher outro nome mais conveniente, caso deseje.

In [3]:
%sql sqlite:///mydb.db

Com o banco de dados criado criado, agora é possível executar instruções SQL. Vamos criar, como exemplo, a tabela TB_CLIENTE:

In [4]:
%%sql

CREATE TABLE tb_cliente ( 
	cd_cliente INTEGER PRIMARY KEY,
	nm_cliente TEXT NOT NULL,
	ds_email TEXT NOT NULL UNIQUE
);

 * sqlite:///mydb.db
Done.


[]

Observe que agora o comando mágico foi executado utilizando **%%** ao invés de **%**. Isto se deve ao fato de **%** ser aplicado a comandos orientados a linha, enquanto **%%**, a comandos orientados a célula. Você pode aprender mais sobre comandos mágicos nesta [documentação](https://ipython.readthedocs.io/en/stable/interactive/magics.html).

Para enriquecer o exemplo, vamos inserir alguns dados na tabela recém criada:

In [5]:
%%sql

INSERT INTO tb_cliente (nm_cliente, ds_email) 
VALUES
    ('Hildemar Diniz Monarco' , 'monarco@gmail.com'),
    ('Dona Ivone Lara' , 'donaivone@gmail.com'),
    ('Antônio Candeia' , 'candeia@yahoo.com'),
    ('Jovelina Pérola Negra' , 'perolanegra@yahoo.com');

 * sqlite:///mydb.db
4 rows affected.


[]

Por fim, vamos consultar os dados da tabela TB_CLIENTE:

In [6]:
%%sql

SELECT * FROM TB_CLIENTE

 * sqlite:///mydb.db
Done.


cd_cliente,nm_cliente,ds_email
1,Hildemar Diniz Monarco,monarco@gmail.com
2,Dona Ivone Lara,donaivone@gmail.com
3,Antônio Candeia,candeia@yahoo.com
4,Jovelina Pérola Negra,perolanegra@yahoo.com


Pronto, agora você já sabe como criar bancos de dados e executar instruções SQL no Jupyter Notebook.