*SQLite*

O SQLite é uma biblioteca embutida em um processo único que é autônomo, não necessita de servidor e exige zero de configuração. O código é de domínio público e seu uso é gratuito em qualquer tipo de utilização. Trata-se de um sistema SQL completo, capaz de utilizar múltiplas tabelas, índices, gatilhos e visões. Ele funciona, virtualmente, em qualquer plataforme (incluindo móveis) e pesa cerca de 600KB.

*Objetivos*

Ao fim deste laboratório, você deverá ser capaz de: - Conectar-se a um banco de dados do tipo SQLite utilizando o R como interface; - Explorar quais são as tabelas disponíveis no referido banco de dados; - Identificar quais são as colunas de uma dada tabela existente no banco de dados; - Realizar pesquisas simples; - Extrair registros do banco de dados e armazená-las em objetos do R; - Realizar pesquisas mais complexas, utilizando WHERE, GROUP BY, INNER JOIN, HAVING, LIMIT, DISTINCT e GLOB.

1. Baixe o arquivo disco.db e armazene na variável path o caminho completo (pasta) na qual o arquivo foi gravado. Utilize o comando file.path() para combinar a variável path com o nome do arquivo (disco.db) e obter o nome do arquivo com seu respectivo caminho. Armazene este resultado na variável fname.

In [None]:
## Arquivo: disco.db é um arquivo binário

## Fazer download do arquivo e trabalhar com ele localmente

2. Utilizando o pacote RSQLite, conecte-se ao arquivo de banco de dados. Armazene a conexão na variável conn.

In [1]:
library(RSQLite)

In [5]:
## dbConnect recebe dois argumentos: 
## 1) o formato do banco de dados que iremos conectar (driver);
## 2) o caminho para o arquivo que iremos trabalhar 

fname = file.path("ME315", "disco", "disco.db")
file.exists(fname)

conn = dbConnect(SQLite(), fname)
conn

<SQLiteConnection>
  Path: /srv/data/ME315/disco/disco.db
  Extensions: TRUE

3. Liste as tabelas existentes no banco de dados.

In [6]:
## Para listar tabelas, utilizamos dbListTables()

dbListTables(conn)

4. Identifique os nomes de todas as colunas existentes na tabela customers.

In [9]:
## Para indicar colunas existentes em uma tabela específica utilizamos dbListFields()
## Uma maneira de lembrar é entender que as COLUNAS são CAMPOS de uma tabela

dbListFields(conn, 'customers')

5. Utilizando apenas SQLite, com o apoio do comando dbGetQuery, identifique quantos clientes estão atualmente cadastrados neste banco de dados.

In [13]:
## "Selecione todas as colunas da tabela customers"

## Selecionando todas as linhas e colunas:
dbGetQuery(conn, "SELECT * FROM customers")

## Selecionando a soma dos clientes:
dbGetQuery(conn, "SELECT COUNT(*) FROM customers")

## Selecionando a soma dos clientes pelo identificador:
dbGetQuery(conn, "SELECT COUNT(CustomerId) FROM customers")

CustomerId,FirstName,LastName,Company,Address,City,State,Country,PostalCode,Phone,Fax,Email,SupportRepId
<int>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<int>
1,Luís,Gonçalves,Embraer - Empresa Brasileira de Aeronáutica S.A.,"Av. Brigadeiro Faria Lima, 2170",São José dos Campos,SP,Brazil,12227-000,+55 (12) 3923-5555,+55 (12) 3923-5566,luisg@embraer.com.br,3
2,Leonie,Köhler,,Theodor-Heuss-Straße 34,Stuttgart,,Germany,70174,+49 0711 2842222,,leonekohler@surfeu.de,5
3,François,Tremblay,,1498 rue Bélanger,Montréal,QC,Canada,H2G 1A7,+1 (514) 721-4711,,ftremblay@gmail.com,3
4,Bjørn,Hansen,,Ullevålsveien 14,Oslo,,Norway,0171,+47 22 44 22 22,,bjorn.hansen@yahoo.no,4
5,František,Wichterlová,JetBrains s.r.o.,Klanova 9/506,Prague,,Czech Republic,14700,+420 2 4172 5555,+420 2 4172 5555,frantisekw@jetbrains.com,4
6,Helena,Holý,,Rilská 3174/6,Prague,,Czech Republic,14300,+420 2 4177 0449,,hholy@gmail.com,5
7,Astrid,Gruber,,"Rotenturmstraße 4, 1010 Innere Stadt",Vienne,,Austria,1010,+43 01 5134505,,astrid.gruber@apple.at,5
8,Daan,Peeters,,Grétrystraat 63,Brussels,,Belgium,1000,+32 02 219 03 03,,daan_peeters@apple.be,4
9,Kara,Nielsen,,Sønder Boulevard 51,Copenhagen,,Denmark,1720,+453 3331 9991,,kara.nielsen@jubii.dk,4
10,Eduardo,Martins,Woodstock Discos,"Rua Dr. Falcão Filho, 155",São Paulo,SP,Brazil,01007-010,+55 (11) 3033-5446,+55 (11) 3033-4564,eduardo@woodstock.com.br,4


COUNT(*)
<int>
59


COUNT(CustomerId)
<int>
59


6. Utilizando apenas SQLite, identifique o número de países diferentes em que moram os clientes encontrados acima.

In [14]:
dbListFields(conn, "customers")

In [33]:
## Selecionando os países:
## dbGetQuery(conn, "SELECT Country FROM customers")

## Selecionando os países distintos (sem repetição):
## dbGetQuery(conn, "SELECT DISTINCT(Country) FROM customers")

## Selecionando a soma os países distintos (sem repetição):
#sql = dbGetQuery(conn, "SELECT COUNT(DISTINCT Country) FROM customers")

## Renomeando o resultado para 'qtd' utilizamos o argumento AS e o nome que queremos antes do argumento FROM:
sql = "SELECT COUNT(DISTINCT Country) AS qtd FROM customers"
dbGetQuery(conn, sql)

qtd
<int>
24


7. Utilizando apenas SQLite, quantos clientes existem por país? A tabela resultante deve conter o nome do país e a respectiva contagem, além de ser ordenada de maneira decrescente pela referida contagem.

In [27]:
## input  %>% group_by(Country)  %>% count()  %>% arrange(DESC(n))

sql = paste("SELECT Country, COUNT(CustomerId) AS n",
            "FROM customers", 
            "GROUP BY Country",
            "ORDER BY n DESC")
dbGetQuery(conn, sql)

Country,n
<chr>,<int>
USA,13
Canada,8
Brazil,5
France,5
Germany,4
United Kingdom,3
Czech Republic,2
India,2
Portugal,2
Argentina,1


8. Quais são os 5 países com mais clientes registrados? Use apenas SQLite.

In [28]:
sql = paste("SELECT Country, COUNT(CustomerId) AS n",
            "FROM customers", 
            "GROUP BY Country",
            "ORDER BY n DESC",
            "LIMIT 5")
dbGetQuery(conn, sql)

Country,n
<chr>,<int>
USA,13
Canada,8
Brazil,5
France,5
Germany,4


9. Quais são os países registrados que possuem apenas 6 letras no nome?

In [40]:
sql = "SELECT DISTINCT Country FROM Customers 
        WHERE Country GLOB '??????'"
dbGetQuery(conn, sql)

Country
<chr>
Brazil
Canada
Norway
France
Poland
Sweden


10. Quais foram as músicas compradas por clientes brasileiros?

In [47]:
sql = "SELECT CustomerId FROM customers WHERE Country = 'Brazil'"
dbGetQuery(conn, sql)

CustomerId
<int>
1
10
11
12
13


Olhando o slide 4, vemos que precisamos juntar as tabelas **customers**, **invoices**, **invoice_items** e **tracks** para obter os nomes das músicas. Dessa forma, fazemos:

In [48]:
sql = "SELECT customers.CustomerId, InvoiceId FROM customers 
    INNER JOIN invoices
    ON customers.CustomerId = invoices.CustomerId
    WHERE Country = 'Brazil'"
## ON customers.CustomerId = invoices.CustomerId é a chave para o inner join
dbGetQuery(conn, sql)

CustomerId,InvoiceId
<int>,<int>
1,98
1,121
1,143
1,195
1,316
1,327
1,382
10,25
10,154
10,177


11. Desconecte do banco de dados.

In [None]:
dbDisconnect(conn)