# SQLite - Acesso a bases de dados

Embora a biblioteca Pandas seja a indica para o tratamento da maior parte das situações, por vezes torna-se necessário a utilização de bases de dados e das operações associadas às bases de dados.

Um dos motores de bases de dados disponíveis para pequenas implementações é o SQLite, cuja utilização se mostra de seguida.

Há operações que tipicamente são mais rápidas com o SQLite (select, filter e order) e outras que são mais rápidas com o Pandas (group by, load e join).

In [1]:
import sqlite3
conn = sqlite3.connect('empregados.db')

c = conn.cursor()
#Comando para criar uma tabela de dados (ex. empregado)
c.execute('CREATE TABLE empregado (nome varchar(255), departamento char(1), ano_nascimento int, salario double);')
#Criacao da tabela bonus
c.execute('CREATE TABLE bonus (nome varchar(255), bonus double);')

#Depois de criar as tabelas não volte a correr o código acima
#Caso deseje recriar a BD, ou apaga o ficheiro da mesma, empregados.db, ou faz DROP das tabelas desejadas.

<sqlite3.Cursor at 0x7f492f26bdc0>

In [2]:
for row in c.execute('SELECT * FROM empregado LIMIT 10'):
  print(row)

In [None]:
#c.execute("INSERT INTO empregado VALUES ('Joao','I',2015,2345);")
#c.execute('INSERT INTO empregado VALUES ("Joao2","I",2016,23456);') 

<sqlite3.Cursor at 0x7f85081ffe30>

In [3]:
#Criacao de dados random para preencher a tabela empregado (populate)
#Existem bibliotecas em Python que permitem preenchimento das tabelas 
#com dados mais parecidos com os reais ex. https://faker.readthedocs.io/en/master/#

import random
import string

def random_string(length, chars=string.ascii_letters):
    return ''.join(random.choice(chars) for _ in range(length))

def gerar_empregados(n):
    for _ in range(n):
        yield (random_string(8), random_string(1, chars='abcdefg'), random.randint(1900, 2000), random.uniform(1e4, 1e5))

#Teste para ver se gera as linahs corretamente
for linha in gerar_empregados(3):
    linha2 = "INSERT INTO empregado VALUES ('" + linha[0] + "','" + linha[1] + "'," + str(int(linha[2])) + "," + str(linha[3])+");" 
    print(linha2)

INSERT INTO empregado VALUES ('mnmnSNYk','g',1938,31765.563537259277);
INSERT INTO empregado VALUES ('VgwJssLx','c',1939,88054.36439993106);
INSERT INTO empregado VALUES ('ljkVIMnb','f',1921,14302.211800840163);


In [4]:
#Insercao de 10000 linhas utilizando o código acima
#Pode alterar o valor 10000 para o valor que desejar quanto estiver a fazer testes à BD

for lin in gerar_empregados(10000):
    linha = "INSERT INTO empregado (nome, departamento, ano_nascimento, salario) VALUES ('" + lin[0] + "','" + lin[1] + "'," + str(lin[2]) + "," + str(lin[3])+");"
    c.execute(linha)

for row in c.execute('SELECT * FROM empregado LIMIT 10'):
  print(row)

    #cur = conn.cursor()
    #cur.execute("SELECT * FROM tasks")
    #rows = cur.fetchall()
    #for row in rows:
    #    print(row)

('etKayYNq', 'f', 1937, 26830.249631788207)
('eWoEeJIY', 'f', 1973, 34998.965142930494)
('hakoaTzi', 'e', 1990, 80013.58136750082)
('HsFOknlJ', 'g', 1982, 42441.389677009836)
('sLGGWmLo', 'b', 1924, 14857.929844437083)
('IOwwQGPx', 'b', 1980, 60867.64817537128)
('FbYrQuNi', 'e', 1981, 57812.150413356096)
('uVUTQSCU', 'c', 1941, 15092.06149198665)
('fLdakrLz', 'a', 1989, 77222.39440958302)
('qnpFTOeU', 'd', 1954, 97703.6399823118)


In [10]:
#não esquecer de utilizar dois cursors

for row in c.execute('SELECT nome FROM empregado limit 3'):
  print(row[0])

c1 = conn.cursor()
c2 = conn.cursor()

for row in c1.execute('SELECT nome FROM empregado'):
  #print(row[0])
  linha = 'INSERT INTO bonus (nome, bonus) VALUES ("' + row[0] + '",' + str(random.uniform(1e4, 1e5)) + ')'
  c2.execute(linha)

#Guardar as alterações
#conn.commit()
#Fechar a ligação à BD
#conn.close()

[1;30;43mA saída de streaming foi truncada nas últimas 5000 linhas.[0m
xezMmhoh
CHzHGyJo
JvZlVkWs
HEbgiyEW
iPnWIMuZ
uXrtjfMh
stWPhcRf
uBmMZNyI
QHYzdoTb
iANXMvWj
CeriKIpt
WcOcEmXX
nyKeehkX
smzDGdqQ
tJKPRweo
ZgIBwqKX
TsdYjHSN
EoKWJDvt
YoJUinBt
uudyixRO
USmGrqEi
AyWggiFe
WgggYBnN
rsCPizer
VggWGfRE
HqXiEDVx
HSUnGUNp
tCHcgDda
FLdMULnt
QSDmBCYS
JgZLDUwo
wSsucVav
mJgejZme
aQeUaqRZ
vueKrvdG
iSDjobKp
ViUDgjgU
AkXfbnsj
xlhdrRKD
UslnWWLk
JWQSIPZQ
afXMNgaB
qziBFcMv
EqQYrUlw
cidWRcrC
EUlQjWhr
RFaJogAQ
OTtacKeU
PAhOjImY
lOmpYfut
qUVwkwfv
KtjqwoAx
XdliHZks
GezCInUU
AwQgaCrM
iSYXnWoB
PJGKqFQW
JBbZUIEo
RDFcqmRR
kBYpEUCZ
gUaePWpo
EOiZIVDz
hqFrOMwE
hnBcFXFE
YHbAhEku
rYKUYsIm
BHjueecB
yeCHAIKJ
vYDJYIdH
obHzIPEN
QSsBwFiI
yBcSzMNG
tcUCuATB
SbvXpspJ
XDNaVQJh
IUiEkoLL
ehoBpgzr
cKzAYkwf
ebbnvZdt
OrzhNaBE
fmcWowcq
FmHGJfzw
PAItPNrq
AypUdHrA
AGkirJMA
bwKIHpdm
zUukHCep
mVPGlgHs
gmpooueV
YspmdicT
ECVHHYDG
uiUNDfdH
fdFXVlPG
FJVxPAWH
AAOavPeR
AvRJdXXo
oBjSDvlT
rQCjNJKx
AdHJoTum
xrknjaDP
gWMydQlC
hnsPjiwa
XEPTNqKC


In [None]:
for row in c.execute('SELECT nome FROM empregado limit 10'):
  print(row)

In [11]:
for row in c.execute("select * from bonus limit 10;"):
  print(row)

('etKayYNq', 57038.77901665872)
('etKayYNq', 50153.677286385275)
('etKayYNq', 83795.22506306005)
('etKayYNq', 51934.34047454572)
('etKayYNq', 58513.28764056547)
('eWoEeJIY', 97953.4921148244)
('hakoaTzi', 34780.6588724255)
('HsFOknlJ', 68338.59003333344)
('sLGGWmLo', 70735.90228549659)
('IOwwQGPx', 31309.896219315393)


De seguida vai-se testar o desempenho de execução da leitura de duas colunas à tabela empregado, uma utilizando o motor de BD SQLite e outra utilizando o Pandas (Fonte: http://bit.ly/2G93lbj). 

In [14]:
#Para listar os valores das tabelas utilizaos seguintes métodos / funções:
import sqlite3
import pandas as pd
from timeit import timeit

conn = sqlite3.connect('empregados.db')
df_empregado = pd.read_sql_query('SELECT * FROM empregado', conn)
print(df_empregado.head())
    
def sql_select(conn):
    conn.execute('SELECT nome, departamento FROM empregado')
    conn.commit()

def pd_select(df_empregado):
    df_empregado[["nome", "departamento"]]
        
#%timeit sql_select(conn)
#%timeit pd_select(df_empregado)
#conn.close()

print("Comente os valores que obteve.")

       nome departamento  ano_nascimento       salario
0  etKayYNq            f            1937  26830.249632
1  eWoEeJIY            f            1973  34998.965143
2  hakoaTzi            e            1990  80013.581368
3  HsFOknlJ            g            1982  42441.389677
4  sLGGWmLo            b            1924  14857.929844
Comente os valores que obteve.


# Exercício 1:
    
Teste as restantes situações de manipulações de dados, com as seguintes funções:

In [16]:
import numpy as np

def sql_sort(c):
    c.execute('SELECT * FROM empregado ORDER BY nome ASC;')

def pd_sort(df):
    df.sort_values(by='nome')

def sql_join(c):
    c.execute('SELECT empregado.nome, empregado.salario + bonus.bonus FROM empregado INNER JOIN bonus ON empregado.nome = bonus.nome')

def pd_join(df_emp, df_bonus):
    joined = df_emp.merge(df_bonus, on='nome')
    joined['total'] = joined['bonus'] + joined['salario']

def sql_filtrar(c):
    c.execute('SELECT * FROM empregado WHERE departamento = "a";')

def pd_filtrar(df):
    df[df['departamento'] == 'a']

def sql_groupby(c):
    c.execute('SELECT avg(ano_nascimento), sum(salario) FROM empregado GROUP BY departamento;')

def pd_groupby(df):
    df.groupby("departamento").agg({'ano_nascimento': np.mean, 'salario': np.sum})


#Carregar dados a partir do disco - é preciso criar os ficheiros com os dados e testar
def sql_load(c):
  c.execute('CREATE TABLE empregado2 (nome varchar(255), departamento char(1), ano_nascimento int, salario double);')
  #criar um csv com os dados e chama-lo aqui
  df_emp = pd.read_csv("empregados2.csv")
  df_emp.columns = ['nome','departamento','ano_nascimento','salario']
  df_emp.to_sql('empregado2', c, if_exists='replace')

  c.execute('CREATE TABLE bonus2 (nome varchar(255), bonus double);')
  df_bonus = pd.read_csv('bonus2.csv')
  df_bonus.columns = ['nome','bonus']
  df_bonus.to_sql('bonus', c, if_exists='replace')

def load():
  df_emp = pd.read_csv("empregados2.csv")
  df_emp.columns = ['nome','departamento','ano_nascimento','salario']
  df_bonus = pd.read_csv('bonus2.csv')
  df_bonus.columns = 'nome','bonus']

In [15]:
%timeit sql_sort(conn)
%timeit pd_sort(df_empregado)


100 loops, best of 5: 3.92 ms per loop
100 loops, best of 5: 7.5 ms per loop


## Exercício 2:

Compare a performance do SQLite vs Pandas utilizando um DataSet com 100 000 linhas.

Utilize o dataset relativo a vinhos disponível em https://www.kaggle.com/zynicide/wine-reviews/version/4

Olhe para os dados e faça medições de tempo relativas a alguns cálculos (ex. preco médio do vinho, vinhos mais baratos com a melhor classificação, etc.).

#In memory sqllite databases


In [None]:
import sqlite3
#c1 = sqlite3.connect(":memory:file::memory:?cache=shared", uri=True)
c1 = sqlite3.connect(":memory:")
c1.execute('CREATE TABLE foo (bar, baz)')
c1.execute("INSERT INTO foo VALUES ('spam', 'ham')")
c1.commit()
list(c1.execute('SELECT * FROM foo'))

#Fonte: https://stackoverflow.com/questions/32681761/how-can-i-attach-an-in-memory-sqlite-database-in-python/32681822#32681822

In [None]:
c1.close()

## Sintaxe Pandas vs SQL

No seguinte link http://bit.ly/2G9skev podem ver a comparação entre a sintaxe da biblioteca Pandas e a linguagem SQL. 

## SQLAlchemy

Para realizar operações mais complexas consulte a seguinte biblioteca https://www.sqlalchemy.org/

## PostgreSQL

A base de dados SQLite permite guardar informação e realizar um grande conjunto de tarefas sendo uma das preferidas pelos analistas de dados.

No entanto, se desejar trabalhar com bases de dados mais robusta sugere-se a utilização das base de dados PostgreSQL.

Para poder interagir com este motor de base de dados terá primeiramente que instalar o PostGreSQL na sua máquina.

Faça import da bilioteca psycopg2 para trabalhar com o PostgreSQL.

```
import psycopg2
```

Se der erro terá de instalar o package com o comando: 

```
pip install psycopg2
```

Veja um tutorial de como utilizar a biblioteca psycopg2.


In [None]:
#https://blog.panoply.io/connecting-jupyter-notebook-with-postgresql-for-python-data-analysis
pip install sqlalchemy psycopg2

In [None]:
POSTGRES_ADDRESS = 'db.panoply.io' ## INSERT YOUR DB ADDRESS IF IT'S NOT ON PANOPLY
POSTGRES_PORT = '5439'
POSTGRES_USERNAME = 'username' ## CHANGE THIS TO YOUR PANOPLY/POSTGRES USERNAME
POSTGRES_PASSWORD = '*****' ## CHANGE THIS TO YOUR PANOPLY/POSTGRES PASSWORD POSTGRES_DBNAME = 'database' ## CHANGE THIS TO YOUR DATABASE NAME
# A long string that contains the necessary Postgres login information
postgres_str = ('postgresql://{username}:{password}@{ipaddress}:{port}/{dbname}'.format(username=POSTGRES_USERNAME,password=POSTGRES_PASSWORD,ipaddress=POSTGRES_ADDRESS,port=POSTGRES_PORT,dbname=POSTGRES_DBNAME))
# Create the connection
cnx = create_engine(postgres_str)