# Interagindo com Dados Externos

Nesta seção, veremos como usar o Python para interagir com dados externos de diversas fontes. 

## Arquivos em Disco

### Abrindo Arquivos para Leitura

Em anexo, na pasta `./Dados`, nós temos uma cópia do livro [Dom Casmurro][dom_casmurro] de [Machado de Assis][machado_de_assis] obtido no site do [Projeto Gutenberg][gutenberg]. Para abri-lo, usamos o comando `open` do Python.


[dom_casmurro]: https://pt.wikipedia.org/wiki/Dom_Casmurro
[machado_de_assis]: https://pt.wikipedia.org/wiki/Machado_de_Assis
[gutenberg]: http://www.gutenberg.org/wiki/Main_Page

In [1]:
dom_casmurro = open('Dados/machado_de_assis_dom_casmurro.txt')
dom_casmurro

<_io.TextIOWrapper name='Dados/machado_de_assis_dom_casmurro.txt' mode='r' encoding='UTF-8'>

Para ler todo o conteúdo do arquivo, basta usar o método `read`.

In [2]:
dom_casmurro.read()[:1000] # Mostrando só os primeiros 1000 caracteres

"\ufeffThe Project Gutenberg EBook of Dom Casmurro, by Machado de Assis\n\nThis eBook is for the use of anyone anywhere in the United States and most\nother parts of the world at no cost and with almost no restrictions\nwhatsoever.  You may copy it, give it away or re-use it under the terms of\nthe Project Gutenberg License included with this eBook or online at\nwww.gutenberg.org.  If you are not located in the United States, you'll have\nto check the laws of the country where you are located before using this ebook.\n\nTitle: Dom Casmurro\n\nAuthor: Machado de Assis\n\nRelease Date: October 15, 2017 [EBook #55752]\n\nLanguage: Portuguese\n\n\n*** START OF THIS PROJECT GUTENBERG EBOOK DOM CASMURRO ***\n\n\n\n\nProduced by Laura Natal Rodriguez & Marc D'Hooghe at Free\nLiterature (online soon in an extended version,also linking\nto free sources for education worldwide ... MOOC's,\neducational materials,...) (Images generously made available\nby the Bibliotheca Nacional Digital Brasil.)\

Ao invés de retornar todo o arquivo como uma `string`, podemos usar o método `readlines` para nos retornar cada linha em uma `string` dentro de uma lista.

In [3]:
dom_casmurro.seek(0) # retorna o início do arquivo
dom_casmurro.readlines()[:10] # só mostra as 10 primeiras linhas

['\ufeffThe Project Gutenberg EBook of Dom Casmurro, by Machado de Assis\n',
 '\n',
 'This eBook is for the use of anyone anywhere in the United States and most\n',
 'other parts of the world at no cost and with almost no restrictions\n',
 'whatsoever.  You may copy it, give it away or re-use it under the terms of\n',
 'the Project Gutenberg License included with this eBook or online at\n',
 "www.gutenberg.org.  If you are not located in the United States, you'll have\n",
 'to check the laws of the country where you are located before using this ebook.\n',
 '\n',
 'Title: Dom Casmurro\n']

Se o arquivo for muito grande, pode ser interessante ler linha por linha e para isso usamos o método `readline`

In [4]:
dom_casmurro.seek(0)

for i in range(10):
    print(dom_casmurro.readline())

﻿The Project Gutenberg EBook of Dom Casmurro, by Machado de Assis



This eBook is for the use of anyone anywhere in the United States and most

other parts of the world at no cost and with almost no restrictions

whatsoever.  You may copy it, give it away or re-use it under the terms of

the Project Gutenberg License included with this eBook or online at

www.gutenberg.org.  If you are not located in the United States, you'll have

to check the laws of the country where you are located before using this ebook.



Title: Dom Casmurro



Ao terminar com o arquivo, devemos sempre fechá-lo para liberar o espaço em memória:

In [5]:
dom_casmurro.close()

E podemos verificar se o arquivo foi fechado com sucesso:

In [6]:
dom_casmurro.closed

True

### Escrevendo em Arquivos

O método `open` para abrir arquivos possui outros modos. Acima, utilizamos o modo de leitura `r` que é o padrão. Vamos usar agora o modo `w` de escrita.

In [7]:
meu_texto = open('Dados/meu_texto.txt', 'w')

In [8]:
meu_texto.write('1\n')
meu_texto.writelines(['2\n', '3\n']) # Usado para escrever uma lista de strings

In [9]:
meu_texto.close()

Ao usar o modo `w`, o conteúdo do arquivo é limpo ao ser aberto. Se quiser, podemos abrir de tal forma que só é permitido adicionar novas linhas, mantendo as linhas originais intactas. Para isso, usamos o modo `a` de `append`:

In [10]:
meu_texto = open('Dados/meu_texto.txt', 'a')
meu_texto.writelines(['4\n', '5\n']) 
meu_texto.close()

Vamos abrir o arquivo para leitura e verificar se foi escrito corretamente:

In [11]:
meu_texto = open('Dados/meu_texto.txt')
print(meu_texto.read())
meu_texto.close()

1
2
3
4
5



### Abrindo Arquivos com `with`

Ao abrir arquivos, é possível que esqueçamos de fechar após utiliá-lo. Para evitar isso podemos usar o gerenciador de contexto (*context manager*) `with`, que fecha o arquivo após o término da execução do bloco de código:

In [12]:
with open('Dados/meu_texto.txt') as f:
    print(f.read())
    
print('O arquivo foi fechado?', f.closed)

1
2
3
4
5

O arquivo foi fechado? True


> Quais são as palavras mais exóticas, ou seja, as menos usadas no Dom Casmurro? E as mais usadas? 
>
> Crie um contador de palavras para responder as perguntas acima. Aproveite também para escrever o resultado em um arquivo no disco. 

## Obtendo Arquivos da Internet 

Em algumas ocasiões, os dados que vamos precisar estará disponibilizado na Internet e precisaremos trazê-los para o disco. Como exemplo, vamos fazer o *download*  dos dados dos passsageiros do Titanic.

In [13]:
from urllib.request import urlretrieve

url = 'https://raw.githubusercontent.com/mwaskom/seaborn-data/master/titanic.csv'

urlretrieve(url, 'Dados/titanic.csv')

('Dados/titanic.csv', <http.client.HTTPMessage at 0x7f137d62b6d0>)

E agora verificamos se os dados foram trazidos com sucesso:

In [14]:
with open('Dados/titanic.csv') as f:
    for i in range(6):
        print(f.readline()) # as 6 primeiras linhas

survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone

0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False

1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False

1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True

1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False

0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True



O arquivo foi trazido com sucesso e foi possível abrir e mostra as 6 primeiras linhas. 

## Arquivos Tabulares (CSV, ...)

O arquivo que baixamos no exemplo acima é do tipo CSV, *comma separated values* ou, no bom português, valores separados por vírgula. A terminação `.csv` é só uma convenção para facilitar a identificação do arquivo. 

O Python possui um módulo chamado `csv` que nos ajuda a interagir com este tipo de arquivo:

In [15]:
import csv
with open('Dados/titanic.csv') as csvfile:
    reader = csv.reader(csvfile, delimiter=',')
    titanic = [row for row in reader]
    
print(titanic[:10])

[['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare', 'embarked', 'class', 'who', 'adult_male', 'deck', 'embark_town', 'alive', 'alone'], ['0', '3', 'male', '22.0', '1', '0', '7.25', 'S', 'Third', 'man', 'True', '', 'Southampton', 'no', 'False'], ['1', '1', 'female', '38.0', '1', '0', '71.2833', 'C', 'First', 'woman', 'False', 'C', 'Cherbourg', 'yes', 'False'], ['1', '3', 'female', '26.0', '0', '0', '7.925', 'S', 'Third', 'woman', 'False', '', 'Southampton', 'yes', 'True'], ['1', '1', 'female', '35.0', '1', '0', '53.1', 'S', 'First', 'woman', 'False', 'C', 'Southampton', 'yes', 'False'], ['0', '3', 'male', '35.0', '0', '0', '8.05', 'S', 'Third', 'man', 'True', '', 'Southampton', 'no', 'True'], ['0', '3', 'male', '', '0', '0', '8.4583', 'Q', 'Third', 'man', 'True', '', 'Queenstown', 'no', 'True'], ['0', '1', 'male', '54.0', '0', '0', '51.8625', 'S', 'First', 'man', 'True', 'E', 'Southampton', 'no', 'True'], ['0', '3', 'male', '2.0', '3', '1', '21.075', 'S', 'Third', 'child', '

Para escrever um arquivo CSV, usamos o `csv.writer`:

In [16]:
with open('Dados/exemplo.csv', 'w') as csvfile:
    writer = csv.writer(csvfile, delimiter='\t') # Usamos uma tabulação como separador
    for i in range(11):
        writer.writerow([i**j for j in range(1, 11)])

In [17]:
with open('Dados/exemplo.csv') as f:
    print(f.read())

0	0	0	0	0	0	0	0	0	0
1	1	1	1	1	1	1	1	1	1
2	4	8	16	32	64	128	256	512	1024
3	9	27	81	243	729	2187	6561	19683	59049
4	16	64	256	1024	4096	16384	65536	262144	1048576
5	25	125	625	3125	15625	78125	390625	1953125	9765625
6	36	216	1296	7776	46656	279936	1679616	10077696	60466176
7	49	343	2401	16807	117649	823543	5764801	40353607	282475249
8	64	512	4096	32768	262144	2097152	16777216	134217728	1073741824
9	81	729	6561	59049	531441	4782969	43046721	387420489	3486784401
10	100	1000	10000	100000	1000000	10000000	100000000	1000000000	10000000000



Quando abrimos o arquivo com dados do Titanic, os dados foram salvos na memória como uma lista de listas. Também podemos salvar como uma lista de dicionários usando o método `Dictreader`: 

In [18]:
with open('Dados/titanic.csv') as csvfile:
    reader = csv.DictReader(csvfile, delimiter=',')
    titanic = [row for row in reader]

print(titanic[:5])

[OrderedDict([('survived', '0'), ('pclass', '3'), ('sex', 'male'), ('age', '22.0'), ('sibsp', '1'), ('parch', '0'), ('fare', '7.25'), ('embarked', 'S'), ('class', 'Third'), ('who', 'man'), ('adult_male', 'True'), ('deck', ''), ('embark_town', 'Southampton'), ('alive', 'no'), ('alone', 'False')]), OrderedDict([('survived', '1'), ('pclass', '1'), ('sex', 'female'), ('age', '38.0'), ('sibsp', '1'), ('parch', '0'), ('fare', '71.2833'), ('embarked', 'C'), ('class', 'First'), ('who', 'woman'), ('adult_male', 'False'), ('deck', 'C'), ('embark_town', 'Cherbourg'), ('alive', 'yes'), ('alone', 'False')]), OrderedDict([('survived', '1'), ('pclass', '3'), ('sex', 'female'), ('age', '26.0'), ('sibsp', '0'), ('parch', '0'), ('fare', '7.925'), ('embarked', 'S'), ('class', 'Third'), ('who', 'woman'), ('adult_male', 'False'), ('deck', ''), ('embark_town', 'Southampton'), ('alive', 'yes'), ('alone', 'True')]), OrderedDict([('survived', '1'), ('pclass', '1'), ('sex', 'female'), ('age', '35.0'), ('sibsp',

Se você notar bem, os dados retornados não estão em um dicionário, como falei antes, mas em um objeto do tipo `OrderedDict`. Este é um tipo especial de dicionário disponível no módulo `collections`. A diferença do `OrderedDict` para o dicionário básico é que ele mantém a ordem dos objetos inseridos, como podemos ver abaixo:

In [19]:
print('--Primeira linha--')
print(titanic[0])
print('--Segunda linha--')
print(titanic[1])

--Primeira linha--
OrderedDict([('survived', '0'), ('pclass', '3'), ('sex', 'male'), ('age', '22.0'), ('sibsp', '1'), ('parch', '0'), ('fare', '7.25'), ('embarked', 'S'), ('class', 'Third'), ('who', 'man'), ('adult_male', 'True'), ('deck', ''), ('embark_town', 'Southampton'), ('alive', 'no'), ('alone', 'False')])
--Segunda linha--
OrderedDict([('survived', '1'), ('pclass', '1'), ('sex', 'female'), ('age', '38.0'), ('sibsp', '1'), ('parch', '0'), ('fare', '71.2833'), ('embarked', 'C'), ('class', 'First'), ('who', 'woman'), ('adult_male', 'False'), ('deck', 'C'), ('embark_town', 'Cherbourg'), ('alive', 'yes'), ('alone', 'False')])


O método `DictReader`, por padrão, usa a primeira linha do arquivo CSV para criar as chaves dos dicionários. Assim, podemos descobrir o atributo `age` do passageiro registrado na primeira linha do arquivo CSV da seguinte forma:

In [20]:
print(titanic[0]['age'])

22.0


E, para passar de um dicionário para um arquivo CSV, podemos usar o  `DictWriter`:

In [21]:
with open('Dados/exemplo.csv', 'w') as csvfile:
    cabecalho = ['i', 'i^2', 'i^3']
    writer = csv.DictWriter(csvfile, fieldnames=cabecalho)
    writer.writeheader() # escreve o cabecalho
    for i in range(11):
        writer.writerow({'i': i, 'i^2': i**2, 'i^3': i**3})

Vamos verificar se foi escrito corretamente:

In [22]:
with open('Dados/exemplo.csv') as f:
    print(f.read())

i,i^2,i^3
0,0,0
1,1,1
2,4,8
3,9,27
4,16,64
5,25,125
6,36,216
7,49,343
8,64,512
9,81,729
10,100,1000



Como não deifinimos o delimitador, o `DictWriter` usou a vírgula como padrão.

## Arquivos JSON

De acordo com o [site oficial][json-website], o formato JSON é definido como:

> JSON (JavaScript Object Notation - Notação de Objetos JavaScript) é uma formatação leve de troca de dados. Para seres humanos, é fácil de ler e escrever. Para máquinas, é fácil de interpretar e gerar. Está baseado em um subconjunto da linguagem de programação JavaScript, Standard ECMA-262 3a Edição -Dezembro - 1999. JSON é em formato texto e completamente independente de linguagem, pois usa convenções que são familiares às linguagens C e familiares, incluindo C++, C#, Java, JavaScript, Perl, Python e muitas outras. Estas propriedades fazem com que JSON seja um formato ideal de troca de dados.
> 
> JSON está constituído em duas estruturas:
> 
>* Uma coleção de pares nome/valor. Em várias linguagens, isto é caracterizado como um object, record, struct, dicionário, hash table, keyed list, ou arrays associativas.
>* Uma lista ordenada de valores. Na maioria das linguagens, isto é caracterizado como uma array, vetor, lista ou sequência.
>
>Estas são estruturas de dados universais. Virtualmente todas as linguagens de programação modernas as suportam, de uma forma ou de outra. É aceitavel que um formato de troca de dados que seja independente de linguagem de programação se baseie nestas estruturas.

No Python, temos a biblioteca `json` que nos permite traduzir os dados armazenados em memória no Python para o formato JSON e vice versa:

[json-website]: https://www.json.org/json-pt.html

In [23]:
import json

dados_exemplo = [
    {'nome':'Gustavo', 'sobrenome':'Bragança', 'idade':34},
    {'nome':'Maria', 'sobrenome':'Silva', 'idade':40},
]

dados_json = json.dumps(dados_exemplo)
print(dados_json)
print(type(dados_json))

[{"nome": "Gustavo", "sobrenome": "Bragan\u00e7a", "idade": 34}, {"nome": "Maria", "sobrenome": "Silva", "idade": 40}]
<class 'str'>


O método `dumps` tranformou a lista de dicionários em uma string no formato JSON. 

E para salvar em um arquivo, usamos o método `dump` (sem o `s`) em um arquivo aberto para escrita.

In [24]:
with open('Dados/exemplo.json', 'w') as f:
    json.dump(dados_exemplo, f)

E podemos verificar que o dicionário foi salvo corretamente.

In [25]:
with open('Dados/exemplo.json') as f:
    print(f.read())

[{"nome": "Gustavo", "sobrenome": "Bragan\u00e7a", "idade": 34}, {"nome": "Maria", "sobrenome": "Silva", "idade": 40}]


## Arquivos XML 

O formato XML foi criado pelo *Wolrd Wide Web Consortium* a fim de ter uma linguagem de marcação (*markup language*) que fosse intelígivel para máquinas e seres humanos. Vamos fazer o *download* de um exemplo e abri-lo para vermos sua estrutura:

In [26]:
urlretrieve('https://www.w3schools.com/xml/simple.xml', 'Dados/simple.xml')
with open('Dados/simple.xml') as f:
    print(f.read())

<?xml version="1.0" encoding="UTF-8"?>
<breakfast_menu>
  <food>
    <name>Belgian Waffles</name>
    <price>$5.95</price>
    <description>Two of our famous Belgian Waffles with plenty of real maple syrup</description>
    <calories>650</calories>
  </food>
  <food>
    <name>Strawberry Belgian Waffles</name>
    <price>$7.95</price>
    <description>Light Belgian waffles covered with strawberries and whipped cream</description>
    <calories>900</calories>
  </food>
  <food>
    <name>Berry-Berry Belgian Waffles</name>
    <price>$8.95</price>
    <description>Light Belgian waffles covered with an assortment of fresh berries and whipped cream</description>
    <calories>900</calories>
  </food>
  <food>
    <name>French Toast</name>
    <price>$4.50</price>
    <description>Thick slices made from our homemade sourdough bread</description>
    <calories>600</calories>
  </food>
  <food>
    <name>Homestyle Breakfast</name>
    <price>$6.95</price>
    <description>Two eggs, bacon or s

O arquivo consiste de um cardápio de café da manhã com 5 itens. Cada item está cercado pelas tags `<food>` e `</food>`. Para cada item, há quatro subitens: `name`, `price`, `description` e `calories`, também cercados pelas tags `<...>` e `</...>`.

Vamos usar o Beatiful Soup que é uma biblioteca de terceiros para obter dados de arquivos XML e HTML:

In [27]:
from bs4 import BeautifulSoup

with open('Dados/simple.xml') as f:
    soup = BeautifulSoup(f.read(), 'lxml')

E vamos verificar a "sopa":

In [28]:
print(soup.prettify())

<?xml version="1.0" encoding="UTF-8"?>
<html>
 <body>
  <breakfast_menu>
   <food>
    <name>
     Belgian Waffles
    </name>
    <price>
     $5.95
    </price>
    <description>
     Two of our famous Belgian Waffles with plenty of real maple syrup
    </description>
    <calories>
     650
    </calories>
   </food>
   <food>
    <name>
     Strawberry Belgian Waffles
    </name>
    <price>
     $7.95
    </price>
    <description>
     Light Belgian waffles covered with strawberries and whipped cream
    </description>
    <calories>
     900
    </calories>
   </food>
   <food>
    <name>
     Berry-Berry Belgian Waffles
    </name>
    <price>
     $8.95
    </price>
    <description>
     Light Belgian waffles covered with an assortment of fresh berries and whipped cream
    </description>
    <calories>
     900
    </calories>
   </food>
   <food>
    <name>
     French Toast
    </name>
    <price>
     $4.50
    </price>
    <description>
     Thick slices made from our ho

Nosso arquivo parece OK. 

In [29]:
for food in soup.find_all('food'):
    for attr in food.find_all():
        print(f'{attr.name}: {attr.string}')
    print()

name: Belgian Waffles
price: $5.95
description: Two of our famous Belgian Waffles with plenty of real maple syrup
calories: 650

name: Strawberry Belgian Waffles
price: $7.95
description: Light Belgian waffles covered with strawberries and whipped cream
calories: 900

name: Berry-Berry Belgian Waffles
price: $8.95
description: Light Belgian waffles covered with an assortment of fresh berries and whipped cream
calories: 900

name: French Toast
price: $4.50
description: Thick slices made from our homemade sourdough bread
calories: 600

name: Homestyle Breakfast
price: $6.95
description: Two eggs, bacon or sausage, toast, and our ever-popular hash browns
calories: 950



Podemos iterar diretamente em cada subitem:

In [30]:
for name in soup.find_all('name'):
    print(name.string)

Belgian Waffles
Strawberry Belgian Waffles
Berry-Berry Belgian Waffles
French Toast
Homestyle Breakfast


Ou também podemos usar o comando `find` e `findall` para encontrar os elementos:

Agora, vamos montar um arquivo XML a partir do nosso dicionário de exemplo:

In [31]:
soup = BeautifulSoup(features='lxml')

for registro in dados_exemplo:
    nome = soup.new_tag('pessoa', nome=registro['nome'])
    
    sobrenome = soup.new_tag('sobrenome')
    sobrenome.string = registro['sobrenome']
    nome.append(sobrenome)
    
    idade = soup.new_tag('idade')
    idade.string = str(registro['idade'])
    nome.append(idade)    
    
    soup.append(nome)

print(soup.prettify())

with open('Dados/dado_exemplo.xml', 'w') as f:
    f.write(str(soup))

<pessoa nome="Gustavo">
 <sobrenome>
  Bragança
 </sobrenome>
 <idade>
  34
 </idade>
</pessoa>
<pessoa nome="Maria">
 <sobrenome>
  Silva
 </sobrenome>
 <idade>
  40
 </idade>
</pessoa>


Veja que aqui eu coloquei o `nome` dentro do item. Vamos ver como ficou:

In [32]:
with open('Dados/dado_exemplo.xml') as f:
    print(f.read())

<pessoa nome="Gustavo"><sobrenome>Bragança</sobrenome><idade>34</idade></pessoa><pessoa nome="Maria"><sobrenome>Silva</sobrenome><idade>40</idade></pessoa>


> Como faríamos para estruturar os dados dos passageiros do Titanic em XML?

## Arquivos HTML

Em alguns casos, vamos encontrar informações úteis em páginas da web servidas em HTML. E, assim, para obter estes dados, podemos construir um raspador de web (*web scraping*) com o Beautiful Soup.

Vamos ver o exemplo da [documentação.](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)

In [33]:
# HTML de exemplo
html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

E se renderizassemos nosso HTML em um navegados, ele se pareceria com o resultado abaixo.

In [34]:
from IPython.core.display import HTML, display

display(HTML(html_doc))

Assim como no XML, o primeiro passo é criar a *sopa*:

In [35]:
soup = BeautifulSoup(html_doc, 'html.parser')

Note que o segundo atributo mudou e se refere ao tipo de arquivo que estamos tratando.

Podemos acessar diversos atributos desta página, começando pelo título:

In [36]:
print(soup.title)
print(soup.title.name)
print(soup.title.string)
print(soup.title.parent.name)

<title>The Dormouse's story</title>
title
The Dormouse's story
head


Podemos acessar o parágrafo `<p>` e seus elements:

In [37]:
print(soup.p)
print(soup.p['class'][0])
print(soup.p.text)

<p class="title"><b>The Dormouse's story</b></p>
title
The Dormouse's story


Podemos achar por elemento:

In [38]:
soup.find(id='link3')

<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>

E também obter todos os links, tarefa essencial quando estamos construindo um `crawler`:

In [39]:
for link in soup.find_all('a'):
    print(link.get('href'))

http://example.com/elsie
http://example.com/lacie
http://example.com/tillie


E também obter todo o texto:

In [40]:
print(soup.get_text())


The Dormouse's story

The Dormouse's story
Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.
...



## Bancos de Dados Relacional 

Quando falamos em dados, logo pensamos em um banco de dados relacional. Vamos ver agora como executar *queries* em um banco e, para isso, vamos usar um banco de dados SQLite de exemplo chamado Chinook disponibilizado [aqui](https://www.sqlitetutorial.net/sqlite-sample-database/).

In [41]:
import zipfile

filename, response = urlretrieve('https://www.sqlitetutorial.net/wp-content/uploads/2018/03/chinook.zip', 'Dados/chinook.zip')

with zipfile.ZipFile(filename, 'r') as zip_ref:
    zip_ref.extractall('Dados/')

Vamos usar um banco SQLite, mas outros bancos relacionais seguem a mesma rotina:
1. Criamos uma conexão,
1. Criamos um cursor,
1. Com o cursor, executamos a query,
    * Se for um `SELECT`, recuperamos o resultado.
1. Após terminar, fechamos o cursor e a conexão.

In [42]:
import sqlite3

conn = sqlite3.connect('Dados/chinook.db')

cursor = conn.cursor()

cursor.execute(
    """
    SELECT * FROM tracks limit 10
    """
)
print(cursor.fetchall())

cursor.close()
conn.close()

[(1, 'For Those About To Rock (We Salute You)', 1, 1, 1, 'Angus Young, Malcolm Young, Brian Johnson', 343719, 11170334, 0.99), (2, 'Balls to the Wall', 2, 2, 1, None, 342562, 5510424, 0.99), (3, 'Fast As a Shark', 3, 2, 1, 'F. Baltes, S. Kaufman, U. Dirkscneider & W. Hoffman', 230619, 3990994, 0.99), (4, 'Restless and Wild', 3, 2, 1, 'F. Baltes, R.A. Smith-Diesel, S. Kaufman, U. Dirkscneider & W. Hoffman', 252051, 4331779, 0.99), (5, 'Princess of the Dawn', 3, 2, 1, 'Deaffy & R.A. Smith-Diesel', 375418, 6290521, 0.99), (6, 'Put The Finger On You', 1, 1, 1, 'Angus Young, Malcolm Young, Brian Johnson', 205662, 6713451, 0.99), (7, "Let's Get It Up", 1, 1, 1, 'Angus Young, Malcolm Young, Brian Johnson', 233926, 7636561, 0.99), (8, 'Inject The Venom', 1, 1, 1, 'Angus Young, Malcolm Young, Brian Johnson', 210834, 6852860, 0.99), (9, 'Snowballed', 1, 1, 1, 'Angus Young, Malcolm Young, Brian Johnson', 203102, 6599424, 0.99), (10, 'Evil Walks', 1, 1, 1, 'Angus Young, Malcolm Young, Brian Johnso

Podemos iniciar uma nova base também:

In [43]:
from datetime import datetime
import random

conn = sqlite3.connect('Dados/meu_banco.db')

cursor = conn.cursor()

cursor.execute('''CREATE TABLE IF NOT EXISTS acoes
             (created_at timestamp, trans text, simbolo text, qtd real, preco real)''')
cursor.execute(
    "INSERT INTO acoes (created_at, trans, simbolo, qtd, preco) VALUES (?, ?, ?, ?, ?)", 
    (
        datetime.now(), 
        random.choice(['COMPRA', 'VENDE']),
        'GOOG',
        random.randint(1, 10)*100, 
        random.uniform(1400, 1500))
)
conn.commit()

cursor.execute("Select * from acoes")
print(cursor.fetchall())

cursor.close()
conn.close()

[('2020-02-05 22:30:06.975645', 'COMPRA', 'GOOG', 100.0, 1448.0), ('2020-02-05 22:30:31.493621', 'COMPRA', 'GOOG', 100.0, 1448.0), ('2020-02-05 22:31:29.604182', 'COMPRA', 'GOOG', 100.0, 1448.0), ('2020-02-05 22:31:54.568795', 'COMPRA', 'GOOG', 100.0, 1448.0), ('2020-02-05 22:32:21.798184', 'COMPRA', 'GOOG', 100.0, 1448.0), ('2020-02-05 22:34:02.344803', 'COMPRA', 'GOOG', 600.0, 1464.309288035735), ('2020-02-05 22:34:04.333407', 'COMPRA', 'GOOG', 200.0, 1409.8598995390212), ('2020-02-05 22:34:05.922377', 'COMPRA', 'GOOG', 400.0, 1481.217735958009), ('2020-02-05 22:34:48.912286', 'COMPRA', 'GOOG', 700.0, 1446.8160558512316), ('2020-02-05 22:35:07.518374', 'COMPRA', 'GOOG', 900.0, 1481.652868992419), ('2020-02-05 23:09:28.917857', 'COMPRA', 'GOOG', 500.0, 1423.9080971557473), ('2020-02-19 20:58:09.695010', 'COMPRA', 'GOOG', 600.0, 1430.3001735683008), ('2020-03-23 21:12:01.457835', 'VENDE', 'GOOG', 700.0, 1473.0770025657089)]


## APIs REST

Hoje em dia, muitos aplicativos WEB se comunicam entre si através de APIs (*Acces Point Interface*) usando o protocolo REST (*Representational State Transfer*) que é uma convenção em torno de 4 *verbos* que são usados para:

* `GET`: obter um recurso.
* `POST`: cria um recurso  .
* `PUT`: atualiza um recurso.
* `DELETE`: deleta um recurso.


Vamos ver o exemplo de dois, `GET` e `POST`:

In [44]:
import requests

r = requests.get('https://jsonplaceholder.typicode.com/posts?id=1')
print(r.status_code)
assert r.status_code == 200 # success

200


Acima fizemos um `GET` a fim de obter um recurso, que neste caso foi um `post` cujo `id` é igual a 1. Tudo que está além do ponto de interrogação é chamado de *query string* e é utilizado para filtrar o resultado. 

Obtemos a resposta em JSON no atributo `.text` da resposta.

In [45]:
print(r.text)

[
  {
    "userId": 1,
    "id": 1,
    "title": "sunt aut facere repellat provident occaecati excepturi optio reprehenderit",
    "body": "quia et suscipit\nsuscipit recusandae consequuntur expedita et cum\nreprehenderit molestiae ut ut quas totam\nnostrum rerum est autem sunt rem eveniet architecto"
  }
]


Agora vamos fazer um `POST` e adicionar informação na API. A estrutura para envio é um pouco mais complexa: além do *endpoint* (endereço da API), precisamos do dado a ser enviado em JSON e informar no cabeçalho o formato do conteúdo sendo enviado.

In [46]:
r = requests.post(
    'https://jsonplaceholder.typicode.com/posts',
    data =  json.dumps(
        dict(
            title= 'foo',
            body= 'bar',
            userId= 1
        )
    ),
        
    headers= {
      "Content-type": "application/json; charset=UTF-8"
    }
)
assert r.status_code == 201 # created