# Interagindo com Dados Externos

Nesta seção, veremos como usar o Python para interagir com dados externos de diversas fontes. 

## Arquivos em Disco

### Abrindo Arquivos para Leitura

Em anexo, na pasta `./Dados`, nós temos uma cópia do livro [Dom Casmurro][dom_casmurro] de [Machado de Assis][machado_de_assis] obtido no site do [Projeto Gutenberg][gutenberg]. Para abri-lo, usamos o comando `open` do Python.


[dom_casmurro]: https://pt.wikipedia.org/wiki/Dom_Casmurro
[machado_de_assis]: https://pt.wikipedia.org/wiki/Machado_de_Assis
[gutenberg]: http://www.gutenberg.org/wiki/Main_Page

In [2]:
dom_casmurro = open('Dados/machado_de_assis_dom_casmurro.txt')
dom_casmurro

<_io.TextIOWrapper name='Dados/machado_de_assis_dom_casmurro.txt' mode='r' encoding='UTF-8'>

Para ler todo o conteúdo do arquivo, basta usar o método `read`.

In [3]:
dom_casmurro.read()[:1000] # Mostrando só os primeiros 1000 caracteres

"\ufeffThe Project Gutenberg EBook of Dom Casmurro, by Machado de Assis\n\nThis eBook is for the use of anyone anywhere in the United States and most\nother parts of the world at no cost and with almost no restrictions\nwhatsoever.  You may copy it, give it away or re-use it under the terms of\nthe Project Gutenberg License included with this eBook or online at\nwww.gutenberg.org.  If you are not located in the United States, you'll have\nto check the laws of the country where you are located before using this ebook.\n\nTitle: Dom Casmurro\n\nAuthor: Machado de Assis\n\nRelease Date: October 15, 2017 [EBook #55752]\n\nLanguage: Portuguese\n\n\n*** START OF THIS PROJECT GUTENBERG EBOOK DOM CASMURRO ***\n\n\n\n\nProduced by Laura Natal Rodriguez & Marc D'Hooghe at Free\nLiterature (online soon in an extended version,also linking\nto free sources for education worldwide ... MOOC's,\neducational materials,...) (Images generously made available\nby the Bibliotheca Nacional Digital Brasil.)\

Ao invés de retornar todo o arquivo como uma `string`, podemos usar o método `readlines` para nos retornar cada linha em uma `string` dentro de uma lista.

In [4]:
dom_casmurro.seek(0) # retorna o início do arquivo
dom_casmurro.readlines()[:10] # só mostra as 10 primeiras linhas

['\ufeffThe Project Gutenberg EBook of Dom Casmurro, by Machado de Assis\n',
 '\n',
 'This eBook is for the use of anyone anywhere in the United States and most\n',
 'other parts of the world at no cost and with almost no restrictions\n',
 'whatsoever.  You may copy it, give it away or re-use it under the terms of\n',
 'the Project Gutenberg License included with this eBook or online at\n',
 "www.gutenberg.org.  If you are not located in the United States, you'll have\n",
 'to check the laws of the country where you are located before using this ebook.\n',
 '\n',
 'Title: Dom Casmurro\n']

Se o arquivo for muito grande, pode ser interessante ler linha por linha e para isso usamos o método `readline`

In [5]:
dom_casmurro.seek(0)

for i in range(10):
    print(dom_casmurro.readline())

﻿The Project Gutenberg EBook of Dom Casmurro, by Machado de Assis



This eBook is for the use of anyone anywhere in the United States and most

other parts of the world at no cost and with almost no restrictions

whatsoever.  You may copy it, give it away or re-use it under the terms of

the Project Gutenberg License included with this eBook or online at

www.gutenberg.org.  If you are not located in the United States, you'll have

to check the laws of the country where you are located before using this ebook.



Title: Dom Casmurro



Ao terminar com o arquivo, devemos sempre fechá-lo para liberar o espaçõ em memória:

In [6]:
dom_casmurro.close()

E podemos verificar se o arquivo foi fechado com sucesso:

In [7]:
dom_casmurro.closed

True

### Escrevendo em Arquivos

O método `open` para abrir arquivos possui outros modos. Acima, utilizamos o modo de leitura `r` que é o padrão. Vamos usar agora o modo `w` de escrita.

In [8]:
meu_texto = open('Dados/meu_texto.txt', 'w')

In [9]:
meu_texto.write('1\n')
meu_texto.writelines(['2\n', '3\n']) # Usado para escrever uma lista de strings

In [10]:
meu_texto.close()

Ao usar o modo `w`, o conteúdo do arquivo é limpo ao ser aberto. Se quiser, podemos abrir de tal forma que só é permitido adicionar novas linhas, mantendo as linhas originais intactas. Para isso, usamos o modo `a` de `append`:

In [11]:
meu_texto = open('Dados/meu_texto.txt', 'a')
meu_texto.writelines(['4\n', '5\n']) 
meu_texto.close()

Vamos abrir o arquivo para leitura e verificar se foi excrito corretamente:

In [12]:
meu_texto = open('Dados/meu_texto.txt')
print(meu_texto.read())
meu_texto.close()

1
2
3
4
5



### Abrindo Arquivos com `with`

Ao abrir arquivos, é possível que esqueçamos de fechar após utiliá-lo. Para evitar isso podemos usar o gerenciador de contexto (*context manager*) `with`, que fecha o arquivo após o término da execução do bloco de código:

In [18]:
with open('Dados/meu_texto.txt') as f:
    print(f.read())
    
print('O arquivo foi fechado?', f.closed)

1
2
3
4
5

O arquivo foi fechado? True


> Quais são as palavras mais exóticas, ou seja, as menos usadas no Dom Casmurro? E as mais usadas? 
>
> Crie um contador de palavras pare responder as perguntas acima. Aproveite também para escrever o resultado em um arquivo no disco. 

## Obtendo Arquivos da Internet 

Em algumas ocasiões, os dados que vamos precisar estará disponibilizado na Internet e precisaremos trazê-los para o disco. Como exemplo, vamos fazer o *download*  dos dados dos passsageiros do Titanic.

In [30]:
from urllib.request import urlretrieve

url = 'https://raw.githubusercontent.com/mwaskom/seaborn-data/master/titanic.csv'

urlretrieve(url, 'Dados/titanic.csv')

('Dados/titanic.csv', <http.client.HTTPMessage at 0x7fcff4605050>)

E agora verificamos se os dados foram trazidos com sucesso:

In [41]:
with open('Dados/titanic.csv') as f:
    for i in range(6):
        print(f.readline()) # as 6 primeiras linhas

survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone

0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False

1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False

1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True

1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False

0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True



O arquivo foi trazido com sucesso e foi possível abrir e mostra as 6 primeiras linhas. 

## Arquivos Tabulares (CSV, ...)

O arquivo que baixamos no exemplo acima é do tipo CSV, *comma separated values* ou, no bom português, valores separados por vírgula. A terminação `.csv` é só uma convenção para facilitar a identificação do arquivo. 

O Python possui um módulo chamado `csv` que nos ajuda a interagir com este tipo de arquivo:

In [10]:
import csv
with open('Dados/titanic.csv') as csvfile:
    reader = csv.reader(csvfile, delimiter=',')
    titanic = [row for row in reader]
    
print(titanic[:10])

[['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare', 'embarked', 'class', 'who', 'adult_male', 'deck', 'embark_town', 'alive', 'alone'], ['0', '3', 'male', '22.0', '1', '0', '7.25', 'S', 'Third', 'man', 'True', '', 'Southampton', 'no', 'False'], ['1', '1', 'female', '38.0', '1', '0', '71.2833', 'C', 'First', 'woman', 'False', 'C', 'Cherbourg', 'yes', 'False'], ['1', '3', 'female', '26.0', '0', '0', '7.925', 'S', 'Third', 'woman', 'False', '', 'Southampton', 'yes', 'True'], ['1', '1', 'female', '35.0', '1', '0', '53.1', 'S', 'First', 'woman', 'False', 'C', 'Southampton', 'yes', 'False'], ['0', '3', 'male', '35.0', '0', '0', '8.05', 'S', 'Third', 'man', 'True', '', 'Southampton', 'no', 'True'], ['0', '3', 'male', '', '0', '0', '8.4583', 'Q', 'Third', 'man', 'True', '', 'Queenstown', 'no', 'True'], ['0', '1', 'male', '54.0', '0', '0', '51.8625', 'S', 'First', 'man', 'True', 'E', 'Southampton', 'no', 'True'], ['0', '3', 'male', '2.0', '3', '1', '21.075', 'S', 'Third', 'child', '

Para escrever um arquivo CSV, usamos o `csv.writer`:

In [21]:
with open('Dados/exemplo.csv', 'w') as csvfile:
    writer = csv.writer(csvfile, delimiter='\t') # Usamos uma tabulação como separador
    for i in range(11):
        writer.writerow([i**j for j in range(1, 11)])

In [22]:
with open('Dados/exemplo.csv') as f:
    print(f.read())

0	0	0	0	0	0	0	0	0	0
1	1	1	1	1	1	1	1	1	1
2	4	8	16	32	64	128	256	512	1024
3	9	27	81	243	729	2187	6561	19683	59049
4	16	64	256	1024	4096	16384	65536	262144	1048576
5	25	125	625	3125	15625	78125	390625	1953125	9765625
6	36	216	1296	7776	46656	279936	1679616	10077696	60466176
7	49	343	2401	16807	117649	823543	5764801	40353607	282475249
8	64	512	4096	32768	262144	2097152	16777216	134217728	1073741824
9	81	729	6561	59049	531441	4782969	43046721	387420489	3486784401
10	100	1000	10000	100000	1000000	10000000	100000000	1000000000	10000000000



Quando abrimos o arquivo com dados do Titanic, os dados foram salvos na memória como uma lista de listas. Também podemos salvar como uma lista de dicionários usando o método `Dictreader`: 

In [27]:
with open('Dados/titanic.csv') as csvfile:
    reader = csv.DictReader(csvfile, delimiter=',')
    titanic = [row for row in reader]

print(titanic[:5])

[OrderedDict([('survived', '0'), ('pclass', '3'), ('sex', 'male'), ('age', '22.0'), ('sibsp', '1'), ('parch', '0'), ('fare', '7.25'), ('embarked', 'S'), ('class', 'Third'), ('who', 'man'), ('adult_male', 'True'), ('deck', ''), ('embark_town', 'Southampton'), ('alive', 'no'), ('alone', 'False')]), OrderedDict([('survived', '1'), ('pclass', '1'), ('sex', 'female'), ('age', '38.0'), ('sibsp', '1'), ('parch', '0'), ('fare', '71.2833'), ('embarked', 'C'), ('class', 'First'), ('who', 'woman'), ('adult_male', 'False'), ('deck', 'C'), ('embark_town', 'Cherbourg'), ('alive', 'yes'), ('alone', 'False')]), OrderedDict([('survived', '1'), ('pclass', '3'), ('sex', 'female'), ('age', '26.0'), ('sibsp', '0'), ('parch', '0'), ('fare', '7.925'), ('embarked', 'S'), ('class', 'Third'), ('who', 'woman'), ('adult_male', 'False'), ('deck', ''), ('embark_town', 'Southampton'), ('alive', 'yes'), ('alone', 'True')]), OrderedDict([('survived', '1'), ('pclass', '1'), ('sex', 'female'), ('age', '35.0'), ('sibsp',

Se você notar bem, os dados retornados não estão em um dicionário, como falei antes, mas em um objeto do tipo `OrderedDict`. Este 'um tipo especial de dicionário disponível no módulo `collections`. A diferença do `OrderedDict` para o dicionário básico é que ele mantém a ordem dos objetos inseridos, como podemos ver abaixo:

In [29]:
print('--Primeira linha--')
print(titanic[0])
print('--Segunda linha--')
print(titanic[1])

--Primeira linha--
OrderedDict([('survived', '0'), ('pclass', '3'), ('sex', 'male'), ('age', '22.0'), ('sibsp', '1'), ('parch', '0'), ('fare', '7.25'), ('embarked', 'S'), ('class', 'Third'), ('who', 'man'), ('adult_male', 'True'), ('deck', ''), ('embark_town', 'Southampton'), ('alive', 'no'), ('alone', 'False')])
--Segunda linha--
OrderedDict([('survived', '1'), ('pclass', '1'), ('sex', 'female'), ('age', '38.0'), ('sibsp', '1'), ('parch', '0'), ('fare', '71.2833'), ('embarked', 'C'), ('class', 'First'), ('who', 'woman'), ('adult_male', 'False'), ('deck', 'C'), ('embark_town', 'Cherbourg'), ('alive', 'yes'), ('alone', 'False')])


O método `DictReader`, por padrão, usa a primeira linha do arquivo CSV para criar as chaves dos dicionários. Assim, podemos descobrir o atributo `age` do passageiro registrado na primeira linha do arquivo CSV da seguinte forma:

In [30]:
print(titanic[0]['age'])

22.0


E, para passar de um dicionário para um arquivo CSV, podemos usar o  `DictWriter`:

In [31]:
with open('Dados/exemplo.csv', 'w') as csvfile:
    cabecalho = ['i', 'i^2', 'i^3']
    writer = csv.DictWriter(csvfile, fieldnames=cabecalho)
    writer.writeheader() # escreve o cabecalho
    for i in range(11):
        writer.writerow({'i': i, 'i^2': i**2, 'i^3': i**3})

Vamos verificar se foi escrito corretamente:

In [32]:
with open('Dados/exemplo.csv') as f:
    print(f.read())

i,i^2,i^3
0,0,0
1,1,1
2,4,8
3,9,27
4,16,64
5,25,125
6,36,216
7,49,343
8,64,512
9,81,729
10,100,1000



Como não deifinimos o delimitador, o `DictWriter` usou a vírgula como padrão.

## Arquivos JSON

De acordo com o [site oficial][json-website], o formato JSON é definido como:

> JSON (JavaScript Object Notation - Notação de Objetos JavaScript) é uma formatação leve de troca de dados. Para seres humanos, é fácil de ler e escrever. Para máquinas, é fácil de interpretar e gerar. Está baseado em um subconjunto da linguagem de programação JavaScript, Standard ECMA-262 3a Edição -Dezembro - 1999. JSON é em formato texto e completamente independente de linguagem, pois usa convenções que são familiares às linguagens C e familiares, incluindo C++, C#, Java, JavaScript, Perl, Python e muitas outras. Estas propriedades fazem com que JSON seja um formato ideal de troca de dados.
> 
> JSON está constituído em duas estruturas:
> 
>* Uma coleção de pares nome/valor. Em várias linguagens, isto é caracterizado como um object, record, struct, dicionário, hash table, keyed list, ou arrays associativas.
>* Uma lista ordenada de valores. Na maioria das linguagens, isto é caracterizado como uma array, vetor, lista ou sequência.
>
>Estas são estruturas de dados universais. Virtualmente todas as linguagens de programação modernas as suportam, de uma forma ou de outra. É aceitavel que um formato de troca de dados que seja independente de linguagem de programação se baseie nestas estruturas.

No Python, temos a biblioteca `json` que nos permite traduzir os dados aramzenados em memória no Python para o formato JSON e vice versa:

[json-website]: https://www.json.org/json-pt.html

In [35]:
import json

dados_exemplo = [
    {'nome':'Gustavo', 'sobrenome':'Bragança', 'idade':34},
    {'nome':'Maria', 'sobrenome':'Silva', 'idade':40},
]

dados_json = json.dumps(dados_exemplo)
print(dados_json)
print(type(dados_json))

[{"nome": "Gustavo", "sobrenome": "Bragan\u00e7a", "idade": 34}, {"nome": "Maria", "sobrenome": "Silva", "idade": 40}]
<class 'str'>


O método `dumps` tranformou a lista de dicionários em uma string no formato JSON. 

## Arquivos XML 

## Arquivos HTML 

## Bancos de Dados Relacional 

## APIs REST

Para isso, vamos usar a biblioteca `requests` ([link][requests]), definida como uma "biblioteca HTTP licensiada sob Apache2, escrita em Python, para seres humanos". Como exemplo, vamos obter a cópia do livro Dom Casmurro de Machado de Assis que usamos acima:

[requests]: https://requests.readthedocs.io/pt_BR/latest/index.html

In [19]:
import requests

url = 'http://www.gutenberg.org/cache/epub/55752/pg55752.txt'

r = requests.get(url)
assert r.status_code == 200

No código acima, importamos a biblioteca `requests` e fizemos uma requisição na URL que aponta para o livro Dom Casmurro. Na última linha, usamos um `assert` para verificar se a condição dada é verdadeira. Se fosse falsa, o `assert` retorna um erro do tipo `AssertionError`. Esta é uma ótima forma de verificar se o código está fazendo o que foi planejado para fazer.

A condição `r.status_code == 200` verifica se a resposta da requisição foi retornada com sucesso ([código 200][status_code_200]).

E o conteúdo da resposta, que, neste caso, é o texto do livro, está disponível no atributo `.text`.

[status_code_200]: https://developer.mozilla.org/pt-BR/docs/Web/HTTP/Status/200

In [22]:
r.text[:1000] # Mostrando só os primeiros 1000 caracteres

"\ufeffThe Project Gutenberg EBook of Dom Casmurro, by Machado de Assis\r\n\r\nThis eBook is for the use of anyone anywhere in the United States and most\r\nother parts of the world at no cost and with almost no restrictions\r\nwhatsoever.  You may copy it, give it away or re-use it under the terms of\r\nthe Project Gutenberg License included with this eBook or online at\r\nwww.gutenberg.org.  If you are not located in the United States, you'll have\r\nto check the laws of the country where you are located before using this ebook.\r\n\r\nTitle: Dom Casmurro\r\n\r\nAuthor: Machado de Assis\r\n\r\nRelease Date: October 15, 2017 [EBook #55752]\r\n\r\nLanguage: Portuguese\r\n\r\n\r\n*** START OF THIS PROJECT GUTENBERG EBOOK DOM CASMURRO ***\r\n\r\n\r\n\r\n\r\nProduced by Laura Natal Rodriguez & Marc D'Hooghe at Free\r\nLiterature (online soon in an extended version,also linking\r\nto free sources for education worldwide ... MOOC's,\r\neducational materials,...) (Images generously made avai