# Interagindo com Dados Externos

Nesta seção, veremos como usar o Python para interagir com dados externos de diversas fontes. 

## Arquivos em Disco

### Abrindo Arquivos para Leitura

Em anexo, na pasta `./Dados`, nós temos uma cópia do livro [Dom Casmurro][dom_casmurro] de [Machado de Assis][machado_de_assis] obtido no site do [Projeto Gutenberg][gutenberg]. Para abri-lo, usamos o comando `open` do Python.


[dom_casmurro]: https://pt.wikipedia.org/wiki/Dom_Casmurro
[machado_de_assis]: https://pt.wikipedia.org/wiki/Machado_de_Assis
[gutenberg]: http://www.gutenberg.org/wiki/Main_Page

In [1]:
dom_casmurro = open('Dados/machado_de_assis_dom_casmurro.txt')
dom_casmurro

<_io.TextIOWrapper name='Dados/machado_de_assis_dom_casmurro.txt' mode='r' encoding='UTF-8'>

Para ler todo o conteúdo do arquivo, basta usar o método `read`.

In [2]:
dom_casmurro.read()[:1000] # Mostrando só os primeiros 1000 caracteres

"\ufeffThe Project Gutenberg EBook of Dom Casmurro, by Machado de Assis\n\nThis eBook is for the use of anyone anywhere in the United States and most\nother parts of the world at no cost and with almost no restrictions\nwhatsoever.  You may copy it, give it away or re-use it under the terms of\nthe Project Gutenberg License included with this eBook or online at\nwww.gutenberg.org.  If you are not located in the United States, you'll have\nto check the laws of the country where you are located before using this ebook.\n\nTitle: Dom Casmurro\n\nAuthor: Machado de Assis\n\nRelease Date: October 15, 2017 [EBook #55752]\n\nLanguage: Portuguese\n\n\n*** START OF THIS PROJECT GUTENBERG EBOOK DOM CASMURRO ***\n\n\n\n\nProduced by Laura Natal Rodriguez & Marc D'Hooghe at Free\nLiterature (online soon in an extended version,also linking\nto free sources for education worldwide ... MOOC's,\neducational materials,...) (Images generously made available\nby the Bibliotheca Nacional Digital Brasil.)\

Ao invés de retornar todo o arquivo como uma `string`, podemos usar o método `readlines` para nos retornar cada linha em uma `string` dentro de uma lista.

In [3]:
dom_casmurro.seek(0) # retorna o início do arquivo
dom_casmurro.readlines()[:10] # só mostra as 10 primeiras linhas

['\ufeffThe Project Gutenberg EBook of Dom Casmurro, by Machado de Assis\n',
 '\n',
 'This eBook is for the use of anyone anywhere in the United States and most\n',
 'other parts of the world at no cost and with almost no restrictions\n',
 'whatsoever.  You may copy it, give it away or re-use it under the terms of\n',
 'the Project Gutenberg License included with this eBook or online at\n',
 "www.gutenberg.org.  If you are not located in the United States, you'll have\n",
 'to check the laws of the country where you are located before using this ebook.\n',
 '\n',
 'Title: Dom Casmurro\n']

Se o arquivo for muito grande, pode ser interessante ler linha por linha e para isso usamos o método `readline`

In [4]:
dom_casmurro.seek(0)

for i in range(10):
    print(dom_casmurro.readline())

﻿The Project Gutenberg EBook of Dom Casmurro, by Machado de Assis



This eBook is for the use of anyone anywhere in the United States and most

other parts of the world at no cost and with almost no restrictions

whatsoever.  You may copy it, give it away or re-use it under the terms of

the Project Gutenberg License included with this eBook or online at

www.gutenberg.org.  If you are not located in the United States, you'll have

to check the laws of the country where you are located before using this ebook.



Title: Dom Casmurro



Ao terminar com o arquivo, devemos sempre fechá-lo para liberar o espaçõ em memória:

In [5]:
dom_casmurro.close()

E podemos verificar se o arquivo foi fechado com sucesso:

In [6]:
dom_casmurro.closed

True

### Escrevendo em Arquivos

O método `open` para abrir arquivos possui outros modos. Acima, utilizamos o modo de leitura `r` que é o padrão. Vamos usar agora o modo `w` de escrita.

In [7]:
meu_texto = open('Dados/meu_texto.txt', 'w')

In [8]:
meu_texto.write('1\n')
meu_texto.writelines(['2\n', '3\n']) # Usado para escrever uma lista de strings

In [9]:
meu_texto.close()

Ao usar o modo `w`, o conteúdo do arquivo é limpo ao ser aberto. Se quiser, podemos abrir de tal forma que só é permitido adicionar novas linhas, mantendo as linhas originais intactas. Para isso, usamos o modo `a` de `append`:

In [10]:
meu_texto = open('Dados/meu_texto.txt', 'a')
meu_texto.writelines(['4\n', '5\n']) 
meu_texto.close()

Vamos abrir o arquivo para leitura e verificar se foi excrito corretamente:

In [11]:
meu_texto = open('Dados/meu_texto.txt')
print(meu_texto.read())
meu_texto.close()

1
2
3
4
5



### Abrindo Arquivos com `with`

## Obtendo Arquivos da Internet 

Em algumas ocasiões, os dados que vamos precisar estará disponibilizado na Internet e precisaremos trazê-los para o disco ou para a memória. Para isso, vamos usar a biblioteca `requests` ([link][requests]), definida como uma "biblioteca HTTP licensiada sob Apache2, escrita em Python, para seres humanos". Como exemplo, vamos obter a cópia do livro Dom Casmurro de Machado de Assis que usamos acima:

[requests]: https://requests.readthedocs.io/pt_BR/latest/index.html

In [12]:
import requests

url = 'http://www.gutenberg.org/cache/epub/55752/pg55752.txt'

r = requests.get(url)
assert r.status_code == 200

No código acima, importamos a biblioteca `requests` e fizemos uma requisição na URL que aponta para o livro Dom Casmurro. Na última linha, usamos um `assert` para verificar se a condição dada é verdadeira. Se fosse falsa, o `assert` retorna um erro do tipo `AssertionError`. Esta é uma ótima forma de verificar se o código está fazendo o que foi planejado para fazer.

A condição `r.status_code == 200` verifica se a resposta da requisição foi retornada com sucesso ([código 200][status_code_200]).

[status_code_200]: https://developer.mozilla.org/pt-BR/docs/Web/HTTP/Status/200

## Arquivos Tabulares (CSV, TSV, ...)

## Arquivos JSON

## Arquivos XML 

## Arquivos HTML 

## Bancos de Dados Relacional 

## APIs REST