# Armazenando dados

## Baixando arquivos de imagens e arquivos diversos e trabalhando com arquivos CSV

## Arquivos de mídia

Após a realização de um web scraper provavelmente você vai precisar armazenar estas informações de alguma forma.
Em se tratando de arquivos de mídia, podemos realizar o download e armazenar os arquivos localmente ou podemos armazenar somente o caminho dos arquivos.<br>
Gravando apenas os caminhos (URLs) você economiza espaço em disco, executa o scraper com uma velocidade maior e diminui a carga no servidor evitando download de grandes arquivos.
É claro que existe o risco do arquivo não estar mais disponível no futuro, quando precisarmos realizar o download do mesmo.<br>
Podemos usar a função urllib.request.urlretrieve para baixar arquivos à partir de qualquer URL remoto.
Veja um exemplo:
Digitei no Google a palavra “receitas” e localizei o site “http://www.destemperados.com.br” nos resultados.
Olhei o código-fonte do site e identifiquei as tags com o logotipo do site. A seguir veja um exemplo do uso da função urlretrieve para baixar esta imagem.

In [1]:
from urllib.request import urlretrieve
from urllib.request import urlopen
from bs4 import BeautifulSoup
site = "http://www.destemperados.com.br/"
html = urlopen(site + "receitas")
bsObj = BeautifulSoup(html)
imageLocation = bsObj.find("a", {"title": "Destemperados"}).find("img")["src"]
urlretrieve(site+imageLocation, "teste.jpg")



 BeautifulSoup(YOUR_MARKUP})

to this:

 BeautifulSoup(YOUR_MARKUP, "lxml")

  markup_type=markup_type))


('teste.jpg', <http.client.HTTPMessage at 0x22072069208>)

Imagem baixada:
![teste](imagens/teste.jpg)

Isso funciona quando queremos baixar um único arquivo, porém, na maioria dos casos não vamos baixar um único arquivo e renomear.<br>
Veja a seguir um exemplo para realização de download de diversos arquivos de imagens do site.<br>
O exemplo seguinte retorna imagens do site http://pythonscraping.com que foi criado pelo autor do livro “Web Scraping with Python” (Ryan Mitchell) para realização de testes.

In [3]:
import os
from urllib.request import urlretrieve
from urllib.request import urlopen
from bs4 import BeautifulSoup

downloadDirectory = "downloaded"
baseUrl = "http://pythonscraping.com"

def getAbsoluteURL(baseUrl, source):
    if source.startswith("http://www."):
        url = "http://"+source[11:]
    elif source.startswith("http://"):
        url = source
    elif source.startswith("www."):
        url = "http://"+source
    else:
        url = baseUrl+"/"+source

    if baseUrl not in url or ".js" in url:
        return None
    return url

def getDownloadPath(baseUrl, absoluteUrl, downloadDirectory):
    path = absoluteUrl.replace("www.", "")
    path = path.replace(baseUrl, "")
    path = downloadDirectory+path
    directory = os.path.dirname(path)

    if not os.path.exists(directory):
        os.makedirs(directory)

    return path

html = urlopen("http://www.pythonscraping.com")
bsObj = BeautifulSoup(html, "html.parser")
downloadList = bsObj.findAll(src=True)

for download in downloadList:
    fileUrl = getAbsoluteURL(baseUrl, download["src"])
    if fileUrl is not None:
        urlretrieve(fileUrl, getDownloadPath(baseUrl, fileUrl, downloadDirectory))

getAbsoluteURL:<br>
Faz um tratamento na URL informada para retornar apenas links do próprio site, descartando links externos.

getDownloadPath:<br>
Cria pastas localmente seguindo o caminho dos arquivos que serão baixados.

### Baixando diversos arquivos

A seguir segue exemplo de uma necessidade levantada por um dos alunos do curso.<br>
A necessidade era baixar todos arquivos do site:<br>
http://www2.aneel.gov.br/aplicacoes_liferay/tarifa/

![Aneel](imagens/aneel.png)

Em programação podemos ter várias soluções pra um mesmo problema, com web scraping não é diferente, depende muito de sua necessidade e da fonte de informações disponíveis (e do tempo que você tem disponível para analisar o problema).<br>
No caso, como ele precisava de todos arquivos do site e o mesmo mostrava todos os arquivos ao selecionar o filtro “Todos” em todas as opções, podemos simplesmente salvar a página e trabalhar em cima do arquivo salvo.

![Aneel](imagens/aneel2.png)

### Armazenando dados em CSV

O CSV, ou comma-separated values (valores separados por vírgula), é um dos formatos de arquivo mais populares para o armazenamento de dados de planilha.<br>
O Microsoft Excel, assim como o LibreOffice e muitos outros aplicativos dão suporte a este tipo de arquivo.<br>
Veja um exemplo de conteúdo de arquivo CSV:<br>
Nome,telefone,celular<br>
Fulano,(11)1111-1111,(11)99999-9999<br>
Cicrano,(27)2222-2222,(27)88888-8888<br>
Beltrano,(31)3333-3333,(31)77777-7777<br>
<br>
Um arquivo CSV também pode ter outros separadores, como tabulação, ponto e vírgula, etc.<br>

O Python possui uma biblioteca nativa para trabalharmos com arquivos CSV.<br>
Veja um exemplo:

In [9]:
import csv

arquivo_csv = open("exemplo.csv", "w", newline="")
try:
    writer = csv.writer(arquivo_csv)
    writer.writerow(['Nome', 'Telefone', 'Celular'])
    writer.writerow(['Fulano', '(11)1111-1111', '(11)99999-9999'])
    writer.writerow(['Cicrano', '(22)2222-2222', '(27)88888-8888'])
    writer.writerow(['Beltrano', '(33)3333-3333', '(31)77777-7777'])
finally:
    arquivo_csv.close()

![CSV](imagens/exemplo_csv.png)

Como vimos, csv.writer é o módulo para escrever dados em arquivos CSV. Usamos writerow para escrever uma linha no arquivo.<br>
Writerows pode receber um objeto iterável como uma lista por exemplo e escrever várias linhas.<br>

In [11]:
import csv

telefones = [['Nome', 'Telefone', 'Celular'],
             ['Fulano', '(11)1111-1111', '(11)99999-9999'],
             ['Cicrano', '(22)2222-2222', '(27)88888-8888'],
             ['Beltrano', '(33)3333-3333', '(31)77777-7777']]
 
with open('exemplo2.csv', 'w', newline="") as arquivo_csv:
    writer = csv.writer(arquivo_csv)
    writer.writerows(telefones)

Baixei um arquivo CSV aleatório na internet (estará disponível junto ao material da aula), para isso fui ao Google e pesquisei por “site:org.br filetype:csv”.<br>
Dos resultados escolhi este arquivo:<br>
http://www.cropr.org.br/uploads/transparencia/FC_2016_05.csv

Vou usar este arquivo para demonstrar a leitura de arquivos CSV.

In [13]:
import csv

with open('FC_2016_05.csv') as arquivo_csv:
    reader = csv.reader(arquivo_csv, delimiter=';')
    for linha in reader:
        print(linha)

['', '', '', '', '', '', '']
['', '', '', '', '', '', '']
['', '', '', '', '', '', '']
['', '', '', '', '', '', '']
['', '', '', '', '', '', '']
['Conselho Regional de Odontologia do Paraná', '', '', '', '', '', '']
['Fluxo de Caixa - Mês Maio/ 2016', '', '', '', '', '', '']
['DATA', 'EMPENHO', 'CHEQUE', '', ' ENTRADA ', ' SAÍDA ', '']
['02/05/2016', '', '', 'Prestação de Contas Uniforme', ' R$ 25,50 ', '', '']
['02/05/2016', '', '', 'Reembolso Ajuda de custo Uniforme', ' R$ 213,10 ', '', '']
['02/05/2016', '', '', 'Arrecadação', ' R$ 5.616,05 ', '', '']
['02/05/2016', '', '', 'Arrecadação', ' R$ 1.141,45 ', '', '']
['02/05/2016', '', '', 'Arrecadação Bradesco', ' R$ 142.498,90 ', '', '']
['02/05/2016', '779', '298312', 'Maximino Pastorello S/A - Reembolso de anuidade 2016 por cancelamento de inscrição anterior a 31/03/2016', '', '-R$ 2.619,90 ', '']
['02/05/2016', '', 'Arq. Bco', 'Diárias Funcionário - Alexandre - Jurídico', '', '-R$ 1.072,00 ', '']
['02/05/2016', '', 'Arq. Bco', 'Fér

Abrindo um arquivo informado por parâmetro:

Abrindo um arquivo através do link informado:

Fiz esta pesquisa no Google para localizar um arquivo csv:<br>
site:org filetype:csv<br>
<br>
Como exemplo informe o link a seguir que foi encontrado na busca:<br>
http://www.mafmc.org/s/CT1.csv

In [15]:
from urllib.request import urlretrieve
import csv

link = input("Informe o link do arquivo csv: ")
delimitador = input("Informe o delimitador: ")
urlretrieve(link, "arquivo_baixado.csv")
with open("arquivo_baixado.csv", 'r') as arquivo_csv:
    reader = csv.reader(arquivo_csv, delimiter=delimitador)
    for linha in reader:
        print(linha)

Informe o link do arquivo csv: http://www.mafmc.org/s/CT1.csv
Informe o delimitador: ;
['DATE,STRATUM,YEAR,MONTH,DEPTH,TEMP,SAL,ABUN,WEIGHT']
['5/22/1984,T1,1984,MAY,,,,0,.']
['5/22/1984,T2,1984,MAY,,,,0,.']
['5/22/1984,T2,1984,MAY,,,,0,.']
['5/22/1984,T1,1984,MAY,,,,1,.']
['5/22/1984,M1,1984,MAY,,,,0,.']
['5/23/1984,M2,1984,MAY,,,,0,.']
['5/23/1984,M1,1984,MAY,,,,0,.']
['5/23/1984,T2,1984,MAY,,,,0,.']
['5/23/1984,M2,1984,MAY,,,,3,.']
['5/23/1984,M3,1984,MAY,,,,0,.']
['5/24/1984,M3,1984,MAY,,,,1,.']
['5/24/1984,T3,1984,MAY,,,,0,.']
['5/24/1984,S3,1984,MAY,,,,0,.']
['6/4/1984,T1,1984,JUN,,,,0,.']
['6/4/1984,T2,1984,JUN,,,,0,.']
['6/6/1984,M3,1984,JUN,,,,0,.']
['6/6/1984,M2,1984,JUN,,,,0,.']
['6/6/1984,T3,1984,JUN,,,,0,.']
['6/6/1984,T2,1984,JUN,,,,1,.']
['6/6/1984,M4,1984,JUN,,,,0,.']
['6/7/1984,T4,1984,JUN,,,,0,.']
['6/7/1984,M4,1984,JUN,,,,0,.']
['6/7/1984,T4,1984,JUN,,,,1,.']
['6/7/1984,S2,1984,JUN,,,,1,.']
['6/7/1984,T3,1984,JUN,,,,0,.']
['6/8/1984,M3,1984,JUN,,,,0,.']
['6/8/1984,T2

['6/5/1989,T1,1989,JUN,10.5,12.7,28,0,.']
['6/6/1989,T4,1989,JUN,27.4,12.8,26,0,.']
['6/6/1989,S3,1989,JUN,31,12.8,26.2,0,.']
['6/6/1989,T2,1989,JUN,15.2,14,26.5,0,.']
['6/6/1989,T1,1989,JUN,9.2,13.9,27.4,0,.']
['6/6/1989,T3,1989,JUN,18.3,13.7,,0,.']
['6/6/1989,T4,1989,JUN,,,,0,.']
['6/6/1989,T3,1989,JUN,,,,0,.']
['6/12/1989,T4,1989,JUN,,,,0,.']
['6/12/1989,S4,1989,JUN,,,,0,.']
['6/12/1989,S1,1989,JUN,,,,0,.']
['6/14/1989,S3,1989,JUN,12.2,13.2,25,1,.']
['6/14/1989,T3,1989,JUN,26,12.3,25.2,0,.']
['6/14/1989,T2,1989,JUN,20,14,25.3,0,.']
['6/14/1989,S3,1989,JUN,27,14,25.5,0,.']
['6/14/1989,S1,1989,JUN,,,,0,.']
['6/14/1989,T3,1989,JUN,,,,0,.']
['6/19/1989,M2,1989,JUN,12.2,15.5,24,0,.']
['6/19/1989,S2,1989,JUN,12,16.3,24.2,0,.']
['6/19/1989,M3,1989,JUN,18.3,13.5,25,0,.']
['6/19/1989,T2,1989,JUN,9.2,14.1,25,0,.']
['6/20/1989,S2,1989,JUN,14,16.3,24.3,0,.']
['6/20/1989,M4,1989,JUN,35.1,12.2,24.5,0,.']
['6/20/1989,M4,1989,JUN,28,12.2,25,0,.']
['6/20/1989,M4,1989,JUN,40,12.4,25.5,0,.']
['6/22/19

['10/26/1994,M2,1994,OCT,14.3,15.6,29.7,0,0']
['10/26/1994,T2,1994,OCT,14.6,15.5,29.8,0,0']
['10/26/1994,M4,1994,OCT,27.4,15.8,29.9,0,0']
['10/27/1994,T1,1994,OCT,6.7,15.1,29,0,0']
['10/27/1994,M4,1994,OCT,27.7,15.5,29.8,0,0']
['10/27/1994,T3,1994,OCT,23.2,15.1,29.9,0,0']
['10/27/1994,S2,1994,OCT,15.2,15,30.2,0,0']
['10/31/1994,T2,1994,OCT,15.6,15.8,29.6,0,0']
['10/31/1994,M4,1994,OCT,29.3,15.9,29.7,1,0.1']
['10/31/1994,T3,1994,OCT,19.8,15.7,29.9,0,0']
['10/31/1994,T4,1994,OCT,27.7,14.7,30.5,0,0']
['10/31/1994,T3,1994,OCT,26.2,15.1,30.8,0,0']
['11/1/1994,T3,1994,OCT,25.3,15.8,29.9,0,0']
['11/1/1994,T3,1994,OCT,24.1,15.5,30.5,0,0']
['11/1/1994,S3,1994,OCT,26.2,15.8,30.9,0,0']
['11/1/1994,S1,1994,OCT,6.7,15.1,31.4,0,0']
['11/1/1994,S3,1994,OCT,23.5,15.2,31.5,0,0']
['11/3/1994,T2,1994,OCT,9.1,14.5,31.3,0,0']
['11/3/1994,T1,1994,OCT,8.5,14.3,31.8,0,0']
['11/3/1994,T4,1994,OCT,42.1,14.5,31.8,0,0']
['11/3/1994,T4,1994,OCT,34.1,14.5,32,1,0.1']
['11/4/1994,S4,1994,OCT,28.4,14.1,30.7,4,0.9']
['

['5/16/2001,T2,2001,MAY,15.3,9.3,26.1,0,0']
['5/16/2001,M2,2001,MAY,13.7,10.2,26.1,1,0.5']
['5/16/2001,M1,2001,MAY,7.6,10.4,26.1,0,0']
['5/16/2001,M3,2001,MAY,19.5,8.9,26.2,0,0']
['5/17/2001,T2,2001,MAY,14,10.9,26,0,0']
['5/17/2001,S2,2001,MAY,11.2,11.6,26.3,0,0']
['5/17/2001,M3,2001,MAY,24.4,8.7,26.5,0,0']
['5/17/2001,M3,2001,MAY,21.7,9,26.5,0,0']
['5/21/2001,M2,2001,MAY,18.9,10.7,26.4,0,0']
['5/21/2001,M3,2001,MAY,23.2,9.1,26.6,0,0']
['5/31/2001,M4,2001,MAY,28.7,10.6,27.3,0,0']
['5/31/2001,T3,2001,MAY,25,12,28,1,0.5']
['6/8/2001,T1,2001,JUN,9.7,13.6,29.6,0,0']
['6/8/2001,M4,2001,JUN,34,12.9,30,1,0.4']
['6/11/2001,T3,2001,JUN,27.4,13.7,27.5,2,1.1']
['6/11/2001,T3,2001,JUN,24.6,14.1,27.5,4,2.4']
['6/11/2001,S3,2001,JUN,25.5,13.8,27.8,6,4']
['6/11/2001,S3,2001,JUN,29.9,13.9,28.3,0,0']
['6/11/2001,S4,2001,JUN,30.2,13.9,28.3,0,0']
['6/11/2001,S4,2001,JUN,29.9,13.8,28.8,0,0']
['6/12/2001,S1,2001,JUN,9.1,17.8,25.9,0,0']
['6/12/2001,T1,2001,JUN,8.8,17.7,26,0,0']
['6/12/2001,S1,2001,JUN,7.9,1

['9/22/2009,T4,2009,SEP,29.2,20.6,28.2,0,0']
['9/22/2009,T3,2009,SEP,25.6,20.6,28.3,0,0']
['9/23/2009,M2,2009,SEP,10,20.7,27.1,0,0']
['9/23/2009,M3,2009,SEP,27.6,20.7,27.7,0,0']
['9/23/2009,M3,2009,SEP,17.7,20.7,27.8,0,0']
['9/23/2009,M4,2009,SEP,28.4,20.7,27.9,1,0.1']
['9/23/2009,M4,2009,SEP,39.3,20.7,28.1,0,0']
['9/24/2009,S2,2009,SEP,13.1,21.1,26.5,1,0.1']
['9/24/2009,T2,2009,SEP,13.1,20.6,26.9,0,0']
['9/24/2009,T2,2009,SEP,15.7,20.8,26.9,0,0']
['9/24/2009,T2,2009,SEP,18,20.6,27.6,0,0']
['9/25/2009,M1,2009,SEP,8.4,20.5,26.9,0,0']
['9/25/2009,M2,2009,SEP,23,20.5,27.1,0,0']
['9/25/2009,M3,2009,SEP,21.9,20.4,27.4,0,0']
['9/25/2009,M4,2009,SEP,32.3,20.6,27.7,0,0']
['9/29/2009,M1,2009,SEP,11.5,19.6,26.8,1,0.1']
['9/29/2009,T1,2009,SEP,8.8,19.7,27.2,0,0']
['9/29/2009,M3,2009,SEP,17,20.3,27.9,1,0.3']
['9/29/2009,M3,2009,SEP,22.2,20.4,27.9,0,0']
['9/29/2009,M2,2009,SEP,17.1,20.3,28.2,1,0.2']
['10/14/2009,T3,2009,OCT,18.8,17.2,28.5,0,0']
['10/14/2009,T3,2009,OCT,25.5,17.2,28.5,3,0.1']
['10/1

Trabalhando com dicionários. Leitura com DictReader:

In [16]:
import csv

estado = []
with open("estados.csv", encoding="utf-8") as arq:
    reader = csv.DictReader(arq)
    for linha in reader:
        print(linha['Nome'] + " - " + linha['Capital'])

Acre - Rio Branco
Alagoas - Maceió
Amapá - Macapá
Amazonas - Manaus
Bahia - Salvador
Ceará - Fortaleza
Distrito Federal - Brasília
Espírito Santo - Vitória
Goiás - Goiânia
Maranhão - São Luís
Mato Grosso - Cuiabá
Mato Grosso do Sul - Campo Grande
Minas Gerais - Belo Horizonte
Pará - Belém
Paraíba - João Pessoa
Paraná - Curitiba
Pernambuco - Recife
Piauí - Teresina
Rio de Janeiro - Rio de Janeiro
Rio Grande do Norte - Natal
Rio Grande do Sul - Porto Alegre
Rondônia - Porto Velho
Roraima - Boa Vista
Santa Catarina - Florianópolis
São Paulo - São Paulo
Sergipe - Aracaju
Tocantins - Palmas


Trabalhando com dicionários. Escrita com DictWriter:

In [17]:
import csv
try:
    arq = open("pessoas.csv", "w", newline="")
    cabecalho = ["nome", "sobrenome"]
    writer = csv.DictWriter(arq, fieldnames=cabecalho)
    writer.writeheader()
    writer.writerow({"nome":"Evaldo", "sobrenome":"Wolkers"})
    writer.writerow({"nome":"Fulano", "sobrenome":"de Tal"})
    writer.writerow({"nome":"Cicrano", "sobrenome":"Souza"})
    writer.writerow({"nome":"Beltrano", "sobrenome":"Silva"})
finally:
    arq.close()

Realizando scraping em uma tabela HTML e salvando como CSV:

Link para o exemplo:<br>
https://www.techtudo.com.br/noticias/2017/10/confira-a-lista-completa-de-carros-para-need-for-speed-payback.ghtml

![Need](imagens/need1.png)

![Need](imagens/need2.png)

In [19]:
from bs4 import BeautifulSoup
from urllib.request import urlopen
import csv

html = urlopen("https://www.techtudo.com.br/noticias/2017/10/confira-a-lista-completa-de-carros-para-need-for-speed-payback.ghtml")
bsObj = BeautifulSoup(html, "html.parser")
tabela = bsObj.find("table")
linhas = tabela.findAll("tr")
arquivo_csv = open("carros.csv", "w", newline="")
for linha in linhas:
    colunas = linha.findAll("td")
    lista = []
    for coluna in colunas:
        lista.append(coluna.text)

    writer = csv.writer(arquivo_csv, delimiter=";")
    writer.writerow(lista)
arquivo_csv.close()