# Fontes de Dados 🚰 🎲

## Sumário da Aula

<ul>
    <li>Aspectos de Fontes de Dados 🚰 🎲</li>
    <li>HTTP(S) 🕸️</li>
    <li>Sistema de Arquivos 🗂️</li>
    <li>Aspectos de Banco de Dados 🏦 🎲</li>
    <li>Aspectos de Application Programming Interface (API) 📝</li>
</ul>

## Aspectos de Fontes de Dados ⛲️🎲

Acessar dados é o primeiro passo necessário para usar a maior parte das ferramentas deste curso. 

Há várias ferramentas em bibliotecas para ajudar na leitura e na escrita de dados em diversos formatos.

A entrada e a saída de dados geralmente se enquadram nas principais categorias a seguir:

<ul>
    <li>Leitura de arquivos-texto e outros formatos mais eficientes em disco;</li>
    <li>Carga de dados de bancos de dados relacionais baseados em SQL (como SQL Server, PostgreSQL e MySQL); e</li>
    <li>Interação com fontes de dados da Internet.</li>
    <ul>
        <li>Application Programming Interface (API);e </li>
        <li><i>web</i> scraping ou raspagem de dados</li>
    </ul>
</ul>

## HTTP(S) 🕸️

<img src='https://user-images.githubusercontent.com/27566113/235280863-84da73df-55c8-48b7-820e-9a179dff588d.png' width='100%'>

### Biblioteca Principal 📚: <a href='https://requests.readthedocs.io/en/latest/'>requests</a>

<img src="https://requests.readthedocs.io/en/latest/_static/requests-sidebar.png" width="100" style="float: right;">

In [1]:
import requests

<pre>Você pode acessar uma página da Internet com requests e baixá-la.</pre>

In [2]:
url = 'https://bvsms.saude.gov.br/wp-content/uploads/2020/12/'
url += 'ze_gotinha.jpg'
response = requests.get(url)
response

<Response [200]>

👉 dica: o número que acompanha a resposta <code>Response [<b>200</b>]</code> tem significado; 

consulte os possíveis <a href='https://en.wikipedia.org/wiki/List_of_HTTP_status_codes'>números e seus significados</a>

<pre>Na sequência, você pode acessar o conteúdo da resposta.</pre>

In [3]:
conteudo = response.content
conteudo[:100]

b'\xff\xd8\xff\xe0\x00\x10JFIF\x00\x01\x01\x01\x00H\x00H\x00\x00\xff\xe1\nLExif\x00\x00MM\x00*\x00\x00\x00\x08\x00\x07\x01\x12\x00\x03\x00\x00\x00\x01\x00\x01\x00\x00\x01\x1a\x00\x05\x00\x00\x00\x01\x00\x00\x00b\x01\x1b\x00\x05\x00\x00\x00\x01\x00\x00\x00j\x01(\x00\x03\x00\x00\x00\x01\x00\x02\x00\x00\x011\x00\x02\x00\x00\x00\x1e\x00\x00\x00r'

<img src='https://bvsms.saude.gov.br/wp-content/uploads/2020/12/ze_gotinha.jpg'>

#### Função Auxiliar

<pre>Baseado nas instruções anteriores, vamos criar uma função que acesse um arquivo na Internet, recebendo url como parâmetro</pre>

In [4]:
def read_file(url):
    response = requests.get(url)

    if response.status_code == 200:
        content = response.content
        return content

In [5]:
read_file(url)[:100]

b'\xff\xd8\xff\xe0\x00\x10JFIF\x00\x01\x01\x01\x00H\x00H\x00\x00\xff\xe1\nLExif\x00\x00MM\x00*\x00\x00\x00\x08\x00\x07\x01\x12\x00\x03\x00\x00\x00\x01\x00\x01\x00\x00\x01\x1a\x00\x05\x00\x00\x00\x01\x00\x00\x00b\x01\x1b\x00\x05\x00\x00\x00\x01\x00\x00\x00j\x01(\x00\x03\x00\x00\x00\x01\x00\x02\x00\x00\x011\x00\x02\x00\x00\x00\x1e\x00\x00\x00r'

## Sistema de Arquivos 🗂️

### Biblioteca(s) Principal(is) 📚: <a href='https://docs.python.org/3/library/os.html'>os</a>, <a href='https://docs.python.org/3/library/csv.html'>csv</a>, <a href='https://docs.python.org/3/library/json.html'>json</a>

(e outras bibliotecas para leitura de arquivos)

In [6]:
import os
import csv
import json

<pre>Você pode acessar seu sistema de arquivos para ler e salvar arquivos</pre>

In [7]:
current_folder = os.getcwd()
current_folder

'/Users/heliomacedofilho/code/heliomacedofilho/aspectos-de-programacao-para-ciencia-de-dados/bootcamp/day 04'

<pre>Inicialmente, vamos criar uma pasta que armazenará todos os arquivos que utilizaremos nas aulas do bootcamp: <code>project</code></pre>

In [8]:
folderpath = os.path.join(current_folder, os.pardir, 'project')
folderpath

'/Users/heliomacedofilho/code/heliomacedofilho/aspectos-de-programacao-para-ciencia-de-dados/bootcamp/day 04/../project'

<pre>Veja que '..' sinaliza sair do subdiretório corrente, então vamos retificar o caminho por inteiro</pre>

In [9]:
folderpath = os.path.abspath(folderpath)
folderpath

'/Users/heliomacedofilho/code/heliomacedofilho/aspectos-de-programacao-para-ciencia-de-dados/bootcamp/project'

<pre>Agora vamos criar uma estrutura de pastas a partir desse ponto: na pasta data/raw, colocaremos os dados brutos das aulas.</pre>

In [10]:
folderpath = os.path.join(folderpath, 'data', 'raw')
folderpath

'/Users/heliomacedofilho/code/heliomacedofilho/aspectos-de-programacao-para-ciencia-de-dados/bootcamp/project/data/raw'

<pre>Caso a estrutura de pastas não exista, nós a criaremos para armazenar nossos dados brutos.</pre>

In [11]:
if not os.path.exists(folderpath): 
    os.makedirs(folderpath)

In [12]:
#verifica se a estrutura de pasta agora existe
os.path.exists(folderpath)

True

<pre>Agora, vamos baixar e salvar a foto do Zé Gotinha no nosso sistema de arquivos.</pre>

In [13]:
ze_gotinha = read_file(url)

In [14]:
filepath = os.path.join(folderpath, 'ze_gotinha.jpg')

with open(filepath, mode='wb') as file:
    file.write(ze_gotinha)

In [15]:
!tree ../project/data/raw

[1;36m../project/data/raw[0m
└── ze_gotinha.jpg

1 directory, 1 file


<pre>Como baixamos e salvamos a foto do Zé Gotinha apenas para testes, podemos apagar o arquivo.</pre>

In [16]:
os.remove(filepath)

In [17]:
!tree ../project/data/raw

[1;36m../project/data/raw[0m

0 directories, 0 files


#### Função Auxiliar

<pre>Baseado nas instruções anteriores, vamos criar uma função que crie a estrutura de pastas...</pre>

In [18]:
def build_path(subfolder = 'raw'):
    current_folder = os.getcwd()
    folderpath = os.path.join(current_folder, os.pardir, 'project', 'data', subfolder)
    folderpath = os.path.abspath(folderpath)
    if not os.path.exists(folderpath): os.makedirs(folderpath)
    return folderpath

<pre>... e que baixe e salve o arquivo.</pre>

In [19]:
def download_file_and_save(url, filename):
    folderpath = build_path()
    filepath = os.path.join(folderpath, filename)
    
    content = read_file(url)

    if not os.path.exists(folderpath):
        os.makedirs(folderpath)
    with open(filepath, mode='wb') as file:
        file.write(content)

#### Georreferenciamento

<pre>Vamos baixar os dados de georreferenciamento de estados e municípios brasileiros para o nosso sistema de arquivos... nós os utilizaremos no decorrer das aulas!</pre>

👉 dados de <a href='https://raw.githubusercontent.com/kelvins/Municipios-Brasileiros/main/csv/estados.csv'>georreferenciamento dos estados brasileiros</a>

👉 dados de <a href='https://raw.githubusercontent.com/kelvins/Municipios-Brasileiros/main/csv/municipios.csv'>georreferenciamento dos municípios brasileiros</a>

In [20]:
download_file_and_save(
    'https://raw.githubusercontent.com/'+
    'kelvins/Municipios-Brasileiros/main/csv/estados.csv',
    'estados_georreferenciamento.csv')
download_file_and_save(
    'https://raw.githubusercontent.com/'+
    'kelvins/Municipios-Brasileiros/main/csv/municipios.csv',
    'municipios_georreferenciamento.csv')

In [21]:
!tree ../project/data/raw

[1;36m../project/data/raw[0m
├── estados_georreferenciamento.csv
└── municipios_georreferenciamento.csv

1 directory, 2 files


👉 Saiba mais sobre arquivos <a href='https://en.wikipedia.org/wiki/Comma-separated_values'>CSV</a>

<pre>Vamos ler as linhas de um dos arquivos que nós baixamos para testar nosso procedimento</pre>

In [22]:
filepath = os.path.join(os.getcwd(), os.pardir, 
                            'project', 'data', 'raw', 
                            'estados_georreferenciamento.csv')

with open(filepath) as csvfile:
    for line in csvfile:
        print(line)

﻿codigo_uf,uf,nome,latitude,longitude,regiao

11,RO,Rondônia,-10.83,-63.34,Norte

12,AC,Acre,-8.77,-70.55,Norte

13,AM,Amazonas,-3.47,-65.1,Norte

14,RR,Roraima,1.99,-61.33,Norte

15,PA,Pará,-3.79,-52.48,Norte

16,AP,Amapá,1.41,-51.77,Norte

17,TO,Tocantins,-9.46,-48.26,Norte

21,MA,Maranhão,-5.42,-45.44,Nordeste

22,PI,Piauí,-6.6,-42.28,Nordeste

23,CE,Ceará,-5.2,-39.53,Nordeste

24,RN,Rio Grande do Norte,-5.81,-36.59,Nordeste

25,PB,Paraíba,-7.28,-36.72,Nordeste

26,PE,Pernambuco,-8.38,-37.86,Nordeste

27,AL,Alagoas,-9.62,-36.82,Nordeste

28,SE,Sergipe,-10.57,-37.45,Nordeste

29,BA,Bahia,-13.29,-41.71,Nordeste

31,MG,Minas Gerais,-18.1,-44.38,Sudeste

32,ES,Espírito Santo,-19.19,-40.34,Sudeste

33,RJ,Rio de Janeiro,-22.25,-42.66,Sudeste

35,SP,São Paulo,-22.19,-48.79,Sudeste

41,PR,Paraná,-24.89,-51.55,Sul

42,SC,Santa Catarina,-27.45,-50.95,Sul

43,RS,Rio Grande do Sul,-30.17,-53.5,Sul

50,MS,Mato Grosso do Sul,-20.51,-54.54,Centro-Oeste

51,MT,Mato Grosso,-12.64,-55.42,Centro-Oeste

<pre>🚨 spoiler: nós ainda não aprendemos pandas 🐼, mas veja como será simples e amigável ler csv</pre>

In [23]:
from pandas import read_csv

read_csv(filepath)

Unnamed: 0,codigo_uf,uf,nome,latitude,longitude,regiao
0,11,RO,Rondônia,-10.83,-63.34,Norte
1,12,AC,Acre,-8.77,-70.55,Norte
2,13,AM,Amazonas,-3.47,-65.1,Norte
3,14,RR,Roraima,1.99,-61.33,Norte
4,15,PA,Pará,-3.79,-52.48,Norte
5,16,AP,Amapá,1.41,-51.77,Norte
6,17,TO,Tocantins,-9.46,-48.26,Norte
7,21,MA,Maranhão,-5.42,-45.44,Nordeste
8,22,PI,Piauí,-6.6,-42.28,Nordeste
9,23,CE,Ceará,-5.2,-39.53,Nordeste


In [24]:
from pandas import read_csv

read_csv('https://raw.githubusercontent.com/'+
             'kelvins/Municipios-Brasileiros/main/csv/estados.csv')

Unnamed: 0,codigo_uf,uf,nome,latitude,longitude,regiao
0,11,RO,Rondônia,-10.83,-63.34,Norte
1,12,AC,Acre,-8.77,-70.55,Norte
2,13,AM,Amazonas,-3.47,-65.1,Norte
3,14,RR,Roraima,1.99,-61.33,Norte
4,15,PA,Pará,-3.79,-52.48,Norte
5,16,AP,Amapá,1.41,-51.77,Norte
6,17,TO,Tocantins,-9.46,-48.26,Norte
7,21,MA,Maranhão,-5.42,-45.44,Nordeste
8,22,PI,Piauí,-6.6,-42.28,Nordeste
9,23,CE,Ceará,-5.2,-39.53,Nordeste


## Aspectos de API 📝

"É um conjunto de serviços/funções que foram implementadas em um programa de computador que são disponibilizados para que outros programas/aplicativos possam utiliza-los diretamente de forma simplificada; sem envolver-se em detalhes da implementação do programa de computador principal"

<pre>Muitos sites têm API públicas que oferecem feeds de dados usando JSON ou outro formato.</pre>

👉 Saiba mais sobre <a href='https://en.wikipedia.org/wiki/JSON'>JSON</a>

👉 Lista de <a href='https://www.gov.br/conecta/catalogo/'>API do Governo Federal</a>

👉 Lista de <a href='https://opencollective.com/public-apis'>API públicas</a> para uso em software

<pre>Um método fácil de usar API é com o <a href='http://docs.python-requests.org'>requests</a>, que vimos em HTTP(S) 🕸️</pre>

👉 Dados Abertos da <a href='https://dadosabertos.camara.leg.br/'>Câmara dos Deputados</a>

🚨 Vamos usar a API <a href='https://dadosabertos.camara.leg.br/swagger/api.html'>Deputados</a>: listagem e busca de deputados, segundo critérios

In [25]:
response = requests.get('https://dadosabertos.camara.leg.br/'+
                        'api/v2/deputados')
response

<Response [200]>

<pre>Dessa vez, em vez de abrirmos o conteúdo da resposta, vamos converter a resposta em dicionário</pre>

In [26]:
content = response.json() #em vez de response.content
content.keys()

dict_keys(['dados', 'links'])

In [27]:
deputados = content['dados']

<pre>Vamos listar dois deputados federais...</pre>

In [28]:
for deputado in deputados[:2]:
    print(deputado['nome'])

Abilio Brunini
Acácio Favacho


<pre>... ou contar os deputados federais de uma unidade da federação escolhida arbitrariamente...</pre>

In [29]:
deputados_mineiros = [deputado for deputado in deputados 
                      if deputado['siglaUf']=='MG']

print(f'São {len(deputados_mineiros)} deputados federais mineiros')

São 53 deputados federais mineiros


In [30]:
for deputado in deputados_mineiros:
    print(deputado['nome'], end='; ')

Aécio Neves; Ana Paula Leão; Ana Pimentel; André Janones; Bruno Farias; Célia Xakriabá; Dandara; Delegada Ione; Delegado Marcelo Freitas; Diego Andrade; Dimas Fabiano; Domingos Sávio; Dr. Frederico; Duda Salabert; Emidinho Madeira; Eros Biondini; Euclydes Pettersen; Fred Costa; Gilberto Abramo; Greyce Elias; Hercílio Coelho Diniz; Igor Timo; Junio Amaral; Lafayette de Andrada; Leonardo Monteiro; Lincoln Portela; Luis Tibé; Luiz Fernando Faria; Marcelo Álvaro Antônio; Mário Heringer; Mauricio do Vôlei; Miguel Ângelo; Misael Varella; Nely Aquino; Newton Cardoso Jr; Nikolas Ferreira; Odair Cunha; Padre João; Patrus Ananias; Paulo Abi-Ackel; Paulo Guedes; Pedro Aihara; Pinheirinho; Rafael Simoes; Reginaldo Lopes; Rodrigo de Castro; Rogério Correia; Rosângela Reis; Samuel Viana; Stefano Aguiar; Weliton Prado; Zé Silva; Zé Vitor; 

<pre>Alternativamente, vamos averiguar a quantidade de projetos que tramitaram nas últimas 24 horas...</pre>

🚨 Agora, vamos usar a API <a href='https://dadosabertos.camara.leg.br/swagger/api.html'>Proposições</a>: Lista configurável de proposições na Câmara

<pre>Dessa vez, vamos qualificar a resposta com a passagem de parâmetros por meio da API</pre>

<pre>Já que queremos as últimas 24 horas, calculamos a data de hoje...</pre>

In [31]:
from datetime import date

hoje = date.today()
hoje

datetime.date(2023, 9, 28)

<pre>... e calculamos a data de ontem</pre>

In [32]:
from dateutil.relativedelta import relativedelta

ontem = hoje + relativedelta(days=-1)
ontem

datetime.date(2023, 9, 27)

<pre>Agora consultamos a API, passando os parâmetros, conforme <a href='https://dadosabertos.camara.leg.br/swagger/api.html'>documentação da API</a></pre>

In [33]:
response = requests.get('https://dadosabertos.camara.leg.br/'+
                        'api/v2/proposicoes', 
                         params={'dataInicio':f'{ontem}', 
                                 'dataFim':f'{hoje}', 
                                 'pagina': 1})
content = response.json()

In [34]:
content.keys()

dict_keys(['dados', 'links'])

### Função Auxiliar

<pre>Baseado nas instruções anteriores, vamos criar uma função que acesse uma API na Internet, recebendo url e parâmetros de consulta como parâmetros da função</pre>

In [35]:
def read_api(url, params=None):
    response = requests.get(url, params=params)

    if response.status_code == 200:
        content = response.json()
        return content

<pre>Vamos listar dois projetos que tramitaram...</pre>

In [36]:
projetos = read_api('https://dadosabertos.camara.leg.br/'+
                    'api/v2/proposicoes', 
                    params={'dataInicio':f'{ontem}', 
                            'dataFim':f'{hoje}',
                            'pagina': 1})

In [37]:
for projeto in projetos['dados'][:2]:
    print(projeto['ementa'])

Dispõem sobre os parcelamentos do solo urbano realizados na forma de condomínio.
Institui o Programa Nacional de Estímulo ao Emprego de Trabalhadores Experientes - PNETE.


<pre>No entanto, veja que nem todos os resultados retornaram na consulta inicial</pre>

In [38]:
len(projetos['dados'])

15

In [39]:
projetos['links'][-1]

{'rel': 'last',
 'href': 'https://dadosabertos.camara.leg.br/api/v2/proposicoes?dataInicio=2023-09-27&dataFim=2023-09-28&pagina=141&itens=15'}

<pre>Vamos extrair o número da página para buscar todos os resultados, percorrendo todas as páginas...</pre>

<pre>... da forma simples, mas elementar;</pre>

In [40]:
api_urls = projetos['links'][-1]
api_urls

{'rel': 'last',
 'href': 'https://dadosabertos.camara.leg.br/api/v2/proposicoes?dataInicio=2023-09-27&dataFim=2023-09-28&pagina=141&itens=15'}

In [41]:
url = api_urls['href']
url

'https://dadosabertos.camara.leg.br/api/v2/proposicoes?dataInicio=2023-09-27&dataFim=2023-09-28&pagina=141&itens=15'

In [42]:
paginas_str = url.split('pagina=')[1]
paginas_str = paginas_str.split('&')[0]
paginas_str

'141'

In [43]:
paginas = int(paginas_str)
paginas

141

<pre>... ou da forma complexa, mas robusta.</pre>

👉 dica: conheça <a href='https://docs.python.org/3/library/re.html'>expressões regulares</a>

In [44]:
url

'https://dadosabertos.camara.leg.br/api/v2/proposicoes?dataInicio=2023-09-27&dataFim=2023-09-28&pagina=141&itens=15'

In [45]:
import re

[paginas] = re.findall('pagina=(\d+)', url)
paginas

'141'

In [46]:
paginas = int(paginas)
paginas

141

<pre>Agora, podemos percorrer página por página da API e retornar o número total de projetos</pre>

In [47]:
projetos = []
for i in range(1, paginas+1):
    parcial_projetos = read_api('https://dadosabertos.camara.leg.br/'+
                                'api/v2/proposicoes',
                                params={'dataInicio':f'{ontem}', 
                                        'dataFim':f'{hoje}', 
                                        'pagina': i})
    projetos += parcial_projetos['dados']

In [48]:
print(f'{len(projetos)} projetos tramitaram na câmara desde ontem')

2108 projetos tramitaram na câmara desde ontem


<pre>Vamos listar três projetos que tramitaram...</pre>

In [49]:
for projeto in projetos[:3]:
    print(f'{projeto["siglaTipo"]} {projeto["numero"]}/{projeto["ano"]} {projeto["ementa"]}')

PL 2454/2003 Dispõem sobre os parcelamentos do solo urbano realizados na forma de condomínio.
PL 6930/2006 Institui o Programa Nacional de Estímulo ao Emprego de Trabalhadores Experientes - PNETE.
PL 7243/2006 Erige em monumento nacional o Caminho da Estrada Real que abrange os Estados de Minas Gerais, Rio de Janeiro e São Paulo.


## Aspectos de Banco de Dados 🏦 🎲

<pre>Em um ambiente de negócios, a maior parte dos dados talvez não esteja armazenada em arquivos-texto nem em arquivos Excel, mas em banco de dados.</pre>

### Biblioteca(s) Principal(is) 📚: <a href='https://docs.python.org/3/library/sqlite3.html'>sqlite3</a>

(e bibliotecas de outros bancos de dados)

In [50]:
import sqlite3

#### Código IBGE de Município

<pre>Vamos baixar os scripts de banco de dados para criar e popular a tabela de códigos IBGE dos municípios brasileiros... nós os utilizaremos no decorrer das aulas!</pre>

👉 script de banco de dados para <a href='https://raw.githubusercontent.com/andrebaltieri/ibge/main/SQLite/Schema.sql'>criar a estrutura da tabela</a> de código IBGE do Município

👉 script de banco de dados para <a href='https://raw.githubusercontent.com/andrebaltieri/ibge/main/SQLite/Data.sql'>popular a tabela</a> de código IBGE do Município

In [51]:
download_file_and_save(\
    'https://raw.githubusercontent.com/andrebaltieri/ibge/main/SQLite/Schema.sql',\
    'schema.sql')
download_file_and_save(\
    'https://raw.githubusercontent.com/andrebaltieri/ibge/main/SQLite/Data.sql',\
    'data.sql')

In [52]:
!tree ../project/data/raw

[1;36m../project/data/raw[0m
├── data.sql
├── estados_georreferenciamento.csv
├── municipios_georreferenciamento.csv
└── schema.sql

1 directory, 4 files


<pre>Agora, vamos criar o arquivo que armazenará o banco de dados (propriamente dito) dos códigos IBGE dos municípios brasileiros...</pre>

In [53]:
folderpath = build_path()
filepath = os.path.join(folderpath, 'municipios_codigos.db')

with sqlite3.connect(filepath) as conn:
    cursor = conn.cursor()
cursor

<sqlite3.Cursor at 0x13e382740>

<pre>... e carregar os scripts do nosso sistema de arquivos...</pre>

<pre>... primeiro, o script de banco de dados para criar a estrutura da tabela de código IBGE do Município...</pre>

In [54]:
schema_file = os.path.join(folderpath, 'Schema.sql')
with open(schema_file, encoding='utf8') as sqlfile:
    schema_sql = sqlfile.read()
schema_sql[:300]

'PRAGMA foreign_keys = off;\nBEGIN TRANSACTION;\n\n-- Table: ibge\nDROP TABLE IF EXISTS ibge;\nCREATE TABLE ibge (id CHAR (7) PRIMARY KEY ASC NOT NULL, state CHAR (2) NOT NULL, city VARCHAR (80) NOT NULL);\n\n-- Index: IX_IBGE_City\nDROP INDEX IF EXISTS IX_IBGE_City;\nCREATE INDEX IX_IBGE_City ON ibge (city A'

<pre>segundo, o script de banco de dados para popular a tabela de código IBGE do Município.</pre>

In [55]:
data_file = os.path.join(folderpath, 'Data.sql')
with open(data_file, encoding='utf8') as sqlfile:
    data_sql = sqlfile.read()
data_sql[:300]

"--\n-- File generated with SQLiteStudio v3.2.1 on qui mar 11 13:15:09 2021\n--\n-- Text encoding used: UTF-8\n--\nPRAGMA foreign_keys = off;\nBEGIN TRANSACTION;\n\nINSERT INTO ibge (id, state, city) VALUES ('1100015', 'RO', 'Alta Floresta D''''Oeste');\nINSERT INTO ibge (id, state, city) VALUES ('1100379', '"

<pre>Por fim, executar o script para criar a estrutura e popular os dados no banco de dados.</pre>

In [56]:
cursor = cursor.executescript(schema_sql)
cursor = cursor.executescript(data_sql)
conn.commit()
conn.close()

<pre>Como não precisamos mais dos scripts, podemos apagá-lo e ficar com apenas o banco de dados</pre>

In [57]:
os.remove(schema_file)
os.remove(data_file)

In [58]:
!tree ../project/data/raw

[1;36m../project/data/raw[0m
├── estados_georreferenciamento.csv
├── municipios_codigos.db
└── municipios_georreferenciamento.csv

1 directory, 3 files


<pre>🚨 spoiler: novamente, nós ainda não aprendemos pandas 🐼, mas veja como será simples e amigável ler o banco</pre>

In [59]:
from pandas import read_sql

read_sql('select * from ibge', sqlite3.connect(filepath))

Unnamed: 0,id,state,city
0,1100015,RO,Alta Floresta D''Oeste
1,1100379,RO,Alto Alegre dos Parecis
2,1100403,RO,Alto Paraíso
3,1100346,RO,Alvorada D''Oeste
4,1100023,RO,Ariquemes
...,...,...,...
5565,5222005,GO,Vianópolis
5566,5222054,GO,Vicentinópolis
5567,5222203,GO,Vila Boa
5568,5222302,GO,Vila Propício


### Função Auxiliar

<pre>Baseado nas instruções anteriores, vamos criar uma função que leia um script SQL e crie um banco de dados</pre>

In [60]:
def execute_script(db_filename, sql_filename, delete_script=False):
    folderpath = build_path()
    dbpath = os.path.join(folderpath, db_filename)
    sqlpath = os.path.join(folderpath, sql_filename)
    
    with sqlite3.connect(dbpath) as conn:
        cursor = conn.cursor()

    with open(sqlpath, encoding='utf8') as sqlfile:
        script = sqlfile.read()

    cursor = cursor.executescript(script)

    conn.commit()
    conn.close()
    
    if delete_script: os.remove(sqlpath)

In [61]:
!tree ../project/data/raw

[1;36m../project/data/raw[0m
├── estados_georreferenciamento.csv
├── municipios_codigos.db
└── municipios_georreferenciamento.csv

1 directory, 3 files


In [62]:
os.remove(filepath)

In [63]:
download_file_and_save('https://raw.githubusercontent.com/'+
                       'andrebaltieri/ibge/main/SQLite/Schema.sql',
                       'schema.sql')
download_file_and_save('https://raw.githubusercontent.com/'+
                       'andrebaltieri/ibge/main/SQLite/Data.sql',
                       'data.sql')

In [64]:
!tree ../project/data/raw

[1;36m../project/data/raw[0m
├── data.sql
├── estados_georreferenciamento.csv
├── municipios_georreferenciamento.csv
└── schema.sql

1 directory, 4 files


In [65]:
execute_script('municipios_codigos.db', 'schema.sql', 
               delete_script=True)
execute_script('municipios_codigos.db', 'data.sql', 
               delete_script=True)

In [66]:
!tree ../project/data/raw

[1;36m../project/data/raw[0m
├── estados_georreferenciamento.csv
├── municipios_codigos.db
└── municipios_georreferenciamento.csv

1 directory, 3 files


## Juntando as Peças 🧩

### Código IBGE de Estado

👉 Lista de <a href='https://servicodados.ibge.gov.br/api/docs/'>API do IBGE</a>

<pre>Vamos baixar os dados de códigos IBGE dos estados brasileiros... nós os utilizaremos no decorrer das aulas!</pre>

#### Função Auxiliar

In [67]:
"""
workaround para contornar a exceção: \
    SSLError: [SSL: UNSAFE_LEGACY_RENEGOTIATION_DISABLED] \
    unsafe legacy renegotiation disabled (_ssl.c:997)

é possível considerando que estamos tratando apenas de dados públicos
"""

import requests, urllib3, ssl

class CustomHttpAdapter (requests.adapters.HTTPAdapter):
    def __init__(self, ssl_context=None, **kwargs):
        self.ssl_context = ssl_context
        super().__init__(**kwargs)
    def init_poolmanager(self, connections, maxsize, block=False):
        self.poolmanager = urllib3.poolmanager.PoolManager(
            num_pools=connections, maxsize=maxsize,
            block=block, ssl_context=self.ssl_context)
def get_legacy_session():
    ctx = ssl.create_default_context(ssl.Purpose.SERVER_AUTH)
    ctx.options |= 0x4  # OP_LEGACY_SERVER_CONNECT
    session = requests.session()
    session.mount('https://', CustomHttpAdapter(ctx))
    return session

In [68]:
import json

def access_api_and_save(url, filename):
    response = get_legacy_session().get(url)

    if response.status_code == 200:
        content = response.json()
        
        folderpath = build_path()
        filepath = os.path.join(folderpath, filename)
        with open(filepath, mode='w') as jsonfile:
            json.dump(content, jsonfile)

### (Fontes de Dados 🚰)

In [69]:
access_api_and_save('https://servicodados.ibge.gov.br/'+
                    'api/v1/localidades/estados', 
                    'estados_codigos.json')

In [70]:
!tree ../project/data/raw

[1;36m../project/data/raw[0m
├── estados_codigos.json
├── estados_georreferenciamento.csv
├── municipios_codigos.db
└── municipios_georreferenciamento.csv

1 directory, 4 files


🚨 spoiler: novamente, nós ainda não aprendemos pandas 🐼, mas veja como será simples e amigável ler o json

In [71]:
from pandas import read_json

filepath = os.path.join(folderpath, 'estados_codigos.json')
read_json(filepath)

Unnamed: 0,id,sigla,nome,regiao
0,11,RO,Rondônia,"{'id': 1, 'sigla': 'N', 'nome': 'Norte'}"
1,12,AC,Acre,"{'id': 1, 'sigla': 'N', 'nome': 'Norte'}"
2,13,AM,Amazonas,"{'id': 1, 'sigla': 'N', 'nome': 'Norte'}"
3,14,RR,Roraima,"{'id': 1, 'sigla': 'N', 'nome': 'Norte'}"
4,15,PA,Pará,"{'id': 1, 'sigla': 'N', 'nome': 'Norte'}"
5,16,AP,Amapá,"{'id': 1, 'sigla': 'N', 'nome': 'Norte'}"
6,17,TO,Tocantins,"{'id': 1, 'sigla': 'N', 'nome': 'Norte'}"
7,21,MA,Maranhão,"{'id': 2, 'sigla': 'NE', 'nome': 'Nordeste'}"
8,22,PI,Piauí,"{'id': 2, 'sigla': 'NE', 'nome': 'Nordeste'}"
9,23,CE,Ceará,"{'id': 2, 'sigla': 'NE', 'nome': 'Nordeste'}"
