<a href="https://colab.research.google.com/github/leandrobarbieri/pydata-book/blob/2nd-edition/Data_Load_Storage.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Importação de Dados
Exmplos de diversos formatos de fonte de dados e tipos de manipulações que podem ser feitas logo no início

In [None]:
# importações e configurações iniciais
import numpy as np
import pandas as pd

# padronização da aleatoriedade do metodo randomico para garantir reprodutbilidade
np.random.seed(12345)

# Confgurações da matplotlib.pyplot
import matplotlib.pyplot as plt
plt.rc('figure', figsize=(10, 6))
np.set_printoptions(precision=4, suppress=True)

# tamanho da tabela de exibição do dataframe
pd.options.display.max_rows = 10

## CSV
Importando dados em arquivos do tipo csv.
- sep=: define o separados usado, padrão é , ou ;
- header=: Define se a primeira linha será o cabeçalho
- encoding=: tipo de codificação do arquivo
- nrows=: a quantidade de linhas máxima que serão lidas
- skiprows=: lista de indices de linhas que serão ignoradas na carga
- names=: lista de nomes de colunas para as colunas carregadas (se já vier coluna, devemos ignorar a primeira linha[1:])
- index_col: se False será criado um index auto, senão, podemos escolher quais colunas usar como indice nomeado
- na_values: lista de valores que se encontrados nas colunas serão transformados em NaN
- error_bad_lines=: elimina da carga as linhas que não se encaixam no formato esperado
- on_bad_lines {‘error’, ‘warn’, ‘skip’}, default ‘error’. Define o que fazer quando a linha retorna erro por não ser possível ser carregada
- chunksize=: quebra o arquivo grante em partes que podem ser iteradas

### Leitura CSV

In [None]:
# arquivos csv
url = "https://bi.s3.es.gov.br/covid19/MICRODADOS_BAIRROS.csv"

# Em alguns casos é necessário definir explicitamente o separador e o tipo de encode que o arquivo está
dados_covid_bairros = pd.read_csv(url, sep=",", encoding="latin1", nrows=10000, error_bad_lines=False)
dados_covid_bairros

b'Skipping line 1210: expected 9 fields, saw 10\n'


Unnamed: 0,Bairros,Municipios,Estado,Notificacoes,Casos,Obitos,Curados,Suspeitos,Descartados
0,Não Encontrado,SERRA,Espírito Santo,38526,26,4,13,528,37972
1,JARDIM CAMBURI,VITORIA,Espírito Santo,28983,8996,114,8830,5983,14004
2,PRAIA DA COSTA,VILA VELHA,Espírito Santo,19273,7328,152,7170,4455,7490
3,JARDIM DA PENHA,VITORIA,Espírito Santo,16850,5023,89,4914,4196,7631
4,Não Encontrado,CARIACICA,Espírito Santo,14796,1462,19,1373,1498,11836
...,...,...,...,...,...,...,...,...,...
6496,Não Informado,LAGO NORTE,Distrito Federal,1,0,0,0,0,0
6497,Não Informado,GUARA,Distrito Federal,1,0,0,0,0,0
6498,RUA COLATINA,NOVA VENECIA,Espírito Santo,1,1,0,1,0,0
6499,Não Informado,CEILANDIA,Distrito Federal,1,0,0,0,0,0


In [None]:
# Header: Não usa a primeira linha como cabeçalho
# [1:] desconsidera a primeira linha. O padrão para header é inferir a partir dos valores da primieira linha os nomes das colunas
dados_covid_bairros_sem_header = pd.read_csv(url, sep=",", encoding="latin1", error_bad_lines=False, nrows=1000, header=None)[1:]
dados_covid_bairros_sem_header

Unnamed: 0,0,1,2,3,4,5,6,7,8
1,Não Encontrado,SERRA,Espírito Santo,38526,26,4,13,528,37972
2,JARDIM CAMBURI,VITORIA,Espírito Santo,28983,8996,114,8830,5983,14004
3,PRAIA DA COSTA,VILA VELHA,Espírito Santo,19273,7328,152,7170,4455,7490
4,JARDIM DA PENHA,VITORIA,Espírito Santo,16850,5023,89,4914,4196,7631
5,Não Encontrado,CARIACICA,Espírito Santo,14796,1462,19,1373,1498,11836
...,...,...,...,...,...,...,...,...,...
995,JABAQUARA,ANCHIETA,Espírito Santo,383,121,3,114,37,225
996,PAUL DE GRAÇA ARANHA,COLATINA,Espírito Santo,383,123,2,111,66,194
997,PORTO,SAO MATEUS,Espírito Santo,382,62,3,55,149,171
998,VILA GUARANHUNS,VILA VELHA,Espírito Santo,382,114,0,114,113,155


In [None]:
# Nomes das colunas: define lista customizada de nomes para as colunas (names=)
# Indice das linhas: index_col=False. Força a definição de um indice inteiros ao inves de criar o indice de linhas usando a primeira coluna
dados_covid_bairros_com_header_customizado = pd.read_csv(url, sep=",", encoding="latin1", 
                                                         error_bad_lines=False, nrows=1000,
                                                         names=["LOCAL", "DISTRITO", "UF", "CASOS", "OB", "CUR", "SUSP", "DESC"],
                                                         index_col=False,
                                                         )[1:]
dados_covid_bairros_com_header_customizado

Unnamed: 0,LOCAL,DISTRITO,UF,CASOS,OB,CUR,SUSP,DESC
1,Não Encontrado,SERRA,Espírito Santo,38526,26,4,13,528
2,JARDIM CAMBURI,VITORIA,Espírito Santo,28983,8996,114,8830,5983
3,PRAIA DA COSTA,VILA VELHA,Espírito Santo,19273,7328,152,7170,4455
4,JARDIM DA PENHA,VITORIA,Espírito Santo,16850,5023,89,4914,4196
5,Não Encontrado,CARIACICA,Espírito Santo,14796,1462,19,1373,1498
...,...,...,...,...,...,...,...,...
995,JABAQUARA,ANCHIETA,Espírito Santo,383,121,3,114,37
996,PAUL DE GRAÇA ARANHA,COLATINA,Espírito Santo,383,123,2,111,66
997,PORTO,SAO MATEUS,Espírito Santo,382,62,3,55,149
998,VILA GUARANHUNS,VILA VELHA,Espírito Santo,382,114,0,114,113


In [None]:
# Indices com as colunas existentes: usando uma das colunas ou várias para criar um indice das linhas
dados_covid_bairros_indice_alternativo = pd.read_csv(url, sep=",", encoding="latin1", nrows=1000,
                                                     error_bad_lines=False, 
                                                     index_col=["Bairros", "Municipios", "Estado"])[1:]
dados_covid_bairros_indice_alternativo

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Notificacoes,Casos,Obitos,Curados,Suspeitos,Descartados
Bairros,Municipios,Estado,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
JARDIM CAMBURI,VITORIA,Espírito Santo,28983,8996,114,8830,5983,14004
PRAIA DA COSTA,VILA VELHA,Espírito Santo,19273,7328,152,7170,4455,7490
JARDIM DA PENHA,VITORIA,Espírito Santo,16850,5023,89,4914,4196,7631
Não Encontrado,CARIACICA,Espírito Santo,14796,1462,19,1373,1498,11836
Não Encontrado,VITORIA,Espírito Santo,14069,4,0,0,903,13162
...,...,...,...,...,...,...,...,...
PAUL DE GRAÇA ARANHA,COLATINA,Espírito Santo,383,123,2,111,66,194
PORTO,SAO MATEUS,Espírito Santo,382,62,3,55,149,171
VILA GUARANHUNS,VILA VELHA,Espírito Santo,382,114,0,114,113,155
PARQUE GRAMADO,CARIACICA,Espírito Santo,382,117,3,108,108,157


In [None]:
# Aplicando alguns filtros para não carregar linhas indesajadas
# skiprows: define os índices das linhas que não serão carregadas
# isso pode ajudar no processo de limpeza de arquivos que trazem linhas adicinais com comentários
# skipfooter: ignora algumas linhas no final (não pode ser usada em conjunto com nrows)
# skip_blank_lines: ignora linhas em branco ao inves de aplicar NaN
dados_ignorar_linhas_especificas = pd.read_csv(url, encoding="latin1", error_bad_lines=False, nrows=1000, skiprows=[0, 2, 4, 5, 6], skip_blank_lines=True)
dados_ignorar_linhas_especificas

Unnamed: 0,Não Encontrado,SERRA,Espírito Santo,38526,26,4,13,528,37972
0,PRAIA DA COSTA,VILA VELHA,Espírito Santo,19273,7328,152,7170,4455,7490
1,Não Encontrado,VILA VELHA,Espírito Santo,11954,1398,19,1378,766,9790
2,PRAIA DE ITAPARICA,VILA VELHA,Espírito Santo,11468,4209,76,4123,2515,4744
3,INTERLAGOS,LINHARES,Espírito Santo,11022,3408,62,3310,1622,5992
4,PRAIA DO CANTO,VITORIA,Espírito Santo,11007,3857,71,3769,1915,5235
...,...,...,...,...,...,...,...,...,...
995,BOA VISTA I,JAGUARE,Espírito Santo,381,122,3,118,27,232
996,VALPARAISO,CARIACICA,Espírito Santo,381,90,4,83,107,184
997,JARDINS,ARACRUZ,Espírito Santo,380,120,0,116,21,239
998,SOBREIRO,LARANJA DA TERRA,Espírito Santo,379,95,1,94,1,283


In [None]:
# Pré-tratamento de linhas com valores que devem ser considarados como NaN
# na_values: captura valores específicos que são convertidos para NaN. Identifica "Não Encontrado" e converte para NaN
dados_identificar_na_values = pd.read_csv(url, encoding="latin1", error_bad_lines=False, nrows=1000, na_values=["Não Encontrado"])
dados_identificar_na_values

Unnamed: 0,Bairros,Municipios,Estado,Notificacoes,Casos,Obitos,Curados,Suspeitos,Descartados
0,,SERRA,Espírito Santo,38526,26,4,13,528,37972
1,JARDIM CAMBURI,VITORIA,Espírito Santo,28983,8996,114,8830,5983,14004
2,PRAIA DA COSTA,VILA VELHA,Espírito Santo,19273,7328,152,7170,4455,7490
3,JARDIM DA PENHA,VITORIA,Espírito Santo,16850,5023,89,4914,4196,7631
4,,CARIACICA,Espírito Santo,14796,1462,19,1373,1498,11836
...,...,...,...,...,...,...,...,...,...
995,PAUL DE GRAÇA ARANHA,COLATINA,Espírito Santo,383,123,2,111,66,194
996,PORTO,SAO MATEUS,Espírito Santo,382,62,3,55,149,171
997,VILA GUARANHUNS,VILA VELHA,Espírito Santo,382,114,0,114,113,155
998,PARQUE GRAMADO,CARIACICA,Espírito Santo,382,117,3,108,108,157


In [None]:
# lista os campos e os valores que serão transformados em NaN
sentinelas = {"Bairros": ["Não Encontrado", "Indefinido"], "Municipios": ["Não Encontrado", "UMBURATIBA"]}

# na_values: identifica os valores que serão transformados em NaN
dados_identificar_na_values = pd.read_csv(url, encoding="latin1", error_bad_lines=False, nrows=1000, na_values=sentinelas)
dados_identificar_na_values

Unnamed: 0,Bairros,Municipios,Estado,Notificacoes,Casos,Obitos,Curados,Suspeitos,Descartados
0,,SERRA,Espírito Santo,38526,26,4,13,528,37972
1,JARDIM CAMBURI,VITORIA,Espírito Santo,28983,8996,114,8830,5983,14004
2,PRAIA DA COSTA,VILA VELHA,Espírito Santo,19273,7328,152,7170,4455,7490
3,JARDIM DA PENHA,VITORIA,Espírito Santo,16850,5023,89,4914,4196,7631
4,,CARIACICA,Espírito Santo,14796,1462,19,1373,1498,11836
...,...,...,...,...,...,...,...,...,...
995,PAUL DE GRAÇA ARANHA,COLATINA,Espírito Santo,383,123,2,111,66,194
996,PORTO,SAO MATEUS,Espírito Santo,382,62,3,55,149,171
997,VILA GUARANHUNS,VILA VELHA,Espírito Santo,382,114,0,114,113,155
998,PARQUE GRAMADO,CARIACICA,Espírito Santo,382,117,3,108,108,157


In [None]:
# Lendo nrows=5 somente as primeiras linhas
dados_nrows = pd.read_csv(url, encoding="latin1", nrows=5)
dados_nrows.shape

(5, 9)

In [None]:
# ARQUIVOS GRANDES: iterando em partes
# Quebrando arquivos grandes em partes menores para otimizar a leitura e fazer com que seja possível 
# Encaixar no tamanho de memória disponivel
# Retorna um TextFileReader, que pode ser iterado para depois criar um dataframe
dados_chunker = pd.read_csv("/content/ex6.csv", chunksize=1000)

dados_list = []

for cnk in dados_chunker:  
  dados_list.append(cnk)

df_cnk = pd.concat(dados_list)
df_cnk.shape


(10000, 5)

### Saída CSV

In [None]:
# gera um csv de saida index=False (desconsidera a coluna que representa o indice) e hearder=False não inclui a linha de cabeçalho
df_cnk[["key", "one"]].to_csv("/content/ex6_saida.csv", index=False, header=False)

In [None]:
# define novos nomes para as colunas de cabeçalhos
df_cnk[["key", "one"]].to_csv("/content/ex6_saida2.csv", index=False, header=["Chave", "UM"])

## SQL Server

In [None]:
## Acessando dados do SQL Server
## Para funcionar precisamos estar na rede onde o banco está acessível
"""import pyodbc
import pandas as pd

server = 'DCSRVDSDBBI' 
database = 'DW_ESUSVS' 
username = 'DW_Prodest' 
password = 'MEgt9q1R4b'  
cnxn = pyodbc.connect('DRIVER={SQL Server};SERVER='+server+';DATABASE='+database+';UID='+username+';PWD='+ password)
cursor = cnxn.cursor()

query = "SELECT top 1000 * FROM FactCovid19s;"
df = pd.read_sql(query, cnxn)

df["Evolucao"].value_counts()
"""

'import pyodbc\nimport pandas as pd\n\nserver = \'DCSRVDSDBBI\' \ndatabase = \'DW_ESUSVS\' \nusername = \'DW_Prodest\' \npassword = \'MEgt9q1R4b\'  \ncnxn = pyodbc.connect(\'DRIVER={SQL Server};SERVER=\'+server+\';DATABASE=\'+database+\';UID=\'+username+\';PWD=\'+ password)\ncursor = cnxn.cursor()\n\nquery = "SELECT top 1000 * FROM FactCovid19s;"\ndf = pd.read_sql(query, cnxn)\n\ndf["Evolucao"].value_counts()\n'

## JSON

In [None]:
# criando manualmente uma string que representa um obj json
obj_json = """
{"nome": "Leandro",
 "lugares": ["Brasil", "Argentina", "Mexico"],
 "animais": ["cao", "gato"],
 "familia": [ {"nome": "Breno", "idade": "3", "animais": ["Papagaio", "piriquito"]},
               {"nome": "Bruna", "idade": "34", "animais": null} ]
}
"""

In [None]:
# importando o modulo json e carregando a string para o formato json válido
import json

# paga uma string e retorna um obj json
resultado = json.loads(obj_json)
resultado

{'animais': ['cao', 'gato'],
 'familia': [{'animais': ['Papagaio', 'piriquito'],
   'idade': '3',
   'nome': 'Breno'},
  {'animais': None, 'idade': '34', 'nome': 'Bruna'}],
 'lugares': ['Brasil', 'Argentina', 'Mexico'],
 'nome': 'Leandro'}

In [None]:
# pega um json e retorna uma string 
asjson = json.dumps(resultado)
asjson

'{"nome": "Leandro", "lugares": ["Brasil", "Argentina", "Mexico"], "animais": ["cao", "gato"], "familia": [{"nome": "Breno", "idade": "3", "animais": ["Papagaio", "piriquito"]}, {"nome": "Bruna", "idade": "34", "animais": null}]}'

In [None]:
# extraindo um dataframe do obj json
familia = pd.DataFrame(resultado["familia"], columns=["nome", "idade", "animais"])
familia

Unnamed: 0,nome,idade,animais
0,Breno,3,"[Papagaio, piriquito]"
1,Bruna,34,


In [None]:
# importando a biblioteca para fazer requisições url
from urllib.request import urlopen

In [None]:
url = 'https://dados.es.gov.br/api/3/action/datastore_search?resource_id=be244972-a13e-4b0f-a1f2-bced9d5f4b01&limit=1000'  

# resposta da url
conteudo_url = urlopen(url)

# exibe o header da requisição http
print(conteudo_url.headers)

# le o conteudo da requisição http
dados_url = conteudo_url.read()
print(f"Conteúdo bruto da requisição http:\n {dados_url}\n")

# transforma a string do conteúdo no formato json par um obj do tipo json
obj_json2 = json.loads(dados_url)

# acessando os atributos json
obj_json2["result"]["fields"]
obj_json2["result"]["records"]

linhas = pd.DataFrame(resultado3["result"]["records"])
print(f"Shape: {linhas.shape }\n")

linhas
                    

Cache-Control: private
Keep-Alive: timeout=5, max=99
Content-Length: 98690
Content-Type: application/json;charset=utf-8
Server: Microsoft-IIS/10.0
X-Powered-By: ARR/3.0
Date: Fri, 30 Jul 2021 21:40:32 GMT
Connection: close


Conteúdo bruto da requisição http:
 b'{"help": "https://dados.es.gov.br/api/3/action/help_show?name=datastore_search", "success": true, "result": {"include_total": true, "resource_id": "be244972-a13e-4b0f-a1f2-bced9d5f4b01", "fields": [{"type": "int", "id": "_id"}, {"type": "timestamp", "id": "data"}, {"type": "text", "id": "praca"}, {"type": "numeric", "id": "categoria_1"}, {"type": "numeric", "id": "categoria_2"}, {"type": "numeric", "id": "categoria_3"}, {"type": "numeric", "id": "categoria_4"}, {"type": "numeric", "id": "categoria_5"}, {"type": "numeric", "id": "categoria_6"}, {"type": "numeric", "id": "categoria_7"}, {"type": "numeric", "id": "categoria_8"}, {"type": "numeric", "id": "categoria_88"}, {"type": "numeric", "id": "categoria_9"}, {"type": "numeric"

Unnamed: 0,_id,data,praca,categoria_1,categoria_2,categoria_3,categoria_4,categoria_5,categoria_6,categoria_7,categoria_8,categoria_88,categoria_9,veiculosDia,valorDia,Id
0,1,2020-01-01T00:00:00,PRAIA DO SOL,21794,185,55,73,2,37,10,8,274,1072,23510,2088765000,32940
1,2,2020-02-01T00:00:00,PRAIA DO SOL,21630,437,82,130,6,59,19,21,328,1002,23714,2151450000,32941
2,3,2020-03-01T00:00:00,PRAIA DO SOL,19721,504,69,173,7,65,27,27,347,685,21625,1996515000,32942
3,4,2020-04-01T00:00:00,PRAIA DO SOL,18643,310,65,153,12,41,11,19,254,616,20124,1836945000,32943
4,5,2020-05-01T00:00:00,PRAIA DO SOL,21360,212,86,110,8,35,8,13,246,802,22880,2056905000,32944
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
330,331,2020-12-27T00:00:00,TERCEIRA PONTE,22986,79,46,13,3,5,0,1,0,1956,25089,509502000,33673
331,332,2020-12-28T00:00:00,TERCEIRA PONTE,33305,247,45,18,6,10,0,0,0,4569,38200,761397000,33674
332,333,2020-12-29T00:00:00,TERCEIRA PONTE,34573,234,52,29,1,10,1,0,0,4797,39697,790681500,33675
333,334,2020-12-30T00:00:00,TERCEIRA PONTE,35005,242,55,13,8,8,0,0,0,4921,40252,800499000,33676
