<h1> Carga de dados, armazenagem e formatos de arquivos - Ch06

<h2>1. Leitura e escrita de arquivos em formato texto

<h3>Lendo dados em formato texto

In [1]:
import pandas as pd
from pandas import DataFrame, Series
import numpy as np

Dentro dos pandas, as funções mais utilizadas para a leitura de dados são: 

read_csv() --> arquivo separado por vírgulas

read_table() --> arquivo separado por tabs

read_excel() --> lê um arquivo XLS ou XLSX

read_html() --> lê as tabelas de um HTML

read_json() --> lê um JSON

read_sql() --> lê o resultado de uma query de SQL e converte em um DF do pandas

In [2]:
#lendo um CSV simples que eu mesmo criei
df = pd.read_csv('examples/ex1.csv')
df

#também poderíamos usar o read_table especificando o separador como a vírgula
df = pd.read_table('examples/ex1.csv',sep=',')
df

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,fool


In [3]:
#quando o arquivo não tiver um cabeçalho temos que especificar isso na leitura
df2 = pd.read_csv('examples/ex2.csv',header=None)
df2

#Já podemos inserie os nomes das colunas logo na leitura
col_names = ['arroz','bola','cueca','dado','mensagem']
df2 = pd.read_csv('examples/ex2.csv',names=col_names)
df2

#podemos alterar o nome das linhas usando uma coluna de referência como a coluna index_col
df2 = pd.read_csv('examples/ex2.csv',names=col_names,index_col ='mensagem')
df2

Unnamed: 0_level_0,arroz,bola,cueca,dado
mensagem,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2,3,4
world,5,6,7,8
fool,9,10,11,12


In [4]:
#Podemos criar um índice hierárquico passando várias colunas como index_col
df3 = pd.read_csv('examples/ex3.csv',index_col=['key1','key2'])
df3

#Podemos usar expressões regulares para nos ajudar a filtrar uma tabela sem um padrão fixo, como uma tabela construída com espaços
print("Isto aqui:\n",list(open('examples/ex4.csv')))
df4 = pd.read_table('examples/ex4.csv', sep='\s+')
print("\nVira isto:\n",df4)

#Também podemos pular algumas linhas quando estamos lendo o arquivo, especificando o argumento 'skiprows'
print("\nIsto aqui:\n",list(open('examples/ex5.csv')))
df5 = pd.read_table('examples/ex5.csv',sep='\s+',skiprows=[1,3])
print("\nVira isto")
df5

Isto aqui:
 ['           Col_01    Col_02    Col_03   \n', 'Linha_01      2        4          6\n', 'Linha_02      8        10         12\n', 'Linha_03      14       16         18']

Vira isto:
           Col_01  Col_02  Col_03
Linha_01       2       4       6
Linha_02       8      10      12
Linha_03      14      16      18

Isto aqui:
 ['           Col_01    Col_02    Col_03\n', '#Pula essa aqui   \n', 'Linha_01      2        4          6\n', '#E essa tambÃ©m!\n', 'Linha_02      8        10         12\n', 'Linha_03      14       16         18']

Vira isto


Unnamed: 0,Col_01,Col_02,Col_03
Linha_01,2,4,6
Linha_02,8,10,12
Linha_03,14,16,18


É possível usar **sentinelas** NA para substituir valores faltantes. Para isso, é só especificar o argumento *na_values* da função read() do pandas. Também é possível ler somente algumas linhas do arquivo especificando o argumento *n_rows* da função read(). Não faremos exemplos disso, pois são bem intuitivos. Vamos agora olhar como escrever algo em formato texto.

<h3>Escrevendo Dados em Formato Texto

In [5]:
#usamos o método to_csv para exportar um DataFrame para um arquivo CSV
df5.to_csv('examples/out.csv')

#para jogar o dataframe direto no console temos que usar a biblioteca sys
import sys
data = pd.read_csv('examples/ex6.csv')
data.to_csv(sys.stdout,na_rep='NULL',sep='|')

|something|a|b|c|d|message
0|one|1|2|3.0|4|NULL
1|two|5|6|NULL|8|world
2|three|9|10|11.0|12|foo


Para trabalhar com variações de arquivos CSV ou valores que possam confudir a função *read_table()*, dar uma olhada na classe **dialect** da biblioteca CSV (caso não queira fazer pré-processamento).

<h3>Json

Abreviatura de **Javascript Object Notation**, tornou-se um dos formatos padrões para envio de dados em requisições HTTP. É um formato de dados muito mais livres que um formato tabular como o CSV. Os tipos básicos de dados em um JSON são objetos (dicionários), arrays (listas), strings, números, booleanos e nulls. Todas as chaves em um objeto devem ser strings.

In [6]:
import json

obj = """
{
"name": "Jão",
"places_lived": ["Brasil", "Itália", "Alemanha", "Canadá"],
"pet": "Chimboquinha",
"siblings": [{"name": "Scott", "age": 30, "pets": ["Zeus","Zuko"]}, {"name": "Katie", "age": 38, "pet": null}]
}

"""

#json.loads() converte uma string JSON em código Python
aspython = json.loads(obj)
print(aspython)

#json.dumps() converte um objeto Python em Json
asjson = json.dumps(aspython)
print(asjson)

#podemos verificar a conversão por meio do Null <--> None

{'name': 'Jão', 'places_lived': ['Brasil', 'Itália', 'Alemanha', 'Canadá'], 'pet': 'Chimboquinha', 'siblings': [{'name': 'Scott', 'age': 30, 'pets': ['Zeus', 'Zuko']}, {'name': 'Katie', 'age': 38, 'pet': None}]}
{"name": "J\u00e3o", "places_lived": ["Brasil", "It\u00e1lia", "Alemanha", "Canad\u00e1"], "pet": "Chimboquinha", "siblings": [{"name": "Scott", "age": 30, "pets": ["Zeus", "Zuko"]}, {"name": "Katie", "age": 38, "pet": null}]}


In [7]:
#trabalhando com parte do arquivo JSON convertido para construir um DF

siblings = DataFrame(aspython['siblings'], columns=['name','age'], index=['sibling_01','sibling_02'])
siblings

#para converter um dataframe em um arquivo JSON é só usar o método embutido to_json()

df = DataFrame(np.arange(0,9).reshape(3,3), columns = ['x','y','z'], index = ['a','b','c'])
jo = df.to_json()
print(jo)

{"x":{"a":0,"b":3,"c":6},"y":{"a":1,"b":4,"c":7},"z":{"a":2,"b":5,"c":8}}


No Capítulo 7 aprofundaremos a manipulação de arquivos JSON com a USDA Food Database

<h3>XML e HTML

Há várias bibliotecas disponíveis para lidar com arquivos *XML (Extensible Markup Language)* e *HTML (Hypertext Markup Language)* como **bs4** (robusta), **lxml** (mais leve), **html5lib** (robusta). 

A função do pandas **read_html()** usa essas funções para transformar tags table em DataFrames.

In [8]:
tables = pd.read_html('examples/fdic_failed_bank_list.html')
failures = tables[0]
failures.head()

Unnamed: 0,Bank Name,City,State,Cert,Acquiring Institution,Closing Date
0,Almena State Bank,Almena,KS,15426,Equity Bank,"October 23, 2020"
1,First City Bank of Florida,Fort Walton Beach,FL,16748,"United Fidelity Bank, fsb","October 16, 2020"
2,The First State Bank,Barboursville,WV,14361,"MVB Bank, Inc.","April 3, 2020"
3,Ericson State Bank,Ericson,NE,18265,Farmers and Merchants Bank,"February 14, 2020"
4,City National Bank of New Jersey,Newark,NJ,21111,Industrial Bank,"November 1, 2019"


Podemos usar a biblioteca LXML para fazer *parse* a partir de dados XML mais genéricos.

In [9]:
from lxml import objectify

path = 'examples/Performance_MNR.xml'
parsed = objectify.parse(open(path))

#pegando o nó raiz do arquivo XML
root = parsed.getroot()

data = []
skip_fields = ['PARENT_SEQ','INDICATOR_SEQ','DESIRED_CHANGE','DECIMAL_PLACES']

#root.INDICATOR retorna um gerador que constrói cada elemento <INDICATOR> do XML

for elt in root.INDICATOR:
    
    el_data = {} #criando um dicionário de dados
    
    #iterando pelos nós filhos
    for child in elt.getchildren():
        
        #ignorando os casos de skip_fields
        if child.tag in skip_fields:
            continue
        #adcionando as infos relevantes    
        el_data[child.tag] = child.pyval
        
#Adicionando os dicionários na lista
data.append(el_data)

#Printando uma entrada como teste
print(data[0])

{'AGENCY_NAME': 'Metro-North Railroad', 'INDICATOR_NAME': 'Escalator Availability', 'DESCRIPTION': 'Percent of the time that escalators are operational systemwide. The availability rate is based on physical observations performed the morning of regular business days only. This is a new indicator the agency began reporting in 2009.', 'PERIOD_YEAR': 2011, 'PERIOD_MONTH': 12, 'CATEGORY': 'Service Indicators', 'FREQUENCY': 'M', 'INDICATOR_UNIT': '%', 'YTD_TARGET': 97.0, 'YTD_ACTUAL': '', 'MONTHLY_TARGET': 97.0, 'MONTHLY_ACTUAL': ''}


In [10]:
#Criando um DF a partir dos dados
perf = DataFrame(data)
perf.head()

#dados XML podem se tornar bem mais complexo que isso, pois cada tag pode conter também metadados

Unnamed: 0,AGENCY_NAME,INDICATOR_NAME,DESCRIPTION,PERIOD_YEAR,PERIOD_MONTH,CATEGORY,FREQUENCY,INDICATOR_UNIT,YTD_TARGET,YTD_ACTUAL,MONTHLY_TARGET,MONTHLY_ACTUAL
0,Metro-North Railroad,Escalator Availability,Percent of the time that escalators are operat...,2011,12,Service Indicators,M,%,97.0,,97.0,


<h2>2. Outros Formatos de Dados

In [12]:
#pickle_format encoding
frame = pd.read_csv('examples/ex1.csv')
frame.to_pickle('examples/frame_pickle')

#pickle_format decoding
pd.read_pickle('examples/frame_pickle')

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,fool


In [15]:
#HDF5 format (for huge amount of numerical data)

frame = DataFrame({'random_numbers' : np.random.randn(100)})
store = pd.HDFStore('mydata.h5')
store['obj1'] = frame
store['obj1_col'] = frame['random_numbers']

store['obj1']

Unnamed: 0,random_numbers
0,-0.917707
1,-1.781559
2,2.725246
3,-0.188535
4,-0.447356
...,...
95,0.802424
96,0.205437
97,0.867925
98,0.305091


In [20]:
#lidando com a API do Github para pegar os últimos bugs do Pandas

import requests

url = 'https://api.github.com/repos/pandas-dev/pandas/issues'
resp = requests.get(url)
resp

data = resp.json()
issues = DataFrame(data, columns=['number','title','labels','state'])
issues

Unnamed: 0,number,title,labels,state
0,40101,DEPS: replace pyperclip with pyclip #39834,[],open
1,40100,"BUG: Series([Timestamp, int], dtype=m8ns) drop...",[],open
2,40099,BUG: ewma with time should not update value wh...,"[{'id': 76811, 'node_id': 'MDU6TGFiZWw3NjgxMQ=...",open
3,40098,BUG: ewma with time gives strange results with...,"[{'id': 76811, 'node_id': 'MDU6TGFiZWw3NjgxMQ=...",open
4,40097,REF: unify casting logic in Categorical.__init__,[],open
5,40096,BUG: df.loc setitem-with-expansion with duplic...,[],open
6,40095,Excel skip blank lines,[],open
7,40093,BUG: GroupBy.apply reruns the full loop if an ...,"[{'id': 76811, 'node_id': 'MDU6TGFiZWw3NjgxMQ=...",open
8,40092,TST/REF: Consolidate tests in apply.test_inval...,"[{'id': 697792067, 'node_id': 'MDU6TGFiZWw2OTc...",open
9,40091,BUG: IO unit test creates file at home directory,"[{'id': 76811, 'node_id': 'MDU6TGFiZWw3NjgxMQ=...",open


In [23]:
#Mexendo um pouquinho com SQL

#Criando a query

import sqlite3

query = """
CREATE TABLE test
(a VARCHAR(20), b VARCHAR(20), c REAL, d INTEGER)
"""

con = sqlite3.connect('mydata.sqlite')
con.execute(query)
con.commit()



OperationalError: table test already exists

In [25]:
#criando o conjunto de dados para serem inseridos no BD
data = [('Washington','Georgia', 1.25, 6),
        ('Georgia','Washington', 1.25, 8),
        ('Georgia','San Francisco', 10, 4)
       ]

stmt = 'INSERT INTO test VALUES (?,?,?,?)'
con.executemany(stmt,data)

con.commit()

In [26]:
#recuperando os valores
cursor = con.execute('select * from test')
rows = cursor.fetchall()
rows

[('Washington', 'Georgia', 1.25, 6),
 ('Georgia', 'Washington', 1.25, 8),
 ('Georgia', 'San Francisco', 10.0, 4)]