# Importando e Exportando Dados

Na última aula tivemos nosso primeiro contato com a função `pd.read_csv()` - a qual utilizamos para carregar o arquivo de veículos (um arquivo **.csv**) para um DataFrame.

Hoje veremos como carregar diferentes tipos de arquivo **.csv** através dessa função. Além disso veremos como carregar diferentes tipos de arquivo utilizando a biblioteca Pandas.

In [None]:
import pandas as pd

Para lermos arquivos **.xlsx** do Excel precisamos instalar a biblioteca `openpyxl` - podemos verificar se ela foi instalando importando o módulo `xlrd`

In [None]:
!pip install openpyxl

In [None]:
import xlrd

O formato **parquet** tem se tornado ubíquo no universo de dados. Sua performance é superior aos arquivos *.csv*, tanto no tamanho ocupado pela tabela quanto na velocidade de leitura.

Para lermos arquivos parquet precisaremos instalar o módulo `fastparquet`:

In [None]:
!pip install fastparquet

In [None]:
import fastparquet

## Importando arquivos delimitados

Arquivos delimitados são arquivos texto que utilizam um caráctere especial para separar as colunas. A extensão mais comum para este tipo de arquivo é o **.csv**, mas muitas vezes veremos outras extensões como **.txt** ou **.tsv**.

A extensão em si não é muito importante: o importante é sabermos que o arquivo é um arquivo de texto, e como ele está estruturado. Os tipos mais comuns de separadores sáo:
    
**-- comma separated file --**

    name,year,value
    Andre,2020,100
    Fernanda,1900,1
    
**-- tab separated file --**

    name    year    value
    Andre    2020    100
    Fernanda    1900    1
    
**-- tab separated file (another way) --**

    name\tyear\tvalue
    Andre\t2020\t100
    Fernanda\t1900\t1
    
**-- hash separated file --**

    name#year#value
    Andre#2020#100
    Fernanda#1900#1

**-- pipe separated file --**

    name|year|value
    Andre|2020|100
    Fernanda|1900|1

    ...

### Descobrindo a Estrutura do Arquivo

Muitas vezes não saberemos de antemão qual a estrutura do arquivo que precisamos ler. Caso o arquivo seja pequeno (< 10mb) podemos abri-lo no Notepad ou em algum outro editor de texto simples (Notepad++, SublimeText, Vi) e ver a estrutura diretamente.

Infelizmente muitas vezes lidamos com arquivos tão grandes que é quase impossível abri-los nestes editores. Para investigar a estrutura desses arquivos podemos utilizar o próprio Python!

In [None]:
file = open('data/dados_veiculos.csv', 'rb')
file_lines = file.readlines(1000)
for line in file_lines:
    print(line.decode('utf-8'))
file.close()

In [None]:
with open('data/dados_veiculos.csv', 'rb') as file:
    file_lines = file.readlines(1000)
    for line in file_lines:
        print(line.decode('utf-8'))

Precisamos prestar atenção em **três pontos chaves**:

1. A primeira linha do arquivo contém um cabeçalho?
1. Qual caráctere está sendo utilizado para separar as colunas?
1. Qual caráctere é utilizado como separador decimal?
1. Os diacríticos estão sendo lidos corretamente?

### CSV (Comma Separated Values)

Quando os arquivos que estamos importando utilizam a `,` como separador de colunas ele é chamado de CSV (comma separated values). Vamos classificar nosso arquivo `dados_veiculos.csv` segundo os nossos 4 critérios:

1. Cabeçalho:
1. Caráctere Separador:
1. Caráctere Decimal:
1. Diácriticos:

In [None]:
pd.read_csv('data/dados_veiculos.csv')

A função `pd.read_csv()` não está guardando o DataFrame em nenhuma variável: se quisermos utiliza-lo posteriormente tenho que guarda-lo em uma variável.

In [None]:
tb_veic = pd.read_csv('data/dados_veiculos.csv')

In [None]:
tb_veic.info()

### CSVs de `;`

Muitos países utilizam a `,` como separador decimal - muitas vezes arquivos CSV desses países utilizarão o `;` como separador de colunas (para não gerar confusão com os números decimais).

Vamos fazer a nossa avaliação de um novo arquivo:

In [None]:
pd.read_csv('data/dados_veiculos_semi.csv')

In [None]:
with open('data/dados_veiculos_semi.csv', 'rb') as file:
    file_lines = file.readlines(1000)
    for line in file_lines:
        print(line.decode('utf-8'))

O comportamento padrão do Pandas é utilizar:

1. Primeira linha como cabeçalho;
1. `,` como separador;
1. `.` como decimal.

Para alterar o separador de colunas e de decimais precisamos especificar estes carácteres diretamente.

In [None]:
pd.read_csv('data/dados_veiculos_semi.csv', 
            sep = ";", decimal = ",")

### Arquivos TSV (Tab-Separated Values)

Alguns arquivos utilizam o `\t`, ou **tab**, como separador de valores. Vamos ver como carregar arquivos deste tipo utilizando a `pd.read_csv()`.

O arquivo abaixo, além de ser separado por **tabs**, contém diacríticos (acentos, cedilhas, etc...). Quando um arquivo contém carácters não-ASCII (como acentos) precisamos estar atentos ao **encoding** do arquivo - como ele representa esses carácteres diferentes.

Em geral, os arquivos estarão **encodados** em `UTF-8` (a maior parte dos arquivos) ou em `latin-1` (arquivos mais antigos, principalmente de sistemas Windows).

In [None]:
with open('data/tb_empenho_cnpj_osc.txt', 'rb') as file:
    file_lines = file.readlines(1000)
    for line in file_lines:
        print(line.decode('latin-1'))

Se tentarmos carregar um arquivo sem especificar o **encoding** correto poderemos ter um erro, ou então carregar os diacríticos de maneira errada!

In [None]:
pd.read_csv('data/tb_empenho_cnpj_osc.txt', 
            sep = '\t', 
            decimal = ',')

In [None]:
tb_oscsp = pd.read_csv('data/tb_empenho_cnpj_osc.txt', 
                       sep = '\t', 
                       decimal = ',', 
                       encoding = 'latin-1')

In [None]:
tb_oscsp.info()

In [None]:
tb_oscsp.head()

### Arquivos separados por `|`

Outro separador comum é o `|` (**pipe**). Vamos carregar um arquivo com este separador.

In [None]:
with open('data/eletricidade_india.csv', 'rb') as file:
    file_lines = file.readlines(10000)
    for line in file_lines:
        print(line.decode('latin-1'))

In [None]:
tb_elecindia = pd.read_csv('data/eletricidade_india.csv', 
                           sep = '|',
                           decimal = '.')
tb_elecindia.head()

In [None]:
tb_elecindia.info()

Vamos utilizar os argumento `parse_dates` e `infer_datetime_format` para carregar corretamente o campo de data:

In [None]:
tb_elecindia = pd.read_csv('data/eletricidade_india.csv', 
                           sep = '|', 
                           decimal = '.',
                           parse_dates = ['Date'], 
                           infer_datetime_format = True)
tb_elecindia.info()

In [None]:
tb_elecindia['Date'].describe()

## Importando arquivos de URLs

Muitas plataformas disponibilizam dados através de URLs - caso esses dados sejam arquivos delimitados, podemos utilizar a `pd.read_csv()` para importa-los diretamente.

Como não poderemos ler o arquivo via `.readlines()` precisamos buscar na plataforma a especificação do arquivo.

Exemplo: https://datasets.imdbws.com/

In [None]:
url_csv = 'https://datasets.imdbws.com/title.ratings.tsv.gz'
tb_imdbratings = pd.read_csv(url_csv, 
                             sep = '\t', 
                             encoding = 'utf-8', 
                             na_values = '\\N')

## Importando arquivos Excel

Podemos utilizar a função `pd.read_excel()` para ler arquivos Excel diretamente (sem precisar salvá-los como `.csv`).

Arquivos Excel tem o tipo da coluna determinado dentro do programa (numérico, data, string) e o Pandas importará essas definições. Além disso, podem conter mais que uma *aba*: para especificar qual aba queremos abrir utilizaremos o parâmetro `sheet_name` caso necessário.

Fonte: https://www.kaggle.com/sanjeetsinghnaik/most-expensive-footballers-2021

In [None]:
tb_futebol = pd.read_excel('data/Dados Jogadores Futebol.xlsx')
tb_futebol.head()

In [None]:
tb_futebol.info()

## Importando Google Sheets

Podemos importar planilhas do Google Sheet diretamente utilizando um *hack* simples através do URL de compartilhamento:
* substituir `/edit?usp=sharing` por `/export?format=csv`
    
(https://stackoverflow.com/questions/19611729/getting-google-spreadsheet-csv-into-a-pandas-dataframe)    

In [None]:
def read_from_gsheets(spreadsheet):
    """
    Transform url into csv 
    """
    working_spreadsheet = spreadsheet.replace('/edit?usp=sharing','/export?format=csv')
    
    return pd.read_csv(working_spreadsheet)

In [None]:
tb_fortune1000 = read_from_gsheets('https://docs.google.com/spreadsheets/d/1qfz8GgZbuNMI913YaCIcYHmMCHB1FCCnOLnk907ZwPM/edit?usp=sharing')

In [None]:
tb_fortune1000.info()

## Importando arquivos JSON

Arquivos JSON são uma forma comum de aplicações Web transferirem dados. Eles se parecem muito com dicionários e listas: são estruturas com `chaves` e `valores`:

JSON 1:
```json
{ "name":"John", "age":30, "car":null }
```

JSON 2: 
```json
{"students":[
   {"name":"Andre", "age":23, "state":"SP"},
   {"name":"Rodrigo", "age":28, "state":"SP"},
   {"name":"Raiana", "age":32, "state":"DF"},
   {"name":"Tieko", "age":28, "state":"BA"}
]}
```

Orientação de `records`, onde o JSON é uma lista de dicionários. Cada dicionário desta lista é uma linha da nossa tabela
```python
[
    {"coluna1" : valor, "coluna2" : valor},
    {"coluna1" : valor, "coluna2" : valor},
    {"coluna1" : valor, "coluna2" : valor},
    {"coluna1" : valor, "coluna2" : valor},
    {"coluna1" : valor, "coluna2" : valor},
]
```

Orientação de `index`, onde o JSON é um dicionário. Cada chave desse dicionário é uma linha de nossa tabela e guarda um outro dicionário com os dados da tabela referente àquela linha.
```python
{
    linha_1 : {"coluna1" : valor, "coluna2" : valor},
    linha_2 : {"coluna1" : valor, "coluna2" : valor},
    linha_3 : {"coluna1" : valor, "coluna2" : valor},
    linha_4 : {"coluna1" : valor, "coluna2" : valor},
}
```

In [None]:
tb_crypto = pd.read_json('data/crypto_data_records.json', orient = 'records') # orient informa a orientação do JSO
tb_crypto

In [None]:
tb_crypto = pd.read_json('data/crypto_data_index.json', orient = 'index') # orient informa a orientação do JSO
tb_crypto

## Importando arquivos Parquet

Os arquivos **parquet** são como os arquivos *.csv* e são utilizados para armazenar dados tabulares. Este formato foi desenvolvido pela fundação **Apache** para tornar o armazenamento e leitura de dados tabulares mais eficiente.

In [None]:
tb_crypto_parquet = pd.read_parquet('data/tb_crypto.parquet')
tb_crypto_parquet.head()

## Lendo arquivos de uma pasta

Até agora vimos como abrir diferentes formatos de arquivo, sempre um por vez. Uma tarefa muito comum que encontraremos ao longo do curso (e da carreira) é importar diversos arquivos, com a mesma formatação, de uma vez só.

Para fazer isso utilizaremos a função `os.listdir()` para construir uma lista de nomes de arquivo e então carregaremos eles um por um.

In [None]:
import os
lista_arquivos = os.listdir('data/dados_censo/')
print(lista_arquivos)

In [None]:
with open('data/dados_censo/Basico_BA.csv', 'rb') as file:
    file_lines = file.readlines(1000)
    for line in file_lines:
        print(line.decode('latin-1'))


In [None]:
lista_df_censo = []
for file in os.listdir('data/dados_censo/'):
    file_path = 'data/dados_censo/' + file
    lista_df_censo.append(pd.read_csv(file_path, sep = ";", decimal = ",", encoding = "latin-1"))

In [None]:
lista_df_censo[0].info()

## Exportando arquivos

Além de importar arquivos como DataFrames, a Pandas nos permite exportar DataFrames para arquivos.

### Exportando arquivos CSV

Para exportar um DataFrame para um arquivo `.csv` utilizaremos o método `.to_csv()`. Este método recebe argumentos muito semelhantes à função `pd.read_csv()`.

In [None]:
tb_censo.to_csv('data/tb_censo.csv', 
                         sep = ";", 
                         decimal = ",", 
                         encoding = 'utf-8')

**NOTA**: Se não utilizarmos o argumento `index=False`, o método criará uma coluna sem nome, na posição da primeira coluna, com os índices do DataFrame!

In [None]:
with open('data/tb_censo.csv', 'rb') as file:
    file_lines = file.readlines(1000)
    for line in file_lines:
        print(line.decode('utf-8'))

#### Alterando o separador

Podemos utilizar a biblioteca Pandas para reformartar arquivos separados: carregamos utilizando um padrão e escrevemos utilizando outro:

In [None]:
tb_elecindia.to_csv('data/tb_elecindia_corrig.csv', 
                    sep = ",", 
                    decimal = ".", 
                    encoding = 'utf-8')

In [None]:
with open('data/tb_elecindia_corrig.csv', 'rb') as file:
    file_lines = file.readlines(1000)
    for line in file_lines:
        print(line.decode('utf-8'))

### Exportando para Parquet

Vamos utilizar o método `.to_parquet()` para exportar os nossos dados dos gastos com OSCs na Prefeitura de São Paulo para um arquivo **parquet** e comparar o tamanho deste arquivo com o CSV que geramos acima:

In [None]:
tb_oscsp.to_parquet('data/tb_empenho_cnpj_osc.parquet')

### Exportanto para Excel

Podemos utilizar o método `.to_excel()` para exportar um DataFrame para uma planilha de Excel. O único atributo importante é o `sheet_name`, onde determinamos o nome da aba na qual os dados serão escritos.

In [None]:
tb_crypto.to_excel('data/Tabela Crypto.xlsx', sheet_name = 'dados')

### Exportando para JSON

Para exportamos para JSON temos diferentes opções de orientação, acessadas através do parâmetro `orient`.

`'split'`: Dicionário contendo índices, colunas e dados

`'index'`: Dicionários de dicionários contendo {index:{column:value}}.

`'columns'`: Dicionários de dicionários contendo{column:{index:value}}

`'values'`: Lista de listas, onde cada sub-lista contém uma linha de nossa tabela

In [None]:
tb_oscsp.to_json('tb_oscsp.json', orient = 'index')