# NumPy & Pandas

## Parte 2

Até agora criamos os `DataFrames` para teste a partir de listas ou dicionários, mas também é possível criar novos `DataFrames` a partir de dados gravados em arquivos de diversos tipos, como arquivos `.csv` e arquivos do `Excel`.

Começamos importando as bibliotecas que pretendemos utilizar no nosso código:

In [1]:
import numpy as np
import pandas as pd

### Arquivos `.csv`

Agora vamos ler o conteúdo do arquivo `aapl.csv`, que gerei utilizado o `Yahoo Finance` (https://finance.yahoo.com/quote/AAPL):

<img src="csv_aapl.png" />

In [2]:
nome_arquivo = "AAPL.csv"
aapl = pd.read_csv(nome_arquivo)

In [3]:
aapl.head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2000-01-03,3.745536,4.017857,3.631696,3.997768,2.665724,133949200
1,2000-01-04,3.866071,3.950893,3.613839,3.660714,2.440975,128094400
2,2000-01-05,3.705357,3.948661,3.678571,3.714286,2.476697,194580400
3,2000-01-06,3.790179,3.821429,3.392857,3.392857,2.262367,191993200
4,2000-01-07,3.446429,3.607143,3.410714,3.553571,2.369532,115183600


In [4]:
aapl.shape

(4856, 7)

In [5]:
aapl.dtypes

Date          object
Open         float64
High         float64
Low          float64
Close        float64
Adj Close    float64
Volume         int64
dtype: object

Tudo parece estar certo... Exceto que o campo com a data foi carregado como `object` e não como `datetime64`, como já vimos outras datas na parte 1 deste tutorial.

Vamos tentar novamente, mas desta vez informando ao `Pandas` que a primeira coluna deve ser tratada como uma Data:

In [6]:
aapl = pd.read_csv(nome_arquivo, parse_dates=[0])

In [7]:
aapl.head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2000-01-03,3.745536,4.017857,3.631696,3.997768,2.665724,133949200
1,2000-01-04,3.866071,3.950893,3.613839,3.660714,2.440975,128094400
2,2000-01-05,3.705357,3.948661,3.678571,3.714286,2.476697,194580400
3,2000-01-06,3.790179,3.821429,3.392857,3.392857,2.262367,191993200
4,2000-01-07,3.446429,3.607143,3.410714,3.553571,2.369532,115183600


In [8]:
aapl.dtypes

Date         datetime64[ns]
Open                float64
High                float64
Low                 float64
Close               float64
Adj Close           float64
Volume                int64
dtype: object

In [9]:
aapl.shape

(4856, 7)

Agora, um outro arquivo `.csv`:

In [10]:
goog = pd.read_csv('GOOG.csv')

In [11]:
goog.head()

Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Date;Open;High;Low;Close;Adj Close;Volume
19/08/2004;49,676899;51,693783;47,669952;49,845802;49,845802;44994500
20/08/2004;50,178635;54,187561;49,925285;53,805050;53,805050;23005800
23/08/2004;55,017166;56,373344;54,172661;54,346527;54,346527;18393200
24/08/2004;55,260582;55,439419;51,450363;52,096165;52,096165;15361800
25/08/2004;52,140873;53,651051;51,604362;52,657513;52,657513;9257400


É... Não era bem o que esperávamos...

Vamos ver o conteúdo do arquivo:

<img src="csv_goog.png" />

Acontece que o arquivo `GOOG.csv` tem algumas características diferentes:

 * o separador dos campos não é mais `,`, mas sim `;`
 * o separador decimal não é mais o `.`, mas sim `,`
 * as datas estão no formato `dd/MM/aaaa`

Mas não priemos cânico! O `Pandas` está aí para nos socorrer!

In [12]:
goog = pd.read_csv("GOOG.csv",
                   sep=';',
                   decimal='.',
                   parse_dates=[0],
                   dayfirst=True)

In [13]:
goog.head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2004-08-19,49676899,51693783,47669952,49845802,49845802,44994500
1,2004-08-20,50178635,54187561,49925285,53805050,53805050,23005800
2,2004-08-23,55017166,56373344,54172661,54346527,54346527,18393200
3,2004-08-24,55260582,55439419,51450363,52096165,52096165,15361800
4,2004-08-25,52140873,53651051,51604362,52657513,52657513,9257400


In [14]:
goog.dtypes

Date         datetime64[ns]
Open                 object
High                 object
Low                  object
Close                object
Adj Close            object
Volume                int64
dtype: object

Tudo muito simples!

Ainda é possível, entre outras coisas:

 * definir um cabeçalho, caso o arquivo não possua um (parâmetro `names`);
 * usar mais de uma linha no cabeçalho (parâmetro `header`);
 * selecionar quais colunas se deseja importar (parâmetro `usecols`);
 * definir delimitadores para os campos (parâmetros `quotecha` e `quoting`);
 * e muito mais
 
Para conhecer todas as opções disponibilizadas pelo método de leitura de arquivos `.csv` você pode consultar o próprio sistema de _help_ do `Pandas` da seguinte forma:

In [15]:
?pd.read_csv

### Arquivos do `Excel`

Para ler arquivos no formato `Excel`, o método é o `pd.read_excel`.

O arquivo de testes que utilizaremos é este:

<img src="aapl_goog.png" />

In [16]:
# se esse comando falhar na sua máquina, você pode precisar instalar o módulo xlrd!
# abra um prompt de comando e digite:
#
#    pip install xlrd
#
aapl_xls = pd.read_excel("AAPL_GOOG.xlsx",
                         parse_dates=[0])

Aqui, como não foi indicado qual a planilha (_"Aba"_) a utilizar, a primeira do arquivo é que foi lida.

Também pedimos ao `Pandas` que interpretasse a primeira coluna como data; como desta vez o formato é o americano (`MM/dd/yyyy`), não foi necessário fornecer mais informações.

In [17]:
aapl_xls.head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2000-01-03,3.745536,4.017857,3.631696,3.997768,2.665724,133949200
1,2000-01-04,3.866071,3.950893,3.613839,3.660714,2.440975,128094400
2,2000-01-05,3.705357,3.948661,3.678571,3.714286,2.476697,194580400
3,2000-01-06,3.790179,3.821429,3.392857,3.392857,2.262367,191993200
4,2000-01-07,3.446429,3.607143,3.410714,3.553571,2.369532,115183600


Agora leremos a seguinda planilha (_"GOOG"_ no nosso exemplo):

In [18]:
goog_xls = pd.read_excel("AAPL_GOOG.xlsx",
                         sheet_name="GOOG",
                         parse_dates=[0])

In [19]:
goog_xls.head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2004-08-19,49.676899,51.693783,47.669952,49.845802,49.845802,44994500
1,2004-08-20,50.178635,54.187561,49.925285,53.80505,53.80505,23005800
2,2004-08-23,55.017166,56.373344,54.172661,54.346527,54.346527,18393200
3,2004-08-24,55.260582,55.439419,51.450363,52.096165,52.096165,15361800
4,2004-08-25,52.140873,53.651051,51.604362,52.657513,52.657513,9257400


Assim como no caso do método `pd.read_csv`, há muitas opções de parametrização para o método `pd.read_excel`, e você pode consultá-las diretamente na documentação da biblioteca:

In [20]:
?pd.read_excel

### Carregando arquivos diretamente da Internet

Nos exemplos acima, utilizamos sempre arquivos que estavam no seu próprio computador, mas também é possível carregar arquivos diretamente da Internet:

In [21]:
# Taxa de Juros - SELIC anualizada base 252
# http://dados.gov.br/dataset/1178-taxa-de-juros-selic-anualizada-base-252
sgs = pd.read_csv("http://api.bcb.gov.br/dados/serie/bcdata.sgs.1178/dados?formato=csv",
                  sep=';',
                  decimal=',',
                  parse_dates=[0],
                  dayfirst=True)
sgs.tail()

Unnamed: 0,data,valor
8237,2019-04-18,6.4
8238,2019-04-22,6.4
8239,2019-04-23,6.4
8240,2019-04-24,6.4
8241,2019-04-25,6.4


É importante notar que, neste caso, o arquivo é disponibilizado _"pronto"_ pelo _site_: não foi necessário acessar uma página, digitar _login_ e senha, dizer que não sou um robô,...

## Gravando arquivos

Assim como é possível ler arquivos de diversos tipos, também é possível exportar os dados de um `DataFrame` para os mais variados tipos de arquivos:

In [22]:
# o parâmetro index=False evita que uma coluna seja gravada no arquivo
# com o índice do DataFrame
goog_xls.to_csv('outro_arquivo_com_dados_do_google.csv',
                index=False)

Agora, você deve ter um novo arquivo chamado `outro_arquivo_com_dados_do_google.csv` no seu computador:

<img src="arquivo_gravado_1.png" />

E seu conteúdo deve ser este:

<img src="arquivo_gravado_2.png" />

Para salvar no formato do `Excel`, o método é `.to_excel(...)`.

E, para saber quais as opções para cada um deles:

In [23]:
?goog_xls.to_csv

In [24]:
?goog_xls.to_excel

## Outros formatos

Além de arquivos nos formatos `csv` e `Excel`, também é possível carregar dados diretamente de arquivos `.html` (páginas da Web), `json` (um formato de transferência de dados muito utilizado em _sites_ e _APIs_), `Stata` etc.