# Obtendo dados para trabalhar

Para trabalhar com dados e aprofundar na utilização do Numpy e Pandas. Primeiro deve-se falar a respeito de como obtemos dados. Podem ser de duas fontes:<br><br>

- Servidores: Quando falamos de dados obtidos diretamente da internet, não estão salvos em seu computador. Em nosso código, podemos extrair dados financeiros diretamente de uma API (Application Programming Interface). Para isso podemos utilizar o pacote chamado Pandas-datareader, que nos fornece fórmulas para extrair os dados diretamente de uma API suportada e escolhida.<br><br>

- Computador: O dado também pode existir salvo diretamente em seu computador, independente de sua origem. Neste caso, trabalharemos com o tipo de dado chamado Comma Separated Value (.csv), caso não conheça ou não saiba como este tipo de arquivo funciona, recomendo que pesquise antes de dar continuidade.

## Um pouco mais sobre APIs

Se você nunca trabalhou com dados fornecidos diretamente por um servidor, algumas ressalvas são importantes:<br><br>

- Trabalhando com APIs em vez de .csv, é possível obter dados que se atualizam automaticamente, sempre que você roda o código.<br><br>

- Algumas APIs são pagas e outras são gratuitas.<br><br>

- Algumas APIs possuem dados que outras não possuem, ou possuem o dado com partes faltando.<br><br>

- Nem todas APIs podem ter um serviço 100% estáveis, principalmente quando estamos falando das APIs gratuitas, é possível que você acabe ficando sem acesso aos dados sem ter recebido um aviso e por tempo indeterminado<br><br>

- Algumas não são compatíveis com Python 2 mas são com Python 3 e vice-versa.<br><br>

Mas ao final das contas, qual método é melhor, utilizando API ou .csv?<br><br>

A resposta pode não ser tão simples e vai depender muito da forma que você está trabalhando. Pode ser que o dado que deseje é de muito fácil obtenção por meio de uma API gratuita e confiável, neste caso, não há muita vantagem em trabalhar com arquivos .csv. Agora, caso não haja necessidade de atualizar os dados e ache uma forma fácil de baixá-los, acredito que vale mais a pena trabalhar com .csv, pois não correrá os riscos de instabilidade ou falta de confiabilidade de uma API. Tirando o fato de que em .csv, você consegue abrir o arquivo mesmo fora do Python em seu notepad e observar melhor a estrutura do arquivo, lhe fornecendo maior confiança para trabalhar com ele.

## Início de trabalho com dados e Pandas

Um tipo de armazenamento de dados que temos com o Pandas são as Series, que nada mais são do que um "DataFrame com apenas uma coluna". Coloco isso entre aspas porque se é uma Série então não é um DataFrame. Quando queremos criar um DataFrame de fato, ele terá várias colunas. Veja:

Ao trabalhar com Pandas, o Numpy vai aparecer quase sempre quando trabalharmos apenas com a parte numérica, vamos criar uma Serie:

In [5]:
import random
import pandas as pd
import numpy as np

In [6]:
ser = pd.Series(np.random.random(5), name = "Coluna Unica")

In [7]:
print(ser)

0    0.379647
1    0.853845
2    0.377999
3    0.767300
4    0.651796
Name: Coluna Unica, dtype: float64


Os números que aparecem na esquerda são o índice da linha! E eu posso indexar:

In [8]:
ser[2]

0.37799858915783

### Extraindo dados de API (Yahoo Finance):

Agora, vou tentar importar dados da Yahoo Finance:

In [63]:
from pandas_datareader import data as wb

Antes, veja como funciona a função DataReader e seus parâmetros:

In [65]:
help(wb.DataReader)

Help on function DataReader in module pandas_datareader.data:

DataReader(name, data_source=None, start=None, end=None, retry_count=3, pause=0.1, session=None, api_key=None)
    Imports data from a number of online sources.
    
    Currently supports Google Finance, St. Louis FED (FRED),
    and Kenneth French's data library, among others.
    
    Parameters
    ----------
    name : str or list of strs
        the name of the dataset. Some data sources (IEX, fred) will
        accept a list of names.
    data_source: {str, None}
        the data source ("iex", "fred", "ff")
    start : string, int, date, datetime, Timestamp
        left boundary for range (defaults to 1/1/2010)
    end : string, int, date, datetime, Timestamp
        right boundary for range (defaults to today)
    retry_count : {int, 3}
        Number of times to retry query request.
    pause : {numeric, 0.001}
        Time, in seconds, to pause between consecutive queries of chunks. If
        single value given 

In [19]:
VVAR3 = wb.DataReader('VVAR3.SA', data_source ='yahoo')

Acima, criei um DataFrame chamado "VVAR3", e nele, busquei o ticker da Via Varejo no Yahoo Finance. Não especifiquei mais nenhum parâmetro. Veja um resumo dos dados:

In [66]:
VVAR3

Unnamed: 0_level_0,High,Low,Open,Close,Volume,Adj Close
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2015-07-23,7.700000,7.700000,7.700000,7.700000,0.0,7.655103
2015-07-24,7.700000,7.700000,7.700000,7.700000,0.0,7.655103
2015-07-27,7.700000,7.700000,7.700000,7.700000,5700.0,7.655103
2015-07-28,7.700000,7.700000,7.700000,7.700000,0.0,7.655103
2015-07-29,7.700000,7.700000,7.700000,7.700000,0.0,7.655103
...,...,...,...,...,...,...
2020-07-15,18.530001,17.930000,18.240000,18.450001,67767800.0,18.450001
2020-07-16,19.000000,18.290001,18.290001,19.000000,63280900.0,19.000000
2020-07-17,19.959999,19.260000,19.410000,19.719999,90605000.0,19.719999
2020-07-20,21.280001,19.900000,19.940001,21.170000,115751100.0,21.170000


Veja que consegui extrair todos os dados disponíveis para o ticker da Via Varejo desde o início da série histórica disponível dentro do Yahoo Finance

Podemos agora falar de alguns métodos que vão nos ajudar a aprender um pouco sobre o dado que acabamos de extrair:

Veja como indexar uma coluna:

In [39]:
VVAR3['Adj Close']

Date
2015-07-23     7.655103
2015-07-24     7.655103
2015-07-27     7.655103
2015-07-28     7.655103
2015-07-29     7.655103
                ...    
2020-07-15    18.450001
2020-07-16    19.000000
2020-07-17    19.719999
2020-07-20    21.170000
2020-07-21    20.620001
Name: Adj Close, Length: 1241, dtype: float64

In [25]:
VVAR3.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 1241 entries, 2015-07-23 to 2020-07-21
Data columns (total 6 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   High       1241 non-null   float64
 1   Low        1241 non-null   float64
 2   Open       1241 non-null   float64
 3   Close      1241 non-null   float64
 4   Volume     1241 non-null   float64
 5   Adj Close  1241 non-null   float64
dtypes: float64(6)
memory usage: 67.9 KB


Observe que acima conseguimos observar diversas informações importantes sobre o nosso DataFrame!!

Podemos também utilizar o método **head()** e **tail()** para verificar o início e o final de nosso DataFrame. Essa função admite o argumento da quantidade de linhas que queremos ver, se não fornecermos nenhum argumento, ele nos mostrará 5 linhas. Veja:

In [29]:
VVAR3.head()

Unnamed: 0_level_0,High,Low,Open,Close,Volume,Adj Close
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2015-07-23,7.7,7.7,7.7,7.7,0.0,7.655103
2015-07-24,7.7,7.7,7.7,7.7,0.0,7.655103
2015-07-27,7.7,7.7,7.7,7.7,5700.0,7.655103
2015-07-28,7.7,7.7,7.7,7.7,0.0,7.655103
2015-07-29,7.7,7.7,7.7,7.7,0.0,7.655103


In [30]:
VVAR3.head(15)

Unnamed: 0_level_0,High,Low,Open,Close,Volume,Adj Close
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2015-07-23,7.7,7.7,7.7,7.7,0.0,7.655103
2015-07-24,7.7,7.7,7.7,7.7,0.0,7.655103
2015-07-27,7.7,7.7,7.7,7.7,5700.0,7.655103
2015-07-28,7.7,7.7,7.7,7.7,0.0,7.655103
2015-07-29,7.7,7.7,7.7,7.7,0.0,7.655103
2015-07-30,7.7,7.7,7.7,7.7,0.0,7.655103
2015-07-31,7.7,7.7,7.7,7.7,0.0,7.655103
2015-08-03,7.7,7.7,7.7,7.7,0.0,7.655103
2015-08-04,7.69,7.69,7.69,7.69,500.0,7.645162
2015-08-05,7.69,7.69,7.69,7.69,0.0,7.645162


In [31]:
VVAR3.tail()

Unnamed: 0_level_0,High,Low,Open,Close,Volume,Adj Close
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2020-07-15,18.530001,17.93,18.24,18.450001,67767800.0,18.450001
2020-07-16,19.0,18.290001,18.290001,19.0,63280900.0,19.0
2020-07-17,19.959999,19.26,19.41,19.719999,90605000.0,19.719999
2020-07-20,21.280001,19.9,19.940001,21.17,115751100.0,21.17
2020-07-21,22.360001,19.809999,21.799999,20.620001,170686300.0,20.620001


In [32]:
VVAR3.tail(10)

Unnamed: 0_level_0,High,Low,Open,Close,Volume,Adj Close
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2020-07-08,16.559999,16.15,16.219999,16.370001,70336900.0,16.370001
2020-07-09,17.67,16.35,16.5,17.549999,112337300.0,17.549999
2020-07-10,18.059999,17.5,17.65,17.620001,71191100.0,17.620001
2020-07-13,19.049999,17.51,17.889999,17.65,124617300.0,17.65
2020-07-14,18.540001,17.57,17.82,17.75,107603400.0,17.75
2020-07-15,18.530001,17.93,18.24,18.450001,67767800.0,18.450001
2020-07-16,19.0,18.290001,18.290001,19.0,63280900.0,19.0
2020-07-17,19.959999,19.26,19.41,19.719999,90605000.0,19.719999
2020-07-20,21.280001,19.9,19.940001,21.17,115751100.0,21.17
2020-07-21,22.360001,19.809999,21.799999,20.620001,170686300.0,20.620001


Uma coisa muito importante e interessante que podemos fazer é puxar a informação para vários tickers de uma vez e agrupá-los em um único DataFrame. Veja como podemos fazer isso (isso só funcionará quando os DataFrames para os diferentes tickers contiver colunas iguais!):

In [46]:
tickers = ['^BVSP', 'VVAR3.SA', 'PETR4.SA', 'CIEL3.SA']
tickers_adj_closed = pd.DataFrame()
for ticker in tickers:
    tickers_adj_closed[ticker] = wb.DataReader(ticker, data_source='yahoo', start='2020-1-1')['Adj Close']

In [47]:
tickers_adj_closed

Unnamed: 0_level_0,^BVSP,VVAR3.SA,PETR4.SA,CIEL3.SA
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2020-01-02,118573.000000,11.730000,30.698339,8.559227
2020-01-03,117707.000000,11.480000,30.448353,8.449366
2020-01-06,116878.000000,11.480000,30.808332,8.239630
2020-01-07,116662.000000,11.650000,30.688339,7.999932
2020-01-08,116247.000000,11.600000,30.498348,7.820158
...,...,...,...,...
2020-07-15,101791.000000,18.450001,23.340000,4.900000
2020-07-16,100553.000000,19.000000,22.719999,4.820000
2020-07-17,102888.000000,19.719999,22.740000,5.260000
2020-07-20,104426.000000,21.170000,22.740000,5.240000


Bom, vamos por partes, o que eu fiz acima foi: <br><br>

- Criei uma lista com os tickers desejados<br><br>

- Criei um DataFrame vazio com o nome de "tickers_adj_closed"<br><br>

- Fiz um loop que faz a seguinte tarefa: para cada ticker dentro da lista de tickers, criar uma coluna nesse dataframe com o nome do ticker, buscando esse ticker na API do Yahoo Finance, iniciando a série de dados em janeiro de 2020, e extraindo apenas a coluna Adj Close (a coluna de comparação entre os tickers deve ser especificada para que possamos criar o DataFrame comparando os diferentes tickers)

Uma API legal de extrair dados também é a Quandl. <br><br> O diferente dessa API é que eles possuem o seu próprio módulo em Python, dessa forma, não utilizamos o pacote Pandas-datareader para extrair os dados da API, mas sim o módulo **quandl**. E, utilizamos a função **get()**. Veja abaixo, onde importo o módulo e mostro a função:

In [67]:
import quandl

In [68]:
help(quandl.get)

Help on function get in module quandl.get:

get(dataset, **kwargs)
    Return dataframe of requested dataset from Quandl.
    :param dataset: str or list, depending on single dataset usage or multiset usage
            Dataset codes are available on the Quandl website
    :param str api_key: Downloads are limited to 50 unless api_key is specified
    :param str start_date, end_date: Optional datefilers, otherwise entire
           dataset is returned
    :param str collapse: Options are daily, weekly, monthly, quarterly, annual
    :param str transform: options are diff, rdiff, cumul, and normalize
    :param int rows: Number of rows which will be returned
    :param str order: options are asc, desc. Default: `asc`
    :param str returns: specify what format you wish your dataset returned as,
        either `numpy` for a numpy ndarray or `pandas`. Default: `pandas`
    :returns: :class:`pandas.DataFrame` or :class:`numpy.ndarray`
    Note that Pandas expects timeseries data to be sorte

Abaixo, vou extrair a Selic Meta da API, de toda a série histórica disponível. Para saber o parâmetro que deve incluir na função, pesquise no site do Quandl!

In [69]:
selic_meta = quandl.get('BCB/432')

In [70]:
selic_meta

Unnamed: 0_level_0,Value
Date,Unnamed: 1_level_1
1999-03-05,45.00
1999-03-06,45.00
1999-03-07,45.00
1999-03-08,45.00
1999-03-09,45.00
...,...
2020-07-17,2.25
2020-07-18,2.25
2020-07-19,2.25
2020-07-20,2.25


In [72]:
type(selic_meta)

pandas.core.frame.DataFrame

Veja como foi fácil extrair esse dado! Algo que podemos fazer também é salvar esse dado em nosso computador em um formato .csv. E isso pode ser feito da seguinte maneira, por meio do pacote Pandas:

In [75]:
help(pd.DataFrame.to_csv)

Help on function to_csv in module pandas.core.generic:

to_csv(self, path_or_buf: Union[str, pathlib.Path, IO[~AnyStr], NoneType] = None, sep: str = ',', na_rep: str = '', float_format: Union[str, NoneType] = None, columns: Union[Sequence[Union[Hashable, NoneType]], NoneType] = None, header: Union[bool, List[str]] = True, index: bool = True, index_label: Union[bool, str, Sequence[Union[Hashable, NoneType]], NoneType] = None, mode: str = 'w', encoding: Union[str, NoneType] = None, compression: Union[str, Mapping[str, str], NoneType] = 'infer', quoting: Union[int, NoneType] = None, quotechar: str = '"', line_terminator: Union[str, NoneType] = None, chunksize: Union[int, NoneType] = None, date_format: Union[str, NoneType] = None, doublequote: bool = True, escapechar: Union[str, NoneType] = None, decimal: Union[str, NoneType] = '.') -> Union[str, NoneType]
    Write object to a comma-separated values (csv) file.
    
    .. versionchanged:: 0.24.0
        The order of arguments for Series 

In [84]:
selic_meta.to_csv('D:/Python/selic_meta.csv')

Agora se eu for na pasta acima, eu consigo ver o arquivo salvo como .csv! Veja que eu preciso especificar o diretório no qual o arquivo deve ser salvo e depois o nome do arquivo e a extensão.<br><br>

**Obs**: Podemos salvar também o DataFrame como um arquivo .xlsx. Utilizando o método **to_excel()**. Funciona da mesma maneira, a única diferença é a extensão do arquivo!

### Lendo arquivo .csv:

Agora que vimos como salvar o arquivo como .csv. Vou mostrar como podemos fazer para ler este arquivo.<br><br> 

Veja a função de Pandas que utilizaremos:

In [82]:
help(pd.read_csv)

Help on function read_csv in module pandas.io.parsers:

read_csv(filepath_or_buffer: Union[str, pathlib.Path, IO[~AnyStr]], sep=',', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, skipfooter=0, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, cache_dates=True, iterator=False, chunksize=None, compression='infer', thousands=None, decimal: str = '.', lineterminator=None, quotechar='"', quoting=0, doublequote=True, escapechar=None, comment=None, encoding=None, dialect=None, error_bad_lines=True, warn_bad_lines=True, delim_whitespace=False, low_memory=True, memory_map=False, float_precision=None)
    Read a comma-separated values (csv) file in

In [83]:
selic_meta_csv = pd.read_csv('D:/Python/selic_meta.csv')
selic_meta_csv

Unnamed: 0,Date,Value
0,1999-03-05,45.00
1,1999-03-06,45.00
2,1999-03-07,45.00
3,1999-03-08,45.00
4,1999-03-09,45.00
...,...,...
7805,2020-07-17,2.25
7806,2020-07-18,2.25
7807,2020-07-19,2.25
7808,2020-07-20,2.25


Note uma coisa acima, o Python, por default, indexou as linhas dessa série com números, como uma coluna numérica antes da coluna de data. Porém, isso não é ideal, pois gostaria de indexar as linhas de acordo com a data do dado referente. Para isso, devemos incluir um outro parâmetro na função **read_csv()**: 

In [85]:
selic_meta_csv_adjusted = pd.read_csv('D:/Python/selic_meta.csv', index_col='Date')

In [86]:
selic_meta_csv_adjusted

Unnamed: 0_level_0,Value
Date,Unnamed: 1_level_1
1999-03-05,45.00
1999-03-06,45.00
1999-03-07,45.00
1999-03-08,45.00
1999-03-09,45.00
...,...
2020-07-17,2.25
2020-07-18,2.25
2020-07-19,2.25
2020-07-20,2.25


Outra maneira de fazer isso seria usando o método **.set_index()**. Vamos fazer isso com a série inicial:

In [88]:
selic_meta_csv.set_index('Date')

Unnamed: 0_level_0,Value
Date,Unnamed: 1_level_1
1999-03-05,45.00
1999-03-06,45.00
1999-03-07,45.00
1999-03-08,45.00
1999-03-09,45.00
...,...
2020-07-17,2.25
2020-07-18,2.25
2020-07-19,2.25
2020-07-20,2.25


Porém, note que o método acima retorna diretamente o DataFrame ajustado com o indíce desejado, porém, se eu chamar o DataFrame original, ele não terá sido alterado:

In [89]:
selic_meta_csv

Unnamed: 0,Date,Value
0,1999-03-05,45.00
1,1999-03-06,45.00
2,1999-03-07,45.00
3,1999-03-08,45.00
4,1999-03-09,45.00
...,...,...
7805,2020-07-17,2.25
7806,2020-07-18,2.25
7807,2020-07-19,2.25
7808,2020-07-20,2.25


Para arrumar o DataFrame original, eu preciso desginar uma variável com o método. Veja:

In [90]:
selic_meta_csv = selic_meta_csv.set_index('Date')

In [91]:
selic_meta_csv

Unnamed: 0_level_0,Value
Date,Unnamed: 1_level_1
1999-03-05,45.00
1999-03-06,45.00
1999-03-07,45.00
1999-03-08,45.00
1999-03-09,45.00
...,...
2020-07-17,2.25
2020-07-18,2.25
2020-07-19,2.25
2020-07-20,2.25


Agora foi ajustado!

Criado por: <br><br>

Reddit: **u_jvsm**