# Baixando séries históricas do *Yahoo! Finance*

**Neste tutorial apresenta é apresentado:**
  - como obter uma lista de ações
  - como baixar séries históricas de uma lista de ações
  - como salvar os dataframes no formato pickle

**Considerações**
  - O  texto descritivo em linguagem `Markdown` está português, uma vez que a *Bovespa* é brasileira
  - Os códigos (variáveis e comentários), no entanto, estão em inglês para facilitar na universalização e compartilhamento, já que podem ser úteis para outros mercados de ações
  - O `shell-script` descrito abaixo foi executado em ambiente `GNU/Linux`, contudo sua utilização não é essencial, sendo que o mesmo resultado pode ser obtido através de outra forma
  - A ferramenta usada para baixar é o `fix_yahoo_finance` que é uma modificação feita a partir do `pandas_datareader`

## Obtendo a lista de ações (opcional)


O objetivo desta etapa é apenas obter uma lista de *tickers*. Caso já a tenha, passe a próxima etapa.

### Lista de ações da Composição Atual do IBOV

Esta etapa obtém a lista de ações que compõem o índice Bovespa atual (2018). Será usada uma sequência de comandos `bash` para extrair a lista da página [Composição Atual do IBOV - Índice Bovespa](https://br.advfn.com/indice/ibovespa), que serão executados a dentro de uma rotina `Python`, que posteriormente irá salvar a lista em disco.

#### *Webscrapping*: baixando a lista da página

Poderia ser feito usando `BeautifulSoup` e/ou `Scrapy`? Sim. Com `bash` pode não ser muito sofisticado mas é simples.

In [1]:
import subprocess

In [2]:
# bash command line to be exectuted inside python
commands = """
# Baixando o código html da página
wget https://br.advfn.com/indice/ibovespa -O  tmp0.tmp


# Extraindo as colunas de tickers e nomes
cat tmp0.tmp | head -n434 | tail -n80 > tmp1.tmp
cat tmp1.tmp | grep 'br.advfn.com' | cut -c1-200 | cut -d. -f3- | cut -d'"' -f1,3 > tmp2.tmp
cat tmp2.tmp | cut -d'/' -f4-6 | sed -e 's./cotacao"Cotação .,.g' | cut -d',' -f1 | rev | cut -d'-' -f1 | rev  > tmp4.tmp
cat tmp2.tmp | cut -d'/' -f4-6 | sed -e 's./cotacao"Cotação .,.g' | cut -d',' -f2  > tmp5.tmp

# Salvando a lista final
paste -d, tmp4.tmp tmp5.tmp > lista_ibovespa.csv

# Removendo arquivos temporários
rm -f tmp*.tmp
"""

In [3]:
p = subprocess.Popen(commands, shell=True, stdout=subprocess.PIPE)
msg, err = p.communicate()

#### Modificações adicionais

Carregando a lista anterior como `numpy.array`:

In [4]:
import numpy as np
# ibovespa stock tickers
lst_stocks = np.loadtxt('./lista_ibovespa.csv', delimiter=',', dtype=str)
print('Number of stocks listed on iBovespa:', len(lst_stocks))

Number of stocks listed on iBovespa: 64


In [5]:
for ticker, name in lst_stocks[:5]:
    print('Ticker: {} | Stock name: {}'.format(ticker, name))

Ticker: ABEV3 | Stock name: Ambev S/A ON
Ticker: B3SA3 | Stock name: B3 ON
Ticker: BBAS3 | Stock name: Banco do Brasil ON
Ticker: BBDC3 | Stock name: Bradesco ON
Ticker: BBDC4 | Stock name: Bradesco PN


O *Yahoo! Finance* emprega um sufixo para ações de bolsas fora dos EUA. Para as ações da Bovespa, por exemplo, aplica o sufixo `.SA` no símbolo de cada ação. Ou seja, a ação *ABEV3* da Ambev é referenciada como 'ABEV3.SA'.

Referências:
  - [Exchanges and data providers on Yahoo Finance](https://help.yahoo.com/kb/SLN2310.html)
  - [Yahoo Finance Exchanges And Suffixes](https://sites.google.com/a/stockhistoricaldata.com/stock-historical-data/yahoo-finance-suffixes)  

Adicionando o sufixo nos simbolos:

In [6]:
# ticker symbols with Bovespa's suffix 
lst_tickers = np.asarray([ '{}.SA'.format(x) for x in lst_stocks[:,0]], dtype=str)

# 
for ticker in lst_tickers[:5]:
    print('Ticker: {}'.format(ticker))
    
for ticker in lst_tickers[-5:]:
    print('Ticker: {}'.format(ticker))

Ticker: ABEV3.SA
Ticker: B3SA3.SA
Ticker: BBAS3.SA
Ticker: BBDC3.SA
Ticker: BBDC4.SA
Ticker: USIM5.SA
Ticker: VALE3.SA
Ticker: VIVT4.SA
Ticker: VVAR11.SA
Ticker: WEGE3.SA


#### Incorporando BVMF3, Ibovespa e Dólar 

 * Até 2017 a ação *B3 ON* tinha o símbolo *BVMF3* e em 2018 passou a usar o símbolo *B3SA3*. Assim a *BVMF3.SA* será adicionada manualmente à lista de ações a serem baixadas.

 * O índice Bovespa (*^BVSP*) e a cotação do Dólar em reais (*USDBRL=X*) também serão adicionadas. (Perceba o prefixo '^' e o sufixo '=X' usados.)

In [7]:
# adding BVMF3.SA
lst_tickers = np.sort(np.concatenate((lst_tickers, ['BVMF3.SA']))) # this stock changed the name to B3SA3 in 2018

# adding ^BVSP and USDBRL=X
lst_tickers = np.concatenate((lst_tickers, ['^BVSP', 'USDBRL=X'])) # this stock changed the name to B3SA3 in 2018

# checking the last ones
for ticker in lst_tickers[-5:]:
    print('Ticker: {}'.format(ticker))

# saving the list
np.savetxt('list_tickers_yahoo.txt', lst_tickers, fmt='%s')

Ticker: VIVT4.SA
Ticker: VVAR11.SA
Ticker: WEGE3.SA
Ticker: ^BVSP
Ticker: USDBRL=X


## Baixando as séries históricas

O API do *Yahoo! Finance* não funciona mais como antes, causando falhas no uso da biblioteca `pandas_datareader`.

O recente mal funcionamento com algumas APIs é descrito na página de desenvolvimento do [pandas_datareader](https://pydata.github.io/pandas-datareader/devel/whatsnew.html):

> Yahoo!, Google Options, Google Quotes and EDGAR have been immediately deprecated.

> Immediate deprecation of Yahoo!, Google Options and Quotes and EDGAR. The end points behind these APIs have radically changed and the existing readers require complete rewrites. In the case of most Yahoo! data the endpoints have been removed. PDR would like to restore these features, and pull requests are welcome.

Existe porém uma solução temporária para isto, o [fix-yahoo-finance](https://github.com/ranaroussi/fix-yahoo-finance).

O `fix_yahoo_finance` não está disponível na distribuição *Anaconda*, mas é possível o instalar a partir do `pip`:
```bash
$ pip install fix_yahoo_finance --upgrade --no-cache-dir
```

### Usando o *fix_yahoo_finance*


Abaixo é definida uma função que utiliza o módulo `fix_yahoo_finance` para baixar séries históricas do API do *Yahoo! Finance*.


A função método `download_stocks_from_yahoo` recebe a lista de símbolos, baixa cada elemento da lista como `DataFrame` do *Pandas* e os salva no formato `pickle` na pasta indicada pela variável `output_path`. O nome do arquivo salvo para cada ação da lista é `df_XXXXX.pickle` onde *XXXXX* representa o símbolo da ação em questão, onde os prefixos e sufixos são removidos.

In [8]:
import numpy as np
import os
import subprocess
#from pandas_datareader import data as pdr
import fix_yahoo_finance as yf

# See https://github.com/ranaroussi/fix-yahoo-finance/blob/master/README.rst
yf.pdr_override() # <== that's all it takes :-)


def download_stocks_from_yahoo(tickers, start, end, output_path='', verbose=1):
    '''
    Downloads stocks from Yahoo! Finance and saves each stock as a Pandas DataFrame object 
    in the pickle data format: df_XXXXX.pickle, where XXXXX is the ticker of a particular stock.
    
    Prefixes and suffixes are removed from the output name.    
    
    
    Inputs: 
    
        tickers: list/array of tickers
        start/end: datetime.datetime.date objects
        output_path: string
        
    Outputs:
        failed: list of the tickers whose download failed
    
    '''
    
    failed = []
    
    # creates the output folder path if it doesnt exist yet
    command = 'mkdir -p {}'.format(output_path)
    p = subprocess.Popen(command, shell=True, stdout=subprocess.PIPE)
    msg, err = p.communicate()    
    
    
    for ticker in tickers:
        
        ticker = ticker.upper()
        
        # deleting Yahoo's prefixes and suffixes from the name
        stock_name = ticker.replace('^', '')
        stock_name = stock_name.split('=')[0]
        stock_name = stock_name.replace('.SA', '')
        
        # setting the full path for the output file
        fname_output = os.path.join(output_path,'df_{}.pickle'.format(stock_name))
       
        try:
            if verbose:
                print('\n Attempting to download {} from {} to {}.'.format(ticker, start, end))
                
            df = yf.download(ticker, start=start, end=end, as_panel=False)
               
        except:
            failed.append(ticker)
            print('* Unable to download {}. * \n'.format(ticker))
            
        else:
            try:
                df.to_pickle(fname_output)
                
            except:
                print('* Error when trying to save on disk {}. * \n'.format(fname_output))     

    return failed


### Download das ações

Serão baixadas as séries históricas das ações do período de *01/01/2016* até a data presente. Os *DataFrames* serao salvos no formato `pickle` no diretório 'raw'.

In [9]:
import numpy as np
import datetime

# loading the list of tickers as a np.array
tickers = np.loadtxt('list_tickers_yahoo.txt', dtype=str)

# setting the start and end dates
start = datetime.datetime(2016, 1, 1).date()
end = datetime.datetime.today().date()

# setting folder name where dataframes will be saved
output_path = 'raw'

In [10]:
# downloading list of tickers
lst_failed = download_stocks_from_yahoo(tickers[:], start, end, output_path)


 Attempting to download ABEV3.SA from 2016-01-01 to 2018-04-11.
[*********************100%***********************]  1 of 1 downloaded

 Attempting to download B3SA3.SA from 2016-01-01 to 2018-04-11.
[*********************100%***********************]  1 of 1 downloaded

 Attempting to download BBAS3.SA from 2016-01-01 to 2018-04-11.
[*********************100%***********************]  1 of 1 downloaded

 Attempting to download BBDC3.SA from 2016-01-01 to 2018-04-11.
[*********************100%***********************]  1 of 1 downloaded

 Attempting to download BBDC4.SA from 2016-01-01 to 2018-04-11.
[*********************100%***********************]  1 of 1 downloaded

 Attempting to download BBSE3.SA from 2016-01-01 to 2018-04-11.
[*********************100%***********************]  1 of 1 downloaded

 Attempting to download BRAP4.SA from 2016-01-01 to 2018-04-11.
[*********************100%***********************]  1 of 1 downloaded

 Attempting to download BRFS3.SA from 2016-01-01 to 20

In [11]:
# Checking for errors

if len(lst_failed) > 0:
    print('Unable to download the following stocks:')
    print(lst_failed)
    
    #print('\n Trying one more time:')
    #lst_failed = download_stocks_from_yahoo(lst_failed, start, end, output_path)

else:
    print('All tickers downloaded successfully')

Unable to download the following stocks:
['KLBN11.SA', 'SAPR11.SA', 'TAEE11.SA', 'VVAR11.SA']


#### Concatenação da *BVMF3* e *B3SA3* (opcional)

Como comentado anteriormente, esta ação mudou de nome em 2018. Neste passo, os `DataFrames` correspondentes a estas ações serão concatenados em um novo que será salvo em disco.

In [12]:
import pandas as pd
import os

picklepath = os.path.join(output_path, 'df_{}.pickle')

df1 = pd.read_pickle( picklepath.format('BVMF3') )
df2 = pd.read_pickle( picklepath.format('B3SA3') )

#
print(df1.shape, df2.shape)

df1.tail()

(561, 6) (6, 6)


Unnamed: 0_level_0,Open,High,Low,Close,Adj Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2018-03-20,25.629999,26.08,25.6,26.059999,26.059999,5479100
2018-03-21,26.1,26.43,25.6,26.219999,26.219999,6146900
2018-03-22,26.280001,26.49,25.700001,25.98,25.98,5902700
2018-03-23,25.75,26.02,25.42,25.43,25.43,7084500
2018-03-26,25.799999,26.1,25.25,25.66,25.66,5045700


In [13]:
df3 = pd.concat([df1, df2], axis=0)

print(df1.shape, df2.shape, df3.shape)

print(df3.columns)

(561, 6) (6, 6) (567, 6)
Index(['Open', 'High', 'Low', 'Close', 'Adj Close', 'Volume'], dtype='object')


In [14]:
df3.tail() # there are few days missing

# re-writing on disk
df3.to_pickle(picklepath.format('B3SA3'))

# deleting from disk
status = os.system('rm -f {}'.format(picklepath.format('BVMF3')))


Isto é tudo.