# Coleta de dados da Bovespa parte 2

**Agora vamos tentar coletar dados além dos dados da bolsa por si só. Dados como margem de lucro, gastos, dividendos e etc. Dados em respeito a parte financeira das empresas.**

**Vamos coletar os dados do site Yahoo finance, usamos BeautifulSoup e PandasDataReader para fazer "Web Scraping" do site. Usamos algumas ações individualmente como exemplo.**

**Para entender melhor o que está sendo feito, recomendo que abra os links usados para webscraping e acompanhar com o código.**

In [4]:
#Bibliotecas usadas


import pandas as pd
import numpy as np
import pandas_datareader.data as web
import requests
import bs4 as bs
from bs4 import BeautifulSoup
import datetime as dt 
import os



**Vamos começar lendo dados de finanças da B3SA3.**

In [6]:
#Lendo o site das finanças da empresa
read = pd.read_html('https://finance.yahoo.com/quote/B3SA3.SA/financials')
print(read)

ValueError: No tables found

**Esse site nao possui tabelas, portanto teremos que usar beautifulSoup para explorar os dados mostrados no site. BeatifulSoup explora o código fonte de páginas e facilita extração de dados dela**

**Vamos ler o site em formato txt e mostrar todas as linhas da classe "span" onde estão os dados que queremos.**

In [7]:
resp = requests.get('https://finance.yahoo.com/quote/B3SA3.SA/financials')
#BeautifulSoup faz o scrape do codigo fonte da pagina em TXT
soup = bs.BeautifulSoup(resp.text, 'lxml')

#Quantidade de linhas escrito span
length = np.array(soup.find_all('span')).shape[0]

#Vetor com as linhas escrito span
lines = np.array(soup.find_all('span'))

#Lista para armazenar as linhas da classe span, pra não precisar usar "BeautifulSoup(str(lines[line])).span" toda hora
spans = []

for line in range(0,length):
    
    #Armazenando e mostrando as linhas
    spans.append(BeautifulSoup(str(lines[line])).span)
    print(BeautifulSoup(str(lines[line])).span)

<span data-reactid="31">No matching results for ''</span>
<span data-reactid="33">Tip: Try a valid symbol or a specific company name for relevant results</span>
<span data-reactid="36">Cancel</span>
<span data-reactid="9">Summary</span>
<span data-reactid="13">Statistics</span>
<span data-reactid="17">Historical Data</span>
<span data-reactid="21">Profile</span>
<span data-reactid="25">Financials</span>
<span data-reactid="29">Analysis</span>
<span data-reactid="33">Options</span>
<span data-reactid="37">Holders</span>
<span data-reactid="41">Sustainability</span>
<span data-reactid="9">Sao Paolo - Sao Paolo Delayed Price. Currency in BRL</span>
<span class="Mend(10px) smartphone_D(n)" data-reactid="5"><span data-reactid="6">Show</span><!-- react-text: 7 -->:<!-- /react-text --></span>
<span data-reactid="6">Show</span>
<span data-reactid="10">Income Statement</span>
<span data-reactid="13">Balance Sheet</span>
<span data-reactid="16">Cash Flow</span>
<span data-reactid="19">Annual</sp

**O que faremos então, é extrair o "react id" e o texto de cada linha, tomamos nota de qual ID se refere a que informação, e pegamos as que queremos. Para isso é necessário olhar o site e comparar os dados.**

In [8]:

for line in range(0,length):
   
    print(f"{spans[line]['data-reactid']} - {spans[line].string}")


31 - No matching results for ''
33 - Tip: Try a valid symbol or a specific company name for relevant results
36 - Cancel
9 - Summary
13 - Statistics
17 - Historical Data
21 - Profile
25 - Financials
29 - Analysis
33 - Options
37 - Holders
41 - Sustainability
9 - Sao Paolo - Sao Paolo Delayed Price. Currency in BRL
5 - None
6 - Show
10 - Income Statement
13 - Balance Sheet
16 - Cash Flow
19 - Annual
22 - Income Statement
23 - All numbers in thousands
24 - All numbers in thousands
31 - Breakdown
34 - ttm
36 - 12/30/2019
38 - 12/30/2018
40 - 12/30/2017
42 - 12/30/2016
48 - Total Revenue
51 - 6,576,507
53 - 6,576,507
55 - 4,831,915
57 - 3,673,596
59 - 2,320,781
65 - Cost of Revenue
68 - 1,267,869
70 - 1,267,869
72 - 921,531
74 - 810,851
76 - 649,753
82 - Gross Profit
85 - 5,308,638
87 - 5,308,638
89 - 3,910,384
91 - 2,862,745
93 - 1,671,028
102 - Operating Expenses
115 - Selling General and Administrative
118 - 35,880
120 - 35,880
122 - 35,354
124 - 32,290
126 - 17,669
132 - Total Operatin

**Se quisermos aplicar essa coleta de dados a todas as ações da bovespa, o algoritmo precisa adaptar ao site, coletando apenas o que o site possui de informações. Vamos usar a ação NTCO3 da natura, que possui dados apenas de 2019, para mostrar de exemplo a coleta de dados quando temos diferentes quantidades de datas para os dados.**

In [15]:
resp = requests.get('https://finance.yahoo.com/quote/NTCO3.SA/financials')
#BeautifulSoup faz o scrape do codigo fonte da pagina em TXT
soup = bs.BeautifulSoup(resp.text, 'lxml')

#pegando a quantidade de linhas Span no site
length = np.array(soup.find_all('span')).shape[0]

#Vetor com todas as linhas da classe span do site 
lines = np.array(soup.find_all('span'))

#Lista que vamos aramzenar as linhas da classe span 
spans = []

#Pegando as linhas
for line in range(0,length):
    spans.append(BeautifulSoup(str(lines[line])).span)
   
#Mostrando as linhas
for line in range(0,length):
   
    print(f"{spans[line]['data-reactid']} - {spans[line].string}")


31 - No matching results for ''
33 - Tip: Try a valid symbol or a specific company name for relevant results
36 - Cancel
9 - Summary
13 - Statistics
17 - Historical Data
21 - Profile
25 - Financials
29 - Analysis
33 - Options
37 - Holders
41 - Sustainability
9 - Sao Paolo - Sao Paolo Delayed Price. Currency in BRL
5 - None
6 - Show
10 - Income Statement
13 - Balance Sheet
16 - Cash Flow
19 - Annual
22 - Income Statement
23 - All numbers in thousands
24 - All numbers in thousands
31 - Breakdown
34 - ttm
36 - 12/30/2019
42 - Total Revenue
45 - 14,444,700
47 - 14,444,700
53 - Cost of Revenue
56 - 4,033,500
58 - 4,033,500
64 - Gross Profit
67 - 10,411,200
69 - 10,411,200
78 - Operating Expenses
88 - Selling General and Administrative
91 - 8,801,200
93 - 8,801,200
99 - Total Operating Expenses
102 - 9,057,100
104 - 9,057,100
110 - Operating Income or Loss
113 - 1,354,100
115 - 1,354,100
121 - Interest Expense
124 - 2,795,900
126 - 2,795,900
132 - Total Other Income/Expenses Net
135 - -209,5

In [24]:
#Datas que queremos encontrar no site
find_dates = ['12/30/2019','12/30/2018','12/30/2017','12/30/2016']

#Lista para as datas que realmente achamos no site
dates = []


resp = requests.get('https://finance.yahoo.com/quote/NTCO3.SA/financials')
#BeautifulSoup faz o scrape do codigo fonte da pagina em TXT
soup = bs.BeautifulSoup(resp.text, 'lxml')

#pegando a quantidade de linhas Span no site
length = np.array(soup.find_all('span')).shape[0]

#Vetor com todas as linhas da classe span do site 
lines = np.array(soup.find_all('span'))

#Lista que vamos aramzenar as linhas da classe span 
spans = []

#Pegando as linhas
for line in range(0,length):
    spans.append(BeautifulSoup(str(lines[line])).span)

#Iterando pelas datas que queremos achar 
for date in find_dates:
    
    #Iterando pelas linhas
    for line in range(0,length):
        
        #Caso o texto da linha corresponde a uma data que queremos, ela é adicionada a lista de datas
        if spans[line].string == date:
            dates.append(spans[line].string)
            break
            

        
print(dates)
        

['12/30/2019']


**Agora usaremos a mesma lógica para achar os dados que queremos. E vamos usar a ação ITSA4 para demonstrar a coleta de dados em caso de ter menos informações que o esperado.**

In [29]:
#Informações que queremos encontrar
interesting_lines =['Total Revenue',
                     'Cost of Revenue',
                     'Gross Profit',
                     'Selling General and Administrative',
                     'Total Operating Expenses',
                     'Operating Income or Loss',
                     'Interest Expense',
                     'Income Before Tax',
                     'Income Tax Expense',
                     'Income from Continuing Operations',
                     'Net Income',
                     'Net Income available to common shareholders',
                     'EBITDA']
#Lista para informações que realmente encontramos no site
infos = []

#Lista para o ReactID dos dados sobre as informações que queremos
data_ids = []

resp = requests.get('https://finance.yahoo.com/quote/ITSA4.SA/financials')
#BeautifulSoup faz o scrape do codigo fonte da pagina em TXT
soup = bs.BeautifulSoup(resp.text, 'lxml')

#pegando a quantidade de linhas Span no site
length = np.array(soup.find_all('span')).shape[0]

#Vetor com todas as linhas da classe span do site 
lines = np.array(soup.find_all('span'))

#Lista que vamos aramzenar as linhas da classe span 
spans = []

#Pegando as linhas
for line in range(0,length):
    spans.append(BeautifulSoup(str(lines[line])).span)

#Iterando pelas informações que esperamos encontrar
for info in interesting_lines:
    
    #Iteramdo pelas linhas de classe span
    for line in range(0,length):
        
        '''
        Se olharmos a lista de linhas Span veremos que os dados de cada informação fica embaixo do nome da informação.
        Então vamos achar a linha que possui o nome da informação, pular 2 linhas e retirar o reactID dessa linha. Que
        será a linha equivalente aos dados em 30/12/2019 da tal informação.
        
        '''
        if spans[line].string == info:
            
            #Pegando a informação encontrada
            infos.append(spans[line].string)
            
            #Pegando o reactID dos dados da mesma informação
            data_ids.append( str(int(spans[line]['data-reactid'])+3) )
            break
            
print(infos)

['Total Revenue', 'Selling General and Administrative', 'Total Operating Expenses', 'Interest Expense', 'Income Before Tax', 'Income Tax Expense', 'Income from Continuing Operations', 'Net Income', 'Net Income available to common shareholders']


In [30]:
print(data_ids)

['51', '86', '103', '121', '136', '153', '170', '187', '204']


**Aqui está um pequeno exemplo de como o script ficará até agora. Isso será usado em loop para iterar pelas várias ações da BOVESPA.**

In [65]:
#//////////////////////////////////////////////


# "NTCO3.SA" para testar com menos datas "ITSA4.SA" para testar menos colunas

ticker = 'ITSA4.SA'

source = 'yahoo'

rsi_period = 14 #days

#/////////////////////////////////////////////

print(f'>>> Testing stock: {ticker} - Source: {source}')

# When data collecting will start and end for the Dates
start = dt.datetime(2007,1,1)
end = (dt.datetime.now() - dt.timedelta(1)).strftime('%Y-%m-%d')
    
print(f'>>>Getting Stock Data from {source} from {end}')



df = web.DataReader(ticker, source, start, end)



#Boolinger Band
df['Close_MA'] =   df['Adj Close'].rolling(20).mean()
df['Sup_band'] =  df['Close_MA'] + (2*df['Adj Close'].rolling(20).std())
df['Inf_band'] =  df['Close_MA'] - (2*df['Adj Close'].rolling(20).std())

#Exponential Moving Mean
df['Exp20_Close'] = df['Adj Close'].ewm(span=20, adjust=False).mean()

#Expantion/Contraction de boolinger bands
df['Subtract_band'] = df['Adj Close'].rolling(20).std()


#RSI
change = df['Adj Close'].diff(1)

gain = change.mask(change<0, 0)
loss = change.mask(change>0, 0)
avg_gain = gain.ewm(min_periods=rsi_period, com=rsi_period-1).mean()
avg_loss = loss.ewm(min_periods=rsi_period, com=rsi_period-1).mean()
rs = abs(avg_gain / avg_loss)
df['RSI'] = 100 - (100/(1+rs))


#Datas que queremos achar
find_dates = ['12/30/2019','12/30/2018','12/30/2017','12/30/2016']

#Lista para as datas que achamos
dates = []

resp = requests.get(f'https://finance.yahoo.com/quote/{ticker}/financials')
#BeautifulSoup faz o scrape do codigo fonte da pagina em TXT
soup = bs.BeautifulSoup(resp.text, 'lxml')

#Quantas linhas da classe Span existe
length = np.array(soup.find_all('span')).shape[0]

#Vetor para armazenar as linhas escrito Span
lines = np.array(soup.find_all('span'))

#Lista para armazenar as linhas classe Span, para não precisar usar "BeautifulSoup(str(lines[line])).span" toda hora
spans = []

#Iterando pelas linhas no vetor armazenando as linhas classe Span
for line in range(0,length):
    spans.append(BeautifulSoup(str(lines[line])).span)

#Iterando pelas datas que queremos encontrar
for date in find_dates:
    
    #Iterando pelas linhas Span
    for line in range(0,length):
        
        #Se a linha tiver uma data que queremos, ela é adicionada as linhas que queremos encontrar
        if spans[line].string == date:
            dates.append(spans[line].string)
            break
            
#Iterando pelas datas que encontramos
for index, date in enumerate(dates): 
    
    #Mudando a formatação das datas, para encaixar com as datas do pandas webreader
    try:
        dates[index] = dt.datetime.strptime(date, "%m/%d/%Y").strftime("%Y-%m-%d") 
    
    #Se der erro na formatação é porque não se trata de uma data, então se faz um loop até esse
    #conteúdo ser removido por completo da lista
    except:
        removed = False
        while(removed == False):
            
            #dates.remove vai desparar um erro caso não tenha mais esse conteúdo na lista, assim encerrando o loop
            try:
                dates.remove(dates[index]) 
            except:
                removed = True
                
                
#Adicionando 3 dias nas datas porque a bolsa não opera nesse último dia de ano            
for index, date in enumerate(dates):
    dates[index] = (dt.datetime.strptime(date, '%Y-%m-%d') + dt.timedelta(3)).strftime('%Y-%m-%d')
                
                
#As informações que queremos encontrar     
interesting_lines =['Total Revenue',
                     'Cost of Revenue',
                     'Gross Profit',
                     'Selling General and Administrative',
                     'Total Operating Expenses',
                     'Operating Income or Loss',
                     'Interest Expense',
                     'Income Before Tax',
                     'Income Tax Expense',
                     'Income from Continuing Operations',
                     'Net Income',
                     'Net Income available to common shareholders',
                     'EBITDA']

#Lista para as informações que achamos
infos = []

#Lista para os ReactID das informações que encontramos 
number_ids = []

#Renomeando as colunas para colocar no arquivo final
column_names=['Total Revenue (TTM)',
           'Cost of Revenue (TTM)',
           'Gross Profit (TTM)',
           'Selling General and Administrative Expenses (TTM)',
           'Total Operating Expenses (TTM)',
           'Operating Income or Loss (TTM)',
           'Interest Expense (TTM)',
           'Income Before Tax (TTM)',
           'Income Tax Expense (TTM)',
           'Income from Coninuing Operations (TTM)',
           'Net Income (TTM)',
           'Net Income available to Shareholders (TTM)',
           'EBITDA (TTM)']        


#Iterando pelas informações que queremos 
for index, info in enumerate(interesting_lines):
    
    #Booleano para se a informação foi encontrada
    check = False
    
    #Iterando pelas linhas do site
    for line in range(0,length):
        
        #Se a linha tiver a informação que queremos adicionamos ela a lista de encontrados
        if spans[line].string == info:
            infos.append(spans[line].string)
            
            #E pegamos a linha abaixo que possui os números a respeito da informação
            number_ids.append(str(int(spans[line]['data-reactid'])+5))
            check = True
            pass
    
    #Caso não encontrado, a informação na lista de colunas renomeadas vira um NAN
    if check == False:
        column_names[index] = np.nan
            
    
#Removendo NANs da lista de colunas
column_names = [c for c in column_names if str(c) != 'nan']   



#Criando as novas colunas
for column in column_names:
    df[f'{column}'] = np.nan
    
#Iterando pelas datas com indexação
for index, date in enumerate(dates):   
            
    #Iterando pelas colunas com indexação
    for column, string in enumerate(column_names):
                
        #Iterando pelas linhas span
        for line in range(0,length):
                    
            #Pegando os dados para a respectativa coluna em ordem. Com base no ReactID que pegamos antes
            if spans[line]['data-reactid'] == number_ids[column]:
                 
                #Localiza a data no índice do Dataframe, formata o texto dos dados, transforma em número Integer, e então
                #aloca os dados na sua coluna e respectiva data 
                try:
                    df[f'{string}'].loc[dates[index]] = int((spans[line].string).replace(',',''))
                except Exception as e:
                    print(e)
                    print (f'Error formating/alocating string to int for stock {ticker}')
                    continue      
    
    
    #Adiciona 2 aos ReactIDs para pegar os dados das datas anteriores
    number_ids = [int(c) for c in number_ids]
    number_ids = [c+2 for c in number_ids]
    number_ids = [str(c) for c in number_ids]

        
'''
Como a função .loc só aloca os dados na fileira da respectiva data, as outras linhas vão ficar com NANs. Pra mudar isso 
usamos o método ffill para usar esses dados alocados para preencher todos os NANs futuros até encontrar o próximo valor ou
o valor mais recente, e então usa esse novo dado para preencher as próximas fileiras.
''' 
df.fillna(method='ffill', inplace=True)





>>> Testing stock: ITSA4.SA - Source: yahoo
>>>Getting Stock Data from yahoo from 2020-03-17
>>>Prepring Plot
['Total Revenue (TTM)', 'Selling General and Administrative Expenses (TTM)', 'Total Operating Expenses (TTM)', 'Interest Expense (TTM)', 'Income Before Tax (TTM)', 'Income Tax Expense (TTM)', 'Income from Coninuing Operations (TTM)', 'Net Income (TTM)', 'Net Income available to Shareholders (TTM)']


**Mostrando os dados de cada coluna para cada respectivo dia encontrado no site, mostrando que foram alocados de acordo.**

In [66]:
for date in dates:
    for column in df.columns:
        print(column)
        print(df[f'{column}'].loc[date])
        

High
14.380000114440918
Low
14.069999694824219
Open
14.140000343322754
Close
14.350000381469727
Volume
18284800.0
Adj Close
14.081748962402344
Close_MA
13.517823553085327
Sup_band
14.072112067717153
Inf_band
12.9635350384535
Exp20_Close
13.594538432577188
Subtract_band
0.2771442573159134
RSI
66.96050603091012
Total Revenue (TTM)
16763000.0
Selling General and Administrative Expenses (TTM)
4830000.0
Total Operating Expenses (TTM)
6033000.0
Interest Expense (TTM)
760000.0
Income Before Tax (TTM)
10730000.0
Income Tax Expense (TTM)
161000.0
Income from Coninuing Operations (TTM)
10569000.0
Net Income (TTM)
10312000.0
Net Income available to Shareholders (TTM)
10312000.0
High
12.699999809265137
Low
12.079999923706055
Open
12.109999656677246
Close
12.649999618530273
Volume
25162700.0
Adj Close
11.725982666015625
Close_MA
11.130927276611327
Sup_band
11.596645621719079
Inf_band
10.665208931503576
Exp20_Close
11.082832602511147
Subtract_band
0.23285917255387534
RSI
65.28674417004197
Total Reve