## Web Scraping

In [1]:
from bs4 import BeautifulSoup as BS # Retrieve data out of HTML and XML files in a tree format 
import pandas as pd # Data analysis and manipulation
import requests # Requests data from webpage using http protocol
import re # Regular expressions lib 

In [2]:
page = requests.get('https://www.fundamentus.com.br/ultimos-resultados.php')
print(page.status_code)

# Se der 403, verificar autorizações que estão no cabeçado de solicitação. Como:
# Inpecionar -> Network -> refresh page -> últimos resultados -> header
# Botão direito no "últimos resultados" -> copy -> copy as curl
# Procura no google um site que converte curl to python (https://curlconverter.com/)
# Faz a conversão e cola os dados do header no código 

403


In [3]:
headers = {
    'authority': 'www.fundamentus.com.br',
    'cache-control': 'max-age=0',
    'sec-ch-ua': '" Not;A Brand";v="99", "Google Chrome";v="97", "Chromium";v="97"',
    'sec-ch-ua-mobile': '?0',
    'sec-ch-ua-platform': '"macOS"',
    'upgrade-insecure-requests': '1',
    'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36',
    'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
    'sec-fetch-site': 'same-origin',
    'sec-fetch-mode': 'navigate',
    'sec-fetch-user': '?1',
    'sec-fetch-dest': 'document',
    'referer': 'https://www.fundamentus.com.br/',
    'accept-language': 'pt-BR,pt;q=0.9,en-US;q=0.8,en;q=0.7',
    'cookie': 'PHPSESSID=b35b6f7e4375de4017926983c7b3c3b9; __utma=138951332.603349871.1645791453.1645791453.1645791453.1; __utmc=138951332; __utmz=138951332.1645791453.1.1.utmcsr=google|utmccn=(organic)|utmcmd=organic|utmctr=(not%20provided); __utmt=1; _fbp=fb.2.1645791452965.1662452217; __gads=ID=da6343ddcbcb1019-22825324cb7b007f:T=1645791453:RT=1645791453:S=ALNI_MbwgrZR2JVeAIbqnFdd3Cdxwtha3A; __cf_bm=B_MY59FPh103xQNjwUMyd1dMabrsX2r4AsOmg7wCmi8-1645791455-0-AXVuJvcPFqziuSDjQT1PxlmxuVZylJtEHL7/tQYbfC1YyjV3HQd1MlWDgIxOZ928IQckWjnXzh5frVauVz8rqkrshCPLKdLbivXDplu6uZDiehJ9IsasC84fkO4LX4rZRQ==; __utmb=138951332.2.10.1645791453',
} 
page = requests.get('https://www.fundamentus.com.br/ultimos-resultados.php', headers=headers)

In [4]:
page.status_code

200

In [5]:
# Get page content in a better format:
source_page = BS(page.content, 'html.parser')

In [6]:
# Filter by tag using regex, [:-1] eliminates the last value
links = source_page.find_all('a', attrs={'href':re.compile('detalhes.php')})[:-1]

In [7]:
# Retorna o primeiro elemento
# print(links[0])

# Retorna o texto dentro de <a> TEXTO <\a>
# print(links[0].text) 

# Retorna o link desejado em formato json
# print(links[0].attrs['href'])

In [8]:
# Para pegar todos os links desejados e salvar em json, usar a função anônima lambda (funciona como um for)
links = list(map(lambda x:x.attrs['href'], links))
# links

In [9]:
# interar cada link na variável
def details(link):
	# print(f'O código está pegando o link: {link}')
	headers = {
		'authority': 'www.fundamentus.com.br',
		'cache-control': 'max-age=0',
		'sec-ch-ua': '" Not;A Brand";v="99", "Google Chrome";v="97", "Chromium";v="97"',
		'sec-ch-ua-mobile': '?0',
		'sec-ch-ua-platform': '"macOS"',
		'upgrade-insecure-requests': '1',
		'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36',
		'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
		'sec-fetch-site': 'same-origin',
		'sec-fetch-mode': 'navigate',
		'sec-fetch-user': '?1',
		'sec-fetch-dest': 'document',
		'referer': 'https://www.fundamentus.com.br/',
		'accept-language': 'pt-BR,pt;q=0.9,en-US;q=0.8,en;q=0.7',
		'cookie': 'PHPSESSID=b35b6f7e4375de4017926983c7b3c3b9; __utma=138951332.603349871.1645791453.1645791453.1645791453.1; __utmc=138951332; __utmz=138951332.1645791453.1.1.utmcsr=google|utmccn=(organic)|utmcmd=organic|utmctr=(not%20provided); __utmt=1; _fbp=fb.2.1645791452965.1662452217; __gads=ID=da6343ddcbcb1019-22825324cb7b007f:T=1645791453:RT=1645791453:S=ALNI_MbwgrZR2JVeAIbqnFdd3Cdxwtha3A; __cf_bm=B_MY59FPh103xQNjwUMyd1dMabrsX2r4AsOmg7wCmi8-1645791455-0-AXVuJvcPFqziuSDjQT1PxlmxuVZylJtEHL7/tQYbfC1YyjV3HQd1MlWDgIxOZ928IQckWjnXzh5frVauVz8rqkrshCPLKdLbivXDplu6uZDiehJ9IsasC84fkO4LX4rZRQ==; __utmb=138951332.2.10.1645791453',
	}
	page_data = requests.get('https://www.fundamentus.com.br/{}'.format(link), headers=headers)
	source_page_data = BS(page_data.content, 'html.parser')
	# Pega somente as tabelas
	tables = source_page_data.find_all('table')
	tables_data = {}
	for i in range(0,len(tables)):
		label = tables[i].find_all('td', attrs={'class':'label'})
		data = tables[i].find_all('td', attrs={'class':'data'})
		tables_data.update(dict(zip(list(map(lambda x:x.text.replace('?', ''), label)), list(map(lambda x:x.text.replace('\n', ''), data)))))
	return tables_data

In [10]:
data_acoes = []
for i in links:
	data_acoes.append(details(i))
len(data_acoes)

249

In [11]:
data_acoes

[{'Papel': 'GOAU4',
  'Cotação': '11,30',
  'Tipo': 'PN N1',
  'Data últ cot': '04/05/2022',
  'Empresa': 'METALÚRGICA GERDAU PN N1',
  'Min 52 sem': '9,46',
  'Setor': 'Siderurgia e Metalurgia',
  'Max 52 sem': '13,59',
  'Subsetor': 'Siderurgia',
  'Vol $ méd (2m)': '100.188.000',
  'Valor de mercado': '12.285.800.000',
  'Últ balanço processado': '31/03/2022',
  'Valor da firma': '16.676.800.000',
  'Nro. Ações': '1.087.240.000',
  'Dia': '0,00%',
  'P/L': '2,35',
  'LPA': '4,81',
  'Mês': '-0,53%',
  'P/VP': '0,84',
  'VPA': '13,47',
  '30 dias': '-6,92%',
  'P/EBIT': '0,61',
  'Marg. Bruta': '27,0%',
  '12 meses': '-5,69%',
  'PSR': '0,15',
  'Marg. EBIT': '24,4%',
  '2022': '0,17%',
  'P/Ativos': '0,17',
  'Marg. Líquida': '19,5%',
  '2021': '23,16%',
  'P/Cap. Giro': '0,59',
  'EBIT / Ativo': '27,7%',
  '2020': '23,34%',
  'P/Ativ Circ Liq': '2,14',
  'ROIC': '35,9%',
  '2019': '36,67%',
  'Div. Yield': '20,7%',
  'ROE': '35,7%',
  '2018': '23,23%',
  'EV / EBITDA': '0,74',
  'L

## Data Analysis

In [12]:
import plotly.express as px

In [13]:
df = pd.DataFrame(data_acoes)
df.head()

Unnamed: 0,Papel,Cotação,Tipo,Data últ cot,Empresa,Min 52 sem,Setor,Max 52 sem,Subsetor,Vol $ méd (2m),...,Ativo Circulante,Patrim. Líq,Receita Líquida,EBIT,Lucro Líquido,Depósitos,Cart. de Crédito,Result Int Financ,Rec Serviços,2016
0,GOAU4,1130,PN N1,04/05/2022,METALÚRGICA GERDAU PN N1,946,Siderurgia e Metalurgia,1359,Siderurgia,100.188.000,...,34.723.600.000,14.650.200.000,20.330.500.000,4.682.960.000,967.363.000,,,,,
1,GGBR4,2741,PN N1,04/05/2022,GERDAU S.A. PN N1,2215,Siderurgia e Metalurgia,3353,Siderurgia,394.184.000,...,33.919.200.000,42.328.400.000,20.330.500.000,4.686.700.000,2.924.920.000,,,,,
2,OIBR3,76,ON N1,04/05/2022,OI ON N1,69,Telecomunicações,177,Telecomunicações,56.546.900,...,46.426.100.000,-755.674.000,3.766.590.000,-2.373.100.000,-1.804.990.000,,,,,
3,ABEV3,1434,ON,04/05/2022,AMBEV S/A ON,1318,Bebidas,1895,Cervejas e Refrigerantes,373.589.000,...,34.479.800.000,78.923.100.000,18.439.200.000,3.805.230.000,3.412.770.000,,,,,
4,BPAN4,916,PN,04/05/2022,BANCO PAN PN,866,Intermediários Financeiros,2512,Bancos,60.147.800,...,,7.671.690.000,,,195.496.000,25.893.400.000,33.470.800.000,1.436.140.000,174.274.000,


In [14]:
df.columns

Index(['Papel', 'Cotação', 'Tipo', 'Data últ cot', 'Empresa', 'Min 52 sem',
       'Setor', 'Max 52 sem', 'Subsetor', 'Vol $ méd (2m)', 'Valor de mercado',
       'Últ balanço processado', 'Valor da firma', 'Nro. Ações', 'Dia', 'P/L',
       'LPA', 'Mês', 'P/VP', 'VPA', '30 dias', 'P/EBIT', 'Marg. Bruta',
       '12 meses', 'PSR', 'Marg. EBIT', '2022', 'P/Ativos', 'Marg. Líquida',
       '2021', 'P/Cap. Giro', 'EBIT / Ativo', '2020', 'P/Ativ Circ Liq',
       'ROIC', '2019', 'Div. Yield', 'ROE', '2018', 'EV / EBITDA',
       'Liquidez Corr', '2017', 'EV / EBIT', 'Div Br/ Patrim', '',
       'Cres. Rec (5a)', 'Giro Ativos', 'Ativo', 'Dív. Bruta',
       'Disponibilidades', 'Dív. Líquida', 'Ativo Circulante', 'Patrim. Líq',
       'Receita Líquida', 'EBIT', 'Lucro Líquido', 'Depósitos',
       'Cart. de Crédito', 'Result Int Financ', 'Rec Serviços', '2016'],
      dtype='object')

In [15]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 249 entries, 0 to 248
Data columns (total 61 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   Papel                   249 non-null    object
 1   Cotação                 249 non-null    object
 2   Tipo                    249 non-null    object
 3   Data últ cot            249 non-null    object
 4   Empresa                 249 non-null    object
 5   Min 52 sem              249 non-null    object
 6   Setor                   249 non-null    object
 7   Max 52 sem              249 non-null    object
 8   Subsetor                249 non-null    object
 9   Vol $ méd (2m)          249 non-null    object
 10  Valor de mercado        249 non-null    object
 11  Últ balanço processado  249 non-null    object
 12  Valor da firma          249 non-null    object
 13  Nro. Ações              249 non-null    object
 14  Dia                     249 non-null    object
 15  P/L   

In [16]:
# Muda o dtype para int e float para que possamos trabalhar com essas colunas, é preciso fazer o mesmo para as demais colunas
df['Lucro Líquido'] = df['Lucro Líquido'].str.replace('\.','',regex=True).astype('int64')
df['Cotação']       = df['Cotação'].str.replace(',','.',regex=True).astype('float')

In [17]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 249 entries, 0 to 248
Data columns (total 61 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Papel                   249 non-null    object 
 1   Cotação                 249 non-null    float64
 2   Tipo                    249 non-null    object 
 3   Data últ cot            249 non-null    object 
 4   Empresa                 249 non-null    object 
 5   Min 52 sem              249 non-null    object 
 6   Setor                   249 non-null    object 
 7   Max 52 sem              249 non-null    object 
 8   Subsetor                249 non-null    object 
 9   Vol $ méd (2m)          249 non-null    object 
 10  Valor de mercado        249 non-null    object 
 11  Últ balanço processado  249 non-null    object 
 12  Valor da firma          249 non-null    object 
 13  Nro. Ações              249 non-null    object 
 14  Dia                     249 non-null    ob

In [18]:
# Verifica tipos de ações que existem na bolsa e conta as ocorrências delas nos dados
df.Tipo.value_counts()

ON NM     101
ON         77
PN         37
PN N1       7
PNB         6
PNA         4
ON N1       3
ON N2       2
UNT N1      2
UNT N2      2
PN N2       2
PNA N1      2
UNT         1
DR3         1
ON MB       1
PNA MB      1
Name: Tipo, dtype: int64

In [19]:
# Gráfico dos tipos de ações e suas frequências
fig = px.bar(df.Tipo.value_counts(), title="Tipo de ação")
fig.update_xaxes(title_text='Tipo')
fig.update_yaxes(title_text='Quantidade')
fig.show()