## Web Scraping

In [1]:
from bs4 import BeautifulSoup as BS # Retrieve data out of HTML and XML files in a tree format 
import pandas as pd # Data analysis and manipulation
import requests # Requests data from webpage using http protocol
import re # Regular expressions lib 

In [2]:
page = requests.get('https://www.fundamentus.com.br/ultimos-resultados.php')
print(page.status_code)

# Se der 403, verificar autorizações que estão no cabeçado de solicitação. Como:
# Inpecionar -> Network -> refresh page -> últimos resultados -> header
# Botão direito no "últimos resultados" -> copy -> copy as curl
# Procura no google um site que converte curl to python (https://curlconverter.com/)
# Faz a conversão e cola os dados do header no código

403


In [3]:
headers = {
    'authority': 'www.fundamentus.com.br',
    'cache-control': 'max-age=0',
    'sec-ch-ua': '" Not;A Brand";v="99", "Google Chrome";v="97", "Chromium";v="97"',
    'sec-ch-ua-mobile': '?0',
    'sec-ch-ua-platform': '"macOS"',
    'upgrade-insecure-requests': '1',
    'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36',
    'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
    'sec-fetch-site': 'same-origin',
    'sec-fetch-mode': 'navigate',
    'sec-fetch-user': '?1',
    'sec-fetch-dest': 'document',
    'referer': 'https://www.fundamentus.com.br/',
    'accept-language': 'pt-BR,pt;q=0.9,en-US;q=0.8,en;q=0.7',
    'cookie': 'PHPSESSID=b35b6f7e4375de4017926983c7b3c3b9; __utma=138951332.603349871.1645791453.1645791453.1645791453.1; __utmc=138951332; __utmz=138951332.1645791453.1.1.utmcsr=google|utmccn=(organic)|utmcmd=organic|utmctr=(not%20provided); __utmt=1; _fbp=fb.2.1645791452965.1662452217; __gads=ID=da6343ddcbcb1019-22825324cb7b007f:T=1645791453:RT=1645791453:S=ALNI_MbwgrZR2JVeAIbqnFdd3Cdxwtha3A; __cf_bm=B_MY59FPh103xQNjwUMyd1dMabrsX2r4AsOmg7wCmi8-1645791455-0-AXVuJvcPFqziuSDjQT1PxlmxuVZylJtEHL7/tQYbfC1YyjV3HQd1MlWDgIxOZ928IQckWjnXzh5frVauVz8rqkrshCPLKdLbivXDplu6uZDiehJ9IsasC84fkO4LX4rZRQ==; __utmb=138951332.2.10.1645791453',
} 
page = requests.get('https://www.fundamentus.com.br/ultimos-resultados.php', headers=headers)

In [4]:
page.status_code

200

In [5]:
# Get page content in a better format:
source_page = BS(page.content, 'html.parser')

In [6]:
# Filter by tag using regex, [:-1] eliminates the last value
links = source_page.find_all('a', attrs={'href':re.compile('detalhes.php')})[:-1]

In [7]:
# Retorna o primeiro elemento
# print(links[0])

# Retorna o texto dentro de <a> TEXTO <\a>
# print(links[0].text) 

# Retorna o link desejado em formato json
# print(links[0].attrs['href'])

In [8]:
# Para pegar todos os links desejados e salvar em json, usar a função anônima lambda (funciona como um for)
links = list(map(lambda x:x.attrs['href'], links))
# links

In [9]:
# interar cada link na variável
def details(link):
	# print(f'O código está pegando o link: {link}')
	headers = {
		'authority': 'www.fundamentus.com.br',
		'cache-control': 'max-age=0',
		'sec-ch-ua': '" Not;A Brand";v="99", "Google Chrome";v="97", "Chromium";v="97"',
		'sec-ch-ua-mobile': '?0',
		'sec-ch-ua-platform': '"macOS"',
		'upgrade-insecure-requests': '1',
		'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36',
		'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
		'sec-fetch-site': 'same-origin',
		'sec-fetch-mode': 'navigate',
		'sec-fetch-user': '?1',
		'sec-fetch-dest': 'document',
		'referer': 'https://www.fundamentus.com.br/',
		'accept-language': 'pt-BR,pt;q=0.9,en-US;q=0.8,en;q=0.7',
		'cookie': 'PHPSESSID=b35b6f7e4375de4017926983c7b3c3b9; __utma=138951332.603349871.1645791453.1645791453.1645791453.1; __utmc=138951332; __utmz=138951332.1645791453.1.1.utmcsr=google|utmccn=(organic)|utmcmd=organic|utmctr=(not%20provided); __utmt=1; _fbp=fb.2.1645791452965.1662452217; __gads=ID=da6343ddcbcb1019-22825324cb7b007f:T=1645791453:RT=1645791453:S=ALNI_MbwgrZR2JVeAIbqnFdd3Cdxwtha3A; __cf_bm=B_MY59FPh103xQNjwUMyd1dMabrsX2r4AsOmg7wCmi8-1645791455-0-AXVuJvcPFqziuSDjQT1PxlmxuVZylJtEHL7/tQYbfC1YyjV3HQd1MlWDgIxOZ928IQckWjnXzh5frVauVz8rqkrshCPLKdLbivXDplu6uZDiehJ9IsasC84fkO4LX4rZRQ==; __utmb=138951332.2.10.1645791453',
	}
	page_data = requests.get('https://www.fundamentus.com.br/{}'.format(link), headers=headers)
	source_page_data = BS(page_data.content, 'html.parser')
	# Pega somente as tabelas
	tables = source_page_data.find_all('table')
	tables_data = {}
	for i in range(0,len(tables)):
		label = tables[i].find_all('td', attrs={'class':'label'})
		data = tables[i].find_all('td', attrs={'class':'data'})
		tables_data.update(dict(zip(list(map(lambda x:x.text.replace('?', ''), label)), list(map(lambda x:x.text.replace('\n', ''), data)))))
	return tables_data

In [10]:
data_acoes = []
for i in links:
	data_acoes.append(details(i))
len(data_acoes)

250

In [11]:
data_acoes

[{'Papel': 'ELET3',
  'Cotação': '35,06',
  'Tipo': 'ON',
  'Data últ cot': '18/03/2022',
  'Empresa': 'ELETROBRÁS ON',
  'Min 52 sem': '29,48',
  'Setor': 'Energia Elétrica',
  'Max 52 sem': '47,57',
  'Subsetor': 'Energia Elétrica',
  'Vol $ méd (2m)': '148.007.000',
  'Valor de mercado': '55.006.700.000',
  'Últ balanço processado': '31/12/2021',
  'Valor da firma': '81.547.800.000',
  'Nro. Ações': '1.568.930.000',
  'Dia': '2,82%',
  'P/L': '9,74',
  'LPA': '3,60',
  'Mês': '0,83%',
  'P/VP': '0,72',
  'VPA': '48,52',
  '30 dias': '1,18%',
  'P/EBIT': '10,76',
  'Marg. Bruta': '68,2%',
  '12 meses': '6,51%',
  'PSR': '1,46',
  'Marg. EBIT': '13,6%',
  '2022': '4,94%',
  'P/Ativos': '0,29',
  'Marg. Líquida': '15,2%',
  '2021': '-2,00%',
  'P/Cap. Giro': '3,47',
  'EBIT / Ativo': '2,7%',
  '2020': '1,11%',
  'P/Ativ Circ Liq': '-0,76',
  'ROIC': '3,1%',
  '2019': '59,97%',
  'Div. Yield': '2,7%',
  'ROE': '7,4%',
  '2018': '25,29%',
  'EV / EBITDA': '11,33',
  'Liquidez Corr': '1,6

## Data Analysis

In [12]:
import plotly.express as px

In [13]:
df = pd.DataFrame(data_acoes)
df.head()

Unnamed: 0,Papel,Cotação,Tipo,Data últ cot,Empresa,Min 52 sem,Setor,Max 52 sem,Subsetor,Vol $ méd (2m),...,Dív. Líquida,Ativo Circulante,Patrim. Líq,Receita Líquida,EBIT,Lucro Líquido,Depósitos,Cart. de Crédito,Result Int Financ,Rec Serviços
0,ELET3,3506,ON,18/03/2022,ELETROBRÁS ON,2948,Energia Elétrica,4757,Energia Elétrica,148.007.000,...,26.541.100.000,39.745.000.000,76.121.200.000,11.491.900.000,1.128.840.000,602.357.000,,,,
1,TELB4,1336,PN,18/03/2022,TELEBRAS PN,1275,Telecomunicações,3465,Telecomunicações,86.504,...,-886.137.000,1.457.060.000,1.430.760.000,86.412.000,-67.089.000,-16.630.000,,,,
2,JFEN3,113,ON,18/03/2022,JOÃO FORTES ENGENHARIA S.A. ON,93,Construção Civil,650,Incorporações,397.637,...,572.039.000,1.008.410.000,-558.856.000,17.020.000,-57.310.000,-75.189.000,,,,
3,MDIA3,2127,ON NM,18/03/2022,M.DIASBRANCO ON NM,1900,Alimentos Processados,3151,Alimentos Diversos,45.965.700,...,195.168.000,4.443.030.000,7.032.290.000,2.164.530.000,113.943.000,151.042.000,,,,
4,CGRA4,3702,PN,18/03/2022,GRAZZIOTIN PN,2606,Comércio,4911,"Tecidos, Vestuário e Calçados",236.430,...,-35.429.000,528.449.000,747.610.000,189.008.000,38.453.900,21.137.000,,,,


In [14]:
df.columns

Index(['Papel', 'Cotação', 'Tipo', 'Data últ cot', 'Empresa', 'Min 52 sem',
       'Setor', 'Max 52 sem', 'Subsetor', 'Vol $ méd (2m)', 'Valor de mercado',
       'Últ balanço processado', 'Valor da firma', 'Nro. Ações', 'Dia', 'P/L',
       'LPA', 'Mês', 'P/VP', 'VPA', '30 dias', 'P/EBIT', 'Marg. Bruta',
       '12 meses', 'PSR', 'Marg. EBIT', '2022', 'P/Ativos', 'Marg. Líquida',
       '2021', 'P/Cap. Giro', 'EBIT / Ativo', '2020', 'P/Ativ Circ Liq',
       'ROIC', '2019', 'Div. Yield', 'ROE', '2018', 'EV / EBITDA',
       'Liquidez Corr', '2017', 'EV / EBIT', 'Div Br/ Patrim', '',
       'Cres. Rec (5a)', 'Giro Ativos', 'Ativo', 'Dív. Bruta',
       'Disponibilidades', 'Dív. Líquida', 'Ativo Circulante', 'Patrim. Líq',
       'Receita Líquida', 'EBIT', 'Lucro Líquido', 'Depósitos',
       'Cart. de Crédito', 'Result Int Financ', 'Rec Serviços'],
      dtype='object')

In [15]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 250 entries, 0 to 249
Data columns (total 60 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   Papel                   250 non-null    object
 1   Cotação                 250 non-null    object
 2   Tipo                    250 non-null    object
 3   Data últ cot            250 non-null    object
 4   Empresa                 250 non-null    object
 5   Min 52 sem              250 non-null    object
 6   Setor                   250 non-null    object
 7   Max 52 sem              250 non-null    object
 8   Subsetor                250 non-null    object
 9   Vol $ méd (2m)          250 non-null    object
 10  Valor de mercado        250 non-null    object
 11  Últ balanço processado  250 non-null    object
 12  Valor da firma          250 non-null    object
 13  Nro. Ações              250 non-null    object
 14  Dia                     250 non-null    object
 15  P/L   

In [16]:
# Muda o dtype para int e float para que possamos trabalhar com essas colunas, é preciso fazer o mesmo para as demais colunas
df['Lucro Líquido'] = df['Lucro Líquido'].str.replace('\.','',regex=True).astype('int64')
df['Cotação']       = df['Cotação'].str.replace(',','.',regex=True).astype('float')

In [17]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 250 entries, 0 to 249
Data columns (total 60 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Papel                   250 non-null    object 
 1   Cotação                 250 non-null    float64
 2   Tipo                    250 non-null    object 
 3   Data últ cot            250 non-null    object 
 4   Empresa                 250 non-null    object 
 5   Min 52 sem              250 non-null    object 
 6   Setor                   250 non-null    object 
 7   Max 52 sem              250 non-null    object 
 8   Subsetor                250 non-null    object 
 9   Vol $ méd (2m)          250 non-null    object 
 10  Valor de mercado        250 non-null    object 
 11  Últ balanço processado  250 non-null    object 
 12  Valor da firma          250 non-null    object 
 13  Nro. Ações              250 non-null    object 
 14  Dia                     250 non-null    ob

In [18]:
# Verifica tipos de ações que existem na bolsa e conta as ocorrências delas nos dados
df.Tipo.value_counts()

ON NM     107
ON         73
PN         30
PN N1      10
UNT N2      8
PNA         4
PN N2       4
UNT         3
ON N1       2
PNA N1      2
PNB         2
ON N2       2
UNT N1      1
DR3         1
PNAS        1
Name: Tipo, dtype: int64

In [19]:
# Gráfico dos tipos de ações e suas frequências
fig = px.bar(df.Tipo.value_counts(), title="Tipo de ação")
fig.update_xaxes(title_text='Tipo')
fig.update_yaxes(title_text='Quantidade')
fig.show()