## Baixando HTML do site Fundamentus (Web Crawling)

In [1]:
from urllib.request import Request, urlopen

url = 'https://fundamentus.com.br/detalhes.php?papel=PETR4'

req = Request(url, headers={'User-Agent': 'Mozilla/5.0'})

response = urlopen(req, timeout=20).read()
html_output = response.decode('latin-1')

## Salvando conteúdo do HTML (em bytes) em um arquivo local

In [2]:
import io

with io.open('PETR4_fundamentus.html', 'w', encoding='utf-8') as f:
    f.write(html_output)

## Lendo conteúdo do arquivo Local e armazenando em uma variável

In [3]:
import io

with io.open('PETR4_fundamentus.html', 'r', encoding='utf8') as f:
    html = f.read()

## Extrair e Separar Labels dos Dados do HTML (Web Scraping)
### Tabela 1 e 2: Dados da Empresa e última cotação

In [4]:
from scrapy import Selector

sel = Selector( text = html )

In [5]:
empresa_cotacao = sel.xpath("//table[1]//span[@class='txt']/text() | //table[1]//span[@class='txt']/a/text()").extract()
valores_data_balanco = sel.xpath("//table[2]//span[@class='txt']/text()").extract()

In [6]:
empresa_label = empresa_cotacao[0::2] + valores_data_balanco[0::2]
empresa_label

['Papel',
 'Cotação',
 'Tipo',
 'Data últ cot',
 'Empresa',
 'Min 52 sem',
 'Setor',
 'Max 52 sem',
 'Subsetor',
 'Vol $ méd (2m)',
 'Valor de mercado',
 'Últ balanço processado',
 'Valor da firma',
 'Nro. Ações']

In [7]:
empresa_dados = empresa_cotacao[1::2] + valores_data_balanco[1::2]
empresa_dados

['PETR4',
 '29,02',
 'PN',
 '05/02/2021',
 'PETROBRAS PN',
 '11,29',
 'Petróleo, Gás e Biocombustíveis',
 '31,12',
 'Exploração e/ou Refino e Distribuição',
 '1.773.200.000',
 '378.551.000.000',
 '30/09/2020',
 '752.063.000.000',
 '13.044.500.000']

### Tabela 3.1: Oscilações

In [8]:
sel.xpath("//table[3]//td[@class='nivel1']//span/text()").extract()[0]

'Oscilações'

In [9]:
oscilacoes_label = sel.xpath("//table[3]//td[@class='label w1']//span/text()").extract()
oscilacoes_label

['Dia',
 'Mês',
 '30 dias',
 '12 meses',
 '2021',
 '2020',
 '2019',
 '2018',
 '2017',
 '2016']

In [10]:
oscilacoes_dados = sel.xpath("//table[3]//span[@class='oscil']/font/text()").extract()
oscilacoes_dados

['0,69%',
 '8,73%',
 '-3,40%',
 '2,22%',
 '2,40%',
 '-6,10%',
 '36,87%',
 '45,91%',
 '8,29%',
 '116,23%']

### Tabela 3.2: Indicadores fundamentalistas

In [11]:
sel.xpath("//table[3]//td[@class='nivel1']//span/text()").extract()[1]

'Indicadores fundamentalistas'

In [12]:
indicadores_label = sel.xpath("//table[3]//td[@class='label w2']//span[@class='txt']/text() | //table[3]//td[@class='label']//span[@class='txt']/text()").extract()
indicadores_label

['P/L',
 'LPA',
 'P/VP',
 'VPA',
 'P/EBIT',
 'Marg. Bruta',
 'PSR',
 'Marg. EBIT',
 'P/Ativos',
 'Marg. Líquida',
 'P/Cap. Giro',
 'EBIT / Ativo',
 'P/Ativ Circ Liq',
 'ROIC',
 'Div. Yield',
 'ROE',
 'EV / EBITDA',
 'Liquidez Corr',
 'EV / EBIT',
 'Div Br/ Patrim',
 'Cres. Rec (5a)',
 'Giro Ativos']

In [13]:
# Os dado estão vindo irregulares, com \n na frente de alguns valores
indicadores_dados = sel.xpath("//table[3]//td[@class='data w2']//span[@class='txt']/text() | //table[3]//td[@class='data']//span[@class='txt']/text()").extract()
indicadores_dados

['-8,48',
 '-3,42',
 '1,53',
 '18,99',
 '\n4,29',
 '\n44,1%',
 '\n1,40',
 '\n32,7%',
 '\n0,39',
 '\n-16,9%',
 '\n34,61',
 '9,1%',
 '\n-0,67',
 '\n10,2%',
 '0,0%',
 '\n-18,0%',
 '\n4,88',
 '\n1,08',
 '\n8,52',
 '\n1,81',
 '\n-0,4%',
 '\n0,28']

In [14]:
# Limpando os valores, removendo os caracteres irregulares (\n)
nova_list = []
for valor in indicadores_dados:
    nova_list.append(valor.replace("\n", ""))
    
indicadores_dados = nova_list
indicadores_dados

['-8,48',
 '-3,42',
 '1,53',
 '18,99',
 '4,29',
 '44,1%',
 '1,40',
 '32,7%',
 '0,39',
 '-16,9%',
 '34,61',
 '9,1%',
 '-0,67',
 '10,2%',
 '0,0%',
 '-18,0%',
 '4,88',
 '1,08',
 '8,52',
 '1,81',
 '-0,4%',
 '0,28']

### Tabela 4: Dados Balanço Patrimonial