## Imports

In [102]:
import io
import os.path
from scrapy import Selector
from datetime import datetime
from urllib.request import Request, urlopen

## Baixando HTML do site Fundamentus (Web Crawling)

In [103]:
# mudar o nome do papel para baixar novo HTML
papel = 'GGBR4'
url = 'https://fundamentus.com.br/detalhes.php?papel=%s' % papel

req = Request(url, headers={'User-Agent': 'Mozilla/5.0'})

response = urlopen(req, timeout=20).read()
new_html= response.decode('latin-1')

#### Verificando data do último balanço

In [104]:
sel = Selector( text = new_html )

In [105]:
data_ult_balanco_new_html = sel.xpath("//table[2]//span[@class='txt']/text()").extract()[3]
data_ult_balanco_new_html = datetime.strptime(data_ult_balanco_new_html, '%d/%m/%Y').date()
data_ult_balanco_new_html = str(data_ult_balanco_new_html)
data_ult_balanco_new_html

'2020-12-31'

In [106]:
path = '/home/hugo/Documents/Repositorios_GitHub/Projetos/02-StockData/Web_Scraping/Fundamentus_Web/'
file_name = '%s_fundamentus_%s.txt' % (papel, str(data_ult_balanco_new_html))

if os.path.isfile(path+file_name):
    print('Arquivo já existe com balanço mais atual!')
else:
    print('Arquivo com balanço atual ainda não existe!')

Arquivo já existe com balanço mais atual!


## Salvando conteúdo do HTML (em bytes) em um arquivo local como txt

In [107]:
file_name = '%s_fundamentus_%s.txt' % (papel, data_ult_balanco_new_html)

with io.open(path+file_name, 'w', encoding='utf-8') as f:
    f.write(new_html)

## Lendo conteúdo do arquivo Local e armazenando em uma variável

In [108]:
with io.open(path+file_name, 'r', encoding='utf8') as f:
    html = f.read()

## Extrair e Separar Labels dos Dados do HTML (Web Scraping)
### Tabela 1 e 2: Dados da Empresa e última cotação

In [109]:
#!pip3 install scrapy

In [110]:
sel = Selector( text = html )

In [111]:
empresa_cotacao = sel.xpath("//table[1]//span[@class='txt']/text() | //table[1]//span[@class='txt']/a/text()").extract()
valores_data_balanco = sel.xpath("//table[2]//span[@class='txt']/text()").extract()

In [183]:
empresa_label = empresa_cotacao[0::2] + valores_data_balanco[0::2]
empresa_label

['Papel',
 'Cotação',
 'Tipo',
 'Data últ cot',
 'Empresa',
 'Min 52 sem',
 'Setor',
 'Max 52 sem',
 'Subsetor',
 'Vol $ méd (2m)',
 'Valor de mercado',
 'Últ balanço processado',
 'Valor da firma',
 'Nro. Ações']

In [184]:
empresa_dados = empresa_cotacao[1::2] + valores_data_balanco[1::2]
empresa_dados

['GGBR4',
 '25,87',
 'PN N1',
 '26/02/2021',
 'GERDAU S.A. PN N1',
 '8,54',
 'Siderurgia e Metalurgia',
 '29,54',
 'Siderurgia',
 '402.679.000',
 '44.487.600.000',
 '31/12/2020',
 '54.344.600.000',
 '1.719.660.000']

In [186]:
papel = empresa_dados[0]
papel

'GGBR4'

### Tabela 3.1: Oscilações

In [13]:
sel.xpath("//table[3]//td[@class='nivel1']//span/text()").extract()[0]

'Oscilações'

In [187]:
oscilacoes_label = sel.xpath("//table[3]//td[@class='label w1']//span/text()").extract()
oscilacoes_label.insert(0, 'Papel')
oscilacoes_label

['Papel',
 'Dia',
 'Mês',
 '30 dias',
 '12 meses',
 '2021',
 '2020',
 '2019',
 '2018',
 '2017',
 '2016']

In [188]:
oscilacoes_dados = sel.xpath("//table[3]//span[@class='oscil']/font/text()").extract()
oscilacoes_dados.insert(0, papel)
oscilacoes_dados

['GGBR4',
 '-0,96%',
 '11,27%',
 '7,57%',
 '53,28%',
 '5,81%',
 '23,86%',
 '37,65%',
 '22,31%',
 '15,23%',
 '138,66%']

### Tabela 3.2: Indicadores fundamentalistas

In [16]:
sel.xpath("//table[3]//td[@class='nivel1']//span/text()").extract()[1]

'Indicadores fundamentalistas'

In [189]:
indicadores_label = sel.xpath("//table[3]//td[@class='label w2']//span[@class='txt']/text() | //table[3]//td[@class='label']//span[@class='txt']/text()").extract()
indicadores_label.insert(0, 'Papel')
indicadores_label

['Papel',
 'P/L',
 'LPA',
 'P/VP',
 'VPA',
 'P/EBIT',
 'Marg. Bruta',
 'PSR',
 'Marg. EBIT',
 'P/Ativos',
 'Marg. Líquida',
 'P/Cap. Giro',
 'EBIT / Ativo',
 'P/Ativ Circ Liq',
 'ROIC',
 'Div. Yield',
 'ROE',
 'EV / EBITDA',
 'Liquidez Corr',
 'EV / EBIT',
 'Div Br/ Patrim',
 'Cres. Rec (5a)',
 'Giro Ativos']

In [190]:
# Os dado estão vindo irregulares, com \n na frente de alguns valores
indicadores_dados = sel.xpath("//table[3]//td[@class='data w2']//span[@class='txt']/text() | //table[3]//td[@class='data']//span[@class='txt']/text()").extract()
indicadores_dados.insert(0, papel)
indicadores_dados

['GGBR4',
 '18,80',
 '1,38',
 '1,44',
 '17,95',
 '\n10,11',
 '\n13,5%',
 '\n1,02',
 '\n10,0%',
 '\n0,70',
 '\n5,5%',
 '\n3,73',
 '7,0%',
 '\n-5,16',
 '\n8,8%',
 '1,2%',
 '\n7,7%',
 '\n7,94',
 '\n2,04',
 '\n12,35',
 '\n0,57',
 '\n3,8%',
 '\n0,69']

In [191]:
# Limpando os valores, removendo os caracteres irregulares (\n)
nova_list = []
for valor in indicadores_dados:
    nova_list.append(valor.replace("\n", ""))
    
indicadores_dados = nova_list
indicadores_dados

['GGBR4',
 '18,80',
 '1,38',
 '1,44',
 '17,95',
 '10,11',
 '13,5%',
 '1,02',
 '10,0%',
 '0,70',
 '5,5%',
 '3,73',
 '7,0%',
 '-5,16',
 '8,8%',
 '1,2%',
 '7,7%',
 '7,94',
 '2,04',
 '12,35',
 '0,57',
 '3,8%',
 '0,69']

### Tabela 4: Dados Balanço Patrimonial

In [20]:
sel.xpath("//table[4]//td[@class='nivel1']//span/text()").extract()[0]

'Dados Balanço Patrimonial'

In [192]:
balanco_patrimonial_label = sel.xpath("//table[4]//td[@class='label w2']//span[@class='txt']/text() | //table[4]//td[@class='label']//span[@class='txt']/text()").extract()
balanco_patrimonial_label.insert(0, 'Papel')
balanco_patrimonial_label

['Papel',
 'Ativo',
 'Dív. Bruta',
 'Disponibilidades',
 'Dív. Líquida',
 'Ativo Circulante',
 'Patrim. Líq']

In [193]:
balanco_patrimonial_dados = sel.xpath("//table[4]//td[@class='data w3']//span[@class='txt']/text() | //table[4]//td[@class='data']//span[@class='txt']/text()").extract()
balanco_patrimonial_dados.insert(0, papel)
balanco_patrimonial_dados

['GGBR4',
 '63.123.000.000',
 '17.515.400.000',
 '7.658.350.000',
 '9.857.000.000',
 '23.409.500.000',
 '30.860.300.000']

### Tabela 5.1: Demonstrativos de Resultados - Últimos 12 meses

In [194]:
sel.xpath("//table[5]//td[@class='nivel1']//span/text()").extract()[0]

'Dados demonstrativos de resultados'

In [195]:
sel.xpath("//table[5]//td[@class='nivel2 w5']//span/text()").extract()[0]

'Últimos 12 meses'

In [196]:
sel.xpath("//table[5]//td[@class='nivel2 w5']//span/text()").extract()[1]

'Últimos 3 meses'

In [198]:
demonstrativo_resultados_label = sel.xpath("//table[5]//td[@class='label w2']//span[@class='txt']/text() | //table[5]//td[@class='label']//span[@class='txt']/text()").extract()[0::2]
demonstrativo_resultados_label.insert(0, 'Papel')
demonstrativo_resultados_label

['Papel', 'Receita Líquida', 'EBIT', 'Lucro Líquido']

In [199]:
demonstrativo_resultados_12_meses = sel.xpath("//table[5]//td[@class='data w3']//span[@class='txt']/text() | //table[5]//td[@class='data']//span[@class='txt']/text()").extract()[0::2]
demonstrativo_resultados_12_meses.insert(0, papel)
demonstrativo_resultados_12_meses

['GGBR4', '43.814.700.000', '4.400.170.000', '2.365.760.000']

In [200]:
demonstrativo_resultados_3_meses = sel.xpath("//table[5]//td[@class='data w3']//span[@class='txt']/text() | //table[5]//td[@class='data']//span[@class='txt']/text()").extract()[1::2]
demonstrativo_resultados_3_meses.insert(0, papel)
demonstrativo_resultados_3_meses

['GGBR4', '13.620.200.000', '2.176.850.000', '1.048.330.000']

# Removendo caracteres especiais dos Labels

In [156]:
empresa_label

['Papel',
 'Cotação',
 'Tipo',
 'Data últ cot',
 'Empresa',
 'Min 52 sem',
 'Setor',
 'Max 52 sem',
 'Subsetor',
 'Vol $ méd (2m)',
 'Valor de mercado',
 'Últ balanço processado',
 'Valor da firma',
 'Nro. Ações']

In [157]:
from unicodedata import normalize
def remover_acentos(txt):
    return normalize('NFKD', txt).encode('ASCII', 'ignore').decode('ASCII')

if __name__ == '__main__':
    from doctest import testmod
    testmod()

In [159]:
empresa_label = list(map(lambda x: remover_acentos(x), empresa_label))
empresa_label = list(map(lambda st: str.replace(st, " ","_"), empresa_label))
empresa_label = list(map(lambda st: str.replace(st, "(",""), empresa_label))
empresa_label = list(map(lambda st: str.replace(st, ")",""), empresa_label))
empresa_label

['Papel',
 'Cotacao',
 'Tipo',
 'Data_ult_cot',
 'Empresa',
 'Min_52_sem',
 'Setor',
 'Max_52_sem',
 'Subsetor',
 'Vol_$_med_2m',
 'Valor_de_mercado',
 'Ult_balanco_processado',
 'Valor_da_firma',
 'Nro._Acoes']

In [160]:
empresa_dados

['GGBR4',
 '25,87',
 'PN N1',
 '26/02/2021',
 'GERDAU S.A. PN N1',
 '8,54',
 'Siderurgia e Metalurgia',
 '29,54',
 'Siderurgia',
 '402.679.000',
 '44.487.600.000',
 '31/12/2020',
 '54.344.600.000',
 '1.719.660.000']

In [161]:
# Dados precisam ser uma lista de tuples
empresa_dados_list = []
empresa_dados_list.append(tuple(empresa_dados))
empresa_dados_list

[('GGBR4',
  '25,87',
  'PN N1',
  '26/02/2021',
  'GERDAU S.A. PN N1',
  '8,54',
  'Siderurgia e Metalurgia',
  '29,54',
  'Siderurgia',
  '402.679.000',
  '44.487.600.000',
  '31/12/2020',
  '54.344.600.000',
  '1.719.660.000')]

# Acesso ao HDFS server (Write and Read)

In [162]:
#!pip3 install pyspark

In [163]:
from pyspark.sql import SparkSession
sparkSession = SparkSession.builder.appName("example-pyspark-read-and-write").getOrCreate()

In [164]:
sparkSession.createDataFrame(empresa_dados_list).collect()

[Row(_1='GGBR4', _2='25,87', _3='PN N1', _4='26/02/2021', _5='GERDAU S.A. PN N1', _6='8,54', _7='Siderurgia e Metalurgia', _8='29,54', _9='Siderurgia', _10='402.679.000', _11='44.487.600.000', _12='31/12/2020', _13='54.344.600.000', _14='1.719.660.000')]

In [175]:
sparkSession.createDataFrame(empresa_dados_list, empresa_label).collect()

[Row(Papel='GGBR4', Cotacao='25,87', Tipo='PN N1', Data_ult_cot='26/02/2021', Empresa='GERDAU S.A. PN N1', Min_52_sem='8,54', Setor='Siderurgia e Metalurgia', Max_52_sem='29,54', Subsetor='Siderurgia', Vol_$_med_2m='402.679.000', Valor_de_mercado='44.487.600.000', Ult_balanco_processado='31/12/2020', Valor_da_firma='54.344.600.000', Nro._Acoes='1.719.660.000')]

In [176]:
df = sparkSession.createDataFrame(empresa_dados_list, empresa_label)
df

DataFrame[Papel: string, Cotacao: string, Tipo: string, Data_ult_cot: string, Empresa: string, Min_52_sem: string, Setor: string, Max_52_sem: string, Subsetor: string, Vol_$_med_2m: string, Valor_de_mercado: string, Ult_balanco_processado: string, Valor_da_firma: string, Nro._Acoes: string]

In [177]:
type(df)

pyspark.sql.dataframe.DataFrame

In [178]:
df.show()

+-----+-------+-----+------------+-----------------+----------+--------------------+----------+----------+------------+----------------+----------------------+--------------+-------------+
|Papel|Cotacao| Tipo|Data_ult_cot|          Empresa|Min_52_sem|               Setor|Max_52_sem|  Subsetor|Vol_$_med_2m|Valor_de_mercado|Ult_balanco_processado|Valor_da_firma|   Nro._Acoes|
+-----+-------+-----+------------+-----------------+----------+--------------------+----------+----------+------------+----------------+----------------------+--------------+-------------+
|GGBR4|  25,87|PN N1|  26/02/2021|GERDAU S.A. PN N1|      8,54|Siderurgia e Meta...|     29,54|Siderurgia| 402.679.000|  44.487.600.000|            31/12/2020|54.344.600.000|1.719.660.000|
+-----+-------+-----+------------+-----------------+----------+--------------------+----------+----------+------------+----------------+----------------------+--------------+-------------+



### Necessário configurar a versão do Python utilizada pelo Linux como a 3.6.
* sudo update-alternatives --install /usr/bin/python python /usr/bin/python3.4 1
* sudo update-alternatives --install /usr/bin/python python /usr/bin/python3.6 2
* sudo update-alternatives --config python
* sudo update-alternatives  --set python /usr/bin/python3.6

In [179]:
# Write into HDFS
# hdfs://hadoop-master:9000/user/hadoopuser/test/
df.write.save('hdfs://172.17.177.40:9000/user/hadoopuser/fundamentus/detalhes/dados_empresa', format='parquet', mode='append')

In [180]:
df_load = sparkSession.read.format('parquet').load('hdfs://172.17.177.40:9000/user/hadoopuser/fundamentus/detalhes/dados_empresa')

In [181]:
df_load.show()

+-----+-------+-----+------------+-----------------+----------+--------------------+----------+----------+------------+----------------+----------------------+--------------+-------------+
|Papel|Cotacao| Tipo|Data_ult_cot|          Empresa|Min_52_sem|               Setor|Max_52_sem|  Subsetor|Vol_$_med_2m|Valor_de_mercado|Ult_balanco_processado|Valor_da_firma|   Nro._Acoes|
+-----+-------+-----+------------+-----------------+----------+--------------------+----------+----------+------------+----------------+----------------------+--------------+-------------+
|GGBR4|  25,87|PN N1|  26/02/2021|GERDAU S.A. PN N1|      8,54|Siderurgia e Meta...|     29,54|Siderurgia| 402.679.000|  44.487.600.000|            31/12/2020|54.344.600.000|1.719.660.000|
+-----+-------+-----+------------+-----------------+----------+--------------------+----------+----------+------------+----------------+----------------------+--------------+-------------+



In [182]:
df_load.toPandas()

Unnamed: 0,Papel,Cotacao,Tipo,Data_ult_cot,Empresa,Min_52_sem,Setor,Max_52_sem,Subsetor,Vol_$_med_2m,Valor_de_mercado,Ult_balanco_processado,Valor_da_firma,Nro._Acoes
0,GGBR4,2587,PN N1,26/02/2021,GERDAU S.A. PN N1,854,Siderurgia e Metalurgia,2954,Siderurgia,402.679.000,44.487.600.000,31/12/2020,54.344.600.000,1.719.660.000
