## Imports

In [98]:
import io
import os.path
from scrapy import Selector
from datetime import datetime
from unicodedata import normalize
from urllib.request import Request, urlopen

## Baixando HTML do site Fundamentus (Web Crawling)

In [92]:
# mudar o nome do papel para baixar novo HTML
papel = 'PETR4'
url = 'https://fundamentus.com.br/detalhes.php?papel=%s' % papel

req = Request(url, headers={'User-Agent': 'Mozilla/5.0'})

response = urlopen(req, timeout=20).read()
html_dados = response.decode('latin-1')

In [93]:
sel = Selector( text = html_dados )

## Funções para transformar os dados e labels

In [99]:
def remover_acentos(txt):
    return normalize('NFKD', txt).encode('ASCII', 'ignore').decode('ASCII')

if __name__ == '__main__':
    from doctest import testmod
    testmod()

In [100]:
def remover_caracteres_especiais(empresa_label):
    empresa_label = list(map(lambda x: remover_acentos(x), empresa_label))
    empresa_label = list(map(lambda st: str.replace(st, " ","_"), empresa_label))
    empresa_label = list(map(lambda st: str.replace(st, "(",""), empresa_label))
    empresa_label = list(map(lambda st: str.replace(st, ")",""), empresa_label))
    empresa_label = list(map(lambda st: str.replace(st, ".",""), empresa_label))
    return empresa_label

In [107]:
def validar_data(valor):
    try:
        valor = datetime.strptime(valor, '%d/%m/%Y')
        return valor
    except TypeError:
        return valor

In [102]:
def formatar_tipagem_dados(empresa_dados):
    empresa_dados = list(map(lambda st: str.replace(st, ",","."), empresa_dados))
    
    nova_lista_empresa_dados = []
    for valor in empresa_dados:
        eh_valor_percentual = valor.endswith('%')
        
        if eh_valor_percentual:
            nova_lista_empresa_dados.append(valor)
        elif "/" in valor:
            nova_lista_empresa_dados.append(validar_data(valor))
        elif not eh_valor_percentual:
            try:
                nova_lista_empresa_dados.append(float(valor))
            except ValueError:
                nova_lista_empresa_dados.append(valor)
    
    return nova_lista_empresa_dados

In [103]:
def transformar_lista_em_tuples(empresa_dados):
    empresa_dados_list = []
    empresa_dados_list.append(tuple(empresa_dados))
    return empresa_dados_list

## Pegando nome do papel, data última cotação e data último balanço

In [94]:
papel = sel.xpath("//table[1]//span[@class='txt']/text()").extract()[1]
papel

'PETR4'

In [108]:
data_ult_cotacao = sel.xpath("//table[1]//span[@class='txt']/text() | //table[1]//span[@class='txt']/a/text()").extract()[7]
data_ult_cotacao = validar_data(data_ult_cotacao)
data_ult_cotacao

datetime.datetime(2021, 3, 5, 0, 0)

In [109]:
data_ult_balanco = sel.xpath("//table[2]//span[@class='txt']/text()").extract()[3]
data_ult_balanco = validar_data(data_ult_balanco)
data_ult_balanco

datetime.datetime(2020, 12, 31, 0, 0)

## Verificação se já existe os dados:
* Verificar se o papel já existe nos dados gravados
    * Se não existir, inserir dados da empresa, dados de cotação e dados do balanço
    * Se existir, verificar se a cotação mais atual já existe
    * Se existir, verificar se o balanço mais atual já existe
* Verificando se a cotaçao mais atual já existe
    * Se não existir, inserir dados da cotação atualizado
    * Se existir, não fazer nada
* Verificando se o balanço mais atual já existe
    * Se não existir, inserir dados do balanço atualizado
    * Se existir, não fazer nada

### Conexão com o MongoDB

In [84]:
from pymongo import MongoClient

cliente = MongoClient('localhost', 27017)
cliente = MongoClient('mongodb://localhost:27017/')
banco = cliente['fundamentus']

In [136]:
def dados_empresa_existe(papel, banco):
    colecao = banco.dados_empresa
    dados_empresa_existe = colecao.find_one({"Papel": papel})
    if dados_empresa_existe is None:
        return False
    else:
        return True

In [137]:
def ultima_cotacao_existe(papel, data_ult_cotacao, banco):
    colecao = banco.cotacao
    ultima_cotacao_existe = colecao.find_one({"Papel": papel, "Data_ult_cot":data_ult_cotacao})
    if ultima_cotacao_existe is None:
        return False
    else:
        return True

In [138]:
def ultimo_balanco_existe(papel, data_ult_balanco, banco):
    colecao = banco.balanco
    ultimo_balanco_existe = colecao.find_one({"Papel": papel, "Ult_balanco_processado":data_ult_balanco})
    if ultimo_balanco_existe is None:
        return False
    else:
        return True

In [139]:
if not dados_empresa_existe(papel, banco):
    pass
    # ADICIONAR DADOS DA EMPRESA
elif not ultima_cotacao_existe(papel, data_ult_cotacao, banco):
    pass
    # ADICIONAR DADOS DA ÚLTIMA COTAÇÃO
    # ADICIONAR DADOS DA ÚLTIMA OSCILAÇÃO
    # ADICIONAR DADOS DOS ÚLTIMOS INDICADORES FUNDAMENTALISTAS
elif not ultimo_balanco_existe(papel, data_ult_balanco, banco):
    pass
    # ADICIONAR DADOS DO ÚLTIMO BALANÇO

## Incluindo Dados da Empresa (caso ainda não exista)

In [12]:
info_empresa_label = sel.xpath("//table[1]//span[@class='txt']/text() | //table[1]//span[@class='txt']/a/text()").extract()[0::2][0::2]
info_empresa_label = remover_caracteres_especiais(info_empresa_label)
info_empresa_label

['Papel', 'Tipo', 'Empresa', 'Setor', 'Subsetor']

In [13]:
info_empresa_dados = sel.xpath("//table[1]//span[@class='txt']/text() | //table[1]//span[@class='txt']/a/text()").extract()[1::2][0::2]
info_empresa_dados

['PETR4',
 'PN',
 'PETROBRAS PN',
 'Petróleo, Gás e Biocombustíveis',
 'Exploração, Refino e Distribuição']

## Incluindo Dados atualizados de Cotação (caso estejam desatualizados)
### Dados Básicos Cotação

In [25]:
cotacao_label = sel.xpath("//table[1]//span[@class='txt']/text() | //table[1]//span[@class='txt']/a/text()").extract()[0::2][1::2]
cotacao_label

['Cotação', 'Data últ cot', 'Min 52 sem', 'Max 52 sem', 'Vol $ méd (2m)']

In [26]:
cotacao_dados = sel.xpath("//table[1]//span[@class='txt']/text() | //table[1]//span[@class='txt']/a/text()").extract()[1::2][1::2]
cotacao_dados

['22,39', '05/03/2021', '11,29', '31,12', '2.651.490.000']

In [27]:
cotacao_label += sel.xpath("//table[2]//span[@class='txt']/text()").extract()[0::2][0::3]
cotacao_label

['Cotação',
 'Data últ cot',
 'Min 52 sem',
 'Max 52 sem',
 'Vol $ méd (2m)',
 'Valor de mercado',
 'Nro. Ações']

In [28]:
cotacao_label = remover_caracteres_especiais(cotacao_label)
cotacao_label

['Cotacao',
 'Data_ult_cot',
 'Min_52_sem',
 'Max_52_sem',
 'Vol_$_med_2m',
 'Valor_de_mercado',
 'Nro_Acoes']

In [29]:
cotacao_label.insert(0, 'Papel')
cotacao_label

['Papel',
 'Cotacao',
 'Data_ult_cot',
 'Min_52_sem',
 'Max_52_sem',
 'Vol_$_med_2m',
 'Valor_de_mercado',
 'Nro_Acoes']

In [30]:
cotacao_dados += sel.xpath("//table[2]//span[@class='txt']/text()").extract()[1::2][0::3]
cotacao_dados

['22,39',
 '05/03/2021',
 '11,29',
 '31,12',
 '2.651.490.000',
 '292.066.000.000',
 '13.044.500.000']

In [33]:
cotacao_dados = formatar_tipagem_dados(cotacao_dados)
cotacao_dados.insert(0, papel)
cotacao_dados

['PETR4',
 22.39,
 datetime.datetime(2021, 3, 5, 0, 0),
 11.29,
 31.12,
 '2.651.490.000',
 '292.066.000.000',
 '13.044.500.000']

### Dados Oscilação

In [34]:
oscilacao_label = sel.xpath("//table[3]//td[@class='nivel1']//span/text()").extract()[0]
oscilacao_label

'Oscilações'

In [35]:
lista_oscilacoes_label = sel.xpath("//table[3]//td[@class='label w1']//span/text()").extract()
lista_oscilacoes_label

['Dia',
 'Mês',
 '30 dias',
 '12 meses',
 '2021',
 '2020',
 '2019',
 '2018',
 '2017',
 '2016']

In [36]:
oscilacoes_label = list(map(lambda label: oscilacao_label + "_" + label, lista_oscilacoes_label))
oscilacoes_label = remover_caracteres_especiais(oscilacoes_label)
oscilacoes_label.insert(0, 'Papel')
oscilacoes_label

['Papel',
 'Oscilacoes_Dia',
 'Oscilacoes_Mes',
 'Oscilacoes_30_dias',
 'Oscilacoes_12_meses',
 'Oscilacoes_2021',
 'Oscilacoes_2020',
 'Oscilacoes_2019',
 'Oscilacoes_2018',
 'Oscilacoes_2017',
 'Oscilacoes_2016']

In [37]:
oscilacoes_dados = sel.xpath("//table[3]//span[@class='oscil']/font/text()").extract()
oscilacoes_dados.insert(0, papel)
oscilacoes_dados

['PETR4',
 '0,77%',
 '0,67%',
 '-22,85%',
 '-11,47%',
 '-21,00%',
 '-6,10%',
 '36,87%',
 '45,91%',
 '8,29%',
 '116,23%']

In [38]:
oscilacoes_dados = formatar_tipagem_dados(oscilacoes_dados)
oscilacoes_dados

['PETR4',
 '0.77%',
 '0.67%',
 '-22.85%',
 '-11.47%',
 '-21.00%',
 '-6.10%',
 '36.87%',
 '45.91%',
 '8.29%',
 '116.23%']

### Dados Indicadores Fundamentalistas

In [39]:
indicador_fundamentalita_label = sel.xpath("//table[3]//td[@class='label w2']//span[@class='txt']/text() | //table[3]//td[@class='label']//span[@class='txt']/text()").extract()
indicador_fundamentalita_label = remover_caracteres_especiais(indicador_fundamentalita_label)
indicador_fundamentalita_label.insert(0, 'Papel')
indicador_fundamentalita_label

['Papel',
 'P/L',
 'LPA',
 'P/VP',
 'VPA',
 'P/EBIT',
 'Marg_Bruta',
 'PSR',
 'Marg_EBIT',
 'P/Ativos',
 'Marg_Liquida',
 'P/Cap_Giro',
 'EBIT_/_Ativo',
 'P/Ativ_Circ_Liq',
 'ROIC',
 'Div_Yield',
 'ROE',
 'EV_/_EBITDA',
 'Liquidez_Corr',
 'EV_/_EBIT',
 'Div_Br/_Patrim',
 'Cres_Rec_5a',
 'Giro_Ativos']

In [40]:
indicador_fundamentalita_dados = sel.xpath("//table[3]//td[@class='data w2']//span[@class='txt']/text() | //table[3]//td[@class='data']//span[@class='txt']/text()").extract()
indicador_fundamentalita_dados.insert(0, papel)
indicador_fundamentalita_dados

['PETR4',
 '41,09',
 '0,54',
 '0,95',
 '23,64',
 '\n3,13',
 '\n45,6%',
 '\n1,07',
 '\n34,3%',
 '\n0,30',
 '\n2,3%',
 '\n48,39',
 '9,5%',
 '\n-0,55',
 '\n10,5%',
 '0,0%',
 '\n2,3%',
 '\n3,96',
 '\n1,04',
 '\n6,64',
 '\n1,27',
 '\n-0,1%',
 '\n0,28']

In [41]:
indicador_fundamentalita_dados = list(map(lambda dado: dado.replace("\n", ""), indicador_fundamentalita_dados))
indicador_fundamentalita_dados

['PETR4',
 '41,09',
 '0,54',
 '0,95',
 '23,64',
 '3,13',
 '45,6%',
 '1,07',
 '34,3%',
 '0,30',
 '2,3%',
 '48,39',
 '9,5%',
 '-0,55',
 '10,5%',
 '0,0%',
 '2,3%',
 '3,96',
 '1,04',
 '6,64',
 '1,27',
 '-0,1%',
 '0,28']

In [42]:
indicador_fundamentalita_dados = formatar_tipagem_dados(indicador_fundamentalita_dados)
indicador_fundamentalita_dados

['PETR4',
 41.09,
 0.54,
 0.95,
 23.64,
 3.13,
 '45.6%',
 1.07,
 '34.3%',
 0.3,
 '2.3%',
 48.39,
 '9.5%',
 -0.55,
 '10.5%',
 '0.0%',
 '2.3%',
 3.96,
 1.04,
 6.64,
 1.27,
 '-0.1%',
 0.28]

## Incluindo Dados atualizados do Balanço (caso estejam desatualizados)

In [54]:
balanco_label = sel.xpath("//table[2]//span[@class='txt']/text()").extract()[2:6][0::2]
balanco_label

['Últ balanço processado', 'Valor da firma']

In [55]:
balanco_dados = sel.xpath("//table[2]//span[@class='txt']/text()").extract()[2:6][1::2]
balanco_dados

['31/12/2020', '620.334.000.000']

In [56]:
balanco_label += sel.xpath("//table[4]//td[@class='label w2']//span[@class='txt']/text() | //table[4]//td[@class='label']//span[@class='txt']/text()").extract()
balanco_label

['Últ balanço processado',
 'Valor da firma',
 'Ativo',
 'Dív. Bruta',
 'Disponibilidades',
 'Dív. Líquida',
 'Ativo Circulante',
 'Patrim. Líq']

In [57]:
balanco_dados += sel.xpath("//table[4]//td[@class='data w3']//span[@class='txt']/text() | //table[4]//td[@class='data']//span[@class='txt']/text()").extract()
balanco_dados

['31/12/2020',
 '620.334.000.000',
 '987.419.000.000',
 '392.548.000.000',
 '64.280.000.000',
 '328.268.000.000',
 '142.323.000.000',
 '308.410.000.000']

In [58]:
dre_12_meses = sel.xpath("//table[5]//td[@class='label w2']//span[@class='txt']/text() | //table[5]//td[@class='label']//span[@class='txt']/text()").extract()[0::2]
balanco_label += list(map(lambda label: label + "_ult._12_meses", dre_12_meses))
balanco_label

['Últ balanço processado',
 'Valor da firma',
 'Ativo',
 'Dív. Bruta',
 'Disponibilidades',
 'Dív. Líquida',
 'Ativo Circulante',
 'Patrim. Líq',
 'Receita Líquida_ult._12_meses',
 'EBIT_ult._12_meses',
 'Lucro Líquido_ult._12_meses']

In [59]:
balanco_dados += sel.xpath("//table[5]//td[@class='data w3']//span[@class='txt']/text() | //table[5]//td[@class='data']//span[@class='txt']/text()").extract()[0::2]
balanco_dados

['31/12/2020',
 '620.334.000.000',
 '987.419.000.000',
 '392.548.000.000',
 '64.280.000.000',
 '328.268.000.000',
 '142.323.000.000',
 '308.410.000.000',
 '272.069.000.000',
 '93.417.000.000',
 '7.108.000.000']

In [60]:
dre_3_meses = sel.xpath("//table[5]//td[@class='label w2']//span[@class='txt']/text() | //table[5]//td[@class='label']//span[@class='txt']/text()").extract()[1::2]
balanco_label += list(map(lambda label: label + "_ult._3_meses", dre_3_meses))
balanco_label

['Últ balanço processado',
 'Valor da firma',
 'Ativo',
 'Dív. Bruta',
 'Disponibilidades',
 'Dív. Líquida',
 'Ativo Circulante',
 'Patrim. Líq',
 'Receita Líquida_ult._12_meses',
 'EBIT_ult._12_meses',
 'Lucro Líquido_ult._12_meses',
 'Receita Líquida_ult._3_meses',
 'EBIT_ult._3_meses',
 'Lucro Líquido_ult._3_meses']

In [61]:
balanco_label = remover_caracteres_especiais(balanco_label)
balanco_label.insert(0, 'Papel')
balanco_label

['Papel',
 'Ult_balanco_processado',
 'Valor_da_firma',
 'Ativo',
 'Div_Bruta',
 'Disponibilidades',
 'Div_Liquida',
 'Ativo_Circulante',
 'Patrim_Liq',
 'Receita_Liquida_ult_12_meses',
 'EBIT_ult_12_meses',
 'Lucro_Liquido_ult_12_meses',
 'Receita_Liquida_ult_3_meses',
 'EBIT_ult_3_meses',
 'Lucro_Liquido_ult_3_meses']

In [62]:
balanco_dados += sel.xpath("//table[5]//td[@class='data w3']//span[@class='txt']/text() | //table[5]//td[@class='data']//span[@class='txt']/text()").extract()[1::2]
balanco_dados.insert(0, papel)
balanco_dados

['PETR4',
 '31/12/2020',
 '620.334.000.000',
 '987.419.000.000',
 '392.548.000.000',
 '64.280.000.000',
 '328.268.000.000',
 '142.323.000.000',
 '308.410.000.000',
 '272.069.000.000',
 '93.417.000.000',
 '7.108.000.000',
 '74.972.000.000',
 '33.838.000.000',
 '59.890.000.000']

In [63]:
balanco_dados = formatar_tipagem_dados(balanco_dados)
balanco_dados

['PETR4',
 datetime.datetime(2020, 12, 31, 0, 0),
 '620.334.000.000',
 '987.419.000.000',
 '392.548.000.000',
 '64.280.000.000',
 '328.268.000.000',
 '142.323.000.000',
 '308.410.000.000',
 '272.069.000.000',
 '93.417.000.000',
 '7.108.000.000',
 '74.972.000.000',
 '33.838.000.000',
 '59.890.000.000']

# -----------------------------------------------------------------------------------------------

## Verificando se o arquivo já existe

In [37]:
#path = '/home/hugo/Documents/Repositorios_GitHub/Projetos/02-StockData/Web_Scraping/Fundamentus_Web/'
#file_name = '%s_fundamentus_%s.txt' % (papel, str(data_ult_balanco_new_html))

#if os.path.isfile(path+file_name):
#    print('Arquivo já existe com balanço mais atual!')
#else:
#    print('Arquivo com balanço atual ainda não existe!')

## Salvando conteúdo do HTML (em bytes) em um arquivo local como txt

In [38]:
#file_name = '%s_fundamentus_%s.txt' % (papel, data_ult_balanco_new_html)

#with io.open(path+file_name, 'w', encoding='utf-8') as f:
#    f.write(new_html)

## Lendo conteúdo do arquivo Local e armazenando em uma variável

In [39]:
#with io.open(path+file_name, 'r', encoding='utf8') as f:
#    html = f.read()

# ------------------------------------------------------------------------------------------------

## Salvando dados no MongoDB
### Dados da Empresa

In [65]:
def transformar_listas_em_dicionario(lista_keys, lista_values):
    novo_dicionario = {lista_keys[i]: lista_values[i] for i in range(len(lista_keys))}
    
    return novo_dicionario

In [66]:
info_empresa = transformar_listas_em_dicionario(info_empresa_label, info_empresa_dados)
info_empresa

{'Papel': 'PETR4',
 'Tipo': 'PN',
 'Empresa': 'PETROBRAS PN',
 'Setor': 'Petróleo, Gás e Biocombustíveis',
 'Subsetor': 'Exploração, Refino e Distribuição'}

In [67]:
colecao = banco.dados_empresa
colecao.insert_one(info_empresa)

<pymongo.results.InsertOneResult at 0x7f73e97affc8>

### Cotação da Empresa

In [69]:
cotacao = transformar_listas_em_dicionario(cotacao_label, cotacao_dados)
cotacao

{'Papel': 'PETR4',
 'Cotacao': 22.39,
 'Data_ult_cot': datetime.datetime(2021, 3, 5, 0, 0),
 'Min_52_sem': 11.29,
 'Max_52_sem': 31.12,
 'Vol_$_med_2m': '2.651.490.000',
 'Valor_de_mercado': '292.066.000.000',
 'Nro_Acoes': '13.044.500.000'}

In [70]:
colecao = banco.cotacao
colecao.insert_one(cotacao)

<pymongo.results.InsertOneResult at 0x7f73e92f9048>

### Oscilações da Empresa

In [71]:
oscilacoes = transformar_listas_em_dicionario(oscilacoes_label, oscilacoes_dados)
oscilacoes

{'Papel': 'PETR4',
 'Oscilacoes_Dia': '0.77%',
 'Oscilacoes_Mes': '0.67%',
 'Oscilacoes_30_dias': '-22.85%',
 'Oscilacoes_12_meses': '-11.47%',
 'Oscilacoes_2021': '-21.00%',
 'Oscilacoes_2020': '-6.10%',
 'Oscilacoes_2019': '36.87%',
 'Oscilacoes_2018': '45.91%',
 'Oscilacoes_2017': '8.29%',
 'Oscilacoes_2016': '116.23%'}

In [72]:
colecao = banco.oscilacoes
colecao.insert_one(oscilacoes)

<pymongo.results.InsertOneResult at 0x7f73e8ca86c8>

### Indicadores Fundamentalista da Empresa

In [73]:
indicacores_fundamentalista = transformar_listas_em_dicionario(indicador_fundamentalita_label, indicador_fundamentalita_dados)
indicacores_fundamentalista

{'Papel': 'PETR4',
 'P/L': 41.09,
 'LPA': 0.54,
 'P/VP': 0.95,
 'VPA': 23.64,
 'P/EBIT': 3.13,
 'Marg_Bruta': '45.6%',
 'PSR': 1.07,
 'Marg_EBIT': '34.3%',
 'P/Ativos': 0.3,
 'Marg_Liquida': '2.3%',
 'P/Cap_Giro': 48.39,
 'EBIT_/_Ativo': '9.5%',
 'P/Ativ_Circ_Liq': -0.55,
 'ROIC': '10.5%',
 'Div_Yield': '0.0%',
 'ROE': '2.3%',
 'EV_/_EBITDA': 3.96,
 'Liquidez_Corr': 1.04,
 'EV_/_EBIT': 6.64,
 'Div_Br/_Patrim': 1.27,
 'Cres_Rec_5a': '-0.1%',
 'Giro_Ativos': 0.28}

In [74]:
colecao = banco.indicadores_fundamentalista
colecao.insert_one(indicacores_fundamentalista)

<pymongo.results.InsertOneResult at 0x7f73e843c6c8>

### Balanço da Empresa

In [75]:
balanco = transformar_listas_em_dicionario(balanco_label, balanco_dados)
balanco

{'Papel': 'PETR4',
 'Ult_balanco_processado': datetime.datetime(2020, 12, 31, 0, 0),
 'Valor_da_firma': '620.334.000.000',
 'Ativo': '987.419.000.000',
 'Div_Bruta': '392.548.000.000',
 'Disponibilidades': '64.280.000.000',
 'Div_Liquida': '328.268.000.000',
 'Ativo_Circulante': '142.323.000.000',
 'Patrim_Liq': '308.410.000.000',
 'Receita_Liquida_ult_12_meses': '272.069.000.000',
 'EBIT_ult_12_meses': '93.417.000.000',
 'Lucro_Liquido_ult_12_meses': '7.108.000.000',
 'Receita_Liquida_ult_3_meses': '74.972.000.000',
 'EBIT_ult_3_meses': '33.838.000.000',
 'Lucro_Liquido_ult_3_meses': '59.890.000.000'}

In [76]:
colecao = banco.balanco
colecao.insert_one(balanco)

<pymongo.results.InsertOneResult at 0x7f73e843c8c8>

## Buscando dados no MongoDB

In [77]:
colecao = banco.dados_empresa
resultado = colecao.find_one({ "Papel": "PETR4"})

In [78]:
resultado

{'_id': ObjectId('6044079620c4c61a78ad3009'),
 'Papel': 'PETR4',
 'Tipo': 'PN',
 'Empresa': 'PETROBRAS PN',
 'Setor': 'Petróleo, Gás e Biocombustíveis',
 'Subsetor': 'Exploração, Refino e Distribuição'}

In [79]:
colecao = banco.dados_empresa

In [80]:
pipeline = [
    {"$match" : { "Papel" : "PETR4" }},
    {"$lookup" : { "from": "cotacao",
                   "localField": "Papel",
                   "foreignField": "Papel",
                   "as": "Cotacao_do_Papel" }},
    {"$unset": ["Cotacao_do_Papel._id", "Cotacao_do_Papel.Papel"]}
]

res = list(colecao.aggregate(pipeline))

In [81]:
for colecao in res:
    print(res)

[{'_id': ObjectId('6044079620c4c61a78ad3009'), 'Papel': 'PETR4', 'Tipo': 'PN', 'Empresa': 'PETROBRAS PN', 'Setor': 'Petróleo, Gás e Biocombustíveis', 'Subsetor': 'Exploração, Refino e Distribuição', 'Cotacao_do_Papel': [{'Cotacao': 22.39, 'Data_ult_cot': datetime.datetime(2021, 3, 5, 0, 0), 'Min_52_sem': 11.29, 'Max_52_sem': 31.12, 'Vol_$_med_2m': '2.651.490.000', 'Valor_de_mercado': '292.066.000.000', 'Nro_Acoes': '13.044.500.000'}]}]


In [83]:
res

[{'_id': ObjectId('6044079620c4c61a78ad3009'),
  'Papel': 'PETR4',
  'Tipo': 'PN',
  'Empresa': 'PETROBRAS PN',
  'Setor': 'Petróleo, Gás e Biocombustíveis',
  'Subsetor': 'Exploração, Refino e Distribuição',
  'Cotacao_do_Papel': [{'Cotacao': 22.39,
    'Data_ult_cot': datetime.datetime(2021, 3, 5, 0, 0),
    'Min_52_sem': 11.29,
    'Max_52_sem': 31.12,
    'Vol_$_med_2m': '2.651.490.000',
    'Valor_de_mercado': '292.066.000.000',
    'Nro_Acoes': '13.044.500.000'}]}]

# ------------------------------------------------------------------------------------------------

# Acesso ao HDFS server (Write and Read)
## Criando uma Spark Session

In [40]:
#!pip3 install pyspark

In [41]:
from pyspark.sql import SparkSession
sparkSession = SparkSession.builder.appName("write-read-fundamentus-hdfs").getOrCreate()

## Write Spark DataFrame dos Dados da Empresa

In [None]:
info_empresa_dados = transformar_lista_em_tuples(info_empresa_dados)
info_empresa_dados

In [42]:
sparkSession.createDataFrame(info_empresa_dados).collect()

[Row(_1='PETR4', _2='PN', _3='PETROBRAS PN', _4='Petróleo, Gás e Biocombustíveis', _5='Exploração, Refino e Distribuição')]

In [43]:
sparkSession.createDataFrame(info_empresa_dados, info_empresa_label).collect()

[Row(Papel='PETR4', Tipo='PN', Empresa='PETROBRAS PN', Setor='Petróleo, Gás e Biocombustíveis', Subsetor='Exploração, Refino e Distribuição')]

In [44]:
df = sparkSession.createDataFrame(info_empresa_dados, info_empresa_label)
df

DataFrame[Papel: string, Tipo: string, Empresa: string, Setor: string, Subsetor: string]

In [45]:
type(df)

pyspark.sql.dataframe.DataFrame

In [46]:
df.show()

+-----+----+------------+--------------------+--------------------+
|Papel|Tipo|     Empresa|               Setor|            Subsetor|
+-----+----+------------+--------------------+--------------------+
|PETR4|  PN|PETROBRAS PN|Petróleo, Gás e B...|Exploração, Refin...|
+-----+----+------------+--------------------+--------------------+



### Necessário configurar a versão do Python utilizada pelo Linux como a 3.6.
* sudo update-alternatives --install /usr/bin/python python /usr/bin/python3.4 1
* sudo update-alternatives --install /usr/bin/python python /usr/bin/python3.6 2
* sudo update-alternatives --config python
* sudo update-alternatives  --set python /usr/bin/python3.6

In [47]:
# Write into HDFS
# hdfs://hadoop-master:9000/user/hadoopuser/test/
df.write.save('hdfs://172.17.177.40:9000/user/hadoopuser/fundamentus/detalhes/dados_empresa', format='parquet', mode='append')

In [48]:
df_load = sparkSession.read.format('parquet').load('hdfs://172.17.177.40:9000/user/hadoopuser/fundamentus/detalhes/dados_empresa')

In [49]:
df_load.show()

+-----+-----+------------------+--------------------+--------------------+
|Papel| Tipo|           Empresa|               Setor|            Subsetor|
+-----+-----+------------------+--------------------+--------------------+
|PETR4|   PN|      PETROBRAS PN|Petróleo, Gás e B...|Exploração, Refin...|
|ITUB4|PN N1|ITAUUNIBANCO PN N1|Intermediários Fi...|              Bancos|
|GGBR4|PN N1| GERDAU S.A. PN N1|Siderurgia e Meta...|          Siderurgia|
|VALE3|ON NM|        VALE ON NM|           Mineração|  Minerais Metálicos|
+-----+-----+------------------+--------------------+--------------------+



In [50]:
df_load.toPandas()

Unnamed: 0,Papel,Tipo,Empresa,Setor,Subsetor
0,PETR4,PN,PETROBRAS PN,"Petróleo, Gás e Biocombustíveis","Exploração, Refino e Distribuição"
1,ITUB4,PN N1,ITAUUNIBANCO PN N1,Intermediários Financeiros,Bancos
2,GGBR4,PN N1,GERDAU S.A. PN N1,Siderurgia e Metalurgia,Siderurgia
3,VALE3,ON NM,VALE ON NM,Mineração,Minerais Metálicos


## Write Spark DataFrame dos Dados de Cotação

In [None]:
cotacao_label.insert(0, 'Papel')
cotacao_dados.insert(0, papel)
cotacao_dados = transformar_lista_em_tuples(cotacao_dados)
cotacao_dados

In [51]:
df = sparkSession.createDataFrame(cotacao_dados, cotacao_label)
df

DataFrame[Papel: string, Cotacao: string, Data_ult_cot: string, Min_52_sem: string, Max_52_sem: string, Vol_$_med_2m: string, Valor_de_mercado: string, Nro._Acoes: string]

In [52]:
df.write.save('hdfs://172.17.177.40:9000/user/hadoopuser/fundamentus/detalhes/dados_cotacao', format='parquet', mode='append')

In [53]:
df_load = sparkSession.read.format('parquet').load('hdfs://172.17.177.40:9000/user/hadoopuser/fundamentus/detalhes/dados_cotacao')

In [54]:
df_load.show()

+-----+-------+------------+----------+----------+-------------+----------------+--------------+
|Papel|Cotacao|Data_ult_cot|Min_52_sem|Max_52_sem| Vol_$_med_2m|Valor_de_mercado|    Nro._Acoes|
+-----+-------+------------+----------+----------+-------------+----------------+--------------+
|VALE3| 101,60|  02/03/2021|     32,82|    102,32|3.111.610.000| 536.903.000.000| 5.284.470.000|
|PETR4|  21,99|  02/03/2021|     11,29|     31,12|2.600.720.000| 286.848.000.000|13.044.500.000|
|ITUB4|  25,77|  02/03/2021|     20,24|     32,58|1.217.880.000| 252.653.000.000| 9.804.140.000|
|GGBR4|  26,67|  01/03/2021|      8,54|     29,54|  419.645.000|  45.863.300.000| 1.719.660.000|
+-----+-------+------------+----------+----------+-------------+----------------+--------------+



In [55]:
df_load.toPandas()

Unnamed: 0,Papel,Cotacao,Data_ult_cot,Min_52_sem,Max_52_sem,Vol_$_med_2m,Valor_de_mercado,Nro._Acoes
0,VALE3,10160,02/03/2021,3282,10232,3.111.610.000,536.903.000.000,5.284.470.000
1,PETR4,2199,02/03/2021,1129,3112,2.600.720.000,286.848.000.000,13.044.500.000
2,ITUB4,2577,02/03/2021,2024,3258,1.217.880.000,252.653.000.000,9.804.140.000
3,GGBR4,2667,01/03/2021,854,2954,419.645.000,45.863.300.000,1.719.660.000


## Write Spark DataFrame dos Dados de Oscilações

In [None]:
oscilacoes_label.insert(0, 'Papel')
oscilacoes_dados.insert(0, papel)
oscilacoes_dados = transformar_lista_em_tuples(oscilacoes_dados)
oscilacoes_dados

In [56]:
df = sparkSession.createDataFrame(oscilacoes_dados, oscilacoes_label)
df

DataFrame[Papel: string, Oscilacoes_Dia: string, Oscilacoes_Mes: string, Oscilacoes_30_dias: string, Oscilacoes_12_meses: string, Oscilacoes_2021: string, Oscilacoes_2020: string, Oscilacoes_2019: string, Oscilacoes_2018: string, Oscilacoes_2017: string, Oscilacoes_2016: string]

In [57]:
df.write.save('hdfs://172.17.177.40:9000/user/hadoopuser/fundamentus/detalhes/dados_oscilacoes', format='parquet', mode='append')

In [58]:
df_load = sparkSession.read.format('parquet').load('hdfs://172.17.177.40:9000/user/hadoopuser/fundamentus/detalhes/dados_oscilacoes')

In [59]:
df_load.show()

+-----+--------------+--------------+------------------+-------------------+---------------+---------------+---------------+---------------+---------------+---------------+
|Papel|Oscilacoes_Dia|Oscilacoes_Mes|Oscilacoes_30_dias|Oscilacoes_12_meses|Oscilacoes_2021|Oscilacoes_2020|Oscilacoes_2019|Oscilacoes_2018|Oscilacoes_2017|Oscilacoes_2016|
+-----+--------------+--------------+------------------+-------------------+---------------+---------------+---------------+---------------+---------------+---------------+
|PETR4|        -0,05%|        -1,12%|           -23,27%|            -17,11%|        -22,41%|         -6,10%|         36,87%|         45,91%|          8,29%|        116,23%|
|ITUB4|         4,04%|         0,93%|            -8,90%|            -18,04%|        -17,91%|        -11,75%|         11,98%|         32,41%|         29,64%|         56,02%|
|VALE3|         3,07%|         7,49%|            15,90%|            127,71%|         16,18%|         70,47%|          6,85%|         31

In [60]:
df_load.toPandas()

Unnamed: 0,Papel,Oscilacoes_Dia,Oscilacoes_Mes,Oscilacoes_30_dias,Oscilacoes_12_meses,Oscilacoes_2021,Oscilacoes_2020,Oscilacoes_2019,Oscilacoes_2018,Oscilacoes_2017,Oscilacoes_2016
0,PETR4,"-0,05%","-1,12%","-23,27%","-17,11%","-22,41%","-6,10%","36,87%","45,91%","8,29%","116,23%"
1,ITUB4,"4,04%","0,93%","-8,90%","-18,04%","-17,91%","-11,75%","11,98%","32,41%","29,64%","56,02%"
2,VALE3,"3,07%","7,49%","15,90%","127,71%","16,18%","70,47%","6,85%","31,11%","62,56%","103,66%"
3,GGBR4,"3,09%","3,09%","16,11%","55,83%","9,08%","23,86%","37,65%","22,31%","15,23%","138,66%"


## Write Spark DataFrame dos Dados de Indicacores Fundamentalistas

In [None]:
indicador_fundamentalita_label.insert(0, "Papel")
indicador_fundamentalita_dados.insert(0, papel)
indicador_fundamentalita_dados = transformar_lista_em_tuples(indicador_fundamentalita_dados)
indicador_fundamentalita_dados

In [61]:
df = sparkSession.createDataFrame(indicador_fundamentalita_dados, indicador_fundamentalita_label)
df

DataFrame[Papel: string, P/L: string, LPA: string, P/VP: string, VPA: string, P/EBIT: string, Marg._Bruta: string, PSR: string, Marg._EBIT: string, P/Ativos: string, Marg._Liquida: string, P/Cap._Giro: string, EBIT_/_Ativo: string, P/Ativ_Circ_Liq: string, ROIC: string, Div._Yield: string, ROE: string, EV_/_EBITDA: string, Liquidez_Corr: string, EV_/_EBIT: string, Div_Br/_Patrim: string, Cres._Rec_5a: string, Giro_Ativos: string]

In [62]:
df.write.save('hdfs://172.17.177.40:9000/user/hadoopuser/fundamentus/detalhes/dados_indicador_fundamentalista', format='parquet', mode='append')

In [63]:
df_load = sparkSession.read.format('parquet').load('hdfs://172.17.177.40:9000/user/hadoopuser/fundamentus/detalhes/dados_indicador_fundamentalista')

In [64]:
df_load.show()

+-----+-----+----+----+-----+------+-----------+----+----------+--------+-------------+-----------+------------+---------------+-----+----------+-----+-----------+-------------+---------+--------------+------------+-----------+
|Papel|  P/L| LPA|P/VP|  VPA|P/EBIT|Marg._Bruta| PSR|Marg._EBIT|P/Ativos|Marg._Liquida|P/Cap._Giro|EBIT_/_Ativo|P/Ativ_Circ_Liq| ROIC|Div._Yield|  ROE|EV_/_EBITDA|Liquidez_Corr|EV_/_EBIT|Div_Br/_Patrim|Cres._Rec_5a|Giro_Ativos|
+-----+-----+----+----+-----+------+-----------+----+----------+--------+-------------+-----------+------------+---------------+-----+----------+-----+-----------+-------------+---------+--------------+------------+-----------+
|VALE3|20,10|5,05|2,89|35,16|  5,01|      52,7%|2,57|     51,4%|    1,12|        11,9%|      10,53|       22,4%|          -3,15|27,4%|      2,4%|14,4%|       4,40|         1,67|     5,09|          0,42|       20,9%|       0,44|
|PETR4|40,36|0,54|0,93|23,64|  3,07|      45,6%|1,05|     34,3%|    0,29|         2,3%| 

In [65]:
df_load.toPandas()

Unnamed: 0,Papel,P/L,LPA,P/VP,VPA,P/EBIT,Marg._Bruta,PSR,Marg._EBIT,P/Ativos,...,P/Ativ_Circ_Liq,ROIC,Div._Yield,ROE,EV_/_EBITDA,Liquidez_Corr,EV_/_EBIT,Div_Br/_Patrim,Cres._Rec_5a,Giro_Ativos
0,VALE3,2010,505,289,3516,501,"52,7%",257,"51,4%",112,...,-315,"27,4%","2,4%","14,4%",440,167,509,042,"20,9%",044
1,PETR4,4036,54,93,2364,307,"45,6%",105,"34,3%",029,...,-054,"10,5%","0,0%","2,3%",392,104,658,127,"-0,1%",028
2,GGBR4,1939,138,149,1795,1042,"13,5%",105,"10,0%",073,...,-532,"8,8%","1,1%","7,7%",814,204,1266,057,"3,8%",069
3,ITUB4,1332,193,185,1394,-,-,-,-,-,...,-,-,"1,9%","13,9%",-,-,-,-,"-30,0%",-


## Write Spark DataFrame dos Dados do Balanço

In [None]:
balanco_label.insert(0, "Papel")
balanco_dados.insert(0, papel)
balanco_dados = transformar_lista_em_tuples(balanco_dados)
balanco_dados

In [66]:
df = sparkSession.createDataFrame(balanco_dados, balanco_label)
df

DataFrame[Papel: string, Ult_balanco_processado: string, Valor_da_firma: string, Ativo: string, Div._Bruta: string, Disponibilidades: string, Div._Liquida: string, Ativo_Circulante: string, Patrim._Liq: string, Receita_Liquida_ult._12_meses: string, EBIT_ult._12_meses: string, Lucro_Liquido_ult._12_meses: string, Receita_Liquida_ult._3_meses: string, EBIT_ult._3_meses: string, Lucro_Liquido_ult._3_meses: string]

In [67]:
df.write.save('hdfs://172.17.177.40:9000/user/hadoopuser/fundamentus/detalhes/dados_balanco', format='parquet', mode='append')

In [68]:
df_load = sparkSession.read.format('parquet').load('hdfs://172.17.177.40:9000/user/hadoopuser/fundamentus/detalhes/dados_balanco')

In [69]:
df_load.show()

+-----+----------------------+---------------+---------------+---------------+----------------+---------------+----------------+---------------+-----------------------------+------------------+---------------------------+----------------------------+-----------------+--------------------------+
|Papel|Ult_balanco_processado| Valor_da_firma|          Ativo|     Div._Bruta|Disponibilidades|   Div._Liquida|Ativo_Circulante|    Patrim._Liq|Receita_Liquida_ult._12_meses|EBIT_ult._12_meses|Lucro_Liquido_ult._12_meses|Receita_Liquida_ult._3_meses|EBIT_ult._3_meses|Lucro_Liquido_ult._3_meses|
+-----+----------------------+---------------+---------------+---------------+----------------+---------------+----------------+---------------+-----------------------------+------------------+---------------------------+----------------------------+-----------------+--------------------------+
|PETR4|            31/12/2020|615.116.000.000|987.419.000.000|392.548.000.000|  64.280.000.000|328.268.000.000| 

In [70]:
df_load.toPandas()

Unnamed: 0,Papel,Ult_balanco_processado,Valor_da_firma,Ativo,Div._Bruta,Disponibilidades,Div._Liquida,Ativo_Circulante,Patrim._Liq,Receita_Liquida_ult._12_meses,EBIT_ult._12_meses,Lucro_Liquido_ult._12_meses,Receita_Liquida_ult._3_meses,EBIT_ult._3_meses,Lucro_Liquido_ult._3_meses
0,PETR4,31/12/2020,615.116.000.000,987.419.000.000,392.548.000.000,64.280.000.000,328.268.000.000,142.323.000.000,308.410.000.000,272.069.000.000,93.417.000.000,7.108.000.000,74.972.000.000,33.838.000.000,59.890.000.000
1,VALE3,31/12/2020,544.906.000.000,478.129.000.000,78.089.100.000,70.085.600.000,8.003.530.000,126.805.000.000,185.785.000.000,208.529.000.000,107.104.000.000,26.712.700.000,78.938.200.000,47.152.400.000,4.824.830.000
2,GGBR4,31/12/2020,55.720.300.000,63.123.000.000,17.515.400.000,7.658.350.000,9.857.000.000,23.409.500.000,30.860.300.000,43.814.700.000,4.400.170.000,2.365.760.000,13.620.200.000,2.176.850.000,1.048.330.000
3,ITUB4,31/12/2020,-,210.399.000.000,,,,,136.699.000.000,,,18.961.000.000,,,7.636.000.000
