<a href="https://colab.research.google.com/github/pscspy/public/blob/main/arquivado/002/002_Web_Scraping_(B3).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Web Scraping FII (+B3)
* O Script realiza um Web Scraping do site FundsExplorer, selecionando informações específicas de ativos de interesse e as contatenando em uma lista. Para o exemplo, considerou-se ativos aleatórios presentes no iFIX e informações relevantes:
  * Ultimos dividendos (ultimo mês, três meses, seis e doze);
  * Patrimônio Líquido
  * Valor patrimonial por cota

* Adversamente, devido inconsistência de informações, este script coleta também da B3 e posteriormente exporta para arquivo xls.

# Web Scraping FundsExplorer


In [1]:
#@title 1. Import
#@markdown Importando e checando (200) reposta do site.
import requests
from bs4 import BeautifulSoup
import pandas as pd

url = requests.get('https://www.fundsexplorer.com.br/ranking')
url

<Response [200]>

In [2]:
#@title 2. Criando DataFrame
#@markdown Table to pd.DataFrame e exibindo lista. 
#   Investigating.
url_bs = BeautifulSoup(url.text,'html.parser')
#   Selecting table.
url_table = url_bs.findAll(attrs={'id':'scroll-wrapper'})
#   Table to Bs (Indexing) - type(table)
table = url_table[0].findAll('table')
#   Table to DataFrame
fii_df = pd.read_html(str(table))[0]
#   Lista por ordem alfabética
# str(list(fii_df['Códigodo fundo'].sort_values()))

In [3]:
#@title Selecionando colunas
#@markdown Excluindo colunas consideradas irrelevantes.
new_fii_df = fii_df.drop(fii_df.columns[[1,2,3,5,6,7,8,9,10,11,12,13,14,15,18,19,20,21,22,23,24,25]], axis=1)

In [4]:
#@title Ajustando formatação
#@markdown Substituindo caracteres e formatação para compatibilidade.

#   R$ = [r raw] [^começa com] [\$ \string] [ <espaço>]
new_fii_df = new_fii_df.replace(to_replace=r'^R\$ ', value='',regex=True)
#   Separação de milhar (mantive vírgula para decimal)
new_fii_df['PatrimônioLíq.'] = new_fii_df['PatrimônioLíq.'].replace('.','')

In [5]:
#@title Concluindo formatação
#@markdown Renomeando colunas.
new_fii_df.rename(columns={'Códigodo fundo':'FII', 'Dividendo': 'Ult_Dv', 'PatrimônioLíq.': 'Pat_Lq','VPA':'VPA_Rnk'}, inplace=True)


In [6]:
#@title Listando Fii's (aleatórios do iFIX)
#@markdown Criando lista de Ativos de interesse.
fii_list = ['KNIP11','KNCR11','HGLG11','IRDM11','KNRI11','CPTS11','XPLG11','HCTR11','RECR11','MXRF11','HGRU11','BCFF11','BRCR11','HFOF11']

In [7]:
#@title Selecionando Ativos de interesse
#@markdown Dos danos do Web Scraping selecionando apenas ativos de interesse.
fiinal_df = new_fii_df[new_fii_df['FII'].isin(fii_list)]

In [8]:
#@title Segundo Web Scraping.
#@markdown Dos ativos de interesse individualmente recolhendo informações acerca dos últimos dividendos.

dvs_fii = pd.DataFrame()

for i in fii_list:
  zero = requests.get(f'https://www.fundsexplorer.com.br/funds/{i}')
  um = BeautifulSoup(zero.text,'html.parser')
  dois = um.findAll(attrs={'class':'table-responsive'})
  tres = dois[0].findAll('table')
  quatro = pd.read_html(str(tres))[0]
  cinco = quatro.drop(quatro.columns[5], axis=1)
  seis = cinco.drop(1)
  seis.loc[0,'Proventos'] = f'{i}'
  dvs_fii = dvs_fii.append(seis)
dvs_fii = dvs_fii.replace(to_replace=r'^R\$ ', value='',regex=True)
dvs_fii.rename(columns={'Proventos':'FII', 'Último': 'Ult_Dv_0', '3 meses': '3','6 meses':'6','12 meses':'12'}, inplace=True)

In [9]:
#@title Consolidando tabelas
#@markdown Mantido Ult_Dv_0 e Ult_Dv apenas para checar consistência interna de informações.

var01 = dvs_fii
var02 = fiinal_df
consolidado = pd.merge(var01,var02)
consolidado

Unnamed: 0,FII,Ult_Dv_0,3,6,12,Ult_Dv,Pat_Lq,VPA_Rnk
0,KNIP11,9400,17400,37100,124000,94,"7.645.646.524,33",9480
1,KNCR11,12000,34000,71000,131800,120,"5.747.307.324,41",10066
2,HGLG11,22000,44000,77000,165000,220,"3.466.816.466,82",14780
3,IRDM11,7016,23400,62191,137443,70,"3.389.714.938,91",9304
4,KNRI11,10000,28200,55500,105000,100,"3.867.931.624,08",16012
5,CPTS11,3700,22700,55700,121700,37,"2.858.127.870,96",8993
6,XPLG11,7400,22200,44000,84000,74,"3.102.791.995,75",11449
7,HCTR11,11000,33000,71500,166700,110,"2.681.663.950,61",12143
8,RECR11,7350,17773,47478,130406,74,"2.520.731.349,40",9533
9,MXRF11,1000,2800,6100,12100,10,"2.282.646.736,06",1010


# Web Scraping B3

In [10]:
#@title Listando Código ISIN
#@markdown Devido eventos adversos, é especificado ISIN recorrente.

isn_list = ['BRKNIPCTF001','BRKNCRCTF000','BRHGLGCTF004','BRIRDMCTF004','BRKNRICTF007','BRCPTSCTF004','BRXPLGCTF002','BRHCTRCTF003','BRRECRCTF004','BRMXRFCTF008','BRHGRUCTF002','BRBCFFCTF000','BRBRCRCTF000','BRHFOFCTF002']

In [11]:
#@title Web Scraping B3
#Para evitar erros de requisição (bloqueio de segurança), há intervalo de 15s entre cada ativo.
import time
from IPython.display import clear_output                    # apenas para debug
dividendos = pd.DataFrame()                                 # setup and clearing df
x_len = len(fii_list)                                       # debugger loop setup 0
y_len = 0                                                   # debugger loop setup 1

for i in fii_list:
  y_temp = y_len+1                                          # debugger loop setup 2
  y_len = y_temp                                            # debugger loop setup 3
#  zero = requests.get(f'https://sistemaswebb3-listados.b3.com.br/fundsPage/main/24960430000113/{i}/7/events')
  zero = requests.get(f'https://bvmf.bmfbovespa.com.br/Fundos-Listados/FundosListadosDetalhe.aspx?Sigla={i}&tipoFundo=Imobiliario&aba=abaEventosCorporativos&idioma=pt-br')
  um = BeautifulSoup(zero.text,'html.parser')               # html0
  dois = um.findAll(attrs={'id':'divDividendo'})            # html1
  tres = dois[0].findAll('table')                           # html2
  quatro = pd.read_html(str(tres))[0]                       # pd0
  for n in isn_list:
    cinco = quatro
    xinco = quatro
    xinco = quatro.loc[quatro['Código ISIN'] ==f'{n}']
    xeis = xinco[0:12]
    cinco.loc[cinco['Código ISIN']==f'{n}', '12_B3'] = xeis.loc[xeis['Código ISIN'] ==f'{n}','Valor (R$)'].sum()
  seis = cinco.assign(FII=f'{i}')                           # formating - FII {i}
  sete = seis.drop(quatro.columns[[0,2,7]], axis=1)         # formating - columns
  dividendos = dividendos.append(sete.iloc[0])              # exporting to df       bug futuro colocar iloc na linha q tiver f'{n}' na coluna Código ISIN 
  print(f'{y_temp}/{x_len}')                                # loop count debugger 4
  time.sleep(15)                                            # just test to avoid trafic ban
  clear_output(wait=True)                                   # debugger refresh 5
dividendos.rename(columns={'Negócios com até':'DataCom', 'Valor (R$)': 'Ult_Dv_B3', 'Relativo a': 'Mês_Ref','Início de Pagamento':'Data_Pag'}, inplace=True)
dividendos['Ult_Dv_B3'] = (dividendos['Ult_Dv_B3'] / 100000000000)
dividendos['12_B3'] = (dividendos['12_B3']/100000000000)
dividendos['Ult_Dv_B3'] = dividendos['Ult_Dv_B3'].astype(str)
dividendos['12_B3'] = dividendos['12_B3'].astype(str)
dividendos['Ult_Dv_B3'] = dividendos['Ult_Dv_B3'].str.replace('.',',')
dividendos['12_B3'] = dividendos['12_B3'].str.replace('.',',')
dividendos                                                  # print finished table

  dividendos['Ult_Dv_B3'] = dividendos['Ult_Dv_B3'].str.replace('.',',')
  dividendos['12_B3'] = dividendos['12_B3'].str.replace('.',',')


Unnamed: 0,Código ISIN,DataCom,Ult_Dv_B3,Mês_Ref,Data_Pag,12_B3,FII
0,BRKNIPCTF001,29/12/2022,94,Dezembro 2022/2022,12/01/2023,124,KNIP11
0,BRKNCRCTF000,29/12/2022,12,Dezembro 2022/2022,12/01/2023,128,KNCR11
0,BRHGLGCTF004,29/12/2022,22,Dezembro/2022,13/01/2023,165,HGLG11
0,BRIRDMCTF004,09/12/2022,701563187,Novembro-2022/2022,16/12/2022,13744345626,IRDM11
0,BRKNRICTF007,29/12/2022,10,Dezembro 2022/2022,13/01/2023,105,KNRI11
0,BRCPTSCTF004,12/12/2022,37,Novembro-2022/2022,19/12/2022,1217,CPTS11
0,BRXPLGCTF002,29/12/2022,74,12-2022/2022,13/01/2023,84,XPLG11
0,BRHCTRCTF003,07/12/2022,11,11-2022/2022,14/12/2022,1667,HCTR11
0,BRRECRCTF004,07/12/2022,735,NOVEMBRO/2022/2022,14/12/2022,130406,RECR11
0,BRMXRFCTF008,29/12/2022,1,Dezembro-2022/2022,13/01/2023,121,MXRF11


In [12]:
var01 = consolidado
var02 = dividendos
consolidado = pd.merge(var01,var02)
consolidado

Unnamed: 0,FII,Ult_Dv_0,3,6,12,Ult_Dv,Pat_Lq,VPA_Rnk,Código ISIN,DataCom,Ult_Dv_B3,Mês_Ref,Data_Pag,12_B3
0,KNIP11,9400,17400,37100,124000,94,"7.645.646.524,33",9480,BRKNIPCTF001,29/12/2022,94,Dezembro 2022/2022,12/01/2023,124
1,KNCR11,12000,34000,71000,131800,120,"5.747.307.324,41",10066,BRKNCRCTF000,29/12/2022,12,Dezembro 2022/2022,12/01/2023,128
2,HGLG11,22000,44000,77000,165000,220,"3.466.816.466,82",14780,BRHGLGCTF004,29/12/2022,22,Dezembro/2022,13/01/2023,165
3,IRDM11,7016,23400,62191,137443,70,"3.389.714.938,91",9304,BRIRDMCTF004,09/12/2022,701563187,Novembro-2022/2022,16/12/2022,13744345626
4,KNRI11,10000,28200,55500,105000,100,"3.867.931.624,08",16012,BRKNRICTF007,29/12/2022,10,Dezembro 2022/2022,13/01/2023,105
5,CPTS11,3700,22700,55700,121700,37,"2.858.127.870,96",8993,BRCPTSCTF004,12/12/2022,37,Novembro-2022/2022,19/12/2022,1217
6,XPLG11,7400,22200,44000,84000,74,"3.102.791.995,75",11449,BRXPLGCTF002,29/12/2022,74,12-2022/2022,13/01/2023,84
7,HCTR11,11000,33000,71500,166700,110,"2.681.663.950,61",12143,BRHCTRCTF003,07/12/2022,11,11-2022/2022,14/12/2022,1667
8,RECR11,7350,17773,47478,130406,74,"2.520.731.349,40",9533,BRRECRCTF004,07/12/2022,735,NOVEMBRO/2022/2022,14/12/2022,130406
9,MXRF11,1000,2800,6100,12100,10,"2.282.646.736,06",1010,BRMXRFCTF008,29/12/2022,1,Dezembro-2022/2022,13/01/2023,121


In [13]:
consolidado.to_excel(r'/fiiscraping.xlsx', sheet_name='Sheet1', index = False)
#!jupyter nbconvert --to html /01_FII_Scraping_Fundsexplorer.ipynb