# Webscraping na B3
### Composição de índices
- tutorial por @victordhn

### Alguns pontos importantes:
- É preciso usar o tag exato do índice na B3 (alguns exemplos: IBOV, IBXX, IBXL, IBRA, IGCX, ITAG, IGNM, IGCT, IDIV, MLCX, SMLL, IVBX, ICO2, ISEE, ICON, IEEX, IFNC, IMOB)
- Os pacotes utilizados nesse código mudam constantemente, assim como o site de B3. Vou tentar manter o status do código atualizado
- A data do último teste do código foi 09/07/2023: funcionando
- O programa baixa e deleta o arquivo da B3 no seu computador, então pode existir algum problema caso seu sistema recuse o download.
- Para sanar o problema acima, é possível rodar o programa no Google Colab, que executa o download direto para o ambiente do site e não para sua máquina

### Libraries utilizadas:
- selenium
- os
- glob
- time
- numpy
- pandas

In [1]:
import numpy as np
import pandas as pd
from selenium import webdriver
from selenium.webdriver.common.by import By
from time import sleep

# para ignorar uns warnings chatos do Jupyter
import warnings
warnings.filterwarnings('ignore')

- Muita atenção aqui pois você vai precisar alterar o código e colocar o endereço da sua pasta padrão de downloads

In [2]:
# Vamos definir uma função para facilitar na hora de executar para diferentes índices
def composicao_indice(indice,espera=2):
    
    # Aqui vamos utilizar o selenium para o webscraping. 
    # Pra resumir, vamos rodar um Chrome através do Selenium, iremos na url do índice na B3 e vamos procurar pelo link chamado 'Download' nos elementos da página.
    driver = webdriver.Chrome()
    driver.get('https://sistemaswebb3-listados.b3.com.br/indexPage/day/'+indice+'?language=pt-br')
    elementos = driver.find_elements(By.LINK_TEXT, 'Download')
    sleep(espera) # A função sleep apenas dá um tempo para que a página abra corretamente
    
    # Os elementos ficam armazenados na lista. Como só tem um link_text download, vamos executar o método click nele para começar o download
    elementos[0].click()
    sleep(espera)
    
    # Esta parte utiliza o package glob para armazenar o nome de todos arquivos csv da pasta download numa lista
    # Em seguida, vamos utilizar o mais recente, que é justamente o que 'acabamos' de baixar
    import glob
    import os
    list_of_files = glob.glob('C:/Users/Victor/Downloads/*.csv') # UTILIZAR A SUA PASTA DOWNLOADS
    latest_file = max(list_of_files, key=os.path.getctime)
    
    df = pd.read_csv(latest_file,sep=';',encoding='ISO-8859-1',skipfooter=2,thousands='.',decimal=',',header=1,index_col=False)
    
    os.remove(latest_file) # este comando deleta o arquivo logo após o seu conteudo ser passado pra variável df
    
    return df

In [3]:
IBOV = composicao_indice('IBOV')

In [4]:
IBOV

Unnamed: 0,Código,Ação,Tipo,Qtde. Teórica,Part. (%)
0,RRRP3,3R PETROLEUM,ON NM,234689601,0.365
1,ALSO3,ALIANSCSONAE,ON NM,532365440,0.654
2,ALPA4,ALPARGATAS,PN N1,201952502,0.090
3,ABEV3,AMBEV S/A,ON,4386652506,3.142
4,ARZZ3,AREZZO CO,ON EJ NM,60758326,0.245
...,...,...,...,...,...
81,VALE3,VALE,ON NM,4035078991,12.743
82,VIIA3,VIA,ON NM,1576975642,0.161
83,VBBR3,VIBRA,ON NM,1114442976,0.984
84,WEGE3,WEG,ON NM,1260665218,2.250


In [5]:
IBrX_50 = composicao_indice('IBXL')

In [6]:
IBrX_50

Unnamed: 0,Código,Ação,Tipo,Qtde. Teórica,Part. (%)
0,RRRP3,3R PETROLEUM,ON NM,234689601,0.404
1,ABEV3,AMBEV S/A,ON,4386652506,3.473
2,ASAI3,ASSAI,ON NM,1190824431,0.889
3,AZUL4,AZUL,PN N2,327646296,0.337
4,B3SA3,B3,ON NM,5733398051,4.389
5,BBSE3,BBSEGURIDADE,ON NM,671682536,1.122
6,BBDC4,BRADESCO,PN EJ N1,5146612491,4.467
7,BBAS3,BRASIL,ON NM,1420731069,3.784
8,BRFS3,BRF SA,ON NM,1076512610,0.579
9,BPAC11,BTGP BANCO,UNT N2,1225470424,2.104


In [7]:
SMALL_CAPS = composicao_indice('SMLL')

In [8]:
SMALL_CAPS

Unnamed: 0,Código,Ação,Tipo,Qtde. Teórica,Part. (%)
0,RRRP3,3R PETROLEUM,ON NM,234689601,2.293
1,TTEN3,3TENTOS,ON NM,113777586,0.466
2,ABCB4,ABC BRASIL,PN EJS N2,70127732,0.385
3,AERI3,AERIS,ON NM,227070796,0.094
4,AESB3,AES BRASIL,ON NM,315209392,1.159
...,...,...,...,...,...
113,VIVA3,VIVARA S.A.,ON NM,99216524,0.884
114,VULC3,VULCABRAS,ON NM,73359191,0.387
115,WIZC3,WIZ CO,ON NM,75275228,0.148
116,YDUQ3,YDUQS PART,ON NM,296015511,1.793
