In [14]:
import pandas as pd
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.action_chains import ActionChains
import time
from unidecode import unidecode

url_setores = 'https://investidor10.com.br/setores/'

def buscar_ativos(url, setor, subsetor):
    options = Options()
    options.add_argument("--headless")
    
    driver = webdriver.Chrome(options=options)
    driver.get(url)
    
    WebDriverWait(driver, 20).until(EC.presence_of_element_located((By.ID, "select2-sector-container")))
    time.sleep(5)

    try:
        titulos = driver.find_elements(By.CLASS_NAME, "actions-title")
        titulos_text = [titulo.text for titulo in titulos]
    except:
        titulos_text = False

    try:
        pag = driver.find_elements(By.CLASS_NAME, "pagination-link")
        pag_num = [int(p.text) for p in pag if p.text.isnumeric()]
    except:
        pag_num = False

    if pag_num:
        for i in range(2, pag_num[-1]+1):
            driver.get(f'{url}?page={i}')
            WebDriverWait(driver, 20).until(EC.presence_of_element_located((By.CLASS_NAME, "actions-title")))
            time.sleep(5)

            titulos = driver.find_elements(By.CLASS_NAME, "actions-title")
            titulos_text += [titulo.text for titulo in titulos]

    driver.quit()

    if titulos_text:
        tickers = pd.DataFrame(titulos_text, columns=['ticker'])
        tickers['ticker'] = tickers['ticker'].str.extract(r"(\w*)$")[0]
        tickers['setor'] = setor
        tickers['subsetor'] = subsetor
    else:
        tickers = pd.DataFrame()

    return tickers

def buscar_setores(url):
    options = Options()
    options.add_argument("--headless")
    
    driver = webdriver.Chrome(options=options)
    driver.get(url)
    
    WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.CLASS_NAME, "actions-title")))
    time.sleep(2)

    select = driver.find_element(By.ID, "select2-sector-container")
    select.click()
    time.sleep(1)

    setores = driver.find_elements(By.CLASS_NAME, "select2-results__option")
    setores_text = [setor.text for setor in setores]

    driver.quit()

    return setores_text

def buscar_subsetores(url, setor):
    options = Options()
    options.add_argument("--headless")
    
    driver = webdriver.Chrome(options=options)
    driver.get(url)
    
    WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.CLASS_NAME, "actions-title")))
    time.sleep(2)

    setor_select = driver.find_element(By.ID, "select2-sector-container")

    action = ActionChains(driver)
    action.move_to_element(setor_select).perform()
    time.sleep(1)

    select = driver.find_element(By.ID, "select2-subsector-container")
    select.click()
    time.sleep(1)

    subsetores = driver.find_elements(By.CLASS_NAME, "select2-results__option")
    subsetores_text = [(setor, subsetor.text) for subsetor in subsetores]

    driver.quit()

    df = pd.DataFrame(subsetores_text, columns=['setor', 'subsetor'])

    return df

def buscar_ativos_por_subsetor(url, setor, subsetor):
    setor = unidecode(setor).replace(' ', '-').replace(',', '').lower()
    subsetor = unidecode(subsetor).replace(' ', '-').replace(',', '').lower()

    url_subsetor = f'{url}{setor}/{subsetor}'

    tickers = buscar_ativos(url_subsetor, setor, subsetor)

    return tickers

In [13]:
setores = pd.read_csv('./data/ativos/setor/setores_acentuados.csv')['setor'].to_list()

subsetores = pd.DataFrame(columns=['setor', 'subsetor'])
for setor in setores:
    print(setor.title())
    setor = unidecode(setor).replace(' ', '-').lower()
    url_subsetores = url_setores + setor
    subsetores_group = buscar_subsetores(url_subsetores, setor)
    subsetores = pd.concat([subsetores, subsetores_group])

subsetores = subsetores[subsetores['subsetor'] != 'TODOS']
subsetores.to_csv('./data/ativos/setor/subsetores2.csv', index=False)

Bens Industriais


KeyboardInterrupt: 

In [15]:
from tqdm import tqdm

subsetores = pd.read_csv('./data/ativos/setor/subsetores.csv')

tickers = pd.DataFrame(columns=['ticker', 'setor', 'subsetor'])
for row in tqdm(subsetores.itertuples(index=False), total=len(subsetores)):
    print(row.setor.title(), row.subsetor.title())
    tickers_group = buscar_ativos_por_subsetor(url_setores, row.setor, row.subsetor)
    if tickers_group.empty:
        print('Nenhum ativo encontrado')
        continue
    tickers = pd.concat([tickers, tickers_group])

  0%|          | 0/45 [00:00<?, ?it/s]

Bens Industriais Comércio


  2%|▏         | 1/45 [00:16<12:09, 16.59s/it]

Bens Industriais Construção E Engenharia


  4%|▍         | 2/45 [00:33<11:53, 16.59s/it]

Bens Industriais Máquinas E Equipamentos


  7%|▋         | 3/45 [00:49<11:32, 16.48s/it]

Bens Industriais Material De Transporte


  9%|▉         | 4/45 [01:05<11:14, 16.44s/it]

Bens Industriais Serviços


 11%|█         | 5/45 [01:22<10:54, 16.36s/it]

Bens Industriais Transportes


 13%|█▎        | 6/45 [01:38<10:39, 16.39s/it]

Consumo Ciclico Automóveis E Motocicletas


 16%|█▌        | 7/45 [01:54<10:21, 16.36s/it]

Consumo Ciclico Comércio


 18%|█▊        | 8/45 [02:11<10:07, 16.41s/it]

Consumo Ciclico Construção Civil


 20%|██        | 9/45 [02:27<09:50, 16.40s/it]

Consumo Ciclico Diversos


 22%|██▏       | 10/45 [02:43<09:31, 16.34s/it]

Consumo Ciclico Hoteis E Restaurantes


 24%|██▍       | 11/45 [03:00<09:14, 16.32s/it]

Consumo Ciclico Mídia


 27%|██▋       | 12/45 [03:16<08:58, 16.31s/it]

Consumo Ciclico Tecidos, Vestuário E Calçados


 29%|██▉       | 13/45 [03:33<08:52, 16.64s/it]

Consumo Ciclico Utilidades Domésticas


 31%|███       | 14/45 [03:50<08:36, 16.65s/it]

Consumo Ciclico Viagens E Lazer


 33%|███▎      | 15/45 [04:07<08:18, 16.62s/it]

Consumo Nao Ciclico Agropecuária


 36%|███▌      | 16/45 [04:23<07:56, 16.44s/it]

Consumo Nao Ciclico Alimentos Processados


 38%|███▊      | 17/45 [04:39<07:39, 16.41s/it]

Consumo Nao Ciclico Bebidas


 40%|████      | 18/45 [04:55<07:18, 16.26s/it]

Consumo Nao Ciclico Comércio E Distribuição


 42%|████▏     | 19/45 [05:12<07:05, 16.37s/it]

Consumo Nao Ciclico Diversos


 44%|████▍     | 20/45 [05:28<06:52, 16.51s/it]

Consumo Nao Ciclico Produtos De Uso Pessoal E De Limpeza


 47%|████▋     | 21/45 [05:46<06:42, 16.78s/it]

Financeiro Exploração De Imóveis


 49%|████▉     | 22/45 [06:03<06:25, 16.77s/it]

Financeiro Holdings Diversificadas


 51%|█████     | 23/45 [06:19<06:07, 16.71s/it]

Financeiro Intermediários Financeiros


 53%|█████▎    | 24/45 [06:36<05:50, 16.70s/it]

Financeiro Outros


 56%|█████▌    | 25/45 [06:52<05:33, 16.65s/it]

Financeiro Previdência E Seguros


 58%|█████▊    | 26/45 [07:09<05:16, 16.66s/it]

Financeiro Securitizadoras De Recebíveis


 60%|██████    | 27/45 [07:25<04:58, 16.58s/it]

Nenhum ativo encontrado
Financeiro Serviços Financeiros Diversos


 62%|██████▏   | 28/45 [07:42<04:42, 16.65s/it]

Materiais Basicos Embalagens


 64%|██████▍   | 29/45 [07:59<04:25, 16.59s/it]

Nenhum ativo encontrado
Materiais Basicos Madeira E Papel


 67%|██████▋   | 30/45 [08:16<04:14, 16.94s/it]

Materiais Basicos Materiais Diversos


 69%|██████▉   | 31/45 [08:33<03:55, 16.81s/it]

Materiais Basicos Mineração


 71%|███████   | 32/45 [08:51<03:42, 17.10s/it]

Materiais Basicos Químicos


 73%|███████▎  | 33/45 [09:08<03:27, 17.27s/it]

Materiais Basicos Siderurgia E Metalurgia


 76%|███████▌  | 34/45 [09:25<03:08, 17.13s/it]

Petroleo Gas E Biocombustiveis Petróleo, Gás E Biocombustíveis


 78%|███████▊  | 35/45 [09:42<02:51, 17.10s/it]

Saude Comércio E Distribuição


 80%|████████  | 36/45 [09:59<02:33, 17.07s/it]

Saude Equipamentos


 82%|████████▏ | 37/45 [10:16<02:15, 16.92s/it]

Saude Medicamentos E Outros Produtos


 84%|████████▍ | 38/45 [10:33<01:59, 17.07s/it]

Saude Serviços Médicos Hospitalares, Análises E Diagnósticos


 87%|████████▋ | 39/45 [10:51<01:44, 17.40s/it]

Tecnologia Da Informacao Computadores E Equipamentos


 89%|████████▉ | 40/45 [11:08<01:25, 17.17s/it]

Tecnologia Da Informacao Programas E Serviços


 91%|█████████ | 41/45 [11:25<01:07, 16.99s/it]

Telecomunicacoes Telecomunicações


 93%|█████████▎| 42/45 [11:42<00:50, 16.99s/it]

Utilidade Publica Água E Saneamento


 96%|█████████▌| 43/45 [11:59<00:34, 17.06s/it]

Utilidade Publica Energia Elétrica


 98%|█████████▊| 44/45 [12:16<00:16, 16.99s/it]

Utilidade Publica Gás


100%|██████████| 45/45 [12:32<00:00, 16.73s/it]


In [18]:
tickers['setor'] = tickers['setor'].str.replace('-', ' ').str.title()
tickers['subsetor'] = tickers['subsetor'].str.replace('-', ' ').str.title()
tickers.to_csv('./data/ativos/tickers2.csv', index=False)