In [1]:
import httpx
import json
from base64 import b64decode, b64encode
from urllib.parse import unquote, quote
from tqdm import tqdm
import pandas as pd
from pydantic import BaseModel

In [2]:
def decode_params(params: str | bytes) -> dict | list:
    return json.loads(b64decode(params).decode("utf-8"))


def encode_params(params: dict | list | str) -> str:
    return b64encode(
        str(json.dumps(params).replace(" ", "")).encode()
    ).decode("utf-8")

In [3]:
endpoint = "eyJsYW5ndWFnZSI6InB0LWJyIn0="
p = decode_params(endpoint)
print(p)
e = encode_params(p)
print(e)
print(decode_params(e))

{'language': 'pt-br'}
eyJsYW5ndWFnZSI6InB0LWJyIn0=
{'language': 'pt-br'}


In [4]:
def save_json(file, name):
    with open(f"{name}.json", "w") as f:
        f.write(json.dumps(file))

In [5]:
base_url = "https://sistemaswebb3-listados.b3.com.br/listedCompaniesProxy/CompanyCall/"
endpoint_ini = "GetIndustryClassification/"
endpoint_search = "GetInitialCompanies/"

def req(url, params=None):
    res = httpx.get(url, params=params, timeout=120)

    res.raise_for_status()

    return json.loads(res.text)


In [6]:
resp = req(base_url + endpoint_ini + endpoint)
save_json(resp, "base")
resp

[{'sector': 'Bens Industriais',
  'subSectors': [{'describle': 'Comércio',
    'segment': ['Material de Transporte']},
   {'describle': 'Construção e Engenharia',
    'segment': ['Construção Pesada',
     'Engenharia Consultiva',
     'Produtos para Construção']},
   {'describle': 'Máquinas e Equipamentos',
    'segment': ['Armas e Munições',
     'Máq. e Equip. Construção e Agrícolas',
     'Máq. e Equip. Industriais',
     'Motores . Compressores e Outros']},
   {'describle': 'Material de Transporte',
    'segment': ['Material Aeronáutico e de Defesa', 'Material Rodoviário']},
   {'describle': 'Serviços', 'segment': ['Serviços Diversos']},
   {'describle': 'Transporte',
    'segment': ['Exploração de Rodovias',
     'Serviços de Apoio e Armazenagem',
     'Transporte Aéreo',
     'Transporte Ferroviário',
     'Transporte Hidroviário',
     'Transporte Rodoviário']}]},
 {'sector': 'Comunicações',
  'subSectors': [{'describle': 'Mídia',
    'segment': ['Publicidade e Propaganda']},
  

In [7]:
for i in resp:
    print(i['sector'])

Bens Industriais
Comunicações
Consumo Cíclico
Consumo não Cíclico
Financeiro
Materiais Básicos
Outros
Petróleo. Gás e Biocombustíveis
Saúde
Setor Inicial
Tecnologia da Informação
Utilidade Pública


In [8]:
for i in resp:
    for j in i["subSectors"]:
        print(j["describle"])

Comércio
Construção e Engenharia
Máquinas e Equipamentos
Material de Transporte
Serviços
Transporte
Mídia
Telecomunicações
Automóveis e Motocicletas
Comércio
Construção Civil
Diversos
Hoteis e Restaurantes
Tecidos. Vestuário e Calçados
Utilidades Domésticas
Viagens e Lazer
Agropecuária
Alimentos Processados
Bebidas
Comércio e Distribuição
Produtos de Uso Pessoal e de Limpeza
Exploração de Imóveis
Holdings Diversificadas
Intermediários Financeiros
Previdência e Seguros
Securitizadoras de Recebíveis
Serviços Financeiros Diversos
Embalagens
Madeira e Papel
Materiais Diversos
Mineração
Químicos
Siderurgia e Metalurgia
Outros
Petróleo. Gás e Biocombustíveis
Comércio e Distribuição
Equipamentos
Medicamentos e Outros Produtos
Serv.Méd.Hospit..Análises e Diagnósticos
Computadores e Equipamentos
Programas e Serviços
Água e Saneamento
Energia Elétrica
Gás


In [9]:
for i in resp:
    for j in i["subSectors"]:
        for k in j["segment"]:
            print(k)

Material de Transporte
Construção Pesada
Engenharia Consultiva
Produtos para Construção
Armas e Munições
Máq. e Equip. Construção e Agrícolas
Máq. e Equip. Industriais
Motores . Compressores e Outros
Material Aeronáutico e de Defesa
Material Rodoviário
Serviços Diversos
Exploração de Rodovias
Serviços de Apoio e Armazenagem
Transporte Aéreo
Transporte Ferroviário
Transporte Hidroviário
Transporte Rodoviário
Publicidade e Propaganda
Telecomunicações
Automóveis e Motocicletas
Eletrodomésticos
Produtos Diversos
Tecidos. Vestuário e Calçados
Incorporações
Aluguel de carros
Programas de Fidelização
Serviços Educacionais
Hotelaria
Restaurante e Similares
Acessórios
Calçados
Fios e Tecidos
Vestuário
Eletrodomésticos
Móveis
Utensílios Domésticos
Atividades Esportivas
Bicicletas
Brinquedos e Jogos
Produção de Eventos e Shows
Viagens e Turismo
Agricultura
Açucar e Alcool
Alimentos Diversos
Carnes e Derivados
Laticínios
Cervejas e Refrigerantes
Alimentos
Produtos de Limpeza
Produtos de Uso Pessoa

In [10]:
search_endpoint = "eyJsYW5ndWFnZSI6InB0LWJyIiwicGFnZU51bWJlciI6MSwicGFnZVNpemUiOjIwLCJzZWdtZW50IjoiRXhwbG9yYSVDMyVBNyVDMyVBM28uJTIwUmVmaW5vJTIwZSUyMERpc3RyaWJ1aSVDMyVBNyVDMyVBM28ifQ=="
raw = decode_params(search_endpoint)
raw

{'language': 'pt-br',
 'pageNumber': 1,
 'pageSize': 20,
 'segment': 'Explora%C3%A7%C3%A3o.%20Refino%20e%20Distribui%C3%A7%C3%A3o'}

In [11]:
params = {
    "language": "pt-br",
    "pageNumber": 1,
    "pageSize": 20,
    "segment": "Material%20de%20Transporte",
}

In [12]:
unq = unquote(raw["segment"])
unq

'Exploração. Refino e Distribuição'

In [13]:
q = quote(unq)
q

'Explora%C3%A7%C3%A3o.%20Refino%20e%20Distribui%C3%A7%C3%A3o'

In [14]:
segment = "Exploração. Refino e Distribuição"

def get_segment(segment):

    params_raw = {
        "language": "pt-br",
        "pageNumber": 1,
        "pageSize": 100,
        "segment": quote(segment),
    }

    params = encode_params(params_raw)

    return req(base_url + endpoint_search + params)

In [15]:
resps = {}

for i in tqdm(resp):
    for j in i["subSectors"]:
        for segment in j["segment"]:
            resps[segment] = get_segment(segment)

save_json(resps, "out")

print("done!")

 33%|███▎      | 4/12 [00:06<00:13,  1.73s/it]


KeyboardInterrupt: 

In [None]:
pd.json_normalize(resp)
#criar modelo com pydantic e ajeitar df, dps ver se vai pra csv ou o q

Unnamed: 0,sector,subSectors
0,Bens Industriais,"[{'describle': 'Comércio', 'segment': ['Materi..."
1,Comunicações,"[{'describle': 'Mídia', 'segment': ['Publicida..."
2,Consumo Cíclico,"[{'describle': 'Automóveis e Motocicletas', 's..."
3,Consumo não Cíclico,"[{'describle': 'Agropecuária', 'segment': ['Ag..."
4,Financeiro,"[{'describle': 'Exploração de Imóveis', 'segme..."
5,Materiais Básicos,"[{'describle': 'Embalagens', 'segment': ['Emba..."
6,Outros,"[{'describle': 'Outros', 'segment': ['Outros']}]"
7,Petróleo. Gás e Biocombustíveis,[{'describle': 'Petróleo. Gás e Biocombustívei...
8,Saúde,"[{'describle': 'Comércio e Distribuição', 'seg..."
9,Setor Inicial,[]
