# Conexão API - CVM - Extração de Dados

Busca os dados da cvm para consulta de documentos vinculados.

In [0]:
%run /Users/wandrieli.barbosa@compasso.com.br/Projeto_Triller_Engineer/funcoes

'\n- requests\n    Para as chamadas das APIs\n- time\n     Para pausas entre as chamadas, ajuda a evitar bloqueios\n- ThreadPoolExecutor\n    Para chamadas paralelas, aqui é usado para diminuir o tempo de execução na busca dos CNPJs listados\n- pyspark.sql.functions\n    Para manipulação de dados em SQL\n\n'

'\n   Faz o download de um arquivo csv de uma URL e salva em um arquivo local\n   local_path: Caminho local onde o arquivo será salvo, será informado no arquivo principal\n   url: URL da API em string\n    \n'

'\nCarrega o arquivo csv em um dataframe\nspark: SparkSession\nfile_path: Caminho do arquivo csv\nsep: Separador do arquivo csv\nheader: Se o arquivo csv tem cabeçalho\n'

'\nPadroniza os CNPJs, removendo os caracteres que não sejam números.\nA APIBRASIL aceita somente chamada com CNPJ em números\ndf: Dataframe com os CNPJs\n'

'\nGarante que a tabela seja removida e cria uma nova com os dados no Hive Metastore\ndf: Dataframe com os dados\ntabela: Nome da tabela no Hive Metastore, será informada no notebook principal\nmodo: Modo de escrita no Hive Metastore, nesse caso (overwrite) sobrescreve se a tabela já existir\n\n'

'\nConsulta dados de um CNPJ em uma API, nesse caso a APIBRASIL\nCNPJ já deve estar padronizado, sem caracteres especiais, conforme listagem no notebook\nSe sucesso, retorna as informações principais\nSe erro, retorna o CNPJ com a informação de erro\nFoi incluída uma "pausa" para evitar bloqueios, pois são muitos CNPJs\n\n'

'\nConsulta os CNPJs listados de forma paralela\nUsa o ThreadPoolExecutor para chamar a API de forma paralela, evitando demora no retorno dos dados\n'

'\nPipeline para consultar os CNPJs e salvar no Hive Metastore\nPega os CNPJs distintos da tabela de origem e salva no Hive Metastore\ntabela_origem: Tabela de origem informada no notebook principal\ntabela_destino: Tabela de destino informada no notebook principal\nmax_workers: Número de threads para consulta paralela\n\n'

In [0]:
file_path = download_csv(url, local_path)

df = spark.read.csv(file_path, header=True, sep=";")
df = carrega_dados(spark, file_path)
df = trata_cnpj(df)
salva_dados(df, "cvm_bruto")

"""
url: endereço da API
local_path: caminho de armazenamento do File System, nesse caso salvo de forma temporária

Chama as funções:
- file_path para baixar o aquivo
- carrega_dados para carregar
- trata_cnpjs para tratar os CNPJs buscados pela API
- salva_dados para salvar os dados na tabela destino que nesse caso é a cvm_bruto
"""

Arquivo salvo em: /Volumes/projeto_triller/bd_triller/arquivos_projeto/cad_fi.csv


'\nurl: endereço da API\nlocal_path: caminho de armazenamento do File System, nesse caso salvo de forma temporária\n\nChama as funções:\n- file_path para baixar o aquivo\n- carrega_dados para carregar\n- trata_cnpjs para tratar os CNPJs buscados pela API\n- salva_dados para salvar os dados na tabela destino que nesse caso é a cvm_bruto\n'

'\nConsulta a lista de estados do IBGE na BRasilAPI\nRetorna a sigla e o nome de cada estado\nSe erro, retorna o estado com a informação de erro\n\n'

'\nPipeline completo para UFs\nConsulta a API\nCria o DataFrame e salva em uma tabela de destino informada no notebook principal\n\n'

In [0]:
%sql
select * from cvm_bruto;

TP_FUNDO,CNPJ_FUNDO,DENOM_SOCIAL,DT_REG,DT_CONST,CD_CVM,DT_CANCEL,SIT,DT_INI_SIT,DT_INI_ATIV,DT_INI_EXERC,DT_FIM_EXERC,CLASSE,DT_INI_CLASSE,RENTAB_FUNDO,CONDOM,FUNDO_COTAS,FUNDO_EXCLUSIVO,TRIB_LPRAZO,PUBLICO_ALVO,ENTID_INVEST,TAXA_PERFM,INF_TAXA_PERFM,TAXA_ADM,INF_TAXA_ADM,VL_PATRIM_LIQ,DT_PATRIM_LIQ,DIRETOR,CNPJ_ADMIN,ADMIN,PF_PJ_GESTOR,CPF_CNPJ_GESTOR,GESTOR,CNPJ_AUDITOR,AUDITOR,CNPJ_CUSTODIANTE,CUSTODIANTE,CNPJ_CONTROLADOR,CONTROLADOR,INVEST_CEMPR_EXTER,CLASSE_ANBIMA
,684000121,,20030430,19941220.0,19,20000801.0,,20000801,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
,731000137,,20030430,19940518.0,40681,19960126.0,,19960126,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
,732000181,,20030430,19940524.0,27,19990903.0,,19990903,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
,740000128,60.0,20030430,19940523.0,40690,19960610.0,,19960610,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
,749000139,,20030430,19940512.0,35,20000626.0,,20000626,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
,756000130,,20030430,19940504.0,43,20050310.0,,20050310,,20040501.0,20050430.0,,,,,,,,,,,,,,691692011.0,20050309.0,,,,,,,,,,,,,,
,759000174,60.0,20030430,19940503.0,40703,19990201.0,,19990201,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
,765000121,,20030430,19940512.0,51,20020830.0,,20020830,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
,777000156,,20030430,19940607.0,42820,20050331.0,,20050331,,,,,,,,,,,,,,,,,20504559737.0,20050330.0,,,,,,,,,,,,,,
,16903000160,,20030430,19940603.0,60,19990909.0,,19990909,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
