Skip to content

pbizil/gaia_bndes

Repository files navigation

🏆 Este projeto consiste em uma aplicação vencedora do Prêmio Dados Abertos para o Desenvolvimento, realizado pelo BNDES.

Gaia é um robô que identifica, através de informações sobre o CNPJ, a probabilidade da empresa ser uma poluidora do meio ambiente. O nome do modelo faz alusão à deusa da mitologia grega, que personifica a deusa da Terra, geradora de todos os deuses e criadora do planeta.

Esta aplicação foi criada com intuito de auxiliar as equipes de negócio BNDES a identificar como a carteira de clientes está exposta ao risco ambiental.

Links importantes

Produtos

  • Análise exploratória dos dados de operações diretas e indiretas automáticas do BNDES;
  • Modelo de identificação do potencial poluidor de determinada empresa, a partir dos dados do CNPJ;
  • Dashboard em shiny com análise dos resultados das previsões do modelo Gaia sobre os dados de operações automáticas indiretas a partir de 2016;

Bases de dados

  • Operações indiretas automáticas do BNDES

    • Sobre: Informações detalhadas sobre as operações indiretas contratadas de forma automática. Nas operações indiretas, a análise do financiamento é feita pela instituição financeira credenciada, que assume o risco de não pagamento da operação. É ela também que negocia com o cliente as condições do financiamento, como prazo de pagamento, spread de risco e garantias exigidas, respeitando algumas regras e limites definidos pelo BNDES. Não foram incluídas nesta listagem as operações do Cartão BNDES e nem as contratadas com Pessoas Físicas. Dados, em reais, a partir de 2002;
    • Função: principal dataset deste projeto. Com estes dados foi possível analisar como está a carteira de clientes de operações indiretas do BNDES sob a ótica dos riscos ambientais.
  • Cadastro de empresas potencialmente poluidoras

    • Sobre: Relação das pessoas jurídicas que efetuaram a inscrição no Cadastro Técnico Federal de Atividades Potencialmente Poluidoras e Utilizadoras de Recursos Naturais – CTF/APP. Neste link consta apenas uma parte de base de dados, que está dividada por Unidade Federativa;
    • Função: Dados sobre CNPJ de empresas consideradas potencialmente poluidoras.
  • Coleção de CNPJs e CPFs brasileiros

    • Sobre: Documentos coletados de dados públicos, a partir dos seguintes datasets: socios-brasil, gastos-diretos, gastos-deputados, eleicoes. Nota: os CPFs foram ofuscados por questões de privacidade;
    • Função: Coletou-se um conjunto de CNPJs que não constam na base de Cadastro de Empresas potencialmente poluidoras, para identificar padrões de empresas que não seria, a princípio, poluidoras.
  • Emissão de Poluentes Atmosféricos

    • Sobre: Relação das pessoas jurídicas inscritas no Cadastro Técnico Federal de Atividades Potencialmente Poluidoras e Utilizadoras de Recursos Naturais – CTF/APP e cadastradas em atividades para as quais é obrigatório o preenchimento do formulário “Emissões de Poluentes Atmosféricos” no Relatório Anual de Atividades Potencialmente Poluidoras e Utilizadoras de Recursos Ambientais – RAPP;
    • Função: Dados que serviram para identificar concentração de poluentes atmosféricos por municípios.
  • Acidentes ambientais

    • Sobre: Comunicações de acidentes ambientais registradas no Sistema Nacional de Emergências Ambientais (Siema);
    • Função: Dados para de georeferenciamento, para serem comparados com a localização das operações do BNDES nos municípios.
  • Áreas embargadas

    • Sobre: Dataset de Áreas Embargadas pelo IBAMA;
    • Função: Dados para de georeferenciamento, para serem comparados com a localização das operações do BNDES nos municípios.
  • Unidades de conservação

    • Sobre: Lista das UCs ativas no CNUC com respectivas categorias de manejo, área, esfera de governo e ano de criação;
    • Função: Dados para de georeferenciamento, para serem comparados com a localização das operações do BNDES nos municípios.
      • Obs.: dados coletados com pacote do GeoBR
  • Ocorrências de Incêndio Florestais

    • Sobre: Registro de Ocorrências de Incêndio verificadas pelas brigadas Prevfogo;
    • Função: Dados para de georeferenciamento, para serem comparados com a localização das operações do BNDES nos municípios.
  • Reservas indígenas

    • Sobre: Tabelas que contém dados sobre as terras indígenas, aldeias, Coordenações Regionais e Coordenações Técnicas Locais da Funai.;
    • Função: Dados para de georeferenciamento, para serem comparados com a localização das operações do BNDES nos municípios
      • Obs.: dados coletados com pacote do GeoBR
  • Geolocalização dos municípios brasileiros

    • Sobre: é um dataset simples, mas eficaz, latitude e longitude dos municípios brasileiros;
    • Função: este dataset foi útil para geolocalizar empresas
  • PIB municipal

    • Sobre: São apresentados, a preços correntes, os valores adicionados brutos dos três grandes setores de atividade econômica – Agropecuária, Indústria e Serviços – bem como os impostos, líquidos de subsídios, o PIB e o PIB per capita;
    • Função: útil para AED dos dados de financiamento

Modelagem

O modelo preditivo Gaia foi desenvolvido com redes neurais através da biblioteca LightAutoML (LAMA). Para processar os textos de variáveis como razão social e CNAE dos clientes, utilizou-se do modelo de vetorização pré-treinado BERT multilingual base model (cased), desenvolvido pelo Google Research.

Features do dashboard

Para analisar os resultados do modelo, criou-se um dashboard com as seguintes funcionalidades:

  • Análise Exploratória dos Dados sobre de dados de financiamentos diretos e indiretos;
  • Análise Exploratória dos Dados sobre os resultados gerados pelo modelo Gaia;
  • Painel de consulta dos riscos ambientais, por município e CNAE, sobre operações indiretas automáticas; Mapas interativos sobre:
    • Distribuição espacial das operações de financiamento, sejam poluidoras ou não, em comparação com a emissão de carbono;
    • Distribuição espacial das operações de financiamento, sejam poluidoras ou não, com áreas de Unidade de Conservação, Terras Indígenas e Áreas Embargadas;
    • Distribuição espacial das operações de financiamento, sejam poluidoras ou não, com pontos de acidentes ambientais e incêndios florestais.

Stack de tecnologia e ferramentas

  • Linguagem Python para extração e organizacao dados, além da modelagem do Gaia;
  • Linguagem R para visualização;
  • SQL para requisição de dados de CNPJ;
  • ShinyDashboard para criação do interface de visualização;
  • API de Google Maps Services para extração de geocode;
  • Leaflet para visualização de dados geolocalizados;
  • LightAutoML (LAMA) para construção do modelo Gaia;
  • Modelo BERT para processar os textos em dados tabulares;

Autores

Créditos

Agradecemos a todos projetos open-source que tornaram o desenvolvimento dessa solução possível. Tks! 🙂

  • Minha Receita: API web para consulta de informações do CNPJ (Cadastro Nacional da Pessoa Jurídica) da Receita Federal.
  • Brasil.io: referência para quem procura ou quer publicar dados abertos sobre o Brasil de forma organizada, legível por máquina e usando padrões abertos.
  • BaseDosDados: plataforma que visa facilitar o acesso a base de dados nacionais e internacionais.
  • GeoBR: pacote em R com dados georeferenciados do Brasil sobre diversos temas. Neste trabalho, utilizou-se o georeferenciamento de Reservas Indígenas (FUNAI) e Unidades de Conservação (IBAMA).
  • LightAutoML (LAMA): é uma framework open source de AutoML desenvolvida pelo Sberbak AI Lab AutoML Group. É uma ferramenta para desenvolvimento de modelos que envolvam problemas de classificação binária, multiclass e regressão.
  • HuggingFace: Comunidade de AI para compartilhar modelos pré-treinados, principalmente voltados a processamento de linguagem natural.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published