Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Possível erro na coluna "opção_pelo_mei" #19

Open
rv-alberto opened this issue Oct 22, 2020 · 8 comments
Open

Possível erro na coluna "opção_pelo_mei" #19

rv-alberto opened this issue Oct 22, 2020 · 8 comments

Comments

@rv-alberto
Copy link

Antes de mais nada, parabéns pelo trabalho com esse pacote e muito obrigado por disponibilizar os csv's. É incrível o benefício que está gerando ao facilitar o acesso a esses dados!

Trabalhando com o csv da ultima atualização (set/2020), notei um número muito grande de células vazias na coluna "opção_pelo_mei", que deveria ter valores "S" ou "N". Eu estava procurando a quantidade de MEI na situação cadastral "8" (que significa "baixado") e o resultado foi absurdamente pequeno, se não me engano 225 linhas em toda a base, quando na verdade deveria ter sido algo na casa dos milhões.

Pensei ser algum erro no download ou no carregamento da base que fiz por aqui. Mas repeti o processo e deu a mesma coisa. Pode me ajudar a solucionar essa questão?

@georgevbsantiago
Copy link
Owner

Obrigado por reportar. Vou verificar.

@georgevbsantiago
Copy link
Owner

Olá, @rv-alberto
Qual script você usou para gerar a consulta?
E com base em qual informação você acha que deveria ter milhões de registros na combinação de pesquisa que você quer fazer?
Você já tentou fazer a mesma pesquisa nas bases mais antigas disponibilizadas no README para comprar os resultados?

@rv-alberto
Copy link
Author

George, rodei aqui com a base de 04/jul também, veja o resultado de cruzar as colunas "situação cadastral" e "opção pelo mei".
Em julho havia 5.252.179 linhas na intersecção de "situação cadastral: 8" e "opção pelo MEI: S". Em setembro cai para 1.967.

Base de julho:

           1        2        3        4        8
        1401  1106814    17344   163727  1223607
  N    75208  9126028   145524  3255352 13194478
  S     2803 10852102     5441    45060  5252179

Base de setembro:

           1        2        3        4        8
        1420  1115450    17438   162198  1235873
  N    78608  9768729   147602  3260847 18630507
  S       98 10728239     3951      837     1967

O código foi basicamente carregar os dados (usei R) e cruzar essas colunas usando a função table().

cnpj_0 <- fread(file = "cnpj_dados_cadastrais_pj.csv",
                 sep = "#",
                 select = c(4, 8, 9, 14, 15, 16, 23, 36))

table(cnpj_0$opcao_pelo_mei, cnpj_0$situacao_cadastral)

Já vi algumas funções terem dificuldade de carregar a base da RFB, mas usando a fread() nunca tive problema. Esses números que eu cheguei estão corretos?

@georgevbsantiago
Copy link
Owner

Ok. Obrigado pela resposta. Vou verificar. Att

@georgevbsantiago
Copy link
Owner

georgevbsantiago commented Oct 26, 2020

Olá, @rv-alberto

Fiz algumas análises pelo SQLite e chegamos aos mesmos resultados.

SELECT *
FROM cnpj_dados_cadastrais_pj
WHERE situacao_cadastral = "08"  AND opcao_pelo_mei = "S"

Julho:
5.252.179

Setembro:
1.967

Veja. O código de tratamento dos dados não altera esse tipo de informação. Apenas separamos os dados para disponibilizá-los de forma tabula, para pronto uso em sistemas de banco de dados ou softwares de análise. Ou seja, essa informação é originária da base de dados da Receita Federal.

Esse seu achado é curioso, mas deve ter a ver como a Receita Federal cadastra as informações na base dela.
Nos dados liberados em julho, constavam 19.670.264 empresas com situacao_cadastral = "08".
Já nos dados de setembro, esse valor foi de 19.868.347.

Ao comparar esses dados (situação cadastral) com os dados opcao_pelo_mei, verifica-se que a Receita Federal alterou os dados dos MEI de opcao_pelo_mei = "S" para "N" das pessoas jurídicas em situacao_cadastral = "08".
Contudo, não saberia dizer a razão dessa alteração.

Você poderia fazer um pedido de acesso à informação na Receita Federal questionando essa questão e nos informar qual foi a resposta?

@rv-alberto
Copy link
Author

Excelente George, eu imaginava que o problema pudesse estar na base original da RFB mesmo. Mandei uma solicitação de informações, recebendo a resposta coloco aqui. Obrigado!

@georgevbsantiago
Copy link
Owner

georgevbsantiago commented Oct 27, 2020

Maravilha.

Se identificar mais alguma coisa, é só abrir uma issue.

Vou deixar essa issue aberta até você informar a resposta da Receita Federal, ok?

No mais, se puder, deixe um comentário no tópico:
Por que a base de dados do CNPJ é importante para você?
Link

@rv-alberto
Copy link
Author

George, recebi uma resposta pelo Fala.BR:

"Prezado(a), boa tarde, informa-se por meio desta ouvidoria que foi feito um batimento das informações constantes no Portal do Simples Nacional, e foram verificadas inconsistências quanto às opções pelo SN e MEI, e a extração de Setembro é a mais atualizada."

Não sei se eles entenderam o problema. Pela alteração nas bases, quase todos os MEI que estavam na "situação_cadastral" 8 e 4 foram reclassificados na coluna "opção_pelo_mei", passando de "sim" para "não". Vamos ver como virão as próximas extrações.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants