Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Nova base disponível da Receita #17

Closed
cmmp opened this issue Jul 24, 2020 · 5 comments
Closed

Nova base disponível da Receita #17

cmmp opened this issue Jul 24, 2020 · 5 comments

Comments

@cmmp
Copy link

cmmp commented Jul 24, 2020

Existe uma base do dia 04/07/2020 disponível no site da Receita agora:
https://receita.economia.gov.br/orientacao/tributaria/cadastros/cadastro-nacional-de-pessoas-juridicas-cnpj/dados-publicos-cnpj

seria interessante termos a versão em sqlite disponibilizada pelo pacote :)

@cmmp
Copy link
Author

cmmp commented Jul 26, 2020

Eu executei o código nessa base nova, mas aparentemente alguma coisa estranha aconteceu. Gerei o arquivo do sqlite usando o código:

qsacnpj::gerar_bd_cnpj(path_arquivos_txt = "D:/qsa_cnpj",
                       localizar_cnpj = "NAO",
                       n_lines = 100000,
                       armazenar = "sqlite")

Porém o número de cnpjs está um pouco estranho. Na base mais recente disponível no repositório, eu tinha 43.887.581 cnpjs na tabela cnpj_dados_cadastrais_pj. Depois que executei o código na nova base da receita tenho 75.941.044 entradas na tabela, porém apenas 42.375.755 entradas distintas - select count(distinct(cnpj)) from cnpj_dados_cadastrais_pj vs select count(cnpj) from cnpj_dados_cadastrais_pj;. Imagino que as entradas por cnpj deveriam ser todas distintas nessa tabela, não?

O que poderia ter ocorrido?

obrigado

@cmmp
Copy link
Author

cmmp commented Jul 27, 2020

@georgevbsantiago olhando um pouco mais a fundo, encontrei muitos registros duplicados, porém eles apresentam as seguintes diferenças, p. ex.

image

trata-se de um mesmo CNPJ.

Outros registros estão simplesmente duplicados na tabela mesmo, sem diferenças em alguns campos.

@georgevbsantiago
Copy link
Owner

Olá, @cmmp , até o próximo final de semana, disponibilizarei a nova base de dados do CNPJ tratada. Em relação aos problemas enfrentados por você durante a execução do código, não conseguiria indicar a causa, pois precisaria de diversas informações sobre a sua máquina (Windows ou Linux) e a versão dos pacotes R que vocês está utilizando.

@cmmp
Copy link
Author

cmmp commented Jul 27, 2020

Olá @georgevbsantiago !

Show!

A máquina que usei foi esta aqui:

R version 3.6.3 (2020-02-29)
Platform: x86_64-pc-linux-gnu (64-bit)
Running under: Ubuntu 20.04 LTS

Matrix products: default
BLAS:   /usr/lib/x86_64-linux-gnu/blas/libblas.so.3.9.0
LAPACK: /usr/lib/x86_64-linux-gnu/lapack/liblapack.so.3.9.0

locale:
 [1] LC_CTYPE=en_US.UTF-8       LC_NUMERIC=C
 [3] LC_TIME=en_US.UTF-8        LC_COLLATE=en_US.UTF-8
 [5] LC_MONETARY=en_US.UTF-8    LC_MESSAGES=en_US.UTF-8
 [7] LC_PAPER=en_US.UTF-8       LC_NAME=C
 [9] LC_ADDRESS=C               LC_TELEPHONE=C
[11] LC_MEASUREMENT=en_US.UTF-8 LC_IDENTIFICATION=C

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base

other attached packages:
[1] qsacnpj_0.1.9

loaded via a namespace (and not attached):
[1] compiler_3.6.3 magrittr_1.5

Instalei o pacote do github usando o remotes.

abs

@georgevbsantiago
Copy link
Owner

Acabei de realizar o tratamento dos dados.
Ao executar o comando de contagem e contagem de distintos nos números do CNPJ, o SQLite informou o mesmo valor. Ou seja, não foram registrados CNPJ em duplicidade após o tratamento dos dados.
Verifique se você não baixou arquivos repetidos do site da Receita Federal.
Além disso, recomendo utilizar o R 4.0.2 e a última versão dos pacotes do CRAN.

Comandos utilizados para verificar se existem dados duplicados na tabela dos dados cadastrais do CNPJ
SELECT COUNT(cnpj) FROM cnpj_dados_cadastrais_pj
SELECT COUNT(DISTINCT cnpj) FROM cnpj_dados_cadastrais_pj

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants