# Análise da Qualidade de Dados das Bases Cruas


Vamos dar prosseguimento à análise, avaliando a tabela de empresas da RFB.


### - Empresas / RFB (tabela empresas)


Os dados da tabela de `empresas` são provenientes da Receita Federal (RFB) e tem descrições e metadados disponíveis em:

https://www.gov.br/receitafederal/dados/cnpj-metadados.pdf

Com relação ao tipo de cada dado, como não temos mais infos, deixamos o Spark inferir o tipo de cada coluna.

In [0]:
%sql
select * from empresas

cnpj_raiz,razao_social,natureza_jur,qualificacao_resp,capital_soc,porte,ente_fed_resp
41273592,41.273.592 HELIO DE JESUS PEREIRA,2135,50,3000000,1,
41273593,JULIO CESAR NUNES 39611300867,2135,50,300000,1,
41273594,OZINETE DELFINO CALDAS 41608224287,2135,50,500000,1,
41273595,GILVAN PEREIRA XAVIER 01363090380,2135,50,300000,1,
41273596,RODRIGO JOSE FERREIRA LOPES 05010247941,2135,50,1000000,1,
41273597,PACHARRUS QUEIROZ DA COSTA E SILVA 03618384335,2135,50,500000,1,
41273598,GLORIA VIANA DIAS DA SILVA 13118961716,2135,50,110000,1,
41273599,ANA PAULA DA SILVA DE PAULA 04659802957,2135,50,200000,1,
41273600,41.273.600 AVANILSON BRUNO MATIAS DA SILVA,2135,50,5000000,1,
41273601,GABRIELA HELENA FACINI DA SILVA 47022415838,2135,50,200000,1,


Databricks data profile. Run in Databricks to view.

In [0]:
%sql
select count(*), count(distinct cnpj_raiz), count(distinct razao_social) from empresas

count(1),count(DISTINCT cnpj_raiz),count(DISTINCT razao_social)
61480775,61480775,57013449


In [0]:
%sql
select * from empresas where natureza_jur not in (select codigo from natureza_juridica)

cnpj_raiz,razao_social,natureza_jur,qualificacao_resp,capital_soc,porte,ente_fed_resp


In [0]:
%sql
select * from empresas where porte not in (0, 1, 3, 5) -- domínio definido em https://www.gov.br/receitafederal/dados/cnpj-metadados.pdf (0 - não informado, 1 - micro, 3 - pequena, 5 - demais)

cnpj_raiz,razao_social,natureza_jur,qualificacao_resp,capital_soc,porte,ente_fed_resp


**Análise**:

- É importante entender que o que chamamos coloquialmente de "empresas", associadas a um local e a um CNPJ específico, na verdade são estabelecimentos (matriz ou filial), que compartilham o mesmo CNPJ raiz (8 primeiros dígitos), que seria realmente a empresa. Esta tabela traz justamente os registros das empresas. Vale notar também (pode não ser claro), que esta base não traz cadastros de Pessoas Físicas (ou Pessoas Naturais, como classificado mais recentemente), apenas de Empresas
- Esta base trata de empresas (CNPJ raiz). Temos mais de 61,5 milhões de registros de empresas nesta base. É importante observar que na base temos todas as empresas que já foram abertas na história, incluindo as que foram fechadas, não apenas as atualmente ativas 
- Como se trata de uma base com dados oficiais de empresas, como esperado, os campos estão bem preenchidos. Em particular, todos os registros possuem o campo `cnpj_raiz` preenchido e distinto, i.e. não há registros duplicados de empresas na base. Quando olhamos para Razão Social, há pelo vários milhões de repetições, mas isto aparentemente não é vedado, visto que a chave única da empresa é o CNPJ apenas
- Todos os registros de possuem, conforme esperado, `natureza_juridica` preenchida. A ampla maioria possui também o campo `porte` preenchido - uma pequena parcela (0,12%) apenas possui este campo em branco, o que não deve afetar nossas análises
- Conforme esperado, nenhum registro possui coluna `natureza_juridica` com valor fora dos definidos na tabela de domínio `natureza_juridica`. Também conforme o esperado, nenhum registro possui coluna `porte` com valor fora do esperado (0 - não informado, 1 - micro, 3 - pequena, 5 - demais)
- Por fim, embora não relevante para nossa análise, os campos `qualificacao_resp` e `capital_soc` também estão sempre preenchidos. Já o campo `ente_fed_resp`, também não relevante para nossa análise, conforme esperado só está preenchido para uma minoria dos registros (aquele em que há um ente da federação como resp daquela empresa/autarquia)
