# Cadastro Nacional de Pessoas Jurídicas
A Receita Federal, em cumprimento às determinações contidas no Decreto nº 8.777, de 11 de maio de 2016, disponibilizou, em seu sítio da internet, os dados referentes aos quadros societários e de administradores das pessoas jurídicas. Com esse novo serviço, a consulta a esses dados poderá ser realizada, instantaneamente, por meio do endereço “web”: https://receita.economia.gov.br/orientacao/tributaria/cadastros/cadastro-nacional-de-pessoas-juridicas-cnpj/dados-publicos-cnpj.

# Estudo de Caso
Este tutorial tem como objetivo utilizar base de dados de empresas para realizar algumas análises sobre os dados utilizando o Apache Spark. A base de empresas foi armazenada no formato Parquet e contém dados de todas as empresas da cidade de Goiânia-GO. Estes dados foram gerados através do projeto https://github.com/turicas/socios-brasil que automaticamente baixa os CNPJs do país inteiro e disponibiliza como resultado os dados já formatados.

In [2]:
df_empresas = spark.read.parquet('/webinar/empresas')
df_empresas.count()

In [3]:
display(df_empresas)

cnpj,identificador_matriz_filial,razao_social,nome_fantasia,situacao_cadastral,data_situacao_cadastral,motivo_situacao_cadastral,nome_cidade_exterior,codigo_natureza_juridica,data_inicio_atividade,cnae_fiscal,descricao_tipo_logradouro,logradouro,numero,complemento,bairro,cep,uf,codigo_municipio,municipio,ddd_telefone_1,ddd_telefone_2,ddd_fax,qualificacao_do_responsavel,capital_social,porte,opcao_pelo_simples,data_opcao_pelo_simples,data_exclusao_do_simples,opcao_pelo_mei,situacao_especial,data_situacao_especial,_corrupt_record,cnae_list,cnae_desc_list,socios_nomes,socios_cpfs
8623000100,1,MARIA ENID INACIO DE MEDEIROS,,8,2008-12-31,71,,2135,1981-11-23,5611201,AVENIDA,MAL RONDON,246,,ST MAL RONDON,74465539,GO,9373,GOIANIA,,,,50,0.0,1,0,,,0,,,,,,,
13185000179,1,LIVRARIA E EDITORA MARISTA LTDA,,2,2005-11-03,0,,2062,1981-12-07,5821200,RUA,VINTE E TREIS,180,,SETOR MARISTA,74465539,GO,9373,GOIANIA,,,,49,0.0,1,1,2008-01-01,,0,,,,,,,
33993000106,1,EURIPEDES NICESIO COSTA,COSTA REPRESENTACOES,8,2008-12-31,71,,2135,1982-02-04,8888888,RUA,74,664,,CENTRO,74130010,GO,9373,GOIANIA,,,,50,0.0,5,0,,,0,,,,,,,
38935000167,1,JOSE DO NASCIMENTO O GOIANO,,8,2008-12-31,71,,2135,1982-02-17,8888888,RUA,104 B,84,,SETOR SUL,74465539,GO,9373,GOIANIA,,,,50,0.0,5,0,,,0,,,,,,,
56945000125,1,LAFONT ROUPAS ARMARINHOS E AVIAMENTOS LTDA,,8,2007-12-18,1,,2062,1982-04-02,4781400,AVENIDA,B,787,,JARDIM XAVIER,74553380,GO,9373,GOIANIA,,,,49,0.0,1,0,,,0,,,,,,,
67587000156,1,HASAM MODAS LTDA,HENA'S MODAS,2,2003-10-04,0,,2062,1982-05-05,1412601,AVENIDA,UNIVERSITARIA,399,,CENTRO,74030010,GO,9373,GOIANIA,,,,49,0.0,1,0,,,0,,,,List(1412603),"List(Facção de peças do vestuário, exceto roupas íntimas)",,
72058000140,1,AGNELO FERREIRA DE MORAES,KINKAS LANCHE,8,2008-12-31,71,,2135,1982-05-13,5611203,RUA,9 A,35,,SETOR OESTE,74110110,GO,9373,GOIANIA,,,,50,0.0,5,0,,,0,,,,,,,
81407000190,1,ALDO OLIVEIRA SANTOS COMERCIO DE PNEUS E PECAS,ALDO PNEUS E PECAS,8,2018-01-25,1,,2135,1994-06-03,4530705,RUA,HENRIQUE SILVA,46,QUADRAK LOTE 17,VILA FROES,74655230,GO,9373,GOIANIA,62 32035444,,,50,0.0,1,1,2010-01-01,,0,,,,"List(4763603, 4520006, 9529104)","List(Comércio varejista de bicicletas e triciclos; peças e acessórios, Serviços de borracharia para veículos automotores, Reparação de bicicletas, triciclos e outros veículos não motorizados)",,
81425000172,1,QUALIDADES PECAS CICLISTAS LTDA,,2,2001-06-24,0,,2062,1994-06-03,4541206,AVENIDA,C 01,800,QD 42 LT 02,JARDIM AMERICA,74265010,GO,9373,GOIANIA,62 32863937,,,49,2000.0,1,1,2007-07-01,,0,,,,List(4543900),List(Manutenção e reparação de motocicletas e motonetas),"List(ALTAMIRO ROSA PEREIRA, ADRIANA BATISTA PEREIRA)","List(***961631**, ***502031**)"
82028000115,1,ARNALDO CARAMORI VALENTE,TRINDADE LEILOES,8,1994-06-06,1,,2135,1994-06-06,8130300,AVENIDA,PERIMETRAL,2202,,ST COIMBRA,74533020,GO,9373,GOIANIA,,,,50,0.0,5,0,,,0,,,,,,,


In [4]:
# Registra o DataFrame como uma visão temporária SQL
df_empresas.createOrReplaceTempView("empresas")

In [5]:
%sql
-- Quantas empresas ativas (situacao_cadastral igual a 2) existem?
select count(*) as empresas_ativas from empresas where situacao_cadastral = 2

empresas_ativas
187012


In [6]:
%sql
-- Quantas empresas inativas existem?
select count(*) as empresas_ativas from empresas where situacao_cadastral != 2

empresas_ativas
236415


In [7]:
%sql
select bairro, count(*) as numero_empresas from empresas group by 1 order by numero_empresas desc limit 10

bairro,numero_empresas
SETOR BUENO,16743
JARDIM AMERICA,15703
SETOR CENTRAL,14028
SETOR OESTE,13516
CENTRO,12783
SETOR SUL,10904
SETOR MARISTA,10429
SETOR CAMPINAS,9561
CAMPINAS,9514
SETOR NORTE FERROVIARIO,7211


In [8]:
%sql
select bairro, count(*) as numero_empresas from empresas where situacao_cadastral = 2 group by 1 order by numero_empresas desc limit 10

bairro,numero_empresas
SETOR BUENO,8843
JARDIM AMERICA,7426
SETOR CENTRAL,6909
SETOR OESTE,6114
SETOR MARISTA,5103
SETOR SUL,5070
SETOR CAMPINAS,4538
SETOR NORTE FERROVIARIO,4341
JARDIM GOIAS,3875
PARQUE AMAZONIA,3290


In [9]:
%sql
select bairro, count(*) as numero_empresas from empresas where situacao_cadastral != 2 group by 1 order by numero_empresas desc limit 10

bairro,numero_empresas
CENTRO,10944
CAMPINAS,8455
JARDIM AMERICA,8277
SETOR BUENO,7900
SETOR OESTE,7402
SETOR CENTRAL,7119
SETOR SUL,5834
SETOR MARISTA,5326
SETOR CAMPINAS,5023
CIDADE JARDIM,3735


In [10]:
%sql
select year(data_inicio_atividade) as ano_inicio, count(*) as numero_empresas from empresas group by 1 order by 1

ano_inicio,numero_empresas
1951,1
1954,1
1956,2
1958,1
1960,3
1961,1
1962,2
1963,1
1964,1
1965,35


In [11]:
%sql
select year(data_situacao_cadastral) as ano_fechamento, count(*) as numero_empresas from empresas where situacao_cadastral != 2 group by 1 order by 1

ano_fechamento,numero_empresas
1969,2
1971,4
1973,3
1974,7
1975,4
1976,5
1977,34
1978,1353
1979,559
1980,461
