# Relatório sobre os dados abertos de CNPJ da Receita Federal

## Carregar dados

In [1]:
from os import getcwd
from pathlib import Path

import dask.dataframe as dd
import numpy as np


DATA_DIR = Path(getcwd()).parent / "data" / "csv"

In [2]:
def load(dataset_type, columns):
    files = tuple(
        path
        for path in DATA_DIR.glob("*.csv")
        if dataset_type in path.name
    )
    df = dd.read_csv(
        files,
        delimiter=";",
        encoding="latin1",
        header=None,
        usecols=columns.keys(),
        dtype={key: str for key in columns.keys()},
    )
    df.columns = columns.values()
    return df

### Base do CNPJ

In [3]:
base = load("EMPRECSV", {0: "base"})
base.head()

Unnamed: 0,base
0,32066838
1,32066839
2,32066840
3,32066841
4,32066842


### Estabelecimentos

In [4]:
venues = load(
    "ESTABELE",
    {
        0: "base",
        1: "ordem",
        2: "digito_verificador",
        5: "situacao_cadastral",
        6: "data_situacao_cadastral",
        10: "data_de_inicio_da_atividade",
        28: "situacao_especial",
        29: "data_situacao_especial",
    },
)
venues.head()

Unnamed: 0,base,ordem,digito_verificador,situacao_cadastral,data_situacao_cadastral,data_de_inicio_da_atividade,situacao_especial,data_situacao_especial
0,13449976,1,98,8,20180201,20110401,,
1,13449987,1,78,8,20170629,20110401,,
2,48464523,2,4,4,20190321,20110329,,
3,13450007,1,57,2,20110401,20110401,,
4,1408480,3,59,8,20180724,20110329,,


### Quadro societário

In [5]:
partners = load("SOCIOCSV", {0: "base", 5: "data_de_entrada"})
partners.head()

Unnamed: 0,base,data_de_entrada
0,17385990,20130109
1,9295323,20120203
2,9295323,20120203
3,17386008,20121228
4,17386008,20121228


### Simples & MEI

In [6]:
taxes = load(
    "SIMPLES",
    {
        0: "base",
        2: "data_de_opcao_pelo_simples",
        3: "data_exclusao_do_simples",
        5: "data_de_opcao_pelo_mei",
        6: "data_exclusao_do_mei",
    }
)
taxes.head()

Unnamed: 0,base,data_de_opcao_pelo_simples,data_exclusao_do_simples,data_de_opcao_pelo_mei,data_exclusao_do_mei
0,0,20070701,20070701,20090701,20090701
1,6,20180101,20191231,0,0
2,8,20140101,0,0,0
3,11,20070701,0,0,0
4,13,20090101,0,0,0


## Todas as datas devem ser válidas e no passado

…

## Todo estabelecimento (`ESTABELE`) deve ter uma correlação nos dados da base do CNPJ (`EMPRECSV`)

…

## Todo CNPJ base deve ter ao menos 1 estabelecimento

…

## Toda entrada do quadro societário (`SOCIOCSV`) deve ter uma correlação nos dados da _base_ do CNPJ (`EMPRECSV`)

…

## Toda entrada de enquadramento no Simples ou MEI (`SIMPES`) deve ter uma correlação nos dados da base do CNPJ


…