In [2]:
import pandas as pd
import glob
from datetime import datetime
from pymongo import MongoClient

index = ['cnpj basico', 'cnpj ordem', 'cnpj dv', 'identificador matriz/filial', 'nome fantasia', 'situacao cadastral', 'data situacao cadastral', 'motivo situacao cadastral', 'nome da cidade no exterior', 'pais', 'data de inicio atividade', 'cnae fiscal principal', 'cnae fiscal secundária', 'tipo de logradouro', 'logradouro', 'numero', 'complemento', 'bairro', 'cep', 'uf', 'municipio', 'ddd 1', 'telefone 1', 'ddd 2', 'telefone 2', 'ddd do fax', 'fax', 'correio eletronico', 'situacao especial', 'data da situacao especial']
df = pd.DataFrame(columns=index)

# Abre todos e concatena
for file in glob.glob("estabelecimentos/*.ESTABELE"):
    print(file)
    df_aux = pd.read_csv(filepath_or_buffer=file, sep=';', header=0, low_memory=False, names=index, encoding='latin_1')
    df = pd.concat([df, df_aux])
    
df.head()

estabelecimentos\K3241.K03200Y1.D11113.ESTABELE


Unnamed: 0,cnpj basico,cnpj ordem,cnpj dv,identificador matriz/filial,nome fantasia,situacao cadastral,data situacao cadastral,motivo situacao cadastral,nome da cidade no exterior,pais,...,municipio,ddd 1,telefone 1,ddd 2,telefone 2,ddd do fax,fax,correio eletronico,situacao especial,data da situacao especial
0,64904295,18,51,2,,8,20161110,1,,,...,2785,11.0,36491000.0,31.0,33880436.0,82.0,33118379.0,CLAUDIO.GIGLIO@CAMIL.COM.BR,,
1,76016369,3,16,2,,3,20060203,21,,,...,7071,,,,,,,,,
2,52302726,1,82,1,,4,20210406,63,,,...,6131,,,,,,,,,
3,7396923,1,53,1,,8,20140115,1,,,...,7107,11.0,69658088.0,,,,,,,
4,3650261,1,45,1,OTICA PERFEICAO,4,20190322,63,,,...,8113,48.0,2423953.0,,,48.0,2423953.0,,,


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 4753434 entries, 0 to 4753433
Data columns (total 30 columns):
 #   Column                       Dtype  
---  ------                       -----  
 0   cnpj basico                  object 
 1   cnpj ordem                   object 
 2   cnpj dv                      object 
 3   identificador matriz/filial  object 
 4   nome fantasia                object 
 5   situacao cadastral           object 
 6   data situacao cadastral      object 
 7   motivo situacao cadastral    object 
 8   nome da cidade no exterior   object 
 9   pais                         float64
 10  data de inicio atividade     object 
 11  cnae fiscal principal        object 
 12  cnae fiscal secundária       object 
 13  tipo de logradouro           object 
 14  logradouro                   object 
 15  numero                       object 
 16  complemento                  object 
 17  bairro                       object 
 18  cep                          object 
 19  

#### transformando tipo

In [None]:
df["data situacao cadastral"] = pd.to_datetime(df["data situacao cadastral"], format='%Y%m%d', errors='coerce')
df["pais"] = pd.to_numeric(df["pais"], downcast="integer", errors='coerce')
df["data de inicio atividade"] = pd.to_datetime(df["data de inicio atividade"], format='%Y%m%d', errors='coerce')
df["ddd 1"] = pd.to_numeric(df["ddd 1"], downcast="integer", errors='coerce')
df["telefone 1"] = pd.to_numeric(df["telefone 1"], downcast="integer", errors='coerce')
df["ddd 2"] = pd.to_numeric(df["ddd 2"], downcast="integer", errors='coerce')
df["telefone 2"] = pd.to_numeric(df["telefone 2"] , downcast="integer", errors='coerce')
df["ddd do fax"] = pd.to_numeric(df["ddd do fax"], downcast="integer", errors='coerce')
df["fax"] = pd.to_numeric(df["fax"], downcast="integer", errors='coerce')
df["data da situacao especial"] = pd.to_datetime(df["data da situacao especial"], format='%Y%m%d', errors='coerce')

# Para jogar direto em JSON o dict
# df["data situacao cadastral"] = df["data situacao cadastral"].dt.strftime('%Y-%m-%d')
# df["data de inicio atividade"] = df["data de inicio atividade"].dt.strftime('%Y-%m-%d')
# df["data da situacao especial"] = df["data da situacao especial"].dt.strftime('%Y-%m-%d')


#### Remover os NaN quando transforma em dict
[link do código](https://stackoverflow.com/a/59734931)

In [6]:
df = [{k:v for k,v in m.items() if pd.notnull(v)} for m in df.to_dict('records')] # essa linha não é minha - remove os nan enquanto faz o dict

### Conectar e manda os dados

In [None]:
# Bateu o limite de espaço do MongoDB Atlas nos 1.2 milhões de registros

# user = ''
# password = ''
# client = MongoClient("mongodb+srv://{}:{}@desafio.**.mongodb.net".format(user,password))

# Usando um MongoDB local
client = MongoClient(port=27017) 

db = client.CNPJ_DB
db.dados_publicos.insert_many(df, ordered=False)

#### 4. a - Porcentagem situação cadastral = 1

In [None]:
from pymongo import MongoClient

client = MongoClient('mongodb://user:pass@localhost:27017/database?authSource=admin&readPreference=primary&appname=MongoDB+Compass&directConnection=true&ssl=false')

In [26]:
result = client['CNPJ_collection']['dados_publicos'].aggregate([
    {
        '$facet': {
            'count_1': [
                {
                    '$group': {
                        '_id': None, 
                        'count': {
                            '$sum': 1
                        }
                    }
                }
            ], 
            'count_2': [
                {
                    '$match': {
                        'situacao cadastral': 1
                    }
                }, {
                    '$group': {
                        '_id': None, 
                        'count': {
                            '$sum': 1
                        }
                    }
                }
            ]
        }
    }, {
        '$project': {
            'count_1': '$count_1.count', 
            'count_2': '$count_2.count'
        }
    }, {
        '$unwind': {
            'path': '$count_1'
        }
    }, {
        '$unwind': {
            'path': '$count_2'
        }
    }, {
        '$project': {
            'Quantos porcentos ativo': {
                '$multiply': [
                    {
                        '$divide': [
                            '$count_2', '$count_1'
                        ]
                    }, 100
                ]
            }
        }
    }
])

for item in result:
    print(item)

{'Quantos porcentos ativo': 0.17412674710535583}


#### 5. a - Situação cadastral = 1 - CSV e EXCEL

In [25]:
result = client['CNPJ_DB']['dados_publicos'].find({'situacao cadastral': 1})
df = pd.DataFrame(list(result))

df.to_csv('CNPJ_ativo.csv')
df.to_excel('CNPJ_ativo.xlsx')

#### 4. b - Soma de quantas empresas abriram por ano

In [20]:
result = client['CNPJ_DB']['dados_publicos'].aggregate([
    {
        '$match': {
            'cnae fiscal principal': {
                '$gte': 5610000, 
                '$lte': 5619999
            }
        }
    }, {
        '$group': {
            '_id': {
                'Ano': {
                    '$year': '$data de inicio atividade'
                }
            }, 
            'Empresas': {
                '$sum': 1
            }
        }
    }
])
for item in result:
    print(item)

{'_id': {'Ano': 1954}, 'Empresas': 1}
{'_id': {'Ano': 1978}, 'Empresas': 2214}
{'_id': {'Ano': 2005}, 'Empresas': 3456}
{'_id': {'Ano': 1991}, 'Empresas': 6198}
{'_id': {'Ano': 2002}, 'Empresas': 3255}
{'_id': {'Ano': 1967}, 'Empresas': 217}
{'_id': {'Ano': 2000}, 'Empresas': 3221}
{'_id': {'Ano': 1986}, 'Empresas': 5435}
{'_id': {'Ano': 1996}, 'Empresas': 4234}
{'_id': {'Ano': 1970}, 'Empresas': 291}
{'_id': {'Ano': 2014}, 'Empresas': 14366}
{'_id': {'Ano': 1981}, 'Empresas': 2888}
{'_id': {'Ano': 1974}, 'Empresas': 629}
{'_id': {'Ano': 2012}, 'Empresas': 11693}
{'_id': {'Ano': 2007}, 'Empresas': 3848}
{'_id': {'Ano': 2018}, 'Empresas': 18155}
{'_id': {'Ano': 2016}, 'Empresas': 15746}
{'_id': {'Ano': 1990}, 'Empresas': 6319}
{'_id': {'Ano': 1997}, 'Empresas': 4312}
{'_id': {'Ano': 1999}, 'Empresas': 3659}
{'_id': {'Ano': 1969}, 'Empresas': 312}
{'_id': {'Ano': 1955}, 'Empresas': 1}
{'_id': {'Ano': 1958}, 'Empresas': 3}
{'_id': {'Ano': 1988}, 'Empresas': 5059}
{'_id': {'Ano': 1993}, 'E

#### 5. b - Empresas que abriram a cada ano - CSV e EXCEL

In [21]:
filter={
    'cnae fiscal principal': {
        '$gte': 5610000, 
        '$lte': 5619999
    }
}

result = client['CNPJ_DB']['dados_publicos'].find(
  filter=filter
)

df = pd.DataFrame(list(result))

df.to_csv('CNPJ_Setor_Restaurantes.csv')
df.to_excel('CNPJ_Setor_Restaurantes.xlsx')

#### 4. c - Empresas a menos de 5km do CEP "01422000"

In [None]:
print(len(df)/250)
list_index = [i for i in range(0, len(df), 19013)] + [len(df)-1] # Intervalos das threads
print(len(list_index)) # Quantas threads serão criadas

##### Manda para API do Google em pares, verifica o resultado e salva os dentro de 5km

##### **Tem um custo alto, que pode ser contornado usando apenas locais em situação ativa, reduzindo a quantidade de pares**

In [42]:
import distance_locator
from importlib import reload
import concurrent.futures

reload(distance_locator)

empresasProximas = []
semResultado = []
acumulador = []

def locator(start, end):
    print(start, end)
    empresasProximas, semResultado = distance_locator.distance("01422000", df[start:end+1]) 
    return empresasProximas, semResultado

# Cria as threads
with concurrent.futures.ThreadPoolExecutor(max_workers= 252) as executor:
    futures = [executor.submit(locator, start, end) for start, end in zip(list_index, list_index[1:])]

print(len(empresasProximas))
print(len(empresasProximas) + len(semResultado))
print(len(df))
print()

for i in range(len(empresasProximas)):
    if i == 3:
        break
    print(empresasProximas[i])

0 19013
19013 38026
38026 57039
57039 76052
76052 95065
95065 114078
114078 133091
133091 152104152104 171117

171117 190130
190130209143 228156
 209143
228156 247169
247169 266182
266182 285195
285195 304208
304208 323221
323221 342234342234 361247
361247 380260
380260 399273

399273 418286
418286 437299
437299 456312
456312 475325
475325 494338494338 513351

513351 532364
532364 551377 551377
570390
570390 589403
589403 608416
608416 627429
627429 646442
646442 665455
665455 684468
684468 703481
703481 722494
722494 741507
741507 760520
760520 779533
779533 798546
798546 817559
817559 836572
836572 855585
855585 874598
874598 893611
893611 912624
912624 931637
931637 950650
950650 969663
969663 988676
988676 1007689
1007689 1026702
1026702 1045715
1045715 1064728 1083741
1083741 1102754
11027541064728
 1121767
1121767 1140780
1140780 1159793
1159793 11788061178806 1197819

1197819 1216832
1216832 1235845
1235845 1254858
1254858 1273871
1273871 1292884
1292884 1311897
1311897 13309101

#### 5. c - Não consegui gerar o documento pelo tempo e custo de execução

In [7]:
# import json

# file = open("dados_publicos.json", "w")

# for doc in df:
#     file.write(json.dumps(doc) + "\n")