In [1]:
import pandas as pd

import numpy as np

import warnings 

warnings.filterwarnings('ignore')

In [2]:
schema_base = {
    "CNPJ BÁSICO": np.str_,
    "CNPJ ORDEM": np.str_,
    "CNPJ DV": np.str_,
    "IDENTIFICADOR MATRIZ/FILIAL": np.str_,
    "NOME FANTASIA": np.str_,
    "SITUAÇÃO CADASTRAL": np.str_,
    "DATA SITUAÇÃO CADASTRAL": np.str_, 
    "MOTIVO SITUAÇÃO CADASTRAL": np.str_,
    "NOME DA CIDADE NO EXTERIOR": np.str_,
    "PAIS": np.str_,
    "DATA DE INÍCIO ATIVIDADE": np.str_, 
    "CNAE FISCAL PRINCIPAL": np.str_,
    "CNAE FISCAL SECUNDÁRIA": np.str_,
    "TIPO DE LOGRADOURO": np.str_,
    "LOGRADOURO": np.str_,
    "NÚMERO": np.str_,
    "COMPLEMENTO": np.str_,
    "BAIRRO": np.str_,
    "CEP": np.str_,
    "UF": np.str_,
    "MUNICÍPIO": np.str_,
    "DDD 1": np.str_,
    "TELEFONE 1": np.str_,
    "DDD 2": np.str_,
    "TELEFONE 2": np.str_,
    "DDD DO FAX": np.str_,
    "FAX": np.str_,
    "CORREIO ELETRÔNICO": np.str_,
    "SITUAÇÃO ESPECIAL": np.str_,
    "DATA DA SITUAÇÃO ESPECIAL": np.str_  
}

schema_municipios = {
    "CÓDIGO DO MUNICÍPIO": np.str_,
    "NOME MUNICÍPIO": np.str_
}

estados_regioes = {
    'SP': 'Sudeste', 'RJ': 'Sudeste', 'MG': 'Sudeste', 'ES': 'Sudeste',
    'PR': 'Sul', 'SC': 'Sul', 'RS': 'Sul',
    'MS': 'Centro-Oeste', 'MT': 'Centro-Oeste', 'GO': 'Centro-Oeste', 'DF': 'Centro-Oeste',
    'AC': 'Norte', 'AP': 'Norte', 'AM': 'Norte', 'PA': 'Norte', 'RO': 'Norte', 'RR': 'Norte', 'TO': 'Norte',
    'BA': 'Nordeste', 'SE': 'Nordeste', 'AL': 'Nordeste', 'PE': 'Nordeste', 'PB': 'Nordeste', 
    'RN': 'Nordeste', 'CE': 'Nordeste', 'PI': 'Nordeste', 'MA': 'Nordeste'
}

In [3]:
municipios = pd.read_csv("../../data/processed/municipios_filtrados.csv", sep = ";", dtype = schema_municipios)

municipios.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5572 entries, 0 to 5571
Data columns (total 2 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   CÓDIGO DO MUNICÍPIO  5572 non-null   object
 1   NOME MUNICÍPIO       5572 non-null   object
dtypes: object(2)
memory usage: 130.6+ KB


In [4]:
municipios.head()

Unnamed: 0,CÓDIGO DO MUNICÍPIO,NOME MUNICÍPIO
0,1,GUAJARA-MIRIM
1,2,ALTO ALEGRE DOS PARECIS
2,3,PORTO VELHO
3,4,BURITIS
4,5,JI-PARANA


In [5]:
dados = pd.read_csv("../../data/processed/academias_filtradas_nv.csv", sep = ";", dtype = schema_base)

dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 70427 entries, 0 to 70426
Data columns (total 30 columns):
 #   Column                       Non-Null Count  Dtype 
---  ------                       --------------  ----- 
 0   CNPJ BÁSICO                  70427 non-null  object
 1   CNPJ ORDEM                   70427 non-null  object
 2   CNPJ DV                      70427 non-null  object
 3   IDENTIFICADOR MATRIZ/FILIAL  70427 non-null  object
 4   NOME FANTASIA                56018 non-null  object
 5   SITUAÇÃO CADASTRAL           70427 non-null  object
 6   DATA SITUAÇÃO CADASTRAL      70427 non-null  object
 7   MOTIVO SITUAÇÃO CADASTRAL    70427 non-null  object
 8   NOME DA CIDADE NO EXTERIOR   2 non-null      object
 9   PAIS                         10135 non-null  object
 10  DATA DE INÍCIO ATIVIDADE     70427 non-null  object
 11  CNAE FISCAL PRINCIPAL        70427 non-null  object
 12  CNAE FISCAL SECUNDÁRIA       42124 non-null  object
 13  TIPO DE LOGRADOURO           70

In [6]:
dados = dados.drop(columns = ["NOME DA CIDADE NO EXTERIOR", 
                                "PAIS", 
                                "SITUAÇÃO ESPECIAL", 
                                "DATA DA SITUAÇÃO ESPECIAL", 
                                "COMPLEMENTO", 
                                "DDD 2", 
                                "TELEFONE 2", 
                                "DDD DO FAX", 
                                "FAX"])

dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 70427 entries, 0 to 70426
Data columns (total 21 columns):
 #   Column                       Non-Null Count  Dtype 
---  ------                       --------------  ----- 
 0   CNPJ BÁSICO                  70427 non-null  object
 1   CNPJ ORDEM                   70427 non-null  object
 2   CNPJ DV                      70427 non-null  object
 3   IDENTIFICADOR MATRIZ/FILIAL  70427 non-null  object
 4   NOME FANTASIA                56018 non-null  object
 5   SITUAÇÃO CADASTRAL           70427 non-null  object
 6   DATA SITUAÇÃO CADASTRAL      70427 non-null  object
 7   MOTIVO SITUAÇÃO CADASTRAL    70427 non-null  object
 8   DATA DE INÍCIO ATIVIDADE     70427 non-null  object
 9   CNAE FISCAL PRINCIPAL        70427 non-null  object
 10  CNAE FISCAL SECUNDÁRIA       42124 non-null  object
 11  TIPO DE LOGRADOURO           70377 non-null  object
 12  LOGRADOURO                   70427 non-null  object
 13  NÚMERO                       70

In [7]:
dados['REGIAO'] = dados['UF'].map(estados_regioes)

dados.head()

Unnamed: 0,CNPJ BÁSICO,CNPJ ORDEM,CNPJ DV,IDENTIFICADOR MATRIZ/FILIAL,NOME FANTASIA,SITUAÇÃO CADASTRAL,DATA SITUAÇÃO CADASTRAL,MOTIVO SITUAÇÃO CADASTRAL,DATA DE INÍCIO ATIVIDADE,CNAE FISCAL PRINCIPAL,...,LOGRADOURO,NÚMERO,BAIRRO,CEP,UF,MUNICÍPIO,DDD 1,TELEFONE 1,CORREIO ELETRÔNICO,REGIAO
0,34185978,1,97,1,UP CENTRO FISICO,2,20190711,0,20190711,9313100,...,ENGENHO VELHO QUADRA 13,SN,SETOR HABITACIONAL FERCAL (SOBRADINHO),73150045,DF,9701,61,92639029,CONTATO.UPACADEMIAFERCAL@GMAIL.COM,Centro-Oeste
1,34200040,1,7,1,IRON MUSCLE,2,20190712,0,20190712,9313100,...,ALEGRETE,505,MARINSKY,95585000,RS,8489,51,91800665,VIVANFIT@GMAIL.COM,Sul
2,34201548,1,11,1,ASMF,2,20190712,0,20190712,9313100,...,DO MANGUEIRA,S/N,ILHA DE SANTA RITA,57160000,AL,2793,82,32606021,maatiasaraujo@hotmail.com,Nordeste
3,34213183,1,45,1,,2,20190715,0,20190715,9313100,...,DO TABOAO,2690,TABOAO,9655000,SP,7075,11,40446667,CONTATO@CONTABILIDADEMB.COM.BR,Sudeste
4,34214045,1,80,1,CROSSCIRCUIT,2,20240614,0,20190715,9313100,...,SAO JOSE,600,VILA PRAIANA,42704000,BA,3685,71,92099491,PEDROPINHEIRO1957@GMAIL.COM,Nordeste


In [8]:
dados_final = pd.merge(dados, municipios, left_on = "MUNICÍPIO", right_on = "CÓDIGO DO MUNICÍPIO", how = "left")

dados_final.head()

Unnamed: 0,CNPJ BÁSICO,CNPJ ORDEM,CNPJ DV,IDENTIFICADOR MATRIZ/FILIAL,NOME FANTASIA,SITUAÇÃO CADASTRAL,DATA SITUAÇÃO CADASTRAL,MOTIVO SITUAÇÃO CADASTRAL,DATA DE INÍCIO ATIVIDADE,CNAE FISCAL PRINCIPAL,...,BAIRRO,CEP,UF,MUNICÍPIO,DDD 1,TELEFONE 1,CORREIO ELETRÔNICO,REGIAO,CÓDIGO DO MUNICÍPIO,NOME MUNICÍPIO
0,34185978,1,97,1,UP CENTRO FISICO,2,20190711,0,20190711,9313100,...,SETOR HABITACIONAL FERCAL (SOBRADINHO),73150045,DF,9701,61,92639029,CONTATO.UPACADEMIAFERCAL@GMAIL.COM,Centro-Oeste,9701,BRASILIA
1,34200040,1,7,1,IRON MUSCLE,2,20190712,0,20190712,9313100,...,MARINSKY,95585000,RS,8489,51,91800665,VIVANFIT@GMAIL.COM,Sul,8489,ARROIO DO SAL
2,34201548,1,11,1,ASMF,2,20190712,0,20190712,9313100,...,ILHA DE SANTA RITA,57160000,AL,2793,82,32606021,maatiasaraujo@hotmail.com,Nordeste,2793,MARECHAL DEODORO
3,34213183,1,45,1,,2,20190715,0,20190715,9313100,...,TABOAO,9655000,SP,7075,11,40446667,CONTATO@CONTABILIDADEMB.COM.BR,Sudeste,7075,SAO BERNARDO DO CAMPO
4,34214045,1,80,1,CROSSCIRCUIT,2,20240614,0,20190715,9313100,...,VILA PRAIANA,42704000,BA,3685,71,92099491,PEDROPINHEIRO1957@GMAIL.COM,Nordeste,3685,LAURO DE FREITAS


In [9]:
dados_final["MUNICÍPIO"] = dados_final["NOME MUNICÍPIO"]

dados_final = dados_final.drop(columns=["CÓDIGO DO MUNICÍPIO", "NOME MUNICÍPIO"])

In [None]:
dados_final.to_csv("academias_final_nv.csv", sep = ";", index = False)