## Análise explanatória Empresas Ativas (SIMPLES)

#### Realização de uma análise explanatória detalhada dos dados das empresas ativas da cidade do Recife, verificando possíveis inconsistencias ou duplicações nos registros.

##### 🟩🟩 Importando Bibliotecas

In [18]:
import pandas as pd
import numpy as np
import os

In [19]:
# Diretório onde os arquivos CSV estão localizados
CSV_FOLDER = r'./datasets/CSV_Separados'

# Nome do arquivo CSV que você quer carregar
CSV_FILE = 'SIMPLES.csv'  # Substitua pelo nome do arquivo gerado

# Caminho completo do arquivo CSV
csv_path = os.path.join(CSV_FOLDER, CSV_FILE)

# Verificar se o arquivo existe antes de tentar carregá-lo
if os.path.exists(csv_path):
    # Carregar o arquivo CSV como DataFrame
    df = pd.read_csv(csv_path)
    print(f"Arquivo CSV '{CSV_FILE}' carregado com sucesso!")
else:
    print(f"Erro: O arquivo '{csv_path}' não foi encontrado.")

pd.set_option('display.max_columns', None)  # Exibe todas as colunas
pd.set_option('display.max_colwidth', None)  # Exibe o conteúdo completo de cada célula
pd.set_option('display.width', None)  # Ajuste de largura para evitar quebra de linha

Arquivo CSV 'SIMPLES.csv' carregado com sucesso!


##### 🟩🟩 Observando o dataframe

In [20]:
df.head(5)

Unnamed: 0,CNPJ BASICO,OPTANTE PELO SIMPLES?,DATA DE ADESAO AO SIMPLES,DATA DE EXCLUSAO DO SIMPLES,OPTANTE PELO MEI?,DATA DE ADESAO AO MEI,DATA DE EXCLUSAO DO MEI
0,0,NAO,20070701,20070701,NAO,20090701,20090701
1,19357,NAO,20070701,20101231,NAO,0,0
2,28607,NAO,20070701,20111231,NAO,0,0
3,59281,SIM,20220101,0,NAO,0,0
4,79526,NAO,20080101,20131231,NAO,0,0


##### 🟩🟩 Alterando o nome da coluna 'OPTANTE PELO SIMPLES?' , 'OPTANTE PELO MEI?' para 'OPTANTE PELO SIMPLES' , 'OPTANTE PELO MEI?'

In [21]:
# Renomear a coluna
dados = df.rename(columns={'OPTANTE PELO SIMPLES?': 'OPTANTE PELO SIMPLES'})

# Verificar se a coluna foi renomeada corretamente
print(dados.columns)

Index(['CNPJ BASICO', 'OPTANTE PELO SIMPLES', 'DATA DE ADESAO AO SIMPLES',
       'DATA DE EXCLUSAO DO SIMPLES', 'OPTANTE PELO MEI?',
       'DATA DE ADESAO AO MEI', 'DATA DE EXCLUSAO DO MEI'],
      dtype='object')


In [22]:
# Renomear a coluna
dados = dados.rename(columns={'OPTANTE PELO MEI?': 'OPTANTE PELO MEI'})

# Verificar se a coluna foi renomeada corretamente
print(dados.columns)

Index(['CNPJ BASICO', 'OPTANTE PELO SIMPLES', 'DATA DE ADESAO AO SIMPLES',
       'DATA DE EXCLUSAO DO SIMPLES', 'OPTANTE PELO MEI',
       'DATA DE ADESAO AO MEI', 'DATA DE EXCLUSAO DO MEI'],
      dtype='object')


##### 🟡 Não existe CNPJ 0 , DATA de exclusão 0 e ADESAO E EXCLUSÃO DO MEI 0 então serão convertidos para campos vazios. Datas serão tratados mais abaixo

In [23]:
colunas_valornan = ['CNPJ BASICO', 'OPTANTE PELO SIMPLES', 'OPTANTE PELO MEI']
dados[colunas_valornan] = dados[colunas_valornan].replace(0, np.nan)

# Verificar o resultado
print(dados)

        CNPJ BASICO OPTANTE PELO SIMPLES  DATA DE ADESAO AO SIMPLES  \
0               NaN                  NAO                   20070701   
1           19357.0                  NAO                   20070701   
2           28607.0                  NAO                   20070701   
3           59281.0                  SIM                   20220101   
4           79526.0                  NAO                   20080101   
...             ...                  ...                        ...   
348719   97553418.0                  SIM                   20240101   
348720   97553524.0                  SIM                   20110714   
348721   97553797.0                  NAO                   20110714   
348722   97553983.0                  NAO                   20110714   
348723   97554422.0                  NAO                   20110714   

        DATA DE EXCLUSAO DO SIMPLES OPTANTE PELO MEI  DATA DE ADESAO AO MEI  \
0                          20070701              NAO               2

##### 🟩🟩 Verificando a quantidade de nulos por coluna (mostrando apenas as colunas com nulos)

In [24]:
# Contar os valores nulos por coluna
nulos_por_coluna = dados.isna().sum()

# Filtrar as colunas com valores nulos (maior que 0)
colunas_com_nulos = nulos_por_coluna[nulos_por_coluna > 0]

# Exibir as colunas com valores nulos
print(colunas_com_nulos)

CNPJ BASICO    1
dtype: int64


##### 🟩🟩 Verificando dados duplicados 

In [25]:
duplicatas = dados.duplicated()

# Exibir as linhas duplicadas (se houver)
print(dados[duplicatas])

Empty DataFrame
Columns: [CNPJ BASICO, OPTANTE PELO SIMPLES, DATA DE ADESAO AO SIMPLES, DATA DE EXCLUSAO DO SIMPLES, OPTANTE PELO MEI, DATA DE ADESAO AO MEI, DATA DE EXCLUSAO DO MEI]
Index: []


##### Não há dados duplicados na tabela simples 

##### 🟩🟩 Verificando os tipos dos dados 

In [26]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 348724 entries, 0 to 348723
Data columns (total 7 columns):
 #   Column                       Non-Null Count   Dtype  
---  ------                       --------------   -----  
 0   CNPJ BASICO                  348723 non-null  float64
 1   OPTANTE PELO SIMPLES         348724 non-null  object 
 2   DATA DE ADESAO AO SIMPLES    348724 non-null  int64  
 3   DATA DE EXCLUSAO DO SIMPLES  348724 non-null  int64  
 4   OPTANTE PELO MEI             348724 non-null  object 
 5   DATA DE ADESAO AO MEI        348724 non-null  int64  
 6   DATA DE EXCLUSAO DO MEI      348724 non-null  int64  
dtypes: float64(1), int64(4), object(2)
memory usage: 18.6+ MB


##### 🟡 Em uma analise por data type é preciso ajustar  'CNPJ BASICO', para object pois eles não possuem a função de soma visto que se trata de códigos
##### 🟡 Em uma analise por data type é preciso ajustar 'DATA DE ADESAO AO SIMPLES' ; 'DATA DE EXCLUSAO DO SIMPLES' ; 'DATA DE ADESAO AO MEI', 'DATA DE EXCLUSAO DO MEI' para o formato de data

##### 🟩🟩 Alterando Dtype para object 

In [27]:
conversao = ['CNPJ BASICO']

# Converter as colunas específicas de 'int' para 'object'
dados[conversao] = dados[conversao].astype('object')

# Verificar os tipos de dados após a conversão
dados.dtypes

CNPJ BASICO                    object
OPTANTE PELO SIMPLES           object
DATA DE ADESAO AO SIMPLES       int64
DATA DE EXCLUSAO DO SIMPLES     int64
OPTANTE PELO MEI               object
DATA DE ADESAO AO MEI           int64
DATA DE EXCLUSAO DO MEI         int64
dtype: object

In [28]:
dados['CNPJ BASICO'] = dados['CNPJ BASICO'].astype(str)

# Adicionar zeros à esquerda para garantir 8 caracteres
dados['CNPJ BASICO'] = dados['CNPJ BASICO'].str.zfill(8)

In [29]:
# Definir as colunas específicas para verificar
colunas_data = ['DATA DE ADESAO AO SIMPLES' , 'DATA DE EXCLUSAO DO SIMPLES' , 'DATA DE ADESAO AO MEI', 'DATA DE EXCLUSAO DO MEI']
dados[colunas_data]

Unnamed: 0,DATA DE ADESAO AO SIMPLES,DATA DE EXCLUSAO DO SIMPLES,DATA DE ADESAO AO MEI,DATA DE EXCLUSAO DO MEI
0,20070701,20070701,20090701,20090701
1,20070701,20101231,0,0
2,20070701,20111231,0,0
3,20220101,0,0,0
4,20080101,20131231,0,0
...,...,...,...,...
348719,20240101,0,0,0
348720,20110714,0,20110714,0
348721,20110714,20180201,20110714,20180201
348722,20110714,20121231,20110714,20110930


In [30]:
# Substituir valores '0' ou inválidos por NaT (Not a Time)
dados['DATA DE ADESAO AO SIMPLES'] = dados['DATA DE ADESAO AO SIMPLES'].replace('0', pd.NaT)
dados['DATA DE EXCLUSAO DO SIMPLES'] = dados['DATA DE EXCLUSAO DO SIMPLES'].replace('0', pd.NaT)
dados['DATA DE ADESAO AO MEI'] = dados['DATA DE ADESAO AO MEI'].replace('0', pd.NaT)
dados['DATA DE EXCLUSAO DO MEI'] = dados['DATA DE EXCLUSAO DO MEI'].replace('0', pd.NaT)

# Converter para o formato datetime, forçando o tratamento de valores inválidos
dados['DATA DE ADESAO AO SIMPLES'] = pd.to_datetime(dados['DATA DE ADESAO AO SIMPLES'], errors='coerce', format='%Y%m%d')
dados['DATA DE EXCLUSAO DO SIMPLES'] = pd.to_datetime(dados['DATA DE EXCLUSAO DO SIMPLES'], errors='coerce', format='%Y%m%d')
dados['DATA DE ADESAO AO MEI'] = pd.to_datetime(dados['DATA DE ADESAO AO MEI'], errors='coerce', format='%Y%m%d')
dados['DATA DE EXCLUSAO DO MEI'] = pd.to_datetime(dados['DATA DE EXCLUSAO DO MEI'], errors='coerce', format='%Y%m%d')

# Formatar as datas para DD/MM/AAAA
dados['DATA DE ADESAO AO SIMPLES'] = dados['DATA DE ADESAO AO SIMPLES'].dt.strftime('%d/%m/%Y')
dados['DATA DE EXCLUSAO DO SIMPLES'] = dados['DATA DE EXCLUSAO DO SIMPLES'].dt.strftime('%d/%m/%Y')
dados['DATA DE ADESAO AO MEI'] = dados['DATA DE ADESAO AO MEI'].dt.strftime('%d/%m/%Y')
dados['DATA DE EXCLUSAO DO MEI'] = dados['DATA DE EXCLUSAO DO MEI'].dt.strftime('%d/%m/%Y')

# Exibir as colunas para verificar a conversão
dados[['DATA DE ADESAO AO SIMPLES', 'DATA DE EXCLUSAO DO SIMPLES', 'DATA DE ADESAO AO MEI','DATA DE EXCLUSAO DO MEI']]


Unnamed: 0,DATA DE ADESAO AO SIMPLES,DATA DE EXCLUSAO DO SIMPLES,DATA DE ADESAO AO MEI,DATA DE EXCLUSAO DO MEI
0,01/07/2007,01/07/2007,01/07/2009,01/07/2009
1,01/07/2007,31/12/2010,,
2,01/07/2007,31/12/2011,,
3,01/01/2022,,,
4,01/01/2008,31/12/2013,,
...,...,...,...,...
348719,01/01/2024,,,
348720,14/07/2011,,14/07/2011,
348721,14/07/2011,01/02/2018,14/07/2011,01/02/2018
348722,14/07/2011,31/12/2012,14/07/2011,30/09/2011


##### 🟩🟩 Verificando datas de abertura e fechamento do simples e do MEI

In [31]:
filtro_simples = dados['DATA DE ADESAO AO SIMPLES'] == dados['DATA DE EXCLUSAO DO SIMPLES']
resultado_simples = dados[filtro_simples]

print("Linhas onde Adesão e Exclusão do Simples são iguais:")
resultado_simples

Linhas onde Adesão e Exclusão do Simples são iguais:


Unnamed: 0,CNPJ BASICO,OPTANTE PELO SIMPLES,DATA DE ADESAO AO SIMPLES,DATA DE EXCLUSAO DO SIMPLES,OPTANTE PELO MEI,DATA DE ADESAO AO MEI,DATA DE EXCLUSAO DO MEI
0,00000nan,NAO,01/07/2007,01/07/2007,NAO,01/07/2009,01/07/2009
109,191211.0,NAO,01/07/2007,01/07/2007,NAO,,
134,209683.0,NAO,01/01/2009,01/01/2009,NAO,,
191,260594.0,NAO,01/07/2007,01/07/2007,NAO,,
299,360305.0,NAO,01/07/2007,01/07/2007,NAO,,
...,...,...,...,...,...,...,...
348123,70090733.0,NAO,01/01/2014,01/01/2014,NAO,,
348201,70179817.0,NAO,01/01/2016,01/01/2016,NAO,,
348307,70221064.0,NAO,01/07/2007,01/07/2007,NAO,,
348524,97531596.0,NAO,11/07/2011,11/07/2011,NAO,11/07/2011,11/07/2011


In [32]:
filtro_mei = dados['DATA DE ADESAO AO MEI'] == dados['DATA DE EXCLUSAO DO MEI']
resultado_mei = dados[filtro_mei]

print("\nLinhas onde Adesão e Exclusão do MEI são iguais:")
resultado_mei


Linhas onde Adesão e Exclusão do MEI são iguais:


Unnamed: 0,CNPJ BASICO,OPTANTE PELO SIMPLES,DATA DE ADESAO AO SIMPLES,DATA DE EXCLUSAO DO SIMPLES,OPTANTE PELO MEI,DATA DE ADESAO AO MEI,DATA DE EXCLUSAO DO MEI
0,00000nan,NAO,01/07/2007,01/07/2007,NAO,01/07/2009,01/07/2009
1170,1109916.0,SIM,01/01/2013,,NAO,01/01/2015,01/01/2015
6468,4297984.0,NAO,01/01/2008,31/12/2017,NAO,01/01/2015,01/01/2015
13702,7368636.0,NAO,01/01/2021,06/04/2022,NAO,01/01/2019,01/01/2019
20388,9020772.0,SIM,12/09/2007,,NAO,01/01/2015,01/01/2015
...,...,...,...,...,...,...,...
347029,57917761.0,NAO,31/10/2024,31/10/2024,NAO,31/10/2024,31/10/2024
347463,57998770.0,NAO,06/11/2024,06/11/2024,NAO,06/11/2024,06/11/2024
347472,57999901.0,NAO,06/11/2024,06/11/2024,NAO,06/11/2024,06/11/2024
347858,69937951.0,NAO,01/01/2009,31/12/2010,NAO,01/01/2011,01/01/2011


##### 🟡 Existe 1805 linhas em que a data de adesão e exclusão do simples é a mesma
##### 🟡 Existe 1928 linhas em que a data de expedição e exclusão do MEI é a mesma. 

##### 🟩🟩 Salvando o dataframe estabelecimento 

In [33]:
# Pasta para salvar o arquivo
OUTPUT_FOLDER = r'C:\Users\carli\Desktop\EmpresasAtivas\datasets\CSV_Tratados'
os.makedirs(OUTPUT_FOLDER, exist_ok=True)

In [34]:
# Salva o DataFrame em formato CSV com separador e controle de casas decimais
dados.to_csv('C:\\Users\\carli\\Desktop\\EmpresasAtivas\\datasets\\CSV_Tratados\\simples.csv', sep=';', decimal=',', encoding='UTF-8', index= False)
print('Salvo com sucesso')

Salvo com sucesso
