## Análise explanatória Empresas Ativas (CNAE)

#### Realização de uma análise explanatória detalhada dos dados das empresas ativas da cidade do Recife, verificando possíveis inconsistencias ou duplicações nos registros.

##### 🟩🟩 Importando Bibliotecas

In [1]:
import pandas as pd
import numpy as np
import os

In [2]:
# Diretório onde os arquivos CSV estão localizados
CSV_FOLDER = r'./datasets/CSV_Separados'

# Nome do arquivo CSV que você quer carregar
CSV_FILE = 'CNAES.csv'  # Substitua pelo nome do arquivo gerado

# Caminho completo do arquivo CSV
csv_path = os.path.join(CSV_FOLDER, CSV_FILE)

# Verificar se o arquivo existe antes de tentar carregá-lo
if os.path.exists(csv_path):
    # Carregar o arquivo CSV como DataFrame
    df = pd.read_csv(csv_path)
    print(f"Arquivo CSV '{CSV_FILE}' carregado com sucesso!")
else:
    print(f"Erro: O arquivo '{csv_path}' não foi encontrado.")

pd.set_option('display.max_columns', None)  # Exibe todas as colunas
pd.set_option('display.max_colwidth', None)  # Exibe o conteúdo completo de cada célula
pd.set_option('display.width', None)  # Ajuste de largura para evitar quebra de linha

Arquivo CSV 'CNAES.csv' carregado com sucesso!


In [3]:
df.head(5)

Unnamed: 0,CODIGO,CNAE
0,111301,Cultivo de arroz
1,111302,Cultivo de milho
2,111303,Cultivo de trigo
3,111399,Cultivo de outros cereais não especificados anteriormente
4,112101,Cultivo de algodão herbáceo


##### 🟩🟩 Verificando a quantidade de nulos por coluna (mostrando apenas as colunas com nulos)

In [4]:
# Contar os valores nulos por coluna
nulos_por_coluna = df.isna().sum()

# Filtrar as colunas com valores nulos (maior que 0)
colunas_com_nulos = nulos_por_coluna[nulos_por_coluna > 0]

# Exibir as colunas com valores nulos
print(colunas_com_nulos)

Series([], dtype: int64)


##### 🟡 Não há valores Nulos 

##### 🟩🟩 Verificando dados duplicados 

In [5]:
duplicatas = df.duplicated()

# Exibir as linhas duplicadas (se houver)
print(df[duplicatas])

Empty DataFrame
Columns: [CODIGO, CNAE]
Index: []


##### Não há dados duplicados na tabela CNAE

##### 🟩🟩 Verificando os tipos dos dados 

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1359 entries, 0 to 1358
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   CODIGO  1359 non-null   int64 
 1   CNAE    1359 non-null   object
dtypes: int64(1), object(1)
memory usage: 21.4+ KB


##### 🟡 Em uma analise por data type é preciso ajustar ' CODIGO' para object pois eles não possuem a função de soma visto que se trata de códigos

##### 🟩🟩 Alterando Dtype para object 

In [7]:
conversao = ['CODIGO']

# Converter as colunas específicas de 'int' para 'object'
df[conversao] = df[conversao].astype('object')

# Verificar os tipos de df após a conversão
df.dtypes

CODIGO    object
CNAE      object
dtype: object

##### Analises

* QUANTIDADE DE CNAE
* QUANTIDADE DE ATIVIDADES
* QUANTIDADE DE CNAE POR ATIVIDADE

In [8]:
qtd_codigos = df['CODIGO'].nunique()
qtd_codigos

1359

In [9]:
qtd_atividades = df['CNAE'].nunique()
qtd_atividades

1355

In [10]:
atividades_por_codigo = df.groupby('CODIGO')['CNAE'].nunique().reset_index()
atividades_por_codigo = atividades_por_codigo.sort_values(by='CNAE', ascending=True)
atividades_por_codigo

Unnamed: 0,CODIGO,CNAE
1343,9603302,1
1342,9603301,1
1341,9602502,1
1340,9602501,1
1339,9601703,1
...,...,...
1355,9609208,1
1356,9609299,1
1357,9700500,1
1358,9900800,1


In [11]:
# Contar a quantidade de atividades únicas por código
cnaes_por_codigo = df.groupby('CODIGO')['CNAE'].nunique().reset_index()

# Encontrar códigos sem cnaes (quantidade de cnaes = 0)
codigos_sem_cnae = cnaes_por_codigo[cnaes_por_codigo['CNAE'] ==0]

# Encontrar códigos com a mesma cnae (quantidade de cnaes = 1)
codigos_com_mesma_cnae = cnaes_por_codigo[cnaes_por_codigo['CNAE'] == 1]

# Exibir resultados
print(f"Códigos sem cnaes:\n{codigos_sem_cnae}")
print(f"\nCódigos com a mesma cnae:\n{codigos_com_mesma_cnae}")

Códigos sem cnaes:
Empty DataFrame
Columns: [CODIGO, CNAE]
Index: []

Códigos com a mesma cnae:
       CODIGO  CNAE
0      111301     1
1      111302     1
2      111303     1
3      111399     1
4      112101     1
...       ...   ...
1354  9609207     1
1355  9609208     1
1356  9609299     1
1357  9700500     1
1358  9900800     1

[1359 rows x 2 columns]


##### 🟩🟩 Salvando o dataframe CNAE

In [12]:
# Pasta para salvar o arquivo
OUTPUT_FOLDER = r'C:\Users\carli\Desktop\EmpresasAtivas\datasets\CSV_Tratados'
os.makedirs(OUTPUT_FOLDER, exist_ok=True)

In [13]:
# Salva o DataFrame em formato CSV com separador e controle de casas decimais
df.to_csv('C:\\Users\\carli\\Desktop\\EmpresasAtivas\\datasets\\CSV_Tratados\\cnae.csv', sep=';', decimal=',', encoding='UTF-8')
print('Salvo com sucesso')

Salvo com sucesso
