## Análise explanatória Empresas Ativas (SOCIOS)

#### Realização de uma análise explanatória detalhada dos dados das empresas ativas da cidade do Recife, verificando possíveis inconsistencias ou duplicações nos registros.

##### 🟩🟩 Importando Bibliotecas

In [21]:
import pandas as pd
import numpy as np
import os

In [22]:
# Diretório onde os arquivos CSV estão localizados
CSV_FOLDER = r'./datasets/CSV_Separados'

# Nome do arquivo CSV que você quer carregar
CSV_FILE = 'SOCIOS.csv'  # Substitua pelo nome do arquivo gerado

# Caminho completo do arquivo CSV
csv_path = os.path.join(CSV_FOLDER, CSV_FILE)

# Verificar se o arquivo existe antes de tentar carregá-lo
if os.path.exists(csv_path):
    # Carregar o arquivo CSV como DataFrame
    df = pd.read_csv(csv_path)
    print(f"Arquivo CSV '{CSV_FILE}' carregado com sucesso!")
else:
    print(f"Erro: O arquivo '{csv_path}' não foi encontrado.")

pd.set_option('display.max_columns', None)  # Exibe todas as colunas
pd.set_option('display.max_colwidth', None)  # Exibe o conteúdo completo de cada célula
pd.set_option('display.width', None)  # Ajuste de largura para evitar quebra de linha

Arquivo CSV 'SOCIOS.csv' carregado com sucesso!


##### 🟩🟩 Observando o dataframe

In [23]:
df.head(5)

Unnamed: 0,CNPJ BASICO,IDENTIFICADOR DO SOCIO,NOME DO SOCIO,CPF DO SOCIO,QUALIFICACAO DO SOCIO,DATA DE ENTRADA DA SOCIEDADE,PAIS,REPRESENTANTE LEGAL,NOME DO REPRESENTANTE,QUALIFICACAO DO REPRESENTANTE LEGAL,FAIXA ETARIA
0,23588623,PESSOA FISICA,HAMANDA MARIA DE SOUZA,***641544**,SÓCIO-ADMINISTRADOR,20151103,,***000000**,,NÃO INFORMADA,41-50 anos
1,23588988,PESSOA FISICA,EMANUEL MESSIAS DE FIGUEIREDO,***037174**,SÓCIO-ADMINISTRADOR,20151103,,***000000**,,NÃO INFORMADA,41-50 anos
2,23595463,PESSOA FISICA,CLAUDIO ROBERTO FABRICIO DA SILVA,***670204**,SÓCIO-ADMINISTRADOR,20181130,,***000000**,,NÃO INFORMADA,51-60 anos
3,23603499,PESSOA FISICA,LEOCADIA MIRELLE DE SOUZA MELO,***450904**,SÓCIO-ADMINISTRADOR,20151105,,***000000**,,NÃO INFORMADA,31-40 anos
4,23604687,PESSOA FISICA,TIBERIO MENEZES DE SIQUEIRA,***537794**,SÓCIO-ADMINISTRADOR,20151105,,***000000**,,NÃO INFORMADA,61-70 anos


##### 🟡 Verificado que País tem dados nulos ...vamos olhar melhor

In [24]:
valores_unicos = df['PAIS'].unique()
print(valores_unicos)

[nan 'CANADA' 'PORTUGAL' 'ESPANHA' 'ITALIA' 'ALEMANHA' 'ESTADOS UNIDOS'
 'CINGAPURA' 'VIRGENS, ILHAS (BRITANICAS)' 'NORUEGA' 'SUECIA' 'SUICA'
 'FRANCA' 'Países Baixos (Holanda)' 'CAYMAN,ILHAS' 'BAHAMAS' 'JAPAO'
 'LUXEMBURGO' 'URUGUAI' 'DINAMARCA' 'ARGENTINA' 'BERMUDAS' 'MEXICO'
 'ANTILHAS HOLANDESAS' 'BELGICA' 'AUSTRIA' 'REINO UNIDO' 'HUNGRIA'
 'AFRICA DO SUL' 'RUSSIA, FEDERACAO DA' 'CHILE' 'PANAMA' 'PERU' 'COLOMBIA'
 'VIRGENS, ILHAS (EUA)' 'ISRAEL' 'FINLANDIA' 'ANGOLA'
 'EMIRADOS ARABES UNIDOS' 'China, República Popular' 'IRLANDA'
 'SEYCHELLES' 'AFEGANISTAO' 'GIBRALTAR' 'CHIPRE' 'MAURICIO' 'HONG-KONG'
 'LIECHTENSTEIN' 'INDIA' 'NIUE' 'BELISE' 'PORTO RICO' 'POLONIA'
 'IEMEN, REPUBLICA DO' 'THECA, REPUBLICA' 'MONACO' 'PARAGUAI'
 'NOVA ZELANDIA' 'GRECIA' 'EGITO' 'SAN MARINO' 'ISLANDIA'
 'COREIA REPUBLICA DA' 'MALTA' 'MACAU']


##### Deixar inicialmente tudo em maiusculo para padronizar

In [25]:
df['PAIS'] = df['PAIS'].str.upper()

##### 🟩🟩 Mostrar apenas os dados nulos da coluna PAIS

In [26]:
nan_pais = df[df['PAIS'].isna()]
nan_pais

Unnamed: 0,CNPJ BASICO,IDENTIFICADOR DO SOCIO,NOME DO SOCIO,CPF DO SOCIO,QUALIFICACAO DO SOCIO,DATA DE ENTRADA DA SOCIEDADE,PAIS,REPRESENTANTE LEGAL,NOME DO REPRESENTANTE,QUALIFICACAO DO REPRESENTANTE LEGAL,FAIXA ETARIA
0,23588623,PESSOA FISICA,HAMANDA MARIA DE SOUZA,***641544**,SÓCIO-ADMINISTRADOR,20151103,,***000000**,,NÃO INFORMADA,41-50 anos
1,23588988,PESSOA FISICA,EMANUEL MESSIAS DE FIGUEIREDO,***037174**,SÓCIO-ADMINISTRADOR,20151103,,***000000**,,NÃO INFORMADA,41-50 anos
2,23595463,PESSOA FISICA,CLAUDIO ROBERTO FABRICIO DA SILVA,***670204**,SÓCIO-ADMINISTRADOR,20181130,,***000000**,,NÃO INFORMADA,51-60 anos
3,23603499,PESSOA FISICA,LEOCADIA MIRELLE DE SOUZA MELO,***450904**,SÓCIO-ADMINISTRADOR,20151105,,***000000**,,NÃO INFORMADA,31-40 anos
4,23604687,PESSOA FISICA,TIBERIO MENEZES DE SIQUEIRA,***537794**,SÓCIO-ADMINISTRADOR,20151105,,***000000**,,NÃO INFORMADA,61-70 anos
...,...,...,...,...,...,...,...,...,...,...,...
287418,44758094,PESSOA FISICA,CESAR AUGUSTO PIMENTEL STAUDINGER,***690334**,SÓCIO-ADMINISTRADOR,20220105,,***000000**,,NÃO INFORMADA,41-50 anos
287419,44759650,PESSOA FISICA,ANTONIO MANOEL DE LIMA FERREIRA,***407634**,SÓCIO-ADMINISTRADOR,20230224,,***000000**,,NÃO INFORMADA,41-50 anos
287420,44761936,PESSOA FISICA,JAMILE MERIELE DE LIMA CAVALCANTI,***273605**,SÓCIO-ADMINISTRADOR,20220106,,***000000**,,NÃO INFORMADA,31-40 anos
287421,44769793,PESSOA FISICA,ERIC WILLIAN CORREIA DE MELO,***492414**,SÓCIO-ADMINISTRADOR,20211130,,***000000**,,NÃO INFORMADA,41-50 anos


In [27]:
df= df.rename(columns={'PAIS': 'PAIS_SOCIO'})

##### 🟩🟩 Verificando a quantidade de nulos por coluna (mostrando apenas as colunas com nulos)

In [28]:
# Contar os valores nulos por coluna
nulos_por_coluna = df.isna().sum()

# Filtrar as colunas com valores nulos (maior que 0)
colunas_com_nulos = nulos_por_coluna[nulos_por_coluna > 0]

# Exibir as colunas com valores nulos
print(colunas_com_nulos)

NOME DO SOCIO                22
CPF DO SOCIO                147
PAIS_SOCIO               285922
NOME DO REPRESENTANTE    277123
dtype: int64


##### 🟩🟩 Verificando campo nulo em NOME DO SOCIO


In [29]:
# Filtrar linhas onde a coluna 'PAIS' é NaN
nan_logradouro = df[df['NOME DO SOCIO'].isna()]

nan_logradouro

Unnamed: 0,CNPJ BASICO,IDENTIFICADOR DO SOCIO,NOME DO SOCIO,CPF DO SOCIO,QUALIFICACAO DO SOCIO,DATA DE ENTRADA DA SOCIEDADE,PAIS_SOCIO,REPRESENTANTE LEGAL,NOME DO REPRESENTANTE,QUALIFICACAO DO REPRESENTANTE LEGAL,FAIXA ETARIA
17881,10596492,PESSOA FISICA,,***438364**,PRESIDENTE,20050912,,***000000**,,NÃO INFORMADA,NAO SE APLICA
20386,11265345,PESSOA FISICA,,***224504**,PRESIDENTE,20050912,,***000000**,,NÃO INFORMADA,NAO SE APLICA
63396,116136,PESSOA FISICA,,***000000**,PRESIDENTE,20050912,,***000000**,,NÃO INFORMADA,NAO SE APLICA
68762,41230293,PESSOA FISICA,,***000000**,PRESIDENTE,20050912,,***000000**,,NÃO INFORMADA,NAO SE APLICA
78008,1038895,PESSOA FISICA,,***283144**,SÓCIO-ADMINISTRADOR,19971219,,***000000**,,NÃO INFORMADA,NAO SE APLICA
80985,8798993,PESSOA FISICA,,***773314**,PRESIDENTE,20050912,,***000000**,,NÃO INFORMADA,NAO SE APLICA
81333,10578375,PESSOA FISICA,,***099394**,PRESIDENTE,20050912,,***000000**,,NÃO INFORMADA,NAO SE APLICA
81383,10669893,PESSOA FISICA,,***000000**,PRESIDENTE,20050912,,***000000**,,NÃO INFORMADA,NAO SE APLICA
81485,10869725,PESSOA FISICA,,***391884**,PRESIDENTE,20050912,,***000000**,,NÃO INFORMADA,NAO SE APLICA
95938,8259129,PESSOA FISICA,,***300674**,PRESIDENTE,20050912,,***000000**,,NÃO INFORMADA,NAO SE APLICA


##### Não é possível preencher esses campos nulos. No ponto de vista de análise as informações referentes a país, representante e nome do socio não são muito relevantes mas por hora serão mantidos

##### 🟩🟩 Verificando dados duplicados 

In [30]:
duplicatas = df.duplicated()

# Exibir as linhas duplicadas (se houver)
print(df[duplicatas])

Empty DataFrame
Columns: [CNPJ BASICO, IDENTIFICADOR DO SOCIO, NOME DO SOCIO, CPF DO SOCIO, QUALIFICACAO DO SOCIO, DATA DE ENTRADA DA SOCIEDADE, PAIS_SOCIO, REPRESENTANTE LEGAL, NOME DO REPRESENTANTE, QUALIFICACAO DO REPRESENTANTE LEGAL, FAIXA ETARIA]
Index: []


##### Não há dados duplicados na tabela socios

##### 🟩🟩 Verificando os tipos dos dados 

In [31]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 287423 entries, 0 to 287422
Data columns (total 11 columns):
 #   Column                               Non-Null Count   Dtype 
---  ------                               --------------   ----- 
 0   CNPJ BASICO                          287423 non-null  int64 
 1   IDENTIFICADOR DO SOCIO               287423 non-null  object
 2   NOME DO SOCIO                        287401 non-null  object
 3   CPF DO SOCIO                         287276 non-null  object
 4   QUALIFICACAO DO SOCIO                287423 non-null  object
 5   DATA DE ENTRADA DA SOCIEDADE         287423 non-null  int64 
 6   PAIS_SOCIO                           1501 non-null    object
 7   REPRESENTANTE LEGAL                  287423 non-null  object
 8   NOME DO REPRESENTANTE                10300 non-null   object
 9   QUALIFICACAO DO REPRESENTANTE LEGAL  287423 non-null  object
 10  FAIXA ETARIA                         287423 non-null  object
dtypes: int64(2), object(9)
mem

##### 🟡 Em uma analise por data type é preciso ajustar 'CNPJ BASICO' para object pois eles não possui a função de soma visto que se trata de códigos
##### 🟡 Em uma analise por data type é preciso ajustar 'DATA DE ENTRADA DA SOCIEDADE' para o formato de data

##### 🟩🟩 Alterando Dtype para object 

In [32]:
conversao = ['CNPJ BASICO']

# Converter as colunas específicas de 'int' para 'object'
df[conversao] = df[conversao].astype('object')

# Verificar os tipos de df após a conversão
df.dtypes

CNPJ BASICO                            object
IDENTIFICADOR DO SOCIO                 object
NOME DO SOCIO                          object
CPF DO SOCIO                           object
QUALIFICACAO DO SOCIO                  object
DATA DE ENTRADA DA SOCIEDADE            int64
PAIS_SOCIO                             object
REPRESENTANTE LEGAL                    object
NOME DO REPRESENTANTE                  object
QUALIFICACAO DO REPRESENTANTE LEGAL    object
FAIXA ETARIA                           object
dtype: object

In [33]:
df['CNPJ BASICO'] = df['CNPJ BASICO'].astype(str)

# Adicionar zeros à esquerda para garantir 8 caracteres
df['CNPJ BASICO'] = df['CNPJ BASICO'].str.zfill(8)

In [34]:
# Definir as colunas específicas para verificar
colunas_data = ['DATA DE ENTRADA DA SOCIEDADE']
df[colunas_data]

Unnamed: 0,DATA DE ENTRADA DA SOCIEDADE
0,20151103
1,20151103
2,20181130
3,20151105
4,20151105
...,...
287418,20220105
287419,20230224
287420,20220106
287421,20211130


In [35]:
# Substituir valores '0' ou inválidos por NaT (Not a Time)
df['DATA DE ENTRADA DA SOCIEDADE'] = df['DATA DE ENTRADA DA SOCIEDADE'].replace('0', pd.NaT)

# Converter para o formato datetime, forçando o tratamento de valores inválidos
df['DATA DE ENTRADA DA SOCIEDADE'] = pd.to_datetime(df['DATA DE ENTRADA DA SOCIEDADE'], errors='coerce', format='%Y%m%d')

# Formatar as datas para DD/MM/AAAA
df['DATA DE ENTRADA DA SOCIEDADE'] = df['DATA DE ENTRADA DA SOCIEDADE'].dt.strftime('%d/%m/%Y')

# Exibir as colunas para verificar a conversão
df['DATA DE ENTRADA DA SOCIEDADE']


0         03/11/2015
1         03/11/2015
2         30/11/2018
3         05/11/2015
4         05/11/2015
             ...    
287418    05/01/2022
287419    24/02/2023
287420    06/01/2022
287421    30/11/2021
287422    30/11/2021
Name: DATA DE ENTRADA DA SOCIEDADE, Length: 287423, dtype: object

##### Analises
* IDENTIFICADOR DE SOCIO 
* CPF DO SOCIO TEM QUANTOS CNPJS
* QUALIFICACAO DO SOCIO POR CNPJ
* FAIXA ETARIA MAIS RECORRENTE E A MENOS RECORRENTE

In [36]:
# Contar a quantidade de vezes que cada valor se repete na coluna "QUALIFICACAO DO SOCIO"
frequencia_socios = df["QUALIFICACAO DO SOCIO"].value_counts()

# Exibir o resultado
print("Quantidade de vezes que os valores se repetem na coluna 'QUALIFICACAO DO SOCIO':")
print(frequencia_socios)


Quantidade de vezes que os valores se repetem na coluna 'QUALIFICACAO DO SOCIO':
QUALIFICACAO DO SOCIO
SÓCIO-ADMINISTRADOR                                         163532
SÓCIO                                                        74210
ADMINISTRADOR                                                12591
PRESIDENTE                                                   12153
DIRETOR                                                      11470
TITULAR PESSOA FÍSICA RESIDENTE OU DOMICILIADO NO BRASIL      5216
SÓCIO COM CAPITAL                                             1598
SOCIEDADE CONSORCIADA                                         1363
SÓCIO MENOR (ASSISTIDO/REPRESENTADO)                          1357
SÓCIO PESSOA JURÍDICA DOMICILIADO NO EXTERIOR                 1200
CONSELHEIRO DE ADMINISTRAÇÃO                                  1044
SÓCIO OSTENSIVO                                                593
SÓCIO SEM CAPITAL                                              411
SÓCIO PESSOA FÍSICA RESIDE

In [37]:
cnpj_por_cpf = df.groupby("CPF DO SOCIO")["CNPJ BASICO"].nunique().reset_index(name="QUANTIDADE_CNPJS")

# Exibir o resultado
print("Quantidade de CNPJs diferentes para cada CPF do sócio:")
print(cnpj_por_cpf)

Quantidade de CNPJs diferentes para cada CPF do sócio:
          CPF DO SOCIO  QUANTIDADE_CNPJS
0          ***000000**                 9
1          ***000007**                 1
2          ***000014**                 2
3          ***000024**                 4
4          ***000034**                 2
...                ...               ...
122017  97535869000172                 3
122018  97540850000114                 1
122019  97540851000169                 1
122020  97546697000132                 2
122021  97929203000107                 1

[122022 rows x 2 columns]


In [38]:
# Contando a frequência das faixas etárias
faixa_etaria_frequente = df['FAIXA ETARIA'].value_counts()

# Identificando a faixa etária mais recorrente e a menos recorrente
faixa_etaria_mais_recorrente = faixa_etaria_frequente.idxmax()
faixa_etaria_menos_recorrente = faixa_etaria_frequente.idxmin()

# Exibir os resultados
print(f"Faixa etária mais recorrente: {faixa_etaria_mais_recorrente}")
print(f"Faixa etária menos recorrente: {faixa_etaria_menos_recorrente}")

Faixa etária mais recorrente: 41-50 anos
Faixa etária menos recorrente: 0-12 anos


##### 🟩🟩 Salvando o dataframe SOCIOS

In [39]:
# Pasta para salvar o arquivo
OUTPUT_FOLDER = r'C:\Users\carli\Desktop\EmpresasAtivas\datasets\CSV_Tratados'
os.makedirs(OUTPUT_FOLDER, exist_ok=True)

In [40]:
# Salva o DataFrame em formato CSV com separador e controle de casas decimais
df.to_csv('C:\\Users\\carli\\Desktop\\EmpresasAtivas\\datasets\\CSV_Tratados\\socios.csv', sep=';', decimal=',', encoding='UTF-8', index=False)
print('Salvo com sucesso')

Salvo com sucesso
