In [1]:
# Versão da linguagem Python e arquitetura do Jupyter Notebook
import platform
print('Versão da linguagem Python utilizada neste notebook:', platform.python_version())
print('Arquitetura do Jupyter utilizada neste notebook:', platform.architecture()[0])

# Outra forma de apresentar a versão da linguagem Python
# import sys
# print('Versão da linguagem Python:', sys.version)

Versão da linguagem Python utilizada neste notebook: 3.8.5
Arquitetura do Jupyter utilizada neste notebook: 64bit


# DA1 - 2023: Limpeza e transformação de dados de fornecedores SC

## Instalando os pacotes do projeto

In [2]:
# Imports
# Manipulação de dados
import pandas as pd
import numpy as np

# Ignore warning
import sys
import warnings
if not sys.warnoptions:
    warnings.simplefilter("ignore")

In [3]:
# Para verificar as versões dos pacotes utilizados neste notebook.
%reload_ext watermark
%watermark -a "vll.adm.br" --iversions

Author: vll.adm.br

numpy   : 1.24.3
pandas  : 1.5.3
sys     : 3.8.5 (default, Sep  3 2020, 21:29:08) [MSC v.1916 64 bit (AMD64)]
platform: 1.0.8



## Carregando o dataset de trabalho

Iremos trabalhar com o dataset de Cadastro de Fornecedores, disponibilizado pela Diretoria de Gestão de Licitações e Contratos da Secretaria de Estado da Administração de Santa Catarina - SEA/SC. A base de dados, atualizada em 15/06/23, encontra-se disponível em https://github.com/SmartSC-SEA/Fornecedores-cadastrados-E-LIC.

In [4]:
# Criando o dataframe de trabalho
df = pd.read_csv('datasets/ELIC_fornecedores_cadastro.csv')

In [5]:
# Verificando o tipo do dataframe
type(df)

pandas.core.frame.DataFrame

In [6]:
# Verificando o formato do dataframe
df.shape

(358232, 8)

In [7]:
# Listando os nomes dos campos
df.columns

Index(['cnpj', 'razao_social', 'porte', 'cidade', 'uf', 'pais', 'situacao',
       'produtos_habilitados'],
      dtype='object')

In [8]:
# Informações gerais do dataframe
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 358232 entries, 0 to 358231
Data columns (total 8 columns):
 #   Column                Non-Null Count   Dtype 
---  ------                --------------   ----- 
 0   cnpj                  358232 non-null  int64 
 1   razao_social          358232 non-null  object
 2   porte                 358232 non-null  object
 3   cidade                358101 non-null  object
 4   uf                    358101 non-null  object
 5   pais                  358101 non-null  object
 6   situacao              358232 non-null  object
 7   produtos_habilitados  357273 non-null  object
dtypes: int64(1), object(7)
memory usage: 21.9+ MB


## Análise exploratória dos dados

In [9]:
# Listando uma amostra do dataset
df.head()

Unnamed: 0,cnpj,razao_social,porte,cidade,uf,pais,situacao,produtos_habilitados
0,6942591000100,MCG AGUIAR CARTUCHOS ME,ME/EPP,SAO JOSE DO RIO PRETO,São Paulo,Brasil,Empresa ativa,"1303 - Equipamentos, programas e suprimentos d..."
1,5325332000160,Global Multimídia Comércio de Eletroeletrônico...,ME/EPP,SAO PAULO,São Paulo,Brasil,Empresa ativa,"1303 - Equipamentos, programas e suprimentos d..."
2,9349162000104,TEXAS INFORMATICA E PRODUTOS LTDA. EPP,NÃO INFORMADO,VITORIA,Espírito Santo,Brasil,Empresa ativa,"1303 - Equipamentos, programas e suprimentos d..."
3,13000035000172,TARCIANE LOHN BOECHAT EPP,ME/EPP,SANTO AMARO DA IMPERATRIZ,Santa Catarina,Brasil,Empresa ativa,"1303 - Equipamentos, programas e suprimentos d..."
4,73977480000119,COMERCIAL STORINNY LTDA EPP,ME/EPP,PORTO BELO,Santa Catarina,Brasil,Empresa ativa,"1303 - Equipamentos, programas e suprimentos d..."


### Dividindo a coluna 'produtos habilitados' nas colunas 'Grupo' e 'Classe'

In [11]:
# Dividindo a coluna 'produtos_habilitados' em partes usando o caracter '-'
df1 = df
df1[['Grupo','Classe','Descricao']] = df['produtos_habilitados'].str.split(' - ',2,expand=True)

In [12]:
df1.head()

Unnamed: 0,cnpj,razao_social,porte,cidade,uf,pais,situacao,produtos_habilitados,Grupo,Classe,Descricao
0,6942591000100,MCG AGUIAR CARTUCHOS ME,ME/EPP,SAO JOSE DO RIO PRETO,São Paulo,Brasil,Empresa ativa,"1303 - Equipamentos, programas e suprimentos d...",1303,"Equipamentos, programas e suprimentos de infor...",Cartuchos de tinta e toner para impressoras
1,5325332000160,Global Multimídia Comércio de Eletroeletrônico...,ME/EPP,SAO PAULO,São Paulo,Brasil,Empresa ativa,"1303 - Equipamentos, programas e suprimentos d...",1303,"Equipamentos, programas e suprimentos de infor...",Cartuchos de tinta e toner para impressoras
2,9349162000104,TEXAS INFORMATICA E PRODUTOS LTDA. EPP,NÃO INFORMADO,VITORIA,Espírito Santo,Brasil,Empresa ativa,"1303 - Equipamentos, programas e suprimentos d...",1303,"Equipamentos, programas e suprimentos de infor...",Cartuchos de tinta e toner para impressoras
3,13000035000172,TARCIANE LOHN BOECHAT EPP,ME/EPP,SANTO AMARO DA IMPERATRIZ,Santa Catarina,Brasil,Empresa ativa,"1303 - Equipamentos, programas e suprimentos d...",1303,"Equipamentos, programas e suprimentos de infor...",Cartuchos de tinta e toner para impressoras
4,73977480000119,COMERCIAL STORINNY LTDA EPP,ME/EPP,PORTO BELO,Santa Catarina,Brasil,Empresa ativa,"1303 - Equipamentos, programas e suprimentos d...",1303,"Equipamentos, programas e suprimentos de infor...",Cartuchos de tinta e toner para impressoras


In [13]:
# Dividindo o código do grupo-classe em duas colunas
df2 = df1
df2['Grupo1'] = df2['Grupo'].str[0:2]
df2['Grupo2'] = df2['Grupo'].str[2:]

In [14]:
df2.head()

Unnamed: 0,cnpj,razao_social,porte,cidade,uf,pais,situacao,produtos_habilitados,Grupo,Classe,Descricao,Grupo1,Grupo2
0,6942591000100,MCG AGUIAR CARTUCHOS ME,ME/EPP,SAO JOSE DO RIO PRETO,São Paulo,Brasil,Empresa ativa,"1303 - Equipamentos, programas e suprimentos d...",1303,"Equipamentos, programas e suprimentos de infor...",Cartuchos de tinta e toner para impressoras,13,3
1,5325332000160,Global Multimídia Comércio de Eletroeletrônico...,ME/EPP,SAO PAULO,São Paulo,Brasil,Empresa ativa,"1303 - Equipamentos, programas e suprimentos d...",1303,"Equipamentos, programas e suprimentos de infor...",Cartuchos de tinta e toner para impressoras,13,3
2,9349162000104,TEXAS INFORMATICA E PRODUTOS LTDA. EPP,NÃO INFORMADO,VITORIA,Espírito Santo,Brasil,Empresa ativa,"1303 - Equipamentos, programas e suprimentos d...",1303,"Equipamentos, programas e suprimentos de infor...",Cartuchos de tinta e toner para impressoras,13,3
3,13000035000172,TARCIANE LOHN BOECHAT EPP,ME/EPP,SANTO AMARO DA IMPERATRIZ,Santa Catarina,Brasil,Empresa ativa,"1303 - Equipamentos, programas e suprimentos d...",1303,"Equipamentos, programas e suprimentos de infor...",Cartuchos de tinta e toner para impressoras,13,3
4,73977480000119,COMERCIAL STORINNY LTDA EPP,ME/EPP,PORTO BELO,Santa Catarina,Brasil,Empresa ativa,"1303 - Equipamentos, programas e suprimentos d...",1303,"Equipamentos, programas e suprimentos de infor...",Cartuchos de tinta e toner para impressoras,13,3


In [15]:
df2.rename(columns={'Grupo':'Código GC'}, inplace=True)

In [16]:
df2.head()

Unnamed: 0,cnpj,razao_social,porte,cidade,uf,pais,situacao,produtos_habilitados,Código GC,Classe,Descricao,Grupo1,Grupo2
0,6942591000100,MCG AGUIAR CARTUCHOS ME,ME/EPP,SAO JOSE DO RIO PRETO,São Paulo,Brasil,Empresa ativa,"1303 - Equipamentos, programas e suprimentos d...",1303,"Equipamentos, programas e suprimentos de infor...",Cartuchos de tinta e toner para impressoras,13,3
1,5325332000160,Global Multimídia Comércio de Eletroeletrônico...,ME/EPP,SAO PAULO,São Paulo,Brasil,Empresa ativa,"1303 - Equipamentos, programas e suprimentos d...",1303,"Equipamentos, programas e suprimentos de infor...",Cartuchos de tinta e toner para impressoras,13,3
2,9349162000104,TEXAS INFORMATICA E PRODUTOS LTDA. EPP,NÃO INFORMADO,VITORIA,Espírito Santo,Brasil,Empresa ativa,"1303 - Equipamentos, programas e suprimentos d...",1303,"Equipamentos, programas e suprimentos de infor...",Cartuchos de tinta e toner para impressoras,13,3
3,13000035000172,TARCIANE LOHN BOECHAT EPP,ME/EPP,SANTO AMARO DA IMPERATRIZ,Santa Catarina,Brasil,Empresa ativa,"1303 - Equipamentos, programas e suprimentos d...",1303,"Equipamentos, programas e suprimentos de infor...",Cartuchos de tinta e toner para impressoras,13,3
4,73977480000119,COMERCIAL STORINNY LTDA EPP,ME/EPP,PORTO BELO,Santa Catarina,Brasil,Empresa ativa,"1303 - Equipamentos, programas e suprimentos d...",1303,"Equipamentos, programas e suprimentos de infor...",Cartuchos de tinta e toner para impressoras,13,3


In [17]:
df2['Grupo_desc'] = df2['Grupo1']+' - '+df2['Classe']
df2['Classe_desc'] = df2['Grupo2']+' - '+df2['Descricao']

In [18]:
df2.head()

Unnamed: 0,cnpj,razao_social,porte,cidade,uf,pais,situacao,produtos_habilitados,Código GC,Classe,Descricao,Grupo1,Grupo2,Grupo_desc,Classe_desc
0,6942591000100,MCG AGUIAR CARTUCHOS ME,ME/EPP,SAO JOSE DO RIO PRETO,São Paulo,Brasil,Empresa ativa,"1303 - Equipamentos, programas e suprimentos d...",1303,"Equipamentos, programas e suprimentos de infor...",Cartuchos de tinta e toner para impressoras,13,3,"13 - Equipamentos, programas e suprimentos de ...",03 - Cartuchos de tinta e toner para impressoras
1,5325332000160,Global Multimídia Comércio de Eletroeletrônico...,ME/EPP,SAO PAULO,São Paulo,Brasil,Empresa ativa,"1303 - Equipamentos, programas e suprimentos d...",1303,"Equipamentos, programas e suprimentos de infor...",Cartuchos de tinta e toner para impressoras,13,3,"13 - Equipamentos, programas e suprimentos de ...",03 - Cartuchos de tinta e toner para impressoras
2,9349162000104,TEXAS INFORMATICA E PRODUTOS LTDA. EPP,NÃO INFORMADO,VITORIA,Espírito Santo,Brasil,Empresa ativa,"1303 - Equipamentos, programas e suprimentos d...",1303,"Equipamentos, programas e suprimentos de infor...",Cartuchos de tinta e toner para impressoras,13,3,"13 - Equipamentos, programas e suprimentos de ...",03 - Cartuchos de tinta e toner para impressoras
3,13000035000172,TARCIANE LOHN BOECHAT EPP,ME/EPP,SANTO AMARO DA IMPERATRIZ,Santa Catarina,Brasil,Empresa ativa,"1303 - Equipamentos, programas e suprimentos d...",1303,"Equipamentos, programas e suprimentos de infor...",Cartuchos de tinta e toner para impressoras,13,3,"13 - Equipamentos, programas e suprimentos de ...",03 - Cartuchos de tinta e toner para impressoras
4,73977480000119,COMERCIAL STORINNY LTDA EPP,ME/EPP,PORTO BELO,Santa Catarina,Brasil,Empresa ativa,"1303 - Equipamentos, programas e suprimentos d...",1303,"Equipamentos, programas e suprimentos de infor...",Cartuchos de tinta e toner para impressoras,13,3,"13 - Equipamentos, programas e suprimentos de ...",03 - Cartuchos de tinta e toner para impressoras


In [19]:
df2.drop(columns=['Classe','Descricao','Grupo1','Grupo2'], inplace=True)

In [20]:
df2.head()

Unnamed: 0,cnpj,razao_social,porte,cidade,uf,pais,situacao,produtos_habilitados,Código GC,Grupo_desc,Classe_desc
0,6942591000100,MCG AGUIAR CARTUCHOS ME,ME/EPP,SAO JOSE DO RIO PRETO,São Paulo,Brasil,Empresa ativa,"1303 - Equipamentos, programas e suprimentos d...",1303,"13 - Equipamentos, programas e suprimentos de ...",03 - Cartuchos de tinta e toner para impressoras
1,5325332000160,Global Multimídia Comércio de Eletroeletrônico...,ME/EPP,SAO PAULO,São Paulo,Brasil,Empresa ativa,"1303 - Equipamentos, programas e suprimentos d...",1303,"13 - Equipamentos, programas e suprimentos de ...",03 - Cartuchos de tinta e toner para impressoras
2,9349162000104,TEXAS INFORMATICA E PRODUTOS LTDA. EPP,NÃO INFORMADO,VITORIA,Espírito Santo,Brasil,Empresa ativa,"1303 - Equipamentos, programas e suprimentos d...",1303,"13 - Equipamentos, programas e suprimentos de ...",03 - Cartuchos de tinta e toner para impressoras
3,13000035000172,TARCIANE LOHN BOECHAT EPP,ME/EPP,SANTO AMARO DA IMPERATRIZ,Santa Catarina,Brasil,Empresa ativa,"1303 - Equipamentos, programas e suprimentos d...",1303,"13 - Equipamentos, programas e suprimentos de ...",03 - Cartuchos de tinta e toner para impressoras
4,73977480000119,COMERCIAL STORINNY LTDA EPP,ME/EPP,PORTO BELO,Santa Catarina,Brasil,Empresa ativa,"1303 - Equipamentos, programas e suprimentos d...",1303,"13 - Equipamentos, programas e suprimentos de ...",03 - Cartuchos de tinta e toner para impressoras


In [21]:
df2.rename(columns={'Grupo_desc':'Grupo','Classe_desc':'Classe'},inplace=True)

In [22]:
df2.head()

Unnamed: 0,cnpj,razao_social,porte,cidade,uf,pais,situacao,produtos_habilitados,Código GC,Grupo,Classe
0,6942591000100,MCG AGUIAR CARTUCHOS ME,ME/EPP,SAO JOSE DO RIO PRETO,São Paulo,Brasil,Empresa ativa,"1303 - Equipamentos, programas e suprimentos d...",1303,"13 - Equipamentos, programas e suprimentos de ...",03 - Cartuchos de tinta e toner para impressoras
1,5325332000160,Global Multimídia Comércio de Eletroeletrônico...,ME/EPP,SAO PAULO,São Paulo,Brasil,Empresa ativa,"1303 - Equipamentos, programas e suprimentos d...",1303,"13 - Equipamentos, programas e suprimentos de ...",03 - Cartuchos de tinta e toner para impressoras
2,9349162000104,TEXAS INFORMATICA E PRODUTOS LTDA. EPP,NÃO INFORMADO,VITORIA,Espírito Santo,Brasil,Empresa ativa,"1303 - Equipamentos, programas e suprimentos d...",1303,"13 - Equipamentos, programas e suprimentos de ...",03 - Cartuchos de tinta e toner para impressoras
3,13000035000172,TARCIANE LOHN BOECHAT EPP,ME/EPP,SANTO AMARO DA IMPERATRIZ,Santa Catarina,Brasil,Empresa ativa,"1303 - Equipamentos, programas e suprimentos d...",1303,"13 - Equipamentos, programas e suprimentos de ...",03 - Cartuchos de tinta e toner para impressoras
4,73977480000119,COMERCIAL STORINNY LTDA EPP,ME/EPP,PORTO BELO,Santa Catarina,Brasil,Empresa ativa,"1303 - Equipamentos, programas e suprimentos d...",1303,"13 - Equipamentos, programas e suprimentos de ...",03 - Cartuchos de tinta e toner para impressoras


In [23]:
# Gerando um arquivo csv do novo dataset df2
df2.to_csv('./Datasets/df2_fornecedores.csv', index=False)