![imagem](images/VLL_Banner.png)

In [1]:
# Versão da linguagem Python e arquitetura do Jupyter Notebook
import platform
print('Versão da linguagem Python utilizada neste notebook:', platform.python_version())
print('Arquitetura do Jupyter utilizada neste notebook:', platform.architecture()[0])

# Outra forma de apresentar a versão da linguagem Python
# import sys
# print('Versão da linguagem Python:', sys.version)

# DA1 - 2023: Limpeza e transformação de dados de fornecedores SC

## Instalando os pacotes do projeto

In [2]:
# Imports
# Manipulação de dados
import pandas as pd
import numpy as np

# Ignore warning
import sys
import warnings
if not sys.warnoptions:
    warnings.simplefilter("ignore")

In [3]:
# Para verificar as versões dos pacotes utilizados neste notebook.
%reload_ext watermark
%watermark -a "vll.adm.br" --iversions

## Carregando o dataset de trabalho

Iremos trabalhar com o dataset de Cadastro de Fornecedores, disponibilizado pela Diretoria de Gestão de Licitações e Contratos da Secretaria de Estado da Administração de Santa Catarina - SEA/SC. A base de dados, atualizada em 15/06/23, encontra-se disponível em https://github.com/SmartSC-SEA/Fornecedores-cadastrados-E-LIC.

In [4]:
# Criando o dataframe de trabalho
df = pd.read_csv('datasets/ELIC_fornecedores_cadastro.csv')

In [5]:
# Verificando o tipo do dataframe
type(df)

In [6]:
# Verificando o formato do dataframe
df.shape

In [7]:
# Listando os nomes dos campos
df.columns

In [8]:
# Informações gerais do dataframe
df.info()

## Análise exploratória dos dados

In [9]:
# Listando uma amostra do dataset
df.head()

### Dividindo a coluna 'produtos habilitados' e criando as colunas 'Grupo' e 'Classe'

In [10]:
# Dividindo a coluna 'produtos_habilitados' em partes usando o caracter '-'
df1 = df
df1[['Grupo','Classe','Descricao']] = df['produtos_habilitados'].str.split(' - ',2,expand=True)

In [11]:
df1.head()

In [12]:
# Dividindo o código do grupo-classe em duas colunas
df2 = df1
df2['Grupo1'] = df2['Grupo'].str[0:2]
df2['Grupo2'] = df2['Grupo'].str[2:]

In [13]:
df2.head()

In [14]:
df2.rename(columns={'Grupo':'Código GC'}, inplace=True)

In [15]:
df2.head()

In [16]:
df2['Grupo_desc'] = df2['Grupo1']+' - '+df2['Classe']
df2['Classe_desc'] = df2['Grupo2']+' - '+df2['Descricao']

In [17]:
df2.head()

In [18]:
df2.drop(columns=['Classe','Descricao','Grupo1','Grupo2'], inplace=True)

In [19]:
df2.head()

In [20]:
df2.rename(columns={'Grupo_desc':'Grupo','Classe_desc':'Classe'},inplace=True)

In [21]:
df2.head()

In [22]:
# Gerando um arquivo csv do novo dataset df2
df2.to_csv('./Datasets/df2_fornecedores.csv', index=False)