![imagem](images/UFSC_Banner.png)

<div style="font-size: 26px; text-align: center;font-weight: bold">INTRODUÇÃO À DATA ANALYTICS PARA PESQUISA EM CONTABILIDADE</div><br>

<div style="font-size: 22px; text-align: center;font-weight: bold">Projeto: Análise de dados de contratos do Poder Executivo de Santa Catarina</div><br>

<div style="font-size: 20px; text-align: center">JPNB 02 - ETL DOS DADOS DE CONTRATOS</div>

---
<span style='font-size: 14px'>Elaborador por: [Maurício Vasconcellos Leão Lyrio, Dr.](https://br.linkedin.com/in/maur%C3%ADcio-vasconcellos-le%C3%A3o-lyrio-59773220) | Página Oficial: www.vll.adm.br</span>

In [1]:
# Versão da linguagem Python e arquitetura do Jupyter Notebook
import platform
print('Versão da linguagem Python utilizada neste notebook:', platform.python_version())
print('Arquitetura do Jupyter utilizada neste notebook:', platform.architecture()[0])

Versão da linguagem Python utilizada neste notebook: 3.8.5
Arquitetura do Jupyter utilizada neste notebook: 64bit


---
# Instalação das bibliotecas

In [2]:
# Manipulação de dados
import pandas as pd

# Ignorar warnings
import warnings
warnings.filterwarnings('ignore')

# Versões dos pacotes utilizados neste Jupyter notebook
#!pip install -q -U watermark
%reload_ext watermark
%watermark -a "Mauricio Vasconcellos Leão Lyrio | vll.adm.br" --iversions

Author: Mauricio Vasconcellos Leão Lyrio | vll.adm.br

pandas  : 1.5.3
platform: 1.0.8



---
# Carregamento dos datasets

Os dados de contratos estabelecidos pelo Estado de Santa Catarina foram obtidos do [Portal de Dados Abertos do Estado de Santa Catarina](dados.sc.gov.br). Vamos utilizar dois datasets referentes aos [contratos](https://dados.sc.gov.br/dataset/contratos) firmados pelo Estado:

- Arquivo em formato .csv abrangendo o período entre 2011 e 2021;
- Arquivo em formato .json abrangendo o ano de 2022.

Em seguida iremos consolidar esses datasets em um único para que possamos fazer nosso trabalho de análise.

## Carregando os contratos de 2011 a 2021

In [3]:
# Carregando o dataset de contratos de 2011 a 2021 a partir do Portal de Dados Abertos (dados.sc.gov.br)
df_2021 = pd.read_csv('https://dados.sc.gov.br/dataset/93dab950-e805-4388-8418-cfb3b73f1623/resource/ac64ba57-bac8-4969-9248-cb9c9b76415d/download/contratos-2011-2021.csv')

In [4]:
# Verificando se o dataset foi carregado corretamente e seu tipo
type(df_2021)

pandas.core.frame.DataFrame

In [5]:
# Verificando o formato do dataframe
df_2021.shape

(68752, 55)

In [6]:
# Listando as colunas do dataframe
df_2021.columns

Index(['ORIGEM', 'CDUNIDADEGESTORA', 'NMUNIDADEGESTORA', 'CDGESTAO',
       'NMGESTAO', 'NUCONTRATO', 'IDCONTRATADO', 'CONTRATADO', 'RESUMO',
       'OBJETO', 'DTINIBUSCA', 'DTINICIO', 'DTFIM', 'DTFIMATUAL',
       'DTASSINATURA', 'SITUACAO', 'NUPROCESSO', 'NUPROCESSOFORMATADO',
       'VLORIGINAL', 'VLATUAL', 'TAGS', 'NUEDITAL', 'NMBEMPUBLICO',
       'NMREGIMEEXECUCAO', 'DETIPOCONTRATO', 'DETIPODOCUMENTOLEGAL',
       'NUDOCUMENTOLEGAL', 'DEMULTA', 'NUAUTORIZACAOORGAO', 'NUPRAZO',
       'NMINTERVENIENTE', 'NMLOCALEXECUCAO', 'NMMODALIDADE', 'NMREPCREDOR',
       'NMREPINTERVENIENTE', 'NMREPUG', 'DTAUTORIZACAO', 'DTINCLUSAO',
       'DTLIMITEPROPOSTA', 'VLGARANTIA', 'VLPERCGARANTIA', 'VLPERCMULTA',
       'NUTITULO', 'VLADITADO', 'CDUGFISCALIZADOR', 'UGFISCALIZADOR',
       'CDGESTAOFISCALIZADOR', 'GESTAOFISCALIZADOR', 'BEMPUBLICO',
       'DEESPTITULO', 'DATAPROPOSTA', 'DIASORIGINAIS', 'DIASADITADOS',
       'DIASATUAIS', 'INDICE'],
      dtype='object')

## Carregando os contratos de 2022

In [7]:
# Carregando o dataset de contratos de 2022 a partir do Portal de Dados Abertos (dados.sc.gov.br)
df_2022 = pd.read_json('https://dados.sc.gov.br/dataset/93dab950-e805-4388-8418-cfb3b73f1623/resource/d4a78b11-fd97-4114-8f8b-2bf45ffab0be/download/contratos-2022.json')

In [8]:
# Verificando se o dataset foi carregado corretamente e seu tipo
type(df_2022)

pandas.core.frame.DataFrame

In [9]:
# Verificando o formato do dataframe
df_2022.shape

(11788, 57)

***Opa!*** o dataset de contratos de 2022 possui duas colunas a mais que o de 2011 a 2021. Qual será a diferença? Vamos verificar ...

In [10]:
# Listando as colunas do dataframe
df_2022.columns

Index(['ORIGEM', 'CDUNIDADEGESTORA', 'NMUNIDADEGESTORA', 'CDGESTAO',
       'NMGESTAO', 'NUCONTRATO', 'IDCONTRATADO', 'CONTRATADO', 'RESUMO',
       'OBJETO', 'DTINIBUSCA', 'DTINICIO', 'DTFIM', 'DTFIMATUAL',
       'DTASSINATURA', 'SITUACAO', 'NUPROCESSO', 'NUPROCESSOFORMATADO',
       'VLORIGINAL', 'VLATUAL', 'TAGS', 'NUEDITAL', 'NMBEMPUBLICO',
       'NMREGIMEEXECUCAO', 'DETIPOCONTRATO', 'DETIPODOCUMENTOLEGAL',
       'NUDOCUMENTOLEGAL', 'DEMULTA', 'NUAUTORIZACAOORGAO', 'NUPRAZO',
       'NMINTERVENIENTE', 'NMLOCALEXECUCAO', 'NMMODALIDADE', 'NMREPCREDOR',
       'NMREPINTERVENIENTE', 'NMREPUG', 'DTAUTORIZACAO', 'DTINCLUSAO',
       'DTLIMITEPROPOSTA', 'VLGARANTIA', 'VLPERCGARANTIA', 'VLPERCMULTA',
       'NUTITULO', 'VLADITADO', 'CDUGFISCALIZADOR', 'UGFISCALIZADOR',
       'CDGESTAOFISCALIZADOR', 'GESTAOFISCALIZADOR', 'BEMPUBLICO',
       'DEESPTITULO', 'DATAPROPOSTA', 'DIASORIGINAIS', 'DIASADITADOS',
       'DIASATUAIS', 'INDICE', 'IDCONTRATADOMASCARADO', 'CDCREDOR'],
      dtype='o

Evindenciamos que o **df_2022** possui duas colunas a mais ('IDCONTRATADOMASCARADO', 'CDCREDOR'). Vamos ver o que que é o conteúdo dessas colunas.

In [11]:
df_2022[['IDCONTRATADO','IDCONTRATADOMASCARADO','CONTRATADO','CDCREDOR']].head()

Unnamed: 0,IDCONTRATADO,IDCONTRATADOMASCARADO,CONTRATADO,CDCREDOR
0,12573088000110,12.573.088/0001-10,AR Empreiteira de Mão de Obra Ltda. - ME,368242
1,80095425000160,80.095.425/0001-60,Azimute Engenharia Ltda.,399414
2,27087458000186,27.087.458/0001-86,Guillherme Raineri de Souza,608832
3,27087458000186,27.087.458/0001-86,Guillherme Raineri de Souza,608832
4,12573088000110,12.573.088/0001-10,AR Execução de Serviços e Comércio LTDa,368242


A coluna 'IDCONTRATADOMASCARADO' é somente o CNPJ do contratado com a máscara respectiva (que insere os caracteres especiais). A coluna 'CDCREDOR' precisamos confirmar no dicionário de dados o que significa. Lembre-se, o dicionário de dados é seu amigo!

## Consolidando os dataframes

No caso do nosso projeto, mesmo sabendo que existem duas colunas a mais no dataframe com os dados de contratos de 2022, iremos concatenar as tabelas para ter uma tabela única que utilizaremos nas próximas fases do trabalho.

In [12]:
# Concatenando os dois datasets verticalmente em um único dataframe consolidado
df1 = pd.concat([df_2021,df_2022], ignore_index=True)

---
# Análise exploratória dos dados

Agora que temos um dataframe no qual os dados dos contratos estão consolidados, daremos sequência ao processo de análise, neste ponto iremos verificar a qualidade e integridade dos dados disponíveis.

In [13]:
# Verificando se o dataframe foi carregado corretamente e seu tipo
type(df1)

pandas.core.frame.DataFrame

In [14]:
# Verificando o formato do dataframe
df1.shape

(80540, 57)

In [15]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 80540 entries, 0 to 80539
Data columns (total 57 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   ORIGEM                 80540 non-null  object 
 1   CDUNIDADEGESTORA       80540 non-null  int64  
 2   NMUNIDADEGESTORA       80540 non-null  object 
 3   CDGESTAO               80540 non-null  int64  
 4   NMGESTAO               80540 non-null  object 
 5   NUCONTRATO             80540 non-null  object 
 6   IDCONTRATADO           80540 non-null  int64  
 7   CONTRATADO             80540 non-null  object 
 8   RESUMO                 71121 non-null  object 
 9   OBJETO                 80540 non-null  object 
 10  DTINIBUSCA             80540 non-null  object 
 11  DTINICIO               80393 non-null  object 
 12  DTFIM                  80393 non-null  object 
 13  DTFIMATUAL             80393 non-null  object 
 14  DTASSINATURA           80540 non-null  object 
 15  SI

In [16]:
# Configurar o formato desejado de número usando locale
import locale
locale.setlocale(locale.LC_ALL, 'pt_BR.UTF-8')

# Configurar o formato para evitar notação científica
pd.options.display.float_format = '{:n}'.format

# Configurar opções para exibição completa do DataFrame
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
df1.head()

Unnamed: 0,ORIGEM,CDUNIDADEGESTORA,NMUNIDADEGESTORA,CDGESTAO,NMGESTAO,NUCONTRATO,IDCONTRATADO,CONTRATADO,RESUMO,OBJETO,DTINIBUSCA,DTINICIO,DTFIM,DTFIMATUAL,DTASSINATURA,SITUACAO,NUPROCESSO,NUPROCESSOFORMATADO,VLORIGINAL,VLATUAL,TAGS,NUEDITAL,NMBEMPUBLICO,NMREGIMEEXECUCAO,DETIPOCONTRATO,DETIPODOCUMENTOLEGAL,NUDOCUMENTOLEGAL,DEMULTA,NUAUTORIZACAOORGAO,NUPRAZO,NMINTERVENIENTE,NMLOCALEXECUCAO,NMMODALIDADE,NMREPCREDOR,NMREPINTERVENIENTE,NMREPUG,DTAUTORIZACAO,DTINCLUSAO,DTLIMITEPROPOSTA,VLGARANTIA,VLPERCGARANTIA,VLPERCMULTA,NUTITULO,VLADITADO,CDUGFISCALIZADOR,UGFISCALIZADOR,CDGESTAOFISCALIZADOR,GESTAOFISCALIZADOR,BEMPUBLICO,DEESPTITULO,DATAPROPOSTA,DIASORIGINAIS,DIASADITADOS,DIASATUAIS,INDICE,IDCONTRATADOMASCARADO,CDCREDOR
0,SIGEF,540096,Fundo Penitenciário do Estado de Santa Catarin...,54096,Fundo Penitenciário do Estado de Santa Catarin...,2018CT013222,73977480000119,COMERCIAL STORINNY LTDA,AQUISIÇÃO DE ARTIGOS SANEANTES,ATA DE REGISTRO DE PREÇOS VINCULADA AO PREGÃO ...,2018-07-03,2018-07-03,2019-07-03,2019-07-03,2018-07-03,Encerrado,ESEJ22693181,,259.388,0,,PE 057/SEA/2018,,,Aquisição,Ata de Registro de Preço,PE 057/SEA/2018,,,366,,GERÊNCIA DE PATRIMÔNIO - GEPAT,Pregão Eletrônico,VALTER PLÁCIDO DOS SANTOS JR,,,,2019-01-25,,,,,,,,,,,,,,,,,SIGEF|540096|FUNDO PENITENCIÁRIO DO ESTADO DE ...,,
1,SIGEF,540096,Fundo Penitenciário do Estado de Santa Catarin...,54096,Fundo Penitenciário do Estado de Santa Catarin...,2018CT013223,1648513000176,PKB PRODUTOS QUIMICOS LTDA,AQUISIÇÃO DE ARTIGOS SANEANTES,ATA DE REGISTRO DE PREÇOS VINCULADA AO PREGÃO ...,2018-07-03,2018-07-03,2019-07-03,2019-07-03,2018-07-03,Encerrado,ESEJ22697187,,285.312,73.420,,PE 057/SEA/2018,,,Aquisição,Ata de Registro de Preço,PE 057/SEA/2018,,,366,,GERÊNCIA DE PATRIMÔNIO - GEPAT,Pregão Eletrônico,GIOVANI KRAMER HORN,,,,2018-09-12,,,,,,,,,,,,,,,,,SIGEF|540096|FUNDO PENITENCIÁRIO DO ESTADO DE ...,,
2,SIGEF,540096,Fundo Penitenciário do Estado de Santa Catarin...,54096,Fundo Penitenciário do Estado de Santa Catarin...,2018CT013224,83262923000149,DIMAS COMERCIO DE AUTOMOVEIS LTDA,REVISÃO FORD RANGER PLACA QHV 8196 110.000KM,REVISÃO FORD RANGER PLACA QHV 8196 110.000KM,2018-09-11,2018-09-11,2018-10-31,2018-10-31,2018-09-11,Encerrado,,,"1.014,6","1.014,6",,,,,Aquisição,Autorização Fornecimento,PCD/202/SJC/2018,,,51,,SECRETARIA DE ESTADO DA ADMINISTRAÇÃO PRISIONA...,Dispensa de Licitação por Valor,,,,,2018-09-11,,,,,,,,,,,,,,,,,SIGEF|540096|FUNDO PENITENCIÁRIO DO ESTADO DE ...,,
3,SIGEF,540096,Fundo Penitenciário do Estado de Santa Catarin...,54096,Fundo Penitenciário do Estado de Santa Catarin...,2018CT013227,83262923000149,DIMAS COMERCIO DE AUTOMOVEIS LTDA,REVISÃO FORD RANGER PLACA QHV 8196 110.000KM,REVISÃO FORD RANGER PLACA QHV 8196 110.000KM,2018-09-11,2018-09-11,2018-10-31,2018-10-31,2018-09-11,Encerrado,,,"1.472,12","1.472,12",,,,,Aquisição,Autorização Fornecimento,PCD/202/SJC/2018,,,51,,SECRETARIA DE ESTADO DA ADMINISTRAÇÃO PRISIONA...,Dispensa de Licitação por Valor,,,,,2018-09-11,,,,,,,,,,,,,,,,,SIGEF|540096|FUNDO PENITENCIÁRIO DO ESTADO DE ...,,
4,SIGEF,540096,Fundo Penitenciário do Estado de Santa Catarin...,54096,Fundo Penitenciário do Estado de Santa Catarin...,2018CT013228,19232159000160,EDENIR DE AQUINO RODRIGUES EIRELI,AQUISIÇÃO DE ARTIGOS SANEANTES,ATA DE REGISTRO DE PREÇOS VINCULADA AO PREGÃO ...,2018-07-03,2018-07-03,2019-07-03,2019-07-03,2018-07-03,Encerrado,ESEJ22686185,,70.680,10.080,,PE 057/SEA/2018,,,Aquisição,Ata de Registro de Preço,PE 057/SEA/2018,,,366,,GERÊNCIA DE PATRIMÔNIO - GEPAT,Pregão Eletrônico,ZELI ODETE DA SILVA,,,,2019-01-25,,,,,,,,,,,,,,,,,SIGEF|540096|FUNDO PENITENCIÁRIO DO ESTADO DE ...,,


---
# Pré-processamento

Na fase de análise exploratória identificamos que nosso dataframe possui diversos campos nulos e campos que apesar de estar com tipo numérico, parecem ser informações categóricas. Iremos agora analisar essas questões.

## Limpeza

Conforme visto anteriormente, nosso dataframe possui uma série de campos com valores nulos. Vamos analisar melhor essa situação e definir o que fazer com esses valores. para isso criaremos uma nova **tabela com a distribuição percentual de valores nulos por coluna**.

In [17]:
# Criando uma lista vazia para armazenar as informações de nome e tipo de coluna.
colunas_info = []

# Iterando pelas colunas do dataframe
for coluna in df1.columns:
    coluna_nome = coluna
    coluna_tipo = df1[coluna].dtype
    coluna_nulos = df1[coluna].isnull().sum()
    coluna_nulos_perc = (coluna_nulos/len(df1))*100
    colunas_info.append((coluna_nome,coluna_tipo,coluna_nulos,coluna_nulos_perc))
                        
# Criando um novo dataframe e exibindo as informações das colunas
df1_colunas_info = pd.DataFrame(colunas_info, columns=['Coluna','Tipo','Q Nulo', '% Nulo'])
print(df1_colunas_info)

                   Coluna     Tipo  Q Nulo   % Nulo
0                  ORIGEM   object       0        0
1        CDUNIDADEGESTORA    int64       0        0
2        NMUNIDADEGESTORA   object       0        0
3                CDGESTAO    int64       0        0
4                NMGESTAO   object       0        0
5              NUCONTRATO   object       0        0
6            IDCONTRATADO    int64       0        0
7              CONTRATADO   object       0        0
8                  RESUMO   object    9419  11,6948
9                  OBJETO   object       0        0
10             DTINIBUSCA   object       0        0
11               DTINICIO   object     147 0,182518
12                  DTFIM   object     147 0,182518
13             DTFIMATUAL   object     147 0,182518
14           DTASSINATURA   object       0        0
15               SITUACAO   object       0        0
16             NUPROCESSO   object    2255  2,79985
17    NUPROCESSOFORMATADO   object   46896   58,227
18          

Com a nova tabela fica mais fácil evidenciar os valores ausentes do dataframe. Em projetos de datascience, em geral, utiliza-se como regra para tratamento de valores ausentes as seguintes opções:

- Para valores ausentes < 2%, descartar os valores ausentes;
- Para valores ausentes >= 50%, descartamos a variável;
- Para valores ausentes < 50%, tratar os valores ausentes.

> ***Momento de decisão!*** O que iremos fazer com os valores nulos?

Antes de começar, vamos fazer uma cópia do nosso dataframe original para não perder o histórico das informações.

In [18]:
df2 = df1.copy()

> ***O que faremos com os valore nulos que representam - de 2% dos registros em uma determinada coluna?*** Vamos pensar que cada registro é um contrato firmado e, caso optemos por excluí-lo, estaremos excluindo um contrato de nossa base de dados.

In [None]:
# Caso optemos por excluir os registros < 2% nulos:
#df2 = df2.dropna(subset=['DTINICIO'])    # 0,18% dos registros são nulos
#df2 = df2.dropna(subset=['DTFIM'])    # 0,18% dos registros são nulos
#df2 = df2.dropna(subset=['DTFIMATUAL'])    # 0,18% dos registros são nulos
#df2 = df2.dropna(subset=['NUPROCESSO'])    # 2,80% dos registros são nulos

#df2.isnull().sum()

> ***O que faremos com as colunas nas quais os registros nulos representam mais de 50% dos registros?*** Lembrando sempre que ao excluir uma linha estamos excluindo um contrato e ao excluir uma coluna estamos excluindo uma informação (atributo) de todos os contratos da amostra.

Analisando os valores nulos de cada coluna vamos definindo se iremos ou não excluí-la. Por exemplo, podemos manter as colunas que estão com 88.28% de valores nulos dado que a primeira vista se constiem nos contratos de obras advindos do sistema SICOP, caso dropemos essas colunas perderemos a informação referente a isso.

In [19]:
# Excluindo as colunas que não iremos utilizar
df2 = df2.drop(columns=['NUPROCESSOFORMATADO',
                        'TAGS',
                        'NMBEMPUBLICO',
                        'NMREGIMEEXECUCAO',
                        'DEMULTA',
                        'NUAUTORIZACAOORGAO',
                        'NMINTERVENIENTE',
                        'NMREPUG',
                        'DTAUTORIZACAO',
                        'DTLIMITEPROPOSTA',
                        'VLGARANTIA',
                        'VLPERCMULTA',
                        'DATAPROPOSTA',
                        'DIASORIGINAIS',
                        'DIASADITADOS',
                        'DIASATUAIS',
                        'IDCONTRATADOMASCARADO',
                        'CDCREDOR'
                       ])

In [20]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 80540 entries, 0 to 80539
Data columns (total 39 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   ORIGEM                80540 non-null  object 
 1   CDUNIDADEGESTORA      80540 non-null  int64  
 2   NMUNIDADEGESTORA      80540 non-null  object 
 3   CDGESTAO              80540 non-null  int64  
 4   NMGESTAO              80540 non-null  object 
 5   NUCONTRATO            80540 non-null  object 
 6   IDCONTRATADO          80540 non-null  int64  
 7   CONTRATADO            80540 non-null  object 
 8   RESUMO                71121 non-null  object 
 9   OBJETO                80540 non-null  object 
 10  DTINIBUSCA            80540 non-null  object 
 11  DTINICIO              80393 non-null  object 
 12  DTFIM                 80393 non-null  object 
 13  DTFIMATUAL            80393 non-null  object 
 14  DTASSINATURA          80540 non-null  object 
 15  SITUACAO           

## Transformação

Iniciaremos a etapa de transformação de dados fazendo o ***preenchimento dos campos com registros nulos*** em nosso dataframe.

In [21]:
# Preenchendo os valores nulos das colunas de data e número com valores padronizados
df2['DTINICIO'].fillna('1900-01-01', inplace=True)
df2['DTFIM'].fillna('1900-01-01', inplace=True)
df2['DTFIMATUAL'].fillna('1900-01-01', inplace=True)
df2['DTINCLUSAO'].fillna('1900-01-01', inplace=True)
df2['VLPERCGARANTIA'].fillna(0, inplace=True)
df2['VLADITADO'].fillna(0, inplace=True)

df2.isnull().sum()

ORIGEM                      0
CDUNIDADEGESTORA            0
NMUNIDADEGESTORA            0
CDGESTAO                    0
NMGESTAO                    0
NUCONTRATO                  0
IDCONTRATADO                0
CONTRATADO                  0
RESUMO                   9419
OBJETO                      0
DTINIBUSCA                  0
DTINICIO                    0
DTFIM                       0
DTFIMATUAL                  0
DTASSINATURA                0
SITUACAO                    0
NUPROCESSO               2255
VLORIGINAL                  0
VLATUAL                     0
NUEDITAL                27189
DETIPOCONTRATO           9419
DETIPODOCUMENTOLEGAL     9419
NUDOCUMENTOLEGAL         9420
NUPRAZO                  9436
NMLOCALEXECUCAO          9419
NMMODALIDADE             9419
NMREPCREDOR             52640
NMREPINTERVENIENTE      78727
DTINCLUSAO                  0
VLPERCGARANTIA              0
NUTITULO                71121
VLADITADO                   0
CDUGFISCALIZADOR        71121
UGFISCALIZ

In [22]:
# Criando uma lista com os demais campos com valores nulos
colunas_com_nulos = df2.columns[df2.isnull().any()].tolist()

# Alterando o tipo de dado das colunas com valores nulos para object
df2[colunas_com_nulos] = df2[colunas_com_nulos].astype(object)

# Preenchendo os valores nulos com o termo 'Não definido'
df2.fillna('Não definido',inplace=True)

In [23]:
df2.isnull().sum()

ORIGEM                  0
CDUNIDADEGESTORA        0
NMUNIDADEGESTORA        0
CDGESTAO                0
NMGESTAO                0
NUCONTRATO              0
IDCONTRATADO            0
CONTRATADO              0
RESUMO                  0
OBJETO                  0
DTINIBUSCA              0
DTINICIO                0
DTFIM                   0
DTFIMATUAL              0
DTASSINATURA            0
SITUACAO                0
NUPROCESSO              0
VLORIGINAL              0
VLATUAL                 0
NUEDITAL                0
DETIPOCONTRATO          0
DETIPODOCUMENTOLEGAL    0
NUDOCUMENTOLEGAL        0
NUPRAZO                 0
NMLOCALEXECUCAO         0
NMMODALIDADE            0
NMREPCREDOR             0
NMREPINTERVENIENTE      0
DTINCLUSAO              0
VLPERCGARANTIA          0
NUTITULO                0
VLADITADO               0
CDUGFISCALIZADOR        0
UGFISCALIZADOR          0
CDGESTAOFISCALIZADOR    0
GESTAOFISCALIZADOR      0
BEMPUBLICO              0
DEESPTITULO             0
INDICE      

In [24]:
# Alterando o tipo colunas  CDUNIDADEGESTORA, CDGESTAO, e IDCONTRATADO para object.
df2[['CDUNIDADEGESTORA', 'CDGESTAO', 'IDCONTRATADO']] = df2[['CDUNIDADEGESTORA', 'CDGESTAO', 'IDCONTRATADO']].astype(object)

In [25]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 80540 entries, 0 to 80539
Data columns (total 39 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   ORIGEM                80540 non-null  object 
 1   CDUNIDADEGESTORA      80540 non-null  object 
 2   NMUNIDADEGESTORA      80540 non-null  object 
 3   CDGESTAO              80540 non-null  object 
 4   NMGESTAO              80540 non-null  object 
 5   NUCONTRATO            80540 non-null  object 
 6   IDCONTRATADO          80540 non-null  object 
 7   CONTRATADO            80540 non-null  object 
 8   RESUMO                80540 non-null  object 
 9   OBJETO                80540 non-null  object 
 10  DTINIBUSCA            80540 non-null  object 
 11  DTINICIO              80540 non-null  object 
 12  DTFIM                 80540 non-null  object 
 13  DTFIMATUAL            80540 non-null  object 
 14  DTASSINATURA          80540 non-null  object 
 15  SITUACAO           

In [26]:
# criando uma lista com as colunas de data
colunas_data = ['DTINIBUSCA', 'DTINICIO', 'DTFIM', 'DTFIMATUAL', 'DTASSINATURA', 'DTINCLUSAO']

# Convertendo as colunas de data para o formato ano-mes-dia
df2[colunas_data] = df2[colunas_data].astype('datetime64[ns]')

In [27]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 80540 entries, 0 to 80539
Data columns (total 39 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   ORIGEM                80540 non-null  object        
 1   CDUNIDADEGESTORA      80540 non-null  object        
 2   NMUNIDADEGESTORA      80540 non-null  object        
 3   CDGESTAO              80540 non-null  object        
 4   NMGESTAO              80540 non-null  object        
 5   NUCONTRATO            80540 non-null  object        
 6   IDCONTRATADO          80540 non-null  object        
 7   CONTRATADO            80540 non-null  object        
 8   RESUMO                80540 non-null  object        
 9   OBJETO                80540 non-null  object        
 10  DTINIBUSCA            80540 non-null  datetime64[ns]
 11  DTINICIO              80540 non-null  datetime64[ns]
 12  DTFIM                 80540 non-null  datetime64[ns]
 13  DTFIMATUAL      

Por fim, vamos configurar o campo IDCONTRATADO para que os registros fique no ***padrão de CNPJ***.

In [28]:
# Formatando os valores do campo de CNPJ (IDCONTRATADO)
for i, cnpj in enumerate(df2['IDCONTRATADO']):
    # Convertendo para string antes de verificar o comprimento
    cnpj_str = str(cnpj)
    # se o registro tiver menos de 14 caracteres
    if len(cnpj_str) < 14:
        # Incluir '0' no início até que o registro tenha 14 caracteres
        df2.at[i, 'IDCONTRATADO'] = '0' * (14 - len(cnpj_str)) + cnpj_str
        
# Criando uma máscara de CNPJ para o campo 'IDCONTRATADO'
df2['IDCONTRATADO'] = df2['IDCONTRATADO'].astype(str).apply(lambda x: f'{x[:2]}.{x[2:5]}.{x[5:8]}/{x[8:12]}-{x[12:]}')

Com a finalização do processo de tranformação de dados nosso dataframe está pronto para ser carregado em banco de dados ou exportado em formatos de arquivos para análise posterior. É o que iremos fazer agora, na fazer de geração de dados de saída.

In [29]:
# Descrevendo os dados numéricos (selecionadas apenas as colunas que realmente se constituem em dados numéricos)
df2.describe()

Unnamed: 0,VLORIGINAL,VLATUAL,VLPERCGARANTIA,VLADITADO
count,80.540,80.540,80.54,80.540
mean,788.990,"-3,15493e+07",779805.0,13.924
std,"8,35599e+07","9,09573e+09",873663.0,488.087
min,001,"-2,58133e+12",0.0,"-5,7e+07"
25%,"5.324,44","3.195,61",0.0,0
50%,"21.513,2",16.424,0.0,0
75%,100.000,"86.674,6",0.0,0
max,"2,36022e+10","1,52652e+09",100.0,"7,66365e+07"


In [30]:
# Descrevendo os dados não numéricos
df2.describe(include=object)

Unnamed: 0,ORIGEM,CDUNIDADEGESTORA,NMUNIDADEGESTORA,CDGESTAO,NMGESTAO,NUCONTRATO,IDCONTRATADO,CONTRATADO,RESUMO,OBJETO,SITUACAO,NUPROCESSO,NUEDITAL,DETIPOCONTRATO,DETIPODOCUMENTOLEGAL,NUDOCUMENTOLEGAL,NUPRAZO,NMLOCALEXECUCAO,NMMODALIDADE,NMREPCREDOR,NMREPINTERVENIENTE,NUTITULO,CDUGFISCALIZADOR,UGFISCALIZADOR,CDGESTAOFISCALIZADOR,GESTAOFISCALIZADOR,BEMPUBLICO,DEESPTITULO,INDICE
count,80540,80540,80540,80540,80540,80540,80540,80540,80540,80540,80540,80540.0,80540,80540,80540,80540,80.54,80540,80540,80540,80540,80540,80540,80540,80540,80540,80540,80540,80540
unique,2,169,280,30,47,80533,12279,12518,26024,53389,18,40230.0,19463,5,4,43984,1.459,1602,13,10336,881,9415,84,88,12,13,3149,11,80540
top,SIGEF,160097,Fundo de Melhoria da Polícia Militar ...,1,Gestão Geral ...,2015CT002473,83.043.745/0001-65,STANG STANG LTDA,Não definido,Contratação de empresa para fornecimento de co...,Encerrado,,Não definido,Aquisição,Contrato,Não definido,365.0,Fundo de Melhoria da Polícia Militar FUMPOM,Pregão Eletrônico,Não definido,Não definido,Não definido,Não definido,Não definido,Não definido,Não definido,Não definido,Não definido,SIGEF|540096|FUNDO PENITENCIÁRIO DO ESTADO DE ...
freq,71121,13999,13523,41715,33717,2,780,1144,9419,1558,56070,6216.0,27189,45330,49907,9420,10.41,12670,31276,52640,78727,71121,71121,71121,71121,71121,71121,71121,1


In [31]:
df2.head()

Unnamed: 0,ORIGEM,CDUNIDADEGESTORA,NMUNIDADEGESTORA,CDGESTAO,NMGESTAO,NUCONTRATO,IDCONTRATADO,CONTRATADO,RESUMO,OBJETO,DTINIBUSCA,DTINICIO,DTFIM,DTFIMATUAL,DTASSINATURA,SITUACAO,NUPROCESSO,VLORIGINAL,VLATUAL,NUEDITAL,DETIPOCONTRATO,DETIPODOCUMENTOLEGAL,NUDOCUMENTOLEGAL,NUPRAZO,NMLOCALEXECUCAO,NMMODALIDADE,NMREPCREDOR,NMREPINTERVENIENTE,DTINCLUSAO,VLPERCGARANTIA,NUTITULO,VLADITADO,CDUGFISCALIZADOR,UGFISCALIZADOR,CDGESTAOFISCALIZADOR,GESTAOFISCALIZADOR,BEMPUBLICO,DEESPTITULO,INDICE
0,SIGEF,540096,Fundo Penitenciário do Estado de Santa Catarin...,54096,Fundo Penitenciário do Estado de Santa Catarin...,2018CT013222,73.977.480/0001-19,COMERCIAL STORINNY LTDA,AQUISIÇÃO DE ARTIGOS SANEANTES,ATA DE REGISTRO DE PREÇOS VINCULADA AO PREGÃO ...,2018-07-03,2018-07-03,2019-07-03,2019-07-03,2018-07-03,Encerrado,ESEJ22693181,259.388,0,PE 057/SEA/2018,Aquisição,Ata de Registro de Preço,PE 057/SEA/2018,366,GERÊNCIA DE PATRIMÔNIO - GEPAT,Pregão Eletrônico,VALTER PLÁCIDO DOS SANTOS JR,Não definido,2019-01-25,0,Não definido,0,Não definido,Não definido,Não definido,Não definido,Não definido,Não definido,SIGEF|540096|FUNDO PENITENCIÁRIO DO ESTADO DE ...
1,SIGEF,540096,Fundo Penitenciário do Estado de Santa Catarin...,54096,Fundo Penitenciário do Estado de Santa Catarin...,2018CT013223,01.648.513/0001-76,PKB PRODUTOS QUIMICOS LTDA,AQUISIÇÃO DE ARTIGOS SANEANTES,ATA DE REGISTRO DE PREÇOS VINCULADA AO PREGÃO ...,2018-07-03,2018-07-03,2019-07-03,2019-07-03,2018-07-03,Encerrado,ESEJ22697187,285.312,73.420,PE 057/SEA/2018,Aquisição,Ata de Registro de Preço,PE 057/SEA/2018,366,GERÊNCIA DE PATRIMÔNIO - GEPAT,Pregão Eletrônico,GIOVANI KRAMER HORN,Não definido,2018-09-12,0,Não definido,0,Não definido,Não definido,Não definido,Não definido,Não definido,Não definido,SIGEF|540096|FUNDO PENITENCIÁRIO DO ESTADO DE ...
2,SIGEF,540096,Fundo Penitenciário do Estado de Santa Catarin...,54096,Fundo Penitenciário do Estado de Santa Catarin...,2018CT013224,83.262.923/0001-49,DIMAS COMERCIO DE AUTOMOVEIS LTDA,REVISÃO FORD RANGER PLACA QHV 8196 110.000KM,REVISÃO FORD RANGER PLACA QHV 8196 110.000KM,2018-09-11,2018-09-11,2018-10-31,2018-10-31,2018-09-11,Encerrado,Não definido,"1.014,6","1.014,6",Não definido,Aquisição,Autorização Fornecimento,PCD/202/SJC/2018,51,SECRETARIA DE ESTADO DA ADMINISTRAÇÃO PRISIONA...,Dispensa de Licitação por Valor,Não definido,Não definido,2018-09-11,0,Não definido,0,Não definido,Não definido,Não definido,Não definido,Não definido,Não definido,SIGEF|540096|FUNDO PENITENCIÁRIO DO ESTADO DE ...
3,SIGEF,540096,Fundo Penitenciário do Estado de Santa Catarin...,54096,Fundo Penitenciário do Estado de Santa Catarin...,2018CT013227,83.262.923/0001-49,DIMAS COMERCIO DE AUTOMOVEIS LTDA,REVISÃO FORD RANGER PLACA QHV 8196 110.000KM,REVISÃO FORD RANGER PLACA QHV 8196 110.000KM,2018-09-11,2018-09-11,2018-10-31,2018-10-31,2018-09-11,Encerrado,Não definido,"1.472,12","1.472,12",Não definido,Aquisição,Autorização Fornecimento,PCD/202/SJC/2018,51,SECRETARIA DE ESTADO DA ADMINISTRAÇÃO PRISIONA...,Dispensa de Licitação por Valor,Não definido,Não definido,2018-09-11,0,Não definido,0,Não definido,Não definido,Não definido,Não definido,Não definido,Não definido,SIGEF|540096|FUNDO PENITENCIÁRIO DO ESTADO DE ...
4,SIGEF,540096,Fundo Penitenciário do Estado de Santa Catarin...,54096,Fundo Penitenciário do Estado de Santa Catarin...,2018CT013228,19.232.159/0001-60,EDENIR DE AQUINO RODRIGUES EIRELI,AQUISIÇÃO DE ARTIGOS SANEANTES,ATA DE REGISTRO DE PREÇOS VINCULADA AO PREGÃO ...,2018-07-03,2018-07-03,2019-07-03,2019-07-03,2018-07-03,Encerrado,ESEJ22686185,70.680,10.080,PE 057/SEA/2018,Aquisição,Ata de Registro de Preço,PE 057/SEA/2018,366,GERÊNCIA DE PATRIMÔNIO - GEPAT,Pregão Eletrônico,ZELI ODETE DA SILVA,Não definido,2019-01-25,0,Não definido,0,Não definido,Não definido,Não definido,Não definido,Não definido,Não definido,SIGEF|540096|FUNDO PENITENCIÁRIO DO ESTADO DE ...


---
# Geração de dados de saída (Data output)

Uma vez finalizada a fase de limpeza e transformação, agora iremos dar saída ao dataset gerado para fins de análise. Faremos isso em forma de arquivos e em registros em banco de dados.

## Gravação em arquivos

In [32]:
# Gravando em formato .csv
df2.to_csv('datasets/df2_contratos.csv',index=False)

# Gravando em formato .json
# df2.to_json('datasets/df2_contratos.json')

# Gravando em formato .xls
# df2.to_excel('datasets/df2_contratos.xlsx',index=False)

## Gravação em DB relacional

> Gravando em banco de dados SQLite

In [33]:
# Importando a biblioteca sqlite3
import sqlite3

# Criando uma conexão ao banco de dados SQLite
cnn=sqlite3.connect('database/bdContratosSC.db')

# Copiando nosso dataframe para o banco de dados
df2.to_sql('Contratos',cnn)

80540

> Abaixo o código para gravação em banco de dados ***MySQL***, não executaremos esse script porque necessitamos ter  SGBD instalado.

In [None]:
# Importando a biblioteca para interação com o MySQL
#import mysql.connector

# Configurando os parâmetros da conexão
#config={
#    'user':'seu usuário';
#    'password':'sua_senha';
#    'host':'https';    # ou endereço do servidor MySQL
#    'database':'seu_bando_de_dados'
#}

# Criando uma conexão ao banco de dados
#try:
#    conn=mysql.connector.connect(**config)
#    if conn.is_connected():
#        print('Conexão ao banco de dados bem sucedida')
#except mysql.connector.Error as err:
#    print(f'Erro ao conectar ao banco de dados: {err}')

# Copiando nosso dataframe para o banco de dados

# Fechando a conexão (ao terminar de utilizar)
#conn.close()

## Gravação em datalake (BD não-relacional)

> Abaixo o código para gravação em banco de dados ***MongoDB***, não executaremos esse script porque necessitamos ter  SGBD instalado.

In [None]:
# Importando a biblioteca para interação com o MongoDB
#from pymongo import MongoClient

# Configurando os parâmetros de conexão
#client=MongoClient('mongodb://localhost:27017/')

# Acessando um banco de dados específico
#db=client['appdb']

# Criando uma coleção no banco de dados
#collection = db['Contratos']

# Carregando o dataframe
#data = df2.to_dict(orient='records')

# Inserindo os registros no MongoDB
#collection.insert_many(data)

# Listando as coleções disponíveis
#print(db.list_collection_names())

In [None]:
#contratos=collection.find()
#for contrato in contratos:
#    print(contrato)

In [None]:
# Fechando a conexão ao MongoDB
#client.close()

Com a geração dos dados de saída, nosso trabalho de ***ETL*** de dados terminou. Fizemos a limpeza, transformação e carga de dados para arquivos de saíde e bancos de dados relacionais e não-relacionais. Agora passaremos à etapa de visualização de dados (dataviz) que faremos utilizando o Microsoft Power BI como ferramenta.

---

<div style="font-size: 32px; text-align: center;font-weight: bold">FIM</div>