![imagem](images/UFSC_Banner.png)

<div style="font-size: 26px; text-align: center;font-weight: bold">INTRODUÇÃO À DATA ANALYTICS PARA PESQUISA EM CONTABILIDADE</div><br>

<div style="font-size: 22px; text-align: center;font-weight: bold">Projeto: Análise de dados de contratos do Poder Executivo de Santa Catarina</div><br>

<div style="font-size: 20px; text-align: center">JPNB 02 - ETL DOS DADOS DE CONTRATOS</div>

---
<span style='font-size: 14px'>Elaborador por: [Maurício Vasconcellos Leão Lyrio, Dr.](https://br.linkedin.com/in/maur%C3%ADcio-vasconcellos-le%C3%A3o-lyrio-59773220) | Página Oficial: www.vll.adm.br</span>

In [None]:
# Versão da linguagem Python e arquitetura do Jupyter Notebook
import platform
print('Versão da linguagem Python utilizada neste notebook:', platform.python_version())
print('Arquitetura do Jupyter utilizada neste notebook:', platform.architecture()[0])

---
# Instalação das bibliotecas

In [None]:
# Manipulação de dados
import pandas as pd

# Ignorar warnings
import warnings
warnings.filterwarnings('ignore')

# Versões dos pacotes utilizados neste Jupyter notebook
#!pip install -q -U watermark
%reload_ext watermark
%watermark -a "Mauricio Vasconcellos Leão Lyrio | vll.adm.br" --iversions

---
# Carregamento dos datasets

Os dados de contratos estabelecidos pelo Estado de Santa Catarina foram obtidos do [Portal de Dados Abertos do Estado de Santa Catarina](dados.sc.gov.br). Vamos utilizar dois datasets referentes aos [contratos](https://dados.sc.gov.br/dataset/contratos) firmados pelo Estado:

- Arquivo em formato .csv abrangendo o período entre 2011 e 2021;
- Arquivo em formato .json abrangendo o ano de 2022.

Em seguida iremos consolidar esses datasets em um único para que possamos fazer nosso trabalho de análise.

## Carregando os contratos de 2011 a 2021

In [None]:
# Carregando o dataset de contratos de 2011 a 2021 a partir do Portal de Dados Abertos (dados.sc.gov.br)
df_2021 = pd.read_csv('https://dados.sc.gov.br/dataset/93dab950-e805-4388-8418-cfb3b73f1623/resource/ac64ba57-bac8-4969-9248-cb9c9b76415d/download/contratos-2011-2021.csv')

In [None]:
# Verificando se o dataset foi carregado corretamente e seu tipo
type(df_2021)

In [None]:
# Verificando o formato do dataframe
df_2021.shape

In [None]:
# Listando as colunas do dataframe
df_2021.columns

## Carregando os contratos de 2022

In [None]:
# Carregando o dataset de contratos de 2022 a partir do Portal de Dados Abertos (dados.sc.gov.br)
df_2022 = pd.read_json('https://dados.sc.gov.br/dataset/93dab950-e805-4388-8418-cfb3b73f1623/resource/d4a78b11-fd97-4114-8f8b-2bf45ffab0be/download/contratos-2022.json')

In [None]:
# Verificando se o dataset foi carregado corretamente e seu tipo
type(df_2022)

In [None]:
# Verificando o formato do dataframe
df_2022.shape

***Opa!*** o dataset de contratos de 2022 possui duas colunas a mais que o de 2011 a 2021. Qual será a diferença? Vamos verificar ...

In [None]:
# Listando as colunas do dataframe
df_2022.columns

Evindenciamos que o **df_2022** possui duas colunas a mais ('IDCONTRATADOMASCARADO', 'CDCREDOR'). Vamos ver o que que é o conteúdo dessas colunas.

In [None]:
df_2022[['IDCONTRATADO','IDCONTRATADOMASCARADO','CONTRATADO','CDCREDOR']].head()

A coluna 'IDCONTRATADOMASCARADO' é somente o CNPJ do contratado com a máscara respectiva (que insere os caracteres especiais). A coluna 'CDCREDOR' precisamos confirmar no dicionário de dados o que significa. Lembre-se, o dicionário de dados é seu amigo!

## Consolidando os dataframes

No caso do nosso projeto, mesmo sabendo que existem duas colunas a mais no dataframe com os dados de contratos de 2022, iremos concatenar as tabelas para ter uma tabela única que utilizaremos nas próximas fases do trabalho.

In [None]:
# Concatenando os dois datasets verticalmente em um único dataframe consolidado
df1 = pd.concat([df_2021,df_2022], ignore_index=True)

---
# Análise exploratória dos dados

Agora que temos um dataframe no qual os dados dos contratos estão consolidados, daremos sequência ao processo de análise, neste ponto iremos verificar a qualidade e integridade dos dados disponíveis.

In [None]:
# Verificando se o dataframe foi carregado corretamente e seu tipo
type(df1)

In [None]:
# Verificando o formato do dataframe
df1.shape

In [None]:
df1.info()

In [None]:
# Configurar o formato desejado de número usando locale
import locale
locale.setlocale(locale.LC_ALL, 'pt_BR.UTF-8')

# Configurar o formato para evitar notação científica
pd.options.display.float_format = '{:n}'.format

# Configurar opções para exibição completa do DataFrame
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
df1.head()

---
# Pré-processamento

Na fase de análise exploratória identificamos que nosso dataframe possui diversos campos nulos e campos que apesar de estar com tipo numérico, parecem ser informações categóricas. Iremos agora analisar essas questões.

## Limpeza

Conforme visto anteriormente, nosso dataframe possui uma série de campos com valores nulos. Vamos analisar melhor essa situação e definir o que fazer com esses valores. para isso criaremos uma nova **tabela com a distribuição percentual de valores nulos por coluna**.

In [None]:
# Criando uma lista vazia para armazenar as informações de nome e tipo de coluna.
colunas_info = []

# Iterando pelas colunas do dataframe
for coluna in df1.columns:
    coluna_nome = coluna
    coluna_tipo = df1[coluna].dtype
    coluna_nulos = df1[coluna].isnull().sum()
    coluna_nulos_perc = (coluna_nulos/len(df1))*100
    colunas_info.append((coluna_nome,coluna_tipo,coluna_nulos,coluna_nulos_perc))
                        
# Criando um novo dataframe e exibindo as informações das colunas
df1_colunas_info = pd.DataFrame(colunas_info, columns=['Coluna','Tipo','Q Nulo', '% Nulo'])
print(df1_colunas_info)

Com a nova tabela fica mais fácil evidenciar os valores ausentes do dataframe. Em projetos de datascience, em geral, utiliza-se como regra para tratamento de valores ausentes as seguintes opções:

- Para valores ausentes < 2%, descartar os valores ausentes;
- Para valores ausentes >= 50%, descartamos a variável;
- Para valores ausentes < 50%, tratar os valores ausentes.

> ***Momento de decisão!*** O que iremos fazer com os valores nulos?

Antes de começar, vamos fazer uma cópia do nosso dataframe original para não perder o histórico das informações.

In [None]:
df2 = df1.copy()

> ***O que faremos com os valore nulos que representam - de 2% dos registros em uma determinada coluna?*** Vamos pensar que cada registro é um contrato firmado e, caso optemos por excluí-lo, estaremos excluindo um contrato de nossa base de dados.

In [None]:
# Caso optemos por excluir os registros < 2% nulos:
#df2 = df2.dropna(subset=['DTINICIO'])    # 0,18% dos registros são nulos
#df2 = df2.dropna(subset=['DTFIM'])    # 0,18% dos registros são nulos
#df2 = df2.dropna(subset=['DTFIMATUAL'])    # 0,18% dos registros são nulos
#df2 = df2.dropna(subset=['NUPROCESSO'])    # 2,80% dos registros são nulos

#df2.isnull().sum()

> ***O que faremos com as colunas nas quais os registros nulos representam mais de 50% dos registros?*** Lembrando sempre que ao excluir uma linha estamos excluindo um contrato e ao excluir uma coluna estamos excluindo uma informação (atributo) de todos os contratos da amostra.

Analisando os valores nulos de cada coluna vamos definindo se iremos ou não excluí-la. Por exemplo, podemos manter as colunas que estão com 88.28% de valores nulos dado que a primeira vista se constiem nos contratos de obras advindos do sistema SICOP, caso dropemos essas colunas perderemos a informação referente a isso.

In [None]:
# Excluindo as colunas que não iremos utilizar
df2 = df2.drop(columns=['NUPROCESSOFORMATADO',
                        'TAGS',
                        'NMBEMPUBLICO',
                        'NMREGIMEEXECUCAO',
                        'DEMULTA',
                        'NUAUTORIZACAOORGAO',
                        'NMINTERVENIENTE',
                        'NMREPUG',
                        'DTAUTORIZACAO',
                        'DTLIMITEPROPOSTA',
                        'VLGARANTIA',
                        'VLPERCMULTA',
                        'DATAPROPOSTA',
                        'DIASORIGINAIS',
                        'DIASADITADOS',
                        'DIASATUAIS',
                        'IDCONTRATADOMASCARADO',
                        'CDCREDOR'
                       ])

In [None]:
df2.info()

## Transformação

Iniciaremos a etapa de transformação de dados fazendo o ***preenchimento dos campos com registros nulos*** em nosso dataframe.

In [None]:
# Preenchendo os valores nulos das colunas de data e número com valores padronizados
df2['DTINICIO'].fillna('1900-01-01', inplace=True)
df2['DTFIM'].fillna('1900-01-01', inplace=True)
df2['DTFIMATUAL'].fillna('1900-01-01', inplace=True)
df2['DTINCLUSAO'].fillna('1900-01-01', inplace=True)
df2['VLPERCGARANTIA'].fillna(0, inplace=True)
df2['VLADITADO'].fillna(0, inplace=True)

df2.isnull().sum()

In [None]:
# Criando uma lista com os demais campos com valores nulos
colunas_com_nulos = df2.columns[df2.isnull().any()].tolist()

# Alterando o tipo de dado das colunas com valores nulos para object
df2[colunas_com_nulos] = df2[colunas_com_nulos].astype(object)

# Preenchendo os valores nulos com o termo 'Não definido'
df2.fillna('Não definido',inplace=True)

In [None]:
df2.isnull().sum()

In [None]:
# Alterando o tipo colunas  CDUNIDADEGESTORA, CDGESTAO, e IDCONTRATADO para object.
df2[['CDUNIDADEGESTORA', 'CDGESTAO', 'IDCONTRATADO']] = df2[['CDUNIDADEGESTORA', 'CDGESTAO', 'IDCONTRATADO']].astype(object)

In [None]:
df2.info()

In [None]:
# criando uma lista com as colunas de data
colunas_data = ['DTINIBUSCA', 'DTINICIO', 'DTFIM', 'DTFIMATUAL', 'DTASSINATURA', 'DTINCLUSAO']

# Convertendo as colunas de data para o formato ano-mes-dia
df2[colunas_data] = df2[colunas_data].astype('datetime64[ns]')

In [None]:
df2.info()

Por fim, vamos configurar o campo IDCONTRATADO para que os registros fique no ***padrão de CNPJ***.

In [None]:
# Formatando os valores do campo de CNPJ (IDCONTRATADO)
for i, cnpj in enumerate(df2['IDCONTRATADO']):
    # Convertendo para string antes de verificar o comprimento
    cnpj_str = str(cnpj)
    # se o registro tiver menos de 14 caracteres
    if len(cnpj_str) < 14:
        # Incluir '0' no início até que o registro tenha 14 caracteres
        df2.at[i, 'IDCONTRATADO'] = '0' * (14 - len(cnpj_str)) + cnpj_str
        
# Criando uma máscara de CNPJ para o campo 'IDCONTRATADO'
df2['IDCONTRATADO'] = df2['IDCONTRATADO'].astype(str).apply(lambda x: f'{x[:2]}.{x[2:5]}.{x[5:8]}/{x[8:12]}-{x[12:]}')

Com a finalização do processo de tranformação de dados nosso dataframe está pronto para ser carregado em banco de dados ou exportado em formatos de arquivos para análise posterior. É o que iremos fazer agora, na fazer de geração de dados de saída.

In [None]:
# Descrevendo os dados numéricos (selecionadas apenas as colunas que realmente se constituem em dados numéricos)
df2.describe()

In [None]:
# Descrevendo os dados não numéricos
df2.describe(include=object)

In [None]:
df2.head()

---
# Geração de dados de saída (Data output)

Uma vez finalizada a fase de limpeza e transformação, agora iremos dar saída ao dataset gerado para fins de análise. Faremos isso em forma de arquivos e em registros em banco de dados.

## Gravação em arquivos

In [None]:
# Gravando em formato .csv
df2.to_csv('datasets/df2_contratos.csv',index=False)

# Gravando em formato .json
# df2.to_json('datasets/df2_contratos.json')

# Gravando em formato .xls
# df2.to_excel('datasets/df2_contratos.xlsx',index=False)

## Gravação em DB relacional

> Gravando em banco de dados SQLite

In [None]:
# Importando a biblioteca sqlite3
import sqlite3

# Criando uma conexão ao banco de dados SQLite
cnn=sqlite3.connect('database/bdContratosSC.db')

# Copiando nosso dataframe para o banco de dados
df2.to_sql('Contratos',cnn)

> Abaixo o código para gravação em banco de dados ***MySQL***, não executaremos esse script porque necessitamos ter  SGBD instalado.

In [None]:
# Importando a biblioteca para interação com o MySQL
#import mysql.connector

# Configurando os parâmetros da conexão
#config={
#    'user':'seu usuário';
#    'password':'sua_senha';
#    'host':'https';    # ou endereço do servidor MySQL
#    'database':'seu_bando_de_dados'
#}

# Criando uma conexão ao banco de dados
#try:
#    conn=mysql.connector.connect(**config)
#    if conn.is_connected():
#        print('Conexão ao banco de dados bem sucedida')
#except mysql.connector.Error as err:
#    print(f'Erro ao conectar ao banco de dados: {err}')

# Copiando nosso dataframe para o banco de dados

# Fechando a conexão (ao terminar de utilizar)
#conn.close()

## Gravação em datalake (BD não-relacional)

> Abaixo o código para gravação em banco de dados ***MongoDB***, não executaremos esse script porque necessitamos ter  SGBD instalado.

In [None]:
# Importando a biblioteca para interação com o MongoDB
#from pymongo import MongoClient

# Configurando os parâmetros de conexão
#client=MongoClient('mongodb://localhost:27017/')

# Acessando um banco de dados específico
#db=client['appdb']

# Criando uma coleção no banco de dados
#collection = db['Contratos']

# Carregando o dataframe
#data = df2.to_dict(orient='records')

# Inserindo os registros no MongoDB
#collection.insert_many(data)

# Listando as coleções disponíveis
#print(db.list_collection_names())

In [None]:
#contratos=collection.find()
#for contrato in contratos:
#    print(contrato)

In [None]:
# Fechando a conexão ao MongoDB
#client.close()

Com a geração dos dados de saída, nosso trabalho de ***ETL*** de dados terminou. Fizemos a limpeza, transformação e carga de dados para arquivos de saíde e bancos de dados relacionais e não-relacionais. Agora passaremos à etapa de visualização de dados (dataviz) que faremos utilizando o Microsoft Power BI como ferramenta.

---

<div style="font-size: 32px; text-align: center;font-weight: bold">FIM</div>