# <font color='blue'>ALPAR - Governo Digital - Processo Inteligente</font>

## <font color='red'>ETL para o BI</font>

# <font color='red'>1.0 ENVIRONMENT</font>

## <font color='black'>importação de pacotes</font>

In [1]:
# !pip install mysql-connector-python
# !pip install pymysql

import pandas as pd
import mysql.connector
import numpy as np
from sqlalchemy import create_engine

# pd.options.display.max_rows = 2000
# pd.options.display.width = 120
# pd.options.display.max_colwidth = 100

## <font color='black'>constantes</font>

In [2]:
MINUTOS_PARA_DIAS = 1440 # quantidade de minutos em um dia
AUTENTIC_IN = {'My_host': 'localhost', 'My_db': 'bd_fontes', 'My_user': 'gd', 'My_pw': 'Alpar@123'}
# AUTENTIC_IN = {'My_host': 'localhost', 'My_db': 'bd_teste_fontes', 'My_user': 'gd', 'My_pw': 'Alpar@123'}
AUTENTIC_OUT = {'My_host': 'localhost', 'My_db': 'bd_teste_dw', 'My_user': 'gd', 'My_pw': 'Alpar@123'}

# <font color='red'>2.0 EXTRACT</font>

## <font color='black'>trata o dataset tasks</font>

In [3]:
sql_form = (
"SELECT `atributo`, `valor`, `protocolo` "
"FROM form "
"WHERE `atributo` IN ('state', 'city', 'neighborhood', 'zipcode', 'street')"
)
sql_tasks = (
"SELECT `Protocolo`, `Entidade`, `Serviço`, `Usuário`, `Grupo`, `Data e Hora de conclusão`, "
"`Data e Hora de criação`, `Ação`, `Encaminhado para`, `Processo encerrado`, `Processo cancelado`, "
"`Motivo de cancelamento`, `Status externo`, `Categoria`, `Grupo responsável`, `Prazo (em segundos)` "
"FROM tasks"
)
sql_sla = (
"SELECT * "
"FROM sla"
)
sql_rating = (
"SELECT * "
"FROM rating"
)

In [4]:
try:
    connection = mysql.connector.connect(host =     AUTENTIC_IN['My_host'], 
                                         database = AUTENTIC_IN['My_db'], 
                                         user =     AUTENTIC_IN['My_user'], 
                                         password = AUTENTIC_IN['My_pw'])

    df_tasks =   pd.read_sql(sql_tasks,  con=connection)
    df_sla =     pd.read_sql(sql_sla,    con=connection)
    df_form =    pd.read_sql(sql_form,   con=connection)
    df_rating =  pd.read_sql(sql_rating, con=connection)
    
except mysql.connector.Error as error:
    print("Failed to read record from MySQL table {}".format(error))

finally:
    if (connection.is_connected()):
        connection.close()
        print(f'tasks:{df_tasks.shape[0]} registros lidos em {df_tasks.shape[1]} colunas')
        print(f'sla: {df_sla.shape[0]} registros lidos em {df_sla.shape[1]} colunas')
        print(f'form: {df_form.shape[0]} registros lidos em {df_form.shape[1]} colunas')
        print(f'rating: {df_rating.shape[0]} registros lidos em {df_rating.shape[1]} colunas')
        print("MySQL connection is closed")

tasks:382 registros lidos em 16 colunas
sla: 21 registros lidos em 5 colunas
form: 420 registros lidos em 3 colunas
rating: 30 registros lidos em 4 colunas
MySQL connection is closed


# <font color='red'>3.0 TRANSFORM</font>

## <font color='black'>trata o dataset sla</font>

In [5]:
df_sla_1 = df_sla.copy()

In [6]:
# preenche com null as colunas que contém 'null' como tipo string
df_sla_1.loc[(df_sla_1['limiteMinimo'] == 'null'), 'limiteMinimo'] = np.nan
df_sla_1.loc[(df_sla_1['limiteMaximo'] == 'null'), 'limiteMaximo'] = np.nan

# transforma o tipo de coluna para float
df_sla_1['limiteMinimo'] = df_sla_1['limiteMinimo'].astype(float)
df_sla_1['limiteMaximo'] = df_sla_1['limiteMaximo'].astype(float)

# transforma a unidade de medida de minuto para dias
df_sla_1['limiteMinimo'] = df_sla_1['limiteMinimo'] / MINUTOS_PARA_DIAS
df_sla_1['limiteMaximo'] = df_sla_1['limiteMaximo'] / MINUTOS_PARA_DIAS

# preenche com valores extremos os limites máximos e limites mínimos
df_sla_1.loc[(df_sla_1['limiteMinimo'].isna()), 'limiteMinimo'] = -9999999.9
df_sla_1.loc[(df_sla_1['limiteMaximo'].isna()), 'limiteMaximo'] = 9999999.9

# cria mais uma coluna de status para pivotar limite mínimo e limite máxio
df_sla_1['status2'] = df_sla_1['status']
df_sla_1.rename(columns={'status': 'StatusLmin', 'status2': 'StatusLmax'}, inplace = True)

# df_sla_1

In [7]:
# faz pivot da coluna StatusLmin
idx = ['entityCode', 'service', 'StatusLmax', 'limiteMaximo']
df_sla_1 = df_sla_1.pivot(columns = 'StatusLmin', values = 'limiteMinimo', index=idx).reset_index()
df_sla_1.columns.name = None
dic_renome = {'Dentro do prazo' : 'Dentro do Prazo LMin', 
              'Fora do prazo' : 'Fora do Prazo LMin',
              'Perto do prazo' : 'Perto do Prazo LMin'}
df_sla_1.rename(columns=dic_renome, inplace = True)

# faz pivot da coluna StatusLmax
idx = ['entityCode', 'service', 'Dentro do Prazo LMin', 'Fora do Prazo LMin', 'Perto do Prazo LMin']
df_sla_1 = df_sla_1.pivot(columns = 'StatusLmax', values = 'limiteMaximo', index=idx).reset_index()
df_sla_1.columns.name = None
dic_renome = {'Dentro do prazo' : 'Dentro do Prazo LMax', 
              'Fora do prazo' : 'Fora do Prazo LMax',
              'Perto do prazo' : 'Perto do Prazo LMax'}
df_sla_1.rename(columns=dic_renome, inplace = True)

# agrupa por entidade e serviço
df_sla_1 = df_sla_1.groupby('service').sum().reset_index()

# df_sla_1

## <font color='black'>trata o dataset form</font>

In [8]:
df_form_1 = df_form.copy()

In [9]:
# faz pivot da coluna atributo
df_form_1 = df_form_1.pivot(columns='atributo', values='valor', index='protocolo').reset_index()
df_form_1.columns.name = None

# renomeia colunas
dic_renome = {'protocolo': 'Solicitacao', 
              'zipcode': 'CEP', 
              'street': 'Endereco', 
              'neighborhood': 'Bairro', 
              'city': 'Cidade', 
              'state': 'UF'}
df_form_1.rename(columns=dic_renome, inplace = True)

# df_form_1

In [10]:
# substitui a coluna Endereco por branco quando '-' ou null
df_form_1.loc[(df_form_1['Endereco'] == '-') | (df_form_1['Endereco'].isnull()), ['Endereco']] = ''
df_form_1.loc[(df_form_1['Bairro'] == '-') | (df_form_1['Bairro'].isnull()), ['Bairro']] = ''

# cria a coluna Endereco Completo
df_form_1['EnderecoCompleto'] = df_form_1['Cidade'] + ', ' + df_form_1['UF'] + ', Brasil'

# df_form_1

## <font color='black'>trata o dataset rating</font>

In [11]:
df_rating_1 = df_rating.copy()

In [12]:
# renomeia as colunas
cols = ['Solicitacao', 'NotaAvaliacao', 'MotivoAvaliacao', 'DataHoraAvaliacao']
df_rating_1.columns = cols

# separa e formata as colunas de datas e horas 
df_rating_1['DataAvaliacao'] = pd.to_datetime(df_rating_1['DataHoraAvaliacao']).dt.date
df_rating_1['HoraAvaliacao'] = pd.to_datetime(df_rating_1['DataHoraAvaliacao']).dt.time

# deleta a coluna que contém data e hora
df_rating_1.drop(['DataHoraAvaliacao'], axis=1, inplace=True)

# preenche colunas de linhas vazias
df_rating_1.loc[df_rating_1['MotivoAvaliacao'] == '', 'MotivoAvaliacao'] = '<motivo vazio>'

# df_rating_1

## <font color='black'>trata o dataset tasks</font>

In [13]:
SEM_STATUS = '<sem status inicial>'

# renomeia as colunas
lst_colunas_tasks = ['Protocolo', 'Entidade', 'Servico', 'Usuarios','Grupo', 'DataHora_Conclusao',
                      'DataHora_Criacao', 'Acao', 'EncaminhadoPara', 'ProcessoEncerrado', 'ProcessoCancelado',
                      'MotivoCancelamento', 'StatusExterno', 'Categoria', 'GrupoResponsavel','Prazo']
df_tasks.columns = lst_colunas_tasks
# df_tasks.head()

# copia o dataset tasks e já orderna para preencher os status externos que estão vazios
df_T = df_tasks.copy().sort_values(['Entidade', 'Protocolo', 'DataHora_Criacao']).reset_index(drop=True)

# rotina para preencher status externo vazio
# pega sempre o anterior e se o primeiro status estiver vazio coloca "sem status inicial"
if df_T.loc[0, 'StatusExterno'] == '':
    df_T.loc[0, 'StatusExterno'] = SEM_STATUS
for i in range(1, df_T.shape[0]):
    if df_T.loc[i, 'StatusExterno'] == '':    
        if df_T.loc[i, 'Protocolo'] == df_T.loc[i - 1, 'Protocolo']:
            df_T.loc[i, 'StatusExterno'] = df_T.loc[i - 1, 'StatusExterno']
        else:
            df_T.loc[i, 'StatusExterno'] = SEM_STATUS
# df_T

In [14]:
if df_T.loc[0, 'StatusExterno'] == '':
    df_T.loc[0, 'StatusExterno'] = '<sem status inicial>'
for i in range(1, df_T.shape[0]):
    if df_T.loc[i, 'StatusExterno'] == '':    
        if df_T.loc[i, 'Protocolo'] == df_T.loc[i - 1, 'Protocolo']:
            df_T.loc[i, 'StatusExterno'] = df_T.loc[i - 1, 'StatusExterno']
        else:
            df_T.loc[i, 'StatusExterno'] = '<sem status inicial>'
# df_T[['Protocolo', 'StatusExterno']]

# <font color='blue'>monta tabelas dimensões</font>

## DIM acoes

In [15]:
# trasnforma a coluna Acao em uma coluna do tipo "category'
df_T['tmpAcao'] = df_T['Acao'].astype('category')

# cria uma nova coluna que será a coluna chave primária da dimensão Ação
df_T['FK_dim_Acoes'] = df_T['tmpAcao'].cat.codes.astype('int64') + 1

# tira a duplicidade
df_dim_Acao = df_T.loc[:, ['FK_dim_Acoes', 'Acao']].drop_duplicates()
df_dim_Acao.rename(columns={'FK_dim_Acao': 'PK_dim_Acao'}, inplace = True)

# exclui a coluna Acoes de df_tasks que será a futura tabela fato
df_T.drop(['Acao', 'tmpAcao'], axis=1, inplace=True)

# df_dim_Acao

In [16]:
# preenche colunas com linhas vazias
df_dim_Acao.loc[df_dim_Acao['Acao'] == '', ['Acao']] = '<sem ação determinada>'

## DIM categoria servicos

In [17]:
# trasnforma a coluna Categoria em uma coluna do tipo "category'
df_T['tmpCategoria'] = df_T['Categoria'].astype('category')

# cria uma nova coluna que será a coluna chave primária da dimensão CategoriasServicos
df_T['FK_dim_CategoriasServicos'] = df_T['tmpCategoria'].cat.codes.astype('int64') + 1

# tira a duplicidade
df_dim_Categoria = df_T.loc[:, ['FK_dim_CategoriasServicos', 'Categoria']].drop_duplicates()
df_dim_Categoria.rename(columns={'FK_dim_CategoriasServicos': 'PK_dim_CategoriasServicos'}, inplace = True)

# exclui a coluna Categoria de df_tasks que será a futura tabela fato
df_T.drop(['Categoria', 'tmpCategoria'], axis=1, inplace=True)

# df_dim_Categoria

In [18]:
# preenche colunas com linhas vazias
df_dim_Categoria.loc[df_dim_Categoria['Categoria'] == '', ['Categoria']] = '<categoria indefinida>'

## DIM encaminhamento

In [19]:
# trasnforma a coluna EncaminhadoPara em uma coluna do tipo "category'
df_T['tmpEncaminhadoPara'] = df_T['EncaminhadoPara'].astype('category')

# cria uma nova coluna que será a coluna chave primária da dimensão Encaminhamento
df_T['FK_dim_Encaminhamento'] = df_T['tmpEncaminhadoPara'].cat.codes.astype('int64') + 1

# tira a duplicidade
df_dim_Encaminhamento = df_T.loc[:, ['FK_dim_Encaminhamento', 'EncaminhadoPara']].drop_duplicates()
df_dim_Encaminhamento.rename(columns={'FK_dim_Encaminhamento': 'PK_dim_Encaminhamento'}, inplace = True)

# exclui a coluna Entidade de df_tasks que será a futura tabela fato
df_T.drop(['EncaminhadoPara', 'tmpEncaminhadoPara'], axis=1, inplace=True)

# df_dim_Encaminhamento

In [20]:
# preenche colunas com linhas vazias
df_dim_Encaminhamento.loc[df_dim_Encaminhamento['EncaminhadoPara'] == '', ['EncaminhadoPara']] = '<sem encaminhamento>'

## DIM entidade

In [21]:
# trasnforma a coluna Entidade em uma coluna do tipo "category'
df_T['tmpEntidade'] = df_T['Entidade'].astype('category')

# cria uma nova coluna que será a coluna chave primária da dimensão Entidades
df_T['FK_dim_Entidades'] = df_T['tmpEntidade'].cat.codes.astype('int64') + 1

# tira a duplicidade
df_dim_Entidade = df_T.loc[:, ['FK_dim_Entidades', 'Entidade']].drop_duplicates()
df_dim_Entidade['Entidade'] = df_dim_Entidade['Entidade'].str.upper()
df_dim_Entidade.rename(columns={'FK_dim_Entidades': 'PK_dim_Entidades'}, inplace = True)

# exclui a coluna Entidade de df_tasks que será a futura tabela fato
df_T.drop(['Entidade', 'tmpEntidade'], axis=1, inplace=True)

# df_dim_Entidade

## DIM grupo responsavel

In [22]:
# trasnforma a coluna GrupoResponsavel em uma coluna do tipo "category'
df_T['tmpGrupoResponsavel'] = df_T['GrupoResponsavel'].astype('category')

# cria uma nova coluna que será a coluna chave primária da dimensão GrupoResponsavel
df_T['FK_dim_GrupoResponsavel'] = df_T['tmpGrupoResponsavel'].cat.codes.astype('int64') + 1

# tira a duplicidade
df_dim_GrupoResponsavel = df_T.loc[:, ['FK_dim_GrupoResponsavel', 'GrupoResponsavel']].drop_duplicates()
df_dim_GrupoResponsavel.rename(columns={'FK_dim_GrupoResponsavel': 'PK_dim_GrupoResponsavel'}, inplace = True)

# exclui a coluna GrupoResponsavel de df_tasks que será a futura tabela fato
df_T.drop(['GrupoResponsavel', 'tmpGrupoResponsavel'], axis=1, inplace=True)

# df_dim_GrupoResponsavel

## DIM grupo usuarios

In [23]:
# trasnforma a coluna Grupo em uma coluna do tipo "category'
df_T['tmpGrupo'] = df_T['Grupo'].astype('category')

# cria uma nova coluna que será a coluna chave primária da dimensão Grupo
df_T['FK_dim_GruposUsuarios'] = df_T['tmpGrupo'].cat.codes.astype('int64') + 1

# tira a duplicidade
df_dim_Grupo = df_T.loc[:, ['FK_dim_GruposUsuarios', 'Grupo']].drop_duplicates()
df_dim_Grupo.rename(columns={'FK_dim_GruposUsuarios': 'PK_dim_GruposUsuarios'}, inplace = True)

# exclui a coluna Grupo de df_tasks que será a futura tabela fato
df_T.drop(['Grupo', 'tmpGrupo'], axis=1, inplace=True)

# df_dim_Grupo

In [24]:
# preenche colunas com linhas vazias
df_dim_Grupo.loc[df_dim_Grupo['Grupo'] == '', ['Grupo']] = '<grupo usuário não definido>'

## DIM motivos cancelamento

In [25]:
# trasnforma a coluna MotivoCancelamento em uma coluna do tipo "category'
df_T['tmpMotivoCancelamento'] = df_T['MotivoCancelamento'].astype('category')

# cria uma nova coluna que será a coluna chave primária da dimensão MotivoCanc
df_T['FK_dim_MotivosCanc'] = df_T['tmpMotivoCancelamento'].cat.codes.astype('int64') + 1

# tira a duplicidade
df_dim_MotivoCanc = df_T.loc[:, ['FK_dim_MotivosCanc', 'MotivoCancelamento']].drop_duplicates()
df_dim_MotivoCanc.rename(columns={'FK_dim_MotivosCanc': 'PK_dim_MotivosCanc'}, inplace = True)

# exclui a coluna MotivoCancelamento de df_tasks que será a futura tabela fato
df_T.drop(['MotivoCancelamento', 'tmpMotivoCancelamento'], axis=1, inplace=True)

# df_dim_MotivoCanc

In [26]:
# preenche colunas com linhas vazias
df_dim_MotivoCanc.loc[df_dim_MotivoCanc['MotivoCancelamento'] == '', ['MotivoCancelamento']] = '<sem motivo de cancelamento>'

## DIM servico

In [27]:
# trasnforma a coluna Servico em uma coluna do tipo "category'
df_T['tmpServico'] = df_T['Servico'].astype('category')

# cria uma nova coluna que será a coluna chave primária da dimensão Servico
df_T['FK_dim_Servicos'] = df_T['tmpServico'].cat.codes.astype('int64') + 1

# tira a duplicidade
df_dim_Servicos = df_T.loc[:, ['FK_dim_Servicos', 'Servico']].drop_duplicates()

# exclui a coluna Servico de df_tasks que será a futura tabela fato
df_T.drop(['Servico', 'tmpServico'], axis=1, inplace=True)

# df_dim_Servicos

In [28]:
cols = {'FK_dim_Servicos': 'PK_dim_Servicos',
        'Dentro do Prazo LMin': 'sla_VD_Lmin',
        'Perto do Prazo LMin': 'sla_AM_Lmin',
        'Fora do Prazo LMin': 'sla_VM_Lmin',
        'Dentro do Prazo LMax': 'sla_VD_Lmax',
        'Perto do Prazo LMax': 'sla_AM_LMax',
        'Fora do Prazo LMax': 'sla_VM_LMax',
       }
# faz um merge da dimensão dim_Servicos com a tabela de SLAs
df_dim_Servicos = df_dim_Servicos.merge(df_sla_1, left_on='Servico', right_on='service', how='left')
df_dim_Servicos = df_dim_Servicos.drop('service', axis=1)
df_dim_Servicos.rename(columns=cols, inplace = True)

# df_dim_Servicos

## DIM status externo

In [29]:
# trasnforma a coluna StatusExterno em uma coluna do tipo "category'
df_T['tmpStatusExterno'] = df_T['StatusExterno'].astype('category')

# cria uma nova coluna que será a coluna chave primária da dimensão Grupo
df_T['FK_dim_StatusExt'] = df_T['tmpStatusExterno'].cat.codes.astype('int64') + 1

# tira a duplicidade
df_dim_StatusExt = df_T.loc[:, ['FK_dim_StatusExt', 'StatusExterno']].drop_duplicates()
df_dim_StatusExt.rename(columns={'FK_dim_StatusExt': 'PK_dim_StatusExt'}, inplace = True)

# exclui a coluna Grupo de df_tasks que será a futura tabela fato
df_T.drop(['StatusExterno', 'tmpStatusExterno'], axis=1, inplace=True)

# df_dim_StatusExt

In [30]:
# preenche colunas com linhas vazias
df_dim_StatusExt.loc[df_dim_StatusExt['StatusExterno'] == '', ['StatusExterno']] = '<sem status>'

## DIM usuario

In [31]:
# trasnforma a coluna Usuario em uma coluna do tipo "category'
df_T['tmpUsuario'] = df_T['Usuarios'].astype('category')

# cria uma nova coluna que será a coluna chave primária da dimensão Usuario
df_T['FK_dim_Usuarios'] = df_T['tmpUsuario'].cat.codes.astype('int64') + 1

# tira a duplicidade
df_dim_Usuario = df_T.loc[:, ['FK_dim_Usuarios', 'Usuarios']].drop_duplicates()
col_ren = {'FK_dim_Usuarios': 'PK_dim_Usuarios', 'Usuarios': 'Usuario'}
df_dim_Usuario.rename(columns=col_ren, inplace = True)

# exclui a coluna Usuario de df_tasks que será a futura tabela fato
df_T.drop(['Usuarios', 'tmpUsuario'], axis=1, inplace=True)

# df_dim_Usuario

In [32]:
# preenche colunas com linhas vazias
df_dim_Usuario.loc[df_dim_Usuario['Usuario'] == '', ['Usuario']] = '<usuário indefinido>'

## DIM situacao

In [33]:
df_dim_Situacao = pd.DataFrame({'PK_dim_Situacao': [1, 2, 3],
                                'Situacao':        ['em Andamento', 'Encerrada', 'Cancelada']}
                    )
# df_dim_Situacao

## DIM SLA

In [34]:
df_dim_SLA = pd.DataFrame({'PK_dim_SLA': [1, 2, 3],
                           'DescSLA':    ['dentro do prazo', 'perto do prazo', 'fora do prazo'],
                           'Cor':        ['verde','amarelo' ,'vermelho']}
                    )
# df_dim_SLA

## DIM endereco

In [35]:
dict_uf = {'AC': 'Acre', 'AL': 'Alagoas', 'AP': 'Amapá', 'AM': 'Amazonas', 'BA': 'Bahia',
           'CE': 'Ceará', 'ES': 'Espírito Santo', 'GO': 'Goiás', 'MA': 'Maranhão', 'MT': 'Mato Grosso',
           'MS': 'Mato Grosso do Sul', 'MG': 'Minas Gerais', 'PA': 'Pará', 'PB': 'Paraíba',
           'PR': 'Paraná', 'PE': 'Pernambuco', 'PI': 'Piauí', 'RJ': 'Rio de Janeiro',
           'RN': 'Rio Grande do Norte', 'RS': 'Rio Grande do Sul', 'RO': 'Rondônia', 'RR': 'Roraima',
           'SC': 'Santa Catarina', 'SP': 'São Paulo', 'SE': 'Sergipe', 'TO': 'Tocantins', 'DF': 'Distrito Federal',
           '<nd>': '<sem UF>'
}

# acrescenta o nome do estado ao dataframe
df_dim_Endereco = df_form_1.copy()
df_dim_Endereco['NomeUF'] = df_dim_Endereco['UF'].apply(lambda x: dict_uf.get(x, None))
df_dim_Endereco.rename(columns={'Solicitacao': 'PK_dim_Endereco'}, inplace = True)

# df_dim_Endereco.head()

In [36]:
# preenche colunas com linhas vazias
df_dim_Endereco.loc[df_dim_Endereco['CEP'].isna(), ['CEP']] = ''

## FAT tasks

In [37]:
df_T2 = df_T.copy().sort_values(['FK_dim_Entidades', 'Protocolo', 'DataHora_Criacao']).reset_index(drop=True)

# df_T2

In [38]:
# função retorna a situação da solicitação de acordo com as coilunas cancelado e encerrado
def RetSit(Enc, Canc):
    rt = 0
    if Canc == 1:
        rt = 3
    elif Enc == 1:
        rt = 2
    else:
        rt = 1
    return rt

In [39]:
# faz um merge com o dataset de ratings
df_T2 = df_T2.merge(df_rating_1, left_on='Protocolo', right_on='Solicitacao', how='left')
df_T2.drop(['Solicitacao'], axis=1, inplace=True)

# define o código de situação da solicitação
df_aux = df_T2[['Protocolo', 'ProcessoEncerrado', 'ProcessoCancelado']].drop_duplicates()

# substui valores de colunas
troca = {'false': 0, 'true': 1}
df_aux['ProcessoEncerrado'] = df_aux['ProcessoEncerrado'].map(troca)
df_aux['ProcessoCancelado'] = df_aux['ProcessoCancelado'].map(troca)

# agrega as ações para um registro por protocolo
df_aux = df_aux.groupby('Protocolo').agg({'ProcessoEncerrado': 'max', 'ProcessoCancelado': 'max'}).reset_index()

# retorna a situção da solicitação: 1-em andamento, 2-encerrado, 3-cancelado
df_aux['Situacao'] = df_aux.apply(lambda x: RetSit(x['ProcessoEncerrado'], x['ProcessoCancelado']), axis=1)
df_aux.drop(['ProcessoEncerrado', 'ProcessoCancelado'], axis=1, inplace=True)

# faz merge com o dataset de situação da solicitação
df_T2 = df_T2.merge(df_aux, left_on='Protocolo', right_on='Protocolo', how='left')
df_T2.drop(['ProcessoEncerrado', 'ProcessoCancelado'], axis=1, inplace=True)

# coloca -1 para as solicitações que não possuem avaliação
df_T2.loc[df_T2['NotaAvaliacao'].isna(), 'NotaAvaliacao'] = -1
df_T2['NotaAvaliacao'] = df_T2['NotaAvaliacao'].astype('int32')

# renomeia as colunas
col_ren = {'Protocolo': 'FK_dim_Solicitacoes', 'Situacao': 'FK_dim_Situacao'}
df_T2.rename(columns=col_ren, inplace = True)

In [40]:
# trata a coluna Prazo
df_T2['Prazo'] == ''
df_T2.loc[df_T2['Prazo'] == '', 'Prazo'] = '0'
df_T2['Prazo'] = df_T2['Prazo'].astype('int64')

In [41]:
df_T2['DataCriacao'] = pd.to_datetime(df_T2['DataHora_Criacao']).dt.date
df_T2['HoraCriacao'] = pd.to_datetime(df_T2['DataHora_Criacao']).dt.time

df_T2['DataConclusao'] = pd.to_datetime(df_T2['DataHora_Conclusao']).dt.date
df_T2['HoraConclusao'] = pd.to_datetime(df_T2['DataHora_Conclusao']).dt.time

df_T2.drop(['DataHora_Criacao', 'DataHora_Conclusao'], axis=1, inplace=True)

In [42]:
cols_ordem = ['FK_dim_Solicitacoes', 'Prazo', 'DataCriacao', 'HoraCriacao', 
              'DataConclusao', 'HoraConclusao', 
              'NotaAvaliacao', 'MotivoAvaliacao', 
              'DataAvaliacao', 'HoraAvaliacao', 
              'FK_dim_Entidades', 'FK_dim_Servicos', 'FK_dim_Usuarios', 'FK_dim_GruposUsuarios', 
              'FK_dim_Acoes', 'FK_dim_StatusExt', 'FK_dim_CategoriasServicos', 'FK_dim_GrupoResponsavel', 
              'FK_dim_MotivosCanc', 'FK_dim_Encaminhamento', 'FK_dim_Situacao'
            ]
df_T2 = df_T2[cols_ordem]

In [43]:
# df_T2.head()

# <font color='red'>3.0 LOAD</font>

## grava tabelas DIM

In [44]:
# import the module
# create sqlalchemy engine
My_host = 'localhost'; My_db = 'bd_teste_dw'; My_user = 'gd'; My_pw = 'Alpar@123'

SQLengine = create_engine("mysql+pymysql://{user}:{pw}@localhost/{db}"
                       .format(user = AUTENTIC_OUT['My_user'], 
                               pw =   AUTENTIC_OUT['My_pw'], 
                               db =   AUTENTIC_OUT['My_db']), 
                               pool_recycle=3600)
dbConn = SQLengine.connect()

In [45]:
try:
    df_dim_Acao.to_sql('dim_acoes', con=dbConn, if_exists='replace', index=False, chunksize = 1000)
    df_dim_Categoria.to_sql('dim_categorias_servicos', con=dbConn, if_exists='replace', index=False, chunksize = 1000)
    df_dim_Encaminhamento.to_sql('dim_encaminhamento', con=dbConn, if_exists='replace', index=False, chunksize = 1000)
    df_dim_Entidade.to_sql('dim_entidades', con=dbConn, if_exists='replace', index=False, chunksize = 1000)
    df_dim_GrupoResponsavel.to_sql('dim_grupo_responsavel', con=dbConn, if_exists='replace', index=False, chunksize = 1000)
    df_dim_Grupo.to_sql('dim_grupos_usuarios', con=dbConn, if_exists='replace', index=False, chunksize = 1000)
    df_dim_MotivoCanc.to_sql('dim_motivos_canc', con=dbConn, if_exists='replace', index=False, chunksize = 1000)
    df_dim_Servicos.to_sql('dim_servicos', con=dbConn, if_exists='replace', index=False, chunksize = 1000)
    df_dim_StatusExt.to_sql('dim_status_ext', con=dbConn, if_exists='replace', index=False, chunksize = 1000)
    df_dim_Usuario.to_sql('dim_usuarios', con=dbConn, if_exists='replace', index=False, chunksize = 1000)
    df_dim_Situacao.to_sql('dim_situacao', con=dbConn, if_exists='replace', index=False, chunksize = 1000)
    df_dim_SLA.to_sql('dim_sla', con=dbConn, if_exists='replace', index=False, chunksize = 1000)
    df_dim_Endereco.to_sql('dim_endereco', con=dbConn, if_exists='replace', index=False, chunksize = 1000)

    df_T2.to_sql('fat_tasks', con=dbConn, if_exists='replace', index=False, chunksize = 1000)

except ValueError as vx:
    print('ERROR -', vx)

except Exception as ex:
    print('EXCEPTION -', ex)

else:
    print('Tabelas criadas com sucesso');  

finally:
    dbConn.close()

Tabelas criadas com sucesso
