# REALIZAR A EXTRAÇÃO TRATAMENTO E CARGA DOS DADOS PARA MINERAÇÃO DE PROCESSOS - PARTE I

## Importa as Bibliotecas necessárias

In [1]:
import pandas as pd
from sqlalchemy import create_engine

## Abrir conexão com o banco de dados

In [2]:
engine = create_engine('postgresql://postgres:postgres@localhost:5432/PesquisaMestrado')
connection = engine.connect()

## Criar as tabelas temporárias necessárias

* __Tabela para tratar duplicidades de ocorrências__

    + O sistema Citsmart é um sistema de gestão de serviços de TI que possui um motor de workflow que gera logs de cada mudança ocorrida na solicitação de serviços. Esse logs são registrados em uma tabela de ocorrências. No entando ele usa diversos tipos de ocorrências diferentes de acordo com cada situação. Em determinados casos ele chega a gravar até três ocorrências para um único evento de mudança do fluxo.

    + Portanto, uma parte importante desse tratamento de dados será a seleção das ocorrências que interessam para a mineração de processos, ou seja, as que representam transição de atividades do fluxo do processo.

In [3]:
ComandoSQL = "DROP TABLE  IF EXISTS temporocorrenciasselecionadas;  \
    CREATE TABLE temporocorrenciasselecionadas \
        ( \
          idocorrencia integer, \
          categoria character varying(20), \
          idsolicitacaoservico bigint, \
          iditemtrabalho bigint, \
          dataregistro date, \
          horaregistro character varying(5), \
          datahora TIMESTAMP without time zone, \
          selecionada bit, \
          situacaosolicitacao  character varying(20), \
          idgrupo character varying(20) \
        );"

trans = connection.begin()
try:
    resultado = connection.execute( ComandoSQL )
    trans.commit()
except:
    trans.rollback()
    raise
    
ComandoSQL = "SELECT table_name from INFORMATION_SCHEMA.TABLES WHERE table_name = 'temporocorrenciasselecionadas';"

dados =pd.read_sql_query(ComandoSQL, engine)

dados.head()

Unnamed: 0,table_name
0,temporocorrenciasselecionadas


* __Tabela para tratar os logs do workflow e sua relação com as solicitações de serviços__

    + O sistema Citsmart registra ainda os logs do work flow em tabelas de itens de trabalho que possuem algumas informações adicionais úteis  para a mineracao de processos.

In [4]:
ComandoSQL = "DROP TABLE  IF EXISTS tempsolicitacaoitemtrabalho;  \
    CREATE TABLE tempsolicitacaoitemtrabalho \
    ( \
      id serial NOT NULL, \
      idsolicitacaoservico integer, \
      iditemtrabalho integer, \
      idresponsavelitemtrabalho integer, \
      nomeresponsavel character varying(100), \
      datahoracriacaoitemtrabalho TIMESTAMP without time zone, \
      datahorainicioitemtrabalho TIMESTAMP without time zone, \
      situacaoitemtrabalho character varying(100), \
      datahorafinalizacao TIMESTAMP without time zone, \
      idgrupoexecutor integer, \
      nomegrupoexecutoratual character varying(100), \
      arearesponsavel character varying(100), \
      idfluxo integer, \
      nomefluxo character varying(100), \
      versao character varying(10) \
    ); \
        "

trans = connection.begin()
try:
    resultado = connection.execute( ComandoSQL )
    trans.commit()
except:
    trans.rollback()
    raise

ComandoSQL = "SELECT table_name from INFORMATION_SCHEMA.TABLES WHERE table_name = 'tempsolicitacaoitemtrabalho';"

dados =pd.read_sql_query(ComandoSQL, engine)

dados.head()

Unnamed: 0,table_name
0,tempsolicitacaoitemtrabalho


* __Tabela para tratar os logs do workflow e sua relação com as ocorrências das solicitações de serviços__

    + Para cada item de trabalho criado, são também criadas uma o mais ocorrências, mas o sistema Citsmart não aramazena a correlação entre o item e a ocorrência, por isso será necessário tratamento para identificar essa relação e permitir o aproveitamento das informações de cada uma das tabelas


In [5]:
ComandoSQL = "DROP TABLE  IF EXISTS tempocorrenciaitemtrabalho;  \
    CREATE TABLE tempOcorrenciaItemTrabalho  \
    ( \
        id Serial, \
        idsolicitacaoservico integer,  \
        idocorrencia integer,  \
        dataocorrencia TIMESTAMP,  \
        iditemtrabalho integer \
    );"

trans = connection.begin()
try:
    resultado = connection.execute( ComandoSQL )
    trans.commit()
except:
    trans.rollback()
    raise

ComandoSQL = "SELECT table_name from INFORMATION_SCHEMA.TABLES WHERE table_name = 'tempocorrenciaitemtrabalho';"

resultado = connection.execute(ComandoSQL)

dados =pd.read_sql_query(ComandoSQL, engine)

dados.head()

Unnamed: 0,table_name
0,tempocorrenciaitemtrabalho


* __Tabela para armazenar as ocorrências selecionadas para a mineração de processos__

    + Depois de tratadas as duplicidades de ocorrências e sua vinculação com o item de trabalho, as ocorrências selecionadas serão aramezenadas em tabela temporária para continuidade do tratamento.

In [6]:
ComandoSQL = "DROP TABLE  IF EXISTS tempanaliseocorrencias;  \
    CREATE TABLE tempanaliseocorrencias \
    ( \
      idsolicitacaoservico integer, \
      situacaoatual character varying(30), \
      idocorrencia integer, \
      categoriaocorrencia character varying(30), \
      transicao character varying(30), \
      dataocorrencia TIMESTAMP without time zone, \
      situacaosolicitacao character varying(30), \
      idgrupoexecutor integer, \
      nomegrupoexecutor character varying(100), \
      arearesponsavel character varying(100), \
      idtecnico integer, \
      nometecnico character varying(100), \
      idfluxo integer, \
      nomefluxo character varying(100), \
      versao character varying(10), \
      idgrupoexecutoroc integer, \
      nomegrupoexecutoroc character varying(100), \
      areaoc character varying(100), \
      datainicio TIMESTAMP without time zone, \
      datafim TIMESTAMP without time zone, \
      tempoutil interval, \
      tempoutildecimal numeric, \
      tempoutilacumuladoinicio interval, \
      tempoutildecimalacumuladoinicio numeric, \
      tempoutilacumuladotermino interval, \
      tempoutildecimalacumuladotermino numeric, \
      atividade character varying(100), \
      agrupamentoregistrosporarea integer \
    ); "

trans = connection.begin()
try:
    resultado = connection.execute( ComandoSQL )
    trans.commit()
except:
    trans.rollback()
    raise

ComandoSQL = "SELECT table_name from INFORMATION_SCHEMA.TABLES WHERE table_name = 'tempanaliseocorrencias';"

resultado = connection.execute( ComandoSQL)

dados =pd.read_sql_query(ComandoSQL, engine)

dados.head()

Unnamed: 0,table_name
0,tempanaliseocorrencias


* __Tabela para armazenar os logs no formato necessário para a mineração de processos__

    + O sistema Citsmart armazena os logs ao nível de operações de sistema, ou seja qualquer operação que altere a solicitação de serviço é registrado no log, em consequência um volume muito grande registro é gerado. Esses registros podem ser úteis para mineração de processo a nível de operador.
    + No ministério do Planejamento a Central de Serviço opera com várias equipes e diferentes fornecedores e também de pessoal interno, assim a mineração de processos em nivel de operador seria muito complexa e pouco conclusiva. 
    + O que se tem em mente é a mineração do processo a nível de área responsável (Essa área corresponde a um agrupamento de técnicos que atuam com atividades bem específica. Ao agregar os logs no nível de área de atendimento, permitirá que a mineração de processo avalie o comportamento e o desempenho das equipes, abstraindo qual o operador que realizou a atividade. Isso simplificará o processo.

In [7]:
ComandoSQL ="DROP TABLE  IF EXISTS tempeventlogforprocessminingbyarea;  \
    CREATE TABLE tempeventlogforprocessminingbyarea \
    (       nomefluxo  character varying(200), \
        situacaosolicitacao character varying(30), \
        event_Id serial, \
        case_id integer,   \
        agrupamento integer,  \
        activityInstance_Name character varying(100),  \
        event_Transition character varying(30), \
        org_group character varying(100),  \
        role_name character varying(100),  \
        resource_name character varying(100),  \
        event_timeStamp timestamp without time zone \
    ); " 

trans = connection.begin()
try:
    resultado = connection.execute( ComandoSQL )
    trans.commit()
except:
    trans.rollback()
    raise

ComandoSQL = "SELECT table_name from INFORMATION_SCHEMA.TABLES WHERE table_name = 'tempeventlogforprocessminingbyarea';"

resultado = connection.execute(ComandoSQL)

dados =pd.read_sql_query(ComandoSQL, engine)

dados.head()

Unnamed: 0,table_name
0,tempeventlogforprocessminingbyarea


## Definir o agrupamento dos grupos de operadores em área de atividade para usar na gregação dos logs por área

 * Muitos grupo receberão como nome de área a denominação Outros, pois são grupos que não atuam como operadores no processos. Esses grupos foram criados para uma futura funcionalidade de aprovação automática de solicitações de serviços pelos representantes das áreas de negócio no MP

In [8]:
ComandoSQL = "UPDATE GRUPO SET DESCRICAO = '[AREA=DTI-CGSIS]' WHERE nome = 'GR_Sistema_Corporativo_CGSIS';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=CIT-INFRA]' WHERE nome = 'GR_CentralIT_Segurança';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=CIT-INFRA]' WHERE nome = 'GR_CentralIT_SisColab';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=CIT-INFRA]' WHERE nome = 'GR_CentralIT_Storage';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=CIT-INFRA]' WHERE nome = 'GR_CentralIT_Virtualização';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=DTI-CGSIS]' WHERE nome = 'GR_CGSIS_Engenharia';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=CIT-PRES-DF]' WHERE nome = 'GR_CentralIT_Bloco_C';\
	UPDATE GRUPO SET DESCRICAO = '[AREA=DTI-CGSIS]' WHERE nome = 'GR_CGSIS_Entrega';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=DTI-CGSIS]' WHERE nome = 'GR_CGSIS_Estruturação';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=DTI-CGSIS]' WHERE nome = 'GR_Gerencia_Configuração_CGSIS';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=DTI-INFRA]' WHERE nome = 'GR_Infra-DTI_Backup';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=DTI-INFRA]' WHERE nome = 'GR_Infra-DTI_BancoDados';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=DTI-INFRA]' WHERE nome = 'GR_Infra-DTI_Outros';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=DTI-INFRA]' WHERE nome = 'GR_Infra-DTI-RAC-ICS';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=DTI-INFRA]' WHERE nome = 'GR_Infra-DTI_Redes';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=DTI-INFRA]' WHERE nome = 'GR_Infra-DTI_Servidores';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=DTI-INFRA]' WHERE nome = 'GR_Infra-DTI_Sistemas';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=DTI-INFRA]' WHERE nome = 'GR_Infra-DTI-Storage';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=DTI-INFRA]' WHERE nome = 'GR_Infra-DTI_Virtualização';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=DTI-SEGURANÇA]' WHERE nome = 'GR_Segurança_Abuse';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=DTI-SEGURANÇA]' WHERE nome = 'GR_Segurança_ETIR';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=DTI-SEGURANÇA]' WHERE nome = 'GR_Segurança_Outros';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=DTI-SEGURANÇA]' WHERE nome = 'GR_Segurança_Redes';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=DTI-SEGURANÇA]' WHERE nome = 'GR_Segurança_Software';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=DTI-SUPORTE]' WHERE nome = 'GR_Suporte_Impressoras';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=DTI-SUPORTE]' WHERE nome = 'GR_Suporte_Outros';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=DTI-SUPORTE]' WHERE nome = 'GR_Suporte_Redes ';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=DTI-SUPORTE]' WHERE nome = 'GR_Suporte_Software';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=DTI-SUPORTE]' WHERE nome = 'GR_Suporte_VideoConferência';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=CIT-PRES-DF]' WHERE nome = 'GR_CentralIT_Bloco_K';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=CIT-VIDEOCONF]' WHERE nome = 'GR_CentralIT_VideoConferência';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=OUTROS]' WHERE nome = '3º NÍVEL - Aplicação';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=DIPAT]' WHERE nome = 'GR_DIPAT';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=OUTROS]' WHERE nome = '3º NÍVEL - Infraestrutura';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=OUTROS]' WHERE nome = '3º NÍVEL - Sistemas';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=OUTROS]' WHERE nome = '3º NÍVEL - Telefonia';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=OUTROS]' WHERE nome = 'Coordenação Geral';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=OUTROS]' WHERE nome = 'Coordenador';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=OUTROS]' WHERE nome = 'Coordenadores Externos';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=OUTROS]' WHERE nome = 'Desenvolvimento';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=OUTROS]' WHERE nome = 'Gerentes';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=OUTROS]' WHERE nome = 'Gestores Internos';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=OUTROS]' WHERE nome = 'GR_AUTORIZ_COGEP';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=OUTROS]' WHERE nome = 'GR_AUTORIZ_CONJUR';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=OUTROS]' WHERE nome = 'GR_AUTORIZ_DEPEX';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=OUTROS]' WHERE nome = 'GR_AUTORIZ_DEST';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=OUTROS]' WHERE nome = 'GR_AUTORIZ_DIPLA';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=OUTROS]' WHERE nome = 'GR_AUTORIZ_DIRAD';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=OUTROS]' WHERE nome = 'GR_AUTORIZ_DTI';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=OUTROS]' WHERE nome = 'GR_AUTORIZ_GAB_SE';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=OUTROS]' WHERE nome = 'GR_AUTORIZ_GERAL';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=OUTROS]' WHERE nome = 'GR_AUTORIZ_GM';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=OUTROS]' WHERE nome = 'GR_AUTORIZ_SEAIN';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=OUTROS]' WHERE nome = 'GR_AUTORIZ_SEGEP';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=OUTROS]' WHERE nome = 'GR_AUTORIZ_SEPAC';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=CIT-INFRA]' WHERE nome = 'GR_CentralIT_Adm_Contrato';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=OUTROS]' WHERE nome = 'GR_SistemaGPD';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=CIT-INFRA]' WHERE nome = 'GR_CentralIT_Aplicações';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=CIT-INFRA]' WHERE nome = 'GR_CentralIT_Backup';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=CIT-INFRA]' WHERE nome = 'GR_CentralIT_BancoDados';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=CIT-INFRA]' WHERE nome = 'GR_CentralIT_Linux';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=CIT-INFRA]' WHERE nome = 'GR_CentralIT_Monitoramento';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=CIT-INFRA]' WHERE nome = 'GR_CentralIT_MSWindows';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=CIT-INFRA]' WHERE nome = 'GR_CentralIT_NOC_CentroOperaçõesRede';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=CIT-INFRA]' WHERE nome = 'GR_CentralIT_Outros';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=CIT-INFRA]' WHERE nome = 'GR_CentralIT_Redes';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=HPRINT]' WHERE nome = 'Gr_HPrint';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=OUTROS]' WHERE nome = 'GR_AUTORIZ_SLTI';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=OUTROS]' WHERE nome = 'GR_AUTORIZ_SOF';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=OUTROS]' WHERE nome = 'GR_AUTORIZ_SPI';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=OUTROS]' WHERE nome = 'GR_AUTORIZ_SPU_DF';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=OUTROS]' WHERE nome = 'GR_AUTORIZ_SPU_OC';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=OUTROS]' WHERE nome = 'GR_AUTORIZ_SRT';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=OUTROS]' WHERE nome = 'GR_Representante_TI_CONJUR';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=OUTROS]' WHERE nome = 'GR_Representante_TI_DIRAD';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=OUTROS]' WHERE nome = 'GR_Representante_TI_FUNPRESP';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=OUTROS]' WHERE nome = 'GR_Representante_TI_GM';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=OUTROS]' WHERE nome = 'GR_Representante_TI_SE';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=OUTROS]' WHERE nome = 'GR_Representante_TI_SEAIN';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=OUTROS]' WHERE nome = 'GR_Representante_TI_SEGEP';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=OUTROS]' WHERE nome = 'GR_Representante_TI_SEPAC';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=OUTROS]' WHERE nome = 'GR_Representante_TI_SPI';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=OUTROS]' WHERE nome = 'GR_Representante_TI_SPU_DF ';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=OUTROS]' WHERE nome = 'GR_Representante_TI_SPU_OC';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=OUTROS]' WHERE nome = 'GR_Representante_TI_SRT';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=SISTEMA-SEI]' WHERE nome = 'GR_SistemaSEI';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=OUTROS]' WHERE nome = 'Qualidade';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=CIT-PRES-DF]' WHERE nome = 'GR_CentralIT_Presencial_DF';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=DTI-ELETR/REDE]' WHERE nome = 'GR_RCS_Tecnologia_Finalização';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=DTI-SUPORTE]' WHERE nome = 'GR_Suporte_Hardware';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=DTI-SUPORTE]' WHERE nome = 'GR_Suporte_Senhas';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=DTI-SUPORTE]' WHERE nome = 'GR_Suporte_Sistemas_Setoriais';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=OUTROS]' WHERE nome = 'GR_Representante_TI_DEPEX-DF ';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=OUTROS]' WHERE nome = 'Solicitante MPOG';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=OUTROS]' WHERE nome = 'Supervisor';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=RCS-TECNOLOGIA]' WHERE nome = 'GR_RCS_Tecnologia';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=SERPRO]' WHERE nome = 'GR_CSS_SERPRO';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=CIT-SISTEMAS]' WHERE nome = 'GR_CentralIT_Sistemas';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=CIT-NIVEL1]' WHERE nome = 'GR_CentralIT_Atendimento_1ºNivel ';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=DTI-ELETR/REDE]' WHERE nome = 'GR_Infra-DTI_EletricaEstabilizada e Rede logicaCabeada';\
    UPDATE GRUPO SET DESCRICAO = '[AREA=CIT-INFRA]' WHERE nome = 'GR_CentralIT_Gerencia_Configuração';"

trans = connection.begin()
try:
    resultado = connection.execute( ComandoSQL )
    trans.commit()
except:
    trans.rollback()
    raise

ComandoSQL = "SELECT SPLIT_PART(SPLIT_PART(descricao, 'AREA=', 2),']',1)  AS  arearesponsavel, count(*)\
    FROM GRUPO\
    GROUP BY SPLIT_PART(SPLIT_PART(descricao, 'AREA=', 2),']',1)\
    ORDER BY COUNT(*) DESC"

dados =pd.read_sql_query(ComandoSQL, engine)

dados.head()

Unnamed: 0,arearesponsavel,count
0,OUTROS,46
1,CIT-INFRA,15
2,DTI-INFRA,9
3,DTI-SUPORTE,8
4,DTI-SEGURANÇA,5


## Tratamento das duplicidade de ocorrências

O sistema citsmart registro ocorrencias duplicadas com mesma datahora em várias situações, conforme poder ser observado 
na consulta abaixo, por esse motivo será necessário tratar os casos duplicados para selecionar apenas a ocorrencia 
relevante para o estudo do fluxo de atendimento e para geração do logo de eventos necessário para o estudo de mineração de 
processos. mais maioria dos casos os diferentes categoria vem seguido de um registro de execução, nesses caso será considerada 
a ocorrencia de categoria diferente de execucao. 
as categoria de ocorrencias de compartilhamento e agendamento vem sempre acompanhadas de ocorrencia de execução e serão excluídas e  
mantidos os registros de execução.
as ocorrencia de relacionadas ao sla serão também desconsideradas, e serão mantidas  as  ocorrencia de categoria diferente que acompanhar.

In [9]:
ComandoSQL = "SELECT Criacao, Reabertura, InicioSLA, Reclassificacao, Direcionamento, Execucao, Encerramento, \
    Suspensao,SuspensaoSLA,Reativacao, ReativacaoSLA, Agendamento, Compartilhamento,MudancaSLA, \
    COUNT(*) \
    FROM ( \
        SELECT idsolicitacaoservico, CAST(CONCAT(dataregistro,' ' , horaregistro)  AS  TIMESTAMP)  AS  DataHora, \
        CASE WHEN COUNT(CASE WHEN categoria = 'Agendamento' THEN 1 ELSE NULL END) > 0 THEN 'X' ELSE '' END  AS  Agendamento, \
        CASE WHEN COUNT(CASE WHEN categoria = 'Compartilhamento' THEN 1 ELSE NULL END)  > 0 THEN 'X' ELSE '' END  AS  Compartilhamento,\
        CASE WHEN COUNT(CASE WHEN categoria = 'Criacao' THEN 1 ELSE NULL END)  > 0 THEN 'X' ELSE '' END  AS  Criacao,\
        CASE WHEN COUNT(CASE WHEN categoria = 'Direcionamento' THEN 1 ELSE NULL END)  > 0 THEN 'X' ELSE '' END  AS  Direcionamento,\
        CASE WHEN COUNT(CASE WHEN categoria = 'Encerramento' THEN 1 ELSE NULL END)  > 0 THEN 'X' ELSE '' END  AS  Encerramento,\
        CASE WHEN COUNT(CASE WHEN categoria = 'Execucao' THEN 1 ELSE NULL END)  > 0 THEN 'X' ELSE '' END  AS  Execucao,\
        CASE WHEN COUNT(CASE WHEN categoria = 'Reabertura' THEN 1 ELSE NULL END)  > 0 THEN 'X' ELSE '' END  AS  Reabertura,\
        CASE WHEN COUNT(CASE WHEN categoria = 'Reativacao' THEN 1 ELSE NULL END)  > 0 THEN 'X' ELSE '' END  AS  Reativacao,\
        CASE WHEN COUNT(CASE WHEN categoria = 'Reclassificacao' THEN 1 ELSE NULL END)  > 0 THEN 'X' ELSE '' END  AS  Reclassificacao,\
        CASE WHEN COUNT(CASE WHEN categoria = 'Suspensao' THEN 1 ELSE NULL END)  > 0 THEN 'X' ELSE '' END  AS  Suspensao,\
        CASE WHEN COUNT(CASE WHEN categoria = 'SuspensaoSLA' THEN 1 ELSE NULL END)  > 0 THEN 'X' ELSE '' END  AS  SuspensaoSLA,\
        CASE WHEN COUNT(CASE WHEN categoria = 'InicioSLA' THEN 1 ELSE NULL END)  > 0 THEN 'X' ELSE '' END  AS  InicioSLA,\
        CASE WHEN COUNT(CASE WHEN categoria = 'ReativacaoSLA' THEN 1 ELSE NULL END)  > 0 THEN 'X' ELSE '' END  AS  ReativacaoSLA,\
        CASE WHEN COUNT(CASE WHEN categoria = 'MudancaSLA' THEN 1 ELSE NULL END)  > 0 THEN 'X' ELSE '' END  AS  MudancaSLA,\
        COUNT(*) \
        FROM ocorrenciasolicitacao \
        WHERE idcategoriaocorrencia is null \
        GROUP BY idsolicitacaoservico, CAST(CONCAT(dataregistro,' ' , horaregistro)  AS  TIMESTAMP)\
        HAVING COUNT(*) > 1 \
    )  AS  OcorrenciaRepetidas \
    GROUP BY \
    Criacao, Reabertura, InicioSLA, Reclassificacao, Direcionamento, Execucao, Encerramento, \
    Suspensao,SuspensaoSLA,Reativacao, ReativacaoSLA, Agendamento, Compartilhamento,MudancaSLA \
    ORDER BY COUNT(*) DESC;"

dados =pd.read_sql_query(ComandoSQL, engine)

dados.head(20)

Unnamed: 0,criacao,reabertura,iniciosla,reclassificacao,direcionamento,execucao,encerramento,suspensao,suspensaosla,reativacao,reativacaosla,agendamento,compartilhamento,mudancasla,count
0,,,,,,X,X,,,,,,,,18569
1,X,,X,,,,,,,,,,,,18383
2,,,,,,X,,,X,,,,,,18062
3,,,,,X,X,,,,,,,,,13527
4,,,,,,,,X,X,,,,,,2836
5,,,,,,,,,,X,X,,,,2606
6,,,,X,X,X,,,,,,,,,1851
7,X,,,,,,X,,,,,,,,975
8,,,,,,X,,,,,,,X,,673
9,,,,,,X,,,,,,,,,614


## Importa as ocorrências para a tabela temporária para fazer o tratamento de duplicidades




In [10]:
resultado = connection.execute("TRUNCATE TABLE temporocorrenciasselecionadas;")

ComandoSQL =  "INSERT INTO temporocorrenciasselecionadas( \
    idocorrencia,categoria,idsolicitacaoservico, iditemtrabalho, \
    dataregistro, horaregistro,datahora,situacaosolicitacao , idgrupo) \
    SELECT idOcorrencia, categoria , idsolicitacaoservico, iditemtrabalho, \
    dataregistro, horaregistro,  CAST(CONCAT(dataregistro,' ' , horaregistro)  AS  TIMESTAMP)  AS  DataHora, \
    CASE \
        WHEN categoria = 'Criacao' THEN 'Registrada' \
        WHEN categoria = 'Encerramento' THEN 'Fechada'\
        ELSE  split_part(substring( dadossolicitacao FROM position('descrSituacao' in dadossolicitacao) +16 for 15), '\"', 1) \
    END  AS  situacaosolicitacao, \
    CASE \
    WHEN dadossolicitacao like '%%GrupoAtual%%' then \
    replace(replace( substring( dadossolicitacao FROM position('GrupoAtual' in dadossolicitacao)+ 12 for 3),',',''),'\"','') \
        WHEN dadossolicitacao like '%%idGrupo%%' then \
        replace(replace( substring( dadossolicitacao FROM position('idGrupo' in dadossolicitacao)+ 9 for 3),',',''),'\"','') \
        ELSE  '0' \
    END AS  idgrupo\
    FROM ocorrenciasolicitacao\
    WHERE idcategoriaocorrencia is null \
    /*DESCONSIDERA APENAS OCORRENCIA DE ANOTAÇÃO TÉCNICA*/\
    ORDER BY idOcorrencia;"                              
      
trans = connection.begin()
try:
    resultado = connection.execute( ComandoSQL )
    trans.commit()
except:
    trans.rollback()
    raise
    
ComandoSQL =  "SELECT selecionada, count(*) as Registros \
    from temporocorrenciasselecionadas \
    group by selecionada"

dados =pd.read_sql_query(ComandoSQL, engine)

dados.head()

Unnamed: 0,selecionada,registros
0,,213281


* __Marca  as  ocorrencias de abertura e inicio de sla ocorrerem  simultaneamente ambas serão selecionadas selecionadas__


In [11]:
ComandoSQL =  "UPDATE temporocorrenciasselecionadas o SET \
    selecionada = CAST(1  AS  BIT), datahora =  CASE WHEN o.categoria = 'Criacao' \
    THEN o.datahora - INTERVAL '1 min' ELSE o.datahora END \
    FROM ( \
        SELECT *  \
        FROM temporocorrenciasselecionadas  AS  toc \
        JOIN ( \
            SELECT idsolicitacaoservico, datahora ,  \
            COUNT(CASE WHEN categoria = 'Criacao' THEN 1 ELSE NULL END)  AS  Criacao, \
            COUNT(CASE WHEN categoria = 'InicioSLA' THEN 1 ELSE NULL END)   AS  InicioSLA, \
            COUNT(*)  \
            FROM temporocorrenciasselecionadas \
            WHERE selecionada IS NULL \
            GROUP BY idsolicitacaoservico, datahora  \
            HAVING COUNT(*)  = 2 \
            AND COUNT(CASE WHEN categoria = 'Criacao' THEN 1 ELSE NULL END)= 1 \
            AND COUNT(CASE WHEN categoria = 'InicioSLA' THEN 1 ELSE NULL END)  = 1 \
            AND COUNT(*)  = COUNT(CASE WHEN categoria = 'Criacao' THEN 1 ELSE NULL END)  \
                    + COUNT(CASE WHEN categoria = 'InicioSLA' THEN 1 ELSE NULL END) \
             )  AS  un ON un.idsolicitacaoservico = toc.idsolicitacaoservico \
             AND un.datahora = toc.datahora \
        WHERE TOC.selecionada IS NULL \
        AND toc.categoria IN('Criacao','InicioSLA') \
        )  AS  T \
    WHERE T.idocorrencia = o.idocorrencia ;  "                              
      
trans = connection.begin()
try:
    resultado = connection.execute( ComandoSQL )
    trans.commit()
except:
    trans.rollback()
    raise
    
ComandoSQL =  "SELECT selecionada, count(*) as Registros \
    from temporocorrenciasselecionadas \
    group by selecionada"

dados =pd.read_sql_query(ComandoSQL, engine)

dados.head()

Unnamed: 0,selecionada,registros
0,1.0,36766
1,,176515


* __Marcar  as  ocorrências de sla como não selecionadas, pois elas não representam realização de atividade__

In [12]:
ComandoSQL =  "UPDATE temporocorrenciasselecionadas SET  selecionada = CAST(0  AS  BIT) \
    WHERE selecionada IS  NULL \
    AND UPPER(categoria) like '%%SLA%%' \
    AND UPPER(categoria) not like 'InicioSLA'; "                   
      
trans = connection.begin()
try:
    resultado = connection.execute( ComandoSQL )
    trans.commit()
except:
    trans.rollback()
    raise
    
ComandoSQL =  "SELECT selecionada, count(*) as Registros \
    from temporocorrenciasselecionadas \
    group by selecionada"

dados =pd.read_sql_query(ComandoSQL, engine)

dados.head()

Unnamed: 0,selecionada,registros
0,0.0,26937
1,1.0,36766
2,,149578


* __Marcar  as  ocorrências de agendamento como não selecionadas, pois elas não representam realização de atividade__

In [13]:
ComandoSQL =  "UPDATE temporocorrenciasselecionadas SET  selecionada = CAST(0  AS  BIT) \
    WHERE selecionada IS NULL AND categoria = 'Agendamento'; "                   
      
trans = connection.begin()
try:
    resultado = connection.execute( ComandoSQL )
    trans.commit()
except:
    trans.rollback()
    raise
    
ComandoSQL =  "SELECT selecionada, count(*) as Registros \
    from temporocorrenciasselecionadas \
    group by selecionada"

dados =pd.read_sql_query(ComandoSQL, engine)

dados.head()

Unnamed: 0,selecionada,registros
0,0.0,27045
1,1.0,36766
2,,149470


* __Ocorrências duplicadas na mesma categoria, será seleciona a de menor id__

In [14]:
ComandoSQL =  "UPDATE temporocorrenciasselecionadas o SET  \
selecionada = CASE WHEN o.idocorrencia =  menorocorrencia THEN CAST(1  AS  BIT) ELSE CAST(0  AS  BIT) END \
    FROM ( \
        SELECT *  \
        FROM temporocorrenciasselecionadas  AS  toc \
        JOIN ( \
            SELECT idsolicitacaoservico, datahora , COUNT (DISTINCT categoria)  AS  categorias, \
            COUNT(*) , \
            MIN(idocorrencia)  AS  menorocorrencia \
            FROM temporocorrenciasselecionadas \
            WHERE selecionada IS NULL \
            GROUP BY idsolicitacaoservico, datahora  \
            HAVING COUNT(*)  >= 1 \
            AND COUNT (DISTINCT categoria) = 1 \
             )  AS  un ON un.idsolicitacaoservico = toc.idsolicitacaoservico \
             AND un.datahora = toc.datahora \
        WHERE TOC.selecionada IS NULL \
        AND toc.categoria IN('Criacao','Execucao', 'Compartilhamento', 'Reclassificacao','Suspensao','Reativacao','Encerramento','Direcionamento','Reabertura') \
        )  AS  T \
    WHERE T.idocorrencia = o.idocorrencia ; "                   
      
trans = connection.begin()
try:
    resultado = connection.execute( ComandoSQL )
    trans.commit()
except:
    trans.rollback()
    raise
    
ComandoSQL =  "SELECT selecionada, count(*) as Registros \
    from temporocorrenciasselecionadas \
    group by selecionada"

dados =pd.read_sql_query(ComandoSQL, engine)

dados.head()

Unnamed: 0,selecionada,registros
0,0.0,28151
1,1.0,106898
2,,78232


* __Quando houver duas ocorrências repetidas e uma delas for da categoria execução ela será descartada__

In [15]:
ComandoSQL =  "UPDATE temporocorrenciasselecionadas o SET  \
    selecionada = CASE WHEN o.categoria = 'Execucao' THEN  CAST(0  AS  BIT) ELSE CAST(1  AS  BIT) END \
    FROM ( \
        SELECT *  \
        FROM temporocorrenciasselecionadas  AS  toc \
        JOIN ( \
            SELECT idsolicitacaoservico, datahora , COUNT(DISTINCT categoria )  AS  categorias, \
            COUNT(CASE WHEN categoria IN('Compartilhamento', 'Reclassificacao','Suspensao','Reativacao','Encerramento','Direcionamento', 'Reabertura', 'Criacao') THEN 1 ELSE NULL END)  AS  Outra, \
            COUNT(CASE WHEN categoria = 'Execucao' THEN 1 ELSE NULL END)   AS  Execucao, \
            COUNT(*)  \
            FROM temporocorrenciasselecionadas \
            WHERE selecionada IS NULL \
            GROUP BY idsolicitacaoservico, datahora  \
            HAVING COUNT(*)  = 2 \
            AND COUNT(DISTINCT categoria ) =2 \
            AND COUNT(CASE WHEN categoria IN('Compartilhamento', 'Reclassificacao','Suspensao','Reativacao','Encerramento','Direcionamento', 'Reabertura', 'Criacao') THEN 1 ELSE NULL END)= 1 \
            AND COUNT(CASE WHEN categoria = 'Execucao' THEN 1 ELSE NULL END)= 1 \
            AND COUNT(*)  = COUNT(CASE WHEN categoria IN('Compartilhamento', 'Reclassificacao','Suspensao','Reativacao','Encerramento','Direcionamento', 'Reabertura', 'Criacao') THEN 1 ELSE NULL END)  \
                    + COUNT(CASE WHEN categoria = 'Execucao' THEN 1 ELSE NULL END) \
             )  AS  un ON un.idsolicitacaoservico = toc.idsolicitacaoservico \
             AND un.datahora = toc.datahora \
        WHERE TOC.selecionada IS NULL \
        AND toc.categoria IN('Execucao','Compartilhamento', 'Reclassificacao','Suspensao','Reativacao','Encerramento','Direcionamento', 'Reabertura', 'Criacao') \
        )  AS  T \
    WHERE T.idocorrencia = o.idocorrencia ; " 

trans = connection.begin()
try:
    resultado = connection.execute( ComandoSQL )
    trans.commit()
except:
    trans.rollback()
    raise
    
ComandoSQL =  "SELECT selecionada, count(*) as Registros \
    from temporocorrenciasselecionadas \
    group by selecionada"

dados =pd.read_sql_query(ComandoSQL, engine)

dados.head()

Unnamed: 0,selecionada,registros
0,0.0,62348
1,1.0,141095
2,,9838


* __Quando houver mais duas ocorrências repetidas e as que forem da categoria execução ela será descartada__

In [16]:
ComandoSQL =  "UPDATE temporocorrenciasselecionadas o SET  \
    selecionada = CASE WHEN o.categoria = 'Execucao' THEN  CAST(0  AS  BIT) ELSE CAST(1  AS  BIT) END \
    FROM ( \
        SELECT *  \
        FROM temporocorrenciasselecionadas  AS  toc \
        JOIN ( \
            SELECT idsolicitacaoservico, datahora , COUNT(DISTINCT categoria )  AS  categorias, \
            COUNT(CASE WHEN categoria IN('Compartilhamento', 'Reclassificacao','Suspensao','Reativacao','Encerramento','Direcionamento', 'Reabertura', 'Criacao') THEN 1 ELSE NULL END)  AS  Outra, \
            COUNT(CASE WHEN categoria = 'Execucao' THEN 1 ELSE NULL END)   AS  Execucao, \
            COUNT(*)  \
            FROM temporocorrenciasselecionadas \
            WHERE selecionada IS NULL \
            GROUP BY idsolicitacaoservico, datahora  \
            HAVING COUNT(*)  >= 2 \
            AND COUNT(DISTINCT categoria ) >=2 \
            AND COUNT(CASE WHEN categoria IN('Compartilhamento', 'Reclassificacao','Suspensao','Reativacao','Encerramento','Direcionamento', 'Reabertura', 'Criacao') THEN 1 ELSE NULL END)= 1 \
            AND COUNT(CASE WHEN categoria = 'Execucao' THEN 1 ELSE NULL END)>= 1 \
            AND COUNT(*)  = COUNT(CASE WHEN categoria IN('Compartilhamento', 'Reclassificacao','Suspensao','Reativacao','Encerramento','Direcionamento', 'Reabertura', 'Criacao') THEN 1 ELSE NULL END)  \
                    + COUNT(CASE WHEN categoria = 'Execucao' THEN 1 ELSE NULL END)\
             )  AS  un ON un.idsolicitacaoservico = toc.idsolicitacaoservico \
             AND un.datahora = toc.datahora \
        WHERE TOC.selecionada IS NULL \
        AND toc.categoria IN('Execucao','Compartilhamento', 'Reclassificacao','Suspensao','Reativacao','Encerramento','Direcionamento', 'Reabertura', 'Criacao') \
        )  AS  T \
    WHERE T.idocorrencia = o.idocorrencia ;" 
    
trans = connection.begin()
try:
    resultado = connection.execute( ComandoSQL )
    trans.commit()
except:
    trans.rollback()
    raise
    
ComandoSQL =  "SELECT selecionada, count(*) as Registros \
    from temporocorrenciasselecionadas \
    group by selecionada"

dados =pd.read_sql_query(ComandoSQL, engine)

dados.head()

Unnamed: 0,selecionada,registros
0,0.0,63435
1,1.0,141634
2,,8212


* __Quando ocorrencias de abertura e encerramento foram registradas simultaneamente ambas serão selecionadas__

In [17]:
ComandoSQL =  "UPDATE temporocorrenciasselecionadas o SET    \
    selecionada = CAST(1  AS  BIT), datahora =  CASE WHEN o.categoria = 'Criacao' \
    THEN o.datahora - INTERVAL '1 min' ELSE o.datahora END \
    FROM ( \
        SELECT *  \
        FROM temporocorrenciasselecionadas  AS  toc \
        JOIN ( \
            SELECT idsolicitacaoservico, datahora ,  \
            COUNT(CASE WHEN categoria = 'Criacao' THEN 1 ELSE NULL END)  AS  \"Criacao\", \
            COUNT(CASE WHEN categoria = 'Encerramento' THEN 1 ELSE NULL END)   AS  \"Encerramento\", \
            COUNT(*)  \
            FROM temporocorrenciasselecionadas \
            WHERE selecionada IS NULL \
            GROUP BY idsolicitacaoservico, datahora  \
            HAVING COUNT(*)  = 2 \
            AND COUNT(CASE WHEN categoria = 'Criacao' THEN 1 ELSE NULL END)= 1 \
            AND COUNT(CASE WHEN categoria = 'Encerramento' THEN 1 ELSE NULL END)  = 1 \
            AND COUNT(*)  = COUNT(CASE WHEN categoria = 'Criacao' THEN 1 ELSE NULL END)  \
                    + COUNT(CASE WHEN categoria = 'Encerramento' THEN 1 ELSE NULL END)\
             )  AS  un ON un.idsolicitacaoservico = toc.idsolicitacaoservico \
             AND un.datahora = toc.datahora \
        WHERE TOC.selecionada IS NULL \
        AND toc.categoria IN('Criacao','Encerramento') \
        )  AS  T \
    WHERE T.idocorrencia = o.idocorrencia ;" 
    
trans = connection.begin()
try:
    resultado = connection.execute( ComandoSQL )
    trans.commit()
except:
    trans.rollback()
    raise
    
ComandoSQL =  "SELECT selecionada, count(*) as Registros \
    from temporocorrenciasselecionadas \
    group by selecionada"

dados =pd.read_sql_query(ComandoSQL, engine)

dados.head()

Unnamed: 0,selecionada,registros
0,0.0,63435
1,1.0,143594
2,,6252


* __Quando ocorrencias de suspensao e reativação  executadas simultaneamente ambdas serão descartadas, pois se anulam.__

In [18]:
ComandoSQL =  "UPDATE temporocorrenciasselecionadas o SET   selecionada = CAST(0  AS  BIT) \
    FROM ( \
        SELECT *  \
        FROM temporocorrenciasselecionadas  AS  toc \
        JOIN ( \
            SELECT idsolicitacaoservico, datahora ,  \
            COUNT(CASE WHEN categoria = 'Suspensao' THEN 1 ELSE NULL END)  AS  \"Suspensao\", \
            COUNT(CASE WHEN categoria = 'Reativacao' THEN 1 ELSE NULL END)   AS  \"Reativacao\", \
            COUNT(CASE WHEN categoria = 'Execucao' THEN 1 ELSE NULL END)   AS  \"Execucao\", \
            COUNT(*)  \
            FROM temporocorrenciasselecionadas \
            WHERE selecionada IS NULL \
            GROUP BY idsolicitacaoservico, datahora  \
            HAVING COUNT(*)  >= 2 \
            AND COUNT(CASE WHEN categoria = 'Suspensao' THEN 1 ELSE NULL END)>= 1 \
            AND COUNT(CASE WHEN categoria = 'Reativacao' THEN 1 ELSE NULL END)  >= 1 \
            AND COUNT(CASE WHEN categoria = 'Execucao' THEN 1 ELSE NULL END)  >= 0 \
            AND COUNT(*)  = COUNT(CASE WHEN categoria = 'Suspensao' THEN 1 ELSE NULL END)  \
                    + COUNT(CASE WHEN categoria = 'Reativacao' THEN 1 ELSE NULL END) \
                    + COUNT(CASE WHEN categoria = 'Execucao' THEN 1 ELSE NULL END)		 \
             )  AS  un ON un.idsolicitacaoservico = toc.idsolicitacaoservico \
             AND un.datahora = toc.datahora \
        WHERE TOC.selecionada IS NULL \
        AND toc.categoria IN('Suspensao','Reativacao','Execucao') \
        )  AS  T \
    WHERE T.idocorrencia = o.idocorrencia ; " 
    
trans = connection.begin()
try:
    resultado = connection.execute( ComandoSQL )
    trans.commit()
except:
    trans.rollback()
    raise
    
ComandoSQL =  "SELECT selecionada, count(*) as Registros \
    from temporocorrenciasselecionadas \
    group by selecionada"

dados =pd.read_sql_query(ComandoSQL, engine)

dados.head()

Unnamed: 0,selecionada,registros
0,0.0,63520
1,1.0,143594
2,,6167


* __Quando ocorrências de reclassificação e direcionamento ocorrerem repetidas com execução, a de execução será descartada__

In [19]:
ComandoSQL =  "UPDATE temporocorrenciasselecionadas o SET  \
    selecionada = CASE WHEN o.categoria in('Reclassificacao','Direcionamento') \
    THEN  CAST(1  AS  BIT) ELSE CAST(0  AS  BIT) END, \
    datahora =  CASE WHEN o.categoria = 'Reclassificacao' \
    THEN o.datahora - INTERVAL '30 seconds' ELSE o.datahora END \
    FROM ( \
        SELECT *  \
        FROM temporocorrenciasselecionadas  AS  toc \
        JOIN ( \
            SELECT idsolicitacaoservico, datahora ,  \
            COUNT(CASE WHEN categoria = 'Execucao' THEN 1 ELSE NULL END)  AS  \"Execucao\", \
            COUNT(CASE WHEN categoria = 'Direcionamento' THEN 1 ELSE NULL END)   AS  \"Direcionamento\", \
            COUNT(CASE WHEN categoria = 'Reclassificacao' THEN 1 ELSE NULL END)   AS  \"Reclassificacao\", \
            COUNT(*)  \
            FROM temporocorrenciasselecionadas \
            WHERE selecionada IS NULL \
            GROUP BY idsolicitacaoservico, datahora  \
            HAVING COUNT(*)  >= 3 \
            AND COUNT(CASE WHEN categoria = 'Execucao' THEN 1 ELSE NULL END)>= 1 \
            AND COUNT(CASE WHEN categoria = 'Direcionamento' THEN 1 ELSE NULL END) = 1 \
            AND COUNT(CASE WHEN categoria = 'Reclassificacao' THEN 1 ELSE NULL END) = 1 \
            AND COUNT(*)  = COUNT(CASE WHEN categoria = 'Execucao' THEN 1 ELSE NULL END) \
                    + COUNT(CASE WHEN categoria = 'Direcionamento' THEN 1 ELSE NULL END) \
                    + COUNT(CASE WHEN categoria = 'Reclassificacao' THEN 1 ELSE NULL END) \
             )  AS  un ON un.idsolicitacaoservico = toc.idsolicitacaoservico \
             AND un.datahora = toc.datahora \
        WHERE toc.selecionada IS NULL \
        AND toc.categoria IN('Reclassificacao','Execucao','Direcionamento') \
        )  AS  T \
    WHERE T.idocorrencia = o.idocorrencia ; " 
    
trans = connection.begin()
try:
    resultado = connection.execute( ComandoSQL )
    trans.commit()
except:
    trans.rollback()
    raise
    
ComandoSQL =  "SELECT selecionada, count(*) as Registros \
    from temporocorrenciasselecionadas \
    group by selecionada"

dados =pd.read_sql_query(ComandoSQL, engine)

dados.head()

Unnamed: 0,selecionada,registros
0,0.0,65348
1,1.0,147192
2,,741


* __Quando ocorrência de direcionamento estiver repetida com outra categoria, a de direcionamento será selecionada__

In [20]:
ComandoSQL =  "UPDATE temporocorrenciasselecionadas o SET  \
selecionada = CASE WHEN o.categoria = 'Direcionamento' THEN  CAST(1  AS  BIT) ELSE CAST(0  AS  BIT) END \
    FROM ( \
        SELECT *  \
        FROM temporocorrenciasselecionadas  AS  toc \
        JOIN ( \
            SELECT idsolicitacaoservico, datahora , COUNT(DISTINCT categoria )  AS  categorias, \
            COUNT(CASE WHEN categoria <> 'Direcionamento' THEN 1 ELSE NULL END)  AS  \"Outra\", \
            COUNT(CASE WHEN categoria = 'Direcionamento' THEN 1 ELSE NULL END)   AS  \"Direcionamento\", \
            COUNT(*)  \
            FROM temporocorrenciasselecionadas \
            WHERE selecionada IS NULL \
            GROUP BY idsolicitacaoservico, datahora  \
            HAVING COUNT(*)  >= 2 \
            AND COUNT(DISTINCT categoria ) >=2 \
            AND COUNT(CASE WHEN categoria <> 'Direcionamento' THEN 1 ELSE NULL END)>= 1 \
            AND COUNT(CASE WHEN categoria = 'Direcionamento' THEN 1 ELSE NULL END)>= 1 \
            AND COUNT(*)  = COUNT(CASE WHEN categoria <> 'Direcionamento' THEN 1 ELSE NULL END)  \
                    + COUNT(CASE WHEN categoria = 'Direcionamento' THEN 1 ELSE NULL END)\
             )  AS  un ON un.idsolicitacaoservico = toc.idsolicitacaoservico \
             AND un.datahora = toc.datahora \
        WHERE TOC.selecionada IS NULL \
        )  AS  T \
    WHERE T.idocorrencia = o.idocorrencia ;" 
    
trans = connection.begin()
try:
    resultado = connection.execute( ComandoSQL )
    trans.commit()
except:
    trans.rollback()
    raise
    
ComandoSQL =  "SELECT selecionada, count(*) as Registros \
    from temporocorrenciasselecionadas \
    group by selecionada"

dados =pd.read_sql_query(ComandoSQL, engine)

dados.head()

Unnamed: 0,selecionada,registros
0,0.0,65584
1,1.0,147286
2,,411


* __Quando ocorrência de criação estiver repetida com outra categoria, a de criação será selecionada__

In [21]:
ComandoSQL =  "UPDATE temporocorrenciasselecionadas o SET  \
selecionada = CASE WHEN o.categoria = 'Criacao' THEN  CAST(1  AS  BIT) ELSE CAST(0  AS  BIT) END \
    FROM ( \
        SELECT *  \
        FROM temporocorrenciasselecionadas  AS  toc \
        JOIN ( \
            SELECT idsolicitacaoservico, datahora , COUNT(DISTINCT categoria )  AS  categorias, \
            COUNT(CASE WHEN categoria <> 'Criacao' THEN 1 ELSE NULL END)  AS  \"Outra\", \
            COUNT(CASE WHEN categoria = 'Criacao' THEN 1 ELSE NULL END)   AS  \"Criacao\", \
            COUNT(*)  \
            FROM temporocorrenciasselecionadas \
            WHERE selecionada IS NULL \
            GROUP BY idsolicitacaoservico, datahora  \
            HAVING COUNT(*)  >= 2 \
            AND COUNT(DISTINCT categoria ) >=2 \
            AND COUNT(CASE WHEN categoria <> 'Criacao' THEN 1 ELSE NULL END)>= 1 \
            AND COUNT(CASE WHEN categoria = 'Criacao' THEN 1 ELSE NULL END)>= 1 \
            AND COUNT(*)  = COUNT(CASE WHEN categoria <> 'Criacao' THEN 1 ELSE NULL END)  \
                    + COUNT(CASE WHEN categoria = 'Criacao' THEN 1 ELSE NULL END)\
             )  AS  un ON un.idsolicitacaoservico = toc.idsolicitacaoservico \
             AND un.datahora = toc.datahora \
        WHERE TOC.selecionada IS NULL \
        )  AS  T \
    WHERE T.idocorrencia = o.idocorrencia ;" 
    
trans = connection.begin()
try:
    resultado = connection.execute( ComandoSQL )
    trans.commit()
except:
    trans.rollback()
    raise
    
ComandoSQL =  "SELECT selecionada, count(*) as Registros \
    from temporocorrenciasselecionadas \
    group by selecionada"

dados =pd.read_sql_query(ComandoSQL, engine)

dados.head()

Unnamed: 0,selecionada,registros
0,0.0,65728
1,1.0,147376
2,,177


* __Quando ocorrência de suspensão estiver repetida com outra categoria, a de suspensão será selecionada__

In [22]:
ComandoSQL =  "UPDATE temporocorrenciasselecionadas o SET  \
    selecionada = CASE WHEN o.categoria = 'Suspensao' THEN  CAST(1  AS  BIT) ELSE CAST(0  AS  BIT) END \
    FROM ( \
        SELECT *  \
        FROM temporocorrenciasselecionadas  AS  toc \
        JOIN ( \
            SELECT idsolicitacaoservico, datahora , COUNT(DISTINCT categoria )  AS  categorias, \
            COUNT(CASE WHEN categoria <> 'Suspensao' THEN 1 ELSE NULL END)  AS  \"Outra\", \
            COUNT(CASE WHEN categoria = 'Suspensao' THEN 1 ELSE NULL END)   AS  \"Suspensao\", \
            COUNT(*)  \
            FROM temporocorrenciasselecionadas \
            WHERE selecionada IS NULL \
            GROUP BY idsolicitacaoservico, datahora  \
            HAVING COUNT(*)  >= 1 \
            AND COUNT(DISTINCT categoria ) >=2 \
            AND COUNT(CASE WHEN categoria <> 'Suspensao' THEN 1 ELSE NULL END)>= 1 \
            AND COUNT(CASE WHEN categoria = 'Suspensao' THEN 1 ELSE NULL END)>= 1 \
            AND COUNT(*)  = COUNT(CASE WHEN categoria <> 'Suspensao' THEN 1 ELSE NULL END)  \
                    + COUNT(CASE WHEN categoria = 'Suspensao' THEN 1 ELSE NULL END)\
             )  AS  un ON un.idsolicitacaoservico = toc.idsolicitacaoservico \
             AND un.datahora = toc.datahora \
        WHERE TOC.selecionada IS NULL \
        )  AS  T \
    WHERE T.idocorrencia = o.idocorrencia ;" 
    
trans = connection.begin()
try:
    resultado = connection.execute( ComandoSQL )
    trans.commit()
except:
    trans.rollback()
    raise
    
ComandoSQL =  "SELECT selecionada, count(*) as Registros \
    from temporocorrenciasselecionadas \
    group by selecionada"

dados =pd.read_sql_query(ComandoSQL, engine)

dados.head()

Unnamed: 0,selecionada,registros
0,0.0,65739
1,1.0,147385
2,,157


* __Quando ocorrência de reativação estiver repetida com outra categoria, a de reativação será selecionada__

In [23]:
ComandoSQL =  "UPDATE temporocorrenciasselecionadas o SET  \
    selecionada = CASE WHEN o.categoria = 'Reativacao' THEN  CAST(1  AS  BIT) ELSE CAST(0  AS  BIT) END \
    FROM ( \
        SELECT *  \
        FROM temporocorrenciasselecionadas  AS  toc \
        JOIN ( \
            SELECT idsolicitacaoservico, datahora , COUNT(DISTINCT categoria )  AS  categorias, \
            COUNT(CASE WHEN categoria <> 'Reativacao' THEN 1 ELSE NULL END)  AS  \"Outra\", \
            COUNT(CASE WHEN categoria = 'Reativacao' THEN 1 ELSE NULL END)   AS  \"Reativacao\", \
            COUNT(*)  \
            FROM temporocorrenciasselecionadas \
            WHERE selecionada IS NULL \
            GROUP BY idsolicitacaoservico, datahora  \
            HAVING COUNT(*)  >= 1 \
            AND COUNT(DISTINCT categoria ) >=2 \
            AND COUNT(CASE WHEN categoria <> 'Reativacao' THEN 1 ELSE NULL END)>= 1 \
            AND COUNT(CASE WHEN categoria = 'Reativacao' THEN 1 ELSE NULL END)>= 1 \
            AND COUNT(*)  = COUNT(CASE WHEN categoria <> 'Reativacao' THEN 1 ELSE NULL END)  \
                    + COUNT(CASE WHEN categoria = 'Reativacao' THEN 1 ELSE NULL END)		 \
             )  AS  un ON un.idsolicitacaoservico = toc.idsolicitacaoservico \
             AND un.datahora = toc.datahora \
        WHERE TOC.selecionada IS NULL \
        )  AS  T \
    WHERE T.idocorrencia = o.idocorrencia ; " 
    
trans = connection.begin()
try:
    resultado = connection.execute( ComandoSQL )
    trans.commit()
except:
    trans.rollback()
    raise
    
ComandoSQL =  "SELECT selecionada, count(*) as Registros \
    from temporocorrenciasselecionadas \
    group by selecionada"

dados =pd.read_sql_query(ComandoSQL, engine)

dados.head()

Unnamed: 0,selecionada,registros
0,0.0,65768
1,1.0,147408
2,,105


* __Quando ocorrência de encerramento estiver repetida com outra categoria, a de encerramento será selecionada__

In [24]:
ComandoSQL =  "UPDATE temporocorrenciasselecionadas o SET  \
    selecionada = CASE WHEN o.categoria = 'Encerramento' THEN  CAST(1  AS  BIT) ELSE CAST(0  AS  BIT) END \
    FROM ( \
        SELECT *  \
        FROM temporocorrenciasselecionadas  AS  toc \
        JOIN ( \
            SELECT idsolicitacaoservico, datahora , COUNT(DISTINCT categoria )  AS  categorias, \
            COUNT(CASE WHEN categoria <> 'Encerramento' THEN 1 ELSE NULL END)  AS  \"Outra\", \
            COUNT(CASE WHEN categoria = 'Encerramento' THEN 1 ELSE NULL END)   AS  \"Encerramento\", \
            COUNT(*)  \
            FROM temporocorrenciasselecionadas \
            WHERE selecionada IS NULL \
            GROUP BY idsolicitacaoservico, datahora  \
            HAVING COUNT(*)  >= 1 \
            AND COUNT(DISTINCT categoria ) >=2 \
            AND COUNT(CASE WHEN categoria <> 'Encerramento' THEN 1 ELSE NULL END)>= 1 \
            AND COUNT(CASE WHEN categoria = 'Encerramento' THEN 1 ELSE NULL END)>= 1 \
            AND COUNT(*)  = COUNT(CASE WHEN categoria <> 'Encerramento' THEN 1 ELSE NULL END)  \
                    + COUNT(CASE WHEN categoria = 'Encerramento' THEN 1 ELSE NULL END)		 \
             )  AS  un ON un.idsolicitacaoservico = toc.idsolicitacaoservico \
             AND un.datahora = toc.datahora \
        WHERE TOC.selecionada IS NULL \
        )  AS  T \
    WHERE T.idocorrencia = o.idocorrencia ; " 
    
trans = connection.begin()
try:
    resultado = connection.execute( ComandoSQL )
    trans.commit()
except:
    trans.rollback()
    raise
    
ComandoSQL =  "SELECT selecionada, count(*) as Registros \
    from temporocorrenciasselecionadas \
    group by selecionada"

dados =pd.read_sql_query(ComandoSQL, engine)

dados.head()

Unnamed: 0,selecionada,registros
0,0.0,65798
1,1.0,147448
2,,35


* __Quando ocorrência de Compartilhamento estiver repetida com outra categoria, a de Compartilhamento será selecionada__

In [25]:
ComandoSQL =  "UPDATE temporocorrenciasselecionadas o SET \
    selecionada = CASE WHEN o.categoria = 'Compartilhamento' THEN  CAST(1  AS  BIT) ELSE CAST(0  AS  BIT) END \
    FROM ( \
        SELECT *  \
        FROM temporocorrenciasselecionadas  AS  toc \
        JOIN ( \
            SELECT idsolicitacaoservico, datahora , COUNT(DISTINCT categoria )  AS  categorias, \
            COUNT(CASE WHEN categoria <> 'Compartilhamento' THEN 1 ELSE NULL END)  AS  \"Outra\", \
            COUNT(CASE WHEN categoria = 'Compartilhamento' THEN 1 ELSE NULL END)   AS  \"Compartilhamento\", \
            COUNT(*)  \
            FROM temporocorrenciasselecionadas \
            WHERE selecionada IS NULL \
            GROUP BY idsolicitacaoservico, datahora  \
            HAVING COUNT(*)  >= 1 \
            AND COUNT(DISTINCT categoria ) >=2 \
            AND COUNT(CASE WHEN categoria <> 'Compartilhamento' THEN 1 ELSE NULL END)>= 1 \
            AND COUNT(CASE WHEN categoria = 'Compartilhamento' THEN 1 ELSE NULL END)>= 1 \
            AND COUNT(*)  = COUNT(CASE WHEN categoria <> 'Compartilhamento' THEN 1 ELSE NULL END)  \
                    + COUNT(CASE WHEN categoria = 'Compartilhamento' THEN 1 ELSE NULL END)\
             )  AS  un ON un.idsolicitacaoservico = toc.idsolicitacaoservico \
             AND un.datahora = toc.datahora \
        WHERE TOC.selecionada IS NULL \
        )  AS  T \
    WHERE T.idocorrencia = o.idocorrencia ;" 
    
trans = connection.begin()
try:
    resultado = connection.execute( ComandoSQL )
    trans.commit()
except:
    trans.rollback()
    raise
    
ComandoSQL =  "SELECT selecionada, count(*) as Registros \
    from temporocorrenciasselecionadas \
    group by selecionada"

dados =pd.read_sql_query(ComandoSQL, engine)

dados.head()

Unnamed: 0,selecionada,registros
0,0,65811
1,1,147470


* __Quando ocorrência de mesma categoria estiverem repetidas será selecionada a de menor id__

In [26]:
ComandoSQL =  "UPDATE temporocorrenciasselecionadas o SET \
    selecionada = CASE WHEN o.idocorrencia =  menorocorrencia THEN CAST(1  AS  BIT) ELSE CAST(0  AS  BIT) END \
    FROM ( \
        SELECT *  \
        FROM temporocorrenciasselecionadas  AS  toc \
        JOIN ( \
            SELECT idsolicitacaoservico, datahora , COUNT (DISTINCT categoria)  AS  categorias, \
            COUNT(*) , \
            MIN(idocorrencia)  AS  menorocorrencia \
            FROM temporocorrenciasselecionadas \
            WHERE selecionada = CAST(1  AS  BIT)  \
            GROUP BY idsolicitacaoservico, datahora  \
            HAVING COUNT(*)  >= 2 \
            AND COUNT (DISTINCT categoria) = 1 \
             )  AS  un ON un.idsolicitacaoservico = toc.idsolicitacaoservico \
             AND un.datahora = toc.datahora \
        WHERE TOC.selecionada = CAST(1  AS  BIT)  \
        AND toc.categoria IN('Criacao','Execucao', 'Compartilhamento', 'Reclassificacao','Suspensao','Reativacao','Encerramento','Direcionamento','Reabertura') \
        )  AS  T \
    WHERE T.idocorrencia = o.idocorrencia ; " 
    
trans = connection.begin()
try:
    resultado = connection.execute( ComandoSQL )
    trans.commit()
except:
    trans.rollback()
    raise
    
ComandoSQL =  "SELECT selecionada, count(*) as Registros \
    from temporocorrenciasselecionadas \
    group by selecionada"

dados =pd.read_sql_query(ComandoSQL, engine)

dados.head()

Unnamed: 0,selecionada,registros
0,0,65846
1,1,147435


## Verifica se ainda existem duplicidades de registros de ocorrências selecionados

In [27]:
ComandoSQL =  "SELECT  \
    \"Criacao\", \"Reabertura\", \"InicioSLA\", \"Reclassificacao\", \"Direcionamento\", \"Execucao\", \"Encerramento\", \
    \"Suspensao\",\"SuspensaoSLA\",\"Reativacao\", \"ReativacaoSLA\", \"Agendamento\", \"Compartilhamento\",\"MudancaSLA\",    \
    COUNT(*) \
    FROM ( \
        SELECT idsolicitacaoservico, datahora,  \
        CASE WHEN COUNT(CASE WHEN categoria = 'Agendamento' THEN 1 ELSE NULL END) > 0 THEN 'X' ELSE '' END  AS  \"Agendamento\", \
        CASE WHEN COUNT(CASE WHEN categoria = 'Compartilhamento' THEN 1 ELSE NULL END)  > 0 THEN 'X' ELSE '' END  AS  \"Compartilhamento\", \
        CASE WHEN COUNT(CASE WHEN categoria = 'Criacao' THEN 1 ELSE NULL END)  > 0 THEN 'X' ELSE '' END  AS  \"Criacao\", \
        CASE WHEN COUNT(CASE WHEN categoria = 'Direcionamento' THEN 1 ELSE NULL END)  > 0 THEN 'X' ELSE '' END  AS  \"Direcionamento\", \
        CASE WHEN COUNT(CASE WHEN categoria = 'Encerramento' THEN 1 ELSE NULL END)  > 0 THEN 'X' ELSE '' END  AS  \"Encerramento\", \
        CASE WHEN COUNT(CASE WHEN categoria = 'Execucao' THEN 1 ELSE NULL END)  > 0 THEN 'X' ELSE '' END  AS  \"Execucao\", \
        CASE WHEN COUNT(CASE WHEN categoria = 'Reabertura' THEN 1 ELSE NULL END)  > 0 THEN 'X' ELSE '' END  AS  \"Reabertura\", \
        CASE WHEN COUNT(CASE WHEN categoria = 'Reativacao' THEN 1 ELSE NULL END)  > 0 THEN 'X' ELSE '' END  AS  \"Reativacao\", \
        CASE WHEN COUNT(CASE WHEN categoria = 'Reclassificacao' THEN 1 ELSE NULL END)  > 0 THEN 'X' ELSE '' END  AS  \"Reclassificacao\", \
        CASE WHEN COUNT(CASE WHEN categoria = 'Suspensao' THEN 1 ELSE NULL END)  > 0 THEN 'X' ELSE '' END  AS  \"Suspensao\", \
        CASE WHEN COUNT(CASE WHEN categoria = 'SuspensaoSLA' THEN 1 ELSE NULL END)  > 0 THEN 'X' ELSE '' END  AS  \"SuspensaoSLA\", \
        CASE WHEN COUNT(CASE WHEN categoria = 'InicioSLA' THEN 1 ELSE NULL END)  > 0 THEN 'X' ELSE '' END  AS  \"InicioSLA\", \
        CASE WHEN COUNT(CASE WHEN categoria = 'ReativacaoSLA' THEN 1 ELSE NULL END)  > 0 THEN 'X' ELSE '' END  AS  \"ReativacaoSLA\", \
        CASE WHEN COUNT(CASE WHEN categoria = 'MudancaSLA' THEN 1 ELSE NULL END)  > 0 THEN 'X' ELSE '' END  AS  \"MudancaSLA\", \
        COUNT(*) \
        FROM temporocorrenciasselecionadas \
        WHERE selecionada = CAST(1  AS  BIT) \
        GROUP BY idsolicitacaoservico, datahora \
        /*HAVING COUNT(*) > 1 */\
    )  AS  OcorrenciaRepetidas \
    GROUP BY \
    \"Criacao\", \"Reabertura\", \"InicioSLA\", \"Reclassificacao\", \"Direcionamento\", \"Execucao\", \"Encerramento\", \
    \"Suspensao\",\"SuspensaoSLA\",\"Reativacao\", \"ReativacaoSLA\", \"Agendamento\", \"Compartilhamento\",\"MudancaSLA\" \
    ORDER BY \"Criacao\", \"Reabertura\", \"InicioSLA\", \"Reclassificacao\", \"Direcionamento\", \"Execucao\", \"Encerramento\", \
    \"Suspensao\",\"SuspensaoSLA\",\"Reativacao\", \"ReativacaoSLA\", \"Agendamento\", \"Compartilhamento\",\"MudancaSLA\" ;"

#print ComandoSQL

dados =pd.read_sql_query(ComandoSQL, engine)

dados.head(100)

Unnamed: 0,Criacao,Reabertura,InicioSLA,Reclassificacao,Direcionamento,Execucao,Encerramento,Suspensao,SuspensaoSLA,Reativacao,ReativacaoSLA,Agendamento,Compartilhamento,MudancaSLA,count
0,,,,,,,,,,,,,X,,3308
1,,,,,,,,,,X,,,,,3227
2,,,,,,,,X,,,,,,,3333
3,,,,,,,X,,,,,,,,19997
4,,,,,,X,,,,,,,,,54287
5,,,,,X,,,,,,,,,,15634
6,,,,X,,,,,,,,,,,8799
7,,,X,,,,,,,,,,,,18383
8,,X,,,,,,,,,,,,,213
9,X,,,,,,,,,,,,,,20254


## Verifica os registros de ocorrências descartados

In [28]:
ComandoSQL =  "SELECT  \
    \"Criacao\", \"Reabertura\", \"InicioSLA\", \"Reclassificacao\", \"Direcionamento\", \"Execucao\", \"Encerramento\", \
    \"Suspensao\",\"SuspensaoSLA\",\"Reativacao\", \"ReativacaoSLA\", \"Agendamento\", \"Compartilhamento\",\"MudancaSLA\",    \
    COUNT(*) \
    FROM ( \
        SELECT idsolicitacaoservico, datahora,  \
        CASE WHEN COUNT(CASE WHEN categoria = 'Agendamento' THEN 1 ELSE NULL END) > 0 THEN 'X' ELSE '' END  AS  \"Agendamento\", \
        CASE WHEN COUNT(CASE WHEN categoria = 'Compartilhamento' THEN 1 ELSE NULL END)  > 0 THEN 'X' ELSE '' END  AS  \"Compartilhamento\", \
        CASE WHEN COUNT(CASE WHEN categoria = 'Criacao' THEN 1 ELSE NULL END)  > 0 THEN 'X' ELSE '' END  AS  \"Criacao\", \
        CASE WHEN COUNT(CASE WHEN categoria = 'Direcionamento' THEN 1 ELSE NULL END)  > 0 THEN 'X' ELSE '' END  AS  \"Direcionamento\", \
        CASE WHEN COUNT(CASE WHEN categoria = 'Encerramento' THEN 1 ELSE NULL END)  > 0 THEN 'X' ELSE '' END  AS  \"Encerramento\", \
        CASE WHEN COUNT(CASE WHEN categoria = 'Execucao' THEN 1 ELSE NULL END)  > 0 THEN 'X' ELSE '' END  AS  \"Execucao\", \
        CASE WHEN COUNT(CASE WHEN categoria = 'Reabertura' THEN 1 ELSE NULL END)  > 0 THEN 'X' ELSE '' END  AS  \"Reabertura\", \
        CASE WHEN COUNT(CASE WHEN categoria = 'Reativacao' THEN 1 ELSE NULL END)  > 0 THEN 'X' ELSE '' END  AS  \"Reativacao\", \
        CASE WHEN COUNT(CASE WHEN categoria = 'Reclassificacao' THEN 1 ELSE NULL END)  > 0 THEN 'X' ELSE '' END  AS  \"Reclassificacao\", \
        CASE WHEN COUNT(CASE WHEN categoria = 'Suspensao' THEN 1 ELSE NULL END)  > 0 THEN 'X' ELSE '' END  AS  \"Suspensao\", \
        CASE WHEN COUNT(CASE WHEN categoria = 'SuspensaoSLA' THEN 1 ELSE NULL END)  > 0 THEN 'X' ELSE '' END  AS  \"SuspensaoSLA\", \
        CASE WHEN COUNT(CASE WHEN categoria = 'InicioSLA' THEN 1 ELSE NULL END)  > 0 THEN 'X' ELSE '' END  AS  \"InicioSLA\", \
        CASE WHEN COUNT(CASE WHEN categoria = 'ReativacaoSLA' THEN 1 ELSE NULL END)  > 0 THEN 'X' ELSE '' END  AS  \"ReativacaoSLA\", \
        CASE WHEN COUNT(CASE WHEN categoria = 'MudancaSLA' THEN 1 ELSE NULL END)  > 0 THEN 'X' ELSE '' END  AS  \"MudancaSLA\", \
        COUNT(*) \
        FROM temporocorrenciasselecionadas \
        WHERE selecionada  = CAST(0  AS  BIT) \
        GROUP BY idsolicitacaoservico, datahora \
        /*HAVING COUNT(*) > 1 */\
    )  AS  OcorrenciaRepetidas \
    GROUP BY \
    \"Criacao\", \"Reabertura\", \"InicioSLA\", \"Reclassificacao\", \"Direcionamento\", \"Execucao\", \"Encerramento\", \
    \"Suspensao\",\"SuspensaoSLA\",\"Reativacao\", \"ReativacaoSLA\", \"Agendamento\", \"Compartilhamento\",\"MudancaSLA\" \
    ORDER BY \"Criacao\", \"Reabertura\", \"InicioSLA\", \"Reclassificacao\", \"Direcionamento\", \"Execucao\", \"Encerramento\", \
    \"Suspensao\",\"SuspensaoSLA\",\"Reativacao\", \"ReativacaoSLA\", \"Agendamento\", \"Compartilhamento\",\"MudancaSLA\" ;"

#print ComandoSQL

dados =pd.read_sql_query(ComandoSQL, engine)

dados.head(100)

Unnamed: 0,Criacao,Reabertura,InicioSLA,Reclassificacao,Direcionamento,Execucao,Encerramento,Suspensao,SuspensaoSLA,Reativacao,ReativacaoSLA,Agendamento,Compartilhamento,MudancaSLA,count
0,,,,,,,,,,,,,,X,289
1,,,,,,,,,,,,,X,,55
2,,,,,,,,,,,,,X,X,1
3,,,,,,,,,,,,X,,,87
4,,,,,,,,,,,X,,,,3091
5,,,,,,,,,,,X,,X,,11
6,,,,,,,,,,X,X,,,,3
7,,,,,,,,,X,,,,,,20700
8,,,,,,,,,X,,,,,X,1
9,,,,,,,,,X,,,,X,,6


##  Tratar os logs do workflow e sua relação com as solicitações de serviços

* __Armazenar os logs da work flow em tabela temporária__

In [29]:
ComandoSQL =  "TRUNCATE TABLE tempSolicitacaoItemTrabalho;\
    INSERT INTO tempSolicitacaoItemTrabalho( \
    idsolicitacaoservico, iditemtrabalho, idresponsavelitemtrabalho, \
    nomeresponsavel, datahoracriacaoitemtrabalho,  datahorainicioitemtrabalho,  \
    situacaoitemtrabalho, datahorafinalizacao, idgrupoexecutor,  nomegrupoexecutoratual,arearesponsavel, \
    idfluxo, nomefluxo,  versao) \
    SELECT  ss.idsolicitacaoservico, itrabflx.iditemtrabalho, itrabflx.idresponsavelatual  AS  idresponsavelitemtrabalho,  \
    rit.nome nomeresponsavel, itrabflx.datahoracriacao  AS  datahoracriacaoitemtrabalho,  \
    itrabflx.datahorainicio  AS  datahorainicioitemtrabalho, itrabflx.situacao  AS  situacaoitemtrabalho,  \
    itrabflx.datahorafinalizacao  AS  datahorafinalizacaoitemtrabalho, \
    atrflx.idgrupo  AS  idgrupoexecutor, g.nome  AS  nomegrupoexecutoratual, SPLIT_PART(SPLIT_PART(g.descricao, 'AREA=', 2),']',1)  AS  arearesponsavel, \
    bflx.idfluxo, upper(btflx.nomefluxo),  bflx.versao \
    FROM solicitacaoservico ss \
    LEFT JOIN execucaosolicitacao ess ON ess.idsolicitacaoservico = ss.idsolicitacaoservico \
    LEFT JOIN bpm_fluxo bflx ON bflx.idfluxo = ess.idfluxo \
    LEFT JOIN bpm_tipofluxo btflx ON btflx.idtipofluxo = bflx.idtipofluxo \
    LEFT JOIN bpm_instanciafluxo bitflx ON bitflx.idinstancia = ess.idinstanciafluxo  \
    LEFT JOIN faseservico fs ON fs.idfase = ess.idfase \
    LEFT JOIN bpm_objetoinstanciafluxo obitflxga ON obitflxga.idinstancia = bitflx.idinstancia AND obitflxga.nomeobjeto =  'solicitacaoServico.grupoAtual' \
    LEFT JOIN bpm_objetoinstanciafluxo obitflxgs ON obitflxgs.idinstancia = bitflx.idinstancia AND obitflxgs.nomeobjeto =  'solicitacaoServico.situacao' \
    LEFT JOIN bpm_itemtrabalhofluxo itrabflx ON itrabflx.idinstancia = bitflx.idinstancia  \
    LEFT JOIN bpm_elementofluxo elflx ON elflx.idelemento =  itrabflx.idelemento AND elflx.idfluxo =  ess.idfluxo \
    LEFT JOIN bpm_atribuicaofluxo atrflx ON atrflx.iditemtrabalho = itrabflx.iditemtrabalho AND atrflx.tipo = 'Automatica' \
    LEFT JOIN grupo g ON g.idgrupo = atrflx.idgrupo \
    LEFT JOIN usuario rit ON rit.idusuario = itrabflx.idresponsavelatual \
    LEFT JOIN empregados solicitante ON solicitante.idempregado = ss.idsolicitante \
    LEFT JOIN empregados su ON su.idempregado = atrflx.idusuario ; " 
    
trans = connection.begin()
try:
    resultado = connection.execute( ComandoSQL )
    trans.commit()
except:
    trans.rollback()
    raise
    
ComandoSQL =  "SELECT count(*) as Registros \
    from tempSolicitacaoItemTrabalho ;"

dados =pd.read_sql_query(ComandoSQL, engine)

dados.head()

Unnamed: 0,registros
0,57745


* __Armazena em tambela temporária a relação de ocorrências selecionadas para avaliar sua vinculação com os itens de trabalho do workflow__

In [34]:
ComandoSQL =  "TRUNCATE TABLE tempOcorrenciaItemTrabalho;\
    INSERT INTO tempOcorrenciaItemTrabalho ( \
    idsolicitacaoservico, idocorrencia, dataocorrencia, iditemtrabalho) \
    SELECT idsolicitacaoservico, idocorrencia, datahora  AS  dataocorrencia, iditemtrabalho \
    FROM  temporocorrenciasselecionadas \
    WHERE selecionada = CAST(1  AS  BIT) \
    ORDER BY idsolicitacaoservico, idocorrencia;  " 
    
trans = connection.begin()
try:
    resultado = connection.execute( ComandoSQL )
    trans.commit()
except:
    trans.rollback()
    raise
    
ComandoSQL =  "SELECT CASE WHEN iditemtrabalho IS NOT NULL THEN 'Com vínculo' ELSE 'Sem vínculo' END as vinculo,\
    count(*) as Registros \
    FROM tempOcorrenciaItemTrabalho\
    GROUP BY CASE WHEN iditemtrabalho IS NOT NULL THEN 'Com vínculo' ELSE 'Sem vínculo' END;"

dados =pd.read_sql_query(ComandoSQL, engine)

dados.head()

Unnamed: 0,vinculo,registros
0,Sem vínculo,74218
1,Com vínculo,73217


* __vincula item de trabalho nas ocorrências que não tem essa vinculação.__

    + Nos casos que a solicitação de serviços só tem um ítem de trabalho, ele será replicado para todas  as  ocorrências sem item de trabalho vinculado.

In [35]:
ComandoSQL =  "UPDATE tempOcorrenciaItemTrabalho tot SET  iditemtrabalho = t.novoiditemtrabalho \
    FROM ( \
        SELECT idsolicitacaoservico, COUNT(iditemtrabalho)  AS  qtdItenstrabalho, MAX(iditemtrabalho)  AS  novoiditemtrabalho \
        FROM tempSolicitacaoItemTrabalho \
        GROUP BY idsolicitacaoservico \
        HAVING count(iditemtrabalho) = 1 \
        )  AS  t \
    WHERE t.idsolicitacaoservico = tot.idsolicitacaoservico \
    AND tot.iditemtrabalho IS NULL;  " 
    
trans = connection.begin()
try:
    resultado = connection.execute( ComandoSQL )
    trans.commit()
except:
    trans.rollback()
    raise
    
ComandoSQL =  "SELECT CASE WHEN iditemtrabalho IS NOT NULL THEN 'Com vínculo' ELSE 'Sem vínculo' END as vinculo,\
    count(*) as Registros \
    FROM tempOcorrenciaItemTrabalho\
    GROUP BY CASE WHEN iditemtrabalho IS NOT NULL THEN 'Com vínculo' ELSE 'Sem vínculo' END;"

dados =pd.read_sql_query(ComandoSQL, engine)

dados.head()

Unnamed: 0,vinculo,registros
0,Sem vínculo,73770
1,Com vínculo,73665


* __Caso a ocorrência posterior não tenha item de trabalho, vincula ao mesmo item de trabalho da ocorrência anterior__

In [36]:
ComandoSQL =  "UPDATE tempOcorrenciaItemTrabalho tot SET  iditemtrabalho = t.novoiditemtrabalho \
    FROM ( \
        SELECT p.id, p.idsolicitacaoservico, p.idocorrencia, \
        p.dataocorrencia, p.iditemtrabalho, MAX(a.iditemtrabalho)  AS  novoiditemtrabalho \
        FROM tempOcorrenciaItemTrabalho p \
        JOIN tempOcorrenciaItemTrabalho a ON a.idsolicitacaoservico = p.idsolicitacaoservico \
            AND p.id > a.id \
            AND a.iditemtrabalho IS NOT NULL \
            AND p.iditemtrabalho IS NULL \
        GROUP BY p.id, p.idsolicitacaoservico, p.idocorrencia, \
        p.dataocorrencia, p.iditemtrabalho \
        )  AS  t \
    WHERE t.id = tot.id; " 
    
trans = connection.begin()
try:
    resultado = connection.execute( ComandoSQL )
    trans.commit()
except:
    trans.rollback()
    raise
    
ComandoSQL =  "SELECT CASE WHEN iditemtrabalho IS NOT NULL THEN 'Com vínculo' ELSE 'Sem vínculo' END as vinculo,\
    count(*) as Registros \
    FROM tempOcorrenciaItemTrabalho\
    GROUP BY CASE WHEN iditemtrabalho IS NOT NULL THEN 'Com vínculo' ELSE 'Sem vínculo' END;"

dados =pd.read_sql_query(ComandoSQL, engine)

dados.head()

Unnamed: 0,vinculo,registros
0,Sem vínculo,46999
1,Com vínculo,100436


* __Nos casos de chamados com mais de um item de trabalho, vincula do item de trabalho da próxima ocorrência na ocorrencia anterior que não possui vinculo com item de trabalho__

In [37]:
ComandoSQL =  "UPDATE tempOcorrenciaItemTrabalho tot SET  iditemtrabalho = t.novoiditemtrabalho \
    FROM ( \
        SELECT a.id, a.idsolicitacaoservico, a.idocorrencia, \
        a.dataocorrencia, a.iditemtrabalho, MIN(p.iditemtrabalho)  AS  novoiditemtrabalho \
        FROM tempOcorrenciaItemTrabalho a \
        JOIN tempOcorrenciaItemTrabalho p ON p.idsolicitacaoservico = a.idsolicitacaoservico \
            AND p.id > a.id \
            AND a.iditemtrabalho IS NULL  \
            AND p.iditemtrabalho IS NOT NULL \
        GROUP BY  a.id, a.idsolicitacaoservico, a.idocorrencia, \
        a.dataocorrencia, a.iditemtrabalho \
        )  AS  t \
    WHERE t.id = tot.id;" 
    
trans = connection.begin()
try:
    resultado = connection.execute( ComandoSQL )
    trans.commit()
except:
    trans.rollback()
    raise
    
ComandoSQL =  "SELECT CASE WHEN iditemtrabalho IS NOT NULL THEN 'Com vínculo' ELSE 'Sem vínculo' END as vinculo,\
    count(*) as Registros \
    FROM tempOcorrenciaItemTrabalho\
    GROUP BY CASE WHEN iditemtrabalho IS NOT NULL THEN 'Com vínculo' ELSE 'Sem vínculo' END;"

dados =pd.read_sql_query(ComandoSQL, engine)

dados.head()

Unnamed: 0,vinculo,registros
0,Sem vínculo,2320
1,Com vínculo,145115


* __Alguns casos ficaram sem vinculo com o item de trabalho, nesses casos a informação de grupo executor e operador responsável pela atividade sera extraído de campo não estruturado da tabela de ocorrências.__

In [47]:
ComandoSQL =  "SELECT TT.* , O.idocorrencia, o.categoria \
    FROM ocorrenciasolicitacao O \
    JOIN ( \
        SELECT T.*, T2.qtdItenstrabalho, T2.iditemtrabalho \
        FROM ( \
            SELECT idsolicitacaoservico,  \
            count(case when iditemtrabalho is null then 1 else null end )  AS  vazio, \
            count(case when iditemtrabalho is not null then 1 else null end)  AS  preenchido , \
            count(*)  AS  todos \
            FROM tempOcorrenciaItemTrabalho \
            GROUP BY idsolicitacaoservico \
        )  AS  t  \
        JOIN ( \
            SELECT idsolicitacaoservico, count(iditemtrabalho)  AS  qtdItenstrabalho, max(iditemtrabalho) iditemtrabalho \
                FROM tempSolicitacaoItemTrabalho \
            GROUP BY idsolicitacaoservico \
        ) t2 ON t2.idsolicitacaoservico = t.idsolicitacaoservico \
        WHERE vazio = todos \
        or vazio > 0  \
    )  AS  TT ON O.idsolicitacaoservico = TT.idsolicitacaoservico \
    join tempOcorrenciaItemTrabalho oc2 on oc2.idocorrencia = O.idocorrencia\
    ORDER BY TT.idsolicitacaoservico desc, O.idocorrencia; "

#print ComandoSQL

dados =pd.read_sql_query(ComandoSQL, engine)

dados.head(20)

Unnamed: 0,idsolicitacaoservico,vazio,preenchido,todos,qtditenstrabalho,iditemtrabalho,idocorrencia,categoria
0,21242,3,0,3,2,57635.0,224484,Criacao
1,21242,3,0,3,2,57635.0,224485,InicioSLA
2,21242,3,0,3,2,57635.0,224549,Encerramento
3,21240,2,0,2,0,,224470,Criacao
4,21240,2,0,2,0,,224471,Encerramento
5,21196,2,0,2,0,,224077,Criacao
6,21196,2,0,2,0,,224078,Encerramento
7,21174,2,0,2,0,,223829,Criacao
8,21174,2,0,2,0,,223830,Encerramento
9,21171,2,0,2,0,,223808,Criacao


In [46]:
connection.close()