# REALIZAR A EXTRAÇÃO TRATAMENTO E CARGA DOS DADOS PARA MINERAÇÃO DE PROCESSOS - PARTE II

* __Esse arquivo só deve ser executado após a execução da parte I__

## Importa as Bibliotecas necessárias

In [1]:
import pandas as pd
from sqlalchemy import create_engine

## Abrir conexão com o banco de dados

In [2]:
engine = create_engine('postgresql://postgres:postgres@localhost:5432/PesquisaMestrado')
connection = engine.connect()

## TRATAR AS OCORRÊNCIAS SELECIONADAS PARA GERAÇÃO DOS LOGS DE MINERAÇÃO DE PROCESSOS

* __Carrega os dados das ocorrência selecionadas para tabela temporária para a partis dai gerar os logs de eventos para mineração de processos__ 

In [3]:
ComandoSQL =  "TRUNCATE TABLE tempanaliseocorrencias;\
    INSERT INTO tempanaliseocorrencias (  \
    idocorrencia, dataocorrencia, idsolicitacaoservico,situacaoatual, categoriaocorrencia, situacaosolicitacao, \
    idgrupoexecutor,  nomegrupoexecutor, arearesponsavel, idtecnico, nometecnico, idfluxo,  \
    nomefluxo, versao, idgrupoexecutoroc ,  nomegrupoexecutoroc, areaoc \
    ) \
    SELECT sel.idocorrencia, sel.datahora, sel.idsolicitacaoservico,replace(UPPER(s.situacao),'\"','') AS  situacaoatual, UPPER(sel.categoria) AS  categoriaocorrencia, \
    UPPER(sel.situacaosolicitacao) AS  situacaosolicitacao,  \
    COALESCE(grupo.idgrupo, stit.idgrupoexecutor)  AS   idgrupoexecutor,  \
    UPPER(COALESCE( grupo.nome, stit.nomegrupoexecutoratual))  AS  nomegrupoexecutor,  \
    UPPER(COALESCE(SPLIT_PART(SPLIT_PART(grupo.descricao, 'AREA=', 2),']',1), stit.arearesponsavel))  AS  arearesponsavel, \
    COALESCE(stit.idresponsavelitemtrabalho,0) AS  idtecnico, UPPER(COALESCE(stit.nomeresponsavel,'não informado')) AS  nometecnico , \
    stit.idfluxo , UPPER(stit.nomefluxo) AS  nomefluxo ,  UPPER(stit.versao) AS  versao, \
    grupo.idgrupo  AS  idgrupoexecutoroc , UPPER(grupo.nome)  AS  nomegrupoexecutoroc,  \
    UPPER(split_part(split_part(grupo.descricao, 'AREA=', 2),']',1))  AS  areaoc \
    FROM ( \
        SELECT * \
        FROM temporocorrenciasselecionadas \
        WHERE selecionada = CAST(1 AS  BIT) \
        ) AS  sel \
    JOIN solicitacaoservico s ON s.idsolicitacaoservico = sel.idsolicitacaoservico	 \
    JOIN grupo  ON CAST(grupo.idgrupo  AS  VARCHAR(100)) = sel.idgrupo \
    left JOIN tempOcorrenciaItemTrabalho tit ON tit.idocorrencia = sel.idocorrencia	 \
    left JOIN tempSolicitacaoItemTrabalho stit ON stit.idsolicitacaoservico = sel.idsolicitacaoservico  \
        AND stit.iditemtrabalho = tit.iditemtrabalho \
    ORDER BY sel.idsolicitacaoservico, sel.idocorrencia;  " 
    
trans = connection.begin()
try:
    resultado = connection.execute( ComandoSQL )
    trans.commit()
except:
    trans.rollback()
    raise
    
ComandoSQL =  "SELECT categoriaocorrencia, count(*) as Registros \
    FROM tempanaliseocorrencias\
    GROUP BY categoriaocorrencia\
    ORDER BY count(*) DESC ;"

dados =pd.read_sql_query(ComandoSQL, engine)

dados.head(100)

Unnamed: 0,categoriaocorrencia,registros
0,EXECUCAO,54282
1,CRIACAO,20254
2,ENCERRAMENTO,19997
3,INICIOSLA,18383
4,DIRECIONAMENTO,15634
5,RECLASSIFICACAO,8799
6,SUSPENSAO,3331
7,COMPARTILHAMENTO,3308
8,REATIVACAO,3225
9,REABERTURA,213


* __Ocorrencia com situação vazia será preechida com 'Em adamento'__

In [4]:
ComandoSQL ="UPDATE tempanaliseocorrencias SET  situacaosolicitacao = 'EM ANDAMENTO' WHERE LENGTH(situacaosolicitacao) <=2; " 
    
trans = connection.begin()
try:
    resultado = connection.execute( ComandoSQL )
    trans.commit()
except:
    trans.rollback()
    raise
    
ComandoSQL =  "SELECT situacaosolicitacao, count(*) as Registros \
    FROM tempanaliseocorrencias\
    GROUP BY situacaosolicitacao\
    ORDER BY count(*) DESC ;"

dados =pd.read_sql_query(ComandoSQL, engine)

dados.head(100)

Unnamed: 0,situacaosolicitacao,registros
0,EM ANDAMENTO,84157
1,REGISTRADA,20254
2,FECHADA,20171
3,RESOLVIDA,18134
4,SUSPENSA,3340
5,CANCELADA,824
6,REABERTA,546


## Realizar tratamento das datas de início e fim das ocorrências
* __Preenche como data de inicio da ocorrencia como sendo a data em que a ocorrência foi criada__

In [5]:
ComandoSQL ="UPDATE tempanaliseocorrencias AS  o SET  datainicio = dataocorrencia;  " 
    
trans = connection.begin()
try:
    resultado = connection.execute( ComandoSQL )
    trans.commit()
except:
    trans.rollback()
    raise
    
ComandoSQL =  "SELECT case when datainicio is null then 'Data Inicio Não Preenchida' else 'Data Inicio Preenchida' end as DataInicio,\
    count(*) as Registros \
    FROM tempanaliseocorrencias\
    GROUP BY case when datainicio is null then 'Data Inicio Não Preenchida' else 'Data Inicio Preenchida' end\
    ORDER BY count(*) DESC ;"

dados =pd.read_sql_query(ComandoSQL, engine)

dados.head(100)

Unnamed: 0,datainicio,registros
0,Data Inicio Preenchida,147426


* __Caso haja várias ocorrências criadas com a mesma data , diferencia-se o tempo de inicio das ocorrencia da mesma solicitação com a mesma data adicionando segundos a data das ocorrencias subsequentes__

In [6]:
ComandoSQL ="UPDATE tempanaliseocorrencias AS  o SET  datainicio = o.datainicio + (INTERVAL '10 sec' * t.minutos) \
    FROM ( \
    SELECT top.idsolicitacaoservico, top.idocorrencia , top.datainicio, top.situacaosolicitacao,  count(*) AS  minutos \
    FROM tempanaliseocorrencias top \
    JOIN tempanaliseocorrencias toa  \
        on top.idsolicitacaoservico = toa.idsolicitacaoservico \
        AND top.datainicio = toa.datainicio  \
        AND top.idocorrencia > toa.idocorrencia \
    GROUP BY top.idsolicitacaoservico, top.idocorrencia , top.datainicio, top.situacaosolicitacao \
    ) AS  t \
    WHERE t.idocorrencia = o.idocorrencia;  " 
    
trans = connection.begin()
try:
    resultado = connection.execute( ComandoSQL )
    trans.commit()
except:
    trans.rollback()
    raise
    
ComandoSQL =  "SELECT top.idsolicitacaoservico, top.idocorrencia , top.datainicio, top.situacaosolicitacao,  count(*) AS  Registros \
    FROM tempanaliseocorrencias top \
    JOIN tempanaliseocorrencias toa  \
        on top.idsolicitacaoservico = toa.idsolicitacaoservico \
        AND top.datainicio = toa.datainicio  \
        AND top.idocorrencia > toa.idocorrencia \
    GROUP BY top.idsolicitacaoservico, top.idocorrencia , top.datainicio, top.situacaosolicitacao ;"

dados =pd.read_sql_query(ComandoSQL, engine)

dados.head(10)

Unnamed: 0,idsolicitacaoservico,idocorrencia,datainicio,situacaosolicitacao,registros


* __Preenche a data fim com a data início das ocorrência seguintes de uma mesma solicitação de servico__

In [7]:
ComandoSQL ="UPDATE tempanaliseocorrencias AS  o  \
    SET  datafim = tp.dataencerramento \
    FROM ( \
        SELECT tpo.idocorrencia, po.datainicio - (interval '2 sec') AS  dataencerramento \
        FROM  ( \
            SELECT ta.idsolicitacaoservico, ta.idocorrencia, min(tp.idocorrencia) proximaocorrencia \
            FROM tempanaliseocorrencias ta \
            JOIN tempanaliseocorrencias tp ON  \
                ta.idsolicitacaoservico = tp.idsolicitacaoservico \
                AND ta.idocorrencia < tp.idocorrencia \
            GROUP BY ta.idsolicitacaoservico, ta.idocorrencia \
              ) AS  tpo  \
           JOIN tempanaliseocorrencias po ON tpo.proximaocorrencia = po.idocorrencia	 \
         ) AS  tp \
    WHERE tp.idocorrencia  = o.idocorrencia ; " 
    
trans = connection.begin()
try:
    resultado = connection.execute( ComandoSQL )
    trans.commit()
except:
    trans.rollback()
    raise
    
ComandoSQL =  "SELECT case when datafim is null then 'Data fim Não Preenchida' else 'Data fim Preenchida' end as DataInicio,\
    count(*) as Registros \
    FROM tempanaliseocorrencias\
    GROUP BY case when datafim is null then 'Data fim Não Preenchida' else 'Data fim Preenchida' end\
    ORDER BY count(*) DESC ;"


dados =pd.read_sql_query(ComandoSQL, engine)

dados.head(10)

Unnamed: 0,datainicio,registros
0,Data fim Preenchida,127167
1,Data fim Não Preenchida,20259


* __Preenche como data de fim das ocorrencia dos chamados ainda em andamento__

In [8]:
#usar a max (data inicio) mais 1 dia  quando os dados forem desatualizados
ComandoSQL ="UPDATE tempanaliseocorrencias SET \
    datafim = (SELECT  MAX(datainicio) + interval '1 day' FROM tempanaliseocorrencias) \
    WHERE datafim is null \
    AND lower(situacaoatual) in ('resolvida','emandamento','reaberta','suspensa');" 

#usar a data do relógio quando os dados forem atualizados 
#ComandoSQL ="UPDATE tempanaliseocorrencias SET  datafim = clock_timestamp() \
#    WHERE datafim is null \
#    AND lower(situacaoatual) in ('resolvida','emandamento','reaberta','suspensa');" 


trans = connection.begin()
try:
    resultado = connection.execute( ComandoSQL )
    trans.commit()
except:
    trans.rollback()
    raise
    
ComandoSQL =  "SELECT case when datafim is null then 'Data fim Não Preenchida' else 'Data fim Preenchida' end as DataInicio,\
    count(*) as Registros \
    FROM tempanaliseocorrencias\
    GROUP BY case when datafim is null then 'Data fim Não Preenchida' else 'Data fim Preenchida' end\
    ORDER BY count(*) DESC ;"


dados =pd.read_sql_query(ComandoSQL, engine)

dados.head(10)

Unnamed: 0,datainicio,registros
0,Data fim Preenchida,127600
1,Data fim Não Preenchida,19826


* __Preenche a data fim das ocorrências de solicitações fechadas e canceladas com a data da ocorrência mais um minuto__

In [9]:

ComandoSQL ="UPDATE tempanaliseocorrencias SET  datafim = dataocorrencia + (interval '1 min')  \
    WHERE datafim is null \
    AND lower(situacaoatual) in ('fechada','cancelada');" 

trans = connection.begin()
try:
    resultado = connection.execute( ComandoSQL )
    trans.commit()
except:
    trans.rollback()
    raise
    
ComandoSQL =  "SELECT case when datafim is null then 'Data fim Não Preenchida' else 'Data fim Preenchida' end as DataInicio,\
    count(*) as Registros \
    FROM tempanaliseocorrencias\
    GROUP BY case when datafim is null then 'Data fim Não Preenchida' else 'Data fim Preenchida' end\
    ORDER BY count(*) DESC ;"


dados =pd.read_sql_query(ComandoSQL, engine)

dados.head(10)

Unnamed: 0,datainicio,registros
0,Data fim Preenchida,147426


* __Preenche esses casos com  a data fim = data inicio + 10 segundos para os casos que ficarem sem data fim.__
    + Esses são casos raros que ocorreram no inicio da operação do sistema

In [10]:
ComandoSQL ="UPDATE tempanaliseocorrencias SET  datafim = datainicio + (interval '10 sec') \
    WHERE datainicio > datafim; " 

trans = connection.begin()
try:
    resultado = connection.execute( ComandoSQL )
    trans.commit()
except:
    trans.rollback()
    raise
    
ComandoSQL =  "SELECT case when datafim is null then 'Data fim Não Preenchida' else 'Data fim Preenchida' end as DataInicio,\
    count(*) as Registros \
    FROM tempanaliseocorrencias\
    GROUP BY case when datafim is null then 'Data fim Não Preenchida' else 'Data fim Preenchida' end\
    ORDER BY count(*) DESC ;"


dados =pd.read_sql_query(ComandoSQL, engine)

dados.head(10)

Unnamed: 0,datainicio,registros
0,Data fim Preenchida,147426


## Criar o conceito de atividade do processo de trabalho 

* O sistema citsmart registra para cada ocorrência a situação da solicitação de serviços no momento da geração da ocorrência e de acordo com o tipo de operação ele define uma categoria de ocorrência.

* Para a mineração de processo, será necessário criar o conceito de atividade que está sendo realizada pelo operador. Esse conceito será criado a partir da a partir da combinação das  informações de situação da solicitação e categoria da ocorrência. 

In [11]:
ComandoSQL ="UPDATE tempanaliseocorrencias  \
    SET  atividade = case \
            when situacaosolicitacao = 'CANCELADA' then 'CANCELAMENTO' \
            when situacaosolicitacao = 'EM ANDAMENTO' \
                AND  categoriaocorrencia = 'RECLASSIFICACAO' \
                AND arearesponsavel = 'CIT-NIVEL1' then 'RECLASSIFICAÇÃO' \
            when situacaosolicitacao = 'EM ANDAMENTO' then 'ATENDIMENTO' \
            when situacaosolicitacao = 'FECHADA'  then 'FECHAMENTO' \
            when situacaosolicitacao = 'REABERTA' \
                AND  categoriaocorrencia = 'REABERTURA' then 'REABERTURA'\
            when situacaosolicitacao = 'REABERTA' then 'ATENDIMENTO' \
            when situacaosolicitacao = 'REGISTRADA' then 'ABERTURA' \
            when situacaosolicitacao = 'RESOLVIDA' then 'ENCERRAMENTO' \
            when situacaosolicitacao = 'SUSPENSA' then 'ATENDIMENTO' \
            else 'ATENDIMENTO' \
        end;" 

trans = connection.begin()
try:
    resultado = connection.execute( ComandoSQL )
    trans.commit()
except:
    trans.rollback()
    raise
    
ComandoSQL =  "SELECT atividade,count(*) as Registros \
    FROM tempanaliseocorrencias\
    GROUP BY atividade\
    ORDER BY count(*) DESC ;"


dados =pd.read_sql_query(ComandoSQL, engine)

dados.head(10)

Unnamed: 0,atividade,registros
0,ATENDIMENTO,79580
1,ABERTURA,20254
2,FECHAMENTO,20171
3,ENCERRAMENTO,18134
4,RECLASSIFICAÇÃO,8250
5,CANCELAMENTO,824
6,REABERTURA,213


## Criar o conceito de transição da atividade do processo de trabalho 

* O sistema citsmart registra para cada ocorrência a situação da solicitação de serviços no momento da geração da ocorrência e de acordo com o tipo de operação ele define uma categoria de ocorrência.

* Para a mineração de processo, será necessário criar o conceito transição de atividade que está sendo realizada pelo operador. 

* A transição da atividade serve para marcar os momentos que a atividade inicia, completa, ou é suspensa ou reativada. 

* Esse informação é relevante para a mineração pois ela opera com base em registros de eventos do processo. Assim será necessário indicar para cada evento qual tipo de transição está ocorrendo na atividade do processo.

* No caso das ocorrências do citsmart, as ocorrências de supensão e reativação da solicitação de serviços correspondem, respectivamente, às transições suspend e resume da mineração de processos.

* Todas as demais atividades criadas terão como transição Start, mais a frente, será criada também a transição de complete. O seja para a data de início da atividade será criada uma transição start e para a data fim uma transição complete

In [12]:
ComandoSQL ="UPDATE tempanaliseocorrencias  \
    SET  transicao = CASE \
            WHEN situacaosolicitacao = 'EM ANDAMENTO' AND  categoriaocorrencia = 'REATIVACAO' then 'resume' \
            WHEN situacaosolicitacao = 'SUSPENSA' AND  categoriaocorrencia = 'SUSPENSAO' then 'suspend' \
            ELSE 'start' END;" 

trans = connection.begin()
try:
    resultado = connection.execute( ComandoSQL )
    trans.commit()
except:
    trans.rollback()
    raise
    
ComandoSQL =  "SELECT atividade,transicao,count(*) as Registros \
    FROM tempanaliseocorrencias\
    GROUP BY atividade,transicao\
    ORDER BY count(*) DESC ;"


dados =pd.read_sql_query(ComandoSQL, engine)

dados.head(10)

Unnamed: 0,atividade,transicao,registros
0,ATENDIMENTO,start,73024
1,ABERTURA,start,20254
2,FECHAMENTO,start,20171
3,ENCERRAMENTO,start,18134
4,RECLASSIFICAÇÃO,start,8250
5,ATENDIMENTO,suspend,3331
6,ATENDIMENTO,resume,3225
7,CANCELAMENTO,start,824
8,REABERTURA,start,213


## Ajustar a área responsável pela atividade de abertura fechamento e cancelamento

* __Tratar aréa resposonsável pelo fechamento do chamando__
    + Quando é informado o cancelamento ou encerramento da solicitação de serviços no sistema citsmart, ele encaminha a solcitação para o nivel 1 fazer o fechamento, mas não muda o grupo responsável, para possibilitar que no caso de reabertura o chamado retorne para o último grupo que informou o encerramento do chamado.
    + Portando será necessário corrigir essa informação para indicar que a operação foi realizada pelo nível 1. 


In [13]:
ComandoSQL ="UPDATE tempanaliseocorrencias toc SET  arearesponsavel = 'CIT-NIVEL1' \
    FROM ( \
        SELECT toc.idocorrencia  \
        FROM tempanaliseocorrencias toc \
        JOIN ocorrenciasolicitacao o on o.idocorrencia = toc.idocorrencia \
        JOIN solicitacaoServico ss ON ss.idsolicitacaoservico = o.idsolicitacaoservico \
            WHERE  toc.atividade IN ('FECHAMENTO') \
        AND ss.idgruponivel1 = 2 \
        ) AS T  \
    WHERE T.idocorrencia = toc.idocorrencia;" 

trans = connection.begin()
try:
    resultado = connection.execute( ComandoSQL )
    trans.commit()
except:
    trans.rollback()
    raise
    
ComandoSQL =  "SELECT arearesponsavel,count(*) as Registros \
    FROM tempanaliseocorrencias\
    GROUP BY arearesponsavel\
    ORDER BY count(*) DESC ;"


dados =pd.read_sql_query(ComandoSQL, engine)

dados.head(10)

Unnamed: 0,arearesponsavel,registros
0,CIT-NIVEL1,46764
1,CIT-PRES-DF,35521
2,DTI-SUPORTE,26151
3,CIT-SISTEMAS,16915
4,CIT-INFRA,8261
5,DTI-INFRA,4529
6,HPRINT,1985
7,DTI-SEGURANÇA,1585
8,DTI-ELETR/REDE,1307
9,SISTEMA-SEI,1118


* __Atividades de abertura de chamados em que o operador é membro da Equipe e Nivel serão alterados para indicar como área o Nivel 1__

In [14]:
ComandoSQL ="UPDATE tempanaliseocorrencias toc SET arearesponsavel = 'CIT-NIVEL1' \
    FROM ( \
        SELECT toc.idocorrencia  \
        FROM tempanaliseocorrencias toc \
        JOIN ocorrenciasolicitacao o on o.idocorrencia = toc.idocorrencia \
        JOIN solicitacaoServico ss ON ss.idsolicitacaoservico = o.idsolicitacaoservico \
        JOIN ( \
            SELECT u.nome, u.login,  \
            COUNT(DISTINCT g.nome) grupos, \
            COUNT(CASE WHEN  TRIM(g.nome) ='GR_CentralIT_Atendimento_1ºNivel' THEN g.nome ELSE NULL END) grupoNivel1 \
            FROM gruposempregados ge \
            JOIN grupo g on g.idgrupo = ge.idgrupo \
            JOIN empregados e on e.idempregado = ge.idempregado \
            JOIN usuario u on u.idempregado = e.idempregado \
            WHERE  upper(g.nome)  NOT LIKE 'SOLICITANTE MPOG' \
            GROUP BY u.nome, u.login \
            HAVING COUNT(CASE WHEN  TRIM(g.nome) ='GR_CentralIT_Atendimento_1ºNivel' THEN g.nome ELSE NULL END) = 1 \
            AND COUNT(DISTINCT g.nome) = 1 \
             ) AS n1 ON n1.nome = o.registradopor or  n1.login = o.registradopor \
        WHERE  toc.atividade IN ('ABERTURA') \
        AND ss.idresponsavel <> ss.idsolicitante \
            ) AS T  \
    WHERE T.idocorrencia = toc.idocorrencia\
    AND arearesponsavel <> 'CIT-NIVEL1'; " 

trans = connection.begin()
try:
    resultado = connection.execute( ComandoSQL )
    trans.commit()
except:
    trans.rollback()
    raise
    
ComandoSQL =  "SELECT arearesponsavel,count(*) as Registros \
    FROM tempanaliseocorrencias\
    GROUP BY arearesponsavel\
    ORDER BY count(*) DESC ;"


dados =pd.read_sql_query(ComandoSQL, engine)

dados.head(10)

Unnamed: 0,arearesponsavel,registros
0,CIT-NIVEL1,48106
1,CIT-PRES-DF,35235
2,DTI-SUPORTE,25802
3,CIT-SISTEMAS,16395
4,CIT-INFRA,8249
5,DTI-INFRA,4476
6,HPRINT,1916
7,DTI-SEGURANÇA,1578
8,DTI-ELETR/REDE,1298
9,SERPRO,1105


* __O chamados abertos pelos portal serão ajustar para indicar como area responsável o próprio portal, e assim permitir identificar os chamados abertos por esse canal__

In [15]:
ComandoSQL ="UPDATE tempanaliseocorrencias taoc SET arearesponsavel = 'PORTAL' \
    FROM ( \
        SELECT toc.idocorrencia  \
        FROM tempanaliseocorrencias toc \
        JOIN ocorrenciasolicitacao o on o.idocorrencia = toc.idocorrencia \
        JOIN solicitacaoServico ss ON ss.idsolicitacaoservico = o.idsolicitacaoservico \
        WHERE  toc.atividade IN ('ABERTURA') \
        AND ss.idresponsavel = ss.idsolicitante \
        ) AS T  \
    WHERE T.idocorrencia = taoc.idocorrencia;" 

trans = connection.begin()
try:
    resultado = connection.execute( ComandoSQL )
    trans.commit()
except:
    trans.rollback()
    raise
    
ComandoSQL =  "SELECT arearesponsavel,count(*) as Registros \
    FROM tempanaliseocorrencias\
    GROUP BY arearesponsavel\
    ORDER BY count(*) DESC ;"


dados =pd.read_sql_query(ComandoSQL, engine)

dados.head(10)

Unnamed: 0,arearesponsavel,registros
0,CIT-NIVEL1,42664
1,CIT-PRES-DF,34640
2,DTI-SUPORTE,25417
3,CIT-SISTEMAS,16322
4,CIT-INFRA,7807
5,PORTAL,7516
6,DTI-INFRA,4424
7,HPRINT,1907
8,DTI-SEGURANÇA,1511
9,DTI-ELETR/REDE,1208


* __verifica o resultado do tratamento de atividade e transição__

In [16]:
ComandoSQL =  "SELECT  atividade, transicao, situacaosolicitacao, categoriaocorrencia, count(*) \
    FROM tempanaliseocorrencias \
    GROUP BY situacaosolicitacao, categoriaocorrencia, atividade, transicao \
    order by  atividade, transicao, situacaosolicitacao, categoriaocorrencia;"

#print ComandoSQL

dados =pd.read_sql_query(ComandoSQL, engine)

dados.head(10)

Unnamed: 0,atividade,transicao,situacaosolicitacao,categoriaocorrencia,count
0,ABERTURA,start,REGISTRADA,CRIACAO,20254
1,ATENDIMENTO,resume,EM ANDAMENTO,REATIVACAO,3225
2,ATENDIMENTO,start,EM ANDAMENTO,COMPARTILHAMENTO,3267
3,ATENDIMENTO,start,EM ANDAMENTO,DIRECIONAMENTO,15486
4,ATENDIMENTO,start,EM ANDAMENTO,EXECUCAO,35033
5,ATENDIMENTO,start,EM ANDAMENTO,INICIOSLA,18383
6,ATENDIMENTO,start,EM ANDAMENTO,RECLASSIFICACAO,513
7,ATENDIMENTO,start,REABERTA,COMPARTILHAMENTO,29
8,ATENDIMENTO,start,REABERTA,DIRECIONAMENTO,42
9,ATENDIMENTO,start,REABERTA,EXECUCAO,262


## CRIAR AGRUPAMENTO DE OCORRÊNCIAR POR ATIVIDADE E ÁREA
* O agrupamento ocorrências por atividade e área tem como objetivo final permitir obter o evento de início termino de determinada atividade dentro de determinada área. Com isso, mesmo que vários técnicos da mesma áre atuem na realização da atividade, somente vai interessar para o processo de mineração o momento que atividade foi iniciada e concluída na área.
* Assim a data de inicio da atividade será a chegada da solicitação na área e a data de término será a saida da área ou o início de nova atividade diferente na mesma área.

In [17]:
ComandoSQL ="UPDATE tempanaliseocorrencias SET   agrupamentoregistrosporarea = null;\
    \
    UPDATE tempanaliseocorrencias toc SET   agrupamentoregistrosporarea = t.proxima \
    FROM ( \
        SELECT a.idocorrencia, a.idsolicitacaoservico, a.atividade, a.arearesponsavel, a.transicao, min(pd.idocorrencia) proxima \
        FROM tempanaliseocorrencias a \
        JOIN tempanaliseocorrencias pd  \
            ON a.idsolicitacaoservico = pd.idsolicitacaoservico \
        AND a.idocorrencia < pd.idocorrencia \
        AND (a.atividade <> pd.atividade \
            OR a.arearesponsavel <> pd.arearesponsavel  \
            OR  a.transicao <>  pd.transicao \
            ) \
        GROUP BY  a.idocorrencia, a.idsolicitacaoservico, a.atividade, a.arearesponsavel, a.transicao \
    ) AS  t \
    WHERE t.idocorrencia = toc.idocorrencia;" 

trans = connection.begin()
try:
    resultado = connection.execute( ComandoSQL )
    trans.commit()
except:
    trans.rollback()
    raise
    
ComandoSQL =  "SELECT case when agrupamentoregistrosporarea is null \
    then 'agrupamentoregistrosporarea Não Preenchido' else  \
    'agrupamentoregistrosporarea Preenchido' end as agrupamentoregistrosporarea,\
    count(*) as Registros \
    FROM tempanaliseocorrencias\
    GROUP BY case when agrupamentoregistrosporarea is null \
    then 'agrupamentoregistrosporarea Não Preenchido' else  \
    'agrupamentoregistrosporarea Preenchido' end\
    ORDER BY count(*) DESC ;"


dados =pd.read_sql_query(ComandoSQL, engine)

dados.head(10)

Unnamed: 0,agrupamentoregistrosporarea,registros
0,agrupamentoregistrosporarea Preenchido,126686
1,agrupamentoregistrosporarea Não Preenchido,20740


* __As últimas ocorrências receberão o max(agrupamento) + 1__

In [18]:
ComandoSQL ="UPDATE tempanaliseocorrencias toc SET   agrupamentoregistrosporarea = t.proxima + 1 \
    FROM ( \
        SELECT u.idocorrencia, u.idsolicitacaoservico, u.atividade, u. arearesponsavel,u.transicao, max(aag. agrupamentoregistrosporarea) proxima \
        FROM tempanaliseocorrencias u \
        JOIN tempanaliseocorrencias aag  \
        ON aag.idsolicitacaoservico = u.idsolicitacaoservico \
        AND aag.idocorrencia < u.idocorrencia \
        AND (aag.atividade <> u.atividade \
            OR aag. arearesponsavel <> u. arearesponsavel  \
            ) \
        \
        WHERE u. agrupamentoregistrosporarea is null  \
        GROUP BY  u.idocorrencia,u.idsolicitacaoservico, u.atividade, u. arearesponsavel,u.transicao \
    ) AS  t \
    WHERE t.idocorrencia = toc.idocorrencia;" 

trans = connection.begin()
try:
    resultado = connection.execute( ComandoSQL )
    trans.commit()
except:
    trans.rollback()
    raise
    
ComandoSQL =  "SELECT case when agrupamentoregistrosporarea is null \
    then 'agrupamentoregistrosporarea Não Preenchido' else  \
    'agrupamentoregistrosporarea Preenchido' end as agrupamentoregistrosporarea,\
    count(*) as Registros \
    FROM tempanaliseocorrencias\
    GROUP BY case when agrupamentoregistrosporarea is null \
    then 'agrupamentoregistrosporarea Não Preenchido' else  \
    'agrupamentoregistrosporarea Preenchido' end\
    ORDER BY count(*) DESC ;"


dados =pd.read_sql_query(ComandoSQL, engine)

dados.head(10)

Unnamed: 0,agrupamentoregistrosporarea,registros
0,agrupamentoregistrosporarea Preenchido,147424
1,agrupamentoregistrosporarea Não Preenchido,2


* __Os casos que possuem apenas um único registro de ocorrências, o agrupamento será preenchido com o id da ocorrência -1__

In [19]:
ComandoSQL ="UPDATE tempanaliseocorrencias toc SET   agrupamentoregistrosporarea = t.idocorrencia -1  \
    FROM ( \
        SELECT idsolicitacaoservico, count(*)qtdreg ,  \
        count(distinct  agrupamentoregistrosporarea) qtdagrup, \
        min(idocorrencia) AS  idocorrencia \
        FROM  tempanaliseocorrencias  \
        GROUP BY idsolicitacaoservico \
        having count(distinct  agrupamentoregistrosporarea) = 0 \
        AND count(*) = 1 \
      ) AS  t  \
      WHERE t.idsolicitacaoservico = toc.idsolicitacaoservico \
        AND t.idocorrencia = toc.idocorrencia;" 

trans = connection.begin()
try:
    resultado = connection.execute( ComandoSQL )
    trans.commit()
except:
    trans.rollback()
    raise
    
ComandoSQL =  "SELECT case when agrupamentoregistrosporarea is null \
    then 'agrupamentoregistrosporarea Não Preenchido' else  \
    'agrupamentoregistrosporarea Preenchido' end as agrupamentoregistrosporarea,\
    count(*) as Registros \
    FROM tempanaliseocorrencias\
    GROUP BY case when agrupamentoregistrosporarea is null \
    then 'agrupamentoregistrosporarea Não Preenchido' else  \
    'agrupamentoregistrosporarea Preenchido' end\
    ORDER BY count(*) DESC ;"


dados =pd.read_sql_query(ComandoSQL, engine)

dados.head(10)

Unnamed: 0,agrupamentoregistrosporarea,registros
0,agrupamentoregistrosporarea Preenchido,147426


* __Verifica o volume de ativdidades por área__

In [20]:
ComandoSQL =  "SELECT  atividade, transicao, arearesponsavel, count(*) \
    FROM tempanaliseocorrencias  \
    GROUP BY atividade, transicao, arearesponsavel\
    ORDER BY  atividade, transicao, count(*) DESC ,arearesponsavel;"


dados =pd.read_sql_query(ComandoSQL, engine)

dados.head(20)

Unnamed: 0,atividade,transicao,arearesponsavel,count
0,ABERTURA,start,PORTAL,7516
1,ABERTURA,start,CIT-NIVEL1,4922
2,ABERTURA,start,CIT-PRES-DF,2673
3,ABERTURA,start,DTI-SUPORTE,1755
4,ABERTURA,start,CIT-SISTEMAS,1729
5,ABERTURA,start,CIT-INFRA,673
6,ABERTURA,start,HPRINT,313
7,ABERTURA,start,DTI-INFRA,277
8,ABERTURA,start,SISTEMA-SEI,143
9,ABERTURA,start,DTI-SEGURANÇA,125


In [21]:
ComandoSQL =  "SELECT DISTINCT TOC.*, STIT.IDGRUPOEXECUTOR \
    FROM temporocorrenciasselecionadas  AS  toc \
        JOIN ( \
            SELECT idsolicitacaoservico, datahora , COUNT(DISTINCT categoria )  AS  categorias, \
            COUNT(CASE WHEN categoria = 'Encerramento' THEN 1 ELSE NULL END)  AS  \"Encerramento\", \
            COUNT(CASE WHEN categoria = 'Execucao' THEN 1 ELSE NULL END)   AS  \"Execucao\", \
            COUNT(*)  \
            FROM temporocorrenciasselecionadas \
            GROUP BY idsolicitacaoservico, datahora  \
            HAVING COUNT(*)  >= 2 \
            AND COUNT(DISTINCT categoria ) =2 \
            AND COUNT(CASE WHEN categoria = 'Encerramento' THEN 1 ELSE NULL END)>= 1 \
            AND COUNT(CASE WHEN categoria = 'Execucao' THEN 1 ELSE NULL END)>= 1 \
            AND COUNT(*)  = COUNT(CASE WHEN categoria = 'Encerramento' THEN 1 ELSE NULL END)  \
                    + COUNT(CASE WHEN categoria = 'Execucao' THEN 1 ELSE NULL END)\
             )  AS  un ON  un.idsolicitacaoservico = toc.idsolicitacaoservico \
             AND un.datahora = toc.datahora \
    left JOIN tempOcorrenciaItemTrabalho tit ON tit.idocorrencia = TOC.idocorrencia	 \
    left JOIN tempSolicitacaoItemTrabalho stit ON stit.idsolicitacaoservico = TOC .idsolicitacaoservico  \
        AND stit.iditemtrabalho = tit.iditemtrabalho\
        WHERE TOC.categoria IN ( 'Execucao','Encerramento') \
    ORDER BY TOC.idsolicitacaoservico, TOC.datahora;"


dados =pd.read_sql_query(ComandoSQL, engine)

dados.head(20)

Unnamed: 0,idocorrencia,categoria,idsolicitacaoservico,iditemtrabalho,dataregistro,horaregistro,datahora,selecionada,situacaosolicitacao,idgrupo,idgrupoexecutor
0,14,Execucao,5,6.0,2013-10-01,11:56,2013-10-01 11:56:00,0,Resolvida,2,
1,15,Encerramento,5,,2013-10-01,11:56,2013-10-01 11:56:00,1,Fechada,2,
2,64,Encerramento,6,,2014-03-10,17:37,2014-03-10 17:37:00,1,Fechada,4,4.0
3,65,Execucao,6,38.0,2014-03-10,17:37,2014-03-10 17:37:00,0,Fechada,4,
4,94,Encerramento,8,,2014-06-20,13:49,2014-06-20 13:49:00,1,Fechada,20,
5,95,Encerramento,8,,2014-06-20,13:49,2014-06-20 13:49:00,0,Fechada,20,
6,96,Execucao,8,13.0,2014-06-20,13:49,2014-06-20 13:49:00,0,Cancelada,20,
7,39,Execucao,9,26.0,2013-10-09,17:09,2013-10-09 17:09:00,0,Resolvida,2,
8,40,Encerramento,9,,2013-10-09,17:09,2013-10-09 17:09:00,1,Fechada,2,2.0
9,49,Execucao,10,32.0,2013-10-11,13:28,2013-10-11 13:28:00,0,Resolvida,20,


* __Verificar a consistência da duração das ocorrências e o tempo de vida da solicitação de serviços__

In [22]:
ComandoSQL ="DROP TABLE  IF EXISTS  TEMP_VERIFICACONSISTENCIADOTEMPOATIVIDADES; \
     \
    SELECT idsolicitacaoservico, INICIO, FIM , (FIM - INICIO) AS INTERVALOS,  \
    ROUND(CAST(EXTRACT(EPOCH FROM (FIM - INICIO))/(60*60) AS NUMERIC(10,4)) ,2) AS DURACAOTOTAL, \
    DURACAO AS DURACAOATIVIDADES \
    INTO TEMP_VERIFICACONSISTENCIADOTEMPOATIVIDADES \
    FROM ( \
        SELECT idsolicitacaoservico, MIN(datainicio) AS INICIO, MAX(datafim) AS  FIM, \
        SUM(ROUND(CAST(EXTRACT(EPOCH FROM (datafim - datainicio))/(60*60) AS NUMERIC(10,4)) ,2)) AS DURACAO \
        FROM tempanaliseocorrencias  \
        GROUP BY idsolicitacaoservico \
    ) AS T \
    ORDER BY idsolicitacaoservico;" 

trans = connection.begin()
try:
    resultado = connection.execute( ComandoSQL )
    trans.commit()
except:
    trans.rollback()
    raise
    
ComandoSQL =  "SELECT *, DURACAOTOTAL - DURACAOATIVIDADES AS DIFERENCA \
FROM TEMP_VERIFICACONSISTENCIADOTEMPOATIVIDADES \
WHERE DURACAOTOTAL - DURACAOATIVIDADES NOT BETWEEN -0.2 AND 0.2 \
ORDER BY DURACAOTOTAL - DURACAOATIVIDADES  DESC;"


dados =pd.read_sql_query(ComandoSQL, engine)

dados.head(10)

Unnamed: 0,idsolicitacaoservico,inicio,fim,intervalos,duracaototal,duracaoatividades,diferenca
0,85,2014-07-10 12:26:00,2014-07-11 13:44:10,1 days 01:18:10,25.3,25.55,-0.25
1,94,2014-07-10 13:05:00,2014-07-11 13:06:10,1 days 00:01:10,24.02,24.33,-0.31
2,111,2014-07-11 10:22:00,2015-03-12 13:42:00,244 days 03:20:00,5859.33,5859.78,-0.45
3,108,2014-07-11 10:20:00,2014-07-14 09:14:00,2 days 22:54:00,70.9,72.33,-1.43
4,100,2014-07-10 15:20:00,2014-07-11 13:11:10,0 days 21:51:10,21.85,23.45,-1.6
5,115,2014-07-11 11:34:00,2014-07-14 09:41:00,2 days 22:07:00,70.12,72.74,-2.62


In [23]:
connection.close()