# Relatorios de Erros em Despachos no Aprova Digital (timeline x dispatched)

Alguns erros foram notados em relação aos dados que constam nos despachos do AD. Para o sistema temos o histórico do processo em que constam as datas de emissão do despacho, o usuário responsavel pelo despacho e a unidade a qual esse funcionário pertence. 
Temos também o registro da comunicação do Aprova Digital com o SEI (quem efetivamente publica os despachos) onde ficam registradas as datas de publicação do despacho, o despacho em si e o documento SEI. Não há, até o momento, um relacionamento por meio de chaves entre esses dois tipos de fontes de despachos.
Podemos apontar ainda os despachos já publicados no diário oficial, em que constam o teor do despacho, sua data de publicação e o documento referenciado no SEI.

Notamos que existem dissiparidades entre as informações constantes nessas três vias e pretendemos aprofundar o entendimento das causas para elaborar estratégias de saneamento dos dados para fins de criação de regras para uso no BI de SMUL.

Inicialmente faremos a comparação de processos da timeline e as diferenças em relção aos 'dispatched_documents', após, a comparação de despachos (via chave documento sei) do 'dispatched documentos' e o efetivamente publicado em diário oficial.

O recorte temporal usado para comparar a timeline com o dispatched será toda a história do AD, o recorte temporal usado para comparar o dispatched ao Diário Ofical será de março de 2023 à setembro de 2023, porque é a partir desse período que os dados do diário oficial são apresentados de forma consistente (semiestruturado no período vs desestruturado anteriormente).

## Processos que possuem assimetrias entre o que consta na timeline e o que consta em dispatched_documents

### Importação dos dados

In [1]:
import pandas as pd

In [2]:
# Carregando tabelas
timeline = pd.read_csv('ad_timeline_despachos.csv', sep=';', encoding='latin-1')
timeline.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18266 entries, 0 to 18265
Data columns (total 10 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   id              18266 non-null  object
 1   protocolo       18266 non-null  object
 2   processo        18266 non-null  object
 3   assunto         18266 non-null  object
 4   data_extracao   18266 non-null  object
 5   despacho        18266 non-null  object
 6   data_despacho   18266 non-null  object
 7   coord_despacho  12950 non-null  object
 8   quem_despachou  18266 non-null  object
 9   documento       12761 non-null  object
dtypes: object(10)
memory usage: 1.4+ MB


In [3]:
dispatched = pd.read_csv('ad_dispatched_despachos.csv', sep=';', encoding='latin-1')
dispatched.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18081 entries, 0 to 18080
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   id               18081 non-null  object
 1   protocolo        18081 non-null  object
 2   processo         18081 non-null  object
 3   assunto          18081 non-null  object
 4   despacho         18081 non-null  object
 5   data_publicacao  18081 non-null  object
 6   documento_sei    18081 non-null  int64 
 7   data_extracao    18081 non-null  object
dtypes: int64(1), object(7)
memory usage: 1.1+ MB


In [4]:
# Excluindo entrada repetidas que referenciam o mesmo documento
dispatched = dispatched.drop_duplicates()
dispatched.info()

<class 'pandas.core.frame.DataFrame'>
Index: 18015 entries, 0 to 18080
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   id               18015 non-null  object
 1   protocolo        18015 non-null  object
 2   processo         18015 non-null  object
 3   assunto          18015 non-null  object
 4   despacho         18015 non-null  object
 5   data_publicacao  18015 non-null  object
 6   documento_sei    18015 non-null  int64 
 7   data_extracao    18015 non-null  object
dtypes: int64(1), object(7)
memory usage: 1.2+ MB


### Contagem de despachos

In [5]:
# despachos da timeline
timeline_count = timeline[['processo', 'despacho']].value_counts()
timeline_count.head(20)

processo             despacho           
1020.2022/0001444-8  Processo Indeferido    4
1020.2021/0001523-0  Processo Indeferido    4
1020.2021/0016233-0  Processo Deferido      4
1020.2023/0000111-9  Processo Indeferido    4
1020.2022/0004887-3  Processo Deferido      3
1020.2020/0014327-9  Processo Deferido      3
1020.2021/0012434-9  Processo Indeferido    3
1020.2021/0017952-6  Processo Indeferido    3
1020.2022/0020501-4  Processo Indeferido    3
1020.2020/0015637-0  Processo Indeferido    3
1020.2022/0006180-2  Processo Indeferido    3
1020.2021/0016665-3  Processo Indeferido    3
1020.2021/0003926-0  Processo Deferido      3
1020.2020/0014426-7  Processo Deferido      3
1020.2021/0005470-7  Processo Deferido      3
1020.2022/0023390-5  Processo Indeferido    3
1020.2021/0015180-0  Processo Indeferido    3
1020.2021/0005368-9  Processo Deferido      3
1020.2021/0001261-3  Processo Deferido      3
1020.2022/0001726-9  Processo Indeferido    2
Name: count, dtype: int64

In [6]:
timeline_count.sum()

18266

In [7]:
# despachos timeline
timeline_count_df = timeline_count.reset_index()
timeline_count_df.columns = ['processo', 'despacho', 'contagem_timeline']
timeline_count_df.sort_values(by='processo').head(20)

Unnamed: 0,processo,despacho,contagem_timeline
1364,1010.2020/0006241-0,Processo Deferido,1
15009,1010.2020/0006558-3,Processo Deferido,1
11963,1010.2020/0006559-1,Processo Deferido,1
11964,1010.2020/0006787-0,Processo Deferido,1
420,1010.2020/0006790-0,Processo Deferido,2
11965,1010.2020/0006853-1,Processo Indeferido,1
11966,1010.2020/0007034-0,Processo Deferido,1
411,1010.2020/0007035-8,Processo Indeferido,2
11967,1010.2020/0007037-4,Processo Deferido,1
11969,1010.2020/0007052-8,Processo Indeferido,1


In [8]:
timeline_count_df['contagem_timeline'].sum()

18266

In [9]:
# Paronizar indeferidos para evitar duplicação de processos
timeline_count_df.query("processo == '1020.2021/0000549-8'")

Unnamed: 0,processo,despacho,contagem_timeline
201,1020.2021/0000549-8,Processo Indeferido,2
11258,1020.2021/0000549-8,Processo Indeferido e Encerrado,1


In [10]:
timeline_count_df['despacho'].value_counts()

despacho
Processo Deferido                   12606
Processo Indeferido                  3780
Processo Indeferido e Encerrado      1397
Processo Indeferido e Finalizado        1
Name: count, dtype: int64

In [11]:
# Despachos dispatched
dispatched_count = dispatched[['processo', 'despacho']].value_counts()
dispatched_count.head(20)

processo             despacho           
1020.2021/0001523-0  Despacho indeferido    4
1020.2023/0007094-3  Despacho deferido      4
1020.2021/0015180-0  Despacho indeferido    4
1020.2022/0020300-3  Despacho deferido      4
1020.2022/0020297-0  Despacho deferido      4
1020.2023/0007666-6  Despacho deferido      3
1020.2023/0007651-8  Despacho deferido      3
1020.2022/0020307-0  Despacho deferido      3
1020.2020/0014890-4  Despacho indeferido    3
1020.2023/0004583-3  Despacho indeferido    3
1020.2020/0015637-0  Despacho indeferido    3
1020.2020/0015164-6  Despacho indeferido    3
1020.2022/0020826-9  Despacho deferido      3
1020.2020/0016002-5  Despacho indeferido    3
1020.2022/0016144-0  Despacho deferido      3
1020.2021/0001261-3  Despacho deferido      3
1020.2021/0019095-3  Despacho indeferido    3
1020.2021/0012434-9  Despacho indeferido    3
1020.2021/0016665-3  Despacho indeferido    3
1020.2021/0015155-9  Despacho indeferido    3
Name: count, dtype: int64

In [12]:
dispatched_count.sum()

18015

In [13]:
# despachos dispatched
dispatched_count_df = dispatched_count.reset_index()
dispatched_count_df.columns = ['processo', 'despacho', 'contagem_dispatched']
dispatched_count_df.sort_values(by='processo').head(20)

Unnamed: 0,processo,despacho,contagem_dispatched
912,1010.2020/0006241-0,Despacho deferido,1
14578,1010.2020/0006558-3,Despacho deferido,1
11691,1010.2020/0006559-1,Despacho deferido,1
11692,1010.2020/0006787-0,Despacho deferido,1
56,1010.2020/0006790-0,Despacho deferido,3
11693,1010.2020/0006853-1,Despacho indeferido,1
11694,1010.2020/0007034-0,Despacho deferido,1
487,1010.2020/0007035-8,Despacho indeferido,2
11695,1010.2020/0007037-4,Despacho deferido,1
11697,1010.2020/0007052-8,Despacho indeferido,1


In [14]:
dispatched_count_df['contagem_dispatched'].sum()

18015

In [15]:
dispatched_count_df['despacho'].value_counts()

despacho
Despacho deferido          12544
Despacho indeferido         4782
Despacho Documental            2
Despacho de Retificação        1
Despacho documental            1
Name: count, dtype: int64

In [16]:
timeline_count_df['despacho'].value_counts()

despacho
Processo Deferido                   12606
Processo Indeferido                  3780
Processo Indeferido e Encerrado      1397
Processo Indeferido e Finalizado        1
Name: count, dtype: int64

<b>Achados:</b>

* Nota-se que o numero de despachos é diferente em cada tabela, com a timeline contendo 185 linhas a mais de despachos em relação a dispatched.
* Há superioridade de 65 despachos deferidos na extração da timeline
* Os despachos não são totalmente compativeis, devendo haver ajustes na extração da timeline para unificar os despachos indeferidos, sendo ainda necessário criar regra para tratamento dos despachos do tipo documental

In [17]:
timeline = timeline.replace('Processo Indeferido e Encerrado', 'Processo Indeferido')
timeline = timeline.replace('Processo Indeferido e Finalizado', 'Processo Indeferido')

In [18]:
timeline_count = timeline[['processo', 'despacho']].value_counts()

In [19]:
timeline_count_df = timeline_count.reset_index()
timeline_count_df.columns = ['processo', 'despacho', 'contagem_timeline']

In [20]:
dispatched_count_df['despacho'].value_counts()

despacho
Despacho deferido          12544
Despacho indeferido         4782
Despacho Documental            2
Despacho de Retificação        1
Despacho documental            1
Name: count, dtype: int64

In [21]:
timeline_count_df['despacho'].value_counts()

despacho
Processo Deferido      12606
Processo Indeferido     4832
Name: count, dtype: int64

In [22]:
timeline_count_df['contagem_timeline'].sum()

18266

* Após unificação dos indeferidos houeve uma diferença de 52 despachos no total entre despachos da timeline e do dispatched

### Processos em que constam assimetrias

#### Processos deferidos da timeline que possuem assimetrias no dispatched

In [23]:
dispatched_deferidos = dispatched_count_df.query("despacho == 'Despacho deferido'")
dispatched_deferidos = dispatched_deferidos[['processo', 'contagem_dispatched']].set_index('processo')

dispatched_indeferidos = dispatched_count_df.query("despacho == 'Despacho indeferido'")
dispatched_indeferidos = dispatched_indeferidos[['processo', 'contagem_dispatched']].set_index('processo')

dispatched_deferidos

Unnamed: 0_level_0,contagem_dispatched
processo,Unnamed: 1_level_1
1020.2023/0007094-3,4
1020.2022/0020300-3,4
1020.2022/0020297-0,4
1020.2023/0007666-6,3
1020.2023/0007651-8,3
...,...
1020.2022/0001186-4,1
1020.2022/0001187-2,1
1020.2022/0001188-0,1
1020.2022/0001189-9,1


In [24]:
def comparador_despachos(row, tipo, dados, contra_tipo='dispatched'):
    if tipo == 'dispatched':
        contra_tipo = 'timeline'        
    
    x = row['processo']
    z = row[f'contagem_{contra_tipo}']
    
    if x in dados.index:
        if dados.loc[x, f'contagem_{tipo}'] == z:
            return 'correto'
        else:
            return dados.loc[x, f'contagem_{tipo}']
    else:
        return 'inexistente'

In [25]:
timeline_count_deferidos = timeline_count_df.query("despacho == 'Processo Deferido'")[:]
timeline_count_indeferidos = timeline_count_df.query("despacho == 'Processo Indeferido'")[:]

timeline_count_deferidos['contagem_dispatched'] = timeline_count_deferidos.apply(comparador_despachos, args=('dispatched', dispatched_deferidos,), axis=1)
timeline_count_indeferidos['contagem_dispatched'] = timeline_count_indeferidos.apply(comparador_despachos, args=('dispatched', dispatched_indeferidos,), axis=1)


timeline_count_deferidos.head(10)

Unnamed: 0,processo,despacho,contagem_timeline,contagem_dispatched
7,1020.2021/0016233-0,Processo Deferido,4,1
9,1020.2021/0003926-0,Processo Deferido,3,correto
30,1020.2020/0014426-7,Processo Deferido,3,2
34,1020.2020/0014327-9,Processo Deferido,3,correto
45,1020.2021/0001261-3,Processo Deferido,3,correto
46,1020.2021/0005368-9,Processo Deferido,3,correto
48,1020.2022/0004887-3,Processo Deferido,3,correto
51,1020.2021/0005470-7,Processo Deferido,3,correto
54,1020.2023/0005169-8,Processo Deferido,2,1
55,1020.2023/0014337-1,Processo Deferido,2,1


In [26]:
timeline_count_deferidos.query("contagem_dispatched == False")
timeline_count_indeferidos.query("contagem_dispatched == False")

Unnamed: 0,processo,despacho,contagem_timeline,contagem_dispatched


In [27]:
# Processos em que a contagem de despachos da timeline difere ou não existe no dispatched
timeline_def_erros = timeline_count_deferidos.query("contagem_dispatched != 'correto'")
timeline_indef_erros = timeline_count_indeferidos.query("contagem_dispatched != 'correto'")
timeline_def_erros.head(10)

Unnamed: 0,processo,despacho,contagem_timeline,contagem_dispatched
7,1020.2021/0016233-0,Processo Deferido,4,1
30,1020.2020/0014426-7,Processo Deferido,3,2
54,1020.2023/0005169-8,Processo Deferido,2,1
55,1020.2023/0014337-1,Processo Deferido,2,1
63,1020.2021/0010727-4,Processo Deferido,2,1
71,1020.2022/0019931-6,Processo Deferido,2,1
86,1020.2022/0000347-0,Processo Deferido,2,1
102,1020.2021/0011682-6,Processo Deferido,2,1
167,1020.2022/0019887-5,Processo Deferido,2,1
216,1020.2021/0011874-8,Processo Deferido,2,1


#### Processos dispatched que tem inconsistencia na timeline

In [29]:
timeline_deferidos = timeline_count_df.query("despacho == 'Processo Deferido'")
timeline_deferidos = timeline_deferidos[['processo', 'contagem_timeline']].set_index('processo')

timeline_indeferidos = timeline_count_df.query("despacho == 'Processo Indeferido'")
timeline_indeferidos = timeline_indeferidos[['processo', 'contagem_timeline']].set_index('processo')

timeline_indeferidos

Unnamed: 0_level_0,contagem_timeline
processo,Unnamed: 1_level_1
1020.2021/0001523-0,5
1020.2022/0003098-2,4
1020.2022/0001444-8,4
1020.2022/0023390-5,4
1020.2023/0000111-9,4
...,...
1020.2022/0001467-7,1
1020.2022/0001468-5,1
1020.2022/0001492-8,1
1020.2022/0001495-2,1


In [30]:
dispatched_count_deferidos = dispatched_count_df.query("despacho == 'Despacho deferido'")[:]
dispatched_count_indeferidos = dispatched_count_df.query("despacho == 'Despacho indeferido'")[:]

dispatched_count_deferidos['contagem_timeline'] = dispatched_count_deferidos.apply(comparador_despachos, args=('timeline', timeline_deferidos,), axis=1)
dispatched_count_indeferidos['contagem_timeline'] = dispatched_count_indeferidos.apply(comparador_despachos, args=('timeline', timeline_indeferidos,), axis=1)


dispatched_count_deferidos.head(10)

Unnamed: 0,processo,despacho,contagem_dispatched,contagem_timeline
1,1020.2023/0007094-3,Despacho deferido,4,1
3,1020.2022/0020300-3,Despacho deferido,4,1
4,1020.2022/0020297-0,Despacho deferido,4,1
5,1020.2023/0007666-6,Despacho deferido,3,1
6,1020.2023/0007651-8,Despacho deferido,3,1
7,1020.2022/0020307-0,Despacho deferido,3,1
12,1020.2022/0020826-9,Despacho deferido,3,1
14,1020.2022/0016144-0,Despacho deferido,3,1
15,1020.2021/0001261-3,Despacho deferido,3,correto
20,1020.2022/0020259-7,Despacho deferido,3,1


In [34]:
dispatched_count_indeferidos.query("processo == '1020.2021/0004218-0'")

Unnamed: 0,processo,despacho,contagem_dispatched,contagem_timeline
12713,1020.2021/0004218-0,Despacho indeferido,1,correto


In [31]:
dispatched_count_deferidos.query("contagem_timeline == 'inexistente'")
dispatched_count_indeferidos.query("contagem_timeline == 'inexistente'")

Unnamed: 0,processo,despacho,contagem_dispatched,contagem_timeline
1596,1020.2022/0019201-0,Despacho indeferido,1,inexistente
1692,1020.2022/0019197-8,Despacho indeferido,1,inexistente
2446,1020.2022/0018880-2,Despacho indeferido,1,inexistente
6710,1020.2023/0012951-4,Despacho indeferido,1,inexistente
9643,1020.2021/0008965-9,Despacho indeferido,1,inexistente
10668,1020.2021/0012284-2,Despacho indeferido,1,inexistente
12659,1020.2021/0005895-8,Despacho indeferido,1,inexistente
12839,1020.2021/0004965-7,Despacho indeferido,1,inexistente
14041,1020.2022/0005392-3,Despacho indeferido,1,inexistente


In [32]:
# Processos em que a contagem de despachos da timeline difere ou não existe no dispatched
dispatched_def_erros = dispatched_count_deferidos.query("contagem_timeline != 'correto'")
dispatched_indef_erros = dispatched_count_indeferidos.query("contagem_timeline != 'correto'")
dispatched_indef_erros.head()

Unnamed: 0,processo,despacho,contagem_dispatched,contagem_timeline
0,1020.2021/0001523-0,Despacho indeferido,4,5
13,1020.2020/0016002-5,Despacho indeferido,3,2
16,1020.2021/0019095-3,Despacho indeferido,3,2
23,1020.2020/0016092-0,Despacho indeferido,3,2
29,1020.2021/0003804-3,Despacho indeferido,3,2


In [33]:
df_container = [timeline_def_erros, timeline_indef_erros]

df_final = pd.concat(df_container)
df_final.to_csv('timeline_x_dispatched_erros.csv', sep=';', index=False)

df_container = [dispatched_def_erros, dispatched_indef_erros]

df_final = pd.concat(df_container)
df_final.to_csv('dispatched_x_timeline_erros.csv', sep=';', index=False)