# Análise Exploratória

## Importações

In [1]:
import pandas as pd
import numpy as np
from datetime import datetime

## Leitura do Arquivo

Os dados da ouvidorias estão em formato csv separados por "|". Nesta etapa vamos conhecer o dataset

In [2]:
df = pd.read_csv('dados.csv', sep='|')
df

Unnamed: 0,Abertura,Identificada,Situação,Classificação,Assunto,Região_Administrativa,Unidade,Orgao,Tipo_Entrada
0,01/01/2022 00:11:43,True,Respondida,Elogio,Praças e jardins,RA RFI (Riacho Fundo - I),NOVACAP - Companhia Urbanizadora da Nova Capit...,NOVACAP - Companhia Urbanizadora da Nova Capit...,INTERNET
1,01/01/2022 00:53:06,True,Não Resolvida,Reclamação,Corpo de Bombeiros,RA CEIL (Ceilândia),CBMDF - Corpo de Bombeiros Militar do Distrito...,CBMDF - Corpo de Bombeiros Militar do Distrito...,INTERNET
2,01/01/2022 01:51:00,True,Respondida,Solicitação,Iluminação Pública (Funcionamento),RA SOBRII (Sobradinho - II),Coordenação de Manutenção de Iluminação Públic...,SODF - Secretaria de Estado de Obras e Infraes...,INTERNET
3,01/01/2022 02:27:15,False,Respondida,Reclamação,Servidor Público,RA CEIL (Ceilândia),SES - Secretaria de Estado de Saúde do Distrit...,SES - Secretaria de Estado de Saúde do Distrit...,INTERNET
4,01/01/2022 02:50:06,False,Respondida,Reclamação,Polícia militar,RA GUAR (Guará),PMDF - Polícia Militar do Distrito Federal,PMDF - Polícia Militar do Distrito Federal,INTERNET
...,...,...,...,...,...,...,...,...,...
133164,05/05/2022 21:00:27,False,Recebida,Denúncia,Servidor Público,RA-PP (Plano Piloto),COACI/OGDF - Coordenação de Atendimento ao cid...,COACI/OGDF - Coordenação de Atendimento ao cid...,INTERNET
133165,05/05/2022 21:07:18,True,Recebida,Reclamação,Manutenção e Segurança de Parques e Unidades d...,RA SUDO (Sudoeste/Octogonal),IBRAM - Instituto do Meio Ambiente e Recursos ...,IBRAM - Instituto do Meio Ambiente e Recursos ...,INTERNET
133166,05/05/2022 21:08:57,True,Recebida,Elogio,Visitação no zoológico,RA-PP (Plano Piloto),FJZB - Fundação Jardim Zoológico de Brasilia,FJZB - Fundação Jardim Zoológico de Brasilia,INTERNET
133167,05/05/2022 21:13:10,True,Recebida,Reclamação,Agendamento de Cirurgias,RA-PP (Plano Piloto),SES - Secretaria de Estado de Saúde do Distrit...,SES - Secretaria de Estado de Saúde do Distrit...,INTERNET


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 133169 entries, 0 to 133168
Data columns (total 9 columns):
 #   Column                 Non-Null Count   Dtype 
---  ------                 --------------   ----- 
 0   Abertura               133169 non-null  object
 1   Identificada           133169 non-null  bool  
 2   Situação               133169 non-null  object
 3   Classificação          133169 non-null  object
 4   Assunto                133169 non-null  object
 5   Região_Administrativa  133169 non-null  object
 6   Unidade                133169 non-null  object
 7   Orgao                  133169 non-null  object
 8   Tipo_Entrada           133169 non-null  object
dtypes: bool(1), object(8)
memory usage: 8.3+ MB


In [4]:
df.shape

(133169, 9)

## Tratamento

Esses códigos serão reescritos no arquivo .py principal de tratamento, pelo jupyter notebook é mais rápido para testarmos algumas hipoteses.

### Criação de Uma Coluna com o Apelido do Orgão

O campo "Orgao" contém, o apelido do Órgão e o nome completo, basta separarmos pelo delimitador " - " e abreviar a palavra "Administração" presentes em aguns regristro

In [5]:
df.Orgao

0         NOVACAP - Companhia Urbanizadora da Nova Capit...
1         CBMDF - Corpo de Bombeiros Militar do Distrito...
2         SODF - Secretaria de Estado de Obras e Infraes...
3         SES - Secretaria de Estado de Saúde do Distrit...
4                PMDF - Polícia Militar do Distrito Federal
                                ...                        
133164    COACI/OGDF - Coordenação de Atendimento ao cid...
133165    IBRAM - Instituto do Meio Ambiente e Recursos ...
133166         FJZB - Fundação Jardim Zoológico de Brasilia
133167    SES - Secretaria de Estado de Saúde do Distrit...
133168    SODF - Secretaria de Estado de Obras e Infraes...
Name: Orgao, Length: 133169, dtype: object

In [6]:
df[['Apelido', 'temporario']] = df.Orgao.str.split(' - ',1,expand=True)
df['Apelido'] = df['Apelido'].str.replace("Administração", "Adm")
df = df.drop(columns='temporario')

In [7]:
df.Apelido

0            NOVACAP
1              CBMDF
2               SODF
3                SES
4               PMDF
             ...    
133164    COACI/OGDF
133165         IBRAM
133166          FJZB
133167           SES
133168          SODF
Name: Apelido, Length: 133169, dtype: object

### Identificando um campo chave

Considere que uma reclamação entra com uma "Situação", por exemplo "Recebida" e depois de uns dias muda para "Respondida", nessa visualização da base estamos vendo apenas a última situação da manifestção, não sendo possível analisar a diferença de tempo entre a troca de situações.

Um campo chave em uma tabela é um valor único em uma coluna, a ideia é que se comparamos um dataset com outro extraído um tempo depois, atravez desse campo chave podemos ver a evolução dos mesmos resgistros e calcularmos o **tempo médio** para responder/resolver as manifestações, ou seja, para funcionar precisamos fazer extrações da base e "congelar as situações" no tempo.

In [9]:
df.Abertura.value_counts()

03/30/2022 17:56:35    2
04/25/2022 12:42:49    2
03/23/2022 10:47:57    2
03/23/2022 10:51:30    2
02/07/2022 14:37:45    2
                      ..
02/13/2022 13:58:16    1
02/13/2022 13:57:02    1
02/13/2022 13:54:26    1
02/13/2022 13:53:40    1
05/05/2022 21:13:43    1
Name: Abertura, Length: 131886, dtype: int64

O campo de abertura seria um ótimo candidato para campo chave, contudo esse campo não apresenta valores únicos, teremos que tentar uma outra abordagem

In [86]:
# Criando um dataset agrupado por todas as colunas exceto Situação
colunas = list(df.columns)
# O índice da coluna "Situação" é 2
del(colunas[2])
df2 = df.groupby(colunas,as_index=False).count()
df2

Unnamed: 0,Abertura,Identificada,Classificação,Assunto,Região_Administrativa,Unidade,Orgao,Tipo_Entrada,Situação
0,01/01/2022 00:11:43,True,Elogio,Praças e jardins,RA RFI (Riacho Fundo - I),NOVACAP - Companhia Urbanizadora da Nova Capit...,NOVACAP - Companhia Urbanizadora da Nova Capit...,INTERNET,1
1,01/01/2022 00:53:06,True,Reclamação,Corpo de Bombeiros,RA CEIL (Ceilândia),CBMDF - Corpo de Bombeiros Militar do Distrito...,CBMDF - Corpo de Bombeiros Militar do Distrito...,INTERNET,1
2,01/01/2022 01:51:00,True,Solicitação,Iluminação Pública (Funcionamento),RA SOBRII (Sobradinho - II),Coordenação de Manutenção de Iluminação Públic...,SODF - Secretaria de Estado de Obras e Infraes...,INTERNET,1
3,01/01/2022 02:27:15,False,Reclamação,Servidor Público,RA CEIL (Ceilândia),SES - Secretaria de Estado de Saúde do Distrit...,SES - Secretaria de Estado de Saúde do Distrit...,INTERNET,1
4,01/01/2022 02:50:06,False,Reclamação,Polícia militar,RA GUAR (Guará),PMDF - Polícia Militar do Distrito Federal,PMDF - Polícia Militar do Distrito Federal,INTERNET,1
...,...,...,...,...,...,...,...,...,...
133163,05/05/2022 21:00:27,False,Denúncia,Servidor Público,RA-PP (Plano Piloto),COACI/OGDF - Coordenação de Atendimento ao cid...,COACI/OGDF - Coordenação de Atendimento ao cid...,INTERNET,1
133164,05/05/2022 21:07:18,True,Reclamação,Manutenção e Segurança de Parques e Unidades d...,RA SUDO (Sudoeste/Octogonal),IBRAM - Instituto do Meio Ambiente e Recursos ...,IBRAM - Instituto do Meio Ambiente e Recursos ...,INTERNET,1
133165,05/05/2022 21:08:57,True,Elogio,Visitação no zoológico,RA-PP (Plano Piloto),FJZB - Fundação Jardim Zoológico de Brasilia,FJZB - Fundação Jardim Zoológico de Brasilia,INTERNET,1
133166,05/05/2022 21:13:10,True,Reclamação,Agendamento de Cirurgias,RA-PP (Plano Piloto),SES - Secretaria de Estado de Saúde do Distrit...,SES - Secretaria de Estado de Saúde do Distrit...,INTERNET,1


Ao invés de usarmos apenas uma coluna como chave, agora tentaremos buscar a unicidade comparando todas as colunas exceto a Situação, assim quando compararmos os datasets ao longo do tempo poderemos ver a evolução da situação

In [87]:
df2.query("Situação > 1")

Unnamed: 0,Abertura,Identificada,Classificação,Assunto,Região_Administrativa,Unidade,Orgao,Tipo_Entrada,Situação
72167,03/10/2022 10:49:31,True,Reclamação,CRAS - Vagas para atendimento no CRAS,RA-PLAN (Planaltina),SEDES - Secretaria de Estado de Desenvolviment...,SEDES - Secretaria de Estado de Desenvolviment...,TELEFONE,2


Apenas 2 registro com todas colunas iguais, vamos analisar no dataset original para analisar quais situações desses registros

In [88]:
df.query("Abertura == '03/10/2022 10:49:31'")

Unnamed: 0,Abertura,Identificada,Situação,Classificação,Assunto,Região_Administrativa,Unidade,Orgao,Tipo_Entrada
72167,03/10/2022 10:49:31,True,Respondida,Reclamação,CRAS - Vagas para atendimento no CRAS,RA-PLAN (Planaltina),SEDES - Secretaria de Estado de Desenvolviment...,SEDES - Secretaria de Estado de Desenvolviment...,TELEFONE
72168,03/10/2022 10:49:31,True,Respondida,Reclamação,CRAS - Vagas para atendimento no CRAS,RA-PLAN (Planaltina),SEDES - Secretaria de Estado de Desenvolviment...,SEDES - Secretaria de Estado de Desenvolviment...,TELEFONE


Como os registros tem a mesma "Situação", então existem 2 possibilidades:
- Trata-se de um erro e esse dado está duplicado; ou
- São de fato manifestações distintas.

Para o primeiro caso, essas duas manifestações também teriam dois registro de origem com situação "Recebida", neste caso comprovaria a duplicidade.

Para o segundo caso, essas manifestações teriam apenas uma origem com situação "Recebida", daí basta remover as duplicadas.

Para ambos os caso é possível montar esse banco para realizar essas comparações, vou começar a montar o banco a partir do mês 06/2022
