# Análise de Pedidos de Acesso a Informações - CGU

## 0. Importação, leitura e exibição dos dados

In [1]:
import pandas as pd

base_dados = pd.read_csv("dados.csv", delimiter=";", encoding="ISO-8859-1")

display(base_dados)

Unnamed: 0,Nome do Cidadão,Dias para Resposta,Pedido,Status do Pedido,Identidade de gênero,Cor,Estado
0,Cidadão 1,126,"O meu auxílio foi bloqueado injustamente, esto...",Acesso Concedido,Homem Cisgênero,Branca,São Paulo (SP)
1,Cidadão 2,96,Fui aprovada recentemente para receber a exten...,Acesso Parcialmente Concedido,Mulher Cisgênero,Branca,Pernambuco (PE)
2,Cidadão 3,171,Sou aluno do curso Tecnólogo em Gestão em Fina...,Acesso Concedido,Homem Cisgênero,Branca,Paraíba (PB)
3,Cidadão 4,387,Aos responsáveis pela administração pública do...,Acesso Negado,Mulher Cisgênero,Parda,Minas Gerais (MG)
4,Cidadão 5,59,Prezados Boa noite Qual é a legislação que...,Acesso Concedido,Homem Cisgênero,Parda,Pernambuco (PE)
...,...,...,...,...,...,...,...
261,Cidadão 43,172,Sou pesquisadoras no Nucelo de economia region...,Acesso Parcialmente Concedido,Mulher Cisgênero,Branca,Mato Grosso do Sul (MS)
262,Cidadão 44,131,Sou graduante na UFERSA no estado do Rio Grand...,Não se trata de solicitação de informação,Homem Cisgênero,Parda,Minas Gerais (MG)
263,Cidadão 45,39,Quantos Municípios utilizam o S2ID? Quantos Es...,Não se trata de solicitação de informação,Mulher Cisgênero,Branca,São Paulo (SP)
264,Cidadão 46,280,Bom dia prezados senhores: Verifiquei que o in...,Acesso Concedido,Mulher Cisgênero,Branca,São Paulo (SP)


## 1. Pedidos de Acesso à Informação

### 1.1  Número total de pedidos 

In [2]:
total_pedidos = base_dados.shape[0]

print(f"Número total de pedidos: {total_pedidos} pedidos")

Número total de pedidos: 266 pedidos


### 1.2 Definição da coluna do tamanho do texto de cada pedido

In [3]:
base_dados['Tamanho do Pedido'] = base_dados['Pedido'].str.len()

### 1.3 Pedido mais extenso e seu tamanho

In [4]:
pedido_mais_extenso = ""
maior_tamanho = 0

for pedido in base_dados['Pedido']:
    tamanho_pedido = len(pedido)
    
    if tamanho_pedido > maior_tamanho:
        maior_tamanho = tamanho_pedido
        pedido_mais_extenso = pedido

print("Pedido mais extenso:\n")
print(pedido_mais_extenso)
print(f"\nTamanho do pedido mais extenso: {maior_tamanho} caracteres")

Pedido mais extenso:

Gostaria de solicitar, com base na Lei de Acesso à Informação, dados relacionados aos petroleiros que atuam no Norte do Rio de Janeiro, de acordo com os seguintes critérios.  Quantos profissionais de exploração de óleo e gás (offshore e onshore) que atuam no Norte Fluminense tiveram casos confirmados de Coronavírus? Qual o quantitativo de cada cidade onde são residentes?  Quantos profissionais de exploração de óleo e gás (offshore e onshore) que atuam no Norte Fluminense têm casos de Coronavírus em investigação? Qual o quantitativo de cada cidade onde são residentes?  Quantos profissionais do setor offshore que atuam na Bacia de Campos tiveram casos confirmados de Coronavírus? Qual o quantitativo de cada cidade onde são residentes?  Quantos profissionais do setor offshore que atuam no Norte Fluminense têm casos de Coronavírus em investigação? Qual o quantitativo de cada cidade onde são residentes?  Quais plataformas da Bacia de Campos foram ou serão desativadas e/

## 2. Tempo de Resposta

### 2.1 Maior tempo de resposta

In [5]:
maior_tempo_resposta = base_dados['Dias para Resposta'][0] # Inicializa-se com o primeiro valor

for tempo in base_dados['Dias para Resposta']:
    if tempo > maior_tempo_resposta:
        maior_tempo_resposta = tempo

print(f"Maior tempo de resposta: {maior_tempo_resposta} dias")

Maior tempo de resposta: 539 dias


### 2.2 Menor tempo de resposta

In [6]:
menor_tempo_resposta = base_dados['Dias para Resposta'][0]

for tempo in base_dados['Dias para Resposta']:
    if tempo < menor_tempo_resposta:
        menor_tempo_resposta = tempo

print(f"Menor tempo de resposta: {menor_tempo_resposta} dias")

Menor tempo de resposta: 22 dias


### 2.3 Tempo médio de resposta

In [7]:
total_tempo_resposta = 0
contador = 0

for tempo in base_dados['Dias para Resposta']:
    total_tempo_resposta += tempo
    contador += 1
tempo_medio_resposta = total_tempo_resposta / contador

print(f"Tempo médio de resposta: {tempo_medio_resposta:.2f} dias")

Tempo médio de resposta: 131.48 dias


### 2.4 Moda do tempo médio de resposta

In [8]:
contador_tempo_resposta = {}
moda_tempo_resposta = None
contador_max = 0

for tempo in base_dados['Dias para Resposta']:
    if isinstance(tempo, int):
        contador_tempo_resposta[tempo] = contador_tempo_resposta.get(tempo, 0) + 1
        if contador_tempo_resposta[tempo] > contador_max:
            contador_max = contador_tempo_resposta[tempo]
            moda_tempo_resposta = tempo

print(f"Moda do tempo médio de resposta: {moda_tempo_resposta} dias")

Moda do tempo médio de resposta: 74 dias


### 2.5 Mediana do tempo médio de resposta

In [9]:
# Ordenação crescente dos tempos de resposta
tempos_ordenados = sorted(base_dados['Dias para Resposta'])

if contador % 2 == 0:
    # Se par, a mediana é a média dos dois valores do meio
    mediana = (tempos_ordenados[contador // 2 - 1] + tempos_ordenados[contador // 2]) / 2
else:
    # Se ímpar, a mediana é o valor do meio
    mediana = tempos_ordenados[contador // 2]

print(f"Mediana do tempo médio de resposta: {mediana:.2f} dias")

Mediana do tempo médio de resposta: 102.50 dias


## 3. Identidade de Gênero

### 3.1 Identidades de gênero presentes nos dados

In [10]:
identidades_genero = set()

for identidade_genero in base_dados['Identidade de gênero']:
    # Verifica se a identidade de gênero não é nula ou vazia
    if identidade_genero and isinstance(identidade_genero, str):
        identidades_genero.add(identidade_genero)

print("Identidades de gênero presentes nos dados:\n")
for identidade in identidades_genero:
    print(identidade)

Identidades de gênero presentes nos dados:

Homem transgênero
Mulher transgênero
Homem Cisgênero
Não binário
Mulher Cisgênero


### 3.2 Porcentagem de cada identidade de gênero em relação ao total de pedidos

In [11]:
contagem_identidades_genero = {}
total_pedidos = 0

for identidade_genero in base_dados['Identidade de gênero']:
    if identidade_genero and isinstance(identidade_genero, str):
        contagem_identidades_genero[identidade_genero] = contagem_identidades_genero.get(identidade_genero, 0) + 1
        total_pedidos += 1

# Calcula e armazena as porcentagens de cada identidade de gênero
porcentagens = {}
for identidade, contador in contagem_identidades_genero.items():
    porcentagem = (contador / total_pedidos) * 100
    porcentagens[identidade] = porcentagem

# Ordena o dicionário de identidades em ordem decrescente
porcentagens_ordenadas = sorted(porcentagens.items(), key=lambda x: x[1], reverse=True)

print("Porcentagem de cada identidade de gênero em relação ao total de pedidos:\n")
for identidade, porcentagem in porcentagens_ordenadas:
    print(f"{identidade}: {porcentagem:.2f}%")

Porcentagem de cada identidade de gênero em relação ao total de pedidos:

Mulher Cisgênero: 50.38%
Homem Cisgênero: 43.98%
Homem transgênero: 3.01%
Mulher transgênero: 1.50%
Não binário: 1.13%


## 4. Ranking

### 4.1 - 5 (cinco) Estados com maior número de pedidos de acesso à informação, juntamente com a quantidade correspondente, em ordem decrescente

In [12]:
estados_pedidos = {}

for estado in base_dados['Estado']:
    if isinstance(estado, str):
        estados_pedidos[estado] = estados_pedidos.get(estado, 0) + 1

estados_ranking = sorted(estados_pedidos.items(), key=lambda x: x[1], reverse=True)

print("5 (cinco) Estados com maior número de pedidos de acesso à informação:\n")
for estado, contador in estados_ranking[:5]:
    print(f"{estado}: {contador} pedidos")

5 (cinco) Estados com maior número de pedidos de acesso à informação:

São Paulo (SP): 73 pedidos
Minas Gerais (MG): 51 pedidos
Pernambuco (PE): 41 pedidos
Paraíba (PB): 26 pedidos
Espírito Santo (ES): 14 pedidos


### 4.2 - 3 (três) cidadãos que possuem o maior número de pedidos de acesso à informação

In [13]:
cidadaos_pedidos = {}

for cidadao in base_dados['Nome do Cidadão']:
    if isinstance(cidadao, str):
        cidadaos_pedidos[cidadao] = cidadaos_pedidos.get(cidadao, 0) + 1

cidadaos_ranking = sorted(cidadaos_pedidos.items(), key=lambda x: x[1], reverse=True)

print("3 (três) cidadãos com o maior número de pedidos de acesso à informação:\n")
for cidadao, contador in cidadaos_ranking[:3]:
    print(f"{cidadao}: {contador} pedidos")

3 (três) cidadãos com o maior número de pedidos de acesso à informação:

Cidadão 18: 13 pedidos
Cidadão 19: 11 pedidos
Cidadão 1: 10 pedidos


## 5. Correlação

### 5.1 Há alguma correlação entre o tempo de resposta e alguma outra coluna? 

**Sim**, com a coluna **"Tamanho do Pedido"**.

In [14]:
correlacao_colunas = base_dados['Dias para Resposta'].corr(base_dados['Tamanho do Pedido'])

# Se "correlacao_colunas" estiver próxima de 1 ou -1, há uma correlação forte.
# Se estiver próxima de 0, não há uma correlação forte.

print(f"Correlação entre Tempo de Resposta e Tamanho do Pedido: {correlacao_colunas:.1f}")

Correlação entre Tempo de Resposta e Tamanho do Pedido: 1.0


### 5.2 Caso exista, quais seriam as entradas para um modelo preditivo para o tempo de resposta?

Seriam **"Tamanho do Pedido"** e **"Dias para Resposta"**.

In [15]:
# Modelo de regressão linear simples utilizando
# "Tamanho do Pedido" e "Dias para Resposta" como entradas

from sklearn.linear_model import LinearRegression
import numpy as np

# Extração dos dados
X = base_dados[['Tamanho do Pedido']].values
y = base_dados['Dias para Resposta'].values

# Criação e treino do modelo de regessão linear
modelo = LinearRegression()
modelo.fit(X, y)

# Exemplo: Previsão do tempo de resposta para um pedido com tamanho de 1000 caracteres:
tamanho_pedido = np.array([[1000]])
tempo_resposta_predito = modelo.predict(tamanho_pedido)

print(f"Tempo de resposta previsto para um pedido com tamanho de 1000 caracteres: {tempo_resposta_predito[0]:.2f} dias")

Tempo de resposta previsto para um pedido com tamanho de 1000 caracteres: 274.30 dias


## 6. Questão Extra (Desafio): Contar as palavras nos pedidos de acesso à informação

Frase: _"Esse é um pedido de acesso à informação. Esse tipo de pedido é uma ferramenta essencial para o exercício da democracia."_

Obs.: A imagem do resultado esperado possui a palavra `essa`, porém a frase informada não a possui.

In [16]:
frase = "Esse é um pedido de acesso à informação. Esse tipo de pedido é uma ferramenta essencial para o exercício da democracia."
contagem_palavras = {}

palavras = frase.split()
    
for palavra in palavras:
    # Remove as pontuações simples
    palavra = palavra.strip('.,!?":;()[]{}')
        
    if isinstance(palavra, str):
        contagem_palavras[palavra] = contagem_palavras.get(palavra, 0) + 1

for palavra, contador in contagem_palavras.items():
    print(f"{palavra}: {contador}")

Esse: 2
é: 2
um: 1
pedido: 2
de: 2
acesso: 1
à: 1
informação: 1
tipo: 1
uma: 1
ferramenta: 1
essencial: 1
para: 1
o: 1
exercício: 1
da: 1
democracia: 1
