# Desafio Técnico - Cientista de Dados Júnior
## Gabryelle Soares

## Importação das bibliotecas e configuração do projeto

In [1]:
import basedosdados as bd
import pandas as pd
import datetime
import json

In [2]:
with open('../config.json', 'r') as file:
    config = json.load(file)

project_id = config.get('billing_project_id', '')

## Realizando download dos dados necessários

Assim como no desafio realizado em SQL, serão utilizadas três tabelas: `chamado_1746`, `bairro`, e `rede_hoteleira_ocupacao_eventos`.

A tabela `chamado_1746` conta com mais de 10M de linhas, mas neste desafio só são necessários os dados entre 01/01/2022 e 31/12/2023.

In [3]:
query_chamado_1746 = '''
SELECT * 
FROM `datario.administracao_servicos_publicos.chamado_1746` 
WHERE data_particao BETWEEN DATE('2022-01-01') AND DATE('2023-12-31')
'''

chamado_1746 = bd.read_sql(query_chamado_1746, billing_project_id=project_id)
chamado_1746.head()

Downloading: 100%|[32m██████████████████████████████████████████████████████████████████[0m|[0m


Unnamed: 0,id_chamado,data_inicio,data_fim,id_bairro,id_territorialidade,id_logradouro,numero_logradouro,id_unidade_organizacional,nome_unidade_organizacional,id_unidade_organizacional_mae,...,tempo_prazo,prazo_unidade,prazo_tipo,dentro_prazo,situacao,tipo_situacao,justificativa_status,reclamacoes,data_particao,geometry
0,19659939,2023-12-31 10:18:14,2023-12-31 16:15:19,103,3,162594,105,8,RIOLUZ - Companhia Municipal de Energia e Ilum...,RIOLUZ - Companhia Municipal de Energia e Ilum...,...,,H,F,No prazo,Encerrado,Atendido,,0,2023-12-01,
1,19659565,2023-12-30 20:59:55,2023-12-31 11:15:20,122,4,159764,133,8,RIOLUZ - Companhia Municipal de Energia e Ilum...,RIOLUZ - Companhia Municipal de Energia e Ilum...,...,,D,F,No prazo,Encerrado,Não constatado,,0,2023-12-01,
2,19659643,2023-12-30 22:28:23,2023-12-31 10:15:19,127,4,34660,1100,8,RIOLUZ - Companhia Municipal de Energia e Ilum...,RIOLUZ - Companhia Municipal de Energia e Ilum...,...,,D,F,No prazo,Encerrado,Atendido,,0,2023-12-01,POINT(-43.317855 -22.988612)
3,19649525,2023-12-28 01:23:36,2023-12-31 08:21:16,78,3,15933,20,8,RIOLUZ - Companhia Municipal de Energia e Ilum...,RIOLUZ - Companhia Municipal de Energia e Ilum...,...,,D,F,No prazo,Encerrado,Não atendido,,0,2023-12-01,POINT(-43.3432944 -22.8834309)
4,19654358,2023-12-29 04:27:17,2023-12-31 08:29:37,141,5,43851,208,8,RIOLUZ - Companhia Municipal de Energia e Ilum...,RIOLUZ - Companhia Municipal de Energia e Ilum...,...,,D,F,No prazo,Encerrado,Não atendido,,0,2023-12-01,POINT(-43.461414 -22.8714662)


In [4]:
query_eventos = "SELECT * FROM `datario.turismo_fluxo_visitantes.rede_hoteleira_ocupacao_eventos`"

eventos = bd.read_sql(query_eventos, billing_project_id=project_id)
eventos.head()

Downloading: 100%|[32m██████████████████████████████████████████████████████████████████[0m|[0m


Unnamed: 0,ano,data_inicial,data_final,evento,taxa_ocupacao
0,30-31/12 e 01/01 (2022-2023),2022-12-30,2023-01-01,Reveillon,0.9251
1,18/02 a 21/02 de 2023,2023-02-18,2023-02-21,Carnaval,0.9554
2,02/09 a 04/09 de 2022,2022-09-02,2022-09-04,Rock in Rio,0.8184
3,08/09 a 11/09 de 2022,2022-09-08,2022-09-11,Rock in Rio,0.9451


In [5]:
query_bairros = "SELECT * FROM `datario.dados_mestres.bairro`"

bairros = bd.read_sql(query_bairros, billing_project_id=project_id)
bairros.head()

Downloading: 100%|[32m██████████████████████████████████████████████████████████████████[0m|[0m


Unnamed: 0,id_bairro,nome,id_area_planejamento,id_regiao_planejamento,nome_regiao_planejamento,id_regiao_administrativa,nome_regiao_administrativa,subprefeitura,area,perimetro,geometry_wkt,geometry
0,2,Gamboa,1,1.1,Centro,1,Portuaria,Centro,1112903.0,4612.83363,POLYGON ((-43.18791509600138 -22.8931217212322...,"POLYGON((-43.1879150960014 -22.8931217212322, ..."
1,1,Saúde,1,1.1,Centro,1,Portuaria,Centro,363817.6,2646.220568,POLYGON ((-43.181151633502964 -22.895430284304...,"POLYGON((-43.181151633503 -22.8954302843042, -..."
2,4,Caju,1,1.1,Centro,1,Portuaria,Centro,5347481.0,19800.522524,MULTIPOLYGON (((-43.22522241788469 -22.8746498...,MULTIPOLYGON(((-43.196711909178 -22.8872495021...
3,3,Santo Cristo,1,1.1,Centro,1,Portuaria,Centro,1684721.0,6743.227885,POLYGON ((-43.194498082949806 -22.903378003392...,"POLYGON((-43.1944980829498 -22.9033780033923, ..."
4,161,Lapa,1,1.1,Centro,2,Centro,Centro,298325.8,3849.181818,POLYGON ((-43.18166120770202 -22.9120798224676...,"POLYGON((-43.181661207702 -22.9120798224677, -..."


O comando `%store` é utilizado para armazenar o registro de variáveis mesmo quando o kernel é reiniciado. Dessa forma, ao invés de termos que realizar o download dos dados todas as vezes que acessarmos o notebook, podemos restaurar o valor desta(s) variável(is) utilizando `%store -r`.

In [6]:
%store chamado_1746 eventos bairros

Stored 'chamado_1746' (DataFrame)
Stored 'eventos' (DataFrame)
Stored 'bairros' (DataFrame)


In [3]:
%store -r chamado_1746 eventos bairros

## 1.  Quantos chamados foram abertos no dia 01/04/2023?

In [4]:
chamados_abril = chamado_1746.loc[chamado_1746['data_inicio'].dt.date == datetime.date(2023, 4, 1)]

In [5]:
len(chamados_abril)

73

## 2. Qual o tipo de chamado que teve mais reclamações no dia 01/04/2023?

In [6]:
print(chamados_abril['tipo'].value_counts().idxmax())
print(chamados_abril['tipo'].value_counts().max())

Poluição sonora
24


## 3. Quais os nomes dos 3 bairros que mais tiveram chamados abertos nesse dia?

In [7]:
chamados_abril['id_bairro'].value_counts().reset_index(name='qtd_chamados').head(3)

Unnamed: 0,index,qtd_chamados
0,66,8
1,144,6
2,26,6


In [8]:
bairros[bairros['id_bairro'].isin(chamados_abril['id_bairro'].value_counts().head(3).index)]['nome'].reset_index(drop=True)

0               Leblon
1    Engenho de Dentro
2         Campo Grande
Name: nome, dtype: object

Assim, temos o bairro Engenho de Dentro com 8 chamados e os bairros Leblon e Campo Grande com 6 chamados realizados neste dia.

## 4. Qual o nome da subprefeitura com mais chamados abertos nesse dia?

In [9]:
bairros[bairros['id_bairro'] == chamados_abril['id_bairro'].value_counts().idxmax()]['subprefeitura']

51    Zona Norte
Name: subprefeitura, dtype: object

## 5. Existe algum chamado aberto nesse dia que não foi associado a um bairro ou subprefeitura na tabela de bairros? Se sim, por que isso acontece?

In [10]:
chamados_abril[chamados_abril['id_bairro'].isna()]

Unnamed: 0,id_chamado,data_inicio,data_fim,id_bairro,id_territorialidade,id_logradouro,numero_logradouro,id_unidade_organizacional,nome_unidade_organizacional,id_unidade_organizacional_mae,...,tempo_prazo,prazo_unidade,prazo_tipo,dentro_prazo,situacao,tipo_situacao,justificativa_status,reclamacoes,data_particao,geometry
214796,18516246,2023-04-01 00:55:38,2023-04-01 00:55:38,,,,,1706,TR/SUBOP/CFT - Coordenadoria de Fiscalização e...,SMTR - Secretaria Municipal de Transportes,...,,D,F,No prazo,Encerrado,Atendido parcialmente,,0,2023-04-01,


O chamado em questão possui "tipo "Ônibus" e subtipo "Verificação de ar condicionado inoperante no ônibus", que é um chamado que não se encaixaria em algum bairro específico. Como a associação entre as duas tabelas é feita através do campo id_bairro, não é necessário verificar as duas tabelas em relação à subprefeitura.

## 6. Quantos chamados com o subtipo "Perturbação do sossego" foram abertos desde 01/01/2022 até 31/12/2023 (incluindo extremidades)?

In [11]:
chamados_perturbacao = chamado_1746[chamado_1746['subtipo'] == 'Perturbação do sossego']

In [12]:
len(chamados_perturbacao)

42408

## 7. Selecione os chamados com esse subtipo que foram abertos durante os eventos contidos na tabela de eventos (Reveillon, Carnaval e Rock in Rio).

In [13]:
chamados_perturbacao_eventos = []

for _, row in eventos.iterrows():
    if row['evento'] in ['Carnaval', 'Reveillon', 'Rock in Rio']:
        c = chamados_perturbacao[chamados_perturbacao['data_inicio'].dt.date.between(row['data_inicial'], row['data_final'])]
        c['evento'] = row.evento
        chamados_perturbacao_eventos.append(c)

chamados_perturbacao_eventos = pd.concat(chamados_perturbacao_eventos, ignore_index=True)

In [14]:
chamados_perturbacao_eventos.head()

Unnamed: 0,id_chamado,data_inicio,data_fim,id_bairro,id_territorialidade,id_logradouro,numero_logradouro,id_unidade_organizacional,nome_unidade_organizacional,id_unidade_organizacional_mae,...,prazo_unidade,prazo_tipo,dentro_prazo,situacao,tipo_situacao,justificativa_status,reclamacoes,data_particao,geometry,evento
0,18077970,2022-12-30 18:43:04,2022-12-30 22:13:06,35,2,65805,2,70,GM-RIO - Guarda Municipal do Rio de Janeiro,GM-RIO - Guarda Municipal do Rio de Janeiro,...,D,F,No prazo,Encerrado,Atendido,,0,2022-12-01,POINT(-43.236608 -22.917704),Reveillon
1,18077984,2022-12-30 18:53:12,2022-12-30 22:13:46,35,2,65805,2,70,GM-RIO - Guarda Municipal do Rio de Janeiro,GM-RIO - Guarda Municipal do Rio de Janeiro,...,D,F,No prazo,Encerrado,Atendido,,0,2022-12-01,POINT(-43.236608 -22.917704),Reveillon
2,18078334,2022-12-30 22:37:46,NaT,17,2,71134,46,70,GM-RIO - Guarda Municipal do Rio de Janeiro,GM-RIO - Guarda Municipal do Rio de Janeiro,...,D,F,Fora do prazo,Não Encerrado,Andamento,,0,2022-12-01,POINT(-43.181432 -22.9332232),Reveillon
3,18079140,2022-12-31 13:57:43,NaT,89,3,40709,666,70,GM-RIO - Guarda Municipal do Rio de Janeiro,GM-RIO - Guarda Municipal do Rio de Janeiro,...,D,F,Fora do prazo,Não Encerrado,Andamento,,0,2022-12-01,,Reveillon
4,18079072,2022-12-31 13:05:19,2023-01-02 10:23:07,24,2,65896,171,70,GM-RIO - Guarda Municipal do Rio de Janeiro,GM-RIO - Guarda Municipal do Rio de Janeiro,...,D,F,No prazo,Encerrado,Não atendido,,0,2022-12-01,,Reveillon


In [15]:
chamados_perturbacao_eventos.shape

(1212, 33)

## 8. Quantos chamados desse subtipo foram abertos em cada evento?

In [16]:
chamados_perturbacao_eventos.groupby('evento').size().sort_values(ascending=False).reset_index(name='qtd_chamados')

Unnamed: 0,evento,qtd_chamados
0,Rock in Rio,834
1,Carnaval,241
2,Reveillon,137


## 9. Qual evento teve a maior média diária de chamados abertos desse subtipo?

In [17]:
media_diaria_eventos = chamados_perturbacao_eventos.groupby(['evento', chamados_perturbacao_eventos['data_inicio'].dt.date]).size().groupby('evento').mean().sort_values(ascending=False).reset_index(name='media_diaria')

In [18]:
media_diaria_eventos.max()

evento          Rock in Rio
media_diaria     119.142857
dtype: object

## 10. Compare as médias diárias de chamados abertos desse subtipo durante os eventos específicos (Reveillon, Carnaval e Rock in Rio) e a média diária de chamados abertos desse subtipo considerando todo o período de 01/01/2022 até 31/12/2023.

In [19]:
media_diaria_eventos

Unnamed: 0,evento,media_diaria
0,Rock in Rio,119.142857
1,Carnaval,60.25
2,Reveillon,45.666667


In [20]:
media_diaria_periodo = chamados_perturbacao.groupby(chamados_perturbacao['data_inicio'].dt.date).size().mean()
media_diaria_periodo

63.20119225037258