# Análise Exploratória da Base de Dados Chamado 1746

##### Autor: Thiago Vilarinho Lemes 
##### Data: 10/02/2024

## Análise Exploratória

In [3]:
# Importando as bibliotecas necessárias
from google.cloud import bigquery
import os
import pandas as pd

# Arquivo com a configurações para acessar o GCP
os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = '../key_only_read.json'

# Nome do projeto no GCP
project_id  = 'projeto-desafio-dados-rio'

client      = bigquery.Client(project=project_id)

sql         = "SELECT * FROM datario.administracao_servicos_publicos.chamado_1746 LIMIT 50000;"

df          = client.query(sql).to_dataframe()

df.head(3)


Unnamed: 0,id_chamado,data_inicio,data_fim,id_bairro,id_territorialidade,id_logradouro,numero_logradouro,id_unidade_organizacional,nome_unidade_organizacional,id_unidade_organizacional_mae,...,tempo_prazo,prazo_unidade,prazo_tipo,dentro_prazo,situacao,tipo_situacao,justificativa_status,reclamacoes,data_particao,geometry
0,852072,2011-12-14 19:44:59,NaT,122,4,49072,674,9,CGC - Coordenadoria Geral de Conservação,SECONSERVA,...,,D,D,Fora do prazo,Não Encerrado,Andamento,,0,2011-12-01,POINT(-43.3868685 -22.9171405)
1,828573,2011-12-06 11:09:28,NaT,142,5,18226,3470,9,CGC - Coordenadoria Geral de Conservação,SECONSERVA,...,,D,D,Fora do prazo,Não Encerrado,Andamento,,0,2011-12-01,
2,817326,2011-12-01 09:10:54,NaT,151,5,21477,471,9,CGC - Coordenadoria Geral de Conservação,SECONSERVA,...,,D,D,Fora do prazo,Não Encerrado,Andamento,,0,2011-12-01,


In [4]:
# Verificando a quantidade de registro e colunas
df_size = df.shape
print(f'Total de registros: {df_size[0]}')
print(f'Total de colunas: {df_size[1]}')

Total de registros: 50000
Total de colunas: 32


In [5]:
# Verificando informações dos tipos dos dados
df.info() 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Data columns (total 32 columns):
 #   Column                            Non-Null Count  Dtype         
---  ------                            --------------  -----         
 0   id_chamado                        50000 non-null  object        
 1   data_inicio                       50000 non-null  datetime64[ns]
 2   data_fim                          49996 non-null  datetime64[ns]
 3   id_bairro                         45953 non-null  object        
 4   id_territorialidade               45953 non-null  object        
 5   id_logradouro                     45953 non-null  object        
 6   numero_logradouro                 45001 non-null  Int64         
 7   id_unidade_organizacional         50000 non-null  object        
 8   nome_unidade_organizacional       50000 non-null  object        
 9   id_unidade_organizacional_mae     50000 non-null  object        
 10  unidade_organizacional_ouvidoria  50000 non-nu

In [7]:
# Verificando os tipos de variáveis
df.dtypes

id_chamado                                  object
data_inicio                         datetime64[ns]
data_fim                            datetime64[ns]
id_bairro                                   object
id_territorialidade                         object
id_logradouro                               object
numero_logradouro                            Int64
id_unidade_organizacional                   object
nome_unidade_organizacional                 object
id_unidade_organizacional_mae               object
unidade_organizacional_ouvidoria            object
categoria                                   object
id_tipo                                     object
tipo                                        object
id_subtipo                                  object
subtipo                                     object
status                                      object
longitude                                  float64
latitude                                   float64
data_alvo_finalizacao          

In [9]:
# Verificando Quarteto
df.describe()

Unnamed: 0,numero_logradouro,longitude,latitude,tempo_prazo,reclamacoes
count,45001.0,29067.0,29067.0,0.0,50000.0
mean,833.216706,-43.301667,-22.909701,,0.0009
std,49788.116331,0.116731,0.11659,,0.046682
min,0.0,-47.500442,-23.057973,,0.0
25%,41.0,-43.354425,-22.94076,,0.0
50%,147.0,-43.280648,-22.913178,,0.0
75%,405.0,-43.208203,-22.880108,,0.0
max,10381031.0,-42.102922,-4.943207,,7.0


In [11]:
# Verificando o Quarteto do type object
df.describe(include='object')

Unnamed: 0,id_chamado,id_bairro,id_territorialidade,id_logradouro,id_unidade_organizacional,nome_unidade_organizacional,id_unidade_organizacional_mae,unidade_organizacional_ouvidoria,categoria,id_tipo,...,id_subtipo,subtipo,status,prazo_unidade,prazo_tipo,dentro_prazo,situacao,tipo_situacao,justificativa_status,geometry
count,50000,45953,45953,45953,50000,50000,50000,50000,50000,50000,...,50000,50000,50000,49529,49529,50000,50000,50000,5,29067
unique,50000,159,5,8308,193,193,23,1,1,83,...,436,436,11,2,2,2,2,5,3,17180
top,852072,144,3,68627,118,COMLURB - Companhia Municipal de Limpeza Urbana,COMLURB - Companhia Municipal de Limpeza Urbana,False,Serviço,281,...,1325,Remoção de entulho e bens inservíveis,Fechado com solução,D,F,No prazo,Encerrado,Atendido,"Por depender de terceiros, o serviço não pode ...",POINT(-43.4381311 -23.0076006)
freq,1,2253,16445,264,24070,24070,24070,50000,50000,14981,...,14981,14981,37462,42147,47635,43443,49996,37462,2,74


In [6]:
# Verificando a somatória dos dados nulos e vazios
df.isnull().sum() 

id_chamado                              0
data_inicio                             0
data_fim                                4
id_bairro                            4047
id_territorialidade                  4047
id_logradouro                        4047
numero_logradouro                    4999
id_unidade_organizacional               0
nome_unidade_organizacional             0
id_unidade_organizacional_mae           0
unidade_organizacional_ouvidoria        0
categoria                               0
id_tipo                                 0
tipo                                    0
id_subtipo                              0
subtipo                                 0
status                                  0
longitude                           20933
latitude                            20933
data_alvo_finalizacao                1822
data_alvo_diagnostico                2072
data_real_diagnostico               48376
tempo_prazo                         50000
prazo_unidade                     

In [3]:
# Verificando a somatória dos dados nulos e vazios % 
df.isnull().sum()/df.shape[0] 

id_chamado                          0.0
data_inicio                         0.0
data_fim                            0.0
id_bairro                           0.0
id_territorialidade                 0.0
id_logradouro                       0.0
numero_logradouro                   0.1
id_unidade_organizacional           0.0
nome_unidade_organizacional         0.0
id_unidade_organizacional_mae       0.0
unidade_organizacional_ouvidoria    0.0
categoria                           0.0
id_tipo                             0.0
tipo                                0.0
id_subtipo                          0.0
subtipo                             0.0
status                              0.0
longitude                           0.5
latitude                            0.5
data_alvo_finalizacao               0.0
data_alvo_diagnostico               1.0
data_real_diagnostico               1.0
tempo_prazo                         1.0
prazo_unidade                       0.0
prazo_tipo                          0.0
