# Análise Exploratória da Base de Dados Rede Hoteleira Ocupacao Eventos

##### Autor: Thiago Vilarinho Lemes 
##### Data: 10/02/2024

## Análise Exploratória

In [1]:
# Importando as bibliotecas necessárias
from google.cloud import bigquery
import os
import pandas as pd

# Arquivo com a configurações para acessar o GCP
os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = '../key_only_read.json'

# Nome do projeto no GCP
project_id  = 'projeto-desafio-dados-rio'

client      = bigquery.Client(project=project_id)

sql         = "SELECT * FROM datario.turismo_fluxo_visitantes.rede_hoteleira_ocupacao_eventos;"

df          = client.query(sql).to_dataframe()

df.head(3)


Unnamed: 0,ano,data_inicial,data_final,evento,taxa_ocupacao
0,18/02 a 21/02 de 2023,2023-02-18,2023-02-21,Carnaval,0.9554
1,30-31/12 e 01/01 (2022-2023),2022-12-30,2023-01-01,Reveillon,0.9251
2,02/09 a 04/09 de 2022,2022-09-02,2022-09-04,Rock in Rio,0.8184


In [2]:
# Verificando a quantidade de registro e colunas
df_size = df.shape
print(f'Total de registros: {df_size[0]}')
print(f'Total de colunas: {df_size[1]}')

Total de registros: 4
Total de colunas: 5


In [3]:
# Verificando informações dos tipos dos dados
df.info() 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   ano            4 non-null      object 
 1   data_inicial   4 non-null      dbdate 
 2   data_final     4 non-null      dbdate 
 3   evento         4 non-null      object 
 4   taxa_ocupacao  4 non-null      float64
dtypes: dbdate(2), float64(1), object(2)
memory usage: 288.0+ bytes


In [4]:
# Verificando os tipos de variáveis
df.dtypes

ano               object
data_inicial      dbdate
data_final        dbdate
evento            object
taxa_ocupacao    float64
dtype: object

In [5]:
# Verificando Quarteto
df.describe()

Unnamed: 0,taxa_ocupacao
count,4.0
mean,0.911
std,0.063002
min,0.8184
25%,0.898425
50%,0.9351
75%,0.947675
max,0.9554


In [6]:
# Verificando o Quarteto do type object
df.describe(include='object')

Unnamed: 0,ano,evento
count,4,4
unique,4,3
top,18/02 a 21/02 de 2023,Rock in Rio
freq,1,2


In [7]:
# Verificando a somatória dos dados nulos e vazios
df.isnull().sum() 

ano              0
data_inicial     0
data_final       0
evento           0
taxa_ocupacao    0
dtype: int64

In [8]:
# Verificando a somatória dos dados nulos e vazios % 
df.isnull().sum()/df.shape[0] 

ano              0.0
data_inicial     0.0
data_final       0.0
evento           0.0
taxa_ocupacao    0.0
dtype: float64