In [None]:
## Comandos para criar ambiente no anaconda e instalar great_expectations no lugar correto
# conda create --name myenv python=3.9.18
# conda activate myenv
# pip install great_expectations
# cd C:\Users\jlbma\OneDrive\Carreira\Curso Santander Coders\5 - Analytics Engineering\Projeto
# great_expectations init
# pip install sqlalchemy

## Módulo: Analytics Engineering
    
## Projeto: Engenharia de Dados e Garantia de Qualidade no Conjunto de Dados do Airbnb no Rio de Janeiro.

#### Introdução à Base de Dados do Airbnb

O conjunto de dados "Inside Airbnb", disponível no website "http://insideairbnb.com/", é uma valiosa fonte de informações sobre listagens de hospedagem, avaliações de hóspedes e disponibilidade de calendário em várias cidades ao redor do mundo, incluindo o Rio de Janeiro. Antes de prosseguirmos com a engenharia de dados, é importante entender os principais componentes deste conjunto de dados:

1. **Listing (Listagem):** Este conjunto de dados contém informações detalhadas sobre as propriedades listadas no Airbnb. Cada registro representa uma listagem individual e inclui informações como o tipo de propriedade, preço, localização, número de quartos, comodidades oferecidas e muito mais.

2. **Reviews (Avaliações):** O conjunto de dados de avaliações contém informações sobre as avaliações feitas por hóspedes que ficaram nas propriedades listadas. Ele inclui dados como a data da avaliação, o identificador da propriedade, os comentários escritos pelos hóspedes, e outras informações. 

3. **Calendar (Calendário):** Este conjunto de dados contém informações sobre a disponibilidade das propriedades ao longo do tempo. Ele lista as datas em que as propriedades estão disponíveis para reserva, bem como os preços para cada data.

O dicionário dos dados também está disponível no website: "http://insideairbnb.com/".

#### Passos do Projeto

1. **Aquisição de Dados e Armazenamento de Dados em PostgreSQL - Camada Bronze**
   - Baixe o conjunto de dados "Inside Airbnb" do Rio de Janeiro da fonte oficial (http://insideairbnb.com/) e promova uma estruturação simples nos dados.
   - Crie um banco de dados PostgreSQL para armazenar os dados brutos das 3 tabelas ("Listing", "Reviews" e Calendar") na camada "bronze".

<br>

2. **Data Clean - Camada Silver:**
   - Identifique e lide com valores ausentes, duplicatas e outliers nos dados brutos da camada "bronze".
   - Padronize e limpe os nomes das colunas, convertendo-os em um formato consistente.
   - Realize uma limpeza textual em campos, como descrições de propriedades, removendo caracteres especiais e erros de digitação.

<br>

3. **Data Quality - Camada Silver:**
   - Defina métricas de qualidade de dados, como integridade, precisão e consistência para os dados da camada "bronze".
   - Implemente verificações para garantir que os dados da camada "silver" estejam em conformidade com essas métricas.
   - Estabeleça um sistema de monitoramento contínuo da qualidade dos dados da camada "silver".

<br>

4. **Testes de Qualidade - Camada Silver:**
   - Utilize a biblioteca Great Expectations para criar testes de qualidade automatizados que verifiquem as expectativas definidas para os dados da camada "silver".
   - Desenvolva testes que assegurem que os dados da camada "silver" atendam às regras de negócios e aos requisitos de qualidade.

<br>

5. **Transformação de Dados com dbt - Camada Silver:**
   - Utilize a ferramenta dbt para criar a camada "silver" de dados, realizando transformações e preparando os dados da camada em questão.
   - Mantenha um controle de versão dos modelos dbt relacionados à camada "silver" e automatize a execução das transformações.

<br>

6. **Armazenamento de Dados em PostgreSQL - Camada Silver:**
   - Armazene os dados da camada "silver" no mesmo banco de dados PostgreSQL.
   - Estabeleça conexões entre o dbt e o PostgreSQL para carregar os dados transformados da camada "silver" no banco.

<br>

7. **Validação de Expectativas com Great Expectations - Camada Silver:**
   - Implemente validações adicionais usando Great Expectations nas camadas de dados da camada "silver".
   - Monitore a qualidade dos dados da camada "silver" após cada transformação e ajuste os testes de acordo.

<br>

8. **Transformação de Dados com dbt - Camada Gold:**
   - Utilize o dbt para criar a camada "gold" de dados, aplicando agregações especializadas, como médias de preços por propriedade, por período, e outras agregações especializadas.
   - Mantenha um controle de versão dos modelos dbt relacionados à camada "gold" e automatize a execução das transformações.
   - Armazene os dados da camada "gold" no mesmo banco de dados PostgreSQL, mantendo a estrutura de dados otimizada para consultas analíticas.

<br>

 9. **Apresentação e Discussão:**
    - Apresente os resultados do projeto para a turma, enfatizando os aspectos de engenharia de dados, qualidade de dados e uso de ferramentas como dbt, Great Expectations e o armazenamento em um banco de dados PostgreSQL nas camadas "bronze", "silver" e "gold".


In [1]:
import pandas as pd
import great_expectations as gx
import sqlalchemy as sqlal
from sqlalchemy import create_engine, text as sql_text

In [2]:
%load_ext sql

The sql module is not an IPython extension.


In [4]:
# Leitura com pandas
listing_bronze = pd.read_csv('listings.csv')
reviews_bronze = pd.read_csv('reviews.csv')
calendar_bronze = pd.read_csv('calendar.csv')

In [5]:
# visualizando
#listing_bronze.head(5)
#reviews_bronze.head(5)
calendar_bronze.head(5)

Unnamed: 0,listing_id,date,available,price,adjusted_price,minimum_nights,maximum_nights
0,17878,2023-09-23,f,$265.00,$265.00,5.0,28.0
1,17878,2023-09-24,t,$265.00,$265.00,5.0,28.0
2,17878,2023-09-25,f,$290.00,$290.00,5.0,28.0
3,17878,2023-09-26,f,$290.00,$290.00,5.0,28.0
4,17878,2023-09-27,f,$290.00,$290.00,5.0,28.0


#### salvando camada raw (bronze) no postgree

In [3]:
# Conexão
engine = create_engine('postgresql://postgres:22091102@localhost:5433/postgres') #conexão ao banco

In [7]:
# Salva no banco
calendar_bronze.to_sql('calendar_bronze', engine, if_exists='replace', index=False)

976

In [8]:
reviews_bronze.to_sql('reviews_bronze', engine, if_exists='replace', index=False)

307

In [9]:
listing_bronze.to_sql('listing_bronze', engine, if_exists='replace', index=False)

136

In [4]:
'''# Leitura da camada bronze

list_of_tables = ['calendar', 'reviews', 'listing']

for table in list_of_tables:
    query = f"""
    SELECT * FROM public."{table}_bronze"
    """

    table_name = f'{table}_silver'

    globals()[table_name] = pd.read_sql(sql=sql_text(query), con=engine.connect())


calendar_silver.head(5)'''

Unnamed: 0,listing_id,date,available,price,adjusted_price,minimum_nights,maximum_nights
0,17878,2023-09-23,f,$265.00,$265.00,5.0,28.0
1,17878,2023-09-24,t,$265.00,$265.00,5.0,28.0
2,17878,2023-09-25,f,$290.00,$290.00,5.0,28.0
3,17878,2023-09-26,f,$290.00,$290.00,5.0,28.0
4,17878,2023-09-27,f,$290.00,$290.00,5.0,28.0


### great_expectations

In [7]:
!pip install great_expectations



In [8]:
!pip show great_expectations

Name: great-expectations
Version: 0.17.22
Summary: Always know what to expect from your data.
Home-page: https://greatexpectations.io
Author: The Great Expectations Team
Author-email: team@greatexpectations.io
License: Apache-2.0
Location: c:\users\jlbma\anaconda3\envs\myenv\lib\site-packages
Requires: altair, Click, colorama, cryptography, Ipython, ipywidgets, jinja2, jsonpatch, jsonschema, makefun, marshmallow, mistune, nbformat, notebook, numpy, packaging, pandas, pydantic, pyparsing, python-dateutil, pytz, requests, ruamel.yaml, scipy, tqdm, typing-extensions, tzlocal, urllib3
Required-by: 


In [6]:
import great_expectations as gx

context = gx.get_context() #cria um contexto (inicialmente vazio)
print(context)

{
  "anonymous_usage_statistics": {
    "data_context_id": "18e48916-0ec7-4cc3-9369-bf7f5a5e9cab",
    "usage_statistics_url": "https://stats.greatexpectations.io/great_expectations/v1/usage_statistics",
    "explicit_id": true,
    "explicit_url": false,
    "enabled": true
  },
  "checkpoint_store_name": "checkpoint_store",
  "config_variables_file_path": "uncommitted/config_variables.yml",
  "config_version": 3.0,
  "data_docs_sites": {
    "local_site": {
      "class_name": "SiteBuilder",
      "show_how_to_buttons": true,
      "store_backend": {
        "class_name": "TupleFilesystemStoreBackend",
        "base_directory": "uncommitted/data_docs/local_site/"
      },
      "site_index_builder": {
        "class_name": "DefaultSiteIndexBuilder"
      }
    }
  },
  "datasources": {},
  "evaluation_parameter_store_name": "evaluation_parameter_store",
  "expectations_store_name": "expectations_store",
  "fluent_datasources": {
    "postgresql_datasource": {
      "type": "postgres"

In [11]:
#configurar uma database por string de conexão para o PostgreSQL
my_connection_string = (
    #"postgresql+psycopg2://<username>:<password>@<host>:<port>/<database>"
    "postgresql+psycopg2://postgres:22091102@localhost:5433/postgres"
)

In [13]:
pip install sqlalchemy

Note: you may need to restart the kernel to use updated packages.


In [14]:
pip install psycopg2

Note: you may need to restart the kernel to use updated packages.


In [16]:
#adiciona uma nova fonte de dados do tipo Postgres
datasource = context.sources.add_or_update_postgres(
    name="postgresql_datasource", connection_string=my_connection_string
)

In [14]:
context.list_datasources() #visualizar databases do contexto

[{'type': 'postgres',
  'name': 'postgresql_datasource',
  'connection_string': PostgresDsn('postgresql+psycopg2://postgres:22091102@localhost:5433/postgres', )}]

In [17]:
#criando assets bronze

list_of_tables = ['calendar', 'reviews', 'listing']

for table in list_of_tables:
    asset_name = f"{table}_bronze"
    asset_query = f'''SELECT * FROM public.{table}_bronze
    LIMIT 100'''
    query_asset = datasource.add_query_asset(name=asset_name, query=asset_query)

In [18]:
context.list_datasources()

[{'type': 'postgres',
  'name': 'postgresql_datasource',
  'assets': [{'name': 'calendar_bronze',
    'type': 'query',
    'order_by': [],
    'batch_metadata': {},
    'query': 'SELECT * FROM public.calendar_bronze\n    LIMIT 100'},
   {'name': 'reviews_bronze',
    'type': 'query',
    'order_by': [],
    'batch_metadata': {},
    'query': 'SELECT * FROM public.reviews_bronze\n    LIMIT 100'},
   {'name': 'listing_bronze',
    'type': 'query',
    'order_by': [],
    'batch_metadata': {},
    'query': 'SELECT * FROM public.listing_bronze\n    LIMIT 100'}],
  'connection_string': PostgresDsn('postgresql+psycopg2://postgres:22091102@localhost:5433/postgres', )}]

In [19]:
## Agora que existe uma fonte de dados e seus componetes ("datasource" e "data asset"), pode-se adquirir uma amostra desses dados chamado de "Batch":

my_datasource = context.get_datasource("postgresql_datasource") #Fonte de dados Postgres

my_table_asset_calendar_bronze = my_datasource.get_asset(asset_name="calendar_bronze") #Asset da tabela calendar_bronze
my_table_asset_reviews_bronze = my_datasource.get_asset(asset_name="reviews_bronze") #Asset da tabela reviews_bronze
my_table_asset_listing_bronze = my_datasource.get_asset(asset_name="listing_bronze") #Asset da tabela listing_bronze

batch_request_calendar_bronze = my_table_asset_calendar_bronze.build_batch_request() #Resgata os dados do asset calendar_bronze
batch_request_reviews_bronze = my_table_asset_reviews_bronze.build_batch_request() #Resgata os dados do asset reviews_bronze
batch_request_listing_bronze = my_table_asset_listing_bronze.build_batch_request() #Resgata os dados do asset listing_bronze

In [20]:
# Adiciona um conjunto de expectativas
context.add_or_update_expectation_suite("suit_calendar_silver")
context.add_or_update_expectation_suite("suit_review_silver")
context.add_or_update_expectation_suite("suit_listing_silver")

{
  "expectation_suite_name": "suit_listing_silver",
  "ge_cloud_id": null,
  "expectations": [],
  "data_asset_type": null,
  "meta": {
    "great_expectations_version": "0.17.22"
  }
}

In [23]:
# A partir da amostra "Batch" e do conjunto de expectativas "Expectation Suite" cria um validador:

validator_calendar_silver = context.get_validator(
    batch_request=batch_request_calendar_bronze,
    expectation_suite_name="suit_calendar_silver",
)

validator_review_silver = context.get_validator(
    batch_request=batch_request_reviews_bronze,
    expectation_suite_name="suit_review_silver",
)

validator_listing_silver = context.get_validator(
    batch_request=batch_request_listing_bronze,
    expectation_suite_name="suit_listing_silver",
)

validator_listing_silver.head()

Calculating Metrics:   0%|          | 0/1 [00:00<?, ?it/s]

Unnamed: 0,id,listing_url,scrape_id,last_scraped,source,name,description,neighborhood_overview,picture_url,host_id,...,review_scores_communication,review_scores_location,review_scores_value,license,instant_bookable,calculated_host_listings_count,calculated_host_listings_count_entire_homes,calculated_host_listings_count_private_rooms,calculated_host_listings_count_shared_rooms,reviews_per_month
0,231497,https://www.airbnb.com/rooms/231497,20230922043705,2023-09-22,city scrape,Rental unit in Rio de Janeiro · ★4.73 · 1 bedr...,"This is a big studio at the end of Copacabana,...",,https://a0.muscache.com/pictures/3582382/ee8ac...,1207700,...,4.92,4.9,4.65,,f,4,4,0,0,0.54
1,231516,https://www.airbnb.com/rooms/231516,20230922043705,2023-09-22,city scrape,Rental unit in Rio de Janeiro · ★4.71 · 1 bedr...,"Special location of the building, on Copacaban...",,https://a0.muscache.com/pictures/3671683/d74b4...,1207700,...,4.86,4.93,4.38,,f,4,4,0,0,0.2
2,236991,https://www.airbnb.com/rooms/236991,20230922043705,2023-09-23,city scrape,Rental unit in Rio de Janeiro · ★4.89 · 1 bedr...,"Aconchegante, amplo, básico, arejado, iluminad...","Copacabana, apelidada a princesinha do mar, fa...",https://a0.muscache.com/pictures/5725a59b-147d...,1241662,...,4.96,4.99,4.89,,f,2,2,0,0,0.65
3,17878,https://www.airbnb.com/rooms/17878,20230922043705,2023-09-23,city scrape,Condo in Rio de Janeiro · ★4.70 · 2 bedrooms ·...,Please note that elevated rates applies for Ne...,This is the one of the bests spots in Rio. Bec...,https://a0.muscache.com/pictures/65320518/3069...,68997,...,4.91,4.77,4.67,,f,1,1,0,0,1.87
4,900709,https://www.airbnb.com/rooms/900709,20230922043705,2023-09-22,city scrape,Rental unit in Rio de Janeiro · 1 bedroom · 1 ...,"Gorgeous apt 2 rooms,1 bedroom,kitchen, bathro...",,https://a0.muscache.com/pictures/13585778/f2f2...,2649464,...,,,,,f,1,1,0,0,


In [None]:
# Definir validações a serem realizadas em cada uma das colunas de cada tabela

# (...)

In [None]:
# Salvar conjunto de validações realizadas (definir descarte ou não das falhas)

validator_calendar_silver.save_expectation_suite(discard_failed_expectations=False)

validator_review_silver.save_expectation_suite(discard_failed_expectations=False)

validator_listing_silver.save_expectation_suite(discard_failed_expectations=False)

In [None]:
# Cria um checkpoint p/ cada validador <- passagem de gold p/ silver* e silver p/ gold (* o primeiro não foi realizado)
checkpoint_calendar_silver = context.add_or_update_checkpoint(
    name="checkpoint_silver_filter",
    validator=validator_calendar_silver
)

checkpoint_review_silver = context.add_or_update_checkpoint(
    name="checkpoint_silver_filter",
    validator=validator_review_silver
)

checkpoint_listing_silver = context.add_or_update_checkpoint(
    name="checkpoint_silver_filter",
    validator=validator_listing_silver
)