# Projeto Final | Analytics Engineering
----
**Engenharia de Dados e Garantia de Qualidade no Conjunto de Dados do Airbnb no Rio de Janeiro**

# Etapa 1:

**Aquisição de Dados e Armazenamento de Dados em PostgreSQL - Camada Bronze**

   - Baixe o conjunto de dados "Inside Airbnb" do Rio de Janeiro da fonte oficial (http://insideairbnb.com/) e promova uma estruturação simples nos dados.
   - Crie um banco de dados PostgreSQL para armazenar os dados brutos das 3 tabelas ("Listing", "Reviews" e Calendar") na camada "bronze".

## Bibliotecas

In [1]:
## Instalar bibliotecas
!pip install ipython-sql
!pip install sqlalchemy
!pip install psycopg2



In [1]:
from sqlalchemy import create_engine, text as sql_text
import pandas as pd
import datetime

import os

### Chamada da biblioteca para usar o SQL

In [2]:
%load_ext sql

## Informações do banco de dados

In [3]:
# Importar dados de conexão com o banco do arquivo config.py
from config import db_user, db_password, db_host, db_name

Estabelecer uma conexão com um banco de dados PostgreSQL:

> Especifica o tipo de banco de dados (*PostgreSQL*), o usuário (*db_user*), a senha (*db_password*), o host (*db_host*) e o nome do banco de dados (*db_name*).

In [4]:
# Configurar a string de conexão
connection_string = f'postgresql://{db_user}:{db_password}@{db_host}/{db_name}'

In [5]:
# Configurar a variável de ambiente DATABASE_URL com uma string de conexão ao banco
os.environ['DATABASE_URL'] = connection_string

In [6]:
# Conectar ao banco de dados
%sql $DATABASE_URL

Criar uma instância de conexão com um banco de dados PostgreSQL usando a biblioteca SQLAlchemy:

> A função create_engine é usada para criar um objeto de engine SQLAlchemy, que gerencia a conexão com o banco de dados.

> A partir desse objeto engine, você pode então criar uma sessão para executar consultas no banco de dados, usando o SQLAlchemy.

In [7]:
engine = create_engine(connection_string)

In [8]:
# Testar a conexão
try:
    with engine.connect():
        print("Conexão bem sucedida!")
except Exception as e:
    print("Erro ao conectar:", e)

Conexão bem sucedida!


## Camada Bronze - Ingestão e Análise dos Dados

### Criar o esquema "bronze" no banco de dados PostgreSQL

In [9]:
%%sql
CREATE SCHEMA IF NOT EXISTS bronze;

### Criar dataframes Pandas e armazenar no Banco de dados

In [10]:
path = './dados/'

In [11]:
## Tabela Listing

df_listings = pd.read_csv(path + 'listings.csv')
# df_listings.head(2)

In [12]:
# Salvar o DataFrame na tabela "listings" dentro do esquema "bronze"
df_listings.to_sql('listings', engine, schema='bronze', if_exists='replace', index=False)

256

In [18]:
### Comando SQL com o Pandas
query = """
SELECT * FROM bronze.listings LIMIT 2
"""
df = pd.read_sql(sql=sql_text(query), con=engine.connect())
df

Unnamed: 0,id,listing_url,scrape_id,last_scraped,source,name,description,neighborhood_overview,picture_url,host_id,...,review_scores_communication,review_scores_location,review_scores_value,license,instant_bookable,calculated_host_listings_count,calculated_host_listings_count_entire_homes,calculated_host_listings_count_private_rooms,calculated_host_listings_count_shared_rooms,reviews_per_month
0,297908,https://www.airbnb.com/rooms/297908,20231226034138,2023-12-26,city scrape,Guesthouse in Rio de Janeiro · ★4.91 · 1 bedro...,,,https://a0.muscache.com/pictures/ab3eeb66-7089...,690494,...,4.97,4.86,4.81,,t,1,1,0,0,0.59
1,167031,https://www.airbnb.com/rooms/167031,20231226034138,2023-12-27,city scrape,Rental unit in Rio de Janeiro · ★4.65 · 1 bedr...,,Peace and mood !,https://a0.muscache.com/pictures/9954983/b8a05...,792218,...,4.89,4.92,4.54,,f,10,10,0,0,0.62


In [16]:
## Tabela Reviews
df_reviews = pd.read_csv(path + 'reviews.csv')

In [17]:
# Salvar o DataFrame na tabela "reviews" dentro do esquema "bronze"
df_reviews.to_sql('reviews', engine, schema='bronze', if_exists='replace', index=False)

796

Comando SQL

In [20]:
%%sql

SELECT * FROM bronze.reviews LIMIT 2

listing_id,id,date,reviewer_id,reviewer_name,comments
17878,64852,2010-07-15,135370,Tia,"This apartment is in a perfect location -- two blocks from the beach and two blocks from the Copacabana Palace (where anyone famous stays when they are in Rio), which means it´s a very safe neighborhood. The pictures very accurately depict what the apartment is like, so you´ll have no surprises. Max is very communicative and helpful. The four of us that stayed here would highly recommend it."
216700,1511171,2012-06-18,2598011,Evelyn,"A estada foi maravilhosa, ficamos so 3 noites se pudessemos ficariamos mais... mas com certeza voltaremos...o lugar eh maravilhoso, quando chegamos fomos muito bem atendidos, ja nos sentiamos em casa... o bairro eh otimo tem tudo pertinho, fica ao lado do cristo da pra ir a pé tranquilamente... nivel segurança sem comentarios... o quarto eh espacoso e bem confortavel, tem uma vista linda da sacada para quem gosta de natureza os morros arborizados e os passaros cantarolando de manha cedinho ... Tem uma padaria embaixo do predio, mercados farmacias tudo ao alcance... para ir a praia so pegar onibus no final da rua e tudo bem deservido... A moara é uma pessoa queridissima, nos deu otimos conselhos e muita atencao.. sem duvida recomendamos a hospedagem... Saimos bem contentes e satisfeitos do rio e ja estamos planejando a volta.... Nao percam a oportunidade!!!"


In [21]:
## Tabela Calendar
df_calendar = pd.read_csv(path + 'calendar.csv')

In [22]:
# Salvar o DataFrame na tabela "calendar" dentro do esquema "bronze"
df_calendar.to_sql('calendar', engine, schema='bronze', if_exists='replace', index=False)

595

In [23]:
%%sql

SELECT * FROM bronze.calendar LIMIT 2

listing_id,date,available,price,adjusted_price,minimum_nights,maximum_nights
17878,2023-12-27,f,$350.00,,5.0,28.0
17878,2023-12-28,f,$350.00,,5.0,28.0


# Etapa 2:

**Data Clean - Camada Silver**

   - Identifique e lide com valores ausentes, duplicatas e outliers nos dados brutos da camada "bronze".
   - Padronize e limpe os nomes das colunas, convertendo-os em um formato consistente.
   - Realize uma limpeza textual em campos, como descrições de propriedades, removendo caracteres especiais e erros de digitação.

## Camada Silver - Limpeza de Dados e Criação de colunas

### Leitura das tabelas bronze

In [24]:
query = """
SELECT * FROM bronze.listings
"""
df_silver_listings = pd.read_sql(sql=sql_text(query), con=engine.connect())

In [25]:
query = """
SELECT * FROM bronze.reviews
"""
df_silver_reviews = pd.read_sql(sql=sql_text(query), con=engine.connect())

In [26]:
query = """
SELECT * FROM bronze.calendar
"""
df_silver_calendar = pd.read_sql(sql=sql_text(query), con=engine.connect())

# Etapa 3:

**Data Quality - Camada Silver**

   - Defina métricas de qualidade de dados, como integridade, precisão e consistência para os dados da camada "bronze".
   - Implemente verificações para garantir que os dados da camada "silver" estejam em conformidade com essas métricas.
   - Estabeleça um sistema de monitoramento contínuo da qualidade dos dados da camada "silver".

# Etapa 4:

**Testes de Qualidade - Camada Silver**

   - Utilize a biblioteca Great Expectations para criar testes de qualidade automatizados que verifiquem as expectativas definidas para os dados da camada "silver".
   - Desenvolva testes que assegurem que os dados da camada "silver" atendam às regras de negócios e aos requisitos de qualidade.