In [27]:
import pandas as pd
import psycopg2
import numpy as np
import re
from sqlalchemy import create_engine, text as sql_text
import datetime
from ydata_profiling import ProfileReport

# Bronze

Conjunto de dados:  "Inside Airbnb"

Passo a Passo:
1. Vá no link https://insideairbnb.com/get-the-data
2. Procure por "Rio de Janeiro"
3. Baixe os 3 .csv: "Listing", "Reviews" e Calendar" 

0bs: Caso queira pular estes passos, basta utilizar os .csvs que já estão nessa pasta: https://drive.google.com/drive/folders/1pwCpVsMu5si7BX1lzWX3tipP3fAPuoX3?usp=drive_link

Criação do banco de dados PostgreSQL com as 3 tabelas ("Listing", "Reviews" e Calendar"):
1. Rode o arquivo 'create_tables.sql'
2. Rode o arquivo 'copy.sql' alterando o caminho para seus .csvs localmente
3. Crie sua conexão abaixo (não exclua as demais)

In [37]:
# James:
#conn = psycopg2.connect(dbname='airbnb_project', user='postgres', host='localhost', password='123456', port="5432")

# Marcela: 
conn = psycopg2.connect(dbname='myDBProject', user='postgres', host='localhost', password='0125698741', port="5433")
db_params = {
    'dbname': 'myDBProject',
    'user': 'postgres',
    'host': 'localhost',
    'password': '0125698741',
    'port': '5433'
}
db_url = f'postgresql+psycopg2://{db_params["user"]}:{db_params["password"]}@{db_params["host"]}:{db_params["port"]}/{db_params["dbname"]}'


Carregue os dados das tabelas 'listings' , 'reviews' , 'calendar':

In [6]:
def load_data_from_table(table_name):
    query = f"SELECT * FROM {table_name};"
    df = pd.read_sql_query(query, conn)
    return df

df_listings_bronze = load_data_from_table('listings')
df_reviews_bronze = load_data_from_table('reviews')
df_calendar_bronze = load_data_from_table('calendar')

  df = pd.read_sql_query(query, conn)


In [7]:
print("Número de linhas e colunas:", df_listings_bronze.shape)
print("Duas primeiras linhas:")
df_listings_bronze.head(2)

Número de linhas e colunas: (36008, 75)
Duas primeiras linhas:


Unnamed: 0,id,listing_url,scrape_id,last_scraped,source,name,description,neighborhood_overview,picture_url,host_id,...,review_scores_communication,review_scores_location,review_scores_value,license,instant_bookable,calculated_host_listings_count,calculated_host_listings_count_entire_homes,calculated_host_listings_count_private_rooms,calculated_host_listings_count_shared_rooms,reviews_per_month
0,17878,https://www.airbnb.com/rooms/17878,20231226034138,2023-12-27,city scrape,Condo in Rio de Janeiro · ★4.70 · 2 bedrooms ·...,,This is the one of the bests spots in Rio. Bec...,https://a0.muscache.com/pictures/65320518/3069...,68997,...,4.91,4.77,4.67,,False,1,1,0,0,1.9
1,25026,https://www.airbnb.com/rooms/25026,20231226034138,2023-12-27,city scrape,Rental unit in Rio de Janeiro · ★4.72 · 1 bedr...,,Copacabana is a lively neighborhood and the ap...,https://a0.muscache.com/pictures/a745aa21-b8dd...,102840,...,4.92,4.84,4.6,,False,1,1,0,0,1.67


In [8]:
print("Número de linhas e colunas:", df_reviews_bronze.shape)
print("Duas primeiras linhas:")
df_reviews_bronze.head(2)

Número de linhas e colunas: (703796, 6)
Duas primeiras linhas:


Unnamed: 0,listing_id,id,date,reviewer_id,reviewer_name,comments
0,17878,64852,2010-07-15,135370,Tia,This apartment is in a perfect location -- two...
1,216700,1511171,2012-06-18,2598011,Evelyn,"A estada foi maravilhosa, ficamos so 3 noites ..."


In [9]:
print("Número de linhas e colunas:", df_calendar_bronze.shape)
print("Duas primeiras linhas:")
df_calendar_bronze.head(2)

Número de linhas e colunas: (13145595, 7)
Duas primeiras linhas:


Unnamed: 0,listing_id,date,available,price,adjusted_price,minimum_nights,maximum_nights
0,17878,2023-12-27,False,$350.00,,5.0,28.0
1,17878,2023-12-28,False,$350.00,,5.0,28.0


# Silver

In [10]:
df_listings_silver = df_listings_bronze
df_reviews_silver = df_reviews_bronze
df_calendar_silver = df_calendar_bronze

## Data Clean

### Valores ausentes, duplicadas e outliers
- Identifique e lide com valores ausentes, duplicatas e outliers nos dados brutos da camada "bronze".


In [11]:
def remove_valores_ausentes(df):
    pass

In [12]:
def remove_duplicatas(df):
    pass

In [13]:
def remove_outliers(df):
    pass

In [14]:
#def clean_data(df):
    # Identificar e lidar com valores ausentes
    #df = df.replace('', np.nan)  # substituir strings vazias por NaN
    #df = df.dropna()  # remover linhas com valores NaN

    # Lidar com duplicatas
    #df = df.drop_duplicates()

    # Lidar com outliers
    # Aqui, usamos o método do Intervalo Interquartil (IQR) para identificar e remover outliers
    # Este é apenas um exemplo e pode não ser adequado para todos os conjuntos de dados ou colunas
    #Q1 = df.quantile(0.25)
    #Q3 = df.quantile(0.75)
    #IQR = Q3 - Q1
    #df = df[~((df < (Q1 - 1.5 * IQR)) | (df > (Q3 + 1.5 * IQR))).any(axis=1)]

    #return df

In [15]:
# Exemplo de uso:
#df_listings_silver = clean_data(df_listings_silver)
#df_reviews_silver = clean_data(df_reviews_silver)
#df_calendar_silver = clean_data(df_calendar_silver)

### Padronizacao de colunas
- Padronize e limpe os nomes das colunas, convertendo-os em um formato consistente.


In [16]:
def clean_column_names(df):
    # Remover espaços e converter para minúsculas
    df.columns = df.columns.str.replace(' ', '_').str.lower()
    return df

In [17]:
# df_listings_silver = clean_column_names(df_listings_silver)
# df_reviews_silver = clean_column_names(df_reviews_silver)
# df_calendar_silver = clean_column_names(df_calendar_silver)

In [18]:
def converte_formato(df):
    # Iterar sobre todas as colunas do DataFrame
    for column_name in df.columns:
        # Identificar o tipo de dados da coluna
        dtype = df[column_name].dtype

        # Transformar a coluna para o mesmo tipo de dados
        df[column_name] = df[column_name].astype(dtype)

    return df

In [19]:
#df_calendar_silver = converte_formato(df_calendar_silver)
#df_listings_silver = converte_formato(df_listings_silver)
#df_reviews_silver  = converte_formato(df_reviews_silver)

In [20]:
def tratar_df_reviews(df):
    df['date'] = pd.to_datetime(df['date'])

    return df

In [21]:
#df_reviews_silver = tratar_df_reviews(df_reviews_silver)
#df_reviews_silver.dtypes

### Limpeza textual
- Realize uma limpeza textual em campos, como descrições de propriedades, removendo caracteres especiais e erros de digitação.


In [22]:
def clean_text(text):
    if isinstance(text, str):
        # Remove caracteres especiais e mantém apenas letras, números, espaços e pontuações
        cleaned_text = re.sub(r'[^a-zA-Z0-9\s.,]', '', text)
        # Remove espaços extras e mantém apenas um espaço entre palavras
        cleaned_text = re.sub(r'\s+', ' ', cleaned_text)
        return cleaned_text
    else:
        return text

In [23]:
df_listings_silver['description_cleaned'] = df_listings_silver['description'].apply(clean_text)
df_listings_silver['host_about_cleaned'] = df_listings_silver['host_about'].apply(clean_text)

In [24]:
df_listings_silver.head(2)

Unnamed: 0,id,listing_url,scrape_id,last_scraped,source,name,description,neighborhood_overview,picture_url,host_id,...,review_scores_value,license,instant_bookable,calculated_host_listings_count,calculated_host_listings_count_entire_homes,calculated_host_listings_count_private_rooms,calculated_host_listings_count_shared_rooms,reviews_per_month,description_cleaned,host_about_cleaned
0,17878,https://www.airbnb.com/rooms/17878,20231226034138,2023-12-27,city scrape,Condo in Rio de Janeiro · ★4.70 · 2 bedrooms ·...,,This is the one of the bests spots in Rio. Bec...,https://a0.muscache.com/pictures/65320518/3069...,68997,...,4.67,,False,1,1,0,0,1.9,,I am a journalistwriter. Lived in NYC for 15 y...
1,25026,https://www.airbnb.com/rooms/25026,20231226034138,2023-12-27,city scrape,Rental unit in Rio de Janeiro · ★4.72 · 1 bedr...,,Copacabana is a lively neighborhood and the ap...,https://a0.muscache.com/pictures/a745aa21-b8dd...,102840,...,4.6,,False,1,1,0,0,1.67,,"Hi guys, Viviane is a commercial photographer,..."


In [25]:
#def clean_data_specific(df):
#    for col in df.columns:
#        if df[col].dtype == 'object':  # se a coluna é do tipo texto
#            df[col] = df[col].apply(clean_text)
#            Se a coluna deve ser numérica, converta-a
#            if col in ['host_response_rate', 'host_acceptance_rate', 'price']:
                #df[col] = df[col].str.replace('%', '').str.replace('$', '').astype(float)
#        elif df[col].dtype in ['int64', 'float64']:  # se a coluna é numérica
#            df[c ol] = df[col].fillna(0)  # preenche valores ausentes com 0
#        elif df[col].dtype == 'datetime64':  # se a coluna é uma data/hora
#           df[col] = pd.to_datetime(df[col], errors='coerce')  # converte para o tipo de data correto
#    return df

## Data Quality

- Defina métricas de qualidade de dados, como integridade, precisão e consistência para os dados da camada "bronze".
- Implemente verificações para garantir que os dados da camada "silver" estejam em conformidade com essas métricas.
- Estabeleça um sistema de monitoramento contínuo da qualidade dos dados da camada "silver".


Listing (Listagem): Este conjunto de dados contém informações detalhadas sobre as propriedades listadas no Airbnb. Cada registro representa uma listagem individual e inclui informações como o tipo de propriedade, preço, localização, número de quartos, comodidades oferecidas e muito mais.

Adicionar colunas mantidas e descricao.

Reviews (Avaliações): O conjunto de dados de avaliações contém informações sobre as avaliações feitas por hóspedes que ficaram nas propriedades listadas. Ele inclui dados como a data da avaliação, o identificador da propriedade, os comentários escritos pelos hóspedes, e outras informações.


Adicionar colunas mantidas e descricao.

Calendar (Calendário): Este conjunto de dados contém informações sobre a disponibilidade das propriedades ao longo do tempo. Ele lista as datas em que as propriedades estão disponíveis para reserva, bem como os preços para cada data.


Adicionar colunas mantidas e descricao.

## Testes de qualidade

- Utilize a biblioteca Great Expectations para criar testes de qualidade automatizados que verifiquem as expectativas definidas para os dados da camada "silver".
- Desenvolva testes que assegurem que os dados da camada "silver" atendam às regras de negócios e aos requisitos de qualidade.

## Transformação de Dados com DBT

- Utilize a ferramenta dbt para criar a camada "silver" de dados, realizando transformações e preparando os dados da camada em questão.

Passo a Passo:
1) Instale o DBT
- python -m pip install dbt-postgres
- pip install dbt


2) Vá até sua pasta "dbt" e rode o comando:
3) dbt init analytics_eng_airbnb 

OBS: você pode pular os passos 2 e 3 utilizando a pasta "dbt" dentro do arquivo do Github


- Mantenha um controle de versão dos modelos dbt relacionados à camada "silver" e automatize a execução das transformações.


Adicionar descrição.

Rode o comando:

4) dbt run --models silver

## Armazenamento de Dados em PostgreSQL

- Armazene os dados da camada "silver" no mesmo banco de dados PostgreSQL.
- Estabeleça conexões entre o dbt e o PostgreSQL para carregar os dados transformados da camada "silver" no banco.

In [40]:
engine = create_engine(db_url)

In [None]:
df_listings_silver.to_sql('listings_silver', engine, if_exists='replace', index=False)

In [None]:
query= """
select * 
from public.listings_gold
"""
df = pd.read_sql(sql=sql_text(query), con=engine.connect())
df

## Validação de Expectativas com Great Expectations

- Implemente validações adicionais usando Great Expectations nas camadas de dados da camada "silver".
- Monitore a qualidade dos dados da camada "silver" após cada transformação e ajuste os testes de acordo.

# Gold

## Transformação de Dados com DBT

- Utilize o dbt para criar a camada "gold" de dados, aplicando agregações especializadas, como médias de preços por propriedade, por período, e outras agregações especializadas.
- Mantenha um controle de versão dos modelos dbt relacionados à camada "gold" e automatize a execução das transformações.

## Armazenamento de Dados em PostgreSQL

- Armazene os dados da camada "gold" no mesmo banco de dados PostgreSQL, mantendo a estrutura de dados otimizada para consultas analíticas.