**Objetivos:**

**2. Data Clean - Camada Silver:**
* Identifique e lide com valores ausentes, duplicatas e outliers nos dados brutos da camada "bronze".
* Padronize e limpe os nomes das colunas, convertendo-os em um formato consistente.
* Realize uma limpeza textual em campos, como descrições de propriedades, removendo caracteres especiais e erros de digitação.
---
**3. Data Quality - Camada Silver:**
* Defina métricas de qualidade de dados, como integridade, precisão e consistência para os dados da camada "bronze".
* Implemente verificações para garantir que os dados da camada "silver" estejam em conformidade com essas métricas.
* Estabeleça um sistema de monitoramento contínuo da qualidade dos dados da camada "silver".

In [None]:
import pandas as pd
from sqlalchemy import create_engine

%load_ext sql

In [None]:
# Conexão com o banco de dados
def connect_postgre():
    engine = create_engine('postgresql://postgres:1234@localhost/postgres')

    df_ = {}

    try:
        # Conectando ao banco de dados
        conn = engine.connect()

        # Criando dataframes
        for table_name in ['listings', 'reviews', 'calendar']:
            query = f'SELECT * FROM df_{table_name}_bronze'
            df_[table_name] = pd.read_sql(query, conn)

        # Fechando a conexao
        conn.close()

        return df_
    
    except Exception as e:
        print(f"Erro na conexão ao banco de dados: {e}")
        return None

dataframes = connect_postgre()

# Dataframes prontos para utilização
listings_df = dataframes['listings']
reviews_df = dataframes['reviews']
calendar_df = dataframes['calendar']

In [43]:
# Clean and Quality - DF LISTINGS

class Listings_CQ:
    def __init__(self, listings_df):
        self.df_listings_cq = listings_df.copy()

    
    def clean_quality_std(self):
        # Dropando linhas duplicadas
        self.df_listings_cq = self.df_listings_cq.drop_duplicates()

    # Verificando valores ausentes    
    def verify_columns(self):
        for coluna in self.df_listings_cq:
            valores_ausentes = self.df_listings_cq[coluna].isnull().sum()
            if valores_ausentes > 0:
                print(f"Coluna '{coluna}' possui {valores_ausentes} valores ausentes.")
            else:
                pass
    
    def outliers(self):
        colunas_outliers = ['number_of_reviews', 'price', 'reviews_per_month']

        for coluna in colunas_outliers:
            # Calcula o limite inferior e superior usando os percentis desejados
            Q1 = self.df_listings_cq[coluna].quantile(0.15)
            Q3 = self.df_listings_cq[coluna].quantile(0.85)
            IQR = Q3 - Q1
            limite_inferior = Q1 - 1.5 * IQR
            limite_superior = Q3 + 1.5 * IQR

            # Filtra os outliers na coluna atual
            outliers = self.df_listings_cq[(self.df_listings_cq[coluna] < limite_inferior) | (self.df_listings_cq[coluna] > limite_superior)]
            self.df_listings_cq = self.df_listings_cq[~self.df_listings_cq[coluna].isin(outliers[coluna])]

            # Calcula a média da coluna atual após a remoção de outliers
            media_apos_outliers = self.df_listings_cq[coluna].mean()
            print(f"Média da coluna '{coluna}' após remover outliers: {media_apos_outliers:.2f}")

            media_antes_outliers = listings_df[coluna].mean()
            print(f"Média da coluna '{coluna}' no DataFrame original: {media_antes_outliers:.2f}")
    
    # Verificação nos nomes das colunas
    def verify_name_columns(self):
        for columns in self.df_listings_cq.columns:
            new_name_column = columns.strip().lower()
            if not any(char.isdigit() for char in new_name_column):
                self.df_listings_cq.rename(columns={columns: new_name_column}, inplace=True)

    def verify_text_columns(self):
        columns_txt = self.df_listings_cq[['name', 'host_name', 'neighbourhood', 'room_type']]
        columns_normalize = columns_txt.applymap(lambda x: x.strip().capitalize().upper() if isinstance(x, str) else x)
        return columns_normalize

    def apply(self):
        self.clean_quality_std()
        self.verify_columns()
        self.outliers()
        self.verify_name_columns()
        self.verify_text_columns()

listings_cq_instance = Listings_CQ(listings_df)

In [44]:
listings_cq_instance.apply()

Coluna 'neighbourhood_group' possui 500 valores ausentes.
Coluna 'last_review' possui 52 valores ausentes.
Coluna 'reviews_per_month' possui 52 valores ausentes.
Coluna 'license' possui 500 valores ausentes.
Média da coluna 'number_of_reviews' após remover outliers: 63.50
Média da coluna 'number_of_reviews' no DataFrame original: 72.97
Média da coluna 'price' após remover outliers: 398.95
Média da coluna 'price' no DataFrame original: 595.61
Média da coluna 'reviews_per_month' após remover outliers: 0.56
Média da coluna 'reviews_per_month' no DataFrame original: 0.63


In [50]:
display(listings_df.head(2))

Unnamed: 0,id,name,host_id,host_name,neighbourhood_group,neighbourhood,latitude,longitude,room_type,price,minimum_nights,number_of_reviews,last_review,reviews_per_month,calculated_host_listings_count,availability_365,number_of_reviews_ltm,license
0,17878,Condo in Rio de Janeiro · ★4.70 · 2 bedrooms ·...,68997,Matthias,,Copacabana,-22.96599,-43.1794,Entire home/apt,279,5,301,2023-09-11,1.87,1,265,25,
1,25026,Rental unit in Rio de Janeiro · ★4.71 · 1 bedr...,102840,Viviane,,Copacabana,-22.97735,-43.19105,Entire home/apt,330,2,272,2023-09-07,1.68,1,203,24,


In [None]:
display(reviews_df.head(2))

In [None]:
display(calendar_df.head(2))