In [1]:
import pandas as pd
from sqlalchemy import create_engine

def obter_dados_tabela(tabela, conn_str):
    """
    Obtém dados de uma tabela no banco de dados e retorna um DataFrame.
    
    Parameters:
        nome_tabela (str): O nome da tabela a ser consultada.
        conn_str (str): A string de conexão do SQLAlchemy para o banco de dados.

    Returns:
        pd.DataFrame: Um DataFrame contendo os dados da tabela.
    """
    engine = create_engine(conn_str)
    consulta_sql = f"SELECT * FROM {tabela}"
    df = pd.read_sql_query(consulta_sql, engine)
    return df

conn_str = "postgresql://postgres:postgres@localhost:5432/postgres"

listings_df = obter_dados_tabela("listings", conn_str)
reviews_df = obter_dados_tabela("reviews", conn_str)
calendar_df = obter_dados_tabela("calendar", conn_str)


#display(listings_df.head(5))
#display(reviews_df.head(5))
#display(calendar_df.head(5))


In [9]:
import pandas as pd
from ydata_profiling import ProfileReport

class DataCleaner:
    @staticmethod
    def remove_duplicates(df):
        return df.drop_duplicates()

    @staticmethod
    def remove_constant(df):
        list_constant = [col for col in df.columns if df[col].nunique() == 1]
        return df.drop(columns=list_constant)

    @staticmethod
    def verify_unbalanced(df):
        list_imbalance = []
        limit = 0.98
        for col in df.columns:
            counts = df[col].value_counts(normalize=True)
            if len(counts) >= 2:
                perc = counts.values[0]
                if perc > limit:
                    list_imbalance.append(col)
                    print(col, perc)
        return list_imbalance

    @staticmethod
    def remove_unbalanced(df):
        list_imbalance = DataCleaner.verify_unbalanced(df)
        return df.drop(list_imbalance, axis=1)

    @staticmethod
    def generate_report(df, title, minimal=True):
        df = DataCleaner.remove_duplicates(df)
        df = DataCleaner.remove_constant(df)
        df = DataCleaner.remove_unbalanced(df)
        report = ProfileReport(df, title=title, minimal=minimal)
        return (df, report)


## CALENDAR

In [4]:
(cleaned_calendar_df, calendar_report) = DataCleaner.generate_report(calendar_df, title="Relatório de Dados: Calendar", minimal=True)
calendar_report.to_file("treated_calendar_report.html")

N. de linhas antes de remover duplicadas: 1000
N. de linhas depois de remover duplicadas: 1000
N. de colunas antes de remover colunas constantes: 7
N. de colunas depois de remover colunas constantes: 7


Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

In [11]:
def transform_calendar(df):
    # Converte 'listing_id' para int
    df['listing_id'] = df['listing_id'].astype(int)
    
    # Converte 'minimum_nights' e 'maximum_nights' para int
    df['minimum_nights'] = df['minimum_nights'].fillna(0).astype(int)
    df['maximum_nights'] = df['maximum_nights'].fillna(0).astype(int)
    
    # Remove vírgulas e o símbolo '$' e, em seguida, converte para float
    df['price'] = df['price'].str.replace(',', '', regex=False).str.replace('$', '', regex=False).astype(float)
    df['adjusted_price'] = df['adjusted_price'].str.replace(',', '', regex=False).str.replace('$', '', regex=False).astype(float)
    
    # Converte 'date' para o tipo de data
    df['date'] = pd.to_datetime(df['date'])
    
    # Substituir 't' por 'Sim' e 'f' por 'Não' na coluna 'available'
    df['available'] = df['available'].replace({'t': 'Sim', 'f': 'Não'})

  
    return df

In [12]:
calendar_transfor = transform_calendar(calendar_df)

## LISTINGS


### Tratamento e transformação de campos

In [13]:
import re

def transform_listings(df):
    df['description'] = df['description'].apply(lambda x: re.sub(r'[^a-zA-Z0-9]', ' ', x).lower() if isinstance(x, str) else x)
    
    df['bedrooms'] = pd.to_numeric(df['bedrooms'], errors='coerce').fillna(0).astype(int)
    
    return df

### Preenchimento de valores faltantes

#### - "no_info" para campos de texto - porque não há como substituir a informação;
#### - -1 para campos de score - porque fica fora do intervalo de score, podendo ser facilmente filtrado, sem afetar o tipo das colunas;
#### - 0 para bedrooms - porque, sem um número de quartos, pressupõe-se nenhum.

In [14]:
def check_miss(df):
        df_miss = df.isna().sum()
        df_miss = (df_miss / len(df)) * 100
        df_miss = df_miss.sort_values(ascending=False)
        for col in df_miss.index:
            if str(df[col].dtypes) == "object":
                df[col] = df[col].fillna("no_info")
            if str(df[col].dtypes) == "float64":
                df[col] = df[col].fillna(float(-1))
        return df

In [15]:
listings_transfor = transform_listings(listings_df)
listings_without_missing_values = check_miss(listings_transfor)
(cleaned_listings_df, treated_report_listings) = DataCleaner.generate_report(listings_without_missing_values, title="Relatório de Dados: Listings", minimal=True)
treated_report_listings.to_file("treated_report_listings.html")

calculated_host_listings_count_shared_rooms 0.989


Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

### Eliminação de Outliers

## REVIEWS

### Tratamento e transformação de campos

In [17]:
def transform_reviews(df):
    # Renomeando coluna 'id' para 'review_id'
    df = df.rename(columns={'id':'review_id'})
    
    # Converte 'listing_id', 'review_id', 'reviewer_id' para inteiros
    df['listing_id'] = df['listing_id'].astype(int)
    df['review_id'] = df['review_id'].astype(int)
    df['reviewer_id'] = df['reviewer_id'].astype(int)
    
    # Converte 'date' para o tipo de data
    df['date'] = pd.to_datetime(df['date'])
    
    # Limpa a coluna 'reviewer_name'
    df['reviewer_name'] = df['reviewer_name'].str.replace('[^a-zA-Z ]', '', regex=True)
    df['reviewer_name'] = df['reviewer_name'].str.title()
    
    # Limpa a coluna 'comments'
    df['comments'] = df['comments'].str.replace('[^a-zA-Z0-9,;.\s]', '', regex=True)
    df['comments'] = df['comments'].str.replace(r'<[^>]+>|[\\\/][^ ]+', '', regex=True)
    
    return df


In [18]:
reviews_transfor = transform_reviews(reviews_df)
(cleaned_reviews_df, reviews_report) = DataCleaner.generate_report(reviews_transfor, title="Relatório de Dados: reviews", minimal=True)
reviews_report.to_file("treated_reviews_report.html")

N. de linhas antes de remover duplicadas: 1000
N. de linhas depois de remover duplicadas: 1000
N. de colunas antes de remover colunas constantes: 6
N. de colunas depois de remover colunas constantes: 6


Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]