In [14]:
# Import libraries
import pyarrow as pa
import pyarrow.parquet as pq
import pandas as pd
from sqlalchemy import create_engine
from ydata_profiling import ProfileReport

In [3]:
# SQL CALL
%load_ext sql

### **Convertendo arquivos CSV para Parquet Brotli para um melhor desempenho**

In [12]:
for name in ['listings', 'reviews', 'calendar']:
    file_path_csv = f'./dados/csv/{name}.csv'
    file_path_parquet = f'./dados/parquet-brotli/{name}.parquet'
    df = pd.read_csv(file_path_csv)
    table = pa.Table.from_pandas(df)
    compression = 'BROTLI'
    pq.write_table(table, file_path_parquet, compression=compression)

### **Camada Bronze - Exctração dos dados**

In [1]:
'''
A classe LayerBronze é responsável por operações básicas de extração e transformação de dados.

- Método load_data:
  - Realiza o carregamento dos dados no formato Parquet a partir da pasta 'dados' e os converte em dataframes.

- Método bronze_transformation:
  - Realiza a cópia lógica dos dataframes originais, selecionando apenas as primeiras 100 linhas de cada um (por questões de processamento).
  - Armazena as cópias lógicas como 'bronze_dataframes'.
  - Gera um relatório de perfil para cada dataframe utilizando a ferramenta Profile Report da biblioteca YData Profiling e os salva na pasta 'reports'.

- Método upload_to_postgres:
  - Verifica se a connection_string, passada como parâmetro na criação da classe, está corretamente configurada.
  - Cria a engine necessária para a conexão com o banco de dados PostgreSQL.
  - Percorre os dataframes armazenados em 'bronze_dataframes' e realiza o upload de cada um para o banco de dados.

A classe LayerBronze oferece um conjunto de operações para carregar, transformar e salvar dados,
    garantindo assim a qualidade dos dados e fornecendo informações úteis por meio de relatórios de perfil. 

Essas operações são parte integrante de um fluxo de trabalho mais amplo de análise e preparação de dados que serão feitas na 'camada silver'.

Para executar o processo, você pode criar uma instância da classe LayerBronze,
fornecendo uma connection_string válida para o banco de dados PostgreSQL e, em seguida, chamar o método analyze_and_upload_data().
'''

class LayerBronze:
    def __init__(self, connection_string=None):
        self.connection_string = connection_string
        self.dataframes = {}
        self.bronze_dataframes = {}

    def load_data(self):
        for name in ['listings', 'reviews', 'calendar']:
            file_path = f'./dados/parquet-brotli/{name}.parquet'
            self.dataframes[name] = pd.read_parquet(file_path)

    def bronze_transformation(self):
        for name, df in self.dataframes.items():
            self.bronze_dataframes[name] = df.head(500).copy()
            profile = ProfileReport(self.bronze_dataframes[name], title=f'Profile {name}_bronze')
            profile.to_file(f'./reports/{name}_bronze.html')

    def upload_to_postgres(self):
        if not self.connection_string:
            print("No PostgreSQL connection string provided. Data not uploaded.")
            return

        engine = create_engine(self.connection_string)

        for name, df in self.bronze_dataframes.items():
            table_name = f'df_{name}_bronze'
            df.to_sql(table_name, engine, if_exists='replace', index=False)

    def analyze_and_upload_data(self):
        self.load_data()
        self.bronze_transformation()
        self.upload_to_postgres()

data_analysis = LayerBronze(connection_string='postgresql://postgres:1234@localhost/postgres')
data_analysis.analyze_and_upload_data()

NameError: name 'pd' is not defined