In [1]:
import pandas as pd

In [6]:
class ETLController:
    def __init__(self, connection):
        """
        Inicializa o controlador de ETL com uma conexão de banco de dados.
        :param connection: Conexão de banco de dados.
        """
        self.connection = connection

    def run_query(self, query):
        """
        Executa uma query e retorna os dados como um DataFrame.
        :param query: SQL query string.
        :return: DataFrame com os dados.
        """
        df = pd.read_sql(query, self.connection)
        return df

    def filter_by_totneg(self, df):
        """
        Filtra o DataFrame eliminando linhas onde a soma de totneg por codneg seja menor que 10000.
        :param df: DataFrame com os dados.
        :return: DataFrame filtrado.
        """
        # Agrupa por 'codneg' e calcula a soma de 'totneg'
        totneg_sums = df.groupby('codneg')['totneg'].sum()

        # Filtra para manter apenas os 'codneg' com soma de 'totneg' >= 10000
        valid_codneg = totneg_sums[totneg_sums >= 10000].index

        # Filtra o DataFrame
        df_filtered = df[df['codneg'].isin(valid_codneg)]
        
        return df_filtered
    

    def process_etl(self, query):
        """
        Processa o ETL completo: executa a query, filtra os dados e retorna o DataFrame final.
        :param query: SQL query para execução.
        :return: DataFrame final filtrado.
        """
        # Executa a query e obtém os dados
        df = self.run_query(query)

        #aplicar etl 1 (qt total negocios > 1000)
        # Mostra o total de linhas antes do ETL
        total_antes = df.shape[0]        

        # Aplica o filtro de totneg
        df_filtered = self.filter_by_totneg(df)

        # Mostra o total de linhas depois do ETL
        total_depois = df_filtered.shape[0]
        print(f"Linhas antes etl 1: {total_antes}")
        print(f"Linhas apos  etl 1: {total_depois}")

        #aplicar etl 2 (eliminar valores nan)
        total_antes = total_depois
        df_filtered = df_filtered.dropna(subset=['lifedays','vlextrinseco'])
        total_depois = df_filtered.shape[0]
        print(f"Linhas antes etl 2: {total_antes}")
        print(f"Linhas apos  etl 2: {total_depois}")

        #aplicar etl 3 (eliminar linhas que nao tenham mais que 100 negocios no dia)
        total_antes = total_depois
        df_filtered = df_filtered[df_filtered['totneg'] > 100]
        total_depois = df_filtered.shape[0]
        print(f"Linhas antes etl 3: {total_antes}")
        print(f"Linhas apos  etl 3: {total_depois}")

        #aplicar etl 4 (eliminar linhas que nao tenham mais que 10 ocorrencias)
        total_antes = total_depois
        df_filtered = df_filtered.groupby('codneg').filter(lambda x: len(x) > 10)
        total_depois = df_filtered.shape[0]
        print(f"Linhas antes etl 4: {total_antes}")
        print(f"Linhas apos  etl 4: {total_depois}")


        return df_filtered
