# Load de dados

In [18]:
import pandas as pd
import os
from datetime import datetime

def load_data(file_path: str, file_type: str = "csv") -> object:
    """Carrega dados a partir de um arquivo"""
    if file_type == "csv":
        df = pd.read_csv(file_path)
    elif file_type == "json":
        df = pd.read_json(file_path)
    elif file_type == "parquet":
        df = pd.read_parquet(file_path)
    elif file_type == "excel":
        dfs = []
        sheets = pd.ExcelFile(file_path).sheet_names
        print(sheets)
        for sheet in sheets:
            dfs.append(pd.read_excel(file_path, sheet_name=sheet, skiprows=1))
        return dfs
    else:
        raise ValueError("Formato de arquivo não suportado")
    
    return dfs



# Transformação

In [48]:
def transform_data(df: list) -> pd.DataFrame:
    """Realiza transformações nos dados"""
    dff = pd.concat(df[:6]).copy()
    dff = dff.dropna()
    dff["data_processada"] = datetime.now()  # Adicionando uma coluna com a data do processamento
    dff["nova_coluna"] = dff["coluna_existente"] * 2  # Exemplo de nova coluna

    
    return df


# Validação e export

In [49]:
def validate_data(df: pd.DataFrame) -> bool:
    """Valida os dados"""
    if df.isnull().sum().sum() > 0:
        return False
    if df.empty:
        return False
    return True

def save_data(df: pd.DataFrame, output_path: str):
    """Salva os dados processados em Parquet"""
    os.makedirs(os.path.dirname(output_path), exist_ok=True)
    df.to_parquet(output_path, index=False)

# Pipeline

In [50]:
def execute_pipeline(input_file: str, output_file: str, file_type:str = 'csv'):
    # Pipeline de tratamento
    df = load_data(input_file, file_type)
    df = transform_data(df)

    # if validate_data(df):
    #     save_data(df, output_file)
    return df

# Executa o Pipeline de transformações

In [51]:
df = execute_pipeline(input_file='../data/raw/sheets/dados_google_sheets.xlsx', 
                 output_file='../data/processed/dados_processados.parquet',
                 file_type='excel')

['1A', '1B', '1C', '1D', '1E', '1F', 'Tabela_din_mica_1', 'Aulas_assistidas', 'Par_metros']


KeyError: 'coluna_existente'

In [39]:
pd.concat(df[:6]).describe()

Unnamed: 0,RA,Período,Dispersão Geral,Intervenção Geral,Dispersão,Sono,Conversa,Intervenções,Saídas,Pergunta de Verificação,Pergunta de Ampliação,Contribuição espontânea,Participação solicitada,Não fez a atividade,Dispersão durante atividade,Conversa durante atividade,Pergunta durante atividade para prof/assistente,Pergunta para colega(s),Tirou dúvida de colega(s),Dispersão geral
count,1701.0,1409.0,456.0,415.0,96.0,0.0,185.0,49.0,61.0,143.0,22.0,164.0,54.0,1.0,51.0,5.0,28.0,5.0,7.0,124.0
mean,163958.386831,2.559262,1.629386,1.990361,1.260417,,1.772973,1.244898,1.032787,1.51049,1.045455,1.304878,1.018519,1.0,1.0,1.0,1.285714,1.0,1.142857,2.322581
std,35836.180845,1.336576,1.426874,1.338722,0.528051,,1.124009,0.480044,0.179556,1.013063,0.213201,0.639958,0.136083,,0.0,0.0,0.534522,0.0,0.377964,1.252953
min,110102.0,1.0,1.0,1.0,1.0,,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
25%,130757.0,1.0,1.0,1.0,1.0,,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
50%,160478.0,2.0,1.0,1.0,1.0,,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,2.0
75%,181250.0,3.0,2.0,2.0,1.0,,2.0,1.0,1.0,2.0,1.0,1.0,1.0,1.0,1.0,1.0,1.25,1.0,1.0,4.0
max,250398.0,6.0,6.0,5.0,3.0,,6.0,3.0,2.0,9.0,2.0,4.0,2.0,1.0,1.0,1.0,3.0,1.0,2.0,4.0
