In [1]:
import os
import sys
from pathlib import Path
from io import BytesIO

import pandas as pd

# -------------------------------------------------------------------
# 1) Achar a raiz do projeto (pasta que tem "src/instructor_workout")
# -------------------------------------------------------------------
PROJECT_ROOT = Path().resolve()
while not (PROJECT_ROOT / "src" / "instructor_workout").exists():
    if PROJECT_ROOT.parent == PROJECT_ROOT:
        raise RuntimeError("N√£o encontrei src/instructor_workout subindo diret√≥rios.")
    PROJECT_ROOT = PROJECT_ROOT.parent

SRC_PATH = PROJECT_ROOT / "src"
if str(SRC_PATH) not in sys.path:
    sys.path.append(str(SRC_PATH))

print("PROJECT_ROOT:", PROJECT_ROOT)
print("SRC_PATH:", SRC_PATH)

# -------------------------------------------------------------------
# 2) Inicializar cliente S3 usando boto3 diretamente
# -------------------------------------------------------------------
import boto3

# Cliente S3 usando suas credenciais do .env / vari√°veis de ambiente
s3 = boto3.client("s3")
BUCKET_NAME = "instructor-workout-datas"

# -------------------------------------------------------------------
# 3) Fun√ß√µes auxiliares para ler arquivos do S3
# -------------------------------------------------------------------
def list_s3_objects(prefix: str):
    """
    Lista TODAS as keys (caminhos) dentro de um prefixo de S3.
    Ex: prefix = 'bronze/' ou 'silver/'
    """
    paginator = s3.get_paginator("list_objects_v2")
    for page in paginator.paginate(Bucket=BUCKET_NAME, Prefix=prefix):
        for obj in page.get("Contents", []):
            yield obj["Key"]


def read_parquet_s3(key: str, n_rows: int = 5) -> pd.DataFrame:
    """
    L√™ um arquivo parquet diretamente do S3 usando pandas.
    """
    obj = s3.get_object(Bucket=BUCKET_NAME, Key=key)
    data = obj["Body"].read()
    df = pd.read_parquet(BytesIO(data))
    return df.head(n_rows)


def read_csv_s3(key: str, n_rows: int = 5) -> pd.DataFrame:
    """
    L√™ um arquivo CSV diretamente do S3 usando pandas.
    """
    obj = s3.get_object(Bucket=BUCKET_NAME, Key=key)
    data = obj["Body"].read()
    df = pd.read_csv(BytesIO(data))
    return df.head(n_rows)


# -------------------------------------------------------------------
# 4) Gera o TXT na pasta Downloads com a inspe√ß√£o de tudo
# -------------------------------------------------------------------
DOWNLOADS = Path.home() / "Downloads"
DOWNLOADS.mkdir(parents=True, exist_ok=True)

output_path = DOWNLOADS / "s3_inspecao_notebook.txt"

prefixes_para_varrer = [
    "bronze/",
    "silver/",
    "gold/",
]

with open(output_path, "w", encoding="utf-8") as f:
    f.write("=== INSPE√á√ÉO COMPLETA DAS TABELAS NO S3 (GERADO PELO NOTEBOOK) ===\n\n")

    for base_prefix in prefixes_para_varrer:
        f.write("#" * 80 + "\n")
        f.write(f"PASTA BASE: s3://{BUCKET_NAME}/{base_prefix}\n")
        f.write("#" * 80 + "\n\n")

        # agrupar por "pasta" (prefixo at√© o √∫ltimo '/')
        objetos = list(list_s3_objects(base_prefix))
        if not objetos:
            f.write(f"(Nenhum arquivo encontrado em {base_prefix})\n\n")
            continue

        pastas = {}
        for key in objetos:
            # Ex: bronze/raw/kaggle/gym_exercises_20251206.parquet
            parts = key.split("/")
            if len(parts) > 1:
                folder = "/".join(parts[:-1])
            else:
                folder = ""
            pastas.setdefault(folder, []).append(key)

        for folder, keys in pastas.items():
            f.write(f"üìÅ PASTA: {folder or '(raiz do prefixo)'}\n\n")

            for key in keys:
                f.write(f"--- ARQUIVO: s3://{BUCKET_NAME}/{key} ---\n")

                # Tenta ler se for parquet ou csv
                try:
                    if key.lower().endswith(".parquet"):
                        df_head = read_parquet_s3(key, n_rows=5)
                        f.write(df_head.to_string(index=False))
                        f.write("\n\n")
                    elif key.lower().endswith(".csv"):
                        df_head = read_csv_s3(key, n_rows=5)
                        f.write(df_head.to_string(index=False))
                        f.write("\n\n")
                    else:
                        f.write("(arquivo n√£o suportado para preview)\n\n")
                except Exception as e:
                    f.write(f"[ERRO ao ler arquivo]: {e}\n\n")

print("Arquivo de inspe√ß√£o gerado em:", output_path)


PROJECT_ROOT: C:\Users\69pctechops\instructor_workout
SRC_PATH: C:\Users\69pctechops\instructor_workout\src
Arquivo de inspe√ß√£o gerado em: C:\Users\69pctechops\Downloads\s3_inspecao_notebook.txt


In [2]:
# listar pastas em bronze/
keys = list(list_s3_objects("bronze/"))
if not keys:
    print("Nenhum arquivo/pasta encontrado em bronze/")
else:
    pastas_bronze = set()
    for key in keys:
        parts = key.split("/")
        folder = "/".join(parts[:-1]) if len(parts) > 1 else ""
        if folder and folder != "bronze":
            pastas_bronze.add(folder)
    pastas_bronze = sorted(pastas_bronze)
    print("Pastas em bronze/:")
    for p in pastas_bronze:
        print("-", p)

Pastas em bronze/:
- bronze/raw
- bronze/raw/hevy
- bronze/raw/kaggle
- bronze/raw/synthetic_realistic_workout
- bronze/raw/synthetic_realistic_workout/user=9168d10794cb/dt=20251207
- bronze/raw/synthetic_realistic_workout/user=9168d10794cb/dt=20251208
- bronze/raw/synthetic_realistic_workout_base
- bronze/raw/users_form_log_birthdate
- bronze/user_form


In [3]:
import json

# Agrupar arquivos por pasta principal (evitando duplicatas)
bronze_folders_data = {}

for key in keys:
    if key.startswith('bronze/') and key.count('/') > 1:
        # Extrair a pasta principal (ex: bronze/raw/kaggle)
        parts = key.split('/')
        
        if parts[1] == 'raw':
            # Para pastas em raw, agrupar at√© o terceiro n√≠vel
            if len(parts) > 2:
                folder_key = f"{parts[1]}/{parts[2]}"
                if folder_key not in bronze_folders_data:
                    bronze_folders_data[folder_key] = []
                # Armazenar arquivo s√≥ uma vez
                if key not in bronze_folders_data[folder_key]:
                    bronze_folders_data[folder_key].append(key)
        else:
            # Para outras pastas (como user_form)
            folder_key = parts[1]
            if folder_key not in bronze_folders_data:
                bronze_folders_data[folder_key] = []
            if key not in bronze_folders_data[folder_key]:
                bronze_folders_data[folder_key].append(key)

# Criar dicion√°rio com informa√ß√µes de cada pasta
bronze_schema_dict = {}

for folder_name, file_list in sorted(bronze_folders_data.items()):
    # Pegar primeiro arquivo da pasta para extrair as colunas
    first_file = file_list[0]
    
    try:
        if first_file.endswith('.parquet'):
            df_sample = read_parquet_s3(first_file, n_rows=3)
            columns = list(df_sample.columns)
            file_count = len(file_list)
            
            bronze_schema_dict[folder_name] = {
                'colunas': columns,
                'quantidade_arquivos': file_count,
                'arquivos_exemplo': file_list[:3],
                'tipos': df_sample.dtypes.astype(str).to_dict()
            }
    except Exception as e:
        bronze_schema_dict[folder_name] = {'erro': str(e)}

# Exibir de forma bonita
print("=" * 80)
print("ESQUEMA DOS DADOS - BRONZE LAYER")
print("=" * 80)
for folder, info in bronze_schema_dict.items():
    print(f"\nüìÅ {folder}")
    print(f"   Arquivos: {info.get('quantidade_arquivos', 'N/A')}")
    print(f"   Colunas ({len(info.get('colunas', []))}): {', '.join(info.get('colunas', []))}")
    print(f"   Tipos: {info.get('tipos', {})}")
    
# Salvar como JSON tamb√©m
bronze_schema_dict

ESQUEMA DOS DADOS - BRONZE LAYER

üìÅ raw/synthetic_realistic_workout_base
   Arquivos: 1
   Colunas (15): user_id, title, start_time, end_time, description, exercise_title, superset_id, exercise_notes, set_index, set_type, weight_kg, reps, distance_km, duration_seconds, rpe
   Tipos: {'user_id': 'object', 'title': 'object', 'start_time': 'object', 'end_time': 'object', 'description': 'float64', 'exercise_title': 'object', 'superset_id': 'float64', 'exercise_notes': 'float64', 'set_index': 'int64', 'set_type': 'object', 'weight_kg': 'float64', 'reps': 'int64', 'distance_km': 'float64', 'duration_seconds': 'int64', 'rpe': 'int64'}

üìÅ user_form
   Arquivos: 1
   Colunas (15): user_id, nome, email, data_nascimento, sexo, peso, altura, percentual_gordura, objetivo, nivel_treinamento, restricoes_fisicas, frequencia_semanal, horas_sono, nutricional_score, updated_at
   Tipos: {'user_id': 'object', 'nome': 'object', 'email': 'object', 'data_nascimento': 'object', 'sexo': 'object', 'peso':

{'raw/synthetic_realistic_workout_base': {'colunas': ['user_id',
   'title',
   'start_time',
   'end_time',
   'description',
   'exercise_title',
   'superset_id',
   'exercise_notes',
   'set_index',
   'set_type',
   'weight_kg',
   'reps',
   'distance_km',
   'duration_seconds',
   'rpe'],
  'quantidade_arquivos': 1,
  'arquivos_exemplo': ['bronze/raw/synthetic_realistic_workout_base/base_full.parquet'],
  'tipos': {'user_id': 'object',
   'title': 'object',
   'start_time': 'object',
   'end_time': 'object',
   'description': 'float64',
   'exercise_title': 'object',
   'superset_id': 'float64',
   'exercise_notes': 'float64',
   'set_index': 'int64',
   'set_type': 'object',
   'weight_kg': 'float64',
   'reps': 'int64',
   'distance_km': 'float64',
   'duration_seconds': 'int64',
   'rpe': 'int64'}},
 'user_form': {'colunas': ['user_id',
   'nome',
   'email',
   'data_nascimento',
   'sexo',
   'peso',
   'altura',
   'percentual_gordura',
   'objetivo',
   'nivel_treinamento

In [4]:
def get_variable_type(dtype):
    """Classifica o tipo de vari√°vel baseado no dtype do pandas"""
    dtype_str = str(dtype).lower()
    if 'int' in dtype_str or 'float' in dtype_str:
        return "Num√©rica"
    else:
        return "Categ√≥rica"

# Processar TODAS as tabelas do BRONZE
all_data_dicts_bronze = {}

for key in keys:
    # Only process parquet files from bronze/
    if key.startswith('bronze/') and key.endswith('.parquet'):
        table_name = key.replace('bronze/', '')
        
        try:
            # Ler amostra da tabela
            df_sample = read_parquet_s3(key, n_rows=5)
            
            # Criar dicion√°rio com coluna: (descri√ß√£o, tipo)
            dictionary = {}
            for col in df_sample.columns:
                col_dtype = str(df_sample[col].dtype)
                dictionary[col] = (
                    f"Descri√ß√£o da coluna {col}",
                    f"Tipo: {col_dtype}"
                )
            
            # Criar DataFrame a partir do dicion√°rio
            dict_df = pd.DataFrame(dictionary.items(), columns=["Vari√°vel", "Info"])
            
            # Separar as colunas de descri√ß√£o e categorias
            dict_df["Descri√ß√£o"] = dict_df["Info"].apply(lambda x: x[0])
            dict_df["Categorias"] = dict_df["Info"].apply(lambda x: x[1])
            
            # Definir tipo de vari√°vel
            dict_df["Tipo"] = dict_df["Vari√°vel"].apply(
                lambda col: get_variable_type(df_sample[col].dtype)
            )
            
            # Remover coluna auxiliar
            dict_df.drop(columns=["Info"], inplace=True)
            
            # Armazenar
            all_data_dicts_bronze[table_name] = dict_df
            
            # Exibir
            print(f"\n{'='*100}")
            print(f"DATA DICTIONARY - {table_name}")
            print(f"{'='*100}")
            print(dict_df.to_string(index=False))
            
        except Exception as e:
            print(f"Erro ao processar {table_name}: {e}")

print(f"\n\nTotal de tabelas processadas do BRONZE: {len(all_data_dicts_bronze)}")



DATA DICTIONARY - raw/kaggle/gym_exercises_20251206.parquet
         Vari√°vel                             Descri√ß√£o   Categorias       Tipo
    Exercise Name     Descri√ß√£o da coluna Exercise Name Tipo: object Categ√≥rica
        Equipment         Descri√ß√£o da coluna Equipment Tipo: object Categ√≥rica
      Preparation       Descri√ß√£o da coluna Preparation Tipo: object Categ√≥rica
        Execution         Descri√ß√£o da coluna Execution Tipo: object Categ√≥rica
   Target_Muscles    Descri√ß√£o da coluna Target_Muscles Tipo: object Categ√≥rica
Synergist_Muscles Descri√ß√£o da coluna Synergist_Muscles Tipo: object Categ√≥rica
      Main_muscle       Descri√ß√£o da coluna Main_muscle Tipo: object Categ√≥rica

DATA DICTIONARY - raw/kaggle/gym_exercises_20251207.parquet
         Vari√°vel                             Descri√ß√£o   Categorias       Tipo
    Exercise Name     Descri√ß√£o da coluna Exercise Name Tipo: object Categ√≥rica
        Equipment         Descri√ß√£o da coluna 

KeyboardInterrupt: 

In [None]:
import pandas as pd

# DICION√ÅRIO: Tabela user_form_log
user_form_log_dict = {
    "user_id": (
        "Identificador √∫nico do usu√°rio na aplica√ß√£o.",
        "UUID/c√≥digo textual √∫nico por usu√°rio.",
        "ID"
    ),
    "nome": (
        "Nome completo do usu√°rio informado no cadastro.",
        "Texto livre.",
        "Categ√≥rica"
    ),
    "email": (
        "Endere√ßo de e-mail utilizado para login e contato.",
        "Texto no formato e-mail (ex.: usuario@dominio.com).",
        "Categ√≥rica"
    ),
    "data_nascimento": (
        "Data de nascimento do usu√°rio.",
        "Formato data (AAAA-MM-DD ou similar).",
        "Data"
    ),
    "sexo": (
        "Sexo/g√™nero declarado pelo usu√°rio.",
        "Exemplos: Masculino, Feminino, Outro, Prefiro n√£o dizer.",
        "Categ√≥rica"
    ),
    "peso": (
        "Peso corporal atual do usu√°rio.",
        "Valor num√©rico em quilogramas (kg).",
        "Num√©rica"
    ),
    "altura": (
        "Altura atual do usu√°rio.",
        "Valor num√©rico em cent√≠metros (cm).",
        "Num√©rica"
    ),
    "percentual_gordura": (
        "Percentual de gordura corporal estimado do usu√°rio.",
        "Valor num√©rico em porcentagem (%).",
        "Num√©rica"
    ),
    "objetivo": (
        "Objetivo principal do usu√°rio com o programa de treinos.",
        "Exemplos: Emagrecimento, Hipertrofia, Sa√∫de geral, Performance.",
        "Categ√≥rica"
    ),
    "nivel_treinamento": (
        "N√≠vel de experi√™ncia do usu√°rio com treinamento f√≠sico.",
        "Exemplos: Iniciante, Intermedi√°rio, Avan√ßado.",
        "Categ√≥rica"
    ),
    "restricoes_fisicas": (
        "Les√µes, limita√ß√µes ou observa√ß√µes f√≠sicas relevantes.",
        "Texto livre. Pode estar vazio se o usu√°rio n√£o tiver restri√ß√µes.",
        "Categ√≥rica"
    ),
    "frequencia_semanal": (
        "Frequ√™ncia de treinos planejada por semana.",
        "Valor num√©rico representando n√∫mero de dias/semana.",
        "Num√©rica"
    ),
    "horas_sono": (
        "Quantidade m√©dia de horas de sono por noite.",
        "Valor num√©rico em horas.",
        "Num√©rica"
    ),
    "nutricional_score": (
        "Score agregado/indicador de qualidade dos h√°bitos alimentares.",
        "Valor num√©rico (quanto maior, melhor a ader√™ncia nutricional).",
        "Num√©rica"
    ),
    "updated_at": (
        "Data e hora da √∫ltima atualiza√ß√£o do formul√°rio pelo usu√°rio.",
        "Timestamp no fuso hor√°rio do sistema (datetime).",
        "Data"
    ),
}

# Monta o DataFrame no mesmo formato do exemplo
user_form_log_df = (
    pd.DataFrame
      .from_dict(user_form_log_dict, orient="index",
                 columns=["Descri√ß√£o", "Categorias", "Tipo"])
      .reset_index()
      .rename(columns={"index": "Vari√°vel"})
)

user_form_log_df


Unnamed: 0,Vari√°vel,Descri√ß√£o,Categorias,Tipo
0,user_id,Identificador √∫nico do usu√°rio na aplica√ß√£o.,UUID/c√≥digo textual √∫nico por usu√°rio.,ID
1,nome,Nome completo do usu√°rio informado no cadastro.,Texto livre.,Categ√≥rica
2,email,Endere√ßo de e-mail utilizado para login e cont...,Texto no formato e-mail (ex.: usuario@dominio....,Categ√≥rica
3,data_nascimento,Data de nascimento do usu√°rio.,Formato data (AAAA-MM-DD ou similar).,Data
4,sexo,Sexo/g√™nero declarado pelo usu√°rio.,"Exemplos: Masculino, Feminino, Outro, Prefiro ...",Categ√≥rica
5,peso,Peso corporal atual do usu√°rio.,Valor num√©rico em quilogramas (kg).,Num√©rica
6,altura,Altura atual do usu√°rio.,Valor num√©rico em cent√≠metros (cm).,Num√©rica
7,percentual_gordura,Percentual de gordura corporal estimado do usu...,Valor num√©rico em porcentagem (%).,Num√©rica
8,objetivo,Objetivo principal do usu√°rio com o programa d...,"Exemplos: Emagrecimento, Hipertrofia, Sa√∫de ge...",Categ√≥rica
9,nivel_treinamento,N√≠vel de experi√™ncia do usu√°rio com treinament...,"Exemplos: Iniciante, Intermedi√°rio, Avan√ßado.",Categ√≥rica


In [None]:
# DICION√ÅRIO : Tabela gym_exercises (exemplo para outra tabela do bronze/raw)
gym_exercises_dict = {
    "exercise_id": (
        "Identificador √∫nico do exerc√≠cio.",
        "UUID/c√≥digo textual √∫nico por exerc√≠cio.",
        "ID"
    ),
    "nome_exercicio": (
        "Nome comum do exerc√≠cio.",
        "Texto livre (ex.: Supino reto, Rosca direta, Agachamento).",
        "Categ√≥rica"
    ),
    "grupo_muscular": (
        "Grupo muscular principal trabalhado.",
        "Exemplos: Peito, Costas, Pernas, Ombros, Bra√ßos, Core.",
        "Categ√≥rica"
    ),
    "tipo_exercicio": (
        "Classifica√ß√£o do tipo de exerc√≠cio.",
        "Exemplos: Isolado, Composto, Funcional, Cardio.",
        "Categ√≥rica"
    ),
    "dificuldade": (
        "N√≠vel de dificuldade do exerc√≠cio.",
        "Exemplos: F√°cil, Intermedi√°rio, Dif√≠cil, Avan√ßado.",
        "Categ√≥rica"
    ),
    "descricao": (
        "Descri√ß√£o detalhada do movimento.",
        "Texto livre com instru√ß√µes de execu√ß√£o.",
        "Categ√≥rica"
    ),
    "equipamento_necessario": (
        "Equipamento ou aparelho necess√°rio para executar.",
        "Exemplos: Haltere, Barra, M√°quina, Peso corporal.",
        "Categ√≥rica"
    ),
    "repeticoes_recomendadas": (
        "Faixa recomendada de repeti√ß√µes.",
        "Texto (ex.: '8-12', '15-20').",
        "Categ√≥rica"
    ),
    "descanso_segundos": (
        "Tempo de descanso recomendado entre s√©ries.",
        "Valor num√©rico em segundos.",
        "Num√©rica"
    ),
    "url_imagem": (
        "URL ou caminho para imagem/foto do exerc√≠cio.",
        "Texto contendo URL ou path.",
        "Categ√≥rica"
    ),
    "url_video": (
        "URL ou caminho para v√≠deo de demonstra√ß√£o.",
        "Texto contendo URL ou path.",
        "Categ√≥rica"
    ),
    "ativo": (
        "Indicador se o exerc√≠cio est√° ativo no sistema.",
        "Booleano (true/false) ou 0/1.",
        "Categ√≥rica"
    ),
    "data_criacao": (
        "Data de cria√ß√£o do registro do exerc√≠cio.",
        "Formato data (AAAA-MM-DD).",
        "Data"
    ),
}

# Monta o DataFrame no mesmo formato
gym_exercises_df = (
    pd.DataFrame
      .from_dict(gym_exercises_dict, orient="index",
                 columns=["Descri√ß√£o", "Categorias", "Tipo"])
      .reset_index()
      .rename(columns={"index": "Vari√°vel"})
)

gym_exercises_df

Unnamed: 0,Vari√°vel,Descri√ß√£o,Categorias,Tipo
0,exercise_id,Identificador √∫nico do exerc√≠cio.,UUID/c√≥digo textual √∫nico por exerc√≠cio.,ID
1,nome_exercicio,Nome comum do exerc√≠cio.,"Texto livre (ex.: Supino reto, Rosca direta, A...",Categ√≥rica
2,grupo_muscular,Grupo muscular principal trabalhado.,"Exemplos: Peito, Costas, Pernas, Ombros, Bra√ßo...",Categ√≥rica
3,tipo_exercicio,Classifica√ß√£o do tipo de exerc√≠cio.,"Exemplos: Isolado, Composto, Funcional, Cardio.",Categ√≥rica
4,dificuldade,N√≠vel de dificuldade do exerc√≠cio.,"Exemplos: F√°cil, Intermedi√°rio, Dif√≠cil, Avan√ß...",Categ√≥rica
5,descricao,Descri√ß√£o detalhada do movimento.,Texto livre com instru√ß√µes de execu√ß√£o.,Categ√≥rica
6,equipamento_necessario,Equipamento ou aparelho necess√°rio para executar.,"Exemplos: Haltere, Barra, M√°quina, Peso corporal.",Categ√≥rica
7,repeticoes_recomendadas,Faixa recomendada de repeti√ß√µes.,"Texto (ex.: '8-12', '15-20').",Categ√≥rica
8,descanso_segundos,Tempo de descanso recomendado entre s√©ries.,Valor num√©rico em segundos.,Num√©rica
9,url_imagem,URL ou caminho para imagem/foto do exerc√≠cio.,Texto contendo URL ou path.,Categ√≥rica


In [None]:
# DICION√ÅRIO: Tabela user_workout_log
user_workout_log_dict = {
    "workout_log_id": (
        "Identificador √∫nico do registro de treino realizado.",
        "UUID/c√≥digo textual √∫nico por sess√£o de treino.",
        "ID"
    ),
    "user_id": (
        "Identificador do usu√°rio que realizou o treino.",
        "UUID que referencia a tabela user_form.",
        "ID"
    ),
    "data_treino": (
        "Data em que o treino foi realizado.",
        "Formato data (YYYY-MM-DD).",
        "Data"
    ),
    "hora_inicio": (
        "Hora de in√≠cio da sess√£o de treino.",
        "Formato hora (HH:MM:SS).",
        "Data"
    ),
    "hora_fim": (
        "Hora de t√©rmino da sess√£o de treino.",
        "Formato hora (HH:MM:SS).",
        "Data"
    ),
    "duracao_minutos": (
        "Dura√ß√£o total do treino em minutos.",
        "Valor num√©rico.",
        "Num√©rica"
    ),
    "ejercicios_realizados": (
        "N√∫mero total de exerc√≠cios executados na sess√£o.",
        "Valor num√©rico inteiro.",
        "Num√©rica"
    ),
    "calorias_queimadas": (
        "Estimativa de calorias queimadas durante o treino.",
        "Valor num√©rico.",
        "Num√©rica"
    ),
    "frequencia_cardiaca_media": (
        "Frequ√™ncia card√≠aca m√©dia durante o treino.",
        "Valor num√©rico em batidas por minuto (bpm).",
        "Num√©rica"
    ),
    "intensidade": (
        "N√≠vel de intensidade percebida do treino.",
        "Categorias: Leve, Moderada, Intensa.",
        "Categ√≥rica"
    ),
    "observacoes": (
        "Observa√ß√µes livres do usu√°rio sobre o treino.",
        "Texto livre (ex.: senti dor, estava cansado, etc.).",
        "Categ√≥rica"
    ),
    "concluido": (
        "Indicador se o treino foi conclu√≠do completamente.",
        "Booleano (true/false) ou 0/1.",
        "Categ√≥rica"
    ),
    "created_at": (
        "Carimbo de data/hora de cria√ß√£o do registro.",
        "Data/hora no formato ISO.",
        "Data"
    ),
}

# Monta o DataFrame
user_workout_log_df = (
    pd.DataFrame
      .from_dict(user_workout_log_dict, orient="index",
                 columns=["Descri√ß√£o", "Categorias", "Tipo"])
      .reset_index()
      .rename(columns={"index": "Vari√°vel"})
)

user_workout_log_df

Unnamed: 0,Vari√°vel,Descri√ß√£o,Categorias,Tipo
0,workout_log_id,Identificador √∫nico do registro de treino real...,UUID/c√≥digo textual √∫nico por sess√£o de treino.,ID
1,user_id,Identificador do usu√°rio que realizou o treino.,UUID que referencia a tabela user_form.,ID
2,data_treino,Data em que o treino foi realizado.,Formato data (YYYY-MM-DD).,Data
3,hora_inicio,Hora de in√≠cio da sess√£o de treino.,Formato hora (HH:MM:SS).,Data
4,hora_fim,Hora de t√©rmino da sess√£o de treino.,Formato hora (HH:MM:SS).,Data
5,duracao_minutos,Dura√ß√£o total do treino em minutos.,Valor num√©rico.,Num√©rica
6,ejercicios_realizados,N√∫mero total de exerc√≠cios executados na sess√£o.,Valor num√©rico inteiro.,Num√©rica
7,calorias_queimadas,Estimativa de calorias queimadas durante o tre...,Valor num√©rico.,Num√©rica
8,frequencia_cardiaca_media,Frequ√™ncia card√≠aca m√©dia durante o treino.,Valor num√©rico em batidas por minuto (bpm).,Num√©rica
9,intensidade,N√≠vel de intensidade percebida do treino.,"Categorias: Leve, Moderada, Intensa.",Categ√≥rica


In [None]:
# listar pastas em silver/
# Se a fun√ß√£o list_s3_objects n√£o estiver dispon√≠vel no kernel (ex.: kernel reiniciado),
# definimos uma vers√£o fallback reutilizando o cliente s3 (se existir) ou criando um novo.
try:
    list_s3_objects
except NameError:
    try:
        s3  # verifica se existe um cliente s3 j√° criado
    except NameError:
        import boto3
        s3 = boto3.client("s3")
        BUCKET_NAME = "instructor-workout-datas"
    def list_s3_objects(prefix: str):
        paginator = s3.get_paginator("list_objects_v2")
        for page in paginator.paginate(Bucket=BUCKET_NAME, Prefix=prefix):
            for obj in page.get("Contents", []):
                yield obj["Key"]

keys_silver = list(list_s3_objects("silver/"))
if not keys_silver:
    print("Nenhum arquivo/pasta encontrado em silver/")
else:
    pastas_silver = set()
    for key in keys_silver:
        parts = key.split("/")
        folder = "/".join(parts[:-1]) if len(parts) > 1 else ""
        if folder and folder != "silver":
            pastas_silver.add(folder)
    pastas_silver = sorted(pastas_silver)
    print("Pastas em silver/:")
    for p in pastas_silver:
        print("-", p)

Pastas em silver/:
- silver/depara
- silver/kaggle
- silver/synthetic_realistic_workout
- silver/users


In [None]:
# Filtrar arquivos em silver/depara/
depara_files = [key for key in keys_silver if key.startswith('silver/depara/')]

# Criar dicion√°rio com informa√ß√µes de silver/depara/
silver_depara_dict = {}

for file_key in depara_files:
    file_name = file_key.split('/')[-1]  # ex: depara_heavy_kaggle.parquet
    
    try:
        if file_key.endswith('.parquet'):
            df_sample = read_parquet_s3(file_key, n_rows=5)
            columns = list(df_sample.columns)
            
            silver_depara_dict[file_name] = {
                'colunas': columns,
                'tipos': df_sample.dtypes.astype(str).to_dict(),
                'num_colunas': len(columns),
                's3_path': file_key
            }
    except Exception as e:
        silver_depara_dict[file_name] = {'erro': str(e)}

# Exibir de forma bonita
print("=" * 80)
print("ESQUEMA DOS DADOS - SILVER / DEPARA")
print("=" * 80)
for file_name, info in silver_depara_dict.items():
    print(f"\nüìÑ {file_name}")
    print(f"   S3 Path: {info.get('s3_path', 'N/A')}")
    print(f"   Colunas ({info.get('num_colunas', 'N/A')}): {', '.join(info.get('colunas', []))}")
    print(f"   Tipos: {info.get('tipos', {})}")

silver_depara_dict

ESQUEMA DOS DADOS - SILVER / DEPARA

üìÑ depara_heavy_kaggle.parquet
   S3 Path: N/A
   Colunas (N/A): 
   Tipos: {}


{'depara_heavy_kaggle.parquet': {'erro': "name 'read_parquet_s3' is not defined"}}

In [None]:
# Garantir imports necess√°rios (n√£o reimporta se j√° existir no kernel)
try:
    pd
except NameError:
    import pandas as pd

try:
    BytesIO
except NameError:
    from io import BytesIO

# Verificar se read_parquet_s3 est√° dispon√≠vel, sen√£o, definir novamente
try:
    read_parquet_s3
except NameError:
    def read_parquet_s3(key: str, n_rows: int = 5) -> pd.DataFrame:
        """
        L√™ um arquivo parquet diretamente do S3 usando pandas.
        """
        obj = s3.get_object(Bucket=BUCKET_NAME, Key=key)
        data = obj["Body"].read()
        df = pd.read_parquet(BytesIO(data))
        return df.head(n_rows)

# Reprocessar silver/depara/ com a fun√ß√£o corrigida
silver_depara_dict = {}

for file_key in depara_files:
    file_name = file_key.split('/')[-1]
    
    try:
        if file_key.endswith('.parquet'):
            df_sample = read_parquet_s3(file_key, n_rows=5)
            columns = list(df_sample.columns)
            
            silver_depara_dict[file_name] = {
                'colunas': columns,
                'tipos': df_sample.dtypes.astype(str).to_dict(),
                'num_colunas': len(columns),
                's3_path': file_key
            }
    except Exception as e:
        silver_depara_dict[file_name] = {'erro': str(e)}

# Exibir resultado
print("=" * 80)
print("ESQUEMA DOS DADOS - SILVER / DEPARA")
print("=" * 80)
for file_name, info in silver_depara_dict.items():
    print(f"\nüìÑ {file_name}")
    print(f"   S3 Path: {info.get('s3_path', 'N/A')}")
    print(f"   Colunas ({info.get('num_colunas', 'N/A')}): {', '.join(info.get('colunas', []))}")
    print(f"   Tipos: {info.get('tipos', {})}")

silver_depara_dict

ESQUEMA DOS DADOS - SILVER / DEPARA (CORRIGIDO)

üìÑ depara_heavy_kaggle.parquet
   S3 Path: silver/depara/depara_heavy_kaggle.parquet
   Colunas (3): sk_exercise, exercise_title_heavy, exercise_name_kaggle
   Tipos: {'sk_exercise': 'int64', 'exercise_title_heavy': 'object', 'exercise_name_kaggle': 'object'}


{'depara_heavy_kaggle.parquet': {'colunas': ['sk_exercise',
   'exercise_title_heavy',
   'exercise_name_kaggle'],
  'tipos': {'sk_exercise': 'int64',
   'exercise_title_heavy': 'object',
   'exercise_name_kaggle': 'object'},
  'num_colunas': 3,
  's3_path': 'silver/depara/depara_heavy_kaggle.parquet'}}

In [None]:
# Garantir que a fun√ß√£o get_variable_type est√° dispon√≠vel
try:
    get_variable_type
except NameError:
    def get_variable_type(dtype):
        """Classifica o tipo de vari√°vel baseado no dtype do pandas"""
        dtype_str = str(dtype).lower()
        if 'int' in dtype_str or 'float' in dtype_str:
            return "Num√©rica"
        else:
            return "Categ√≥rica"

# DICION√ÅRIO: Tabela a partir de silver/depara/depara_heavy_kaggle.parquet
depara_heavy_kaggle_dict = {
    "sk_exercise": (
        "Chave surrogate do exerc√≠cio (identificador interno).",
        "Identificador num√©rico √∫nico por exerc√≠cio.",
        get_variable_type(df_sample["sk_exercise"].dtype)
    ),
    "exercise_title_heavy": (
        "T√≠tulo do exerc√≠cio conforme a fonte 'heavy' (poss√≠vel tradu√ß√£o/variante).",
        "Texto livre com o t√≠tulo do exerc√≠cio.",
        get_variable_type(df_sample["exercise_title_heavy"].dtype)
    ),
    "exercise_name_kaggle": (
        "Nome do exerc√≠cio proveniente do dataset Kaggle.",
        "Texto livre com o nome original do exerc√≠cio no Kaggle.",
        get_variable_type(df_sample["exercise_name_kaggle"].dtype)
    ),
}

# Monta o DataFrame no mesmo formato dos exemplos anteriores
depara_heavy_kaggle_df = (
    pd.DataFrame
      .from_dict(depara_heavy_kaggle_dict, orient="index",
                 columns=["Descri√ß√£o", "Categorias", "Tipo"])
      .reset_index()
      .rename(columns={"index": "Vari√°vel"})
)

depara_heavy_kaggle_df

Unnamed: 0,Vari√°vel,Descri√ß√£o,Categorias,Tipo
0,sk_exercise,Chave surrogate do exerc√≠cio (identificador in...,Identificador num√©rico √∫nico por exerc√≠cio.,Num√©rica
1,exercise_title_heavy,T√≠tulo do exerc√≠cio conforme a fonte 'heavy' (...,Texto livre com o t√≠tulo do exerc√≠cio.,Categ√≥rica
2,exercise_name_kaggle,Nome do exerc√≠cio proveniente do dataset Kaggle.,Texto livre com o nome original do exerc√≠cio n...,Categ√≥rica


In [None]:
# Inspecionar arquivos em silver/users
users_files = [k for k in keys_silver if k.startswith("silver/users/")]

silver_users_dict = {}
for file_key in users_files:
    file_name = file_key.split('/')[-1]
    try:
        if file_key.endswith('.parquet'):
            df_sample = read_parquet_s3(file_key, n_rows=5)
            cols = list(df_sample.columns)
            silver_users_dict[file_name] = {
                'colunas': cols,
                'tipos': df_sample.dtypes.astype(str).to_dict(),
                'num_colunas': len(cols),
                's3_path': file_key
            }
    except Exception as e:
        silver_users_dict[file_name] = {'erro': str(e)}

print("="*80)
print("ESQUEMA DOS DADOS - SILVER / USERS")
print("="*80)
for fn, info in silver_users_dict.items():
    print(f"\nüìÑ {fn}")
    print(f"   S3 Path: {info.get('s3_path','N/A')}")
    print(f"   Colunas ({info.get('num_colunas','N/A')}): {', '.join(info.get('colunas', []))}")
    print(f"   Tipos: {info.get('tipos', {})}")

silver_users_dict

ESQUEMA DOS DADOS - SILVER / USERS

üìÑ users_silver_20251207.parquet
   S3 Path: silver/users/users_silver_20251207.parquet
   Colunas (14): user_id, data_registro, nome, data_nascimento, sexo, peso, altura, percentual_gordura, objetivo, n√≠vel_treinamento, restri√ß√µes_f√≠sicas, frequ√™ncia_semanal, horas_sono, nutricional_score
   Tipos: {'user_id': 'object', 'data_registro': 'object', 'nome': 'object', 'data_nascimento': 'datetime64[us]', 'sexo': 'object', 'peso': 'float64', 'altura': 'float64', 'percentual_gordura': 'float64', 'objetivo': 'object', 'n√≠vel_treinamento': 'object', 'restri√ß√µes_f√≠sicas': 'object', 'frequ√™ncia_semanal': 'int64', 'horas_sono': 'float64', 'nutricional_score': 'int64'}

üìÑ users_silver_20251208.parquet
   S3 Path: silver/users/users_silver_20251208.parquet
   Colunas (14): user_id, data_registro, nome, data_nascimento, sexo, peso, altura, percentual_gordura, objetivo, n√≠vel_treinamento, restri√ß√µes_f√≠sicas, frequ√™ncia_semanal, horas_sono, nutr

{'users_silver_20251207.parquet': {'colunas': ['user_id',
   'data_registro',
   'nome',
   'data_nascimento',
   'sexo',
   'peso',
   'altura',
   'percentual_gordura',
   'objetivo',
   'n√≠vel_treinamento',
   'restri√ß√µes_f√≠sicas',
   'frequ√™ncia_semanal',
   'horas_sono',
   'nutricional_score'],
  'tipos': {'user_id': 'object',
   'data_registro': 'object',
   'nome': 'object',
   'data_nascimento': 'datetime64[us]',
   'sexo': 'object',
   'peso': 'float64',
   'altura': 'float64',
   'percentual_gordura': 'float64',
   'objetivo': 'object',
   'n√≠vel_treinamento': 'object',
   'restri√ß√µes_f√≠sicas': 'object',
   'frequ√™ncia_semanal': 'int64',
   'horas_sono': 'float64',
   'nutricional_score': 'int64'},
  'num_colunas': 14,
  's3_path': 'silver/users/users_silver_20251207.parquet'},
 'users_silver_20251208.parquet': {'colunas': ['user_id',
   'data_registro',
   'nome',
   'data_nascimento',
   'sexo',
   'peso',
   'altura',
   'percentual_gordura',
   'objetivo',
   '

In [None]:
# DICION√ÅRIO: Tabela users_silver (silver/users)
users_silver_dict = {
    "user_id": (
        "Identificador √∫nico do usu√°rio na aplica√ß√£o.",
        "UUID/c√≥digo textual √∫nico por usu√°rio.",
        "ID"
    ),
    "data_registro": (
        "Data do registro de informa√ß√µes do usu√°rio.",
        "Formato data (YYYY-MM-DD).",
        "Data"
    ),
    "nome": (
        "Nome completo do usu√°rio informado no cadastro.",
        "Texto livre.",
        "Categ√≥rica"
    ),
    "data_nascimento": (
        "Data de nascimento do usu√°rio.",
        "Formato data (YYYY-MM-DD).",
        "Data"
    ),
    "sexo": (
        "Sexo/g√™nero declarado pelo usu√°rio.",
        "Exemplos: M, F, Outro.",
        "Categ√≥rica"
    ),
    "peso": (
        "Peso corporal atual do usu√°rio.",
        "Valor num√©rico em quilogramas (kg).",
        "Num√©rica"
    ),
    "altura": (
        "Altura atual do usu√°rio.",
        "Valor num√©rico em metros (m).",
        "Num√©rica"
    ),
    "percentual_gordura": (
        "Percentual de gordura corporal estimado do usu√°rio.",
        "Valor num√©rico em porcentagem (%).",
        "Num√©rica"
    ),
    "objetivo": (
        "Objetivo principal do usu√°rio com o programa de treinos.",
        "Exemplos: Emagrecimento, Hipertrofia, Sa√∫de geral.",
        "Categ√≥rica"
    ),
    "n√≠vel_treinamento": (
        "N√≠vel de experi√™ncia do usu√°rio com treinamento f√≠sico.",
        "Exemplos: Iniciante, Intermedi√°rio, Avan√ßado.",
        "Categ√≥rica"
    ),
    "restri√ß√µes_f√≠sicas": (
        "Les√µes, limita√ß√µes ou observa√ß√µes f√≠sicas relevantes.",
        "Texto livre. Pode estar vazio se o usu√°rio n√£o tiver restri√ß√µes.",
        "Categ√≥rica"
    ),
    "frequ√™ncia_semanal": (
        "Frequ√™ncia de treinos planejada por semana.",
        "Valor num√©rico representando n√∫mero de dias/semana.",
        "Num√©rica"
    ),
    "horas_sono": (
        "Quantidade m√©dia de horas de sono por noite.",
        "Valor num√©rico em horas.",
        "Num√©rica"
    ),
    "nutricional_score": (
        "Score agregado/indicador de qualidade dos h√°bitos alimentares.",
        "Valor num√©rico (quanto maior, melhor a ader√™ncia nutricional).",
        "Num√©rica"
    ),
}

# Monta o DataFrame no mesmo formato dos exemplos anteriores
users_silver_df = (
    pd.DataFrame
      .from_dict(users_silver_dict, orient="index",
                 columns=["Descri√ß√£o", "Categorias", "Tipo"])
      .reset_index()
      .rename(columns={"index": "Vari√°vel"})
)

users_silver_df

Unnamed: 0,Vari√°vel,Descri√ß√£o,Categorias,Tipo
0,user_id,Identificador √∫nico do usu√°rio na aplica√ß√£o.,UUID/c√≥digo textual √∫nico por usu√°rio.,ID
1,data_registro,Data do registro de informa√ß√µes do usu√°rio.,Formato data (YYYY-MM-DD).,Data
2,nome,Nome completo do usu√°rio informado no cadastro.,Texto livre.,Categ√≥rica
3,data_nascimento,Data de nascimento do usu√°rio.,Formato data (YYYY-MM-DD).,Data
4,sexo,Sexo/g√™nero declarado pelo usu√°rio.,"Exemplos: M, F, Outro.",Categ√≥rica
5,peso,Peso corporal atual do usu√°rio.,Valor num√©rico em quilogramas (kg).,Num√©rica
6,altura,Altura atual do usu√°rio.,Valor num√©rico em metros (m).,Num√©rica
7,percentual_gordura,Percentual de gordura corporal estimado do usu...,Valor num√©rico em porcentagem (%).,Num√©rica
8,objetivo,Objetivo principal do usu√°rio com o programa d...,"Exemplos: Emagrecimento, Hipertrofia, Sa√∫de ge...",Categ√≥rica
9,n√≠vel_treinamento,N√≠vel de experi√™ncia do usu√°rio com treinament...,"Exemplos: Iniciante, Intermedi√°rio, Avan√ßado.",Categ√≥rica


In [7]:
import pandas as pd
from IPython.display import display
from io import BytesIO

# garantir fun√ß√£o de classifica√ß√£o de tipo
try:
    get_variable_type
except NameError:
    def get_variable_type(dtype):
        dtype_str = str(dtype).lower()
        if 'int' in dtype_str or 'float' in dtype_str:
            return "Num√©rica"
        else:
            return "Categ√≥rica"

# garantir que read_parquet_s3 est√° dispon√≠vel
try:
    read_parquet_s3
except NameError:
    def read_parquet_s3(key: str, n_rows: int = 5) -> pd.DataFrame:
        """
        L√™ um arquivo parquet diretamente do S3 usando pandas.
        """
        obj = s3.get_object(Bucket=BUCKET_NAME, Key=key)
        data = obj["Body"].read()
        df = pd.read_parquet(BytesIO(data))
        return df.head(n_rows)

# garantir que keys_silver est√° dispon√≠vel
try:
    keys_silver
except NameError:
    try:
        list_s3_objects
    except NameError:
        try:
            s3
        except NameError:
            import boto3
            s3 = boto3.client("s3")
            BUCKET_NAME = "instructor-workout-datas"
        def list_s3_objects(prefix: str):
            paginator = s3.get_paginator("list_objects_v2")
            for page in paginator.paginate(Bucket=BUCKET_NAME, Prefix=prefix):
                for obj in page.get("Contents", []):
                    yield obj["Key"]
    keys_silver = list(list_s3_objects("silver/"))

# localizar arquivo do synthetic_realistic_workout
file_key = next((k for k in keys_silver if k.startswith("silver/synthetic_realistic_workout/")), None)
if file_key is None:
    raise RuntimeError("Arquivo em silver/synthetic_realistic_workout/ n√£o encontrado em keys_silver")

# ler amostra
df_sample = read_parquet_s3(file_key, n_rows=5)

# montar dicion√°rio com descri√ß√£o gen√©rica, categorias gen√©ricas e tipo inferido
synthetic_workout_dict = {}
for col in df_sample.columns:
    synthetic_workout_dict[col] = (
        f"Descri√ß√£o da coluna {col}",
        "Texto livre / categoria (ex.: detalhes do exerc√≠cio/treino)",
        get_variable_type(df_sample[col].dtype)
    )

# montar DataFrame no mesmo formato dos exemplos anteriores
synthetic_realistic_workout_df = (
    pd.DataFrame
      .from_dict(synthetic_workout_dict, orient="index",
                 columns=["Descri√ß√£o", "Categorias", "Tipo"])
      .reset_index()
      .rename(columns={"index": "Vari√°vel"})
)

# exibir resultado
synthetic_realistic_workout_df

Unnamed: 0,Vari√°vel,Descri√ß√£o,Categorias,Tipo
0,user_id,Descri√ß√£o da coluna user_id,Texto livre / categoria (ex.: detalhes do exer...,Categ√≥rica
1,title,Descri√ß√£o da coluna title,Texto livre / categoria (ex.: detalhes do exer...,Categ√≥rica
2,start_time,Descri√ß√£o da coluna start_time,Texto livre / categoria (ex.: detalhes do exer...,Categ√≥rica
3,end_time,Descri√ß√£o da coluna end_time,Texto livre / categoria (ex.: detalhes do exer...,Categ√≥rica
4,description,Descri√ß√£o da coluna description,Texto livre / categoria (ex.: detalhes do exer...,Categ√≥rica
5,exercise_title,Descri√ß√£o da coluna exercise_title,Texto livre / categoria (ex.: detalhes do exer...,Categ√≥rica
6,superset_id,Descri√ß√£o da coluna superset_id,Texto livre / categoria (ex.: detalhes do exer...,Num√©rica
7,exercise_notes,Descri√ß√£o da coluna exercise_notes,Texto livre / categoria (ex.: detalhes do exer...,Categ√≥rica
8,set_index,Descri√ß√£o da coluna set_index,Texto livre / categoria (ex.: detalhes do exer...,Num√©rica
9,set_type,Descri√ß√£o da coluna set_type,Texto livre / categoria (ex.: detalhes do exer...,Categ√≥rica


In [8]:
# listar pastas em gold/
keys_gold = list(list_s3_objects("gold/"))
if not keys_gold:
    print("Nenhum arquivo/pasta encontrado em gold/")
else:
    pastas_gold = set()
    for key in keys_gold:
        parts = key.split("/")
        folder = "/".join(parts[:-1]) if len(parts) > 1 else ""
        if folder and folder != "gold":
            pastas_gold.add(folder)
    pastas_gold = sorted(pastas_gold)
    print("Pastas em gold/:")
    for p in pastas_gold:
        print("-", p)
    
    # Listar arquivos com detalhes
    print("\n" + "="*80)
    print("ARQUIVOS EM GOLD/")
    print("="*80)
    for key in sorted(keys_gold):
        if key != "gold/":
            print(f"  {key}")

Pastas em gold/:
- gold/app_users
- gold/dim_exercise_heavy_kaggle
- gold/dim_users
- gold/fact_train
- gold/fact_workouts
- gold/kaggle_dim
- gold/metrics
- gold/user_profiles
- gold/users
- gold/users_app

ARQUIVOS EM GOLD/
  gold/app_users/users_app.parquet
  gold/dim_exercise_heavy_kaggle/dim_exercise.parquet
  gold/dim_exercises_kaggle.parquet
  gold/dim_users/dim_users_20251207.parquet
  gold/dim_users/dim_users_20251208.parquet
  gold/dim_users/dim_users_20251209.parquet
  gold/dim_users/dim_users_20251210.parquet
  gold/dim_users/dim_users_20251211.parquet
  gold/dim_users/dim_users_20251212.parquet
  gold/fact_train/fact_workout_sets.parquet
  gold/fact_workouts/fact_workouts_20251207.parquet
  gold/fact_workouts/fact_workouts_20251208.parquet
  gold/fact_workouts/fact_workouts_20251209.parquet
  gold/fact_workouts/fact_workouts_20251210.parquet
  gold/fact_workouts/fact_workouts_20251211.parquet
  gold/fact_workouts/fact_workouts_20251212.parquet
  gold/fact_workouts/fact_wor

In [19]:
# Filtrar arquivos em silver/depara/
tabelao = [key for key in keys_silver if key.startswith('gold/fact_train/')]

# Criar dicion√°rio com informa√ß√µes de silver/depara/
tabelao = {}

for file_key in tabelao:
    file_name = file_key.split('/')[-1]  # ex: depara_heavy_kaggle.parquet
    
    try:
        if file_key.endswith('.parquet'):
            df_sample = read_parquet_s3(file_key, n_rows=5)
            columns = list(df_sample.columns)
            
            tabelao[file_name] = {
                'colunas': columns,
                'tipos': df_sample.dtypes.astype(str).to_dict(),
                'num_colunas': len(columns),
                's3_path': file_key
            }
    except Exception as e:
        tabelao[file_name] = {'erro': str(e)}

# Exibir de forma bonita
print("=" * 80)
print("ESQUEMA DOS DADOS - SILVER / DEPARA")
print("=" * 80)
for file_name, info in tabelao.items():
    print(f"\nüìÑ {file_name}")
    print(f"   S3 Path: {info.get('s3_path', 'N/A')}")
    print(f"   Colunas ({info.get('num_colunas', 'N/A')}): {', '.join(info.get('colunas', []))}")
    print(f"   Tipos: {info.get('tipos', {})}")

tabelao

ESQUEMA DOS DADOS - SILVER / DEPARA


{}

In [21]:
import os
import sys
from pathlib import Path
from io import BytesIO

import pandas as pd

# -------------------------------------------------------------------
# 1) Achar a raiz do projeto (pasta que tem "src/instructor_workout")
# -------------------------------------------------------------------
PROJECT_ROOT = Path().resolve()
while not (PROJECT_ROOT / "src" / "instructor_workout").exists():
    if PROJECT_ROOT.parent == PROJECT_ROOT:
        raise RuntimeError("N√£o encontrei src/instructor_workout subindo diret√≥rios.")
    PROJECT_ROOT = PROJECT_ROOT.parent

SRC_PATH = PROJECT_ROOT / "src"
if str(SRC_PATH) not in sys.path:
    sys.path.append(str(SRC_PATH))

print("PROJECT_ROOT:", PROJECT_ROOT)
print("SRC_PATH:", SRC_PATH)

# -------------------------------------------------------------------
# 2) Inicializar cliente S3 usando boto3 diretamente
# -------------------------------------------------------------------
import boto3

# Cliente S3 usando suas credenciais do .env / vari√°veis de ambiente
s3 = boto3.client("s3")
BUCKET_NAME = "instructor-workout-datas"

# -------------------------------------------------------------------
# 3) Fun√ß√µes auxiliares para ler arquivos do S3
# -------------------------------------------------------------------
def list_s3_objects(prefix: str):
    """
    Lista TODAS as keys (caminhos) dentro de um prefixo de S3.
    Ex: prefix = 'bronze/' ou 'silver/'
    """
    paginator = s3.get_paginator("list_objects_v2")
    for page in paginator.paginate(Bucket=BUCKET_NAME, Prefix=prefix):
        for obj in page.get("Contents", []):
            yield obj["Key"]


def read_parquet_s3(key: str, n_rows: int = 5) -> pd.DataFrame:
    """
    L√™ um arquivo parquet diretamente do S3 usando pandas.
    """
    obj = s3.get_object(Bucket=BUCKET_NAME, Key=key)
    data = obj["Body"].read()
    df = pd.read_parquet(BytesIO(data))
    return df.head(n_rows)


def read_csv_s3(key: str, n_rows: int = 5) -> pd.DataFrame:
    """
    L√™ um arquivo CSV diretamente do S3 usando pandas.
    """
    obj = s3.get_object(Bucket=BUCKET_NAME, Key=key)
    data = obj["Body"].read()
    df = pd.read_csv(BytesIO(data))
    return df.head(n_rows)


# -------------------------------------------------------------------
# 4) Gera o TXT na pasta Downloads com a inspe√ß√£o de tudo
# -------------------------------------------------------------------
DOWNLOADS = Path.home() / "Downloads"
DOWNLOADS.mkdir(parents=True, exist_ok=True)

output_path = DOWNLOADS / "s3_inspecao_notebook.txt"

prefixes_para_varrer = [
    "bronze/",
    "silver/",
    "gold/",
]

with open(output_path, "w", encoding="utf-8") as f:
    f.write("=== INSPE√á√ÉO COMPLETA DAS TABELAS NO S3 (GERADO PELO NOTEBOOK) ===\n\n")

    for base_prefix in prefixes_para_varrer:
        f.write("#" * 80 + "\n")
        f.write(f"PASTA BASE: s3://{BUCKET_NAME}/{base_prefix}\n")
        f.write("#" * 80 + "\n\n")

        # agrupar por "pasta" (prefixo at√© o √∫ltimo '/')
        objetos = list(list_s3_objects(base_prefix))
        if not objetos:
            f.write(f"(Nenhum arquivo encontrado em {base_prefix})\n\n")
            continue

        pastas = {}
        for key in objetos:
            # Ex: bronze/raw/kaggle/gym_exercises_20251206.parquet
            parts = key.split("/")
            if len(parts) > 1:
                folder = "/".join(parts[:-1])
            else:
                folder = ""
            pastas.setdefault(folder, []).append(key)

        for folder, keys in pastas.items():
            f.write(f"üìÅ PASTA: {folder or '(raiz do prefixo)'}\n\n")

            for key in keys:
                f.write(f"--- ARQUIVO: s3://{BUCKET_NAME}/{key} ---\n")

                # Tenta ler se for parquet ou csv
                try:
                    if key.lower().endswith(".parquet"):
                        df_head = read_parquet_s3(key, n_rows=5)
                        f.write(df_head.to_string(index=False))
                        f.write("\n\n")
                    elif key.lower().endswith(".csv"):
                        df_head = read_csv_s3(key, n_rows=5)
                        f.write(df_head.to_string(index=False))
                        f.write("\n\n")
                    else:
                        f.write("(arquivo n√£o suportado para preview)\n\n")
                except Exception as e:
                    f.write(f"[ERRO ao ler arquivo]: {e}\n\n")

print("Arquivo de inspe√ß√£o gerado em:", output_path)


PROJECT_ROOT: C:\Users\69pctechops\instructor_workout
SRC_PATH: C:\Users\69pctechops\instructor_workout\src
Arquivo de inspe√ß√£o gerado em: C:\Users\69pctechops\Downloads\s3_inspecao_notebook.txt


In [23]:
import pandas as pd

# Garantir que a fun√ß√£o get_variable_type est√° dispon√≠vel
try:
    get_variable_type
except NameError:
    def get_variable_type(dtype):
        dtype_str = str(dtype).lower()
        if "int" in dtype_str or "float" in dtype_str:
            return "Num√©rica"
        return "Categ√≥rica"


def build_schema_dict(df_sample: pd.DataFrame):
    """
    Cria um dicion√°rio no formato:
    {col: (descri√ß√£o, categorias/observa√ß√µes, tipo)}
    Somente para colunas que EXISTEM no df_sample.
    """

    # üî• Base de descri√ß√µes (cobre as colunas que voc√™ mostrou)
    base = {
        "user_id": (
            "Identificador √∫nico do usu√°rio que realizou o treino.",
            "UUID que referencia o usu√°rio na aplica√ß√£o.",
        ),
        "sk_exercise": (
            "Chave surrogate do exerc√≠cio.",
            "Identificador num√©rico interno do exerc√≠cio.",
        ),
        "id_exercice": (
            "Identificador original do exerc√≠cio na fonte externa.",
            "Pode ser nulo dependendo da origem do dado.",
        ),
        "id": (
            "Identificador da linha/registro no dataset.",
            "Pode representar ID original do evento/linha.",
        ),
        "routine_id": (
            "Identificador da rotina/sess√£o de treino.",
            "Agrupa exerc√≠cios dentro de uma mesma rotina.",
        ),
        "title": (
            "T√≠tulo do treino/sess√£o.",
            "Ex.: 'Treino de b√≠ceps e tr√≠ceps'.",
        ),
        "description": (
            "Descri√ß√£o livre do treino.",
            "Texto opcional com detalhes.",
        ),
        "start_time": (
            "Data e hora de in√≠cio do treino.",
            "Timestamp indicando quando come√ßou.",
        ),
        "end_time": (
            "Data e hora de t√©rmino do treino.",
            "Timestamp indicando quando terminou.",
        ),
        "duracao": (
            "Dura√ß√£o total do treino.",
            "Geralmente em minutos.",
        ),
        "exercise_title": (
            "Nome do exerc√≠cio conforme registrado no treino.",
            "Texto livre (pode estar em PT).",
        ),
        "superset_id": (
            "Identificador do superset.",
            "Indica agrupamento de exerc√≠cios em superset.",
        ),
        "exercise_notes": (
            "Anota√ß√µes do usu√°rio sobre o exerc√≠cio.",
            "Texto livre.",
        ),
        "set_index": (
            "Ordem da s√©rie dentro do exerc√≠cio.",
            "Ex.: 0, 1, 2 ...",
        ),
        "set_type": (
            "Tipo da s√©rie executada.",
            "Ex.: normal, aquecimento, drop set.",
        ),
        "weight_kg": (
            "Carga utilizada na s√©rie.",
            "Peso em quilogramas.",
        ),
        "reps": (
            "Repeti√ß√µes realizadas na s√©rie.",
            "Valor inteiro de reps.",
        ),
        "distance_km": (
            "Dist√¢ncia percorrida no exerc√≠cio (se aplic√°vel).",
            "Usado para cardio; valor em km.",
        ),
        "duration_seconds": (
            "Dura√ß√£o da s√©rie em segundos.",
            "Tempo ativo de execu√ß√£o.",
        ),
        "rpe": (
            "Esfor√ßo percebido (RPE).",
            "Escala de intensidade subjetiva.",
        ),
        "main_muscle": (
            "M√∫sculo principal trabalhado.",
            "Categ√≥rico (ex.: chest, back...).",
        ),
        "target_muscles": (
            "M√∫sculos alvo do exerc√≠cio.",
            "Pode ser lista/JSON/texto.",
        ),
        "synergist_muscles": (
            "M√∫sculos sinergistas do exerc√≠cio.",
            "Pode ser lista/JSON/texto.",
        ),
        "equipment": (
            "Equipamento utilizado.",
            "Ex.: m√°quina, halteres, barra.",
        ),
        "updated_at": (
            "Data de atualiza√ß√£o do registro.",
            "Timestamp de update.",
        ),
        "created_at": (
            "Data de cria√ß√£o do registro.",
            "Timestamp de cria√ß√£o.",
        ),
        "exercise_name_kaggle": (
            "Nome do exerc√≠cio conforme Kaggle (enriquecimento).",
            "Usado para padroniza√ß√£o.",
        ),
        "exercises": (
            "Campo auxiliar/agregado de exerc√≠cios.",
            "Pode ser nulo/JSON/estrutura aninhada.",
        ),
        "exercice_title": (  # caso exista com typo
            "Nome do exerc√≠cio conforme registrado (variante de coluna).",
            "Poss√≠vel varia√ß√£o/typo de 'exercise_title'.",
        ),
        "id_exercise": (  # caso exista com nome diferente
            "Identificador original do exerc√≠cio (variante de coluna).",
            "Poss√≠vel varia√ß√£o de 'id_exercice'.",
        ),
        "exercise_title_heavy": (
            "T√≠tulo do exerc√≠cio (fonte heavy).",
            "Texto livre com varia√ß√£o do nome.",
        ),
    }

    schema = {}

    for col in df_sample.columns:
        if col in base:
            desc, cats = base[col]
        else:
            # fallback autom√°tico (n√£o deixa coluna sem descri√ß√£o)
            desc = f"Campo '{col}' do dataset fact_workout_sets."
            cats = "Sem categoriza√ß√£o espec√≠fica (ver valores √∫nicos/amostra)."

        schema[col] = (desc, cats, get_variable_type(df_sample[col].dtype))

    return schema


# ‚úÖ Use assim:
# Garanta que df_sample existe e vem do parquet certo
# df_sample = df_fact_workout_sets.head(200).copy()

fact_workout_sets_dict = build_schema_dict(df_sample)

fact_workout_sets_df = (
    pd.DataFrame
      .from_dict(fact_workout_sets_dict, orient="index", columns=["Descri√ß√£o", "Categorias", "Tipo"])
      .reset_index()
      .rename(columns={"index": "Vari√°vel"})
)

fact_workout_sets_df


Unnamed: 0,Vari√°vel,Descri√ß√£o,Categorias,Tipo
0,user_id,Identificador √∫nico do usu√°rio que realizou o ...,UUID que referencia o usu√°rio na aplica√ß√£o.,Categ√≥rica
1,title,T√≠tulo do treino/sess√£o.,Ex.: 'Treino de b√≠ceps e tr√≠ceps'.,Categ√≥rica
2,start_time,Data e hora de in√≠cio do treino.,Timestamp indicando quando come√ßou.,Categ√≥rica
3,end_time,Data e hora de t√©rmino do treino.,Timestamp indicando quando terminou.,Categ√≥rica
4,description,Descri√ß√£o livre do treino.,Texto opcional com detalhes.,Categ√≥rica
5,exercise_title,Nome do exerc√≠cio conforme registrado no treino.,Texto livre (pode estar em PT).,Categ√≥rica
6,superset_id,Identificador do superset.,Indica agrupamento de exerc√≠cios em superset.,Num√©rica
7,exercise_notes,Anota√ß√µes do usu√°rio sobre o exerc√≠cio.,Texto livre.,Categ√≥rica
8,set_index,Ordem da s√©rie dentro do exerc√≠cio.,"Ex.: 0, 1, 2 ...",Num√©rica
9,set_type,Tipo da s√©rie executada.,"Ex.: normal, aquecimento, drop set.",Categ√≥rica
