In [None]:
import os
import pandas as pd
import numpy as np
from faker import Faker
from random import randint, choice, uniform
from datetime import datetime, timedelta

#Criando a pasta dados para salvar os dados sem crus sem processo de transformação e limpeza
os.makedirs("dados", exist_ok=True)

#Uso as melhores bibliotecas, random e faker (faker em pt-br)
fake = Faker('pt_BR')
np.random.seed(42)

#Crio a tabela usuários
usuarios = []
for i in range(1, 2001):
    genero = choice(["Masculino", "Feminino"])
    usuarios.append({
        "id_usuario": i,
        "nome": fake.name_male() if genero == "Masculino" else fake.name_female(),
        "idade": randint(18, 65),
        "genero": genero,
        "email": fake.email(),
        "data_inicio": fake.date_between(start_date='-3y', end_date='-1y'),
        "status": choice(["Ativo", "Inativo", "Cancelado"])
    })
df_usuarios = pd.DataFrame(usuarios)
df_usuarios.to_csv("dados/usuarios.csv", index=False)


#Crio já uma tabela temporal (serve para ser a dCalendario) 
datas = pd.date_range(start="2022-01-01", end="2024-12-31", freq="D")
dim_tempo = pd.DataFrame({
    "data": datas,
    "ano": datas.year,
    "mes": datas.month,
    "dia": datas.day,
    "dia_semana": datas.day_name(locale='pt_BR'),
    "semana_ano": datas.isocalendar().week
})
dim_tempo.to_csv("dados/dim_tempo.csv", index=False)


#Criando a abela de treinos
tipos_treino = ["Musculação", "Cardio", "Funcional", "Pilates", "Crossfit", "HIIT"]
df_dim_treino = pd.DataFrame({
    "id_treino": range(1, len(tipos_treino)+1),
    "nome_treino": tipos_treino
})
df_dim_treino.to_csv("dados/dim_treino.csv", index=False)

treinos = []
for _ in range(22000):
    treinos.append({
        "id_treino_realizado": fake.uuid4(),
        "id_usuario": randint(1, 2000),
        "id_treino": randint(1, len(tipos_treino)),
        "data": fake.date_between(start_date='-2y', end_date='today'),
        "duracao_min": randint(30, 90),
        "calorias_gastas": randint(200, 800)
    })
df_treinos = pd.DataFrame(treinos)
df_treinos.to_csv("dados/treinos.csv", index=False)


#Criando a abela de presença dos alunos
presencas = []
for _ in range(22000):
    presencas.append({
        "id_presenca": fake.uuid4(),
        "id_usuario": randint(1, 2000),
        "data_entrada": fake.date_time_between(start_date='-2y', end_date='now'),
    })
df_presencas = pd.DataFrame(presencas)
df_presencas.to_csv("dados/presencas.csv", index=False)

#Criando a tabela de feedback caso seja importante posteriormente para as análises e para se aproximar de um ambiente real
frases_feedback = [
    "Ótima aula, muito dinâmica!",
    "Gostei do instrutor, foi bem atencioso.",
    "A máquina estava com ruído estranho.",
    "Me senti bem após o treino.",
    "A estrutura poderia ser melhor.",
    "Pouca variedade de exercícios.",
    "Ambiente agradável e limpo.",
    "A academia estava cheia demais hoje.",
    "Instrutor não deu muita atenção.",
    "Treino pesado, mas satisfatório!"
]

feedbacks = []
for _ in range(12000):
    feedbacks.append({
        "id_feedback": fake.uuid4(),
        "id_usuario": randint(1, 2000),
        "data": fake.date_between(start_date='-2y', end_date='today'),
        "avaliacao": randint(1, 5),
        "comentario": choice(frases_feedback)
    })
df_feedbacks = pd.DataFrame(feedbacks)
df_feedbacks.to_csv("dados/feedbacks.csv", index=False)


#Criando a tabela de avaliações físicas
avaliacoes = []
for _ in range(8000):
    peso = round(uniform(50, 120), 1)
    gordura = round(uniform(10, 35), 1)
    forca = randint(50, 300)
    avaliacoes.append({
        "id_avaliacao": fake.uuid4(),
        "id_usuario": randint(1, 2000),
        "data": fake.date_between(start_date='-2y', end_date='today'),
        "peso_kg": peso,
        "gordura_percentual": gordura,
        "forca_maxima": forca
    })
df_avaliacoes = pd.DataFrame(avaliacoes)
df_avaliacoes.to_csv("dados/avaliacoes_fisicas.csv", index=False)


#Criando a tabela dos instrutores da academia
instrutores = []
for i in range(1, 11):
    instrutores.append({
        "id_instrutor": i,
        "nome": fake.name(),
        "especialidade": choice(tipos_treino),
        "tempo_experiencia_anos": randint(1, 10)
    })
df_instrutores = pd.DataFrame(instrutores)
df_instrutores.to_csv("dados/dim_instrutor.csv", index=False)


#Criando a tabela de logs de máquinas usadas, caso tenha ou seja póssível em um ambiente real
logs_maquinas = []
for _ in range(15000):
    logs_maquinas.append({
        "id_log": fake.uuid4(),
        "id_usuario": randint(1, 2000),
        "maquina": choice(["Leg Press", "Cadeira Extensora", "Esteira", "Bicicleta", "Supino"]),
        "tempo_uso_min": randint(5, 40),
        "data": fake.date_time_between(start_date='-2y', end_date='now')
    })
df_logs_maquinas = pd.DataFrame(logs_maquinas)
df_logs_maquinas.to_csv("dados/logs_maquinas.csv", index=False)

#Se tudo der certo, vai retornar:
print("Dados Gerados. Tudo OK.")


Dados Gerados. Tudo OK.
