In [None]:
import pandas as pd
import numpy as np
import random
import os
from faker import Faker



In [None]:
os.makedirs ("bonse", exist_ok=True)
faker = Faker()

In [None]:
def gen_dim_alumno(n=30):
  alumno = []
  for i in range(1,n+1):
    alumno.append({
        'alumno_id': i,
        'nombre': faker.name(),
        'grado': random.choice(['1ro', '2do', '3ro']),
        'grupo': random.choice(['A', 'B', 'C'])
    })
  df = pd.DataFrame(alumno)
  df.to_parquet("bonse/alumno.parquet", index=False)
  return df

In [None]:
def gen_dim_materia():
  materias = ["Matematicas", "Español", "Ciencia","Historia","Ingles"]
  df = pd.DataFrame ({
      'materia_id': range(1, len (materias)+1),
       'nombre_materia': materias
  })
  df.to_parquet("bonse/materia.parquet", index=False)
  return df

In [None]:
def gen_dim_fecha(inicio='2024-01-01', fin='2024-03-3'):
  fechas = pd.date_range(start=inicio, end=fin, freq='D')
  df = pd.DataFrame({
      'fecha_id': range(1, len(fechas)+1),
      'fecha': fechas,
      'dia': fechas.day,
      'mes': fechas.month,
      'año': fechas.year,
      'dia_semana': fechas.day_name(),
      'es_laboral': fechas.weekday <5
  })
  df = df[df['es_laboral']]
  df.to_parquet("bonse/fecha.parquet", index=False)
  return df

In [None]:
def gen_tabla_asistencia(df_fecha, df_alumno, df_materia, n=1000):
  asistencias = []
  for i in range(n):
    alumno = df_alumno.sample().iloc[0]
    materia = df_materia.sample().iloc[0]
    fecha = df_fecha.sample().iloc[0]
    presente = random.choice([True, False])
    asistencias.append({
        'registro_id': i+1,
        'fecha_id': fecha['fecha_id'],
        'alumno_id': alumno['alumno_id'],
        'materia_id': materia['materia_id'],
        'presente': presente
        })
  df = pd.DataFrame(asistencias)
  df.to_parquet("bonse/asistencia.parquet", index=False)
  return df


In [None]:
df_alumno = gen_dim_alumno()
df_materia = gen_dim_materia()
df_fecha = gen_dim_fecha()
df_asistencia = gen_tabla_asistencia(df_fecha, df_alumno, df_materia)

In [None]:
df_alumno = pd.read_parquet("bonse/alumno.parquet")
df_materia = pd.read_parquet("bonse/materia.parquet")
df_fecha = pd.read_parquet("bonse/fecha.parquet")
df_asistencia = pd.read_parquet("bonse/asistencia.parquet")

In [None]:
df_join = df_asistencia.merge(df_fecha, on='fecha_id')
asistencia_por_mes = df_join.groupby('mes')['presente'].sum().reset_index()
display(asistencia_por_mes)

Unnamed: 0,mes,presente
0,1,245
1,2,243
2,3,16


In [None]:
os.makedirs("gold", exist_ok = True)


In [None]:

df_join = df_asistencia.merge(df_fecha, on = 'fecha_id')
asistencia_por_mes = df_join.groupby('mes')['presente'].sum().reset_index()
asistencia_por_mes.to_parquet("gold/asistencia_por_mes.parquet", index = False)
display(asistencia_por_mes)

Unnamed: 0,mes,presente
0,1,245
1,2,243
2,3,16


In [None]:
df_join_alumno = df_asistencia.merge(df_alumno, on='alumno_id')
asistencia_por_grupo = df_join_alumno.groupby('grupo')['presente'].mean().reset_index()
asistencia_por_grupo.to_parquet("gold/asistencia_por_grupo.parquet", index=False)
display(asistencia_por_grupo)

Unnamed: 0,grupo,presente
0,A,0.523438
1,B,0.503623
2,C,0.49359



Passing `palette` without assigning `hue` is deprecated and will be removed in v0.14.0. Assign the `y` variable to `hue` and set `legend=False` for the same effect.



In [None]:
df_join_materia = df_asistencia.merge(df_materia, on='materia_id')
inasistencias = df_join_materia[df_join_materia['presente'] == False].groupby('nombre_materia').size().reset_index(name='total_inasistencias')
inasistencias.to_parquet("gold/inasistencias_por_materia.parquet", index=False)
display(inasistencias)

Unnamed: 0,nombre_materia,total_inasistencias
0,Ciencia,82
1,Español,112
2,Historia,92
3,Ingles,105
4,Matematicas,105



Passing `palette` without assigning `hue` is deprecated and will be removed in v0.14.0. Assign the `y` variable to `hue` and set `legend=False` for the same effect.



In [None]:
df_join_fecha = df_asistencia.merge(df_fecha, on='fecha_id')
asistencia_por_mes = df_join_fecha.groupby('mes')['presente'].sum().reset_index()
display(asistencia_por_mes)
asistencia_por_mes.to_parquet("gold/asistencia_por_mes.parquet",index=False)

Unnamed: 0,mes,presente
0,1,245
1,2,243
2,3,16
