In [1]:
import pandas as pd

In [2]:
def remover_espacos_colunas(df):
    for coluna in df.columns:
        if isinstance(coluna, str):  
            novo_nome = coluna.strip().replace(' ', '')  
            df.rename(columns={coluna: novo_nome}, inplace=True)  
    return df

In [3]:
def lista_colunas_unicas(dicionario_dataframes):
    colunas_unicas = set()
    for df_nome, df in dicionario_dataframes.items():
        colunas_unicas.update([col.replace('.1', '').strip() for col in df.columns])
    colunas_unicas.discard("ESTUDANTE")
    return list(colunas_unicas)
def extrair_elementos_para_dict(lista):
    dict_resultante = {}
    for idx, dic in enumerate(lista, start=1):
        dict_resultante[idx] = dic
    return dict_resultante
def extrair_abas_excel(nome_arquivo):
    xls = pd.ExcelFile(nome_arquivo)
    abas_dict = {}
    for aba_nome in xls.sheet_names:
        df = xls.parse(aba_nome)
        aba_nome = aba_nome.strip()
        abas_dict[aba_nome] = remover_espacos_colunas(df)
    return abas_dict
def gerar_alunos(lista_de_listas):
    alunos_unicos = set()
    for lista in lista_de_listas:
        alunos_unicos.update(lista)
    return list(alunos_unicos)

In [4]:
def calcular_participacao_aluno(df, flag_atraso):
    df_alvo = pd.DataFrame(df.iloc[:, 1:16]==flag_atraso)
    return df_alvo.replace({True: 1, False: 0}).sum(axis=1)
def calcular_participacao_materia(df, flag_atraso):
    df_alvo = pd.DataFrame(df.iloc[0:, 1:]==flag_atraso).sort_index(axis=1)
    return df_alvo.replace({True: 1, False: 0}).sum(axis=0).to_dict()
    

# Extração e processamento da frequencia das turmas 

In [5]:
path_frequencia_marco_2023 = 'data/raw/Frequencia_Marco_2023.xlsx'  
turmas_frequencia_marco_2023 = extrair_abas_excel(path_frequencia_marco_2023)
 

In [8]:
DISCIPLINAS = lista_colunas_unicas(turmas_frequencia_marco_2023)

In [9]:
DISCIPLINAS

['PORTUGUÊS',
 'LITERATURA',
 'GEOGRAFIA',
 'QUÍMICA',
 'HISTÓRIA',
 'SOCIOLOGIA',
 'INTERTEXTO',
 'MATEMÁTICA',
 'REDAÇÃO',
 'FÍSICA',
 'BIOLOGIA',
 'FILOSOFIA']

## Gerando panorama das disciplinas

### Buscando todas as disciplinas do mês

In [10]:
salas = ['A','B']
semanas = [1,2,3]
arquivos = list(turmas_frequencia_marco_2023.keys())
resultado_disciplinas = {}
cod = 1

In [11]:
dados_disciplinas = {}
for semana in semanas:
    for sala in salas:
        chave = f"{semana:02d}_{sala}"
        arquivo = f'Sala {sala} - Semana {semana}'
        dados_disciplinas[chave] = {'sala': sala, 'semana': semana, 'arquivo': arquivo}

In [13]:
dados_disciplinas

{'01_A': {'sala': 'A', 'semana': 1, 'arquivo': 'Sala A - Semana 1'},
 '01_B': {'sala': 'B', 'semana': 1, 'arquivo': 'Sala B - Semana 1'},
 '02_A': {'sala': 'A', 'semana': 2, 'arquivo': 'Sala A - Semana 2'},
 '02_B': {'sala': 'B', 'semana': 2, 'arquivo': 'Sala B - Semana 2'},
 '03_A': {'sala': 'A', 'semana': 3, 'arquivo': 'Sala A - Semana 3'},
 '03_B': {'sala': 'B', 'semana': 3, 'arquivo': 'Sala B - Semana 3'}}

In [14]:
resultados = []

In [15]:
for id in list(dados_disciplinas.keys()):
    arquivo_base =  dados_disciplinas[id]['arquivo']
    for disciplina in DISCIPLINAS:
        discp_semana = {}  # Crie um novo dicionário para cada disciplina
        disciplina_extra = disciplina + '.1'
        disciplinas_semana = list(turmas_frequencia_marco_2023[arquivo_base].columns)
        if disciplina in disciplinas_semana:
            qtd_aulas = 1
            atraso15 = calcular_participacao_materia(turmas_frequencia_marco_2023[arquivo_base], '0*')[disciplina]
            atraso30 = calcular_participacao_materia(turmas_frequencia_marco_2023[arquivo_base], '0**')[disciplina]
            faltas = calcular_participacao_materia(turmas_frequencia_marco_2023[arquivo_base], 0)[disciplina]
            presencas = calcular_participacao_materia(turmas_frequencia_marco_2023[arquivo_base], 1)[disciplina]
            if disciplina_extra in disciplinas_semana:
                qtd_aulas = qtd_aulas + 1
                atraso15 = (atraso15 + calcular_participacao_materia(turmas_frequencia_marco_2023[arquivo_base], '0*')[disciplina_extra])
                atraso30 = (atraso30 + calcular_participacao_materia(turmas_frequencia_marco_2023[arquivo_base], '0**')[disciplina_extra])
                faltas = (faltas + calcular_participacao_materia(turmas_frequencia_marco_2023[arquivo_base], 0)[disciplina_extra])
                presencas = (presencas + calcular_participacao_materia(turmas_frequencia_marco_2023[arquivo_base], 1)[disciplina_extra])         
        else:
            qtd_aulas = 0
            atraso15 = 0
            atraso30 = 0
            faltas = 0
            presencas = 0
        discp_semana[cod] = {
            'ID': id,
            'SEMANA': dados_disciplinas[id]['semana'],
            'SALA': dados_disciplinas[id]['sala'],
            'DISCIPLINA': disciplina,
            'QTD_AULAS_SEMANA': qtd_aulas,
            'PRESENÇAS': presencas,
            'FALTAS': faltas,
            'ATRASO15': atraso15,
            'ATRASO30': atraso30
        }
        resultados.append(discp_semana)
        cod += 1

In [16]:
tam_base = len(resultados)
base_final = {}
for num in range(1,tam_base+1):
    base_final[num] = extrair_elementos_para_dict(resultados)[num][num]
base_disciplinas = pd.DataFrame(base_final).T    
    

In [18]:
base_disciplinas.query("ID=='01_A'")

Unnamed: 0,ID,SEMANA,SALA,DISCIPLINA,QTD_AULAS_SEMANA,PRESENÇAS,FALTAS,ATRASO15,ATRASO30
1,01_A,1,A,PORTUGUÊS,1,10,38,17,1
2,01_A,1,A,LITERATURA,1,9,63,0,1
3,01_A,1,A,GEOGRAFIA,1,12,47,5,9
4,01_A,1,A,QUÍMICA,1,10,63,0,0
5,01_A,1,A,HISTÓRIA,1,6,67,0,0
6,01_A,1,A,SOCIOLOGIA,1,4,69,0,0
7,01_A,1,A,INTERTEXTO,1,21,50,2,0
8,01_A,1,A,MATEMÁTICA,2,25,89,18,14
9,01_A,1,A,REDAÇÃO,1,21,35,6,11
10,01_A,1,A,FÍSICA,1,10,40,17,6


In [None]:
# base_disciplinas.to_csv('situacao_disciplinas.csv',index=False)

## Gerando base de alunos

In [23]:
alunos_sala_a = []
alunos_sala_b = []   
for semana in range(1, 4):
    alunos_sala_a.append(list(turmas_frequencia_marco_2023[f'Sala A - Semana {semana}']['ESTUDANTE']))
    alunos_sala_b.append(list(turmas_frequencia_marco_2023[f'Sala B - Semana {semana}']['ESTUDANTE']))
    
    

In [24]:
alunos_sala_a = gerar_alunos(alunos_sala_a)
alunos_sala_b = gerar_alunos(alunos_sala_b)

In [26]:
def gerar_presenca_alunos(turma,alunos_turma):
    base_alunos_sala_parcial = {}
    id = 1 
    for aluno in alunos_turma:
        for semana in range(1, 4):
            try:
                df_semana = turmas_frequencia_marco_2023[f'Sala {turma} - Semana {semana}'].query(f"ESTUDANTE == '{aluno}'")
                base_alunos_sala_parcial[id] = {
                    'ESTUDANTE': aluno,
                    'TURMA': turma,
                    'SEMANA': semana,
                    'PRESENCA': int(calcular_participacao_aluno(df_semana, 1)), 
                    'FALTAS': int(calcular_participacao_aluno(df_semana, 0)),
                    'ATRASOS15': int(calcular_participacao_aluno(df_semana, '0*')),
                    'ATRASOS30': int(calcular_participacao_aluno(df_semana, '0**'))
                }
            except:
                base_alunos_sala_parcial[id] = {
                    'ESTUDANTE': aluno,
                    'TURMA': turma,
                    'SEMANA': semana,
                    'PRESENCA': -1,
                    'FALTAS': -1,
                    'ATRASOS15': -1,
                    'ATRASOS30': -1
                }
            id += 1
    return pd.DataFrame(base_alunos_sala_parcial).T

In [32]:
gerar_presenca_alunos('A',alunos_sala_a).to_csv('alunos_sala_a.csv',index=False)

In [33]:
gerar_presenca_alunos('B',alunos_sala_b).to_csv('alunos_sala_b.csv',index=False)