In [13]:
import pandas as pd
import numpy as np

file = 'Base anonimizada - Eric - PUC-SP.xlsx'

data = pd.read_excel(file, skiprows=2)

dates = pd.read_excel(file)
dates = (
    dates.drop(columns=[col for col in dates.columns if 'Unnamed:' in col])
    .iloc[0]
    .to_dict()
)

colunas_por_aula = ['Pre-Class', 'P', 'Hw', 'CP', 'Bh']
id_columns = ['Nome Planilha Feedback', 'Sala', 'Num', 'NOME COMPLETO']


def is_class_column(col: str) -> bool:
    """Verifica se a coluna faz parte do grupo de notas por aula."""
    return col.split('.')[0] in colunas_por_aula


def split_colum_values(col: str):
    """Divide a coluna entre o nome base e o nÃºmero da aula (ou 0 se nÃ£o tiver)."""
    try:
        coluna, aula = col.split('.')
        return is_class_column(coluna), coluna, int(aula)
    except:
        return is_class_column(col), col, 0


def get_class_date(aula_idx: int):
    """ObtÃ©m a data da aula a partir do dicionÃ¡rio de datas."""
    aula_key = f'Aula {aula_idx + 1}' if aula_idx > 0 else 'Aula 1'
    return dates.get(aula_key, None)


class_columns = [col for col in data.columns if is_class_column(col)]

all_classes = []

for col in class_columns:
    needed, col_name, aula_idx = split_colum_values(col)
    if not needed:
        continue
    group_cols = [f'{c}.{aula_idx}' if f'{c}.{aula_idx}' in data.columns else c for c in colunas_por_aula]
    aula_df = data[id_columns + [c for c in group_cols if c in data.columns]].copy()
    aula_df['Aula'] = aula_idx + 1
    aula_df['Data'] = get_class_date(aula_idx)
    aula_df.rename(columns={c: c.split('.')[0] for c in group_cols if '.' in c}, inplace=True)
    all_classes.append(aula_df)

compiled = pd.concat(all_classes, ignore_index=True)

compiled.sort_values(by=['Nome Planilha Feedback', 'Aula'], inplace=True)



In [14]:
compiled

Unnamed: 0,Nome Planilha Feedback,Sala,Num,NOME COMPLETO,Pre-Class,P,Hw,CP,Bh,Aula,Data
108,Four Corners A1 - 1S2025 - Campinas - Feedback,Four Corners A1,1,Estudante 1 - Campinas Four Corners A1,,P,,:-D,,1,8-fev.-2025
109,Four Corners A1 - 1S2025 - Campinas - Feedback,Four Corners A1,2,Estudante 2 - Campinas Four Corners A1,,P,,:-D,,1,8-fev.-2025
110,Four Corners A1 - 1S2025 - Campinas - Feedback,Four Corners A1,3,Estudante 3 - Campinas Four Corners A1,,P,,:-D,,1,8-fev.-2025
111,Four Corners A1 - 1S2025 - Campinas - Feedback,Four Corners A1,4,Estudante 4 - Campinas Four Corners A1,,P,,:-D,,1,8-fev.-2025
112,Four Corners A1 - 1S2025 - Campinas - Feedback,Four Corners A1,5,Estudante 5 - Campinas Four Corners A1,,P,,:-D,,1,8-fev.-2025
...,...,...,...,...,...,...,...,...,...,...,...
140152,Four Corners J3 - 1S2025 - Unidade Virtual (au...,Four Corners J3,14,Estudante 14 - Unidade Virtual (aulas aos sÃ¡ba...,,11,,:-D,,15,
140153,Four Corners J3 - 1S2025 - Unidade Virtual (au...,Four Corners J3,15,Estudante 15 - Unidade Virtual (aulas aos sÃ¡ba...,,12,,:-D,,15,
140154,Four Corners J3 - 1S2025 - Unidade Virtual (au...,Four Corners J3,16,Estudante 16 - Unidade Virtual (aulas aos sÃ¡ba...,,13,,:-D,,15,
140155,Four Corners J3 - 1S2025 - Unidade Virtual (au...,Four Corners J3,17,Estudante 17 - Unidade Virtual (aulas aos sÃ¡ba...,,13,,:-D,,15,


In [15]:
# Seleciona apenas as colunas relevantes
data_unidades = data[['NOME COMPLETO', 'Nome Planilha Feedback', 'Sala']].copy()

# Extrai o nome da unidade com seguranÃ§a
def extrair_unidade(texto):
    partes = str(texto).split(' - ')
    return partes[2] if len(partes) > 2 else None

data_unidades['unidade'] = data_unidades['Nome Planilha Feedback'].apply(extrair_unidade)

# Remove duplicados (cada aluno aparece sÃ³ uma vez)
data_alunos = data_unidades[['NOME COMPLETO', 'unidade', 'Sala']].drop_duplicates()



In [16]:
# Quantos alunos hÃ¡ por unidade
print("ðŸ“Š Alunos por unidade:")
data_alunos.groupby('unidade')['NOME COMPLETO'].count()

ðŸ“Š Alunos por unidade:


unidade
Campinas                                241
CapÃ£o Redondo                           108
Diadema                                 141
Jabaquara                               145
MauÃ¡                                     53
Rio de Janeiro                          147
TatuapÃ©                                 157
Unidade Virtual (aulas aos domingos)    210
Unidade Virtual (aulas aos sÃ¡bados)     445
Vila SÃ´nia (manhÃ£)                      195
Vila SÃ´nia (tarde)                      135
Name: NOME COMPLETO, dtype: int64

In [17]:

# Quantos alunos hÃ¡ por sala e unidade
print("ðŸ“Š Alunos por sala e unidade:")
data_alunos.groupby(['Sala', 'unidade'])['NOME COMPLETO'].count()

ðŸ“Š Alunos por sala e unidade:


Sala             unidade                            
Four Corners A1  Campinas                               16
                 CapÃ£o Redondo                          19
                 Diadema                                21
                 Jabaquara                              22
                 MauÃ¡                                   13
                                                        ..
Four Corners J1  Unidade Virtual (aulas aos sÃ¡bados)    18
                 Vila SÃ´nia (manhÃ£)                     14
Four Corners J2  Campinas                               10
                 Unidade Virtual (aulas aos sÃ¡bados)    18
Four Corners J3  Unidade Virtual (aulas aos sÃ¡bados)    18
Name: NOME COMPLETO, Length: 125, dtype: int64

In [28]:
import pandas as pd
import numpy as np

file = 'Base anonimizada - Eric - PUC-SP.xlsx'

# --- 1. Ler os dados principais e as datas ---
data = pd.read_excel(file, skiprows=2)

dates = pd.read_excel(file)
dates = (
    dates.drop(columns=[col for col in dates.columns if 'Unnamed:' in col])
    .iloc[0]
    .to_dict()
)

# --- 2. Definir colunas por aula e funÃ§Ãµes auxiliares ---
colunas_por_aula = ['Pre-Class', 'P', 'Hw', 'CP', 'Bh']
id_columns = ['Nome Planilha Feedback', 'Sala', 'Num', 'NOME COMPLETO']

def is_class_column(col: str) -> bool:
    return col.split('.')[0] in colunas_por_aula

def split_colum_values(col: str):
    try:
        coluna, aula = col.split('.')
        return is_class_column(coluna), coluna, int(aula)
    except:
        return is_class_column(col), col, 0

def get_class_date(aula_idx: int):
    aula_key = f'Aula {aula_idx + 1}' if aula_idx > 0 else 'Aula 1'
    return dates.get(aula_key, None)

# --- 3. Reorganizar dados por aula ---
class_columns = [col for col in data.columns if is_class_column(col)]
all_classes = []

for col in class_columns:
    needed, col_name, aula_idx = split_colum_values(col)
    if not needed:
        continue
    group_cols = [f'{c}.{aula_idx}' if f'{c}.{aula_idx}' in data.columns else c for c in colunas_por_aula]
    aula_df = data[id_columns + [c for c in group_cols if c in data.columns]].copy()
    aula_df['Aula'] = aula_idx + 1
    aula_df['Data'] = get_class_date(aula_idx)
    aula_df.rename(columns={c: c.split('.')[0] for c in group_cols if '.' in c}, inplace=True)
    all_classes.append(aula_df)

compiled = pd.concat(all_classes, ignore_index=True)

# --- 4. Adicionar colunas de Aluno e Unidade ---
def extrair_unidade(texto):
    partes = str(texto).split(' - ')
    return partes[2] if len(partes) > 2 else None

compiled['Aluno'] = compiled['NOME COMPLETO'].apply(lambda x: str(x).split(' - ')[0])
compiled['Unidade'] = compiled['Nome Planilha Feedback'].apply(extrair_unidade)

# --- 5. Montar base final limpa ---
base_final = compiled[[
    'Aluno', 'Unidade', 'Sala', 'Aula', 'Data',
    'Pre-Class', 'P', 'Hw', 'CP', 'Bh'
]].drop_duplicates()

# --- 6. (Opcional) Ordenar e salvar ---
base_final.sort_values(by=['Unidade', 'Sala', 'Aluno', 'Aula'], inplace=True)

# Salvar em Excel, se quiser:
# base_final.to_excel('base_final.xlsx', index=False)

# Exibir primeiras linhas
base_final

Unnamed: 0,Aluno,Unidade,Sala,Aula,Data,Pre-Class,P,Hw,CP,Bh
108,Estudante 1,Campinas,Four Corners A1,1,8-fev.-2025,,P,,:-D,
9993,Estudante 1,Campinas,Four Corners A1,2,15-fev.-2025,âˆš,P,âˆš,:-D,
19878,Estudante 1,Campinas,Four Corners A1,3,22-fev.-2025,âˆš,P,âˆš,:-D,
29763,Estudante 1,Campinas,Four Corners A1,4,8-mar.-2025,âˆš,P,âˆš,:-D,
39648,Estudante 1,Campinas,Four Corners A1,5,15-mar.-2025,âˆš,P,âˆš,:-D,
...,...,...,...,...,...,...,...,...,...,...
100024,Estudante 6,Vila SÃ´nia (tarde),Four Corners I1,11,24-mai.-2025,âˆš,P,âˆš,:-D,
109909,Estudante 6,Vila SÃ´nia (tarde),Four Corners I1,12,31-mai.-2025,âˆš,P,âˆš,:-D,
119794,Estudante 6,Vila SÃ´nia (tarde),Four Corners I1,13,7-jun.-2025,âˆš,P,,:-D,
129679,Estudante 6,Vila SÃ´nia (tarde),Four Corners I1,14,,,,,,


In [29]:
base_final.Data.unique()

array(['8-fev.-2025', '15-fev.-2025', '22-fev.-2025', '8-mar.-2025',
       '15-mar.-2025', '29-mar.-2025', '5-abr.-2025', '12-abr.-2025',
       '26-abr.-2025', '17-mai.-2025', '24-mai.-2025', '31-mai.-2025',
       '7-jun.-2025', nan, None], dtype=object)

In [52]:
def parse_portuguese_dates(dates):
    if isinstance(dates, pd.Series):
        dates = dates.astype(str).replace(['nan', 'None'], np.nan)
    elif not isinstance(dates, list):
        raise TypeError("O argumento deve ser uma lista ou pd.Series.")
    
    meses = {
        'jan.': 'Jan', 'fev.': 'Feb', 'mar.': 'Mar', 'abr.': 'Apr',
        'mai.': 'May', 'jun.': 'Jun', 'jul.': 'Jul', 'ago.': 'Aug',
        'set.': 'Sep', 'out.': 'Oct', 'nov.': 'Nov', 'dez.': 'Dec'
    }

    datas_en = []
    for d in dates:
        if isinstance(d, str):
            for pt, en in meses.items():
                d = d.replace(pt, en)
        datas_en.append(d)

    return pd.to_datetime(datas_en, format='%d-%b-%Y', errors='coerce')

base_final['Data'] = parse_portuguese_dates(base_final.Data.to_list())

In [53]:
base_final.to_csv('eric-dados-compilados.csv', index=None)

In [54]:
base_final.columns

Index(['Aluno', 'Unidade', 'Sala', 'Aula', 'Data',
       'Fez a atividade antes da aula', 'PresenÃ§a/Ausencia',
       'Fez liÃ§Ã£o de casa', 'ParticipaÃ§Ã£o', 'Comportamento'],
      dtype='object')

In [55]:
colunas_corno = [ 'Pre-Class', 'P', 'Hw',
       'CP', 'Bh']

In [56]:


metadata = pd.read_excel(file, sheet_name=['Metadados'])['Metadados']



In [57]:
metadata.columns = ['detalhes', 'coluna', 'nome_novo']

In [58]:
metadata[metadata['coluna'].isin(colunas_corno)][['coluna', 'nome_novo']].to_dict(orient='records')

[{'coluna': 'Pre-Class', 'nome_novo': 'Fez a atividade antes da aula'},
 {'coluna': 'P', 'nome_novo': 'PresenÃ§a/Ausencia'},
 {'coluna': 'Hw', 'nome_novo': 'Fez liÃ§Ã£o de casa'},
 {'coluna': 'CP', 'nome_novo': 'ParticipaÃ§Ã£o'},
 {'coluna': 'Bh', 'nome_novo': 'Comportamento'},
 {'coluna': 'P', 'nome_novo': nan}]

In [59]:
colunas_novas = [{'coluna': 'Pre-Class', 'nome_novo': 'Fez a atividade antes da aula'},
 {'coluna': 'P', 'nome_novo': 'PresenÃ§a/Ausencia'},
 {'coluna': 'Hw', 'nome_novo': 'Fez liÃ§Ã£o de casa'},
 {'coluna': 'CP', 'nome_novo': 'ParticipaÃ§Ã£o'},
 {'coluna': 'Bh', 'nome_novo': 'Comportamento'}]

In [60]:
fds = pd.DataFrame(colunas_novas)

In [63]:
base_final.to_csv('eric-dados-compilados-com-nomes.csv', index=None)    


In [64]:
base_final

Unnamed: 0,Aluno,Unidade,Sala,Aula,Data,Fez a atividade antes da aula,PresenÃ§a/Ausencia,Fez liÃ§Ã£o de casa,ParticipaÃ§Ã£o,Comportamento
108,Estudante 1,Campinas,Four Corners A1,1,2025-02-08,,P,,:-D,
9993,Estudante 1,Campinas,Four Corners A1,2,2025-02-15,âˆš,P,âˆš,:-D,
19878,Estudante 1,Campinas,Four Corners A1,3,2025-02-22,âˆš,P,âˆš,:-D,
29763,Estudante 1,Campinas,Four Corners A1,4,2025-03-08,âˆš,P,âˆš,:-D,
39648,Estudante 1,Campinas,Four Corners A1,5,2025-03-15,âˆš,P,âˆš,:-D,
...,...,...,...,...,...,...,...,...,...,...
100024,Estudante 6,Vila SÃ´nia (tarde),Four Corners I1,11,2025-05-24,âˆš,P,âˆš,:-D,
109909,Estudante 6,Vila SÃ´nia (tarde),Four Corners I1,12,2025-05-31,âˆš,P,âˆš,:-D,
119794,Estudante 6,Vila SÃ´nia (tarde),Four Corners I1,13,2025-06-07,âˆš,P,,:-D,
129679,Estudante 6,Vila SÃ´nia (tarde),Four Corners I1,14,NaT,,,,,


In [65]:
base_final.dropna(subset=['Data'], inplace=True)

In [70]:
base_final.columns

Index(['Aluno', 'Unidade', 'Sala', 'Aula', 'Data',
       'Fez a atividade antes da aula', 'PresenÃ§a/Ausencia',
       'Fez liÃ§Ã£o de casa', 'ParticipaÃ§Ã£o', 'Comportamento'],
      dtype='object')

In [71]:
colunas_corno = ['Fez a atividade antes da aula', 'PresenÃ§a/Ausencia', 'Fez liÃ§Ã£o de casa', 'ParticipaÃ§Ã£o', 'Comportamento']

In [73]:
colunas_corno

['Fez a atividade antes da aula',
 'PresenÃ§a/Ausencia',
 'Fez liÃ§Ã£o de casa',
 'ParticipaÃ§Ã£o',
 'Comportamento']

In [None]:
for col in colunas_corno:
    print(base_final[col].unique())

[nan 'âˆš' 'N' '+/-' '#ERROR!']
['P' 'A' nan '1/2' datetime.datetime(2025, 1, 2, 0, 0) 'p']
[nan 'âˆš' 'N' '+/-']
[':-D' nan ':-/' ':-&']
[nan ':-||' ':-(']


In [86]:
base_final[base_final['Fez a atividade antes da aula'] == '#ERROR!']

Unnamed: 0,Aluno,Unidade,Sala,Aula,Data,Fez a atividade antes da aula,PresenÃ§a/Ausencia,Fez liÃ§Ã£o de casa,ParticipaÃ§Ã£o,Comportamento
11725,Estudante 14,Unidade Virtual (aulas aos domingos),Four Corners D1,2,2025-02-15,#ERROR!,P,âˆš,:-/,


In [87]:
base_final =  base_final.drop(base_final[base_final['Fez a atividade antes da aula'] == '#ERROR!'].index)

In [93]:
base_final[ pd.isna(base_final['Fez a atividade antes da aula'])]

Unnamed: 0,Aluno,Unidade,Sala,Aula,Data,Fez a atividade antes da aula,PresenÃ§a/Ausencia,Fez liÃ§Ã£o de casa,ParticipaÃ§Ã£o,Comportamento
108,Estudante 1,Campinas,Four Corners A1,1,2025-02-08,,P,,:-D,
117,Estudante 10,Campinas,Four Corners A1,1,2025-02-08,,P,,:-D,
118,Estudante 11,Campinas,Four Corners A1,1,2025-02-08,,P,,:-D,
119,Estudante 12,Campinas,Four Corners A1,1,2025-02-08,,,,,
10004,Estudante 12,Campinas,Four Corners A1,2,2025-02-15,,,,,
...,...,...,...,...,...,...,...,...,...,...
1170,Estudante 2,Vila SÃ´nia (tarde),Four Corners I1,1,2025-02-08,,P,,:-D,
1171,Estudante 3,Vila SÃ´nia (tarde),Four Corners I1,1,2025-02-08,,P,,:-D,
1172,Estudante 4,Vila SÃ´nia (tarde),Four Corners I1,1,2025-02-08,,A,,,
1173,Estudante 5,Vila SÃ´nia (tarde),Four Corners I1,1,2025-02-08,,P,,:-D,


#


In [95]:
base_final[ (base_final['PresenÃ§a/Ausencia'] == 'A') & ~(base_final['ParticipaÃ§Ã£o'].isna())]  

Unnamed: 0,Aluno,Unidade,Sala,Aula,Data,Fez a atividade antes da aula,PresenÃ§a/Ausencia,Fez liÃ§Ã£o de casa,ParticipaÃ§Ã£o,Comportamento
98967,Estudante 10,Campinas,Four Corners A1,11,2025-05-24,âˆš,A,âˆš,:-D,
108857,Estudante 15,Campinas,Four Corners A1,12,2025-05-31,âˆš,A,âˆš,:-D,
108849,Estudante 7,Campinas,Four Corners A1,12,2025-05-31,âˆš,A,âˆš,:-D,
29789,Estudante 11,Campinas,Four Corners B1,4,2025-03-08,âˆš,A,âˆš,:-D,
29792,Estudante 14,Campinas,Four Corners B1,4,2025-03-08,âˆš,A,âˆš,:-D,
...,...,...,...,...,...,...,...,...,...,...
60419,Estudante 15,Vila SÃ´nia (tarde),Four Corners C2,7,2025-04-05,âˆš,A,âˆš,:-D,
99960,Estudante 16,Vila SÃ´nia (tarde),Four Corners C2,11,2025-05-24,N,A,âˆš,:-D,
70293,Estudante 4,Vila SÃ´nia (tarde),Four Corners C2,8,2025-04-12,âˆš,A,âˆš,:-D,
99952,Estudante 8,Vila SÃ´nia (tarde),Four Corners C2,11,2025-05-24,âˆš,A,N,:-D,


In [96]:
base_final

Unnamed: 0,Aluno,Unidade,Sala,Aula,Data,Fez a atividade antes da aula,PresenÃ§a/Ausencia,Fez liÃ§Ã£o de casa,ParticipaÃ§Ã£o,Comportamento
108,Estudante 1,Campinas,Four Corners A1,1,2025-02-08,,P,,:-D,
9993,Estudante 1,Campinas,Four Corners A1,2,2025-02-15,âˆš,P,âˆš,:-D,
19878,Estudante 1,Campinas,Four Corners A1,3,2025-02-22,âˆš,P,âˆš,:-D,
29763,Estudante 1,Campinas,Four Corners A1,4,2025-03-08,âˆš,P,âˆš,:-D,
39648,Estudante 1,Campinas,Four Corners A1,5,2025-03-15,âˆš,P,âˆš,:-D,
...,...,...,...,...,...,...,...,...,...,...
80254,Estudante 6,Vila SÃ´nia (tarde),Four Corners I1,9,2025-04-26,+/-,P,âˆš,:-D,
90139,Estudante 6,Vila SÃ´nia (tarde),Four Corners I1,10,2025-05-17,âˆš,A,âˆš,,
100024,Estudante 6,Vila SÃ´nia (tarde),Four Corners I1,11,2025-05-24,âˆš,P,âˆš,:-D,
109909,Estudante 6,Vila SÃ´nia (tarde),Four Corners I1,12,2025-05-31,âˆš,P,âˆš,:-D,


In [97]:
base_final['id'] = base_final['Aluno'] + base_final['Unidade']+ base_final['Sala'] 

In [None]:
base_final

In [None]:
def set_presnce_rule(row):
    if row['PresenÃ§a/Ausencia'] != 'P' and row['ParticipaÃ§Ã£o'] != ':-D':
        return 'P'


    if pd.isna(row['PresenÃ§a/Ausencia']):
        return 'A'
    


    return row['PresenÃ§a/Ausencia']

In [113]:
base_final['PresenÃ§a/Ausencia1'] = base_final.apply(set_presnce_rule, axis=1)

In [114]:
base_final

Unnamed: 0,Aluno,Unidade,Sala,Aula,Data,Fez a atividade antes da aula,PresenÃ§a/Ausencia,Fez liÃ§Ã£o de casa,ParticipaÃ§Ã£o,Comportamento,id,PresenÃ§a/Ausencia1
108,Estudante 1,Campinas,Four Corners A1,1,2025-02-08,,P,,:-D,,Estudante 1CampinasFour Corners A1,P
9993,Estudante 1,Campinas,Four Corners A1,2,2025-02-15,âˆš,P,âˆš,:-D,,Estudante 1CampinasFour Corners A1,P
19878,Estudante 1,Campinas,Four Corners A1,3,2025-02-22,âˆš,P,âˆš,:-D,,Estudante 1CampinasFour Corners A1,P
29763,Estudante 1,Campinas,Four Corners A1,4,2025-03-08,âˆš,P,âˆš,:-D,,Estudante 1CampinasFour Corners A1,P
39648,Estudante 1,Campinas,Four Corners A1,5,2025-03-15,âˆš,P,âˆš,:-D,,Estudante 1CampinasFour Corners A1,P
...,...,...,...,...,...,...,...,...,...,...,...,...
80254,Estudante 6,Vila SÃ´nia (tarde),Four Corners I1,9,2025-04-26,+/-,P,âˆš,:-D,,Estudante 6Vila SÃ´nia (tarde)Four Corners I1,P
90139,Estudante 6,Vila SÃ´nia (tarde),Four Corners I1,10,2025-05-17,âˆš,A,âˆš,,,Estudante 6Vila SÃ´nia (tarde)Four Corners I1,P
100024,Estudante 6,Vila SÃ´nia (tarde),Four Corners I1,11,2025-05-24,âˆš,P,âˆš,:-D,,Estudante 6Vila SÃ´nia (tarde)Four Corners I1,P
109909,Estudante 6,Vila SÃ´nia (tarde),Four Corners I1,12,2025-05-31,âˆš,P,âˆš,:-D,,Estudante 6Vila SÃ´nia (tarde)Four Corners I1,P
