In [None]:
import os
import ast
import pandas as pd
import numpy as np

In [None]:
cod_ccr_array = ['GEX404', 'GEX505', 'GEX968', 'GEX504', 'GEX008', 'GEX009',
                 'GEX178', 'GEX506', 'GEX033', 'GEX981', 'GEX392', 'GEX001', 
                 'GEX213', 'GEX015', 'GEX605', 'GEX092', 'GEX609', 'GEX208', 
                 'GEX002', 'GEX036', 'GEX987', 'GEX395', 'GEX503', 'GEX004', 
                 'GEX195', 'GEX100', 'GEX612', 'GCS107', 'GCS580', 'GEX099', 
                 'GEX613', 'GEX016', 'GEX606', 'GEX104', 'GEX614', 'GEX093', 
                 'GEX608', 'GEX109', 'GEX618', 'GCH008', 'GCH290', 'GEX006', 
                 'GEX210', 'GEX102', 'GEX615', 'GEX103', 'GEX616', 'GEN039', 
                 'GEN254', 'GEN001', 'GEN253', 'GCH292', 'GCH293', 'GCS238', 
                 'GCS239', 'GEX003', 'GEX055', 'GEX090', 'GEX091', 'GEX098', 
                 'GEX101', 'GEX105', 'GEX107', 'GEX108', 'GEX110', 'GEX607', 
                 'GEX617', 'GEX657', 'GEX658', 'GLA104']



In [None]:
def normalize_column_value(df, target_column, values_to_change, new_value):
    """
    Receives a dataframe, the target column name, a list of values to be normalized, and a new value to replace the old ones.

    :param df: The dataframe.
    :param target_column: The name of the column to be normalized.
    :param values_to_change: The list of values to be normalized.
    :param new_value: The new value to replace the old ones.

    :return: A dataframe with the normalized values in the specified column.
    :rtype: DataFrame
    """
    df[target_column] = [new_value if x in values_to_change else x for x in df[target_column]]
    return df



def remove_ccr(df, ccr_list):
    
    """
    Receives a dataframe and a list of ccrs to be removed.
    
    @param df: dataframe
    @param ccr_list: list of ccrs to be removed
    
    @return: dataframe without the ccrs in the ccr_list
    @rtype: dataframe
    """
    
    df = df[~df['nome_ccr'].str.contains(ccr_list)]
    return df

class DataFrameNormalizer:
    def __init__(self, df, column, string_list):
        self.df = df
        self.column = column
        self.string_list = string_list

    def exclude_rows(self):
        self.df = self.df[~self.df[self.column].str.contains('|'.join(self.string_list))]
        return self.df

    def include_rows(self):
        self.df = self.df[self.df[self.column].isin(self.string_list)]
        return self.df


In [None]:
df = pd.read_csv('../../src/input/alunos.csv')
df.columns

# Data Normalization


In [None]:
# replace all NaN values with 0
df = df.fillna(0)

### Turnos

In [None]:
df = normalize_column_value(df, 'cod_uffs', [1110], 1101) # Noturno matematica para computacao noturno

df = normalize_column_value(df, 'cod_uffs', [1301], 1100) # Integral ambiental para computacao vespertino

df = df.rename(columns={'cod_uffs': 'turno'})

### Cálculo I

In [None]:
df = normalize_column_value(df, 'nome_ccr', ['Cálculo A', 'Cálculo B', 'Cálculo III'], 'Cálculo I')

df = normalize_column_value(df, 'cod_ccr', ['GEX404',  'GEX505', 'GEX968', 'GEX504', 'GEX008', 'GEX009'], 'GEX178')

### Cálculo II

In [None]:
df = normalize_column_value(df, 'nome_ccr', ['Cálculo C'], 'Cálculo II')

df = normalize_column_value(df, 'cod_ccr', ['GEX506', 'GEX033', 'GEX981'], 'GEX392')

### Álgebra Linear

In [None]:
df = normalize_column_value(df, 'nome_ccr', ['Álgebra linear', 'Álgebra linear II' ], 'Algebra linear')

# df = normalize_column_value(df, 'cod_ccr',['GEX012', 'GEX982', 'GEX511'], 'GEX607')
# df = normalize_column_value(df, 'cod_ccr',['GEX012'], 'GEX607')

### Matemática Discreta

In [None]:
df = normalize_column_value(df, 'nome_ccr', ['Matemática instrumental'], 'Matemática C')

df = normalize_column_value(df, 'cod_ccr', ['GEX001'], 'GEX213')

### Estrutura de Dados

In [None]:
df = normalize_column_value(df, 'nome_ccr', ['Estrutura de dados I'], 'Estruturas de dados')

df = normalize_column_value(df, 'cod_ccr', ['GEX015'], 'GEX605')

### Pesquisa e Ordenação De Dados

In [None]:
df = normalize_column_value(df, 'nome_ccr', ['Estrutura de dados II'], 'Pesquisa e ordenação de dados')

df = normalize_column_value(df, 'cod_ccr', ['GEX092'], 'GEX609')

### Informática Básica

In [None]:
df = normalize_column_value(df, 'nome_ccr', ['Introdução à informática'], 'Informática básica')

df = normalize_column_value(df, 'cod_ccr', ['GEX208'], 'GEX002')

### Cálculo Numérico

In [None]:
df = normalize_column_value(df, 'cod_ccr', ['GEX036', 'GEX987'], 'GEX395')

### Geometria Analítica

In [None]:
df = normalize_column_value(df, 'cod_ccr', ['GEX503', 'GEX004'], 'GEX195')

### Organização de Computadores

In [None]:
df = normalize_column_value(df, 'cod_ccr', ['GEX100'], 'GEX612')

### Planejamento e Gestão de Projetos

In [None]:
df = normalize_column_value(df, 'cod_ccr', ['GCS107'], 'GCS580')

### Programação II

In [None]:
df = normalize_column_value(df, 'cod_ccr', ['GEX099'], 'GEX613')

### Sistemas Digitais

In [None]:
df = normalize_column_value(df, 'cod_ccr', ['GEX016'], 'GEX606')

### Teoria da Computação

In [None]:
df = normalize_column_value(df, 'cod_ccr', ['GEX104'], 'GEX614')

### Matemática Discreta

In [None]:
df = normalize_column_value(df, 'cod_ccr', ['GEX093'], 'GEX608')

### Inteligência Artificial

In [None]:
df = normalize_column_value(df, 'cod_ccr', ['GEX109'], 'GEX618')

### Iniciação à Prática Científica

In [None]:
df = normalize_column_value(df, 'cod_ccr', ['GCH008'], 'GCH290')

### Estatística Básica

In [None]:
df = normalize_column_value(df, 'cod_ccr', ['GEX006'], 'GEX210')

### Engenharia de Software I

In [None]:
df = normalize_column_value(df, 'cod_ccr', ['GEX102'], 'GEX615')

### Engenharia de Software II

In [None]:
df = normalize_column_value(df, 'cod_ccr', ['GEX103'], 'GEX616')

### Grafos

In [None]:
df = normalize_column_value(df, 'cod_ccr', ['GEN039'], 'GEN254')

### Circuitos Digitais

In [None]:
df = normalize_column_value(df, 'cod_ccr', ['GEN001'], 'GEN253')

# Dataframe manipulation

In [None]:
df = remove_ccr(df, 'Tópicos')

ccrs_ciencia_computacao = ['GCH290', 'GCH292', 'GCH293', 'GCS238', 'GCS239', 'GCS580', 'GEN253', 'GEN254', 'GEX003', 'GEX055', 'GEX090', 'GEX091', 'GEX098', 'GEX101', 'GEX105', 'GEX107', 'GEX108', 'GEX110', 'GEX178', 'GEX195', 'GEX208', 'GEX210', 'GEX213', 'GEX392', 'GEX395', 'GEX605', 'GEX606', 'GEX607', 'GEX608', 'GEX609', 'GEX612', 'GEX613', 'GEX614', 'GEX615', 'GEX616', 'GEX617', 'GEX618', 'GEX657', 'GEX658', 'GLA104']

df = DataFrameNormalizer(df, 'cod_ccr', ccrs_ciencia_computacao).include_rows()

toDropCCR = ['GCH011', 'GCH012', 'GCH029', 'GCH291', 'GCH292', 'GCH293', 'GCS010', 'GCS011', 'GCS238', 'GCS239', 'GCS320', 'GCS546', 'GCS573', 'GEX054', 'GEX112', 'GEX119', 'GEX120', 'GEX179', 'GEX433', 'GEX436', 'GEX443', 'GEX619', 'GEX620', 'GEX622', 'GEX623', 'GEX624', 'GEX625', 'GEX626', 'GEX629', 'GEX630', 'GEX631', 'GEX632', 'GEX633', 'GEX634', 'GEX635', 'GEX636', 'GEX637', 'GEX638', 'GEX639', 'GEX640', 'GEX642', 'GEX643', 'GEX657', 'GEX658', 'GLA001', 'GLA004', 'GLA008', 'GLA045', 'GLA102', 'GLA103', 'GLA104', 'GLA108', 'GLA192', 'GLA213']

df = DataFrameNormalizer(df, 'cod_ccr', toDropCCR).exclude_rows()

# count number of students per subject
values, counts = np.unique(
    df[df['nome_curso'] == 'CIÊNCIA DA COMPUTAÇÃO']['nome_ccr'], return_counts=True)
result = list(zip(values, counts))
result = sorted(result, key=lambda x: x[1])
result


In [None]:
#  Cria uma nova coluna cod_nome_turma na posição 4 com a concatenação das colunas nome_ccr e cod_ccr
df.insert(1, 'cod_nome_turma', df['nome_ccr'] + ' - ' + df['cod_ccr'])

# 'cod_ccr', 'nome_ccr', 'cod_nome_turma'
df = df.drop(['cod_ccr', 'nome_ccr'], axis=1)

# Renomeia a coluna cod_nome_turma para nome_ccr trazendo os valores junto
df.insert(df.columns.get_loc('cod_nome_turma'), 'ccr', df.pop('cod_nome_turma'))

In [None]:
toDropStatus = ['APROVADO ESPECIAL', 
                'CANCELADA', 
                'CANCELAMENTO ADMINISTRATIVO', 
                'EM CURSO', 
                'INCOMPLETO', 
                'MOBILIDADE', 
                'TRANCAMENTO GERAL DA MATRÍCULA',  
                'TRANSFERIDO INTERNAMENTE',
                ]

df = DataFrameNormalizer(df, 'sit_turma', toDropStatus).exclude_rows()

# Drop rows where status column is 1 and media_final is 0
df = df.drop(df[(df.sit_turma == 'REPROVADO POR NOTA') & (df.freq_turma == 100)].index)
df = df.drop(df[(df.sit_turma == 'REPROVADO POR NOTA E FREQUÊNCIA') & (df.freq_turma == 0)].index)
df = df.drop(df[(df.sit_turma == 'REPROVADO POR FREQUÊNCIA') & (df.media_final == 0)].index)
df = df.drop(df[(df.sit_turma == 'DESISTENTE') & (df.media_final == 0)].index)

In [None]:
df = df.drop(['media_final'], axis=1)

In [None]:
def label_status(data):
    if data == 'APROVADO':
        return 0
    elif data == 'REPROVADO POR NOTA' or 'REPROVADO POR NOTA E FREQUÊNCIA' or 'REPROVADO POR FREQUÊNCIA':
        return 1
    # elif data == 'REPROVADO POR NOTA' or 'REPROVADO POR NOTA E FREQUÊNCIA' or 'REPROVADO POR FREQUÊNCIA' or 'DESISTENTE':
    #     return 1
    
def label_shift(data):
    if data == 1101:
        return 'NOTURNO'
    elif data == 1100:
        return 'VESPERTINO'
    
df['turno'] = df['turno'].apply(label_shift)

df.insert(0, 'status', df['sit_turma'].apply(label_status))
df = df.drop(['sit_turma'], axis=1)

# Função para extrair o nome do docente
def extrair_nome(docente):
    return docente['docente']

# Função para aplicar nas listas da coluna lista_docentes_ch
def formatar_lista(lista):
    # Transformar a string em lista
    docentes = ast.literal_eval(lista)
    nomes = [f"{extrair_nome(docente)}" for docente in docentes]
    return ', '.join(nomes)

# Aplicar a função formatar_lista na coluna lista_docentes_ch e armazenar o resultado na coluna nome_docente
df.insert(2, 'nome_docente', df['lista_docentes_ch'].apply(formatar_lista))

df = df.drop(['lista_docentes_ch'], axis=1)

# print all unique values of nome_docente where nome_curso="CIÊNCIA DA COMPUTAÇÃO" and ano>=2022
docentes_cc = df[(df['nome_curso'] == 'CIÊNCIA DA COMPUTAÇÃO') & (df['ano'] >= 2022)]['nome_docente'].unique()

# Include only rows where nome_docente is in docentes_cc    
df = DataFrameNormalizer(df, 'nome_docente', docentes_cc).include_rows()

# count number of times a teacher taught a subject group by it in ascending order, ex: ccr, nome_docente, count
result = df.groupby(['ccr', 'nome_docente']).size().reset_index(name='count')
result.sort_values(by=['count'], inplace=True)

# Remove a coluna nome_curso
df = df.drop('nome_curso', axis=1)

# Remove a coluna ano
df = df.drop('ano', axis=1)

# change freq_turma position to index 1 using insert function
df.insert(3, 'freq_turma', df.pop('freq_turma'))

if not os.path.exists("../src/output"):
    os.makedirs("../src/output")
    
# order by nome_ccr and then by nome_docente
df = df.sort_values(by=['ccr', 'nome_docente'])
    
df.to_csv('../../src/output/alunos_final.csv', index=False)
df

In [None]:
result.to_csv('../../src/output/alunos_docentes.csv', index=False)