In [773]:
import os
import ast
import pandas as pd
import numpy as np

In [774]:
cod_ccr_array = ['GEX404', 'GEX505', 'GEX968', 'GEX504', 'GEX008', 'GEX009',
                 'GEX178', 'GEX506', 'GEX033', 'GEX981', 'GEX392', 'GEX001', 
                 'GEX213', 'GEX015', 'GEX605', 'GEX092', 'GEX609', 'GEX208', 
                 'GEX002', 'GEX036', 'GEX987', 'GEX395', 'GEX503', 'GEX004', 
                 'GEX195', 'GEX100', 'GEX612', 'GCS107', 'GCS580', 'GEX099', 
                 'GEX613', 'GEX016', 'GEX606', 'GEX104', 'GEX614', 'GEX093', 
                 'GEX608', 'GEX109', 'GEX618', 'GCH008', 'GCH290', 'GEX006', 
                 'GEX210', 'GEX102', 'GEX615', 'GEX103', 'GEX616', 'GEN039', 
                 'GEN254', 'GEN001', 'GEN253', 'GCH292', 'GCH293', 'GCS238', 
                 'GCS239', 'GEX003', 'GEX055', 'GEX090', 'GEX091', 'GEX098', 
                 'GEX101', 'GEX105', 'GEX107', 'GEX108', 'GEX110', 'GEX607', 
                 'GEX617', 'GEX657', 'GEX658', 'GLA104']



In [775]:
# def normalize_column_value(df, target_column, values_to_change, new_value):
#     """
#     Receives a dataframe, the target column name, a list of values to be normalized, and a new value to replace the old ones.

#     :param df: The dataframe.
#     :param target_column: The name of the column to be normalized.
#     :param values_to_change: The list of values to be normalized.
#     :param new_value: The new value to replace the old ones.

#     :return: A dataframe with the normalized values in the specified column.
#     :rtype: DataFrame
#     """
#     df[target_column] = [new_value if x in values_to_change else x for x in df[target_column]]
#     return df

def normalize_column_value(df, target_column, values_to_change, new_value):
    """
    Receives a dataframe, the target column name, a list of values to be normalized, and a new value to replace the old ones.

    :param df: The dataframe.
    :param target_column: The name of the column to be normalized.
    :param values_to_change: The list of values to be normalized.
    :param new_value: The new value to replace the old ones.

    :return: A dataframe with the normalized values in the specified column.
    :rtype: DataFrame
    """
    df[target_column] = df[target_column].apply(lambda x: new_value if any(value in x for value in values_to_change) else x)
    return df

def remove_ccr(df, ccr_list):
    
    """
    Receives a dataframe and a list of ccrs to be removed.
    
    @param df: dataframe
    @param ccr_list: list of ccrs to be removed
    
    @return: dataframe without the ccrs in the ccr_list
    @rtype: dataframe
    """
    
    df = df[~df['nome_ccr'].str.contains(ccr_list)]
    return df

class DataFrameNormalizer:
    def __init__(self, df, column, string_list):
        self.df = df
        self.column = column
        self.string_list = string_list

    def exclude_rows(self):
        self.df = self.df[~self.df[self.column].str.contains('|'.join(self.string_list))]
        return self.df

    def include_rows(self):
        self.df = self.df[self.df[self.column].isin(self.string_list)]
        return self.df


In [776]:
alunos_df = pd.read_csv('../../src/input/merge/historico_turmas_merge.csv')
alunos_df.columns

Index(['ano', 'cod_ccr', 'numero_faltas', 'freq_aluno', 'sit_matricula',
       'media_final', 'nome_ccr', 'nome_cursos', 'lista_docentes'],
      dtype='object')

# Data Normalization


In [777]:
# replace all NaN values with 0
alunos_df = alunos_df.fillna(0)

### Turnos

In [778]:
# df = normalize_column_value(df, 'cod_uffs', [1110], 1101) # Noturno matematica para computacao noturno

# df = normalize_column_value(df, 'cod_uffs', [1301], 1100) # Integral ambiental para computacao vespertino

# df = df.rename(columns={'cod_uffs': 'turno'})

### TCC I e TCC II
#### Segundo o ato deliberativo as disciplinas de 2010 não são equivalentes as de 2018

In [779]:
# convert GEX119 to GEX657

alunos_df = normalize_column_value(alunos_df, 'cod_ccr', ['GEX119'], 'GEX657')

# GEX120 to GEX658

alunos_df = normalize_column_value(alunos_df, 'cod_ccr', ['GEX120'], 'GEX658')


### Computação gráfica avançada

In [780]:
# GEX653 Computação gráfica 
# avançada
# 4 GEX107 Computação gráfica

alunos_df = normalize_column_value(alunos_df, 'nome_ccr', ['Computação gráfica'], 'Computação gráfica avançada')

alunos_df = normalize_column_value(alunos_df, 'cod_ccr', ['GEX107'], 'GEX653')

### Modelagem e simulação

In [781]:
# GEX622 Modelagem e simulação 4 GEX433 Modelagem e simulação 4

alunos_df = normalize_column_value(alunos_df, 'cod_ccr', ['GEX433'], 'GEX622')

### Arquitetura de Computadores

In [782]:
# GEX620 Arquitetura de computadores 4 GEX436 Arquitetura de computadores 4

alunos_df = normalize_column_value(alunos_df, 'cod_ccr', ['GEX436'], 'GEX620')

###  Direitos e cidadania

In [783]:
# GCS239 Direitos e cidadania 4 GCS010 Direitos e cidadania 4

alunos_df = normalize_column_value(alunos_df, 'cod_ccr', ['GCS010'], 'GCS239')

### Filosofia

### Computação Gráfica

In [784]:
alunos_df = normalize_column_value(alunos_df, 'cod_ccr', ['GEX107'], 'GEX653')

###  Meio ambiente, economia e sociedade

In [785]:
alunos_df = normalize_column_value(alunos_df, 'cod_ccr', ['GCS011'], 'GCS238')

### Historia da Fronteira Sul

In [786]:
# GCH292 História da fronteira Sul 4 GCH029 História da fronteira Sul

alunos_df = normalize_column_value(alunos_df, 'cod_ccr', ['GCH029'], 'GCH292')

### Produção textual acadêmica

In [787]:
alunos_df = normalize_column_value(alunos_df, 'nome_ccr', ['Leitura e Produção Textual I', 'Leitura e Produção Textual II'], 'Produção Textual Acadêmica')

# GLA001, GLA004 to GLA104
alunos_df = normalize_column_value(alunos_df, 'cod_ccr', ['GLA001', 'GLA004'], 'GLA104')

### Cálculo I

In [788]:
alunos_df = normalize_column_value(alunos_df, 'nome_ccr', ['Cálculo A', 'Cálculo B', 'Cálculo III'], 'Cálculo I')

alunos_df = normalize_column_value(alunos_df, 'cod_ccr', ['GEX404',  'GEX505', 'GEX968', 'GEX504', 'GEX008', 'GEX009'], 'GEX178')

### Cálculo II

In [789]:
alunos_df = normalize_column_value(alunos_df, 'nome_ccr', ['Cálculo C'], 'Cálculo II')

alunos_df = normalize_column_value(alunos_df, 'cod_ccr', ['GEX506', 'GEX033', 'GEX981'], 'GEX392')

### Álgebra Linear

In [790]:
alunos_df = normalize_column_value(alunos_df, 'nome_ccr', ['Álgebra linear', 'Álgebra linear II' ], 'Algebra linear')

alunos_df = normalize_column_value(alunos_df, 'cod_ccr',['GEX012', 'GEX982', 'GEX511', 'GEX517'], 'GEX607')

### Matemática Discreta

In [791]:
alunos_df = normalize_column_value(alunos_df, 'nome_ccr', ['Matemática instrumental'], 'Matemática C')

alunos_df = normalize_column_value(alunos_df, 'cod_ccr', ['GEX001'], 'GEX213')

### Estrutura de Dados

In [792]:
alunos_df = normalize_column_value(alunos_df, 'nome_ccr', ['Estrutura de dados I'], 'Estruturas de dados')

alunos_df = normalize_column_value(alunos_df, 'cod_ccr', ['GEX015'], 'GEX605')

### Pesquisa e Ordenação De Dados

In [793]:
alunos_df = normalize_column_value(alunos_df, 'nome_ccr', ['Estrutura de dados II'], 'Pesquisa e ordenação de dados')

alunos_df = normalize_column_value(alunos_df, 'cod_ccr', ['GEX092'], 'GEX609')

### Informática Básica

In [794]:
alunos_df = normalize_column_value(alunos_df, 'nome_ccr', ['Introdução à informática'], 'Informática básica')

alunos_df = normalize_column_value(alunos_df, 'cod_ccr', ['GEX208'], 'GEX002')

### Cálculo Numérico

In [795]:
alunos_df = normalize_column_value(alunos_df, 'cod_ccr', ['GEX036', 'GEX987'], 'GEX395')

### Geometria Analítica

In [796]:
alunos_df = normalize_column_value(alunos_df, 'cod_ccr', ['GEX503', 'GEX004'], 'GEX195')

### Organização de Computadores

In [797]:
alunos_df = normalize_column_value(alunos_df, 'cod_ccr', ['GEX100'], 'GEX612')

### Planejamento e Gestão de Projetos

In [798]:
alunos_df = normalize_column_value(alunos_df, 'cod_ccr', ['GCS107'], 'GCS580')

### Programação II

In [799]:
alunos_df = normalize_column_value(alunos_df, 'cod_ccr', ['GEX099'], 'GEX613')

### Sistemas Digitais

In [800]:
alunos_df = normalize_column_value(alunos_df, 'cod_ccr', ['GEX016'], 'GEX606')

### Teoria da Computação

In [801]:
alunos_df = normalize_column_value(alunos_df, 'cod_ccr', ['GEX104'], 'GEX614')

### Matemática Discreta

In [802]:
alunos_df = normalize_column_value(alunos_df, 'cod_ccr', ['GEX093'], 'GEX608')

### Inteligência Artificial

In [803]:
alunos_df = normalize_column_value(alunos_df, 'cod_ccr', ['GEX109'], 'GEX618')

### Iniciação à Prática Científica

In [804]:
alunos_df = normalize_column_value(alunos_df, 'cod_ccr', ['GCH008'], 'GCH290')

### Estatística Básica

In [805]:
alunos_df = normalize_column_value(alunos_df, 'cod_ccr', ['GEX006'], 'GEX210')

### Engenharia de Software I

In [806]:
alunos_df = normalize_column_value(alunos_df, 'cod_ccr', ['GEX102'], 'GEX615')

### Engenharia de Software II

In [807]:
alunos_df = normalize_column_value(alunos_df, 'cod_ccr', ['GEX103'], 'GEX616')

### Grafos

In [808]:
alunos_df = normalize_column_value(alunos_df, 'cod_ccr', ['GEN039'], 'GEN254')

### Circuitos Digitais

In [809]:
alunos_df = normalize_column_value(alunos_df, 'cod_ccr', ['GEN001'], 'GEN253')

# Dataframe manipulation

In [810]:
# Assuming df is your DataFrame
value_counts = alunos_df['cod_ccr'].value_counts()

# Using zip to combine values and counts
nome_ccr_counts = list(zip(value_counts.index, value_counts.values))

# Sorting the list of tuples based on nome_ccr values
sorted_nome_ccr_counts = sorted(nome_ccr_counts, key=lambda x: x[0])
# Convert the sorted list of tuples into a DataFrame
df_sorted_counts = pd.DataFrame(sorted_nome_ccr_counts, columns=['cod_ccr', 'count'])

ccrs_df = pd.read_csv('../../src/input/ccrs_uffs.csv')

teste = pd.merge(df_sorted_counts, ccrs_df, on='cod_ccr', how='inner')
# sort teste on nome_ccr
teste = teste.sort_values(by=['nome_ccr'])
teste.insert(2, 'count', teste.pop('count'))
teste.to_csv('../../src/output/ccrs_counts.csv', index=False)

In [811]:
#  Cria uma nova coluna cod_nome_turma na posição 4 com a concatenação das colunas nome_ccr e cod_ccr
alunos_df.insert(1, 'cod_nome_turma', alunos_df['nome_ccr'] + ' - ' + alunos_df['cod_ccr'])

# 'cod_ccr', 'nome_ccr', 'cod_nome_turma'
alunos_df = alunos_df.drop(['cod_ccr', 'nome_ccr'], axis=1)

# # Renomeia a coluna cod_nome_turma para nome_ccr trazendo os valores junto
# alunos_df.insert(alunos_df.columns.get_loc('cod_nome_turma'), 'ccr', alunos_df.pop('cod_nome_turma'))

alunos_df

Unnamed: 0,ano,cod_nome_turma,numero_faltas,freq_aluno,sit_matricula,media_final,nome_cursos,lista_docentes
0,2018,PRODUÇÃO TEXTUAL ACADÊMICA - GLA104,0.0,0.00,CANCELADO,0.0,ARQUITETURA E URBANISMO; ENGENHARIA AMBIENTAL...,CLAUDIA CAMILA LARA
1,2018,PRODUÇÃO TEXTUAL ACADÊMICA - GLA104,0.0,0.00,TRANCADO,0.0,ARQUITETURA E URBANISMO; ENGENHARIA AMBIENTAL...,CLAUDIA CAMILA LARA
2,2018,PRODUÇÃO TEXTUAL ACADÊMICA - GLA104,16.0,77.78,APROVADO,7.6,ARQUITETURA E URBANISMO; ENGENHARIA AMBIENTAL...,CLAUDIA CAMILA LARA
3,2018,PRODUÇÃO TEXTUAL ACADÊMICA - GLA104,0.0,0.00,TRANCADO,0.0,ARQUITETURA E URBANISMO; ENGENHARIA AMBIENTAL...,CLAUDIA CAMILA LARA
4,2018,PRODUÇÃO TEXTUAL ACADÊMICA - GLA104,0.0,0.00,CANCELADO,0.0,ARQUITETURA E URBANISMO; ENGENHARIA AMBIENTAL...,CLAUDIA CAMILA LARA
...,...,...,...,...,...,...,...,...
50237,2023,TÓPICOS ESPECIAIS EM COMPUTAÇÃO XXXIII - GEX1083,32.0,55.56,MATRICULADO,0.0,CIÊNCIA DA COMPUTAÇÃO,GIANCARLO DONDONI SALTON
50238,2023,TÓPICOS ESPECIAIS EM COMPUTAÇÃO XXXIII - GEX1083,56.0,22.22,MATRICULADO,0.0,CIÊNCIA DA COMPUTAÇÃO,GIANCARLO DONDONI SALTON
50239,2023,TÓPICOS ESPECIAIS EM COMPUTAÇÃO XXXIII - GEX1083,52.0,27.78,MATRICULADO,0.0,CIÊNCIA DA COMPUTAÇÃO,GIANCARLO DONDONI SALTON
50240,2023,TÓPICOS ESPECIAIS EM COMPUTAÇÃO XXXIII - GEX1083,56.0,22.22,MATRICULADO,0.0,CIÊNCIA DA COMPUTAÇÃO,GIANCARLO DONDONI SALTON


In [812]:
# unique values of column sit_matricula and counts where media_final > 0
alunos_df['sit_matricula'].value_counts()

APROVADO                            28345
REPROVADO POR NOTA E FALTA           7752
REPROVADO POR NOTA                   5303
TRANCADO                             3874
CANCELADO                            2527
MATRICULADO                          2083
REPROVADO                             135
DESISTENCIA                           108
REPROVADO POR MÉDIA E POR FALTAS       79
REPROVADO POR FALTAS                   36
Name: sit_matricula, dtype: int64

In [813]:
# unique values of column sit_matricula and counts where media_final > 0
alunos_df = normalize_column_value(alunos_df, 'sit_matricula', ['REPROVADO'], 'REPROVADO')

new_to_drop_status = ['DESISTENCIA', 'MATRICULADO', 'CANCELADO', 'TRANCADO']

alunos_df = DataFrameNormalizer(alunos_df, 'sit_matricula', new_to_drop_status).exclude_rows()
alunos_df['sit_matricula'].value_counts()

APROVADO     28345
REPROVADO    13305
Name: sit_matricula, dtype: int64

In [814]:
# Drop rows where status column is 1 and media_final is 0
alunos_df = alunos_df.drop(alunos_df[(alunos_df.sit_matricula == 'REPROVADO') & (alunos_df.media_final == 0) & (alunos_df.freq_aluno == 100)].index)
# alunos_df = alunos_df.drop(alunos_df[(alunos_df.sit_matricula == 'REPROVADO') & (alunos_df.freq_aluno == 0)].index)
alunos_df = alunos_df.drop(alunos_df[(alunos_df.sit_matricula == 'REPROVADO') & (alunos_df.media_final == 0)].index)

In [815]:
alunos_df['sit_matricula'].value_counts()

APROVADO     28345
REPROVADO    12569
Name: sit_matricula, dtype: int64

In [816]:
alunos_df = alunos_df.drop(['media_final'], axis=1)

In [817]:
def label_status(data):
    if data == 'APROVADO':
        return 0
    elif data == 'REPROVADO POR NOTA' or 'REPROVADO POR NOTA E FREQUÊNCIA' or 'REPROVADO POR FREQUÊNCIA':
        return 1
    # elif data == 'REPROVADO POR NOTA' or 'REPROVADO POR NOTA E FREQUÊNCIA' or 'REPROVADO POR FREQUÊNCIA' or 'DESISTENTE':
    #     return 1
    
# def label_shift(data):
#     if data == 1101:
#         return 'NOTURNO'
#     elif data == 1100:
#         return 'VESPERTINO'
    
# alunos_df['turno'] = alunos_df['turno'].apply(label_shift)

alunos_df.insert(0, 'status', alunos_df['sit_matricula'].apply(label_status))
alunos_df = alunos_df.drop(['sit_matricula'], axis=1)

# Função para extrair o nome do docente
def extrair_nome(docente):
    return docente['docente']

# Função para aplicar nas listas da coluna lista_docentes_ch
def formatar_lista(lista):
    # Transformar a string em lista
    docentes = ast.literal_eval(lista)
    nomes = [f"{extrair_nome(docente)}" for docente in docentes]
    return ', '.join(nomes)

# Aplicar a função formatar_lista na coluna lista_docentes_ch e armazenar o resultado na coluna nome_docente
alunos_df.insert(2, 'nome_docente', alunos_df['lista_docentes_ch'].apply(formatar_lista))

alunos_df = alunos_df.drop(['lista_docentes_ch'], axis=1)

# print all unique values of nome_docente where nome_curso="CIÊNCIA DA COMPUTAÇÃO" and ano>=2022
docentes_cc = alunos_df[(alunos_df['nome_curso'] == 'CIÊNCIA DA COMPUTAÇÃO') & (alunos_df['ano'] >= 2022)]['nome_docente'].unique()

# Include only rows where nome_docente is in docentes_cc    
alunos_df = DataFrameNormalizer(alunos_df, 'nome_docente', docentes_cc).include_rows()

# count number of times a teacher taught a subject group by it in ascending order, ex: ccr, nome_docente, count
result = alunos_df.groupby(['ccr', 'nome_docente']).size().reset_index(name='count')
result.sort_values(by=['count'], inplace=True)

# Remove a coluna nome_curso
alunos_df = alunos_df.drop('nome_curso', axis=1)

# Remove a coluna ano
alunos_df = alunos_df.drop('ano', axis=1)

# change freq_aluno position to index 1 using insert function
alunos_df.insert(3, 'freq_aluno', alunos_df.pop('freq_aluno'))

if not os.path.exists("../src/output"):
    os.makedirs("../src/output")
    
# order by nome_ccr and then by nome_docente
alunos_df = alunos_df.sort_values(by=['ccr', 'nome_docente'])
    
alunos_df.to_csv('../../src/output/alunos_final.csv', index=False)
alunos_df

KeyError: 'lista_docentes_ch'

In [None]:
result.to_csv('../../src/output/alunos_docentes.csv', index=False)