# Extraindo Dados
___

Esse arquivo tem o objetivo de extrair dados do dataframe BSI e criar uma tabela que contenha os seguintes dados:

- o identificador do discente; 
- o sexo do discente;
- o ano em que o discente ingressou na instituição;
- o ano e período da última matrícula realizada pelo discente;
- total de sementres cursados pelo discente;
- um calcúlo de semestres cursados dividido pelo o número de semestre ideal do curso;
- a carga horária cumprida pelo discente;
- a carga horária cumprida pelo discente dividida pela carga horaria ideal;
- tempo relativo que o discente evadiu ou concluiu o curso;
- status atual do discente;
- número total de faltas de cada discente na disciplina que ele cursou;
- nota de cada discente nas disciplinas que ele cursou;
- média final de cada discente nas disciplinas que ele cursou;
- quantidade de vezes que o discente se matriculou nas disciplinas;
- quantidade de vezes que o discente se matriculou em cada disciplina;
- quantidade de vezes que o discente foi aprovado em cada disciplina;
- quantidade de vezes que o discente foi reprovado em cada disciplina.

Importando o Pandas e o Csv.

In [175]:
import pandas as pd
import csv

Leitura do arquivo em csv e carregamento desses dados em um DataFrame usando o ponto e vírgula como separador.

In [176]:
df_dados = pd.read_csv('dataframe-bsi-2009-2022.csv', sep=';')

In [177]:
pd.set_option('display.max_columns', 130)

# Tratamento de Dados

Listando as colunas do dataframe.

In [178]:
df_dados.columns

Index(['discente', 'unidade', 'nota', 'media_final', 'frequencia', 'descricao',
       'ano', 'id_componente', 'nome', 'ch_total', 'sexo', 'ano_nascimento',
       'ano_ingresso', 'status'],
      dtype='object')

Transformando a coluna *media_final* no tipo float.

In [179]:
df_dados['media_final']=df_dados['media_final'].apply(lambda x: str(x).replace(',' , '.'))
df_dados['media_final'] = df_dados['media_final'].astype('float64')

Transformando a coluna *nota* no tipo float.

In [180]:
df_dados['nota']=df_dados['nota'].apply(lambda x: str(x).replace(',' , '.'))
df_dados['nota'] = df_dados['nota'].astype('float64')

Informações sobre o tipo de cada coluna do dataframe.

In [181]:
df_dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 54584 entries, 0 to 54583
Data columns (total 14 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   discente        54584 non-null  object 
 1   unidade         50972 non-null  float64
 2   nota            48321 non-null  float64
 3   media_final     47687 non-null  float64
 4   frequencia      50471 non-null  float64
 5   descricao       54584 non-null  object 
 6   ano             54584 non-null  int64  
 7   id_componente   54584 non-null  int64  
 8   nome            54584 non-null  object 
 9   ch_total        54584 non-null  int64  
 10  sexo            54584 non-null  int64  
 11  ano_nascimento  54584 non-null  int64  
 12  ano_ingresso    54584 non-null  int64  
 13  status          54584 non-null  object 
dtypes: float64(4), int64(6), object(4)
memory usage: 5.8+ MB


Listando os dados NaN.

In [182]:
df_dados.isnull().sum()

discente             0
unidade           3612
nota              6263
media_final       6897
frequencia        4113
descricao            0
ano                  0
id_componente        0
nome                 0
ch_total             0
sexo                 0
ano_nascimento       0
ano_ingresso         0
status               0
dtype: int64

Preenchendo os dados NaN da coluna *unidade* com 1.

In [183]:
df_dados.loc[:, 'unidade'] = df_dados['unidade'].fillna(1)

Apagando da coluna *descricao* a condição *INDEFERIDO* e *EXCLUIDA*

In [184]:
df_dados = df_dados[~df_dados['descricao'].isin(['INDEFERIDO', 'EXCLUIDA'])]

Verificar os valores faltosos na coluna *nota* com base na condição da coluna *descricao*.

In [185]:
condicao_cancelado = df_dados['descricao'] == 'CANCELADO'
df_dados.loc[condicao_cancelado, 'nota'] = -2

condicao_trancado = df_dados['descricao'] == 'TRANCADO'
df_dados.loc[condicao_trancado, 'nota'] = -4

condicao_desistencia = df_dados['descricao'] == 'DESISTENCIA'
df_dados.loc[condicao_desistencia, 'nota'] = -7

Verificar os valores faltosos na coluna *media_final* com base na condição da coluna *descricao*.

In [186]:
condicao_cancelado = df_dados['descricao'] == 'CANCELADO'
df_dados.loc[condicao_cancelado, 'media_final'] = -2

condicao_trancado = df_dados['descricao'] == 'TRANCADO'
df_dados.loc[condicao_trancado, 'media_final'] = -4

condicao_desistencia = df_dados['descricao'] == 'DESISTENCIA'
df_dados.loc[condicao_desistencia, 'media_final'] = -7

Verificar os valores faltosos na coluna *frequencia* com base na condição da coluna *descricao*.

In [187]:
condicao_cancelado = df_dados['descricao'] == 'CANCELADO'
df_dados.loc[condicao_cancelado, 'frequencia'] = -2

condicao_trancado = df_dados['descricao'] == 'TRANCADO'
df_dados.loc[condicao_trancado, 'frequencia'] = -4

condicao_desistencia = df_dados['descricao'] == 'DESISTENCIA'
df_dados.loc[condicao_desistencia, 'frequencia'] = -7

Contando os valores dos dados da coluna *descricao*.

In [188]:
df_dados.descricao.value_counts()

descricao
APROVADO                            28307
APROVADO POR NOTA                    8178
REPROVADO                            5790
REPROVADO POR MÉDIA E POR FALTAS     3804
CANCELADO                            2730
TRANCADO                             1913
DESISTENCIA                           457
REPROVADO POR FALTAS                  138
REPROVADO POR NOTA                     99
REPROVADO POR NOTA E FALTA             42
Name: count, dtype: int64

Criar uma função para mapear a classificação da coluna *descricao*.

In [189]:
def mapear_classificacao(descricao):
    mapeamento = {
        'APROVADO': 2,
        'APROVADO POR NOTA': 1,
        'REPROVADO': -1,
        'REPROVADO POR FALTAS': -1,
        'REPROVADO POR NOTA': -1,
        'REPROVADO POR MÉDIA E POR FALTAS': -2,
        'REPROVADO POR NOTA E FALTA': -2,
        'CANCELADO': -4,
        'EXCLUIDA': -4,
        'TRANCADO': -4,
        'DESISTENCIA': -5,
    }
    return mapeamento.get(descricao, None)

Aplicar a função de mapeamento e criar a coluna *classificacao*.

In [190]:
df_dados.loc[:, 'classificacao'] = df_dados['descricao'].map(mapear_classificacao)

Fazendo um recorte da nossa análise, vamos começar por disciplinas obrigatórias do Bacharelado em Sistemas da Informação (BSI):

In [191]:
lista_obrigatórias = [
                'ALGORITMOS E LÓGICA DE PROGRAMAÇÃO',
                'INTRODUÇÃO À INFORMÁTICA',
                'FUNDAMENTOS DE MATEMÁTICA',
                'LÓGICA',
                'TEORIA GERAL DA ADMINISTRAÇÃO',
                'PROGRAMAÇÃO',
                'CÁLCULO DIFERENCIAL E INTEGRAL',
                'TEORIA GERAL DOS SISTEMAS',
                'PROGRAMAÇÃO ORIENTADA A OBJETOS I',
                'ESTRUTURA DE DADOS',
                'ÁLGEBRA LINEAR',
                'ORGANIZAÇÃO, SISTEMAS E MÉTODOS',
                'FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO',
                'PROGRAMAÇÃO WEB',
                'ARQUITETURA DE COMPUTADORES',
                'PROBABILIDADE E ESTATÍSTICA',
                'BANCO DE DADOS',
                'ENGENHARIA DE SOFTWARE I',
                'PROGRAMAÇÃO ORIENTADA A OBJETOS II',
                'SISTEMAS OPERACIONAIS',
                'PROJETO E ADMINISTRAÇÃO DE BANCO DE DADOS',
                'ENGENHARIA DE SOFTWARE II',
                'REDES DE COMPUTADORES',
                'EMPREENDEDORISMO EM INFORMÁTICA',
                'GESTÃO DE PROJETO DE SOFTWARE',
                'PROGRAMAÇÃO VISUAL',
                'MATEMÁTICA FINANCEIRA',
                'SISTEMAS DE APOIO À DECISÃO',
                'ÉTICA',
                ]
condição_nome = f"nome in {lista_obrigatórias}"
df_dados_filtrado = df_dados.query(condição_nome)

## Extraindo dados

In [192]:
df_dados_filtrado.columns

Index(['discente', 'unidade', 'nota', 'media_final', 'frequencia', 'descricao',
       'ano', 'id_componente', 'nome', 'ch_total', 'sexo', 'ano_nascimento',
       'ano_ingresso', 'status', 'classificacao'],
      dtype='object')

### Colunas com as **Disciplinas**

Filtrar os dados onde a coluna **unidade** foi preenchida com 1.

filtrando_unidade = df_dados_filtrado[df_dados_filtrado['unidade'] == 1]

Calculando a quantidade de vezes que cada discente cursou cada *disciplina*.

In [193]:
quantidade_disciplinas = filtrando_unidade.groupby(['discente', 'nome']).size().reset_index(name='quantidade')


Pivotando as *disciplinas*.

In [194]:
tabela_final = quantidade_disciplinas.pivot(index='discente', columns='nome', values='quantidade').reset_index()

### Coluna com o **Ano de Ingresso**

Adicionando o *ano_ingresso* para cada discente.

In [195]:
ano_ingresso_discente = df_dados_filtrado.drop_duplicates(subset=['discente'])[['discente', 'ano_ingresso']]
tabela_final = tabela_final.merge(ano_ingresso_discente, on='discente', how='left')

### Coluna com o **Sexo** do Discente

Definir a opção global para permitir o downcasting silencioso

In [196]:
pd.set_option('future.no_silent_downcasting', True)

Adicionar as colunas *mulher* e *homem* usando o método assign para evitar SettingWithCopyWarning.

In [197]:
df_dados_filtrado = df_dados_filtrado.assign(
    mulher=df_dados_filtrado['sexo'].map({0: 0, 1: 1}),
    homem=df_dados_filtrado['sexo'].map({0: 1, 1: 0})
)

Criar DataFrames com discente e as novas colunas.

In [198]:
sexo_discente = df_dados_filtrado.drop_duplicates(subset=['discente'])[['discente', 'mulher', 'homem']]

Mesclar com tabela_final.

In [199]:
tabela_final = tabela_final.merge(sexo_discente, on='discente', how='left')


### Coluna com o **Status** do Discente

Alterando o conteúdo da coluna *status*.

In [200]:
df_dados_filtrado['status'] = df_dados_filtrado['status'].replace({
    'CANCELADO': -1, 
    'ATIVO': 0, 'ATIVO - FORMANDO': 0,
    'FORMADO': 1,'CONCLUÍDO': 1})

Adicionando o *status* para cada discente.


In [201]:
status_discente = df_dados_filtrado.drop_duplicates(subset=['discente'])[['discente', 'status']]
tabela_final = tabela_final.merge(status_discente, on='discente', how='left')
tabela_final 

Unnamed: 0,discente,ALGORITMOS E LÓGICA DE PROGRAMAÇÃO,ARQUITETURA DE COMPUTADORES,BANCO DE DADOS,CÁLCULO DIFERENCIAL E INTEGRAL,EMPREENDEDORISMO EM INFORMÁTICA,ENGENHARIA DE SOFTWARE I,ENGENHARIA DE SOFTWARE II,ESTRUTURA DE DADOS,FUNDAMENTOS DE MATEMÁTICA,FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO,GESTÃO DE PROJETO DE SOFTWARE,INTRODUÇÃO À INFORMÁTICA,LÓGICA,MATEMÁTICA FINANCEIRA,"ORGANIZAÇÃO, SISTEMAS E MÉTODOS",PROBABILIDADE E ESTATÍSTICA,PROGRAMAÇÃO,PROGRAMAÇÃO ORIENTADA A OBJETOS I,PROGRAMAÇÃO ORIENTADA A OBJETOS II,PROGRAMAÇÃO VISUAL,PROGRAMAÇÃO WEB,PROJETO E ADMINISTRAÇÃO DE BANCO DE DADOS,REDES DE COMPUTADORES,SISTEMAS DE APOIO À DECISÃO,SISTEMAS OPERACIONAIS,TEORIA GERAL DA ADMINISTRAÇÃO,TEORIA GERAL DOS SISTEMAS,ÁLGEBRA LINEAR,ÉTICA,ano_ingresso,mulher,homem,status
0,001cea3c82e2010681f2cdeab21e5ecf,1.0,,,,,,,,1.0,,,1.0,1.0,,,,,,,,,,,,,1.0,,,,2018,0,1,-1
1,005c14d7c07bf7980b60c703f99c5ee7,1.0,2.0,1.0,1.0,,1.0,,3.0,2.0,1.0,,2.0,2.0,1.0,1.0,1.0,2.0,1.0,1.0,,1.0,2.0,1.0,,1.0,1.0,1.0,2.0,1.0,2018,0,1,-1
2,0107fd69d8cd7e3d30dede96fb68bfe5,2.0,,,,,,,,1.0,1.0,,2.0,2.0,,1.0,,1.0,,,,,,,,,1.0,1.0,,1.0,2011,0,1,-1
3,014789363f7940922e71e710ee9d22bc,2.0,3.0,1.0,,1.0,1.0,1.0,2.0,3.0,1.0,1.0,2.0,2.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,2016,0,1,1
4,014f0dec46fe7a9c5836527662e1df10,,,1.0,,,,,,,,,,,,,,,,1.0,1.0,1.0,,,,,,,,,2020,0,1,-1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
675,fe802d8d85de6f842749468401d1146c,2.0,,,,,,,,2.0,,,1.0,1.0,,,,,,,,,,,,,1.0,1.0,,,2022,0,1,0
676,fe87dfa176a74fc10a5cb701b9fb5dd4,1.0,2.0,1.0,2.0,1.0,1.0,1.0,2.0,3.0,1.0,1.0,1.0,3.0,1.0,2.0,1.0,2.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,2016,0,1,1
677,fec9ed6026d55ecdf514c640312c3d08,1.0,1.0,1.0,1.0,,1.0,,1.0,1.0,1.0,,1.0,1.0,,1.0,1.0,1.0,1.0,1.0,,2.0,1.0,,,,1.0,1.0,1.0,,2020,0,1,0
678,ff56f2c5048dae0797fd3e851572b80c,2.0,1.0,1.0,1.0,1.0,1.0,1.0,2.0,4.0,1.0,1.0,4.0,4.0,1.0,1.0,1.0,3.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,,2014,0,1,1


### Coluna com o **classificacao** da Descrição

Adicionando o *classificacao* para cada discente.

In [202]:
classificacao_descricao = df_dados_filtrado.drop_duplicates(subset=['discente'])[['discente', 'classificacao']]
tabela_final = tabela_final.merge(classificacao_descricao, on='discente', how='left')

### Coluna com a **Carga Horária Cumprida**

In [203]:
filtrando_unidade = df_dados_filtrado[df_dados_filtrado['unidade'] == 1]

Agrupando por discente e somando a *carga horária*.

In [204]:
df_carga_horaria_cumprida = filtrando_unidade.groupby('discente')['ch_total'].sum().reset_index()

Adicionando a *carga horária cumprida* de cada discente e renomeando a coluna.

In [205]:
df_carga_horaria_cumprida.rename(columns={'ch_total': 'ch_cumprida'}, inplace=True)
tabela_final = tabela_final.merge(df_carga_horaria_cumprida, on='discente', how='left')

Dividindo a *carga horária cumprida* do discente pela carga horária das disciplinas obrigatórias.

In [206]:
tabela_final['ch_cumprida_dividida'] = tabela_final['ch_cumprida'] / 1830

### Coluna com a **Carga Horária Cumprida** com **Reprovação**

Filtrando dados pela unidade.

In [207]:
filtrando_unidade = df_dados_filtrado[df_dados_filtrado['unidade'] == 1]

Filtrar as disciplinas *reprovadas*.

In [208]:
reprovadas_status = [
    'REPROVADO',
    'REPROVADO POR NOTA',
    'REPROVADO POR FALTAS',
    'REPROVADO POR NOTA E FALTA',
    'REPROVADO POR MÉDIA E POR FALTAS'
]

In [209]:
df_reprovadas = filtrando_unidade[filtrando_unidade['descricao'].isin(reprovadas_status)]

Agrupar por discente e somar a *carga horária das disciplinas reprovadas*.

In [210]:
ch_reprovacao = df_reprovadas.groupby('discente')['ch_total'].sum().reset_index()

Renomear a coluna resultante.

In [211]:
ch_reprovacao.columns = ['discente', 'ch_reprovacao']

Adicionando a *carga horária de reprovação* de cada discente.

In [212]:
tabela_final = tabela_final.merge(ch_reprovacao, on='discente', how='left')
df_dados_filtrado = df_dados_filtrado.merge(ch_reprovacao, on='discente', how='left')
df_dados_filtrado

Unnamed: 0,discente,unidade,nota,media_final,frequencia,descricao,ano,id_componente,nome,ch_total,sexo,ano_nascimento,ano_ingresso,status,classificacao,mulher,homem,ch_reprovacao
0,bad4e0ec61e635f382e7e32c32d5ad11,1.0,0.0,0.0,44.0,REPROVADO POR FALTAS,20091,2037000,ALGORITMOS E LÓGICA DE PROGRAMAÇÃO,90,1,1991,2009,-1,-1,1,0,330.0
1,bad4e0ec61e635f382e7e32c32d5ad11,2.0,0.0,0.0,44.0,REPROVADO POR FALTAS,20091,2037000,ALGORITMOS E LÓGICA DE PROGRAMAÇÃO,90,1,1991,2009,-1,-1,1,0,330.0
2,bad4e0ec61e635f382e7e32c32d5ad11,3.0,0.0,0.0,44.0,REPROVADO POR FALTAS,20091,2037000,ALGORITMOS E LÓGICA DE PROGRAMAÇÃO,90,1,1991,2009,-1,-1,1,0,330.0
3,bee926721a5b23a098fdfb850bf8d5b5,1.0,0.0,0.0,52.0,REPROVADO POR FALTAS,20091,2037000,ALGORITMOS E LÓGICA DE PROGRAMAÇÃO,90,0,1983,2009,-1,-1,0,1,330.0
4,bee926721a5b23a098fdfb850bf8d5b5,2.0,0.0,0.0,52.0,REPROVADO POR FALTAS,20091,2037000,ALGORITMOS E LÓGICA DE PROGRAMAÇÃO,90,0,1983,2009,-1,-1,0,1,330.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
38085,22f4aed4a073c5e9515a8669e9c102f3,2.0,6.9,5.2,0.0,APROVADO POR NOTA,20222,62764,PROGRAMAÇÃO VISUAL,60,0,1984,2019,0,1,0,1,240.0
38086,22f4aed4a073c5e9515a8669e9c102f3,3.0,5.0,5.2,0.0,APROVADO POR NOTA,20222,62764,PROGRAMAÇÃO VISUAL,60,0,1984,2019,0,1,0,1,240.0
38087,943463d2de8c6a60ec5f5d959ba7f1ac,1.0,10.0,10.0,0.0,APROVADO,20222,2054400,MATEMÁTICA FINANCEIRA,60,0,1999,2018,1,2,0,1,60.0
38088,943463d2de8c6a60ec5f5d959ba7f1ac,2.0,10.0,10.0,0.0,APROVADO,20222,2054400,MATEMÁTICA FINANCEIRA,60,0,1999,2018,1,2,0,1,60.0


Substituindo NaN por 0 nas colunas.

In [213]:
tabela_final = tabela_final.fillna(0)

### Coluna com **taxa de reprovação**

In [214]:
tabela_final['taxa_reprovacao'] = tabela_final['ch_reprovacao'] / tabela_final['ch_cumprida'] 

### Coluna com o **Semestre**

Função para calcular o *semestre* com base no *ano de ingresso* e o *ano cursado.*

In [215]:
def calcular_semestre(ano_ingresso, ano_cursado):
    try:
        # Convertendo os anos para strings e ajustando para o formato correto
        ano_ingresso_str = str(ano_ingresso) + '1' if len(str(ano_ingresso)) == 4 else str(ano_ingresso)
        ano_cursado_str = str(ano_cursado) + '1' if len(str(ano_cursado)) == 4 else str(ano_cursado)
        
        ano_ingresso_num = int(ano_ingresso_str[:4])
        semestre_ingresso = int(ano_ingresso_str[4])
        
        ano_cursado_num = int(ano_cursado_str[:4])
        semestre_cursado = int(ano_cursado_str[4])
        
        anos_passados = (ano_cursado_num - ano_ingresso_num) * 2
        semestres_passados = anos_passados + (semestre_cursado - semestre_ingresso)
        
        return semestres_passados + 1  # +1 porque o semestre de ingresso é contado como o primeiro
    except (IndexError, ValueError):
        return pd.NA  # Retorna NA se houver um problema com o formato dos anos

Corrigir os valores das colunas *ano_ingresso* e *ano*.

In [216]:
df_dados_filtrado['ano_ingresso'] = df_dados_filtrado['ano_ingresso'].astype(str)
df_dados_filtrado['ano'] = df_dados_filtrado['ano'].astype(str)

Aplicar a função para criar a coluna *semestre*.

In [217]:
df_dados_filtrado['semestre'] = df_dados_filtrado.apply(
    lambda x: calcular_semestre(x['ano_ingresso'], x['ano']), axis=1
)

In [218]:
# Agrupar por discente e disciplina e coletar os semestres
semestres_por_disciplina = df_dados_filtrado.groupby(['discente', 'nome'])['semestre'].apply(lambda x: ', '.join(map(str, x.unique()))).reset_index()

# Renomear a coluna para algo mais descritivo
semestres_por_disciplina.rename(columns={'semestre': 'semestres_cursados'}, inplace=True)

# Exibir o resultado
semestres_por_disciplina

Unnamed: 0,discente,nome,semestres_cursados
0,001cea3c82e2010681f2cdeab21e5ecf,ALGORITMOS E LÓGICA DE PROGRAMAÇÃO,1
1,001cea3c82e2010681f2cdeab21e5ecf,FUNDAMENTOS DE MATEMÁTICA,1
2,001cea3c82e2010681f2cdeab21e5ecf,INTRODUÇÃO À INFORMÁTICA,1
3,001cea3c82e2010681f2cdeab21e5ecf,LÓGICA,1
4,001cea3c82e2010681f2cdeab21e5ecf,TEORIA GERAL DA ADMINISTRAÇÃO,1
...,...,...,...
10701,ff56f2c5048dae0797fd3e851572b80c,TEORIA GERAL DOS SISTEMAS,2
10702,ff56f2c5048dae0797fd3e851572b80c,ÁLGEBRA LINEAR,8
10703,ffe447b2fe2058d45d5f756349a26f45,ALGORITMOS E LÓGICA DE PROGRAMAÇÃO,1
10704,ffe447b2fe2058d45d5f756349a26f45,INTRODUÇÃO À INFORMÁTICA,1


In [219]:
# Supondo que tabela_final já existe e tem as colunas 'discente' e 'disciplina'
df_dados_filtrado = df_dados_filtrado.merge(semestres_por_disciplina, on=['discente' , 'nome'], how='left')
df_dados_filtrado

Unnamed: 0,discente,unidade,nota,media_final,frequencia,descricao,ano,id_componente,nome,ch_total,sexo,ano_nascimento,ano_ingresso,status,classificacao,mulher,homem,ch_reprovacao,semestre,semestres_cursados
0,bad4e0ec61e635f382e7e32c32d5ad11,1.0,0.0,0.0,44.0,REPROVADO POR FALTAS,20091,2037000,ALGORITMOS E LÓGICA DE PROGRAMAÇÃO,90,1,1991,2009,-1,-1,1,0,330.0,1,1
1,bad4e0ec61e635f382e7e32c32d5ad11,2.0,0.0,0.0,44.0,REPROVADO POR FALTAS,20091,2037000,ALGORITMOS E LÓGICA DE PROGRAMAÇÃO,90,1,1991,2009,-1,-1,1,0,330.0,1,1
2,bad4e0ec61e635f382e7e32c32d5ad11,3.0,0.0,0.0,44.0,REPROVADO POR FALTAS,20091,2037000,ALGORITMOS E LÓGICA DE PROGRAMAÇÃO,90,1,1991,2009,-1,-1,1,0,330.0,1,1
3,bee926721a5b23a098fdfb850bf8d5b5,1.0,0.0,0.0,52.0,REPROVADO POR FALTAS,20091,2037000,ALGORITMOS E LÓGICA DE PROGRAMAÇÃO,90,0,1983,2009,-1,-1,0,1,330.0,1,1
4,bee926721a5b23a098fdfb850bf8d5b5,2.0,0.0,0.0,52.0,REPROVADO POR FALTAS,20091,2037000,ALGORITMOS E LÓGICA DE PROGRAMAÇÃO,90,0,1983,2009,-1,-1,0,1,330.0,1,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
38085,22f4aed4a073c5e9515a8669e9c102f3,2.0,6.9,5.2,0.0,APROVADO POR NOTA,20222,62764,PROGRAMAÇÃO VISUAL,60,0,1984,2019,0,1,0,1,240.0,8,"7, 8"
38086,22f4aed4a073c5e9515a8669e9c102f3,3.0,5.0,5.2,0.0,APROVADO POR NOTA,20222,62764,PROGRAMAÇÃO VISUAL,60,0,1984,2019,0,1,0,1,240.0,8,"7, 8"
38087,943463d2de8c6a60ec5f5d959ba7f1ac,1.0,10.0,10.0,0.0,APROVADO,20222,2054400,MATEMÁTICA FINANCEIRA,60,0,1999,2018,1,2,0,1,60.0,10,10
38088,943463d2de8c6a60ec5f5d959ba7f1ac,2.0,10.0,10.0,0.0,APROVADO,20222,2054400,MATEMÁTICA FINANCEIRA,60,0,1999,2018,1,2,0,1,60.0,10,10


In [220]:
semestres = df_dados_filtrado[['discente', 'semestre']].drop_duplicates("discente")
tabela_final = tabela_final.merge(semestres, on='discente', how='left')
tabela_final


Unnamed: 0,discente,ALGORITMOS E LÓGICA DE PROGRAMAÇÃO,ARQUITETURA DE COMPUTADORES,BANCO DE DADOS,CÁLCULO DIFERENCIAL E INTEGRAL,EMPREENDEDORISMO EM INFORMÁTICA,ENGENHARIA DE SOFTWARE I,ENGENHARIA DE SOFTWARE II,ESTRUTURA DE DADOS,FUNDAMENTOS DE MATEMÁTICA,FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO,GESTÃO DE PROJETO DE SOFTWARE,INTRODUÇÃO À INFORMÁTICA,LÓGICA,MATEMÁTICA FINANCEIRA,"ORGANIZAÇÃO, SISTEMAS E MÉTODOS",PROBABILIDADE E ESTATÍSTICA,PROGRAMAÇÃO,PROGRAMAÇÃO ORIENTADA A OBJETOS I,PROGRAMAÇÃO ORIENTADA A OBJETOS II,PROGRAMAÇÃO VISUAL,PROGRAMAÇÃO WEB,PROJETO E ADMINISTRAÇÃO DE BANCO DE DADOS,REDES DE COMPUTADORES,SISTEMAS DE APOIO À DECISÃO,SISTEMAS OPERACIONAIS,TEORIA GERAL DA ADMINISTRAÇÃO,TEORIA GERAL DOS SISTEMAS,ÁLGEBRA LINEAR,ÉTICA,ano_ingresso,mulher,homem,status,classificacao,ch_cumprida,ch_cumprida_dividida,ch_reprovacao,taxa_reprovacao,semestre
0,001cea3c82e2010681f2cdeab21e5ecf,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,2018,0,1,-1,-5,330,0.180328,0.0,0.000000,1
1,005c14d7c07bf7980b60c703f99c5ee7,1.0,2.0,1.0,1.0,0.0,1.0,0.0,3.0,2.0,1.0,0.0,2.0,2.0,1.0,1.0,1.0,2.0,1.0,1.0,0.0,1.0,2.0,1.0,0.0,1.0,1.0,1.0,2.0,1.0,2018,0,1,-1,-2,2160,1.180328,960.0,0.444444,1
2,0107fd69d8cd7e3d30dede96fb68bfe5,2.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,1.0,0.0,2.0,2.0,0.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,1.0,0.0,1.0,2011,0,1,-1,-1,870,0.475410,270.0,0.310345,1
3,014789363f7940922e71e710ee9d22bc,2.0,3.0,1.0,0.0,1.0,1.0,1.0,2.0,3.0,1.0,1.0,2.0,2.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,2016,0,1,1,-1,2310,1.262295,540.0,0.233766,1
4,014f0dec46fe7a9c5836527662e1df10,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,2020,0,1,-1,-4,240,0.131148,0.0,0.000000,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
675,fe802d8d85de6f842749468401d1146c,2.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,2.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,1.0,0.0,0.0,2022,0,1,0,-1,540,0.295082,270.0,0.500000,1
676,fe87dfa176a74fc10a5cb701b9fb5dd4,1.0,2.0,1.0,2.0,1.0,1.0,1.0,2.0,3.0,1.0,1.0,1.0,3.0,1.0,2.0,1.0,2.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,2016,0,1,1,2,2430,1.327869,480.0,0.197531,1
677,fec9ed6026d55ecdf514c640312c3d08,1.0,1.0,1.0,1.0,0.0,1.0,0.0,1.0,1.0,1.0,0.0,1.0,1.0,0.0,1.0,1.0,1.0,1.0,1.0,0.0,2.0,1.0,0.0,0.0,0.0,1.0,1.0,1.0,0.0,2020,0,1,0,2,1350,0.737705,0.0,0.000000,2
678,ff56f2c5048dae0797fd3e851572b80c,2.0,1.0,1.0,1.0,1.0,1.0,1.0,2.0,4.0,1.0,1.0,4.0,4.0,1.0,1.0,1.0,3.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0,2014,0,1,1,-1,2670,1.459016,630.0,0.235955,1


In [221]:
df_dados_filtrado.columns

Index(['discente', 'unidade', 'nota', 'media_final', 'frequencia', 'descricao',
       'ano', 'id_componente', 'nome', 'ch_total', 'sexo', 'ano_nascimento',
       'ano_ingresso', 'status', 'classificacao', 'mulher', 'homem',
       'ch_reprovacao', 'semestre', 'semestres_cursados'],
      dtype='object')

In [224]:
tabela_final.to_csv('tabela222.csv', index=False, sep=',', quoting=csv.QUOTE_NONNUMERIC)

### Coluna com o Total de **Semestre Cursado**

Identificar *semestres* únicos cursados por cada discente.

In [226]:
semestres_unicos_por_discente = df_dados_filtrado.groupby('discente')['ano'].nunique().reset_index()
semestres_unicos_por_discente.rename(columns={'ano' : 'semestre_total'}, inplace=True)

Adicionando a quantidade de *semestres* cursados por cada discente.

In [227]:
tabela_final = tabela_final.merge(semestres_unicos_por_discente, on='discente', how='left')

In [228]:
df_dados_filtrado =df_dados_filtrado.merge(semestres_unicos_por_discente, on='discente', how='left')

Dividindo a quantidade de *semestres cursados* pela quantidade de *semestres estimados* no curso.

In [229]:
tabela_final['semestre_dividido'] = tabela_final['semestre_total'] / 8

### Coluna com o **Último Período** Matrículado

Encontrar o *último período* que cada aluno estudou no curso.

In [230]:
ultimo_periodo = df_dados_filtrado.groupby('discente')['ano'].max().reset_index()
ultimo_periodo.rename(columns={'ano': 'ultimo_periodo'}, inplace=True)

Adicionando as informações do *último período* de cada discente.

In [231]:
tabela_final = tabela_final.merge(ultimo_periodo, on='discente', how='left')

### Coluna com a quantidade de vezes que o discente se **Matriculou**

Soma dos valores das colunas para contabilizar a *matrícula* por discente.

In [232]:
matricula =      tabela_final['ALGORITMOS E LÓGICA DE PROGRAMAÇÃO'] + \
                 tabela_final['INTRODUÇÃO À INFORMÁTICA'] + \
                 tabela_final['FUNDAMENTOS DE MATEMÁTICA'] + \
                 tabela_final['LÓGICA'] + \
                 tabela_final['TEORIA GERAL DA ADMINISTRAÇÃO'] + \
                 tabela_final['PROGRAMAÇÃO'] + \
                 tabela_final['CÁLCULO DIFERENCIAL E INTEGRAL'] + \
                 tabela_final['TEORIA GERAL DOS SISTEMAS'] + \
                 tabela_final['PROGRAMAÇÃO ORIENTADA A OBJETOS I'] + \
                 tabela_final['ESTRUTURA DE DADOS'] + \
                 tabela_final['ÁLGEBRA LINEAR'] + \
                 tabela_final['ORGANIZAÇÃO, SISTEMAS E MÉTODOS'] + \
                 tabela_final['FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO'] + \
                 tabela_final['PROGRAMAÇÃO WEB'] + \
                 tabela_final['ARQUITETURA DE COMPUTADORES'] + \
                 tabela_final['PROBABILIDADE E ESTATÍSTICA'] + \
                 tabela_final['BANCO DE DADOS'] + \
                 tabela_final['ENGENHARIA DE SOFTWARE I'] + \
                 tabela_final['PROGRAMAÇÃO ORIENTADA A OBJETOS II'] + \
                 tabela_final['SISTEMAS OPERACIONAIS'] + \
                 tabela_final['PROJETO E ADMINISTRAÇÃO DE BANCO DE DADOS'] + \
                 tabela_final['ENGENHARIA DE SOFTWARE II'] + \
                 tabela_final['REDES DE COMPUTADORES'] + \
                 tabela_final['EMPREENDEDORISMO EM INFORMÁTICA'] + \
                 tabela_final['GESTÃO DE PROJETO DE SOFTWARE'] + \
                 tabela_final['PROGRAMAÇÃO VISUAL'] + \
                 tabela_final['MATEMÁTICA FINANCEIRA'] + \
                 tabela_final['SISTEMAS DE APOIO À DECISÃO'] + \
                 tabela_final['ÉTICA']

Adicionando a coluna *matrícula* na tabela.

In [233]:
tabela_final['matricula'] = matricula

### Coluna com o **Tempo Relativo** que o discente passou no curso

Converter a coluna *ch_cumprida_dividida* para tipo numérico.

In [234]:
tabela_final['semestre_dividido'] = pd.to_numeric(tabela_final['semestre_dividido'], errors='coerce')

Converter a coluna *status* para tipo numérico.

In [235]:
tabela_final['status'] = pd.to_numeric(tabela_final['status'], errors='coerce')

Multiplicar os valores da coluna *ch_cumprida_dividida* pela coluna *status*.

In [236]:
tabela_final['tempo_relativo'] = tabela_final['semestre_dividido'] * tabela_final['status']

### Coluna com a quantidade de vezes que o discente foi **Aprovado**

Filtrando dados pela unidade.

In [237]:
filtrando_unidade = df_dados_filtrado[df_dados_filtrado['unidade'] == 1]

Listar todas as disciplinas.

In [238]:
disciplinas = df_dados_filtrado['nome'].unique()

Criar uma tabela de *aprovações*.

In [239]:
aprovacoes = filtrando_unidade[filtrando_unidade['descricao'].isin([
    'APROVADO',
    'APROVADO POR NOTA',
])]

Agrupar por discente e nome da disciplina para contar as *aprovações*.

In [240]:
aprovacoes_count = aprovacoes.groupby(['discente', 'nome']).size().unstack(fill_value=0)

Renomear as colunas para incluir *_APROVADO*.

In [241]:
aprovacoes_count.columns = [f"{disciplina}_APROVADO" for disciplina in aprovacoes_count.columns]

Mesclar as *aprovações* de volta ao DataFrame original.

In [242]:
# Criar `df_final` removendo duplicatas em 'discente' e juntando com `aprovacoes_count`
df_final = df_dados_filtrado.drop_duplicates('discente').set_index('discente').join(aprovacoes_count, on='discente').fillna(0).reset_index()

# Selecionar as colunas de df_final que não estão presentes em tabela_final
colunas_para_juntar = [col for col in df_final.columns if col not in tabela_final.columns or col == 'discente']

# Selecionar apenas as colunas necessárias
df_final_rename = df_final[colunas_para_juntar]

# Realizar a junção com tabela_final
tabela_final = tabela_final.merge(df_final_rename, on='discente', how='left')

### Coluna com a quantidade de vezes que o discente foi **Reprovado**

Listar todas as disciplinas.

In [243]:
disciplinas = df_dados_filtrado['nome'].unique()

Criar uma tabela de *reprovações* com o filtro da 1 unidade.

In [244]:
reprovacoes = filtrando_unidade[filtrando_unidade['descricao'].isin([
    'REPROVADO',
    'REPROVADO POR NOTA',
    'REPROVADO POR FALTAS',
    'REPROVADO POR NOTA E FALTA',
    'REPROVADO POR MÉDIA E POR FALTAS'
])]

Agrupar por discente e nome da disciplina para contar as *reprovações*.

In [245]:
reprovacoes_count = reprovacoes.groupby(['discente', 'nome']).size().unstack(fill_value=0)

Renomear as colunas para incluir *_REPROVADO*.

In [246]:
reprovacoes_count.columns = [f"{disciplina}_REPROVADO" for disciplina in reprovacoes_count.columns]

Mesclar as *reprovações* de volta ao DataFrame original.

In [247]:
# Criar `df_final` removendo duplicatas em 'discente' e juntando com `reprovacoes_count`
df_final = df_dados_filtrado.drop_duplicates('discente').set_index('discente').join(reprovacoes_count, on='discente').fillna(0).reset_index()

# Selecionar as colunas de df_final que não estão presentes em tabela_final
colunas_para_juntar = [col for col in df_final.columns if col not in tabela_final.columns or col == 'discente']

# Selecionar apenas as colunas necessárias
df_final_rename = df_final[colunas_para_juntar]

# Realizar a junção com tabela_final
tabela_final = tabela_final.merge(df_final_rename, on='discente', how='left')

In [252]:
df_dados_filtrado.columns

Index(['discente', 'unidade', 'nota', 'media_final', 'frequencia', 'descricao',
       'ano', 'id_componente', 'nome', 'ch_total', 'sexo', 'ano_nascimento',
       'ano_ingresso', 'status', 'classificacao', 'mulher', 'homem',
       'ch_reprovacao', 'semestre', 'semestres_cursados', 'semestre_total'],
      dtype='object')

Mudando a ordem das colunas.

Reordenando as colunas.

In [255]:
'''tabela_final = tabela_final[colunas_ordenadas]
tabela_final'''

'tabela_final = tabela_final[colunas_ordenadas]\ntabela_final'

Para salvar o DataFrame no formato CSV com a separação por ';' e garantir que os dados numéricos estejam no formato correto.

In [256]:
df_dados_filtrado.to_csv('df_filtrado.csv', index=False, sep=',', quoting=csv.QUOTE_NONNUMERIC)

In [257]:
tabela_final.to_csv('tabela_final.csv', index=False, sep=',', quoting=csv.QUOTE_NONNUMERIC)