# TCC - PRE
Este notebook mostra apenas o processo de investigação e pré-processamento dos 60 datasets disponibilizados em https://dados.ufrn.br/, com o objetivo de realizar uma análise do rendimento acadêmico dos discentes do curso de Direito da UFRN, no período de 2011.1 até 2024.2.

# Imports das bibliotecas

In [None]:
import numpy as np
import pandas as pd

#Permitir que sejam exibidas inúmeras linhas e colunas no notebook
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)

# Carregamento de datasets

Todos os datasets estão localizados no meu google drive, então é necessário configurar o colab de modo que seja possível realizar o acesso desses dados do meu google drive

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


## 1. Carregar 29 arquivos .csv correpondentes às matrículas realizadas na UFRN no período de 2011.1 até 2024.2 e transformando-os em dataframes

Obs.: 2020 foi o íncio da pandemia, então os semestres em 2020 foram, respectivamente: 2020.5, 2020.6 e 2020.2

In [None]:
#Crio um dicionário que irá conter todas as matrículas realizadas entre 2011.1 e 2024.2
#Para acessar as matrículas de um ano aaaa num semestre s basta escrever matriculas['aaaa.s']
matriculas = {}

for ano in range(2011, 2025):
  if ano == 2020:
    semestres = [5, 6, 2]
  else:
    semestres = [1, 2]
  for semestre in semestres:
      try:
        arquivo = f'/content/drive/MyDrive/UF/TCC/datasets/matriculas/matricula-componente-{ano}{semestre}.csv'
        dataframe = pd.read_csv(arquivo, sep=';')
        matriculas[f'{ano}.{semestre}'] = dataframe
        print(f"Arquivo {arquivo} lido com sucesso.")
      except FileNotFoundError:
        print(f"Arquivo {arquivo} não encontrado.")
      except Exception as e:
        print(f"Ocorreu um erro ao ler o arquivo {arquivo}: {e}")


Arquivo /content/drive/MyDrive/UF/TCC/datasets/matriculas/matricula-componente-20111.csv lido com sucesso.
Arquivo /content/drive/MyDrive/UF/TCC/datasets/matriculas/matricula-componente-20112.csv lido com sucesso.
Arquivo /content/drive/MyDrive/UF/TCC/datasets/matriculas/matricula-componente-20121.csv lido com sucesso.
Arquivo /content/drive/MyDrive/UF/TCC/datasets/matriculas/matricula-componente-20122.csv lido com sucesso.
Arquivo /content/drive/MyDrive/UF/TCC/datasets/matriculas/matricula-componente-20131.csv lido com sucesso.
Arquivo /content/drive/MyDrive/UF/TCC/datasets/matriculas/matricula-componente-20132.csv lido com sucesso.
Arquivo /content/drive/MyDrive/UF/TCC/datasets/matriculas/matricula-componente-20141.csv lido com sucesso.
Arquivo /content/drive/MyDrive/UF/TCC/datasets/matriculas/matricula-componente-20142.csv lido com sucesso.
Arquivo /content/drive/MyDrive/UF/TCC/datasets/matriculas/matricula-componente-20151.csv lido com sucesso.
Arquivo /content/drive/MyDrive/UF/TCC

## 2. Carregar 29 arquivos .csv correpondentes às turmas ofertadas na UFRN no período de 2011.1 até 2024.2 e transformando-os em dataframes

In [None]:
#Crio um dicionário que irá conter todas as turmas ofertadas entre 2011.1 e 2024.2
#Para acessar as matrículas de um ano aaaa num semestre s basta escrever turmas['aaaa.s']
turmas = {}

for ano in range(2011, 2025):
  if ano == 2020:
    semestres = [5, 6, 2]
  else:
    semestres = [1, 2]
  for semestre in semestres:
      try:
        arquivo = f'/content/drive/MyDrive/UF/TCC/datasets/turmas/turmas-{ano}.{semestre}.csv'
        dataframe = pd.read_csv(arquivo, sep=';')
        turmas[f'{ano}.{semestre}'] = dataframe
        print(f"Arquivo {arquivo} lido com sucesso.")
      except FileNotFoundError:
        print(f"Arquivo {arquivo} não encontrado.")
      except Exception as e:
        print(f"Ocorreu um erro ao ler o arquivo {arquivo}: {e}")


Arquivo /content/drive/MyDrive/UF/TCC/datasets/turmas/turmas-2011.1.csv lido com sucesso.
Arquivo /content/drive/MyDrive/UF/TCC/datasets/turmas/turmas-2011.2.csv lido com sucesso.
Arquivo /content/drive/MyDrive/UF/TCC/datasets/turmas/turmas-2012.1.csv lido com sucesso.
Arquivo /content/drive/MyDrive/UF/TCC/datasets/turmas/turmas-2012.2.csv lido com sucesso.
Arquivo /content/drive/MyDrive/UF/TCC/datasets/turmas/turmas-2013.1.csv lido com sucesso.
Arquivo /content/drive/MyDrive/UF/TCC/datasets/turmas/turmas-2013.2.csv lido com sucesso.
Arquivo /content/drive/MyDrive/UF/TCC/datasets/turmas/turmas-2014.1.csv lido com sucesso.
Arquivo /content/drive/MyDrive/UF/TCC/datasets/turmas/turmas-2014.2.csv lido com sucesso.
Arquivo /content/drive/MyDrive/UF/TCC/datasets/turmas/turmas-2015.1.csv lido com sucesso.
Arquivo /content/drive/MyDrive/UF/TCC/datasets/turmas/turmas-2015.2.csv lido com sucesso.
Arquivo /content/drive/MyDrive/UF/TCC/datasets/turmas/turmas-2016.1.csv lido com sucesso.
Arquivo /c

## 3. Carregar um arquivo .csv correpondente à todas as compontes curriculares oferecidadas na UFRN e transformando-os em dataframes

In [None]:
try:
  arquivo = '/content/drive/MyDrive/UF/TCC/datasets/componentes-curriculares-presenciais.csv'
  componentes_curriculares = pd.read_csv(arquivo, sep=';')
  print(f"Arquivo {arquivo} lido com sucesso.")
except FileNotFoundError:
  print(f"Arquivo {arquivo} não encontrado.")
except Exception as e:
    print(f"Ocorreu um erro ao ler o arquivo {arquivo}: {e}")

Arquivo /content/drive/MyDrive/UF/TCC/datasets/componentes-curriculares-presenciais.csv lido com sucesso.



## 4. Carregar um arquivo .csv correspondente à todas as estruturas curriculares disponíveis na UFRN e transformando-os em dataframes

In [None]:
try:
  arquivo = '/content/drive/MyDrive/UF/TCC/datasets/estruturas-curriculares.csv'
  estruturas_curriculares = pd.read_csv(arquivo, sep=';')
  print(f"Arquivo {arquivo} lido com sucesso.")
except FileNotFoundError:
  print(f"Arquivo {arquivo} não encontrado.")
except Exception as e:
    print(f"Ocorreu um erro ao ler o arquivo {arquivo}: {e}")

Arquivo /content/drive/MyDrive/UF/TCC/datasets/estruturas-curriculares.csv lido com sucesso.


## Total de linhas dos dataframes

In [None]:
linhas_matriculas = 0
for semestre, df in matriculas.items():
  linhas_matriculas += df.shape[0]
print(f"Total de linhas no dataframe de matrículas: {linhas_matriculas}")

linhas_turmas = 0
for semestre, df in turmas.items():
  linhas_turmas += df.shape[0]
print(f"Total de linhas no dataframe de turmas : {linhas_turmas}")

print(f"Total de linhas no dataframe de componentes curriculares: {componentes_curriculares.shape[0]}")
print(f"Total de linhas no dataframe de estruturas curriculares: {estruturas_curriculares.shape[0]}")

Total de linhas no dataframe de matrículas: 18968575
Total de linhas no dataframe de turmas : 387935
Total de linhas no dataframe de componentes curriculares: 44525
Total de linhas no dataframe de estruturas curriculares: 450


# Verificando estrutura dos dataframes

## 1. Dataframe das matrículas
As matrículas estão armazenadas em um dicionario de dataframes:
```pyhton
 matriculas['aaaa.s'] #  (matrículas realizadas em um certo ano aaaa num certo semestre s)
```


In [None]:
matriculas['2011.1'].head(10)

Unnamed: 0,id_turma,discente,id_curso,unidade,nota,reposicao,faltas_unidade,media_final,numero_total_faltas,descricao
0,1168346,3a0080dec28824bdce69b3dfd904c704,2000033.0,1.0,70,False,0.0,74,10.0,APROVADO
1,1168346,3a0080dec28824bdce69b3dfd904c704,2000033.0,2.0,70,False,0.0,74,10.0,APROVADO
2,1168346,3a0080dec28824bdce69b3dfd904c704,2000033.0,3.0,80,False,0.0,74,10.0,APROVADO
3,1164270,d8562ea7728e0d0d287910e1d8b60f77,2000005.0,1.0,100,False,0.0,93,2.0,APROVADO
4,1164270,d8562ea7728e0d0d287910e1d8b60f77,2000005.0,2.0,90,False,0.0,93,2.0,APROVADO
5,1164270,d8562ea7728e0d0d287910e1d8b60f77,2000005.0,3.0,90,False,0.0,93,2.0,APROVADO
6,1164270,2a9130efa31f5a0f68302868d3831fbe,2000005.0,1.0,100,False,0.0,91,2.0,APROVADO
7,1164270,2a9130efa31f5a0f68302868d3831fbe,2000005.0,2.0,85,False,0.0,91,2.0,APROVADO
8,1164270,2a9130efa31f5a0f68302868d3831fbe,2000005.0,3.0,90,False,0.0,91,2.0,APROVADO
9,1164270,e60da104f03c3ccec0cb7d6bc2f473f7,2000005.0,1.0,100,False,0.0,91,2.0,APROVADO


O dataframe das matrículas é composto pelas colunas: **id_turma**, **discente**, **id_curso**, **unidade**, **nota**, **reposicao**, **faltas_unidade**, **media_final**, **numero_total_faltas** e **descrição**.

Como na UFRN a maioria das disciplinas possuem _3 unidades_, para cada aluno, há 3 registros, cada um contendo a nota correspondente à cada unidade, porém, como a _média final existe em todas linhas_, e ela é a _mesma_ em todas elas, _podemos remover duas linhas para cada aluno do nosso dataframe, e também a coluna **nota**_. Felizmente, a coluna **numero_total_faltas** também nos permite remover a coluna **faltas_unidade**, o que facilita nossa análise.

Resta descobrir qual foi a disciplina cursada pelo discente (isso pode ser investigado fazendo um cruzamento desse dataframe com o daframe de turmas, usando a coluna *id_turma*). Além disso, também não se sabe qual é o curso que esse discente está, mas isso pode ser investigado consultando o dataframe de estruturas curriculares.

Para nossa análise trabalharemos apenas com as colunas **discente**, **id_turma**, **id_curso**, **media_final**, **numero_total_faltas** e **descrição**.

## 2. Dataframe de turmas

As turmas estão armazenadas em um dicionario de dataframes:
```pyhton
 turmas['aaaa.s'] #  (turmas ofertadas em um certo ano aaaa num certo semestre s)
```

In [None]:
turmas['2011.1'].head(5)

Unnamed: 0,id_turma,codigo_turma,siape,matricula_docente_externo,observacao,id_componente_curricular,ch_dedicada_periodo,nivel_ensino,campus_turma,local,ano,periodo,data_inicio,data_fim,descricao_horario,total_solicitacoes,capacidade_aluno,tipo,distancia,data_consolidacao,agrupadora,id_turma_agrupadora,qtd_aulas_lancadas,situacao_turma,convenio,modalidade_participantes
0,1151165,1,346287.0,,,2055813,30,LATO SENSU,,CTGÁS-ER,2011,1,2011/02/23 00:00:00.000,2011/02/26 00:00:00.000,7M2345 7T3456 456N345,,41.0,REGULAR,False,2011/04/26 00:36:16.312000000,False,,,CONSOLIDADA,,Presencial
1,1151175,1,347564.0,,,2055650,30,LATO SENSU,,CTGAS-ER,2011,1,2011/01/26 00:00:00.000,2011/01/29 00:00:00.000,567M2345 4567T3456 4N34,,41.0,REGULAR,False,2011/06/02 09:46:35.547000000,False,,,CONSOLIDADA,,Presencial
2,1151176,1,347303.0,,,2055632,30,LATO SENSU,,CTGAS-ER,2011,1,2011/05/28 00:00:00.000,2011/05/28 00:00:00.000,7M12345 7T123456,,41.0,REGULAR,False,2011/07/20 11:09:14.702000000,False,,,CONSOLIDADA,,Presencial
3,1151819,1,,8305.0,,41389,10,LATO SENSU,,AUD DO LABORATÓRIO DE PSICOLOGIA,2011,1,2011/05/24 00:00:00.000,2011/05/26 00:00:00.000,167M2345 67T3456,,50.0,REGULAR,False,2012/06/13 14:42:59.359000000,False,,,CONSOLIDADA,,Presencial
4,1151819,1,,8314.0,,41389,10,LATO SENSU,,AUD DO LABORATÓRIO DE PSICOLOGIA,2011,1,2011/05/24 00:00:00.000,2011/05/26 00:00:00.000,167M2345 67T3456,,50.0,REGULAR,False,2012/06/13 14:42:59.359000000,False,,,CONSOLIDADA,,Presencial


O dataframe das turmas é composto pelas colunas: **id_turma**,	**codigo_turma**,	**siape**,	**matricula_docente_externo**,	**observacao**,	**id_componente_curricular**,	**ch_dedicada_periodo**,	**nivel_ensino**	**campus_turma**,	**local**,	**ano**,	**periodo**,	**data_inicio**,	**data_fim**,	**descricao_horario**,	**total_solicitacoes**,	**capacidade_aluno**,	**tipo**,	**distancia**,	**data_consolidacao**,	**agrupadora**,	**id_turma_agrupadora**,	**qtd_aulas_lancadas**,	**situacao_turma**,	**convenio** e	**modalidade_participantes**.

Esse dataframe de fato possui muitas informações, porém, para nossa análise só serão necessárias duas colunas: **id_turma** e **id_componente_curricular**.

## 3. Dataframe de componentes curriculares

In [None]:
componentes_curriculares.head(5)

Unnamed: 0,id_componente,tipo_componente,codigo,nivel,nome,unidade_responsavel,ch_teorico,ch_pratico,ch_estagio,ch_total,ch_dedicada_docente,ch_ead,cr_max_ead,permite_horario_flexivel,qtd_unidades,procedimentos_avaliacao,equivalencia,pre_requisito,co_requisito,ementa,bibliografia,objetivos,conteudo,competencias_habilidades,referencias,ano_programa,periodo_programa,modalidade,curso_componente
0,18642,DISCIPLINA,MUT721,T,LABORATÓRIOS ELETIVOS,ESCOLA DE MÚSICA,60,0,0,60,60,0,20,False,2.0,,,,,,,,,,,,,Presencial,
1,18643,DISCIPLINA,MUT508,T,COMPOSIÇÃO EM MÚSICA POPULAR III,ESCOLA DE MÚSICA,60,0,0,60,60,0,20,False,2.0,,,,,,,,,,,,,Presencial,
2,18644,DISCIPLINA,MUT516,T,CO-REPETIÇÃO,ESCOLA DE MÚSICA,30,0,0,30,30,0,20,False,2.0,,,,,,,,,,,,,Presencial,
3,18645,DISCIPLINA,MUT520,T,CONTRABAIXO ACÚSTICO I,ESCOLA DE MÚSICA,30,0,0,30,30,0,20,False,2.0,,,,,,,,,,,,,Presencial,
4,18646,DISCIPLINA,MUT165,T,PIANO COMPLEMENTAR I,ESCOLA DE MÚSICA,15,0,0,15,15,0,20,False,2.0,,,,,,,,,,,,,Presencial,


O dataframe de componentes curriculares possui inúmeras colunas, porém, as principais, e que efetivamente serão utilizadas em nossa análise são: **id_componente**, **codigo** e **nome**.

## 4. Dataframe de estruturas curriculares

In [None]:
estruturas_curriculares.head(5)

Unnamed: 0,id_curriculo,codigo,nome_matriz,id_curso,nome_curso,semestre_conclusao_minimo,semestre_conclusao_ideal,semestre_conclusao_maximo,meses_conclusao_minimo,meses_conclusao_ideal,meses_conclusao_maximo,cr_total_minimo,ch_total_minima,ch_optativas_minima,ch_complementar_minima,max_eletivos,ch_nao_atividade_obrigatoria,cr_nao_atividade_obrigatorio,ch_atividade_obrigatoria,cr_minimo_semestre,cr_ideal_semestre,cr_maximo_semestre,ch_minima_semestre,ch_ideal_semestre,ch_maxima_semestre,periodo_entrada_vigor,ano_entrada_vigor,observacao
0,95617859,01,GESTÃO PÚBLICA - CAICÓ - I - TECNOLÓGICO,92017023,GESTÃO PÚBLICA,5.0,5.0,6.0,,,,114,1710,0,0.0,240.0,1710,114,0,6.0,24.0,26.0,240.0,,0.0,1,2013,
1,129841126,MFC2018,,93262777,PROGRAMA DE RESIDÊNCIA MÉDICA EM MEDICINA DA F...,,,,,,,0,5640,0,,0.0,0,0,0,,,,0.0,,,1,2018,
2,131750215,RPDHUAB,,93262776,PROGRAMA DE RESIDÊNCIA MÉDICA EM PEDIATRIA,,,,,,,0,5760,0,,0.0,577,0,5183,,,,0.0,,,1,2018,
3,129796929,2017,,114941932,MESTRADO PROFISSIONAL EM ENSINO DE FÍSICA EM R...,12.0,,24.0,12.0,,24.0,32,480,120,,0.0,360,24,0,,,,0.0,,,1,2017,
4,157663892,ECO2022,,157663602,RESIDÊNCIA MÉDICA EM ECOCARDIOGRAFIA,,,,,,,0,5700,0,,,560,0,5140,,,,0.0,,,1,2022,


Há inúmeras colunas neste dataframe, porém, as colunas essenciais são **id_curso** e **nome_curso**, pois a coluna **id_curso** está presente no dataframe de matriculas. Então, sabendo qual código corresponde à um certo curso, pode-se filtrar todas as matrículas realizadas em um curso.

### Descobrindo id_curso do curso cujo nome_curso é DIREITO:

In [None]:
estrutura_curricular_direito = estruturas_curriculares[estruturas_curriculares['nome_curso'] == 'DIREITO']
estrutura_curricular_direito

Unnamed: 0,id_curriculo,codigo,nome_matriz,id_curso,nome_curso,semestre_conclusao_minimo,semestre_conclusao_ideal,semestre_conclusao_maximo,meses_conclusao_minimo,meses_conclusao_ideal,meses_conclusao_maximo,cr_total_minimo,ch_total_minima,ch_optativas_minima,ch_complementar_minima,max_eletivos,ch_nao_atividade_obrigatoria,cr_nao_atividade_obrigatorio,ch_atividade_obrigatoria,cr_minimo_semestre,cr_ideal_semestre,cr_maximo_semestre,ch_minima_semestre,ch_ideal_semestre,ch_maxima_semestre,periodo_entrada_vigor,ano_entrada_vigor,observacao
173,130320907,03,DIREITO - CAICÓ - TN - BACHARELADO,2000019,DIREITO,10.0,10.0,14.0,,,,198,3700,480,190.0,360.0,2970,198,60,,,,60.0,,450.0,2,2018,
435,505612070,04A,DIREITO - NATAL - M - BACHARELADO,2000018,DIREITO,10.0,10.0,16.0,,,,180,3700,435,200.0,240.0,2700,180,365,4.0,24.0,26.0,60.0,,0.0,2,2010,
446,505612071,04A,DIREITO - NATAL - N - BACHARELADO,2000018,DIREITO,1.0,11.0,16.0,,,,180,3700,435,200.0,240.0,2700,180,365,4.0,24.0,26.0,60.0,,0.0,2,2010,


Com isso, descobrimos que o **id_curso** do curso de direito é `2000018`.

# Pré-processamento de dataframes

## 1. Dataframe de matrículas
Para os dataframes de matrículas, iremos remover algumas colunas, permanecendo apenas com:
1. **discente**
2. **id_turma**
3. **id_curso**
4. **media_final**
5. **numero_total_faltas**
6. **descricao**

Também será mantido apenas um registro por aluno. Além disso, como estamos fazendo um estudo sobre o rendimento acadêmico dos alunos do curso de direito, serão removidos da análise todos os alunos cuja descrição é:

- DESISTENCIA
- INDEFERIDO
- CANCELADO
- EXCLUIDA
- DISPENSADO
- TRANSFERIDO
- MATRICULADO
- CUMPRIU (apenas 1 discente no dataframe inteiro possuia esse registro, e não tinha nota nem faltas registradas)



In [None]:
descricoes_a_remover = ['DESISTENCIA', 'INDEFERIDO', 'CANCELADO', 'EXCLUIDA', 'DISPENSADO', 'TRANSFERIDO', 'MATRICULADO', 'CUMPRIU']
#descricoes_a_remover = ['DESISTENCIA', 'INDEFERIDO'] Para investigar as disciplinas de TCC
colunas_selecionadas = ['discente', 'id_turma', 'id_curso' , 'media_final', 'numero_total_faltas', 'descricao']
matriculas_limpo = {} #dataframe limpo de matrículas

for ano in range(2011, 2025):
  if ano == 2020:
    semestres = [5, 6, 2]
  else:
    semestres = [1, 2]

  for semestre in semestres:
    df = matriculas[f'{ano}.{semestre}'] #dataframe auxiliar das matriculas de um ano e um periodo
    df = df[~df['descricao'].isin(descricoes_a_remover)] #remove as descricoes indesejadas
    df = df[colunas_selecionadas].drop_duplicates(keep='first') #retira os registros duplicados
    matriculas_limpo[f'{ano}.{semestre}'] = df


### Verificando novo dataframe de matriculas limpo

In [None]:
matriculas_limpo['2011.1'].head(10)

Unnamed: 0,discente,id_turma,id_curso,media_final,numero_total_faltas,descricao
0,3a0080dec28824bdce69b3dfd904c704,1168346,2000033.0,74,10.0,APROVADO
3,d8562ea7728e0d0d287910e1d8b60f77,1164270,2000005.0,93,2.0,APROVADO
6,2a9130efa31f5a0f68302868d3831fbe,1164270,2000005.0,91,2.0,APROVADO
9,e60da104f03c3ccec0cb7d6bc2f473f7,1164270,2000005.0,91,2.0,APROVADO
12,261a3f955ebe44f2a00554e0d56da282,1164270,2000005.0,95,4.0,APROVADO
15,9062451723b4b970d27bc3451724b1e6,1164270,2000005.0,88,4.0,APROVADO
18,c65ac748974c752d9528cdb10b0eeea3,1164270,2000005.0,95,0.0,APROVADO
21,d6b7ad0176f0e7d39e302fdae6a42814,1164270,2000005.0,96,3.0,APROVADO
24,30593ace5b1b8cf2c5a45ed6ce96067b,1164270,2000005.0,97,2.0,APROVADO
27,f912c69af82194aef20404b5f3644899,1164270,2000005.0,86,0.0,APROVADO


## 2. Dataframe de turmas
Para este dataframe, iremos manter apenas as colunas:
1. **id_turma**
2. **id_componente_curricular**

In [None]:
turmas_limpo = {}
colunas_selecionadas = ['id_turma', 'id_componente_curricular']

for ano in range(2011,2025):
  if ano == 2020:
    semestres = [5, 6, 2]
  else:
    semestres = [1, 2]

  for semestre in semestres:
    df = turmas[f'{ano}.{semestre}'][colunas_selecionadas] #dataframe contendo apenas as colunas selecionadas
    turmas_limpo[f'{ano}.{semestre}'] = df

## Verificando o novo dataframe de turmas limpo

In [None]:
turmas_limpo['2011.1'].head(5)

Unnamed: 0,id_turma,id_componente_curricular
0,1151165,2055813
1,1151175,2055650
2,1151176,2055632
3,1151819,41389
4,1151819,41389


## 3. Dataframe de componentes curriculares
Para este dataframe, iremos utilizar os campos:
1. **id_componente**
2. **codigo**
3. **nome**

In [None]:
colunas_selecionadas = ['id_componente', 'codigo', 'nome']
componentes_curriculares_limpo = componentes_curriculares[colunas_selecionadas]

## Total de valores nulos em cada dataframe

In [None]:
total_valores_nulos_matriculas = {}

for semestre, df in matriculas_limpo.items():
  valores_nulos = df.isnull().sum()
  for coluna, contador in valores_nulos.items():
    if coluna in total_valores_nulos_matriculas:
      total_valores_nulos_matriculas[coluna] += contador
    else:
      total_valores_nulos_matriculas[coluna] = contador

print("Total de valores nulos nos dataframes de matrículas:")
for coluna, total_valor_nulo in total_valores_nulos_matriculas.items():
  print(f"{coluna}: {total_valor_nulo}")

Total de valores nulos nos dataframes de matrículas:
discente: 0
id_turma: 0
id_curso: 29197
media_final: 239796
numero_total_faltas: 132611
descricao: 0


In [None]:
total_valores_nulos_turmas = {}

for semestre, df in turmas_limpo.items():
  valores_nulos = df.isnull().sum()
  for coluna, contador in valores_nulos.items():
    if coluna in total_valores_nulos_turmas:
      total_valores_nulos_turmas[coluna] += contador
    else:
      total_valores_nulos_turmas[coluna] = contador

print("Total de valores nulos nos dataframes de matrículas:")
for coluna, total_valor_nulo in total_valores_nulos_turmas.items():
  print(f"{coluna}: {total_valor_nulo}")

Total de valores nulos nos dataframes de matrículas:
id_turma: 0
id_componente_curricular: 0


In [None]:
total_valores_nulos_componentes_curriculares = componentes_curriculares_limpo.isnull().sum()

print("Total de valores nulos no dataframe de componentes curriculares:")
for coluna, total_valor_nulo in total_valores_nulos_componentes_curriculares.items():
  print(f"{coluna}: {total_valor_nulo}")

Total de valores nulos no dataframe de componentes curriculares:
id_componente: 0
codigo: 0
nome: 2


# Unindo dataframes

Sem título-2025-08-31-1452.svg

Com os dataframes limpos em mãos, podemos fazer um relacionamento entre dataframes a fim de obtermos um dataframe com mais informações.

## 1. Relacionando os dataframes de matriculas_limpo com o de turmas_limpo

O dataframe `matriculas_limpo` possui apenas o id da turma, mas não se sabe à qual disciplina essa turma corresponde. Então, pode-se relacionar o dataframe `matriculas_limpo` com `turmas_limpo`, usando como atributo chave: **id_turma**.

### Verificando o dataframe de componentes curriculares limpo

In [None]:
componentes_curriculares_limpo.head(5)

Unnamed: 0,id_componente,codigo,nome
0,18642,MUT721,LABORATÓRIOS ELETIVOS
1,18643,MUT508,COMPOSIÇÃO EM MÚSICA POPULAR III
2,18644,MUT516,CO-REPETIÇÃO
3,18645,MUT520,CONTRABAIXO ACÚSTICO I
4,18646,MUT165,PIANO COMPLEMENTAR I


In [None]:
matriculas_turmas = {} #dicionario que contém a junção do dataframe de matriculas com turmas

for ano in range(2011,2025):
  if ano == 2020:
    semestres = [5, 6, 2]
  else:
    semestres = [1, 2]

  for semestre in semestres:
    matriculas_df = matriculas_limpo[f'{ano}.{semestre}']
    turmas_df = turmas_limpo[f'{ano}.{semestre}']
    #O novo dataframe será construindo realizando uma INTERSEÇÃO de todas os registros nos dataframes
    #matriculas_limpo e turmas_limpo que possuem o mesmo id_turma
    matriculas_turmas[f'{ano}.{semestre}'] = pd.merge(matriculas_df, turmas_df, on='id_turma', how='inner')
    matriculas_turmas[f'{ano}.{semestre}']['semestre'] = f'{ano}.{semestre}'
    #remove os registros duplicados, mantendo apenas o primeiro registro
    matriculas_turmas[f'{ano}.{semestre}'] = matriculas_turmas[f'{ano}.{semestre}'].drop_duplicates(keep='first')

### Verificando o dataframe matriculas_turmas

In [None]:
matriculas_turmas['2024.1'].head(5)

Unnamed: 0,discente,id_turma,id_curso,media_final,numero_total_faltas,descricao,id_componente_curricular,semestre
0,8c069d6e5248b0925944cf38338939ad,57737627,2000005.0,70,0.0,APROVADO,20323,2024.1
1,9c2fa9486fdb683757957aa294e96d83,57737627,2000005.0,70,0.0,APROVADO,20323,2024.1
2,ccfbbb074ee1765f7df35867bbe7bb34,57740722,2000043.0,90,0.0,APROVADO,21554,2024.1
3,ccfbbb074ee1765f7df35867bbe7bb34,57740721,2000043.0,95,0.0,APROVADO,21583,2024.1
4,955886b1d82eb8010d47033af339e087,57734473,2000018.0,89,0.0,APROVADO,21913,2024.1


## 2. Relacionando o dataframe matriculas_turmas com o dataframe componentes_curriculares_limpo

O dataframe `matriculas_turmas` agora possui o id da componente curricular daquela turma específica. Então, analogamente ao que foi feito com os dataframes `matriculas_limpo` e `turmas_limpo`, será feito mesmo com os dataframes `matriculas_turmas` e `componentes_curriculares_limpo`, utilizando como atributo chave **id_componente_curricular**.

In [None]:
matriculas_turmas_componentes = {}
colunas_selecionadas = ['discente', 'id_curso', 'codigo', 'nome', 'media_final', 'numero_total_faltas', 'descricao', 'semestre']

for ano in range(2011,2025):
  if ano == 2020:
    semestres = [5, 6, 2]
  else:
    semestres = [1, 2]

  for semestre in semestres:
    matriculas_turmas_df = matriculas_turmas[f'{ano}.{semestre}']
    componentes_curriculares_df = componentes_curriculares_limpo
    #Junção dos dataframes matriculas_turmas com componentes_curriculares_limpo
    matriculas_turmas_componentes[f'{ano}.{semestre}'] = pd.merge(matriculas_turmas_df, componentes_curriculares_df, left_on='id_componente_curricular', right_on='id_componente', how='inner')
    matriculas_turmas_componentes[f'{ano}.{semestre}'] =  matriculas_turmas_componentes[f'{ano}.{semestre}'][colunas_selecionadas] #deixo apenas as colunas selecionadas
    matriculas_turmas_componentes[f'{ano}.{semestre}'].rename(columns={'codigo': 'codigo_componente', 'nome': 'nome_componente'}, inplace=True)

### Verificando o dataframe resultante

In [None]:
matriculas_turmas_componentes['2024.2'].head(5)

Unnamed: 0,discente,id_curso,codigo_componente,nome_componente,media_final,numero_total_faltas,descricao,semestre
0,5c4d3d361b503e2a763e73d4efce0ab8,2000005.0,ARQ0254,POLITICA URBANA E REGIONAL,93.0,0.0,APROVADO,2024.2
1,fb9dfe7e12a00ef2ad0f4537602c0124,2000005.0,ARQ0254,POLITICA URBANA E REGIONAL,93.0,8.0,APROVADO,2024.2
2,fcf9089dc3910980c02dee4c1dd958cc,2000005.0,ARQ0254,POLITICA URBANA E REGIONAL,,,TRANCADO,2024.2
3,b34f5ebfd21cff296c67ac9bf5aa10fa,2000005.0,ARQ0254,POLITICA URBANA E REGIONAL,96.0,9.0,APROVADO,2024.2
4,8c069d6e5248b0925944cf38338939ad,2000005.0,ARQ0254,POLITICA URBANA E REGIONAL,93.0,20.0,APROVADO,2024.2


## 3. Filtrando apenas as matrículas realizadas no curso de direito
Para filtrar apenas os discentes do curso de direito, basta buscar por todos os registros cujo **id_curso** é `2000018`.

In [None]:
matriculas_direito_dict = {}
colunas_selecionadas = ['discente', 'curso', 'codigo_componente', 'nome_componente', 'media_final', 'numero_total_faltas', 'descricao', 'semestre']

for ano in range(2011,2025):
  if ano == 2020:
    semestres = [5, 6, 2]
  else:
    semestres = [1, 2]

  for semestre in semestres:
    #Realizando a busca por alunos do curso de direito
    matriculas_direito_dict[f'{ano}.{semestre}'] = matriculas_turmas_componentes[f'{ano}.{semestre}'][matriculas_turmas_componentes[f'{ano}.{semestre}']['id_curso'] == 2000018]
    #Removendo a coluna id_curso
    matriculas_direito_dict[f'{ano}.{semestre}'] = matriculas_direito_dict[f'{ano}.{semestre}'].drop(columns=['id_curso'])
    #Inserindo a coluna curso
    matriculas_direito_dict[f'{ano}.{semestre}']['curso'] = 'DIREITO'
    #Reordenando as colunas
    matriculas_direito_dict[f'{ano}.{semestre}'] = matriculas_direito_dict[f'{ano}.{semestre}'][colunas_selecionadas]


### Verificando dataframe

In [None]:
matriculas_direito_dict['2024.1'].head(5)

Unnamed: 0,discente,curso,codigo_componente,nome_componente,media_final,numero_total_faltas,descricao,semestre
4,955886b1d82eb8010d47033af339e087,DIREITO,DPR0015,DIREITO INTERNACIONAL PRIVADO,89,0.0,APROVADO,2024.1
5,97428bde4db61d0e5278d4acaff818b7,DIREITO,DPR0015,DIREITO INTERNACIONAL PRIVADO,97,0.0,APROVADO,2024.1
6,47ea01e653b8021452a5ab8c89e8fe8f,DIREITO,DPR0015,DIREITO INTERNACIONAL PRIVADO,70,0.0,APROVADO,2024.1
7,3b9082b41310b7778b0a9352402d1e9d,DIREITO,DPR0015,DIREITO INTERNACIONAL PRIVADO,90,0.0,APROVADO,2024.1
8,fb1af002bdf8bf8e2ba7a8f1fa177ffd,DIREITO,DPR0015,DIREITO INTERNACIONAL PRIVADO,87,0.0,APROVADO,2024.1


# Unindo os 29 dataframes de matrículas do curso de direito em um único dataframe

In [None]:
matriculas_direito = pd.concat(matriculas_direito_dict.values(), ignore_index=True)

## (Fins de teste) Gerando um .csv contendo todas as disciplinas cursadas pelos discentes de direito

In [None]:
#disciplinas_direito = matriculas_direito[['codigo_componente', 'nome_componente']].drop_duplicates()
#disciplinas_direito.to_csv('/content/drive/MyDrive/UF/TCC/datasets/disciplinas_direito_2.csv', index=False)

## (Fins de teste) Verificando todas as matrículas do discente com id = 2e9d34f8434e7aa3643bec13967cf4c5

In [None]:
display(matriculas_direito[matriculas_direito['discente'] == '2e9d34f8434e7aa3643bec13967cf4c5'])

Unnamed: 0,discente,curso,codigo_componente,nome_componente,media_final,numero_total_faltas,descricao,semestre
155982,2e9d34f8434e7aa3643bec13967cf4c5,DIREITO,ISH0029,SOCIOLOGIA E ANTROPOLOGIA GERAL,100.0,8.0,APROVADO,2023.1
156279,2e9d34f8434e7aa3643bec13967cf4c5,DIREITO,FIL0001,FILOSOFIA I,100.0,4.0,APROVADO,2023.1
156507,2e9d34f8434e7aa3643bec13967cf4c5,DIREITO,DCS0005,CIENCIA POLITICA I,92.0,6.0,APROVADO,2023.1
156621,2e9d34f8434e7aa3643bec13967cf4c5,DIREITO,DDP0200,INTRODUÇÃO AO ESTUDO DO DIREITO,98.0,0.0,APROVADO,2023.1
156701,2e9d34f8434e7aa3643bec13967cf4c5,DIREITO,CIN0038,METODOLOGIA DA PESQUISA I,97.0,2.0,APROVADO,2023.1
157110,2e9d34f8434e7aa3643bec13967cf4c5,DIREITO,ECO0120,ECONOMIA POLITICA,92.0,0.0,APROVADO,2023.2
157214,2e9d34f8434e7aa3643bec13967cf4c5,DIREITO,PSI0986,PSICOLOGIA APLICADA AO DIREITO,97.0,4.0,APROVADO,2023.2
157717,2e9d34f8434e7aa3643bec13967cf4c5,DIREITO,DPR0200,DIREITO CIVIL I,83.0,2.0,APROVADO,2023.2
157830,2e9d34f8434e7aa3643bec13967cf4c5,DIREITO,DPU0204,DIREITO CONSTITUCIONAL I,90.0,0.0,APROVADO,2023.2
157961,2e9d34f8434e7aa3643bec13967cf4c5,DIREITO,DPU0206,DIREITO PENAL I,90.0,0.0,APROVADO,2023.2


## (Fins de teste) Verificando discentes que trancaram

In [None]:
display(matriculas_direito[matriculas_direito['descricao'] == 'TRANCADO'].head(5))

Unnamed: 0,discente,curso,codigo_componente,nome_componente,media_final,numero_total_faltas,descricao,semestre
0,d58cbdeb42c5dd4fe97656872856d46a,DIREITO,DPR0111,DIREITO INDIVIDUAL DO TRABALHO,,,TRANCADO,2011.1
34,f8e646b6cf2f8c75dbee7f6efd40fa42,DIREITO,DPR0114,DIREITO COLETIVO DO TRABALHO,,0.0,TRANCADO,2011.1
95,ae803a641f697f1e997863bf998736ff,DIREITO,DPU0125,DIREITO INTERNACIONAL PUBLICO,,0.0,TRANCADO,2011.1
114,76f755218c9ea3e20e3b2b3504f1cf81,DIREITO,DPU0125,DIREITO INTERNACIONAL PUBLICO,,0.0,TRANCADO,2011.1
118,bf97f48e1bae9e03141464ceec38f021,DIREITO,DPU0125,DIREITO INTERNACIONAL PUBLICO,,,TRANCADO,2011.1


## (Fins de teste) Verificando possíveis descrições de um discente

In [None]:
matriculas_direito['descricao'].unique()

array(['TRANCADO', 'APROVADO', 'REPROVADO POR MÉDIA E POR FALTAS',
       'REPROVADO', 'REPROVADO POR FALTAS', 'APROVADO POR NOTA',
       'REPROVADO POR NOTA', 'REPROVADO POR NOTA E FALTA'], dtype=object)

##

## Substituindo , por . no dataframe de matriculas e fazendo conversão de tipos

In [None]:
matriculas_direito['media_final'] = matriculas_direito['media_final'].str.replace(',', '.')
matriculas_direito['media_final'] = matriculas_direito['media_final'].astype(float)

## Adaptando nomes de algumas disciplinas obrigatórias

Algumas disciplinas obrigatórias aparecem no dataset com nomes ligeiramente diferentes, por exemplo HIST**O**RIA DO DIREITO e HIST**Ó**RIA DO DIREITO. Então, as disciplinas serão tratadas de modo que não exista nenhum caractere especial no nome delas.

In [None]:
import unicodedata

#ç vira c, Á vira A, ã vira a e assim por diante
def remover_acentos(texto):
    if isinstance(texto, str):
        nfkd = unicodedata.normalize('NFKD', texto)
        palavra_sem_acentos = "".join([c for c in nfkd if not unicodedata.combining(c)])
        return palavra_sem_acentos
    else:
        return texto

matriculas_direito['nome_componente'] = matriculas_direito['nome_componente'].apply(remover_acentos)

# Criando um novo arquivo .csv contendo as matrículas do curso de direito

### Verificando presença de valores nulos no dataframe de matriculas do curso de direito

In [None]:
total_valores_nulos_matriculas_direito = matriculas_direito.isnull().sum()

print("Total de valores nulos no dataframe de matrículas do curso de direito:")
for coluna, total_valor_nulo in total_valores_nulos_matriculas_direito.items():
  print(f"{coluna}: {total_valor_nulo}")

Total de valores nulos no dataframe de matrículas do curso de direito:
discente: 0
curso: 0
codigo_componente: 0
nome_componente: 0
media_final: 3322
numero_total_faltas: 2693
descricao: 0
semestre: 0


In [None]:
matriculas_direito.to_csv('/content/drive/MyDrive/UF/TCC/datasets/matriculas_direito.csv', index=False, sep=';')