# Tratamento nos dados
Notebook destinado a realizar a preparação dos dados para a otimização

In [1]:
import os
import pandas as pd
import numpy as np

os.chdir('..')
os.chdir('utils')
from funcoes import remover_acentos_e_caracteres

## Lendo o arquivo original

In [2]:
os.chdir('..')
os.chdir('dados')

# Ler o arquivo CSV (substitua 'arquivo.csv' pelo nome do arquivo)
df = pd.read_csv('grade_compilada_2.csv', sep = ';',)
df.rename(columns={'Período do Dia':'Periodo_dia', 'Parte do Horário':'Horario',
           'Tipo de Curso':'Periodo_Aula', 'Tipo de Turma':'Tipo_Curso',
            'prof':'Professor', 'Observação':'Observacao','Turma':'Curso','Aula':'Materia'}, inplace=True)

# Exclui dados nulos
df.dropna(subset=['Curso'], inplace=True)

#Remove TCCs, que não precisa de sala
df = df[(df['Observacao']!='TCC') & (df['Observacao']!='1H')]

# Retirando as meterias sem professor que são diferentes de optativas
# Provavelmente não estão no currículo novo
df = df[df['Observacao']!='OPTATIVA']
df = df[~(df['Professor'].isnull())]

#Remove materias em ead
df = df.loc[~df['Observacao'].str.contains('EAD', case=False, na=False)]

# Ajusta a coluna campus para conter somente PONTAL E MIRASSOL
df['Campus'] = df['Campus'].replace('PONTAL LABORATÓRIO ', 'PONTAL')

# Ajusta o campus das LCEs, todos os cursos são em mirassol
df.loc[df['Curso'].str.contains('LCE', case=False, na=False), 'Campus'] = 'MIRASOL'

df['Materia'] = df['Materia'].str.replace(' ', '_')

df.tail()


Unnamed: 0,Campus,Curso,Periodo_dia,Horario,Semestre,Dia,Periodo_Aula,Tipo_Curso,Materia,Professor,Observacao
611,PONTAL,OCEANO,TARDE,4,9,TERÇA,VESPERTINO,INTEGRAL,GASES_DISOLVIDOS_E_ACIDIFICAÇÃO,TATIANE,
612,PONTAL,OCEANO,TARDE,1,9,QUARTA,VESPERTINO,INTEGRAL,INTRODUCAO_A_MODELAGEM_DE_PROCESSOS,DOURADO,
613,PONTAL,OCEANO,TARDE,2,9,QUARTA,VESPERTINO,INTEGRAL,INTRODUCAO_A_MODELAGEM_DE_PROCESSOS,DOURADO,
616,PONTAL,OCEANO,TARDE,1,9,QUINTA,VESPERTINO,INTEGRAL,INTRODUCAO_A_MODELAGEM_DE_PROCESSOS,DOURADO,
617,PONTAL,OCEANO,TARDE,2,9,QUINTA,VESPERTINO,INTEGRAL,INTRODUCAO_A_MODELAGEM_DE_PROCESSOS,DOURADO,


In [3]:
df['Observacao'].unique()

array([nan, 'MIRASOL/PONTAL', 'SALA 4- SALA QUE TEM COMPUTADORES',
       'SALA 4', 'PONTAL/MIRASOL', 'COMUM ENTRE LCE'], dtype=object)

In [4]:
df['Campus'].unique()

array(['MIRASOL', 'PONTAL'], dtype=object)

In [5]:
df[df['Curso'].isin(['LCE', 'LCEFISICA', 'LCEMATEMATICA', 'LCEQUIMICA'])]['Campus'].unique()

array(['MIRASOL'], dtype=object)

In [6]:
df.isna().sum()

Campus            0
Curso             0
Periodo_dia       0
Horario           0
Semestre          0
Dia               0
Periodo_Aula      0
Tipo_Curso        0
Materia           0
Professor         0
Observacao      509
dtype: int64

In [7]:
df[df['Professor'].isnull()]

Unnamed: 0,Campus,Curso,Periodo_dia,Horario,Semestre,Dia,Periodo_Aula,Tipo_Curso,Materia,Professor,Observacao


## Remove acentos e caracteres especiais

In [8]:
colunas_para_tratar = ['Campus', 'Curso', 'Periodo_dia', 'Dia',
       'Periodo_Aula', 'Tipo_Curso', 'Materia', 'Professor', 'Observacao']
df[colunas_para_tratar] = df[colunas_para_tratar].applymap(remover_acentos_e_caracteres)


In [9]:
df.head()

Unnamed: 0,Campus,Curso,Periodo_dia,Horario,Semestre,Dia,Periodo_Aula,Tipo_Curso,Materia,Professor,Observacao
0,MIRASOL,EAQ,MANHA,1,1,SEGUNDA,MATUTINO,MATUTINO,INTRODUCAOAAQUICULTURA,LAGREZE,
1,MIRASOL,EAQ,MANHA,2,1,SEGUNDA,MATUTINO,MATUTINO,INTRODUCAOAAQUICULTURA,LAGREZE,
2,MIRASOL,EAQ,MANHA,3,1,SEGUNDA,MATUTINO,MATUTINO,PROBABILIDADE,CENDON,
3,MIRASOL,EAQ,MANHA,4,1,SEGUNDA,MATUTINO,MATUTINO,PROBABILIDADE,CENDON,
4,MIRASOL,EAQ,MANHA,1,1,TERCA,MATUTINO,MATUTINO,INTRODUCAOAQUALIDADE,SACHSIDA,


## Cria coluna curso+Semestre
Essa coluna é criada porque temos materias diferentes entre os cursos de LCE para os diferentes periodos

In [10]:
df['Semestre_Curso'] = df['Semestre'].astype(int).astype(str) + '_' + df['Curso']
df.head()

Unnamed: 0,Campus,Curso,Periodo_dia,Horario,Semestre,Dia,Periodo_Aula,Tipo_Curso,Materia,Professor,Observacao,Semestre_Curso
0,MIRASOL,EAQ,MANHA,1,1,SEGUNDA,MATUTINO,MATUTINO,INTRODUCAOAAQUICULTURA,LAGREZE,,1_EAQ
1,MIRASOL,EAQ,MANHA,2,1,SEGUNDA,MATUTINO,MATUTINO,INTRODUCAOAAQUICULTURA,LAGREZE,,1_EAQ
2,MIRASOL,EAQ,MANHA,3,1,SEGUNDA,MATUTINO,MATUTINO,PROBABILIDADE,CENDON,,1_EAQ
3,MIRASOL,EAQ,MANHA,4,1,SEGUNDA,MATUTINO,MATUTINO,PROBABILIDADE,CENDON,,1_EAQ
4,MIRASOL,EAQ,MANHA,1,1,TERCA,MATUTINO,MATUTINO,INTRODUCAOAQUALIDADE,SACHSIDA,,1_EAQ


## Quantidade de Hora Aula por materia

In [11]:
hora_aula_materia = df.groupby(['Professor','Materia','Semestre_Curso','Curso'])['Campus'].count().reset_index()
hora_aula_materia.rename(columns={'Campus':'Total_Horas'}, inplace=True)
hora_aula_materia['Periodos_Total'] = np.ceil(hora_aula_materia['Total_Horas']/2)

hora_aula_materia.head()

Unnamed: 0,Professor,Materia,Semestre_Curso,Curso,Total_Horas,Periodos_Total
0,ALEX,CALCULODIFERENCIALEINTEGRALI,1_EAS,EAS,4,2.0
1,ALEX,CALCULOI,1_ECV,ECV,4,2.0
2,ALEX,GEOMETRIAECONSTRUCOESCEM319,5_LCEMATEMATICA,LCEMATEMATICA,4,2.0
3,ARMANI,INTRODUCAOAENGENHARIAAMBIENTAL,1_EAS,EAS,4,2.0
4,ARMANI,POLUICAODOAR,7_EAS,EAS,3,2.0


In [12]:
len(hora_aula_materia)

193

- Existem materias que temos mais de um professor ofertando
- Fiz o round na quantidade de periodos, pensar se isso não vai interferir, ou se é melhor trabalhar com a quantidade de horas ao invés dos periodos


## Professores e as matérias que ofertam

In [13]:
professores_materias = df[['Professor','Campus','Curso','Tipo_Curso','Materia']].drop_duplicates().reset_index(drop=True)

#remove materias que não tem professor
professores_materias.dropna(subset=['Professor'], inplace=True)
professores_materias.head()

Unnamed: 0,Professor,Campus,Curso,Tipo_Curso,Materia
0,LAGREZE,MIRASOL,EAQ,MATUTINO,INTRODUCAOAAQUICULTURA
1,CENDON,MIRASOL,EAQ,MATUTINO,PROBABILIDADE
2,SACHSIDA,MIRASOL,EAQ,MATUTINO,INTRODUCAOAQUALIDADE
3,LUCIANA,MIRASOL,EAQ,MATUTINO,GEOMETRIAANALITICA
4,DANIELA,MIRASOL,EAQ,MATUTINO,PROJETOSENGI


In [14]:
professores_materias[professores_materias['Professor'].isnull()]

Unnamed: 0,Professor,Campus,Curso,Tipo_Curso,Materia


In [15]:
len(professores_materias)

203

## Materias Comuns as licenciaturas

In [16]:
df['Observacao'].value_counts()

COMUM ENTRE LCE                     24
MIRASOLPONTAL                        9
SALA 4                               7
PONTALMIRASOL                        4
SALA 4 SALA QUE TEM COMPUTADORES     1
Name: Observacao, dtype: int64

In [17]:
materias_comuns = df[df['Observacao']=='COMUM ENTRE LCE'][['Professor','Campus','Materia','Semestre_Curso']]\
    .drop_duplicates().reset_index(drop=True)

materias_comuns

Unnamed: 0,Professor,Campus,Materia,Semestre_Curso
0,VALDIR,MIRASOL,PRATICAPEDAGOGICADOENSINOCEM335,5_LCEFISICA
1,JEINNI,MIRASOL,DIDATICADASCIENCIASCEM334,5_LCEFISICA
2,JEINNI,MIRASOL,ESTAGIOCIENCIASICEM336,5_LCEFISICA
3,ELIANE,MIRASOL,DIVULGACAOCIENTIFICACEM326,5_LCEFISICA
4,VALDIR,MIRASOL,PRATICAPEDAGOGICADOENSINOCEM335,5_LCEMATEMATICA
5,JEINNI,MIRASOL,DIDATICADASCIENCIASCEM334,5_LCEMATEMATICA
6,JEINNI,MIRASOL,ESTAGIOCIENCIASICEM336,5_LCEMATEMATICA
7,ELIANE,MIRASOL,DIVULGACAOCIENTIFICACEM326,5_LCEMATEMATICA
8,VALDIR,MIRASOL,PRATICAPEDAGOGICADOENSINOCEM335,5_LCEQUIMICA
9,JEINNI,MIRASOL,DIDATICADASCIENCIASCEM334,5_LCEQUIMICA


## Salvando os dataframes

In [18]:
hora_aula_materia.to_csv('hora_aula_materia.csv', index=False)
professores_materias.to_csv('professores_materias.csv', index=False)
materias_comuns.to_csv('materias_comuns.csv', index=False)
df.to_csv('grade_compilada_tratado.csv', index=False)