In [None]:
import sqlalchemy
import pandas as pd

# 1. Extract

In [None]:
db_connection = sqlalchemy.create_engine(
    'postgresql+pg8000://postgres:123456@localhost:5433/academicodb',
    client_encoding='utf8',
)

In [None]:
departamento_df = pd.read_sql('SELECT * FROM operational.departamento', db_connection)
departamento_df

Unnamed: 0,codigo_departamento,nome_departamento


In [None]:
professor_df = pd.read_sql('SELECT * FROM operational.professor', db_connection)
professor_df

Unnamed: 0,matricula_professor,nome_professor,titulacao_professor,endereco_professor,codigo_departamento


In [None]:
curso_df = pd.read_sql('SELECT * FROM operational.curso', db_connection)
curso_df

Unnamed: 0,codigo_curso,descricao_curso,creditos_curso,duracao_curso,codigo_departamento


In [None]:
aluno_df = pd.read_sql('SELECT * FROM operational.aluno', db_connection)
aluno_df

Unnamed: 0,matricula_aluno,nome_aluno,estado_civil_aluno,sexo_aluno,ano_ingresso_aluno,codigo_curso


In [None]:
disciplina_df = pd.read_sql('SELECT * FROM operational.disciplina', db_connection)
disciplina_df

Unnamed: 0,codigo_disciplina,nome_disciplina,creditos_disciplina,natureza_disciplina,codigo_curso


In [None]:
turma_df = pd.read_sql('SELECT * FROM operational.turma', db_connection)
turma_df

Unnamed: 0,ano,periodo,sala,matricula_aluno,matricula_professor,codigo_disciplina


# 2. Transform

In [None]:
dm_aluno_df = aluno_df.drop(columns=['estado_civil_aluno', 'sexo_aluno', 'ano_ingresso_aluno', 'codigo_curso'])
dm_aluno_df['id_aluno'] = 'matricula_aluno'
dm_aluno_df

Unnamed: 0,matricula_aluno,nome_aluno,id_aluno


In [None]:
dm_departamento_df = departamento_df.copy()
dm_departamento_df['id_departamento'] = 'codigo_departamento'
dm_departamento_df

Unnamed: 0,codigo_departamento,nome_departamento,id_departamento


In [None]:
dm_disciplina_df = disciplina_df.drop(columns=['codigo_curso'])
dm_disciplina_df['id_disciplina'] = 'codigo_disciplina'
dm_disciplina_df

Unnamed: 0,codigo_disciplina,nome_disciplina,creditos_disciplina,natureza_disciplina,id_disciplina


In [None]:
dm_tempo_df = pd.DataFrame()

dm_tempo_df['ano'] = turma_df['ano']
dm_tempo_df['semestre'] = turma_df['periodo']

dm_tempo_df['periodo'] = (
    dm_tempo_df['ano'].astype(str) + '/' + dm_tempo_df['semestre'].astype(str)
)

dm_tempo_df['id_tempo'] = (
    dm_tempo_df['ano'].astype(str) + dm_tempo_df['semestre'].astype(str)
).astype(int)

dm_tempo_df.drop_duplicates(inplace=True)
dm_tempo_df


Unnamed: 0,ano,semestre,periodo,id_tempo


In [None]:
ft_professor_df = pd.merge(
    left=turma_df, right=professor_df, how='left', on='matricula_professor'
)
ft_professor_df.rename(columns={'matricula_aluno': 'id_aluno', 'codigo_departamento': 'id_departamento', 'codigo_disciplina': 'id_disciplina'}, inplace=True)
ft_professor_df['id_tempo'] = (
    ft_professor_df['ano'].astype(str) + ft_professor_df['periodo'].astype(str)
).astype(int)
ft_professor_df.drop(columns=['ano', 'periodo', 'sala', 'matricula_professor', 'nome_professor', 'titulacao_professor', 'endereco_professor'], inplace=True)
ft_professor_df

Unnamed: 0,id_aluno,id_disciplina,id_departamento,id_tempo


In [None]:
aux_df = pd.DataFrame();
aux_df['id_tempo'] = ft_professor_df['id_tempo']
aux_df['id_aluno'] = ft_professor_df['id_aluno']
aux_df = aux_df.groupby(['id_tempo'])['id_aluno'].agg('sum')
aux_df

Series([], Name: id_aluno, dtype: object)

In [None]:
def get_produtividade(periodos):
    lista = []
    for periodo in periodos:
        total_alunos = aux_df[periodo]
        lista.append(total_alunos)
    return lista

ft_professor_df['produtividade'] = get_produtividade(
    ft_professor_df['id_tempo']
)

ft_professor_df

Unnamed: 0,id_aluno,id_disciplina,id_departamento,id_tempo,produtividade


# 3. Load

In [None]:
# Função para calculo do chunksize
def get_chunksize(table_columns):
    cs = 2097 // len(table_columns)
    cs = (1000 if cs > 1000 else cs)
    return cs

In [None]:
dm_aluno_df.to_sql(
    name='dm_aluno',
    schema='dimensional',
    con=db_connection,
    index=False,
    if_exists='append',
    chunksize=get_chunksize(dm_aluno_df.columns),
)

0

In [None]:
dm_disciplina_df.to_sql(
    name='dm_disciplina',
    schema='dimensional',
    con=db_connection,
    index=False,
    if_exists='append',
    chunksize=get_chunksize(dm_disciplina_df.columns),
)

0

In [None]:
dm_departamento_df.to_sql(
    name='dm_departamento',
    schema='dimensional',
    con=db_connection,
    index=False,
    if_exists='append',
    chunksize=get_chunksize(dm_departamento_df.columns),
)

0

In [None]:
dm_tempo_df.to_sql(
    name='dm_tempo',
    schema='dimensional',
    con=db_connection,
    index=False,
    if_exists='append',
    chunksize=get_chunksize(dm_tempo_df.columns),
)

0

In [None]:
ft_professor_df.to_sql(
    name='ft_professor',
    schema='dimensional',
    con=db_connection,
    index=False,
    if_exists='append',
    chunksize=get_chunksize(ft_professor_df.columns),
)

0