In [1]:
# Imports
import sqlalchemy
import pandas as pd
import numpy as np


# 1. Extract

In [2]:
# Criação da engine do sql alchemy para o banco operacional.
db_connection_in = sqlalchemy.create_engine(
    'postgresql+pg8000://postgres:123456@localhost:5433/operacional',
    client_encoding='utf8',
)


In [3]:
departamentos = pd.read_sql('SELECT * FROM departamentos', db_connection_in)
departamentos.head()

Unnamed: 0,cod_dpto,nome_dpto
0,1,DEP1
1,2,DEP2
2,3,DEP3
3,4,DEP4
4,5,DEP5


In [4]:
cursos = pd.read_sql('SELECT * FROM cursos', db_connection_in)
cursos.head()

Unnamed: 0,cod_curso,nom_curso,cod_dpto
0,26,Ciencia da Computacao - Tarde/Noite,2
1,52,Sistemas de Informacao - Noite,2
2,44,Enfermagem - Tarde/Noite,2
3,4,Direito Noturno,2
4,35,Odontologia - Integral,1


In [5]:
disciplinas = pd.read_sql('SELECT * FROM disciplinas', db_connection_in)
disciplinas.head()

Unnamed: 0,cod_disc,nome_disc,carga_horaria
0,6085,AVALIACAO DA FORMACAO,4.0
1,6086,PERFURACAO,4.0
2,6087,QUIMICA DO PETROLEO,4.0
3,6088,RESERVATORIO,4.0
4,6089,COMPLETACAO,4.0


In [6]:
matrizes_cursos = pd.read_sql('SELECT * FROM matrizes_cursos', db_connection_in)
matrizes_cursos.head()

Unnamed: 0,cod_curso,cod_disc,periodo
0,26,1725,2
1,26,1729,3
2,26,1731,4
3,26,1090,5
4,52,1738,4


In [7]:
matriculas = pd.read_sql('SELECT * FROM matriculas', db_connection_in)
matriculas.head()

Unnamed: 0,semestre,mat_alu,cod_disc,nota,faltas,status
0,20113,80316,276,5.0,7,A
1,20113,80326,302,2.0,18,A
2,20113,80352,273,1.0,10,A
3,20113,80364,3789,4.0,15,A
4,20113,80376,301,5.0,1,A


In [8]:
alunos = pd.read_sql('SELECT * FROM alunos', db_connection_in)
alunos.head()

Unnamed: 0,mat_alu,nome,dat_entrada,cod_curso,cotista
0,104882,OLGA ARAUJO LIMA VASCONCELOS - TESTE,1990-11-07,13,F
1,108286,FERNANDO MIDIANE SOUZA - TESTE,1948-09-20,4,F
2,108288,GILZA COSTA NUNES,1968-04-08,4,F
3,107630,LAZARO CUNHA OLIVEIRA - TESTE,1991-06-05,35,F
4,137212,MARIANA ABILIO LEITE SOBRINHO - TESTE,1990-11-27,4,F


# Transform

## dm_departamentos

In [9]:
dm_departamentos = pd.DataFrame()
dm_departamentos['id_dpto'] = departamentos.cod_dpto
dm_departamentos['nome_dpto'] = departamentos.nome_dpto
dm_departamentos.head()

Unnamed: 0,id_dpto,nome_dpto
0,1,DEP1
1,2,DEP2
2,3,DEP3
3,4,DEP4
4,5,DEP5


## dm_cursos

In [10]:
dm_cursos = pd.DataFrame()
dm_cursos['id_curso'] = cursos.cod_curso
dm_cursos['nome_curso'] = cursos.nom_curso
dm_cursos.head()

Unnamed: 0,id_curso,nome_curso
0,26,Ciencia da Computacao - Tarde/Noite
1,52,Sistemas de Informacao - Noite
2,44,Enfermagem - Tarde/Noite
3,4,Direito Noturno
4,35,Odontologia - Integral


## dm_disciplinas

In [11]:
dm_disciplinas = pd.DataFrame()
dm_disciplinas['id_disc'] = disciplinas.cod_disc
dm_disciplinas['nome_disc'] = disciplinas.nome_disc
dm_disciplinas['carga_horaria'] = disciplinas.carga_horaria
dm_disciplinas.head()

Unnamed: 0,id_disc,nome_disc,carga_horaria
0,6085,AVALIACAO DA FORMACAO,4.0
1,6086,PERFURACAO,4.0
2,6087,QUIMICA DO PETROLEO,4.0
3,6088,RESERVATORIO,4.0
4,6089,COMPLETACAO,4.0


## dm_tempo

In [12]:
dm_tempo = pd.DataFrame(
    {
        'id_tempo': [
            semestre for semestre in matriculas.semestre.unique()
        ],
        'ano': [
            int(str(semestre)[:4]) for semestre in matriculas.semestre.unique()
        ],
        'semestre': [
            int(str(semestre)[4:]) for semestre in matriculas.semestre.unique()
        ],
        'semestre_str': [
            f"{str(semestre)[:4]}.{str(semestre)[4:]}" for semestre in matriculas.semestre.unique()
        ],
    }
)
dm_tempo.head()


Unnamed: 0,id_tempo,ano,semestre,semestre_str
0,20113,2011,3,2011.3


## ft_reprovacao_cotas

In [13]:
matriculas.head()

Unnamed: 0,semestre,mat_alu,cod_disc,nota,faltas,status
0,20113,80316,276,5.0,7,A
1,20113,80326,302,2.0,18,A
2,20113,80352,273,1.0,10,A
3,20113,80364,3789,4.0,15,A
4,20113,80376,301,5.0,1,A


In [14]:
df = pd.merge(left=matriculas, right=alunos, how='left', on='mat_alu')
df['id'] = df.semestre.astype(str) + df.cod_disc.astype(str)
df.head()

Unnamed: 0,semestre,mat_alu,cod_disc,nota,faltas,status,nome,dat_entrada,cod_curso,cotista,id
0,20113,80316,276,5.0,7,A,DANIEL GARDENIA SANTOS - TESTE,1987-06-09,13,F,20113276
1,20113,80326,302,2.0,18,A,KATLYN CASTRO MELO SOUZA - TESTE,1988-02-08,13,F,20113302
2,20113,80352,273,1.0,10,A,MARCOS ARAUJO GUIMARAES - TESTE,1973-09-26,13,F,20113273
3,20113,80364,3789,4.0,15,A,ANTONIO CESAR RONEY - TESTE,1969-09-12,4,F,201133789
4,20113,80376,301,5.0,1,A,CLESIANE CRISTINA SANTANA - TESTE,1985-06-21,4,F,20113301


In [15]:
df_cotistas = df[~df['cotista'].isin(["F"])]
df_cotistas.head()

Unnamed: 0,semestre,mat_alu,cod_disc,nota,faltas,status,nome,dat_entrada,cod_curso,cotista,id


In [16]:
df_reprovados = df[~df['status'].isin(["A"])]
df_reprovados.head()

Unnamed: 0,semestre,mat_alu,cod_disc,nota,faltas,status,nome,dat_entrada,cod_curso,cotista,id


In [17]:
df_cotistas_reprovados = df_cotistas[~df_cotistas['status'].isin(["A"])]
df_cotistas_reprovados.head()

Unnamed: 0,semestre,mat_alu,cod_disc,nota,faltas,status,nome,dat_entrada,cod_curso,cotista,id


In [18]:
df = df.groupby(['id']).count()[['mat_alu']]
df = df.reset_index()
df.rename(columns={'mat_alu': 'total_matriculas'}, inplace=True)
df.head()

Unnamed: 0,id,total_matriculas
0,201131008,22
1,201131043,1
2,201131090,12
3,201131095,19
4,201131106,15


In [19]:
df_cotistas = df_cotistas.groupby(['id']).count()[['mat_alu']]
df_cotistas = df_cotistas.reset_index()
df_cotistas.rename(columns={'mat_alu': 'total_matriculas_cotas'}, inplace=True)
df_cotistas.head()

Unnamed: 0,id,total_matriculas_cotas


In [20]:
df_reprovados = df_reprovados.groupby(['id']).count()[['mat_alu']]
df_reprovados = df_reprovados.reset_index()
df_reprovados.rename(columns={'mat_alu': 'total_reprovações'}, inplace=True)
df_reprovados.head()

Unnamed: 0,id,total_reprovações


In [21]:
df_cotistas_reprovados = df_cotistas_reprovados.groupby(['id']).count()[['mat_alu']]
df_cotistas_reprovados = df_cotistas_reprovados.reset_index()
df_cotistas_reprovados.rename(columns={'mat_alu': 'total_reprovacoes_cotas'}, inplace=True)
df_cotistas_reprovados.head()

Unnamed: 0,id,total_reprovacoes_cotas


In [22]:
ft_reprovacao_cotas = pd.merge(left=df, right=df_cotistas, how='left', on='id')
ft_reprovacao_cotas.head()

Unnamed: 0,id,total_matriculas,total_matriculas_cotas
0,201131008,22,
1,201131043,1,
2,201131090,12,
3,201131095,19,
4,201131106,15,


In [23]:
ft_reprovacao_cotas = pd.merge(left=ft_reprovacao_cotas, right=df_reprovados, how='left', on='id')
ft_reprovacao_cotas.head()

Unnamed: 0,id,total_matriculas,total_matriculas_cotas,total_reprovações
0,201131008,22,,
1,201131043,1,,
2,201131090,12,,
3,201131095,19,,
4,201131106,15,,


In [24]:
ft_reprovacao_cotas = pd.merge(left=ft_reprovacao_cotas, right=df_cotistas_reprovados, how='left', on='id')
ft_reprovacao_cotas.head()

Unnamed: 0,id,total_matriculas,total_matriculas_cotas,total_reprovações,total_reprovacoes_cotas
0,201131008,22,,,
1,201131043,1,,,
2,201131090,12,,,
3,201131095,19,,,
4,201131106,15,,,


In [25]:
ft_reprovacao_cotas['total_matriculas_cotas'] = ft_reprovacao_cotas['total_matriculas_cotas'].fillna(0).astype('Int64')
ft_reprovacao_cotas['total_reprovações'] = ft_reprovacao_cotas['total_reprovações'].fillna(0).astype('Int64')
ft_reprovacao_cotas['total_reprovacoes_cotas'] = ft_reprovacao_cotas['total_reprovacoes_cotas'].fillna(0).astype('Int64')
ft_reprovacao_cotas.head()

Unnamed: 0,id,total_matriculas,total_matriculas_cotas,total_reprovações,total_reprovacoes_cotas
0,201131008,22,0,0,0
1,201131043,1,0,0,0
2,201131090,12,0,0,0
3,201131095,19,0,0,0
4,201131106,15,0,0,0


In [26]:
ft_reprovacao_cotas['id_tempo'] = (
    ft_reprovacao_cotas['id'].astype(str).str.slice(0, 5)
)
ft_reprovacao_cotas['id_disc'] = (
    ft_reprovacao_cotas['id'].astype(str).str.slice(5)
)
ft_reprovacao_cotas.drop(columns=['id'], inplace=True)
ft_reprovacao_cotas.head()


Unnamed: 0,total_matriculas,total_matriculas_cotas,total_reprovações,total_reprovacoes_cotas,id_tempo,id_disc
0,22,0,0,0,20113,1008
1,1,0,0,0,20113,1043
2,12,0,0,0,20113,1090
3,19,0,0,0,20113,1095
4,15,0,0,0,20113,1106


## ft_reprovação

In [27]:
df = pd.merge(left=matriculas, right=alunos, how='left', on='mat_alu')
df = pd.merge(left=df, right=cursos, how='left', on='cod_curso')
df

Unnamed: 0,semestre,mat_alu,cod_disc,nota,faltas,status,nome,dat_entrada,cod_curso,cotista,nom_curso,cod_dpto
0,20113,80316,276,5.0,7,A,DANIEL GARDENIA SANTOS - TESTE,1987-06-09,13,F,Direito Diurno,1
1,20113,80326,302,2.0,18,A,KATLYN CASTRO MELO SOUZA - TESTE,1988-02-08,13,F,Direito Diurno,1
2,20113,80352,273,1.0,10,A,MARCOS ARAUJO GUIMARAES - TESTE,1973-09-26,13,F,Direito Diurno,1
3,20113,80364,3789,4.0,15,A,ANTONIO CESAR RONEY - TESTE,1969-09-12,4,F,Direito Noturno,2
4,20113,80376,301,5.0,1,A,CLESIANE CRISTINA SANTANA - TESTE,1985-06-21,4,F,Direito Noturno,2
...,...,...,...,...,...,...,...,...,...,...,...,...
2689,20113,138734,302,4.0,15,A,laboratorio FERNANDA RABELO - TESTE,1989-06-13,4,F,Direito Noturno,2
2690,20113,138750,4246,5.0,10,A,GLAUCIA FERNANDO PRADO TRAVASSOS - TESTE,1993-06-24,13,F,Direito Diurno,1
2691,20113,138764,4246,4.0,7,A,DAMARES CRUZ MARIA SANTOS - TESTE,1992-01-29,4,F,Direito Noturno,2
2692,20113,138792,302,4.0,11,A,DHANNIRES CARVALHO REZENDE - TESTE,1991-05-30,13,F,Direito Diurno,1


In [28]:
df['id'] = df.semestre.astype(str) + df.cod_disc.astype(str) + df.cod_curso.astype(str) + df.cod_dpto.astype(str)
df.drop(columns=['nota', 'faltas', 'nome', 'dat_entrada', 'cotista', 'nom_curso'], inplace=True)
df.head()

Unnamed: 0,semestre,mat_alu,cod_disc,status,cod_curso,cod_dpto,id
0,20113,80316,276,A,13,1,20113276131
1,20113,80326,302,A,13,1,20113302131
2,20113,80352,273,A,13,1,20113273131
3,20113,80364,3789,A,4,2,20113378942
4,20113,80376,301,A,4,2,2011330142


In [29]:
df_reprovados = df[~df['status'].isin(["A"])]
df_reprovados.head()

Unnamed: 0,semestre,mat_alu,cod_disc,status,cod_curso,cod_dpto,id


In [30]:
df = df.groupby(['id', 'semestre', 'cod_disc', 'cod_curso', 'cod_dpto']).count()[['mat_alu']]
df = df.reset_index()
df.rename(columns={'mat_alu': 'total_matriculas'}, inplace=True)
df.head()

Unnamed: 0,id,semestre,cod_disc,cod_curso,cod_dpto,total_matriculas
0,201131008351,20113,1008,35,1,22
1,20113104342,20113,1043,4,2,1
2,2011310901031,20113,1090,103,1,4
3,201131090262,20113,1090,26,2,2
4,201131090522,20113,1090,52,2,6


In [31]:
df_reprovados = df_reprovados.groupby(['id']).count()[['mat_alu']]
df_reprovados = df_reprovados.reset_index()
df_reprovados.rename(columns={'mat_alu': 'total_reprovações'}, inplace=True)
df_reprovados.head()

Unnamed: 0,id,total_reprovações


In [32]:
ft_reprovacao = df.rename(columns={'semestre': 'id_tempo', 'cod_disc': 'id_disc', 'cod_dpto': 'id_dpto'})
ft_reprovacao.head()

Unnamed: 0,id,id_tempo,id_disc,cod_curso,id_dpto,total_matriculas
0,201131008351,20113,1008,35,1,22
1,20113104342,20113,1043,4,2,1
2,2011310901031,20113,1090,103,1,4
3,201131090262,20113,1090,26,2,2
4,201131090522,20113,1090,52,2,6


In [33]:
ft_reprovacao = pd.merge(left=ft_reprovacao, right=df_reprovados, how='left', on='id')
ft_reprovacao['total_reprovações'] = ft_reprovacao['total_reprovações'].fillna(0).astype('Int64')
ft_reprovacao.head()

Unnamed: 0,id,id_tempo,id_disc,cod_curso,id_dpto,total_matriculas,total_reprovações
0,201131008351,20113,1008,35,1,22,0
1,20113104342,20113,1043,4,2,1,0
2,2011310901031,20113,1090,103,1,4,0
3,201131090262,20113,1090,26,2,2,0
4,201131090522,20113,1090,52,2,6,0


# Load

In [34]:
# Criação da engine do sql alchemy para o banco dimensional.
db_connection_out = sqlalchemy.create_engine(
    'postgresql+pg8000://postgres:123456@localhost:5433/dimensional',
    client_encoding='utf8',
)

In [35]:
# Função para calculo do chunksize
def get_chunksize(table_columns):
    cs = 2097 // len(table_columns)
    cs = (1000 if cs > 1000 else cs)
    return cs


In [36]:
ft_reprovacao_cotas.to_sql(
    name='ft_reprovacao_cotas',
    con=db_connection_out,
    index=False,
    if_exists='replace',
    chunksize=get_chunksize(ft_reprovacao_cotas.columns),
)


142

In [37]:
ft_reprovacao.to_sql(
    name='ft_reprovacao',
    con=db_connection_out,
    index=False,
    if_exists='replace',
    chunksize=get_chunksize(ft_reprovacao.columns),
)


228

In [38]:
dm_departamentos.to_sql(
    name='dm_departamentos',
    con=db_connection_out,
    index=False,
    if_exists='replace',
    chunksize=get_chunksize(dm_departamentos.columns),
)


5

In [39]:
dm_disciplinas.to_sql(
    name='dm_disciplinas',
    con=db_connection_out,
    index=False,
    if_exists='append',
    chunksize=get_chunksize(dm_disciplinas.columns),
)


811

In [40]:
dm_cursos.to_sql(
    name='dm_cursos',
    con=db_connection_out,
    index=False,
    if_exists='replace',
    chunksize=get_chunksize(dm_cursos.columns),
)


11

In [41]:
dm_tempo.to_sql(
    name='dm_tempo',
    con=db_connection_out,
    index=False,
    if_exists='replace',
    chunksize=get_chunksize(dm_tempo.columns),
)


1