In [1]:
# Imports
import sqlalchemy
import pandas as pd
import numpy as np


# 1. Extract

In [2]:
# Criação da engine do sql alchemy para o banco operacional.
db_connection_in = sqlalchemy.create_engine(
    'postgresql+pg8000://postgres:123456@localhost:5433/operacional',
    client_encoding='utf8',
)


In [3]:
departamentos = pd.read_sql('SELECT * FROM departamentos', db_connection_in)
departamentos.head()

Unnamed: 0,cod_dpto,nome_dpto
0,1,EXATAS
1,2,BIOLOGICAS E SAUDE
2,3,HUMANAS E SOCIAIS


In [4]:
cursos = pd.read_sql('SELECT * FROM cursos', db_connection_in)
cursos.head()

Unnamed: 0,cod_curso,nom_curso,cod_dpto
0,26,Ciencia da Computacao - Tarde/Noite,1
1,35,Odontologia - Integral,2
2,52,Sistemas de Informacao - Noite,1
3,44,Enfermagem - Tarde/Noite,2
4,131,Arquitetura e Urbanismo - Manha,1


In [5]:
disciplinas = pd.read_sql('SELECT * FROM disciplinas', db_connection_in)
disciplinas.head()

Unnamed: 0,cod_disc,nome_disc,carga_horaria
0,1094,ARQUIVOS E BANCO DE DADOS,108.0
1,999,CLINICA ODONTOLOGICA I,180.0
2,1006,CLINICA ODONTOLOGICA II,180.0
3,2789,ADMINISTRACAO DOS SERV.DE ENFERMAGEM E ENS.CLI...,180.0
4,2791,ESTAGIO CURRICULAR SUPERVISIONADO I,324.0


In [6]:
matrizes_cursos = pd.read_sql('SELECT * FROM matrizes_cursos', db_connection_in)
matrizes_cursos.head()

Unnamed: 0,cod_curso,cod_disc,periodo
0,26,1725,2
1,26,1729,3
2,26,1731,4
3,26,1090,5
4,52,1738,4


In [7]:
matriculas = pd.read_sql('SELECT * FROM matriculas', db_connection_in)
matriculas.head()

Unnamed: 0,semestre,mat_alu,cod_disc,nota,faltas,status
0,20113,139504,4457,8.0,14,A
1,20113,136655,5493,9.0,14,A
2,20113,127658,4781,3.0,14,R
3,20113,105396,2777,2.0,14,R
4,20113,147957,5111,10.0,14,A


In [8]:
alunos = pd.read_sql('SELECT * FROM alunos', db_connection_in)
alunos.head()

Unnamed: 0,mat_alu,nome,dat_entrada,cod_curso,cotista
0,126790,ERCILIA CARVALHO MANUELA SANTOS - TESTE,2010-05-10,4,N
1,107941,JEANINY CIARELLY PAIVA SILVA - TESTE,2009-09-05,4,N
2,107970,LUIS BARROS MACEDO SILVA - TESTE,2009-12-29,13,N
3,102122,ISABELLE LIBORIO SANTOS - TESTE,2008-03-24,13,N
4,104991,ANDRE EDUARDO SANTOS - TESTE,2008-08-25,4,N


# Transform

## dm_departamentos

In [9]:
dm_departamentos = pd.DataFrame()
dm_departamentos['id_dpto'] = departamentos.cod_dpto
dm_departamentos['nome_dpto'] = departamentos.nome_dpto
dm_departamentos.head()

Unnamed: 0,id_dpto,nome_dpto
0,1,EXATAS
1,2,BIOLOGICAS E SAUDE
2,3,HUMANAS E SOCIAIS


## dm_cursos

In [10]:
dm_cursos = pd.DataFrame()
dm_cursos['id_curso'] = cursos.cod_curso
dm_cursos['nome_curso'] = cursos.nom_curso
dm_cursos.head()

Unnamed: 0,id_curso,nome_curso
0,26,Ciencia da Computacao - Tarde/Noite
1,35,Odontologia - Integral
2,52,Sistemas de Informacao - Noite
3,44,Enfermagem - Tarde/Noite
4,131,Arquitetura e Urbanismo - Manha


## dm_disciplinas

In [11]:
dm_disciplinas = pd.DataFrame()
dm_disciplinas['id_disc'] = disciplinas.cod_disc
dm_disciplinas['nome_disc'] = disciplinas.nome_disc
dm_disciplinas['carga_horaria'] = disciplinas.carga_horaria
dm_disciplinas.head()

Unnamed: 0,id_disc,nome_disc,carga_horaria
0,1094,ARQUIVOS E BANCO DE DADOS,108.0
1,999,CLINICA ODONTOLOGICA I,180.0
2,1006,CLINICA ODONTOLOGICA II,180.0
3,2789,ADMINISTRACAO DOS SERV.DE ENFERMAGEM E ENS.CLI...,180.0
4,2791,ESTAGIO CURRICULAR SUPERVISIONADO I,324.0


## dm_tempo

In [12]:
dm_tempo = pd.DataFrame(
    {
        'id_tempo': [
            semestre for semestre in matriculas.semestre.unique()
        ],
        'ano': [
            int(str(semestre)[:4]) for semestre in matriculas.semestre.unique()
        ],
        'semestre': [
            int(str(semestre)[4:]) for semestre in matriculas.semestre.unique()
        ],
        'semestre_str': [
            f"{str(semestre)[:4]}/{str(semestre)[4:]}" for semestre in matriculas.semestre.unique()
        ],
    }
)
dm_tempo.head()


Unnamed: 0,id_tempo,ano,semestre,semestre_str
0,20113,2011,3,2011/3


## ft_reprovacao_cotas

In [13]:
matriculas.head()

Unnamed: 0,semestre,mat_alu,cod_disc,nota,faltas,status
0,20113,139504,4457,8.0,14,A
1,20113,136655,5493,9.0,14,A
2,20113,127658,4781,3.0,14,R
3,20113,105396,2777,2.0,14,R
4,20113,147957,5111,10.0,14,A


In [14]:
df = pd.merge(left=matriculas, right=alunos, how='left', on='mat_alu')
df['id'] = df.semestre.astype(str) + df.cod_disc.astype(str)
df.head()

Unnamed: 0,semestre,mat_alu,cod_disc,nota,faltas,status,nome,dat_entrada,cod_curso,cotista,id
0,20113,139504,4457,8.0,14,A,DIJANE AUGUSTO REZENDE - TESTE,1997-02-24,4,N,201134457
1,20113,136655,5493,9.0,14,A,SUYANNE CORTES VIANA - TESTE,2012-05-25,13,S,201135493
2,20113,127658,4781,3.0,14,R,LUCIANA ALVES LIMA SILVA - TESTE,2011-08-02,4,S,201134781
3,20113,105396,2777,2.0,14,R,DAIANE CARVALHO RUBIA - TESTE,2001-12-02,44,S,201132777
4,20113,147957,5111,10.0,14,A,CLAUDIA GOIS RIOS VASCONCELOS - TESTE,2011-03-16,44,S,201135111


In [15]:
df_cotistas = df[df['cotista'].isin(["S"])]
df_cotistas.head()

Unnamed: 0,semestre,mat_alu,cod_disc,nota,faltas,status,nome,dat_entrada,cod_curso,cotista,id
1,20113,136655,5493,9.0,14,A,SUYANNE CORTES VIANA - TESTE,2012-05-25,13,S,201135493
2,20113,127658,4781,3.0,14,R,LUCIANA ALVES LIMA SILVA - TESTE,2011-08-02,4,S,201134781
3,20113,105396,2777,2.0,14,R,DAIANE CARVALHO RUBIA - TESTE,2001-12-02,44,S,201132777
4,20113,147957,5111,10.0,14,A,CLAUDIA GOIS RIOS VASCONCELOS - TESTE,2011-03-16,44,S,201135111
5,20113,105187,3824,4.0,14,R,LORENA HENRIQUE SANTANA VINICIUS - TESTE,2009-12-23,13,S,201133824


In [16]:
df_reprovados = df[df['status'].isin(["R"])]
df_reprovados.head()

Unnamed: 0,semestre,mat_alu,cod_disc,nota,faltas,status,nome,dat_entrada,cod_curso,cotista,id
2,20113,127658,4781,3.0,14,R,LUCIANA ALVES LIMA SILVA - TESTE,2011-08-02,4,S,201134781
3,20113,105396,2777,2.0,14,R,DAIANE CARVALHO RUBIA - TESTE,2001-12-02,44,S,201132777
5,20113,105187,3824,4.0,14,R,LORENA HENRIQUE SANTANA VINICIUS - TESTE,2009-12-23,13,S,201133824
8,20113,125221,4703,5.0,14,R,EMANUELLE KAROLINE SILVA - TESTE,2009-10-05,44,N,201134703
12,20113,105182,6236,2.0,14,R,MANOEL DORIA LUYZA - TESTE,1981-08-31,4,N,201136236


In [17]:
df_cotistas_reprovados = df_cotistas[df_cotistas['status'].isin(["R"])]
df_cotistas_reprovados.head()

Unnamed: 0,semestre,mat_alu,cod_disc,nota,faltas,status,nome,dat_entrada,cod_curso,cotista,id
2,20113,127658,4781,3.0,14,R,LUCIANA ALVES LIMA SILVA - TESTE,2011-08-02,4,S,201134781
3,20113,105396,2777,2.0,14,R,DAIANE CARVALHO RUBIA - TESTE,2001-12-02,44,S,201132777
5,20113,105187,3824,4.0,14,R,LORENA HENRIQUE SANTANA VINICIUS - TESTE,2009-12-23,13,S,201133824
16,20113,113876,3865,5.0,14,R,FERNANDO BARRETO MIGUEL - TESTE,2010-04-01,123,S,201133865
19,20113,105099,4614,6.0,14,R,ELLEN CARMO MENESES,2008-09-19,35,S,201134614


In [18]:
df = df.groupby(['id']).count()[['mat_alu']]
df = df.reset_index()
df.rename(columns={'mat_alu': 'total_matriculas'}, inplace=True)
df.head()

Unnamed: 0,id,total_matriculas
0,201131008,6
1,201131043,4
2,201131090,2
3,201131095,7
4,201131106,3


In [19]:
df_cotistas = df_cotistas.groupby(['id']).count()[['mat_alu']]
df_cotistas = df_cotistas.reset_index()
df_cotistas.rename(columns={'mat_alu': 'total_matriculas_cotas'}, inplace=True)
df_cotistas.head()

Unnamed: 0,id,total_matriculas_cotas
0,201131008,2
1,201131043,2
2,201131095,4
3,201131106,1
4,201131156,1


In [20]:
df_reprovados = df_reprovados.groupby(['id']).count()[['mat_alu']]
df_reprovados = df_reprovados.reset_index()
df_reprovados.rename(columns={'mat_alu': 'total_reprovações'}, inplace=True)
df_reprovados.head()

Unnamed: 0,id,total_reprovações
0,201131008,6
1,201131043,3
2,201131090,1
3,201131095,6
4,201131106,2


In [21]:
df_cotistas_reprovados = df_cotistas_reprovados.groupby(['id']).count()[['mat_alu']]
df_cotistas_reprovados = df_cotistas_reprovados.reset_index()
df_cotistas_reprovados.rename(columns={'mat_alu': 'total_reprovacoes_cotas'}, inplace=True)
df_cotistas_reprovados.head()

Unnamed: 0,id,total_reprovacoes_cotas
0,201131008,2
1,201131043,1
2,201131095,4
3,201131106,1
4,201131343,11


In [22]:
ft_reprovacao_cotas = pd.merge(left=df, right=df_cotistas, how='left', on='id')
ft_reprovacao_cotas.head()

Unnamed: 0,id,total_matriculas,total_matriculas_cotas
0,201131008,6,2.0
1,201131043,4,2.0
2,201131090,2,
3,201131095,7,4.0
4,201131106,3,1.0


In [23]:
ft_reprovacao_cotas = pd.merge(left=ft_reprovacao_cotas, right=df_reprovados, how='left', on='id')
ft_reprovacao_cotas.head()

Unnamed: 0,id,total_matriculas,total_matriculas_cotas,total_reprovações
0,201131008,6,2.0,6.0
1,201131043,4,2.0,3.0
2,201131090,2,,1.0
3,201131095,7,4.0,6.0
4,201131106,3,1.0,2.0


In [24]:
ft_reprovacao_cotas = pd.merge(left=ft_reprovacao_cotas, right=df_cotistas_reprovados, how='left', on='id')
ft_reprovacao_cotas.head()

Unnamed: 0,id,total_matriculas,total_matriculas_cotas,total_reprovações,total_reprovacoes_cotas
0,201131008,6,2.0,6.0,2.0
1,201131043,4,2.0,3.0,1.0
2,201131090,2,,1.0,
3,201131095,7,4.0,6.0,4.0
4,201131106,3,1.0,2.0,1.0


In [25]:
ft_reprovacao_cotas['total_matriculas_cotas'] = ft_reprovacao_cotas['total_matriculas_cotas'].fillna(0).astype('Int64')
ft_reprovacao_cotas['total_reprovações'] = ft_reprovacao_cotas['total_reprovações'].fillna(0).astype('Int64')
ft_reprovacao_cotas['total_reprovacoes_cotas'] = ft_reprovacao_cotas['total_reprovacoes_cotas'].fillna(0).astype('Int64')
ft_reprovacao_cotas.head()

Unnamed: 0,id,total_matriculas,total_matriculas_cotas,total_reprovações,total_reprovacoes_cotas
0,201131008,6,2,6,2
1,201131043,4,2,3,1
2,201131090,2,0,1,0
3,201131095,7,4,6,4
4,201131106,3,1,2,1


In [26]:
ft_reprovacao_cotas['id_tempo'] = (
    ft_reprovacao_cotas['id'].astype(str).str.slice(0, 5)
)
ft_reprovacao_cotas['id_disc'] = (
    ft_reprovacao_cotas['id'].astype(str).str.slice(5)
)
ft_reprovacao_cotas.drop(columns=['id'], inplace=True)
ft_reprovacao_cotas.head()


Unnamed: 0,total_matriculas,total_matriculas_cotas,total_reprovações,total_reprovacoes_cotas,id_tempo,id_disc
0,6,2,6,2,20113,1008
1,4,2,3,1,20113,1043
2,2,0,1,0,20113,1090
3,7,4,6,4,20113,1095
4,3,1,2,1,20113,1106


## ft_reprovação

In [27]:
df = pd.merge(left=matriculas, right=alunos, how='left', on='mat_alu')
df = pd.merge(left=df, right=cursos, how='left', on='cod_curso')
df

Unnamed: 0,semestre,mat_alu,cod_disc,nota,faltas,status,nome,dat_entrada,cod_curso,cotista,nom_curso,cod_dpto
0,20113,139504,4457,8.0,14,A,DIJANE AUGUSTO REZENDE - TESTE,1997-02-24,4,N,Direito Noturno,3
1,20113,136655,5493,9.0,14,A,SUYANNE CORTES VIANA - TESTE,2012-05-25,13,S,Direito Diurno,3
2,20113,127658,4781,3.0,14,R,LUCIANA ALVES LIMA SILVA - TESTE,2011-08-02,4,S,Direito Noturno,3
3,20113,105396,2777,2.0,14,R,DAIANE CARVALHO RUBIA - TESTE,2001-12-02,44,S,Enfermagem - Tarde/Noite,2
4,20113,147957,5111,10.0,14,A,CLAUDIA GOIS RIOS VASCONCELOS - TESTE,2011-03-16,44,S,Enfermagem - Tarde/Noite,2
...,...,...,...,...,...,...,...,...,...,...,...,...
5171,20113,110274,6103,8.0,2,A,TAMARA ABREU LELIS PEREIRA - TESTE,2002-08-18,44,S,Enfermagem - Tarde/Noite,2
5172,20113,87061,5494,5.0,2,R,JONATAS FERREIRA PAULA VALADARES - TESTE,2007-03-09,4,S,Direito Noturno,3
5173,20113,53170,3832,7.0,2,A,SAMUEL FERNANDA NETO SILVEIRA - TESTE,1985-04-17,4,S,Direito Noturno,3
5174,20113,77866,3824,10.0,2,A,WENDSON RAMOS TAVARES - TESTE,2007-06-30,4,S,Direito Noturno,3


In [28]:
df['id'] = df.semestre.astype(str) + df.cod_disc.astype(str) + df.cod_curso.astype(str) + df.cod_dpto.astype(str)
df.drop(columns=['nota', 'faltas', 'nome', 'dat_entrada', 'cotista', 'nom_curso'], inplace=True)
df.head()

Unnamed: 0,semestre,mat_alu,cod_disc,status,cod_curso,cod_dpto,id
0,20113,139504,4457,A,4,3,20113445743
1,20113,136655,5493,A,13,3,201135493133
2,20113,127658,4781,R,4,3,20113478143
3,20113,105396,2777,R,44,2,201132777442
4,20113,147957,5111,A,44,2,201135111442


In [29]:
df_reprovados = df[df['status'].isin(["R"])]
df_reprovados.head()

Unnamed: 0,semestre,mat_alu,cod_disc,status,cod_curso,cod_dpto,id
2,20113,127658,4781,R,4,3,20113478143
3,20113,105396,2777,R,44,2,201132777442
5,20113,105187,3824,R,13,3,201133824133
8,20113,125221,4703,R,44,2,201134703442
12,20113,105182,6236,R,4,3,20113623643


In [30]:
df = df.groupby(['id', 'semestre', 'cod_disc', 'cod_curso', 'cod_dpto']).count()[['mat_alu']]
df = df.reset_index()
df.rename(columns={'mat_alu': 'total_matriculas'}, inplace=True)
df.head()

Unnamed: 0,id,semestre,cod_disc,cod_curso,cod_dpto,total_matriculas
0,201131008352,20113,1008,35,2,6
1,20113104343,20113,1043,4,3,4
2,2011310901031,20113,1090,103,1,1
3,201131090521,20113,1090,52,1,1
4,201131095521,20113,1095,52,1,7


In [31]:
df_reprovados = df_reprovados.groupby(['id']).count()[['mat_alu']]
df_reprovados = df_reprovados.reset_index()
df_reprovados.rename(columns={'mat_alu': 'total_reprovações'}, inplace=True)
df_reprovados.head()

Unnamed: 0,id,total_reprovações
0,201131008352,6
1,20113104343,3
2,2011310901031,1
3,201131095521,6
4,2011311061031,1


In [32]:
ft_reprovacao = df.rename(columns={'semestre': 'id_tempo', 'cod_disc': 'id_disc', 'cod_dpto': 'id_dpto', 'cod_curso': 'id_curso'})
ft_reprovacao.head()

Unnamed: 0,id,id_tempo,id_disc,id_curso,id_dpto,total_matriculas
0,201131008352,20113,1008,35,2,6
1,20113104343,20113,1043,4,3,4
2,2011310901031,20113,1090,103,1,1
3,201131090521,20113,1090,52,1,1
4,201131095521,20113,1095,52,1,7


In [33]:
ft_reprovacao = pd.merge(
    left=ft_reprovacao, right=df_reprovados, how='left', on='id')
ft_reprovacao['total_reprovações'] = ft_reprovacao['total_reprovações'].fillna(
    0).astype('Int64')
ft_reprovacao.drop(columns=['id'], inplace=True)
ft_reprovacao.head()


Unnamed: 0,id_tempo,id_disc,id_curso,id_dpto,total_matriculas,total_reprovações
0,20113,1008,35,2,6,6
1,20113,1043,4,3,4,3
2,20113,1090,103,1,1,1
3,20113,1090,52,1,1,0
4,20113,1095,52,1,7,6


# Load

In [34]:
# Criação da engine do sql alchemy para o banco dimensional.
db_connection_out = sqlalchemy.create_engine(
    'postgresql+pg8000://postgres:123456@localhost:5433/dimensional',
    client_encoding='utf8',
)

In [35]:
# Função para calculo do chunksize
def get_chunksize(table_columns):
    cs = 2097 // len(table_columns)
    cs = (1000 if cs > 1000 else cs)
    return cs


In [36]:
ft_reprovacao_cotas.to_sql(
    name='ft_reprovacao_cotas',
    con=db_connection_out,
    index=False,
    if_exists='replace',
    chunksize=get_chunksize(ft_reprovacao_cotas.columns),
)


234

In [37]:
ft_reprovacao.to_sql(
    name='ft_reprovacao',
    con=db_connection_out,
    index=False,
    if_exists='replace',
    chunksize=get_chunksize(ft_reprovacao.columns),
)


361

In [38]:
dm_departamentos.to_sql(
    name='dm_departamentos',
    con=db_connection_out,
    index=False,
    if_exists='replace',
    chunksize=get_chunksize(dm_departamentos.columns),
)


3

In [39]:
dm_disciplinas.to_sql(
    name='dm_disciplinas',
    con=db_connection_out,
    index=False,
    if_exists='replace',
    chunksize=get_chunksize(dm_disciplinas.columns),
)


803

In [40]:
dm_cursos.to_sql(
    name='dm_cursos',
    con=db_connection_out,
    index=False,
    if_exists='replace',
    chunksize=get_chunksize(dm_cursos.columns),
)


11

In [41]:
dm_tempo.to_sql(
    name='dm_tempo',
    con=db_connection_out,
    index=False,
    if_exists='replace',
    chunksize=get_chunksize(dm_tempo.columns),
)


1