In [38]:
import pandas as pd

pd.set_option('display.max_columns', None)

# Sobre este conjunto de dados
##### Estes dados abordam o desempenho dos alunos no ensino secundário de duas escolas portuguesas. Os atributos dos dados incluem notas dos alunos, características demográficas, sociais e relacionadas com a escola) e foram recolhidos através de relatórios escolares e questionários. São fornecidos dois conjuntos de dados relativos ao desempenho em duas disciplinas distintas: Matemática (mat) e Língua Portuguesa (por). Em [Cortez e Silva, 2008], os dois conjuntos de dados foram modelados sob binário. Neste caso estamos apenas analisando o conjunto de dados de matemática.

##### Atributos para os conjuntos de dados student-mat.csv (curso de matemática) e student-por.csv (curso de língua portuguesa): 
##### 1 escola - escola do aluno (binário: 'GP' - Gabriel Pereira ou 'MS' - Mousinho da Silveira) 
##### 2 sexo - sexo do aluno (binário: 'F' - feminino ou 'M' - masculino) 
##### 3 idade - idade do aluno (numérico: de 15 a 22) 
##### 4 endereço - tipo de endereço residencial do aluno (binário: 'U' - urbano ou 'R ' - rural) 
##### 5 tamanho_da_familia  - tamanho da família (binário: 'LE3' - menor ou igual a 3 ou 'GT3' - maior que 3) 
##### 6 status_pais - situação de coabitação dos pais (binário: 'T' - morar junto ou 'A' - à parte) 
##### 7 educacao_mae - escolaridade da mãe (numérico: 0 - nenhuma, 1 - ensino fundamental (4º ano), 2 - 5º ao 9º ano, 3 - ensino médio ou 4 - ensino superior) 
##### 8 educacao_pai - escolaridade do pai escolaridade (numérico: 0 - nenhuma, 1 - ensino fundamental (4º ano), 2 - 5º ao 9º ano, 3 - ensino médio ou 4 - ensino superior) 
##### 9 profissao_mae - trabalho da mãe (nominal: 'professora ', relacionados com cuidados de 'saúde', 'serviços' civis (por exemplo, administrativos ou policiais), 'em casa' ou 'outros') 
##### 10 profissao_pai - trabalho do pai (nominal: 'professor', relacionados com cuidados de 'saúde', 'serviços' civis ( por exemplo. administrativo ou policial), 'em_casa' ou 'outro') 
##### 11 motivo - razão para escolher esta escola (nominal: perto de 'casa', 'reputação' da escola, preferência de 'curso' ou 'outro') 
##### 12 responsavel - tutor do aluno ( nominal: 'mãe', 'pai' ou 'outro') 
##### 13 tempo_viagem - tempo de viagem casa-escola (numérico: 1 - <15 min., 2 - 15 a 30 min., 3 - 30 min. a 1 hora, ou 4 - >1 hora) 
##### 14 tempo_estudo - tempo de estudo semanal (numérico: 1 - <2 horas, 2 - 2 a 5 horas, 3 - 5 a 10 horas ou 4 - >10 horas) 
##### 15 reprovacoes - número de reprovações em aulas anteriores (numérico: n se 1<=n<3, else 4) 
##### 16 suporte_escolar - apoio educativo extra (binário: sim ou não) 
##### 17 suporte_familia - apoio educativo familiar (binário: sim ou não) 
##### 18 aulas_pagas - aulas extra remuneradas dentro do curso disciplina (Matemática ou Português) (binário: sim ou não) 
##### 19 atividades - atividades extracurriculares (binário: sim ou não) 
##### 20 creche - frequentou creche (binário: sim ou não) 
##### 21 ensino_superior - quer fazer ensino superior (binário : sim ou não) 
##### 22 internet - acesso à internet em casa (binário: sim ou não) 
##### 23 relacionamento_amoroso - com relacionamento amoroso (binário: sim ou não) 
##### 24 relacao_familiar - qualidade das relações familiares (numérico: de 1 - muito ruim a 5 - excelente) 
##### 25 tempo_livre_ - tempo livre depois da escola (numérico: de 1 - muito baixo a 5 - muito alto) 
##### 26 sair - sair com amigos (numérico: de 1 - muito baixo a 5 - muito alto) 
##### 27 consumo_alcool_dia - álcool no dia de trabalho consumo (numérico: de 1 - muito baixo a 5 - muito alto) 
##### 28 consumo_alcool_fim_semana - consumo de álcool nos finais de semana (numérico: de 1 - muito baixo a 5 - muito alto) 
##### 29 saude - estado de saúde atual (numérico: de 1 - muito ruim a 5 - muito bom) 
##### 30 faltas - número de faltas escolares (numérico: de 0 a 93) # essas notas estão relacionadas com a disciplina do curso, Matemática ou Português: 
##### 31 nota_G1 - nota do primeiro período (numérico: de 0 a 20) 
##### 31 nota_ G2 - nota do segundo período (numérico: de 0 a 20) 
##### 32 nota_G3 - nota final (numérico: de 0 a 20, meta de produção)

https://www.kaggle.com/datasets/impapan/student-performance-data-set?resource=download


-- Tabela DimAluno
CREATE TABLE dw_escola.DimAluno (
    AlunoID SERIAL PRIMARY KEY,
    sexo VARCHAR(10),
    idade INT,
    endereco VARCHAR(255),
    tamanho_da_familia VARCHAR(10),
    status_pais VARCHAR(10)
);

-- Tabela DimInfoPais
CREATE TABLE dw_escola.DimInfoPais (
    InfoID SERIAL PRIMARY KEY,
    educacao_mae VARCHAR(255),
    educacao_pai VARCHAR(255),
	profissao_mae VARCHAR(255),
    profissao_pai VARCHAR(255)
);

-- Tabela DimEscola
CREATE TABLE dw_escola.DimEscola (
    EscolaID SERIAL PRIMARY KEY,
    escola VARCHAR(255),
    motivo VARCHAR(255),
    suporte_escolar BOOLEAN,
    suporte_familiar BOOLEAN,
    aulas_pagas BOOLEAN,
    atividades BOOLEAN,
    creche BOOLEAN,
    ensino_superior BOOLEAN
);

-- Tabela DimTempo
CREATE TABLE dw_escola.DimTempo (
    TempoID SERIAL PRIMARY KEY,
    tempo_viagem INT,
    tempo_estudo INT,
    tempo_livre INT
);

-- Tabela DimSaudeComportamento
CREATE TABLE dw_escola.DimSaudeComportamento (
    SaudeComportamentoID SERIAL PRIMARY KEY,
    consumo_alcool_dia INT,
    consumo_alcool_fim_semana INT,
    saude INT,
    relacionamento_amoroso BOOLEAN,
    relacao_familiar INT,
    sair INT
);

CREATE TABLE dw_escola.FatoDesempenhoAluno (
    DesempenhoID SERIAL PRIMARY KEY,
    AlunoID INT,
    InfoID INT,
    EscolaID INT,
    TempoID INT,
    SaudeComportamentoID INT,
    reprovacoes INT,
    faltas INT,
    nota_G1 INT,
    nota_G2 INT,
    nota_G3 INT,
    FOREIGN KEY (AlunoID) REFERENCES DimAluno (AlunoID),
    FOREIGN KEY (InfoID) REFERENCES DimInfoPais (InfoID),
    FOREIGN KEY (EscolaID) REFERENCES DimEscola (EscolaID),
    FOREIGN KEY (TempoID) REFERENCES DimTempo (TempoID),
    FOREIGN KEY (SaudeComportamentoID) REFERENCES DimSaudeComportamento (SaudeComportamentoID)
);


# Automatizar a criação de tabelas em um banco de dados relacional postgres - Para implementar em uma aplicação Web:

In [2]:
from sqlalchemy import create_engine, Column, Integer, String, Boolean, ForeignKey
from sqlalchemy.orm import sessionmaker
from sqlalchemy.ext.declarative import declarative_base

In [8]:
# Criar uma instância de mecanismo PostgreSQL para o banco de dados 'desempenho'
engine = create_engine('postgresql://postgres:postgres@localhost:5432/desempenho')

# Criar uma classe base para declarar modelos de tabela
Base = declarative_base()

# Definir o esquema
schema_name = 'dw_escola'

  Base = declarative_base()


In [9]:
# Definir a classe de modelo para a tabela "DimAluno"
class DimAluno(Base):
    __tablename__ = 'DimAluno'
    __table_args__ = {'schema': schema_name}

    AlunoID = Column(Integer, primary_key=True)
    sexo = Column(String(10))
    idade = Column(Integer)
    endereco = Column(String(255))
    tamanho_da_familia = Column(String(10))
    status_pais = Column(String(10))

# Definir a classe de modelo para a tabela "DimInfoPais"
class DimInfoPais(Base):
    __tablename__ = 'DimInfoPais'
    __table_args__ = {'schema': schema_name}

    InfoID = Column(Integer, primary_key=True)
    educacao_mae = Column(String(255))
    educacao_pai = Column(String(255))
    profissao_mae = Column(String(255))
    profissao_pai = Column(String(255))

# Definir a classe de modelo para a tabela "DimEscola"
class DimEscola(Base):
    __tablename__ = 'DimEscola'
    __table_args__ = {'schema': schema_name}

    EscolaID = Column(Integer, primary_key=True)
    escola = Column(String(255))
    motivo = Column(String(255))
    suporte_escolar = Column(Boolean)
    suporte_familiar = Column(Boolean)
    aulas_pagas = Column(Boolean)
    atividades = Column(Boolean)
    creche = Column(Boolean)
    ensino_superior = Column(Boolean)

# Definir a classe de modelo para a tabela "DimTempo"
class DimTempo(Base):
    __tablename__ = 'DimTempo'
    __table_args__ = {'schema': schema_name}

    TempoID = Column(Integer, primary_key=True)
    tempo_viagem = Column(Integer)
    tempo_estudo = Column(Integer)
    tempo_livre = Column(Integer)

# Definir a classe de modelo para a tabela "DimSaudeComportamento"
class DimSaudeComportamento(Base):
    __tablename__ = 'DimSaudeComportamento'
    __table_args__ = {'schema': schema_name}

    SaudeComportamentoID = Column(Integer, primary_key=True)
    consumo_alcool_dia = Column(Integer)
    consumo_alcool_fim_semana = Column(Integer)
    saude = Column(Integer)
    relacionamento_amoroso = Column(Boolean)
    relacao_familiar = Column(Integer)
    sair = Column(Integer)

# Definir a classe de modelo para a tabela "FatoDesempenhoAluno"
class FatoDesempenhoAluno(Base):
    __tablename__ = 'FatoDesempenhoAluno'
    __table_args__ = {'schema': schema_name}

    DesempenhoID = Column(Integer, primary_key=True)
    AlunoID = Column(Integer, ForeignKey(f'{schema_name}.DimAluno.AlunoID'))
    InfoID = Column(Integer, ForeignKey(f'{schema_name}.DimInfoPais.InfoID'))
    EscolaID = Column(Integer, ForeignKey(f'{schema_name}.DimEscola.EscolaID'))
    TempoID = Column(Integer, ForeignKey(f'{schema_name}.DimTempo.TempoID'))
    SaudeComportamentoID = Column(Integer, ForeignKey(f'{schema_name}.DimSaudeComportamento.SaudeComportamentoID'))
    reprovacoes = Column(Integer)
    faltas = Column(Integer)
    nota_G1 = Column(Integer)
    nota_G2 = Column(Integer)
    nota_G3 = Column(Integer)

# Criar as tabelas no banco de dados
Base.metadata.create_all(engine)

# Criar uma sessão para interagir com o banco de dados
Session = sessionmaker(bind=engine)
session = Session()

# Fechar a sessão
session.close()

In [44]:
df = pd.read_csv('student-mat-pt.csv')

In [48]:
df

Unnamed: 0,escola,sexo,idade,endereço,tamanho_da_familia,status_pais,educacao_mae,educacao_pai,profissao_mae,profissao_pai,motivo,responsavel,tempo_viagem,tempo_estudo,reprovacoes,suporte_escolar,suporte_familiar,aulas_pagas,atividades,creche,ensino_superior,internet,relacionamento_amoroso,relacao_familiar,tempo_livre,sair,consumo_alcool_dia,consumo_alcool_fim_semana,saude,faltas,nota_G1,nota_G2,nota_G3
0,GP,F,18,U,GT3,A,4,4,em casa,professor,course,mãe,2,2,0,sim,não,não,não,sim,sim,não,não,4,3,4,1,1,3,6,5,6,6
1,GP,F,17,U,GT3,T,1,1,em casa,outro,course,pai,1,2,0,não,sim,não,não,não,sim,sim,não,5,3,3,1,1,3,4,5,5,6
2,GP,F,15,U,LE3,T,1,1,em casa,outro,other,mãe,1,2,3,sim,não,sim,não,sim,sim,sim,não,4,3,2,2,3,3,10,7,8,10
3,GP,F,15,U,GT3,T,4,2,saúde,Serviços,home,mãe,1,3,0,não,sim,sim,sim,sim,sim,sim,sim,3,2,2,1,1,5,2,15,14,15
4,GP,F,16,U,GT3,T,3,3,outro,outro,home,pai,1,2,0,não,sim,sim,não,sim,sim,não,não,4,3,2,1,2,5,4,6,10,10
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
390,MS,M,20,U,LE3,A,2,2,Serviços,Serviços,course,outro,1,2,2,não,sim,sim,não,sim,sim,não,não,5,5,4,4,5,4,11,9,9,9
391,MS,M,17,U,LE3,T,3,1,Serviços,Serviços,course,mãe,2,1,0,não,não,não,não,não,sim,sim,não,2,4,5,3,4,2,3,14,16,16
392,MS,M,21,R,GT3,T,1,1,outro,outro,course,outro,1,1,3,não,não,não,não,não,sim,não,não,5,5,3,3,3,3,3,10,8,7
393,MS,M,18,R,LE3,T,3,2,Serviços,outro,course,mãe,3,1,0,não,não,não,não,não,sim,sim,não,4,4,1,3,4,5,0,11,12,10


In [50]:
Session = sessionmaker(bind=engine)
session = Session()

for index, row in df.iterrows():
    novo_aluno = DimAluno(
        sexo=row['sexo'],
        idade=row['idade'],
        endereco=row['endereço'],
        tamanho_da_familia=row['tamanho_da_familia'],
        status_pais=row['status_pais']
    )
    session.add(novo_aluno)


session.commit()

# Existe outra forma, mais rápida?
