In [52]:
!pip install deep-translator




In [None]:
# O -binary e recomendado para uso geral e evita erros de compilação nativos no Windows.
!pip install psycopg2-binary

In [53]:
import pandas as pd 
from deep_translator import GoogleTranslator

# Mostra todas as colunas do DataFrame 
pd.set_option('display.max_columns', None)



## Automatizar a criacao de tabelas em um banco de dados relacional postgres - Para Implementar em uma aplicação Web:

In [55]:
from sqlalchemy import create_engine, Column, Integer, String, Boolean, ForeignKey
from sqlalchemy.orm import sessionmaker
from sqlalchemy.ext.declarative import declarative_base

In [56]:
# Cria uma instancia de mecanismo PostgreSQL para o banco de dados escola
engine = create_engine('postgresql://postgres:tonzim12@localhost:5434/escola')

# Cria uma classe de sessao para interagir com o banco de dados
Base = declarative_base()

# Define o esquema
schema_name = 'dw_escola'

  Base = declarative_base()


In [57]:
# Definir a classe de modelo para a tabela "DimAluno"
class DimAluno(Base):
    __tablename__ = 'DimAluno'
    __table_args__ = {'schema': schema_name}

    AlunoID = Column(Integer, primary_key=True)
    sexo = Column(String(10))
    idade = Column(Integer)
    endereco = Column(String(255))
    tamanho_da_familia = Column(String(10))
    status_pais = Column(String(10))

# Definir a classe de modelo para a tabela "DimInfoPais"
class DimInfoPais(Base):
    __tablename__ = 'DimInfoPais'
    __table_args__ = {'schema': schema_name}

    InfoID = Column(Integer, primary_key=True)
    educacao_mae = Column(String(255))
    educacao_pai = Column(String(255))
    profissao_mae = Column(String(255))
    profissao_pai = Column(String(255))

# Definir a classe de modelo para a tabela "DimEscola"
class DimEscola(Base):
    __tablename__ = 'DimEscola'
    __table_args__ = {'schema': schema_name}

    EscolaID = Column(Integer, primary_key=True)
    escola = Column(String(255))
    motivo = Column(String(255))
    suporte_escolar = Column(Boolean)
    suporte_familiar = Column(Boolean)
    aulas_pagas = Column(Boolean)
    atividades = Column(Boolean)
    creche = Column(Boolean)
    ensino_superior = Column(Boolean)

# Definir a classe de modelo para a tabela "DimTempo"
class DimTempo(Base):
    __tablename__ = 'DimTempo'
    __table_args__ = {'schema': schema_name}

    TempoID = Column(Integer, primary_key=True)
    tempo_viagem = Column(Integer)
    tempo_estudo = Column(Integer)
    tempo_livre = Column(Integer)

# Definir a classe de modelo para a tabela "DimSaudeComportamento"
class DimSaudeComportamento(Base):
    __tablename__ = 'DimSaudeComportamento'
    __table_args__ = {'schema': schema_name}

    SaudeComportamentoID = Column(Integer, primary_key=True)
    consumo_alcool_dia = Column(Integer)
    consumo_alcool_fim_semana = Column(Integer)
    saude = Column(Integer)
    relacionamento_amoroso = Column(Boolean)
    relacao_familiar = Column(Integer)
    sair = Column(Integer)

# Definir a classe de modelo para a tabela "FatoDesempenhoAluno"
class FatoDesempenhoAluno(Base):
    __tablename__ = 'FatoDesempenhoAluno'
    __table_args__ = {'schema': schema_name}

    DesempenhoID = Column(Integer, primary_key=True)
    AlunoID = Column(Integer, ForeignKey(f'{schema_name}.DimAluno.AlunoID'))
    InfoID = Column(Integer, ForeignKey(f'{schema_name}.DimInfoPais.InfoID'))
    EscolaID = Column(Integer, ForeignKey(f'{schema_name}.DimEscola.EscolaID'))
    TempoID = Column(Integer, ForeignKey(f'{schema_name}.DimTempo.TempoID'))
    SaudeComportamentoID = Column(Integer, ForeignKey(f'{schema_name}.DimSaudeComportamento.SaudeComportamentoID'))
    reprovacoes = Column(Integer)
    faltas = Column(Integer)
    nota_G1 = Column(Integer)
    nota_G2 = Column(Integer)
    nota_G3 = Column(Integer)

# Criar as tabelas no banco de dados
Base.metadata.create_all(engine)

# Criar uma sessão para interagir com o banco de dados
Session = sessionmaker(bind=engine)
session = Session()

# Fechar a sessãoo
session.close()






### Importando os dados do Kaggle

In [58]:
#!pip install kagglehub
import kagglehub
import os

# Baixando a dataset do kagglehub
# kagglehub.dataset_download("janiobachmann/math-students")
# Download latest version
path = kagglehub.dataset_download("janiobachmann/math-students")



In [59]:
# Verificando o que tem no dataset
os.listdir(path)

['student-mat.csv']

In [60]:
# Carregando o dataset
df = pd.read_csv(os.path.join(path, 'student-mat.csv'))

In [61]:
df.head()

Unnamed: 0,school,sex,age,address,famsize,Pstatus,Medu,Fedu,Mjob,Fjob,reason,guardian,traveltime,studytime,failures,schoolsup,famsup,paid,activities,nursery,higher,internet,romantic,famrel,freetime,goout,Dalc,Walc,health,absences,G1,G2,G3
0,GP,F,18,U,GT3,A,4,4,at_home,teacher,course,mother,2,2,0,yes,no,no,no,yes,yes,no,no,4,3,4,1,1,3,6,5,6,6
1,GP,F,17,U,GT3,T,1,1,at_home,other,course,father,1,2,0,no,yes,no,no,no,yes,yes,no,5,3,3,1,1,3,4,5,5,6
2,GP,F,15,U,LE3,T,1,1,at_home,other,other,mother,1,2,3,yes,no,yes,no,yes,yes,yes,no,4,3,2,2,3,3,10,7,8,10
3,GP,F,15,U,GT3,T,4,2,health,services,home,mother,1,3,0,no,yes,yes,yes,yes,yes,yes,yes,3,2,2,1,1,5,2,15,14,15
4,GP,F,16,U,GT3,T,3,3,other,other,home,father,1,2,0,no,yes,yes,no,yes,yes,no,no,4,3,2,1,2,5,4,6,10,10


In [62]:
traducao_colunas = {
    'school': 'escola',
    'sex': 'sexo',
    'age': 'idade',
    'address': 'endereço',
    'famsize': 'tamanho_da_familia',
    'Pstatus': 'status_pais',
    'Medu': 'educacao_mae',
    'Fedu': 'educacao_pai',
    'Mjob': 'profissao_mae',
    'Fjob': 'profissao_pai',
    'reason': 'motivo',
    'guardian': 'responsavel',
    'traveltime': 'tempo_viagem',
    'studytime': 'tempo_estudo',
    'failures': 'reprovacoes',
    'schoolsup': 'suporte_escolar',
    'famsup': 'suporte_familiar',
    'paid': 'aulas_pagas',
    'activities': 'atividades',
    'nursery': 'creche',
    'higher': 'ensino_superior',
    'internet': 'internet',
    'romantic': 'relacionamento_amoroso',
    'famrel': 'relacao_familiar',
    'freetime': 'tempo_livre',
    'goout': 'sair',
    'Dalc': 'consumo_alcool_dia',
    'Walc': 'consumo_alcool_fim_semana',
    'health': 'saude',
    'absences': 'faltas',
    'G1': 'nota_G1',
    'G2': 'nota_G2',
    'G3': 'nota_G3'
}

In [None]:
# Criando os IDs para as tabelas de dimensão
df['AlunoID'] = range(1, len(df) + 1)
df['InfoID'] = range(1, len(df) + 1)
df['EscolaID'] = range(1, len(df) + 1)
df['TempoID'] = range(1, len(df) + 1)
df['SaudeComportamentoID'] = range(1, len(df) + 1)

In [64]:
df.rename(columns=traducao_colunas, inplace=True)

In [65]:
df

Unnamed: 0,escola,sexo,idade,endereço,tamanho_da_familia,status_pais,educacao_mae,educacao_pai,profissao_mae,profissao_pai,motivo,responsavel,tempo_viagem,tempo_estudo,reprovacoes,suporte_escolar,suporte_familiar,aulas_pagas,atividades,creche,ensino_superior,internet,relacionamento_amoroso,relacao_familiar,tempo_livre,sair,consumo_alcool_dia,consumo_alcool_fim_semana,saude,faltas,nota_G1,nota_G2,nota_G3
0,GP,F,18,U,GT3,A,4,4,at_home,teacher,course,mother,2,2,0,yes,no,no,no,yes,yes,no,no,4,3,4,1,1,3,6,5,6,6
1,GP,F,17,U,GT3,T,1,1,at_home,other,course,father,1,2,0,no,yes,no,no,no,yes,yes,no,5,3,3,1,1,3,4,5,5,6
2,GP,F,15,U,LE3,T,1,1,at_home,other,other,mother,1,2,3,yes,no,yes,no,yes,yes,yes,no,4,3,2,2,3,3,10,7,8,10
3,GP,F,15,U,GT3,T,4,2,health,services,home,mother,1,3,0,no,yes,yes,yes,yes,yes,yes,yes,3,2,2,1,1,5,2,15,14,15
4,GP,F,16,U,GT3,T,3,3,other,other,home,father,1,2,0,no,yes,yes,no,yes,yes,no,no,4,3,2,1,2,5,4,6,10,10
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
390,MS,M,20,U,LE3,A,2,2,services,services,course,other,1,2,2,no,yes,yes,no,yes,yes,no,no,5,5,4,4,5,4,11,9,9,9
391,MS,M,17,U,LE3,T,3,1,services,services,course,mother,2,1,0,no,no,no,no,no,yes,yes,no,2,4,5,3,4,2,3,14,16,16
392,MS,M,21,R,GT3,T,1,1,other,other,course,other,1,1,3,no,no,no,no,no,yes,no,no,5,5,3,3,3,3,3,10,8,7
393,MS,M,18,R,LE3,T,3,2,services,other,course,mother,3,1,0,no,no,no,no,no,yes,yes,no,4,4,1,3,4,5,0,11,12,10


### Traduzindo os textos das colunas para português

In [74]:
# Função para traduzir o texto de uma coluna
def traduzir_coluna(texto):
    """Esse bloco de código define uma função em Python chamada traduzir_coluna, 
    que traduz textos automaticamente para o português, 
    usando a biblioteca deep_translator (com GoogleTranslator)."""
    
    if pd.isna(texto) or texto == '':
        return texto
    try:
        return GoogleTranslator(source='auto', target='pt').translate(texto)
    except Exception as e:
        print(f"Erro ao traduzir '{texto}': {e}")
        return texto

In [66]:
df['profissao_mae'] = df['profissao_mae'].apply(traduzir_coluna)


In [67]:
df['profissao_pai'] = df['profissao_pai'].apply(traduzir_coluna)

In [68]:
df['responsavel'] = df['responsavel'].apply(traduzir_coluna)

In [72]:
df['motivo'] = df['motivo'].apply(traduzir_coluna)

### Mapeando e colocando em portguês 

In [69]:
mapeamento = {
	'yes': 'sim',
	'no': 'não'
}

In [70]:
df['suporte_escolar'] = df['suporte_escolar'].map(mapeamento)
df['suporte_familiar'] = df['suporte_familiar'].map(mapeamento)
df['aulas_pagas'] = df['aulas_pagas'].map(mapeamento)
df['atividades'] = df['atividades'].map(mapeamento)
df['creche'] = df['creche'].map(mapeamento)
df['ensino_superior'] = df['ensino_superior'].map(mapeamento)
df['internet'] = df['internet'].map(mapeamento)
df['relacionamento_amoroso'] = df['relacionamento_amoroso'].map(mapeamento)

In [75]:
df.head()

Unnamed: 0,escola,sexo,idade,endereço,tamanho_da_familia,status_pais,educacao_mae,educacao_pai,profissao_mae,profissao_pai,motivo,responsavel,tempo_viagem,tempo_estudo,reprovacoes,suporte_escolar,suporte_familiar,aulas_pagas,atividades,creche,ensino_superior,internet,relacionamento_amoroso,relacao_familiar,tempo_livre,sair,consumo_alcool_dia,consumo_alcool_fim_semana,saude,faltas,nota_G1,nota_G2,nota_G3
0,GP,F,18,U,GT3,A,4,4,em casa,professor,curso,mãe,2,2,0,sim,não,não,não,sim,sim,não,não,4,3,4,1,1,3,6,5,6,6
1,GP,F,17,U,GT3,T,1,1,em casa,outro,curso,pai,1,2,0,não,sim,não,não,não,sim,sim,não,5,3,3,1,1,3,4,5,5,6
2,GP,F,15,U,LE3,T,1,1,em casa,outro,outro,mãe,1,2,3,sim,não,sim,não,sim,sim,sim,não,4,3,2,2,3,3,10,7,8,10
3,GP,F,15,U,GT3,T,4,2,saúde,serviços,lar,mãe,1,3,0,não,sim,sim,sim,sim,sim,sim,sim,3,2,2,1,1,5,2,15,14,15
4,GP,F,16,U,GT3,T,3,3,outro,outro,lar,pai,1,2,0,não,sim,sim,não,sim,sim,não,não,4,3,2,1,2,5,4,6,10,10


In [None]:
# Salvando o DataFrame
df.to_csv('student-mat-translated.csv', index=False)

### Inserindo os dados no banco de dados

In [None]:
# Abre a conexão com o banco de dados
Session = sessionmaker(bind=engine)
session = Session()

In [37]:
for index, row in df.iterrows():
    aluno = DimAluno(
        sexo=row['sexo'],
		idade=row['idade'],
		endereco=row['endereço'],
        tamanho_da_familia=row['tamanho_da_familia'],
		status_pais=row['status_pais']
	)
    session.add(aluno)
    
# Commit the session to save the changes
session.commit()

In [80]:
pais = [
    DimInfoPais(
        educacao_mae=row['educacao_mae'],
        educacao_pai=row['educacao_pai'],
        profissao_mae=row['profissao_mae'],
        profissao_pai=row['profissao_pai']
	) 
    for _, row in df.iterrows()
]
session.bulk_save_objects(pais)
session.commit()

In [85]:
# Convertendo os valores 'sim/não' para True/False
def boolean_converter(valor):
	"""Essa função converte os valores 'sim' e 'não' em True e False, respectivamente."""
	return True if valor == 'sim' else False

In [106]:
session.rollback()  # Limpa o erro anterior

In [91]:
Escola = [
    DimEscola(
		escola=row['escola'],
		motivo=row['motivo'],
		suporte_escolar=boolean_converter(row['suporte_escolar']),
		suporte_familiar=boolean_converter(row['suporte_familiar']),
		aulas_pagas=boolean_converter(row['aulas_pagas']),
		atividades=boolean_converter(row['atividades']),
		creche=boolean_converter(row['creche']),
		ensino_superior=boolean_converter(row['ensino_superior'])
) 
for _, row in df.iterrows()
]


In [92]:
try:
    session.bulk_save_objects(Escola)
    session.commit()
except Exception as e:
    print("Erro ao inserir:", e)
    session.rollback()


In [93]:
Tempo = [
    DimTempo(
        tempo_viagem=row['tempo_viagem'],
		tempo_estudo=row['tempo_estudo'],
		tempo_livre=row['tempo_livre']
	) 
	for _, row in df.iterrows()
]
session.bulk_save_objects(Tempo)

In [96]:
# Uma função para converter 'sim'/'não' em booleanos
def boolean_converter(valor):
    """"
    converter as strings 'sim' e 'não' em True e False.
    """
    if isinstance(valor, str):
        return valor.strip().lower() == 'sim'
    return bool(valor)


In [99]:
SaudeComportamento = [
	DimSaudeComportamento(
		consumo_alcool_dia=row['consumo_alcool_dia'],
        consumo_alcool_fim_semana=row['consumo_alcool_fim_semana'],
		saude=row['saude'],
		relacionamento_amoroso=boolean_converter(row['relacionamento_amoroso']),
        relacao_familiar=row['relacao_familiar'],
		sair=row['sair']
	) 
	for _, row in df.iterrows()
]
session.bulk_save_objects(SaudeComportamento)

In [103]:
Desempenho = [
    FatoDesempenhoAluno(
        AlunoID=row['AlunoID'],
		InfoID=row['InfoID'],
		EscolaID=row['EscolaID'],
        TempoID=row['TempoID'],
		SaudeComportamentoID=row['SaudeComportamentoID'],
		reprovacoes=row['reprovacoes'],
        faltas=row['faltas'],
		nota_G1=row['nota_G1'],
		nota_G2=row['nota_G2'],
		nota_G3=row['nota_G3']
	) 
	for _, row in df.iterrows()
]
# session.bulk_save_objects(Desempenho)

In [107]:
# Commit the session to save the changes
session.commit()

In [104]:
df

Unnamed: 0,escola,sexo,idade,endereço,tamanho_da_familia,status_pais,educacao_mae,educacao_pai,profissao_mae,profissao_pai,motivo,responsavel,tempo_viagem,tempo_estudo,reprovacoes,suporte_escolar,suporte_familiar,aulas_pagas,atividades,creche,ensino_superior,internet,relacionamento_amoroso,relacao_familiar,tempo_livre,sair,consumo_alcool_dia,consumo_alcool_fim_semana,saude,faltas,nota_G1,nota_G2,nota_G3,AlunoID,InfoID,EscolaID,TempoID,SaudeComportamentoID
0,GP,F,18,U,GT3,A,4,4,em casa,professor,curso,mãe,2,2,0,sim,não,não,não,sim,sim,não,não,4,3,4,1,1,3,6,5,6,6,1,1,1,1,1
1,GP,F,17,U,GT3,T,1,1,em casa,outro,curso,pai,1,2,0,não,sim,não,não,não,sim,sim,não,5,3,3,1,1,3,4,5,5,6,2,2,2,2,2
2,GP,F,15,U,LE3,T,1,1,em casa,outro,outro,mãe,1,2,3,sim,não,sim,não,sim,sim,sim,não,4,3,2,2,3,3,10,7,8,10,3,3,3,3,3
3,GP,F,15,U,GT3,T,4,2,saúde,serviços,lar,mãe,1,3,0,não,sim,sim,sim,sim,sim,sim,sim,3,2,2,1,1,5,2,15,14,15,4,4,4,4,4
4,GP,F,16,U,GT3,T,3,3,outro,outro,lar,pai,1,2,0,não,sim,sim,não,sim,sim,não,não,4,3,2,1,2,5,4,6,10,10,5,5,5,5,5
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
390,MS,M,20,U,LE3,A,2,2,serviços,serviços,curso,outro,1,2,2,não,sim,sim,não,sim,sim,não,não,5,5,4,4,5,4,11,9,9,9,391,391,391,391,391
391,MS,M,17,U,LE3,T,3,1,serviços,serviços,curso,mãe,2,1,0,não,não,não,não,não,sim,sim,não,2,4,5,3,4,2,3,14,16,16,392,392,392,392,392
392,MS,M,21,R,GT3,T,1,1,outro,outro,curso,outro,1,1,3,não,não,não,não,não,sim,não,não,5,5,3,3,3,3,3,10,8,7,393,393,393,393,393
393,MS,M,18,R,LE3,T,3,2,serviços,outro,curso,mãe,3,1,0,não,não,não,não,não,sim,sim,não,4,4,1,3,4,5,0,11,12,10,394,394,394,394,394
