In [0]:
%python 

#Importando biblioteca 
from pyspark.sql import SparkSession    
                    
# Criando a sessão Spark por segurança
spark = SparkSession.builder.appName("DatabricksETL").getOrCreate()   
    
# Criando esquema Bronze caso não exista
spark.sql("CREATE SCHEMA IF NOT EXISTS bronze")    

# Carregando o dataset escolhido
bronze_path = "dbfs:/FileStore/shared_uploads/doamaral.amanda@gmail.com/StudentPerfomanceFactors-1.csv" 

#Lendo CSV e criando DataFrame Bronze
df_bronze = (spark.read
    .option("header", "true")
    .option("inferSchema", "true")  
    .option("sep", ",") #Definindo delimitador
    .csv(bronze_path)) #Indicando o caminho do dataset

# Criando tabela Bronze (Raw Data)
df_bronze.write.format("delta").mode("overwrite").saveAsTable("bronze.student_performance")

# Exibindo dados iniciais
display(df_bronze)

Hours_Studied,Attendance,Parental_Involvement,Access_to_Resources,Extracurricular_Activities,Sleep_Hours,Previous_Scores,Motivation_Level,Internet_Access,Tutoring_Sessions,Family_Income,Teacher_Quality,School_Type,Peer_Influence,Physical_Activity,Learning_Disabilities,Parental_Education_Level,Distance_from_Home,Gender,Exam_Score
23,84,Low,High,No,7,73,Low,Yes,0,Low,Medium,Public,Positive,3,No,High School,Near,Male,67
19,64,Low,Medium,No,8,59,Low,Yes,2,Medium,Medium,Public,Negative,4,No,College,Moderate,Female,61
24,98,Medium,Medium,Yes,7,91,Medium,Yes,2,Medium,Medium,Public,Neutral,4,No,Postgraduate,Near,Male,74
29,89,Low,Medium,Yes,8,98,Medium,Yes,1,Medium,Medium,Public,Negative,4,No,High School,Moderate,Male,71
19,92,Medium,Medium,Yes,6,65,Medium,Yes,3,Medium,High,Public,Neutral,4,No,College,Near,Female,70
19,88,Medium,Medium,Yes,8,89,Medium,Yes,3,Medium,Medium,Public,Positive,3,No,Postgraduate,Near,Male,71
29,84,Medium,Low,Yes,7,68,Low,Yes,1,Low,Medium,Private,Neutral,2,No,High School,Moderate,Male,67
25,78,Low,High,Yes,6,50,Medium,Yes,1,High,High,Public,Negative,2,No,High School,Far,Male,66
17,94,Medium,High,No,6,80,High,Yes,0,Medium,Low,Private,Neutral,1,No,College,Near,Male,69
23,98,Medium,Medium,Yes,8,71,Medium,Yes,0,High,High,Public,Positive,5,No,High School,Moderate,Male,72


In [0]:
%sql
-- Salvar os dados traduzidos e com novos nomes em uma nova tabela "bronze.traducao_pt"
CREATE OR REPLACE TABLE bronze.traducao_pt
AS
SELECT
    Hours_Studied AS Horas_Estudadas,
    Attendance AS Frequencia,
    Parental_Involvement AS Suporte_Pais,
    Access_to_Resources AS Acesso_Recursos,
    Extracurricular_Activities AS Ativ_Extra,
    Sleep_Hours AS Qld_Sono,
    Previous_Scores AS Notas_Anteriores,
    Motivation_Level AS Motivacao,
    Internet_Access AS Acesso_Internet,
    Tutoring_Sessions AS Tutorias,
    Family_Income AS Sit_Financeira,
    Teacher_Quality AS Qld_Professores,
    School_Type AS Tipo_Escola,
    Peer_Influence AS Influencia,
    Physical_Activity AS Ativ_Fisica,
    Learning_Disabilities AS Dificuldade,
    Parental_Education_Level AS Educa_Pais,
    Distance_from_Home AS Escola_Casa,
    Gender AS Genero,
    Exam_Score AS Nota
FROM bronze.student_performance;


num_affected_rows,num_inserted_rows


In [0]:
%sql
-- Visualizando a nova tabela com campos em potuguês
SELECT *  
FROM bronze.traducao_pt;

Horas_Estudadas,Frequencia,Suporte_Pais,Acesso_Recursos,Ativ_Extra,Qld_Sono,Notas_Anteriores,Motivacao,Acesso_Internet,Tutorias,Sit_Financeira,Qld_Professores,Tipo_Escola,Influencia,Ativ_Fisica,Dificuldade,Educa_Pais,Escola_Casa,Genero,Nota
23,84,Low,High,No,7,73,Low,Yes,0,Low,Medium,Public,Positive,3,No,High School,Near,Male,67
19,64,Low,Medium,No,8,59,Low,Yes,2,Medium,Medium,Public,Negative,4,No,College,Moderate,Female,61
24,98,Medium,Medium,Yes,7,91,Medium,Yes,2,Medium,Medium,Public,Neutral,4,No,Postgraduate,Near,Male,74
29,89,Low,Medium,Yes,8,98,Medium,Yes,1,Medium,Medium,Public,Negative,4,No,High School,Moderate,Male,71
19,92,Medium,Medium,Yes,6,65,Medium,Yes,3,Medium,High,Public,Neutral,4,No,College,Near,Female,70
19,88,Medium,Medium,Yes,8,89,Medium,Yes,3,Medium,Medium,Public,Positive,3,No,Postgraduate,Near,Male,71
29,84,Medium,Low,Yes,7,68,Low,Yes,1,Low,Medium,Private,Neutral,2,No,High School,Moderate,Male,67
25,78,Low,High,Yes,6,50,Medium,Yes,1,High,High,Public,Negative,2,No,High School,Far,Male,66
17,94,Medium,High,No,6,80,High,Yes,0,Medium,Low,Private,Neutral,1,No,College,Near,Male,69
23,98,Medium,Medium,Yes,8,71,Medium,Yes,0,High,High,Public,Positive,5,No,High School,Moderate,Male,72


In [0]:
%sql
DESCRIBE bronze.traducao_pt;

col_name,data_type,comment
Horas_Estudadas,int,
Frequencia,int,
Suporte_Pais,string,
Acesso_Recursos,string,
Ativ_Extra,string,
Qld_Sono,int,
Notas_Anteriores,int,
Motivacao,string,
Acesso_Internet,string,
Tutorias,int,


In [0]:
%sql
-- Verificando as categorias possíveis para campos categóricos
SELECT DISTINCT Suporte_Pais
FROM bronze.traducao_pt;

Suporte_Pais
High
Low
Medium


In [0]:
%sql
SELECT DISTINCT Qld_Professores
FROM bronze.traducao_pt;

Qld_Professores
High
Low
""
Medium


In [0]:
%sql
SELECT DISTINCT Acesso_Recursos
FROM bronze.traducao_pt;

Acesso_Recursos
High
Low
Medium


In [0]:
%sql
SELECT DISTINCT Ativ_Extra
FROM bronze.traducao_pt;

Ativ_Extra
No
Yes


In [0]:
%sql
SELECT DISTINCT Sit_Financeira
FROM bronze.traducao_pt;

Sit_Financeira
High
Low
Medium


In [0]:
%sql
SELECT DISTINCT Tipo_Escola
FROM bronze.traducao_pt;

Tipo_Escola
Public
Private


In [0]:
%sql
SELECT DISTINCT Acesso_Internet
FROM bronze.traducao_pt;

Acesso_Internet
No
Yes


In [0]:
%sql
SELECT DISTINCT Influencia
FROM bronze.traducao_pt;

Influencia
Positive
Neutral
Negative


In [0]:
%sql
SELECT DISTINCT Motivacao
FROM bronze.traducao_pt;

Motivacao
High
Low
Medium


In [0]:
%sql
SELECT DISTINCT Dificuldade
FROM bronze.traducao_pt;

Dificuldade
No
Yes


In [0]:
%sql
SELECT DISTINCT Educa_Pais
FROM bronze.traducao_pt;

Educa_Pais
High School
""
Postgraduate
College


In [0]:
%sql
SELECT DISTINCT Escola_Casa
FROM bronze.traducao_pt;

Escola_Casa
Far
""
Near
Moderate


In [0]:
%sql
SELECT DISTINCT Genero
FROM bronze.traducao_pt;

Genero
Female
Male


In [0]:
%sql
CREATE SCHEMA IF NOT EXISTS prata;

In [0]:
%sql
CREATE OR REPLACE TABLE prata.inicial AS
SELECT *
FROM bronze.traducao_pt
WHERE Qld_Professores IS NOT NULL
  AND Educa_Pais IS NOT NULL
  AND Escola_Casa IS NOT NULL;

num_affected_rows,num_inserted_rows


In [0]:
%sql
SELECT *
FROM prata.inicial
WHERE Qld_Professores IS NULL 
   OR Educa_Pais IS NULL
   OR Escola_Casa IS NULL
   OR Nota IS NULL
   OR Horas_Estudadas IS NULL
   OR Tutorias IS NULL
   OR Frequencia IS NULL
   OR Notas_Anteriores IS NULL
   OR Genero IS NULL   
   OR Nota IS NULL
   OR Dificuldade IS NULL
   OR Influencia IS NULL
   OR Tipo_Escola IS NULL
   OR Sit_Financeira IS NULL
   OR Acesso_Internet IS NULL
   OR Acesso_Internet IS NULL
   OR Qld_Sono IS NULL   
   OR Ativ_Extra IS NULL
   OR Acesso_Recursos IS NULL
   OR Suporte_Pais IS NULL;

Horas_Estudadas,Frequencia,Suporte_Pais,Acesso_Recursos,Ativ_Extra,Qld_Sono,Notas_Anteriores,Motivacao,Acesso_Internet,Tutorias,Sit_Financeira,Qld_Professores,Tipo_Escola,Influencia,Ativ_Fisica,Dificuldade,Educa_Pais,Escola_Casa,Genero,Nota


In [0]:
%sql
--Verificando valores inválidos para Nota
SELECT COUNT(*) AS invalidas
FROM prata.inicial
WHERE Nota < 0 OR Nota > 100 OR   
      Horas_Estudadas < 0 OR 
      Tutorias < 0 OR
      Ativ_Fisica < 0 OR
      Escola_Casa < 0 OR
      Frequencia < 0 OR Frequencia > 100 OR 
      Notas_Anteriores < 0 OR Notas_Anteriores > 100;

invalidas
1


In [0]:
%sql
SELECT *
FROM prata.inicial
WHERE Nota < 0 OR Nota > 100 OR   
      Horas_Estudadas < 0 OR 
      Tutorias < 0 OR
      Ativ_Fisica < 0 OR
      Escola_Casa < 0 OR
      Frequencia < 0 OR Frequencia > 100 OR 
      Notas_Anteriores < 0 OR Notas_Anteriores > 100;


Horas_Estudadas,Frequencia,Suporte_Pais,Acesso_Recursos,Ativ_Extra,Qld_Sono,Notas_Anteriores,Motivacao,Acesso_Internet,Tutorias,Sit_Financeira,Qld_Professores,Tipo_Escola,Influencia,Ativ_Fisica,Dificuldade,Educa_Pais,Escola_Casa,Genero,Nota
27,98,Low,Medium,Yes,6,93,Low,No,5,High,High,Public,Positive,3,No,High School,Moderate,Female,101


In [0]:
%sql
-- Como encontrei um registro inválido para um dos campos, vou removê-lo
CREATE OR REPLACE TEMP VIEW prata_validos AS
SELECT *
FROM prata.inicial
WHERE 
    Nota BETWEEN 0 AND 100 AND
    Horas_Estudadas >= 0 AND
    Tutorias >= 0 AND
    Frequencia BETWEEN 0 AND 100 AND
    Notas_Anteriores BETWEEN 0 AND 100;

In [0]:
%sql
--Validando remoção de valores inválidos
SELECT *
FROM prata_validos
WHERE Nota < 0 OR Nota > 100 OR   
      Horas_Estudadas < 0 OR 
      Tutorias < 0 OR
      Frequencia < 0 AND Frequencia > 100 OR 
      Notas_Anteriores < 0 AND Notas_Anteriores > 100;

Horas_Estudadas,Frequencia,Suporte_Pais,Acesso_Recursos,Ativ_Extra,Qld_Sono,Notas_Anteriores,Motivacao,Acesso_Internet,Tutorias,Sit_Financeira,Qld_Professores,Tipo_Escola,Influencia,Ativ_Fisica,Dificuldade,Educa_Pais,Escola_Casa,Genero,Nota


In [0]:
%sql
-- Encontrando Máximos e Mínimos de Dados Numéricos desse Dataset  
SELECT MAX(Nota) AS Maximo_Nota, MIN(Nota) AS Minimo_Nota,  
MAX(Horas_Estudadas) AS Maximo_HEstudadas, MIN(Horas_Estudadas) AS Minimo_HEstudadas,   
MAX(Frequencia) AS Maximo_Frequencia, MIN(Frequencia) AS Minimo_Frequencia, 
MAX(Qld_Sono) AS Maximo_Sono, MIN(Qld_Sono) AS Minimo_Sono, 
MAX(Notas_Anteriores) AS Maximo_Notas_Ant, MIN(Notas_Anteriores) AS Minimo_Notas_Ant,
MAX(Tutorias) AS Maximo_Tutorias, MIN(Tutorias) AS Minimo_Tutorias,
MAX(Ativ_Fisica) AS Maximo_Ativ_Fisica, MIN(Ativ_Fisica) AS Minimo_Ativ_Fisica
FROM prata_validos;

Maximo_Nota,Minimo_Nota,Maximo_HEstudadas,Minimo_HEstudadas,Maximo_Frequencia,Minimo_Frequencia,Maximo_Sono,Minimo_Sono,Maximo_Notas_Ant,Minimo_Notas_Ant,Maximo_Tutorias,Minimo_Tutorias,Maximo_Ativ_Fisica,Minimo_Ativ_Fisica
100,55,44,1,100,60,10,4,100,50,8,0,6,0


In [0]:
%sql
-- Criar a camada Prata com dados limpos
CREATE OR REPLACE TEMP VIEW prata_limpos AS
SELECT 
    Horas_Estudadas,
    Frequencia,
    UPPER(TRIM(Suporte_Pais)) AS Suporte_Pais,
    UPPER(TRIM(Acesso_Recursos)) AS Acesso_Recursos,
    UPPER(TRIM(Ativ_Extra)) AS Ativ_Extra,
    Qld_Sono,
    Notas_Anteriores,
    UPPER(TRIM(Motivacao)) AS Motivacao,
    UPPER(TRIM(Acesso_Internet)) AS Acesso_Internet,
    Tutorias,
    UPPER(TRIM(Sit_Financeira)) AS Sit_Financeira,
    UPPER(TRIM(Qld_Professores)) AS Qld_Professores,
    UPPER(TRIM(Tipo_Escola)) AS Tipo_Escola,
    UPPER(TRIM(Influencia)) AS Influencia,
    Ativ_Fisica,
    UPPER(TRIM(Dificuldade)) AS Dificuldade,
    UPPER(TRIM(Educa_Pais)) AS Educa_Pais,
    UPPER(TRIM(Escola_Casa)) AS Escola_Casa,
    UPPER(TRIM(Genero)) AS Genero,
    Nota
FROM prata_validos;

In [0]:
%sql
SELECT *
FROM prata_limpos
LIMIT 10;

Horas_Estudadas,Frequencia,Suporte_Pais,Acesso_Recursos,Ativ_Extra,Qld_Sono,Notas_Anteriores,Motivacao,Acesso_Internet,Tutorias,Sit_Financeira,Qld_Professores,Tipo_Escola,Influencia,Ativ_Fisica,Dificuldade,Educa_Pais,Escola_Casa,Genero,Nota
23,84,LOW,HIGH,NO,7,73,LOW,YES,0,LOW,MEDIUM,PUBLIC,POSITIVE,3,NO,HIGH SCHOOL,NEAR,MALE,67
19,64,LOW,MEDIUM,NO,8,59,LOW,YES,2,MEDIUM,MEDIUM,PUBLIC,NEGATIVE,4,NO,COLLEGE,MODERATE,FEMALE,61
24,98,MEDIUM,MEDIUM,YES,7,91,MEDIUM,YES,2,MEDIUM,MEDIUM,PUBLIC,NEUTRAL,4,NO,POSTGRADUATE,NEAR,MALE,74
29,89,LOW,MEDIUM,YES,8,98,MEDIUM,YES,1,MEDIUM,MEDIUM,PUBLIC,NEGATIVE,4,NO,HIGH SCHOOL,MODERATE,MALE,71
19,92,MEDIUM,MEDIUM,YES,6,65,MEDIUM,YES,3,MEDIUM,HIGH,PUBLIC,NEUTRAL,4,NO,COLLEGE,NEAR,FEMALE,70
19,88,MEDIUM,MEDIUM,YES,8,89,MEDIUM,YES,3,MEDIUM,MEDIUM,PUBLIC,POSITIVE,3,NO,POSTGRADUATE,NEAR,MALE,71
29,84,MEDIUM,LOW,YES,7,68,LOW,YES,1,LOW,MEDIUM,PRIVATE,NEUTRAL,2,NO,HIGH SCHOOL,MODERATE,MALE,67
25,78,LOW,HIGH,YES,6,50,MEDIUM,YES,1,HIGH,HIGH,PUBLIC,NEGATIVE,2,NO,HIGH SCHOOL,FAR,MALE,66
17,94,MEDIUM,HIGH,NO,6,80,HIGH,YES,0,MEDIUM,LOW,PRIVATE,NEUTRAL,1,NO,COLLEGE,NEAR,MALE,69
23,98,MEDIUM,MEDIUM,YES,8,71,MEDIUM,YES,0,HIGH,HIGH,PUBLIC,POSITIVE,5,NO,HIGH SCHOOL,MODERATE,MALE,72


In [0]:
%sql
CREATE OR REPLACE TABLE prata.nova_col AS 
SELECT *,
    CASE 
        WHEN Nota >= 85 THEN 'HIGH'
        WHEN Nota >= 70 AND Nota < 85 THEN 'MEDIUM'
        ELSE 'LOW' 
    END AS Categ_Nota
FROM prata_limpos;

num_affected_rows,num_inserted_rows


In [0]:
%sql
SELECT * 
FROM prata.nova_col
LIMIT 5;

Horas_Estudadas,Frequencia,Suporte_Pais,Acesso_Recursos,Ativ_Extra,Qld_Sono,Notas_Anteriores,Motivacao,Acesso_Internet,Tutorias,Sit_Financeira,Qld_Professores,Tipo_Escola,Influencia,Ativ_Fisica,Dificuldade,Educa_Pais,Escola_Casa,Genero,Nota,Categ_Nota
23,84,LOW,HIGH,NO,7,73,LOW,YES,0,LOW,MEDIUM,PUBLIC,POSITIVE,3,NO,HIGH SCHOOL,NEAR,MALE,67,LOW
19,64,LOW,MEDIUM,NO,8,59,LOW,YES,2,MEDIUM,MEDIUM,PUBLIC,NEGATIVE,4,NO,COLLEGE,MODERATE,FEMALE,61,LOW
24,98,MEDIUM,MEDIUM,YES,7,91,MEDIUM,YES,2,MEDIUM,MEDIUM,PUBLIC,NEUTRAL,4,NO,POSTGRADUATE,NEAR,MALE,74,MEDIUM
29,89,LOW,MEDIUM,YES,8,98,MEDIUM,YES,1,MEDIUM,MEDIUM,PUBLIC,NEGATIVE,4,NO,HIGH SCHOOL,MODERATE,MALE,71,MEDIUM
19,92,MEDIUM,MEDIUM,YES,6,65,MEDIUM,YES,3,MEDIUM,HIGH,PUBLIC,NEUTRAL,4,NO,COLLEGE,NEAR,FEMALE,70,MEDIUM


In [0]:
%sql
SELECT COUNT(*) 
FROM prata.nova_col;

count(1)
6377


In [0]:
%sql
SELECT COUNT(*) FROM (SELECT DISTINCT * FROM prata.nova_col) AS sub;

count(1)
6377


Criando tabelas para estruturar a análise utilizando Modelo Estrela

In [0]:
%python

dbutils.fs.rm("dbfs:/user/hive/warehouse/prata.db/dim_aluno", recurse=True)


Out[2]: True

In [0]:
%sql
-- Criando Tabela para Dimensão de Aluno
CREATE OR REPLACE TABLE prata.Dim_Aluno (
    Genero STRING,
    Sit_Financeira STRING,
    Suporte_Pais STRING,
    Acesso_Recursos STRING,
    Acesso_Internet STRING,
    Educa_Pais STRING
) USING DELTA
LOCATION 'dbfs:/user/hive/warehouse/prata.db/dim_aluno';

-- Criando Tabela para Dimensão de Escola
CREATE OR REPLACE TABLE prata.Dim_Escola (
    Qld_Professores STRING,
    Notas_Anteriores INT,
    Tipo_Escola STRING,
    Escola_Casa STRING
) USING DELTA
LOCATION 'dbfs:/user/hive/warehouse/prata.db/dim_escola';

-- Criando Tabela para Dimensão de Estudo
CREATE OR REPLACE TABLE prata.Dim_Estudo (
    Dificuldade STRING,
    Frequencia INT,
    Tutorias INT,
    Horas_Estudadas INT
) USING DELTA
LOCATION 'dbfs:/user/hive/warehouse/prata.db/dim_estudo';

-- Criando Tabela para Dimensão de Comportamento
CREATE OR REPLACE TABLE prata.Dim_Comportamento (
    Ativ_Fisica INT,
    Qld_Sono INT,
    Ativ_Extra STRING,
    Motivacao STRING,
    Influencia STRING
) USING DELTA
LOCATION 'dbfs:/user/hive/warehouse/prata.db/dim_comportamento';

-- Criando a Tabela para Tabela Fato de Desempenho
CREATE OR REPLACE TABLE prata.Fato_Desempenho (
    Nota INT,
    Categ_Nota STRING,
    Id_Aluno INT,
    Id_Escola INT,
    Id_Estudo INT,
    Id_Comportamento INT
) USING DELTA
LOCATION 'dbfs:/user/hive/warehouse/prata.db/fato_desempenho';


In [0]:
%sql
CREATE SCHEMA IF NOT EXISTS ouro;

Distribuição geral por categoria da nota (Categ_Nota)

In [0]:
%sql
--Foi criada uma tabela com a distribuição das notas por categoria, incluindo seus %. A Tabela se encontra no catálogo do Databricks e na seção Objetivos & Estratégias no Notions
CREATE OR REPLACE TABLE ouro.dist_notas
SELECT Categ_Nota, 
COUNT(*) AS total, 
ROUND(100.0 * COUNT(*) / SUM(COUNT(*)) OVER (), 1) AS porcentagem
FROM prata.nova_col
GROUP BY Categ_Nota;


num_affected_rows,num_inserted_rows


Criando chaves para correlação entre tabelas (monotonically_increasing_id()) e populando tabelas no modelo Estrela

In [0]:
%sql
CREATE OR REPLACE TABLE ouro.Dim_Aluno AS
SELECT
  monotonically_increasing_id() AS Codigo,
  Genero,
  Sit_Financeira,
  Suporte_Pais,
  Acesso_Recursos,
  Acesso_Internet,
  Educa_Pais
FROM (
  SELECT DISTINCT
    Genero,
    Sit_Financeira,
    Suporte_Pais,
    Acesso_Recursos,
    Acesso_Internet,
    Educa_Pais
  FROM prata.nova_col
);


num_affected_rows,num_inserted_rows


In [0]:
%sql
CREATE OR REPLACE TABLE ouro.Dim_Escola AS
SELECT
  monotonically_increasing_id() AS Codigo,
  Qld_Professores,
  Notas_Anteriores,
  Tipo_Escola,
  Escola_Casa
FROM (
  SELECT DISTINCT
    Qld_Professores,
    Notas_Anteriores,
    Tipo_Escola,
    Escola_Casa
  FROM prata.nova_col
);


num_affected_rows,num_inserted_rows


In [0]:
%sql
CREATE OR REPLACE TABLE ouro.Dim_Estudo AS
SELECT
  monotonically_increasing_id() AS Codigo,
  Dificuldade,
  Frequencia,
  Tutorias,
  Horas_Estudadas
FROM (
  SELECT DISTINCT
    Dificuldade,
    Frequencia,
    Tutorias,
    Horas_Estudadas
  FROM prata.nova_col
);


num_affected_rows,num_inserted_rows


In [0]:
%sql
CREATE OR REPLACE TABLE ouro.Dim_Comportamento AS
SELECT
  monotonically_increasing_id() AS Codigo,
  Ativ_Fisica,
  Qld_Sono,
  Ativ_Extra,
  Motivacao,
  Influencia
FROM (
  SELECT DISTINCT
    Ativ_Fisica,
    Qld_Sono,
    Ativ_Extra,
    Motivacao,
    Influencia
  FROM prata.nova_col
);


num_affected_rows,num_inserted_rows


Criando nova tabela fato (Ouro) com base nas tabelas dimensões que já estão com suas chaves primárias. Realizando a correlação PK-FK

In [0]:
%sql
-- 
CREATE OR REPLACE TABLE ouro.Fato_Desempenho AS
SELECT
  f.Nota,
  a.Codigo AS Id_Aluno,
  e.Codigo AS Id_Escola,
  es.Codigo AS Id_Estudo,
  c.Codigo AS Id_Comportamento,
  f.Categ_Nota
FROM prata.nova_col f

JOIN ouro.Dim_Aluno a ON 
    f.Genero = a.Genero AND
    f.Sit_Financeira = a.Sit_Financeira AND
    f.Suporte_Pais = a.Suporte_Pais AND
    f.Acesso_Recursos = a.Acesso_Recursos AND
    f.Acesso_Internet = a.Acesso_Internet AND
    f.Educa_Pais = a.Educa_Pais

JOIN ouro.Dim_Escola e ON 
    f.Qld_Professores = e.Qld_Professores AND
    f.Notas_Anteriores = e.Notas_Anteriores AND
    f.Tipo_Escola = e.Tipo_Escola AND
    f.Escola_Casa = e.Escola_Casa

JOIN ouro.Dim_Estudo es ON 
    f.Dificuldade = es.Dificuldade AND
    f.Frequencia = es.Frequencia AND
    f.Tutorias = es.Tutorias AND
    f.Horas_Estudadas = es.Horas_Estudadas

JOIN ouro.Dim_Comportamento c ON 
    f.Ativ_Fisica = c.Ativ_Fisica AND
    f.Qld_Sono = c.Qld_Sono AND
    f.Ativ_Extra = c.Ativ_Extra AND
    f.Motivacao = c.Motivacao AND
    f.Influencia = c.Influencia;


num_affected_rows,num_inserted_rows


Qual a tendência para as variáveis quando os alunos tem o melhor desempenho (HIGH)?

In [0]:
%sql
-- Verificando com o fator Motivação
SELECT c.Motivacao, COUNT(*) AS qtd
FROM ouro.fato_desempenho f
JOIN ouro.Dim_Comportamento c ON f.Id_Comportamento = c.Codigo
WHERE f.Categ_Nota = 'HIGH'
GROUP BY c.Motivacao
ORDER BY qtd DESC;

Motivacao,qtd
MEDIUM,18
HIGH,8
LOW,8


Qual a media numerico para variaveis numericas entre alunos de notas altas?

In [0]:
%sql
SELECT
  AVG(est.Horas_Estudadas) AS media_h_estudadas,
  AVG(est.Tutorias) AS media_tutorias,
  AVG(est.Frequencia) AS media_frequencia
FROM ouro.Dim_Estudo est
JOIN ouro.fato_desempenho f ON f.Id_Estudo = est.Codigo
WHERE f.Categ_Nota = 'HIGH';


media_h_estudadas,media_tutorias,media_frequencia
19.647058823529413,1.3823529411764706,81.38235294117646
