#### üü© Inicializa√ß√£o do "Compute"

In [0]:
# Instala bibliotecas necess√°rias do python para realizar a execu√ß√£o dos notebooks
# Nessa vers√£o community que estamos utilizando, √© neccess√°rio instalar toda vez que cria um compute. ü•≤ 
# tentei automatizar isso, mas n√£o consegui. 

%pip install openpyxl kaggle pandas numpy
# Em qualquer notebook Databricks

Python interpreter will be restarted.
Collecting openpyxl
  Downloading openpyxl-3.1.5-py2.py3-none-any.whl (250 kB)
Collecting kaggle
  Downloading kaggle-1.7.4.2-py3-none-any.whl (173 kB)
Collecting et-xmlfile
  Downloading et_xmlfile-2.0.0-py3-none-any.whl (18 kB)
Collecting python-slugify
  Downloading python_slugify-8.0.4-py2.py3-none-any.whl (10 kB)
Collecting tqdm
  Downloading tqdm-4.67.1-py3-none-any.whl (78 kB)
Collecting text-unidecode
  Downloading text_unidecode-1.3-py2.py3-none-any.whl (78 kB)
Installing collected packages: text-unidecode, tqdm, python-slugify, et-xmlfile, openpyxl, kaggle
Successfully installed et-xmlfile-2.0.0 kaggle-1.7.4.2 openpyxl-3.1.5 python-slugify-8.0.4 text-unidecode-1.3 tqdm-4.67.1
Python interpreter will be restarted.


#### Coleta: 
üü© Importa√ß√£o de dados (_RAW DATA, Bronze Stage_)

In [0]:
# Importa os metadados do projeto e gera um dataframe pra eventuais manipula√ß√µes
import os
import pandas as pd

# Caminho original no DBFS
RAW_DIR = "dbfs:/FileStore/tables/"
METADADOS_FILE = RAW_DIR + "metadata.xlsx"
# Caminho tempor√°rio para o arquivo ser acessado pelo Pandas
TEMP_FILE = "/tmp/metadata.xlsx"
# Copiar arquivo do DBFS para o diret√≥rio tempor√°rio
dbutils.fs.cp(METADADOS_FILE, "file:" + TEMP_FILE, True)
# Carregar a planilha ignorando as duas primeiras linhas
METADADOS = pd.read_excel(TEMP_FILE, skiprows=2, engine="openpyxl")
# Exibir as primeiras linhas do DataFrame
METADADOS.head()



Unnamed: 0,Column Name,Data Type,Description
0,Student_ID,String,Unique identifier for each student
1,First_Name,String,Student‚Äôs first name
2,Last_Name,String,Student‚Äôs last name
3,Email,String,Contact email (can be anonymized)
4,Gender,Categorical,"Male, Female, Other"


In [0]:
# Realiza o est√°gio BRONZE, copiando o arquivo e salvando em CSV

# Caminho do arquivo original no DBFS
STUDENTS_FILE_DBFS = "dbfs:/FileStore/tables/Students_Grading_Dataset.csv"
STUDENTS_FILE_LOCAL = "/tmp/Students_Grading_Dataset.csv"

# Copiar do DBFS para um caminho local
dbutils.fs.cp(STUDENTS_FILE_DBFS, "file:" + STUDENTS_FILE_LOCAL, True)

# Verificar se o arquivo foi copiado corretamente
if not os.path.exists(STUDENTS_FILE_LOCAL):
    raise FileNotFoundError(f"Arquivo {STUDENTS_FILE_LOCAL} n√£o encontrado.")

# Carregar com Pandas
BRONZE = pd.read_csv(STUDENTS_FILE_LOCAL)

# Exibir as primeiras linhas
print("Estrutura do DataFrame BRONZE:")
print(BRONZE.head())

# Criar diret√≥rio no DBFS para salvar o CSV
BRONZE_DIR_DBFS = "dbfs:/FileStore/tables/1_BRONZE"
dbutils.fs.mkdirs(BRONZE_DIR_DBFS)

# Salvar o arquivo temporariamente em /tmp
BRONZE_TEMP_PATH = "/tmp/BRONZE.csv"
BRONZE.to_csv(BRONZE_TEMP_PATH, decimal='.', index=False, encoding='utf-8')

# Copiar o CSV local (/tmp) para o DBFS
BRONZE_FILE_DBFS = "dbfs:/FileStore/tables/1_BRONZE/BRONZE.csv"
dbutils.fs.cp("file:" + BRONZE_TEMP_PATH, BRONZE_FILE_DBFS)

# Confirma√ß√£o
print(f"Arquivo BRONZE salvo corretamente em: {BRONZE_FILE_DBFS}")


Estrutura do DataFrame BRONZE:
  Student_ID First_Name Last_Name                    Email  Gender  Age  \
0      S1000       Omar  Williams  student0@university.com  Female   22   
1      S1001      Maria     Brown  student1@university.com    Male   18   
2      S1002      Ahmed     Jones  student2@university.com    Male   24   
3      S1003       Omar  Williams  student3@university.com  Female   24   
4      S1004       John     Smith  student4@university.com  Female   23   

    Department  Attendance (%)  Midterm_Score  Final_Score  ...  \
0  Engineering           52.29          55.03        57.82  ...   
1  Engineering           97.27          97.23        45.80  ...   
2     Business           57.19          67.05        93.68  ...   
3  Mathematics           95.15          47.79        80.63  ...   
4           CS           54.18          46.59        78.89  ...   

   Projects_Score  Total_Score  Grade  Study_Hours_per_Week  \
0           85.90        56.09      F               

#### Modelagem: 
‚≠ê Esquema em Estrela (Star Schema)

In [0]:
# Cria a modelagem do Estrela (Star Schema) do Bronze, gerando os arquivos prata.

# Importar PySpark e fun√ß√µes
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, monotonically_increasing_id

# Criar a sess√£o do Spark (se n√£o tiver sido criada ainda)
spark = SparkSession.builder.appName("Modelagem Dimensional").getOrCreate()

# Carregar o arquivo CSV com PySpark (caso o BRONZE n√£o seja um DataFrame PySpark)
BRONZE = spark.read.option("header", "true").option("inferSchema", "true").csv("dbfs:/FileStore/tables/1_BRONZE/BRONZE.csv")

# Criar dimens√£o ALUNOS
ALUNOS = (BRONZE
    .select(
        col("Student_ID").alias("ID_Aluno"),
        "First_Name", "Last_Name", "Email", "Gender", "Age",
        "Parent_Education_Level", "Family_Income_Level"
    )
)

# Criar dimens√£o DISCIPLINAS (sem repeti√ß√£o, com ID incremental)
DISCIPLINAS = (BRONZE
    .select("Department")
    .distinct()
    .withColumnRenamed("Department", "Nome_Disciplina")
    .withColumn("ID_Disciplina", monotonically_increasing_id())
)

# Criar dimens√£o H√ÅBITOS
HABITOS = (BRONZE
    .select(
        col("Student_ID").alias("ID_Aluno"),
        "Study_Hours_per_Week",
        "Extracurricular_Activities",
        "Internet_Access_at_Home",
        col("Stress_Level (1-10)"),
        "Sleep_Hours_per_Night"
    )
)

# Criar tabela fato DESEMPENHO
FATO_DESEMPENHO = (BRONZE
    .select(
        col("Student_ID").alias("ID_Aluno"),
        col("Department").alias("ID_Disciplina"),
        col("Attendance (%)").alias("Presenca"),
        col("Midterm_Score").alias("Nota_Midterm"),
        col("Final_Score").alias("Nota_Final"),
        col("Projects_Score").alias("Nota_Projetos"),
        col("Total_Score").alias("Nota_Total"),
        col("Grade").alias("Conceito")
    )
)

# Definir o diret√≥rio PRATA no DBFS
PRATA_DIR_DBFS = "dbfs:/FileStore/tables/2_PRATA"

# Criar o diret√≥rio no DBFS
dbutils.fs.mkdirs(PRATA_DIR_DBFS)

# Salvar as tabelas no diret√≥rio PRATA como CSV, sobrescrevendo se j√° existirem

# Dimens√£o ALUNOS
ALUNOS.write.mode("overwrite").option("header", "true").csv(f"{PRATA_DIR_DBFS}/ALUNOS.csv")

# Dimens√£o DISCIPLINAS
DISCIPLINAS.write.mode("overwrite").option("header", "true").csv(f"{PRATA_DIR_DBFS}/DISCIPLINAS.csv")

# Dimens√£o H√ÅBITOS
HABITOS.write.mode("overwrite").option("header", "true").csv(f"{PRATA_DIR_DBFS}/HABITOS.csv")

# Tabela FATO_DESEMPENHO
FATO_DESEMPENHO.write.mode("overwrite").option("header", "true").csv(f"{PRATA_DIR_DBFS}/FATO_DESEMPENHO.csv")

print("Arquivos sobrescritos com sucesso em:", PRATA_DIR_DBFS)



Arquivos sobrescritos com sucesso em: dbfs:/FileStore/tables/2_PRATA


In [0]:
# Gera as views tempor√°rias do csv para visualizar no Databricks.

# ALUNOS
spark.read.option("header", "true").csv(f"{PRATA_DIR_DBFS}/ALUNOS.csv").createOrReplaceTempView("csv_alunos")

# DISCIPLINAS
spark.read.option("header", "true").csv(f"{PRATA_DIR_DBFS}/DISCIPLINAS.csv").createOrReplaceTempView("csv_disciplinas")

# H√ÅBITOS
spark.read.option("header", "true").csv(f"{PRATA_DIR_DBFS}/HABITOS.csv").createOrReplaceTempView("csv_habitos")

# FATO_DESEMPENHO
spark.read.option("header", "true").csv(f"{PRATA_DIR_DBFS}/FATO_DESEMPENHO.csv").createOrReplaceTempView("csv_fato_desempenho")


#### Carga:
‚¨ÜÔ∏è Vizualiza√ß√£o e carregamento de dados (_Loading_)

###### _üóÉÔ∏è_ Tabela Alunos

In [0]:
%sql
-- Exemplo de dados --
SELECT * FROM csv_alunos LIMIT 10;

ID_Aluno,First_Name,Last_Name,Email,Gender,Age,Parent_Education_Level,Family_Income_Level
S1000,Omar,Williams,student0@university.com,Female,22,High School,Medium
S1001,Maria,Brown,student1@university.com,Male,18,,Medium
S1002,Ahmed,Jones,student2@university.com,Male,24,Master's,Low
S1003,Omar,Williams,student3@university.com,Female,24,High School,High
S1004,John,Smith,student4@university.com,Female,23,High School,High
S1005,Liam,Brown,student5@university.com,Male,21,PhD,High
S1006,Ahmed,Jones,student6@university.com,Male,24,,Low
S1007,Ahmed,Smith,student7@university.com,Male,19,,Medium
S1008,Omar,Smith,student8@university.com,Female,21,Bachelor's,Low
S1009,Sara,Smith,student9@university.com,Female,22,,Medium


In [0]:
%sql -- Cria√ß√£o e carregamento de tabela "Alunos"

DROP TABLE IF EXISTS default.ALUNOS;

CREATE TABLE default.ALUNOS
USING CSV
OPTIONS (
  path "dbfs:/FileStore/tables/2_PRATA/ALUNOS.csv",
  header "true",
  inferSchema "true"
);


###### üóÉÔ∏è Tabela Habitos

In [0]:
%sql -- Exemplo de dados --
SELECT * FROM csv_habitos LIMIT 10;

ID_Aluno,Study_Hours_per_Week,Extracurricular_Activities,Internet_Access_at_Home,Stress_Level (1-10),Sleep_Hours_per_Night
S1000,6.2,No,Yes,5,4.7
S1001,19.0,No,Yes,4,9.0
S1002,20.7,No,Yes,6,6.2
S1003,24.8,Yes,Yes,3,6.7
S1004,15.4,Yes,Yes,2,7.1
S1005,8.5,Yes,Yes,1,5.0
S1006,21.3,No,Yes,5,6.4
S1007,27.3,Yes,No,4,4.3
S1008,8.0,No,No,9,8.8
S1009,9.6,No,Yes,10,6.4


In [0]:
%sql -- Cria√ß√£o e carregamento de tabela "Habitos"
DROP TABLE IF EXISTS default.HABITOS;

CREATE TABLE default.HABITOS
USING CSV
OPTIONS (
  path "dbfs:/FileStore/tables/2_PRATA/HABITOS.csv",
  header "true",
  inferSchema "true"
);

üóÉÔ∏è Tabela Disciplinas

In [0]:
%sql -- Exemplo de dados --
SELECT * FROM csv_disciplinas LIMIT 10;


Nome_Disciplina,ID_Disciplina
Engineering,0
Mathematics,1
Business,2
CS,3


In [0]:
%sql -- Cria√ß√£o e carregamento de tabela "Disciplinas" 
DROP TABLE IF EXISTS default.DISCIPLINAS;

CREATE TABLE default.DISCIPLINAS
USING CSV
OPTIONS (
  path "dbfs:/FileStore/tables/2_PRATA/DISCIPLINAS.csv",
  header "true",
  inferSchema "true"
);

üóÉÔ∏è Fato Desempenho

In [0]:
%sql -- Exemplo de dados --
SELECT * FROM csv_fato_desempenho LIMIT 10;


ID_Aluno,ID_Disciplina,Presenca,Nota_Midterm,Nota_Final,Nota_Projetos,Nota_Total,Conceito
S1000,Engineering,52.29,55.03,57.82,85.9,56.09,F
S1001,Engineering,97.27,97.23,45.8,55.65,50.64,A
S1002,Business,57.19,67.05,93.68,73.79,70.3,D
S1003,Mathematics,95.15,47.79,80.63,92.12,61.63,A
S1004,CS,54.18,46.59,78.89,68.42,66.13,F
S1005,Engineering,,78.85,43.53,67.29,62.08,B
S1006,Business,57.6,66.26,89.07,93.65,83.21,F
S1007,Engineering,51.91,45.67,73.96,93.24,81.93,F
S1008,CS,85.97,84.42,90.87,94.01,95.62,A
S1009,Engineering,64.01,87.96,98.47,78.6,84.99,A


In [0]:
%sql -- Cria√ß√£o e carregamento da fato_desempenho
DROP TABLE IF EXISTS default.FATO_DESEMPENHO;

CREATE TABLE default.FATO_DESEMPENHO
USING CSV
OPTIONS (
  path "dbfs:/FileStore/tables/2_PRATA/FATO_DESEMPENHO.csv",
  header "true",
  inferSchema "true"
);

#### üîé An√°lise Explorat√≥ria dos dados

###### üîé Apresentar as tabelas e visualiza√ß√µes do modelo

In [0]:
%sql
SHOW TABLES IN default;


database,tableName,isTemporary
default,alunos,False
default,disciplinas,False
default,fato_desempenho,False
default,habitos,False
,csv_alunos,True
,csv_disciplinas,True
,csv_fato_desempenho,True
,csv_habitos,True


üßÆ Quantidade de Registros

In [0]:
%sql
SELECT 'alunos' AS tabela, COUNT(*) AS total FROM default.alunos
UNION ALL
SELECT 'disciplinas', COUNT(*) FROM default.disciplinas
UNION ALL
SELECT 'fato_desempenho', COUNT(*) FROM default.fato_desempenho
UNION ALL
SELECT 'habitos', COUNT(*) FROM default.habitos;


tabela,total
alunos,5000
disciplinas,4
fato_desempenho,5000
habitos,5000


In [0]:
%sql
SELECT 
    'alunos' AS tabela, 
    COUNT(*) AS total, 
    SUM(CASE WHEN ID_Aluno IS NULL THEN 1 ELSE 0 END) AS ID_Aluno_nulos,
    SUM(CASE WHEN First_Name IS NULL THEN 1 ELSE 0 END) AS First_Name_nulos
FROM default.alunos;


tabela,total,ID_Aluno_nulos,First_Name_nulos
alunos,5000,0,0


üìä Estat√≠sticas descritivas (Exemplos)

In [0]:
%sql
SELECT 
    MIN(Age) AS idade_minima,
    MAX(Age) AS idade_maxima,
    AVG(Age) AS idade_media
FROM default.alunos;


idade_minima,idade_maxima,idade_media
18,24,21.0484


In [0]:
%sql
SELECT Age, COUNT(*) AS quantidade FROM default.alunos GROUP BY Age ORDER BY Age;


Age,quantidade
18,682
19,705
20,671
21,753
22,732
23,734
24,723


In [0]:
# histogram dos dados: distribui√ß√£o de idade e distribui√ß√£o de notas. 

import importlib.util
import subprocess

# Verifica se a biblioteca Plotly est√° instalada, caso contr√°rio, instala

package_name = "plotly"

if importlib.util.find_spec(package_name) is None:
    print(f"{package_name} n√£o encontrado. Instalando...")
    subprocess.run(["pip", "install", package_name])
else:
    print(f"{package_name} OK!")

#------------------------------

import plotly.express as px

# Verificar se 'Age' existe na tabela alunos
df_check = spark.sql("SHOW COLUMNS IN default.alunos").toPandas()
if 'Age' not in df_check['col_name'].values:
    raise ValueError("A coluna 'Age' n√£o existe na tabela 'alunos'. Verifique os nomes das colunas.")

# Criar DataFrame unindo as tabelas (Age e Nota_Final)
query = """
SELECT A.Age, F.Nota_Final 
FROM default.alunos A
JOIN default.fato_desempenho F 
ON A.ID_Aluno = F.ID_Aluno
WHERE A.Age IS NOT NULL AND F.Nota_Final IS NOT NULL
"""

df = spark.sql(query).toPandas()

# Criar histograma da distribui√ß√£o de idades
fig1 = px.histogram(df, x="Age", nbins=20, title="Distribui√ß√£o de Idades - Alunos")
fig1.show()

# Criar histograma da distribui√ß√£o de notas finais
fig2 = px.histogram(df, x="Nota_Final", nbins=20, title="Distribui√ß√£o das Notas Finais")
fig2.show()

plotly OK!


In [0]:
# Importar bibliotecas necess√°rias
import plotly.express as px
import pandas as pd

# Listar tabelas para an√°lise
tables = ["alunos", "disciplinas", "fato_desempenho", "habitos"]

# Criar dicion√°rio para armazenar os DataFrames dos gr√°ficos
df_list = {}

for table in tables:
    # Ler os dados
    df = spark.sql(f"SELECT * FROM default.{table}").toPandas()

    # Contar valores v√°lidos e nulos
    total_values = df.size  # Total de c√©lulas (linhas x colunas)
    null_values = df.isnull().sum().sum()  # Total de valores nulos
    valid_values = total_values - null_values  # Total de valores v√°lidos

    # Criar DataFrame espec√≠fico para essa tabela
    df_list[table] = pd.DataFrame({
        "Status": ["V√°lidos", "Nulos"],
        "Quantidade": [valid_values, null_values]
    })

# Criar gr√°ficos individuais com r√≥tulos nos dados
for table, df_plot in df_list.items():
    fig = px.bar(df_plot, x="Status", y="Quantidade", title=f"Quantidade de Dados - {table}", 
                 barmode="group", text="Quantidade")
    
    # Ajustar layout para exibir os r√≥tulos corretamente
    fig.update_traces(textposition="outside")
    
    # Mostrar gr√°fico
    fig.show()


### Entrega üì´

#### ‚ùó Problema
Parte dos alunos apresenta baixo desempenho acad√™mico, e as causas nem sempre s√£o claras, dificultando a√ß√µes preventivas e direcionadas.

In [0]:
%sql
-- Distribui√ß√£o de desempenho por conceito

SELECT 
  Conceito,
  COUNT(*) AS Quantidade_de_Registros
FROM 
  default.fato_desempenho
GROUP BY 
  Conceito
ORDER BY 
  Quantidade_de_Registros DESC;


Conceito,Quantidade_de_Registros
A,1495
B,978
D,889
F,844
C,794


In [0]:
df_conceitos = spark.sql("""
SELECT 
  Conceito,
  COUNT(*) AS Quantidade_de_Registros
FROM 
  default.fato_desempenho
GROUP BY 
  Conceito
""").toPandas()

# Calcular percentual
df_conceitos['Percentual'] = (df_conceitos['Quantidade_de_Registros'] / df_conceitos['Quantidade_de_Registros'].sum()) * 100

# Ordenar pela ordem l√≥gica dos conceitos
ordem_conceitos = ['A', 'B', 'C', 'D', 'F']
df_conceitos['Conceito'] = pd.Categorical(df_conceitos['Conceito'], categories=ordem_conceitos, ordered=True)
df_conceitos = df_conceitos.sort_values('Conceito')

# Criar gr√°fico
import plotly.express as px

fig = px.bar(
    df_conceitos,
    x='Percentual',
    y='Conceito',
    orientation='h',
    text=df_conceitos['Percentual'].apply(lambda x: f'{x:.1f}%'),
    title='Percentual de Alunos por Conceito de Desempenho',
    labels={'Percentual': 'Percentual (%)', 'Conceito': 'Conceito'}
)

fig.update_traces(marker_color='teal', textposition='outside')
fig.update_layout(yaxis=dict(categoryorder='array', categoryarray=ordem_conceitos[::-1]))

fig.show()

#---------------------


# Extrair os percentuais de D e F
pct_D = df_conceitos.loc[df_conceitos['Conceito'] == 'D', 'Percentual'].values[0]
pct_F = df_conceitos.loc[df_conceitos['Conceito'] == 'F', 'Percentual'].values[0]
pct_total = pct_D + pct_F

# Construir texto markdown din√¢mico
texto_md = f"""
üí¨ O gr√°fico demonstra que {pct_D:.1f}% dos alunos t√™m nota D e {pct_F:.1f}% dos estudantes t√™m nota F.  
Em s√≠ntese, {pct_total:.1f}% registram **baixo desempenho**.
"""

# Exibir markdown no notebook
displayHTML(f"<div style='font-size:16px'>{texto_md}</div>")


#### üéØ Objetivo
Identificar os principais fatores comportamentais e socioecon√¥micos que influenciam negativamente o desempenho acad√™mico dos alunos.

In [0]:
%sql
-- Criar no banco de dados a tabela de alunos unificados para analisarmos todas as caracteristicas dos alunos.

CREATE OR REPLACE TABLE default.alunos_unificados AS
SELECT 
    f.ID_Aluno,
    f.ID_Disciplina,
    f.Presenca,
    f.Nota_Midterm,
    f.Nota_Final,
    f.Nota_Projetos,
    f.Nota_Total,
    f.Conceito,
    a.Gender,
    a.Age,
    a.Parent_Education_Level,
    a.Family_Income_Level,
    h.Study_Hours_per_Week,
    h.Extracurricular_Activities,
    h.Internet_Access_at_Home,
    h.`Stress_Level (1-10)` AS Stress_Level,
    h.Sleep_Hours_per_Night
FROM 
    default.fato_desempenho f
LEFT JOIN 
    default.alunos a ON f.ID_Aluno = a.ID_Aluno
LEFT JOIN 
    default.habitos h ON f.ID_Aluno = h.ID_Aluno;


num_affected_rows,num_inserted_rows


In [0]:
%sql
-- Criando uma view para analisar alunos com baixo desempenho.

CREATE OR REPLACE TABLE default.alunos_baixo_desempenho AS
SELECT *
FROM default.alunos_unificados
WHERE Conceito IN ('F');


num_affected_rows,num_inserted_rows


#### üí° Solu√ß√£o
Integrar e analisar os dados de desempenho, h√°bitos e perfil socioecon√¥mico dos alunos para encontrar padr√µes que indiquem risco de baixo desempenho, auxiliando na defini√ß√£o de estrat√©gias de suporte mais eficazes.

###### üë£ Passo 1: Classificar os alunos por grupo de desempenho
###### üë£ Passo 2: Comparar fatores entre os grupos
###### üë£ Passo 3: Responder perguntas chave

In [0]:
%sql -- Coluna Desempenho
CREATE OR REPLACE VIEW default.alunos_com_desempenho AS
SELECT *,
  CASE 
    WHEN Conceito IN ('A', 'B') THEN 'Alto'
    WHEN Conceito IN ('F') THEN 'Baixo'
    ELSE 'Medio'
  END AS Desempenho
FROM default.alunos_unificados;


In [0]:
%sql
SELECT 
  Desempenho,
  ROUND(AVG(Study_Hours_per_Week), 2) AS Media_Horas_Estudo,
  COUNT(*) AS Total_Alunos
FROM default.alunos_com_desempenho
GROUP BY Desempenho
ORDER BY 
  CASE Desempenho
    WHEN 'Alto' THEN 1
    WHEN 'Medio' THEN 2
    WHEN 'Baixo' THEN 3
    ELSE 4
  END;


Desempenho,Media_Horas_Estudo,Total_Alunos
Alto,17.71,2473
Medio,17.44,1683
Baixo,17.95,844


In [0]:
spark.table("default.alunos_unificados") \
     .coalesce(1) \
     .write.mode('overwrite') \
     .option("header", True) \
     .csv("dbfs:/FileStore/tables/alunos_unificados")

arquivo_origem = dbutils.fs.ls("dbfs:/FileStore/tables/alunos_unificados/")[2].path
arquivo_destino = "dbfs:/FileStore/tables/alunos_unificados.csv"

dbutils.fs.mv(arquivo_origem, arquivo_destino, True)

display(arquivo_destino)

'dbfs:/FileStore/tables/alunos_unificados.csv'