# Objetivos

1 - Definir impacto da realização de curso preparatório na aprovação ou não dos alunos

  O primeiro objetivo deste projeto é determinar se a participação em cursos preparatórios tem um impacto significativo na taxa de aprovação dos alunos. Para isso, iremos comparar o desempenho dos alunos que participaram de cursos preparatórios com aqueles que não participaram, verificando se há uma diferença estatisticamente significativa nas taxas de aprovação. Este objetivo nos permitirá entender se os cursos preparatórios estão efetivamente ajudando os alunos a alcançar a nota de aprovação, que é uma média de 70 pontos.

2 - Verificar se existe relação entre o nível de estudo dos pais e o desempenho dos alunos

  O segundo objetivo é investigar a relação entre o nível de estudo dos pais e o desempenho acadêmico dos alunos. A hipótese é que o nível educacional dos pais pode influenciar positivamente o desempenho dos filhos na escola. Analisaremos os dados para identificar se há uma correlação entre o nível de escolaridade dos pais e as notas dos alunos, e se essa correlação é forte o suficiente para ser considerada um fator relevante na performance escolar.

3 - Analisar a distribuição de alunos aprovados e reprovados por gênero

  O terceiro objetivo é analisar como a distribuição de aprovação e reprovação se dá entre os gêneros. Este objetivo envolve a coleta de dados sobre o desempenho dos alunos e sua divisão por gênero, permitindo-nos identificar se há disparidades significativas entre meninos e meninas em termos de taxas de aprovação. Entender essas diferenças pode nos ajudar a desenvolver estratégias de ensino mais inclusivas e equitativas.

4 - Qual matéria os alunos possuem mais dificuldade e qual possuem facilidade

  O quarto objetivo é identificar quais matérias apresentam maiores dificuldades para os alunos e em quais eles têm mais facilidade. Para isso, analisaremos as notas dos alunos em diferentes disciplinas, identificando padrões que mostram quais matérias têm as médias mais baixas e quais têm as mais altas. Essa análise permitirá direcionar esforços pedagógicos para áreas onde os alunos mais necessitam de apoio, bem como reconhecer áreas de desempenho destacado.

5 - A disponibilização de almoço para os alunos influencia seu desempenho?

  Este objetivo visa entender se a nutrição adequada durante o horário escolar contribui para um melhor desempenho dos alunos, auxiliando na formulação de políticas que possam melhorar a saúde e a educação das crianças.

  Esses objetivos são fundamentais para entender melhor os fatores que influenciam o desempenho escolar e para tomar decisões informadas sobre intervenções educativas. A análise resultante poderá fornecer insights valiosos para educadores, administradores escolares e responsáveis pela formulação de políticas educacionais, promovendo um ambiente de aprendizado mais eficiente e equitativo.

# Carga do dataframe (Camada Bronze)

Os dados brutos foram carregados diretamente de um arquivo CSV localizado em /FileStore/tables/exams.csv.
Foram inferidos o esquema e a primeira linha foi tratada como cabeçalho para garantir que os dados sejam lidos corretamente.

Os dados brutos foram salvos como uma tabela Parquet na camada Bronze (exams_bronze).
Qualquer tabela pré-existente com o mesmo nome foi substituída, garantindo que a camada Bronze contenha sempre os dados mais recentes.

In [0]:
# Importar SparkSession
from pyspark.sql import SparkSession

# Criar uma sessão Spark
spark = SparkSession.builder.appName("Remove existing table location and load data").getOrCreate()

# Dropar a tabela se ela já existir usando SQL nativo
spark.sql("DROP TABLE IF EXISTS default.exams_bronze_new")

# Remover o diretório existente no sistema de arquivos
dbutils.fs.rm("dbfs:/user/hive/warehouse/exams_bronze_new", recurse=True)

# Localização e tipo do arquivo
file_location = "/FileStore/tables/exams.csv"
file_type = "csv"

# Opções para CSV
infer_schema = "true"
first_row_is_header = "true"
delimiter = ","

# Carregar os dados brutos no DataFrame do Spark
df_bronze = spark.read.format(file_type) \
  .option("inferSchema", infer_schema) \
  .option("header", first_row_is_header) \
  .option("sep", delimiter) \
  .load(file_location)

# Salvar os dados brutos como tabela Parquet
df_bronze.write.format('parquet').saveAsTable('default.exams_bronze_new')

# Exibir o DataFrame carregado
display(df_bronze)



gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
female,group D,some college,standard,completed,59,70,78
male,group D,associate's degree,standard,none,96,93,87
female,group D,some college,free/reduced,none,57,76,77
male,group B,some college,free/reduced,none,70,70,63
female,group D,associate's degree,standard,none,83,85,86
male,group C,some high school,standard,none,68,57,54
female,group E,associate's degree,standard,none,82,83,80
female,group B,some high school,standard,none,46,61,58
male,group C,some high school,standard,none,80,75,73
female,group C,bachelor's degree,standard,completed,57,69,77


In [0]:
# Registrar a tabela no catálogo do Spark
spark.sql("""
    CREATE TABLE IF NOT EXISTS default.exams_bronze_new
    USING parquet
    OPTIONS (
        path '/user/hive/warehouse/bronze',
        description 'Dados brutos de exames carregados do arquivo CSV.'
    )
""")

Out[26]: DataFrame[]

#Descrição dos dados (Bronze)

Gender: o sexo do aluno (masculino/feminino) - Dado categórico nominal

Race/ethnicity: a origem racial ou étnica do aluno (asiática, afro-americana, hispânica, etc.) - Dado categórico nominal

Parental level of education: o nível mais alto de educação alcançado pelo(s) pai(s) ou tutor(es) do aluno - Dado categórico Ordinal

Lunch: Se o aluno recebe almoço gratuito ou a preço reduzido (sim/não) - Dado categórico nominal

Test preparation course: Se o aluno concluiu um curso de preparação para testes (sim/não) - Dado categórico nominal

Math score: a pontuação do aluno em um teste padronizado de matemática

Reading score: a pontuação do aluno em um teste de leitura padronizado

Writing score: a pontuação do aluno em um teste de redação padronizado

#Camada Silver

Os valores nulos nas colunas Pontos_matematica, Pontos_leitura e Pontos_redacao foram preenchidos com zero para evitar problemas nos cálculos subsequentes. Além disso, na camada Silver, uma nova coluna denominada Media foi adicionada ao DataFrame, calculando a média das notas de Pontos_matematica, Pontos_leitura e Pontos_redacao para cada registro. Também foi introduzida a coluna Situação, que determina se cada estudante está "Aprovado" ou "Reprovado" com base na média calculada (Media). Se a média for maior ou igual a 70, a situação é definida como "Aprovado"; caso contrário, como "Reprovado".

In [0]:
# Remover a tabela Silver existente e seu diretório associado, se existir
spark.sql("DROP TABLE IF EXISTS default.exams_silver")
dbutils.fs.rm("dbfs:/user/hive/warehouse/exams_silver", recurse=True)

# Processar e renomear as colunas para a Camada Silver
new_column_names = ['Genero', 'Raca_etnia', 'Pais_edu', 'almoco', 'curso_prep', 'Pontos_matematica', 'Pontos_leitura', 'Pontos_redacao']
df_silver = df_bronze.toDF(*new_column_names)

# Tratamento de valores nulos
df_silver = df_silver.na.fill({'Pontos_matematica': 0, 'Pontos_leitura': 0, 'Pontos_redacao': 0})

# Calcular a média das notas
df_silver = df_silver.withColumn('Media', (col('Pontos_matematica') + col('Pontos_leitura') + col('Pontos_redacao')) / 3)

# Adicionar a coluna Situação (Aprovado/Reprovado)
df_silver = df_silver.withColumn('Situacao', when(col('Media') >= 70, 'Aprovado').otherwise('Reprovado'))

# Salvar os dados processados como tabela Parquet (Silver Layer)
silver_table_name = 'default.exams_silver'
df_silver.write.format('parquet').mode('overwrite').saveAsTable(silver_table_name)

# Mostrar o DataFrame da Camada Silver
display(df_silver)


Genero,Raca_etnia,Pais_edu,almoco,curso_prep,Pontos_matematica,Pontos_leitura,Pontos_redacao,Media,Situacao
female,group D,some college,standard,completed,59,70,78,69.0,Reprovado
male,group D,associate's degree,standard,none,96,93,87,92.0,Aprovado
female,group D,some college,free/reduced,none,57,76,77,70.0,Aprovado
male,group B,some college,free/reduced,none,70,70,63,67.66666666666667,Reprovado
female,group D,associate's degree,standard,none,83,85,86,84.66666666666667,Aprovado
male,group C,some high school,standard,none,68,57,54,59.66666666666666,Reprovado
female,group E,associate's degree,standard,none,82,83,80,81.66666666666667,Aprovado
female,group B,some high school,standard,none,46,61,58,55.0,Reprovado
male,group C,some high school,standard,none,80,75,73,76.0,Aprovado
female,group C,bachelor's degree,standard,completed,57,69,77,67.66666666666667,Reprovado


#Análises

#Impacto do preparatório

In [0]:
# Analisar impacto do curso preparatório na taxa de aprovação
df_silver.groupBy('curso_prep', 'Situacao').count().show()


+----------+---------+-----+
|curso_prep| Situacao|count|
+----------+---------+-----+
| completed|Reprovado|  134|
|      none| Aprovado|  289|
| completed| Aprovado|  210|
|      none|Reprovado|  367|
+----------+---------+-----+



Aprovados: Entre os alunos que completaram o curso preparatório, 210 foram aprovados. Em comparação, 289 alunos que não fizeram o curso foram aprovados.

Reprovados: 134 alunos que completaram o curso preparatório foram reprovados, enquanto 367 alunos que não fizeram o curso foram reprovados.


O curso preparatório parece ter um impacto positivo no desempenho dos alunos. A taxa de aprovação é maior entre aqueles que completaram o curso preparatório (210 aprovados contra 134 reprovados) em comparação aos que não completaram (289 aprovados contra 367 reprovados). Portanto, os cursos preparatórios podem estar ajudando os alunos a melhorar seu desempenho acadêmico.



#Nível de estudos dos pais



In [0]:
# Analisar relação entre o nível de estudo dos pais e o desempenho dos alunos
df_silver.groupBy('Pais_edu').agg({'Media': 'mean'}).show()


+------------------+-----------------+
|          Pais_edu|       avg(Media)|
+------------------+-----------------+
|  some high school| 65.4783427495292|
|associate's degree| 71.6781045751634|
|       high school|67.12558139534885|
| bachelor's degree|71.31746031746032|
|   master's degree|71.58222222222221|
|      some college| 69.6860119047619|
+------------------+-----------------+



Alunos com pais que têm "some high school" têm a média mais baixa (65.48).

Alunos com pais que têm "associate's degree" (71.68), "bachelor's degree" (71.32) e "master's degree" (71.58) têm médias mais altas, todas acima de 70.

Alunos com pais que têm "some college" têm média de 69.69, enquanto "high school" têm média de 67.13.

O nível educacional dos pais parece influenciar o desempenho acadêmico dos alunos. Alunos cujos pais têm um grau educacional mais alto tendem a ter melhores médias. Esta correlação sugere que um maior nível de escolaridade dos pais pode contribuir positivamente para o desempenho acadêmico dos filhos.

#Distribuição de aprovação por gênero

In [0]:
# Analisar a distribuição de aprovação e reprovação por gênero
df_silver.groupBy('Genero', 'Situacao').count().show()


+------+---------+-----+
|Genero| Situacao|count|
+------+---------+-----+
|  male|Reprovado|  279|
|  male| Aprovado|  229|
|female|Reprovado|  222|
|female| Aprovado|  270|
+------+---------+-----+



Masculino: 229 alunos foram aprovados e 279 foram reprovados.

Feminino: 270 alunas foram aprovadas e 222 foram reprovadas.

As alunas apresentam uma taxa de aprovação mais alta (270) comparada aos alunos (229). Isso indica que, nesse conjunto de dados, as meninas têm um desempenho acadêmico melhor do que os meninos.

#Dificuldade e Facilidade nas matérias

In [0]:
# Analisar dificuldade e facilidade dos alunos em matérias
df_silver.agg({'Pontos_matematica': 'mean', 'Pontos_leitura': 'mean', 'Pontos_redacao': 'mean'}).show()


+-------------------+----------------------+-------------------+
|avg(Pontos_redacao)|avg(Pontos_matematica)|avg(Pontos_leitura)|
+-------------------+----------------------+-------------------+
|              69.14|                 67.81|             70.382|
+-------------------+----------------------+-------------------+



Média em Redação: 69.14

Média em Matemática: 67.81

Média em Leitura: 70.38

Os alunos têm mais facilidade com Leitura (média de 70.38) e mais dificuldade com Matemática (média de 67.81). Redação fica intermediária com uma média de 69.14. As estratégias pedagógicas devem focar em melhorar o ensino de Matemática, onde os alunos apresentam maior dificuldade.


#Impacto do almoço no desempenho

In [0]:
# Analisar se o tipo de almoço influencia o desempenho dos alunos
df_silver.groupBy('almoco').agg({'Media': 'mean'}).show()


+------------+------------------+
|      almoco|        avg(Media)|
+------------+------------------+
|free/reduced|63.258823529411806|
|    standard| 72.12525252525259|
+------------+------------------+



Free/Reduced: Média de 63.26

Standard: Média de 72.13

Alunos que recebem almoço padrão ("standard") têm uma média significativamente mais alta (72.13) em comparação aos alunos que recebem almoço gratuito ou a preço reduzido (63.26). Isso sugere que uma melhor nutrição pode estar correlacionada com um melhor desempenho acadêmico. Políticas que garantam uma alimentação adequada podem ter um impacto positivo nas notas dos alunos.

#Conclusão

Os dados analisados revelam que a participação em cursos preparatórios tem um impacto positivo no desempenho dos alunos, aumentando suas taxas de aprovação. Alunos que completaram esses cursos apresentam uma taxa de aprovação maior em comparação com aqueles que não participaram, indicando a eficácia dos cursos preparatórios. Além disso, há uma correlação positiva entre o nível de educação dos pais e o desempenho acadêmico dos alunos, com filhos de pais mais escolarizados tendendo a obter médias mais altas. No que diz respeito ao gênero, as meninas mostram uma taxa de aprovação superior à dos meninos, sugerindo a necessidade de estratégias específicas para apoiar o desempenho dos meninos. A análise também destaca que Matemática é a matéria em que os alunos têm mais dificuldade, apresentando a menor média em comparação com Redação e Leitura, apontando para a necessidade de um foco pedagógico adicional nessa área. Por fim, os alunos que recebem almoço padrão têm médias significativamente mais altas do que aqueles que recebem almoço gratuito ou a preço reduzido, sugerindo que uma nutrição adequada está associada a um melhor desempenho acadêmico. Com base nessas conclusões, recomenda-se investir em programas de cursos preparatórios, incentivar a educação contínua dos pais, desenvolver programas específicos para apoiar os meninos, introduzir métodos inovadores e suporte adicional em Matemática, e implementar políticas para garantir que todos os alunos tenham acesso a refeições nutritivas.