In [0]:
import pandas as pd
import datetime
import os
from pyspark.sql import SparkSession
from pyspark.sql.types import DateType, IntegerType, StringType
from pyspark.sql.functions import col, split, concat, lit, regexp_replace, collect_list, concat_ws, udf, when

In [0]:
#Account Storage data
storage_account_name = os.getenv('STORAGE_ACCOUNT_NAME_ENEM')
storage_account_key = os.getenv('STORAGE_ACCOUNT_KEY_ENEM')

#Configuring spark for consult data on Blob Storage'
spark.conf.set(f"fs.azure.account.key.{storage_account_key}.blob.core.windows.net", storage_account_key)

#Layer Bronze
container_silver = "silver"
files_layer_silver = dbutils.fs.ls(f"wasbs://{container_silver}@{storage_account_name}.blob.core.windows.net/")

In [0]:
spark = SparkSession.builder.appName('enem-data-analysis').getOrCreate()

In [0]:
enem_df = spark.read.parquet("/mnt/enem-silver/MICRODADOS_ENEM_2019.parquet")

In [0]:
enem_df.createOrReplaceTempView("fEnem")

## Média da nota em matemática de todos os alunos mineiros

In [0]:
%sql
SELECT AVG(NU_NOTA_MT) AS MEDIA_MATEMATICA FROM fEnem;

MEDIA_MATEMATICA
546.7962076512177


## Média da nota em Linguagens e Códigos de todos os alunos mineiros

In [0]:
%sql
SELECT AVG(NU_NOTA_LC) AS MEDIA_LINGUAGENSCODIGOS FROM fEnem;

MEDIA_LINGUAGENSCODIGOS
531.2155500475457


## Média da nota em Ciências Humanas dos alunos do sexo FEMININO mineiros

In [0]:
%sql
SELECT AVG(NU_NOTA_CH) AS MEDIA_CIENCIASHUM FROM fEnem WHERE TP_SEXO = 'F';

MEDIA_CIENCIASHUM
515.1270983575309


## Média da nota em Ciências Humanas dos alunos do sexo MASCULINO?

In [0]:
%sql
SELECT AVG(NU_NOTA_CH) AS MEDIA_CIENCIASHUM FROM fEnem WHERE TP_SEXO = 'M';

MEDIA_CIENCIASHUM
529.6982704731431


## Média da nota em Matemática dos alunos do sexo FEMININO que moram na cidade de Montes Claros

In [0]:
%sql
SELECT AVG(NU_NOTA_MT) AS MEDIA_MATEMATICA FROM fEnem WHERE TP_SEXO = 'F' AND NO_MUNICIPIO_RESIDENCIA='Montes Claros';

MEDIA_MATEMATICA
525.47767242499


## Média da nota em Matemática dos alunos do município de Sabará que possuem TV por assinatura na residência

In [0]:
%sql 
SELECT AVG(NU_NOTA_MT) AS MEDIA_MATEMATICA FROM fEnem WHERE NO_MUNICIPIO_RESIDENCIA='Sabará' and Q021 = 'B';

MEDIA_MATEMATICA
543.2927556818181


## Média da nota em Ciências Humanas dos alunos mineiros que possuem dois fornos micro-ondas em casa

In [0]:
%sql
SELECT AVG(NU_NOTA_CH) AS MEDIA_CIENCIASHUM FROM fEnem WHERE Q016='C';

MEDIA_CIENCIASHUM
557.2765986394559


## Nota média em Matemática dos alunos mineiros cuja mãe completou a pós-graduação

In [0]:
%sql
SELECT AVG(NU_NOTA_MT) AS MEDIA_MATEMATICA FROM fEnem WHERE Q002='G';

MEDIA_MATEMATICA
620.0070620709879


## Nota média em Matemática dos alunos de Belo Horizonte e de Conselheiro Lafaiete

In [0]:
%sql
SELECT AVG(NU_NOTA_MT) AS MEDIA_MATEMATICA FROM fEnem WHERE NO_MUNICIPIO_RESIDENCIA in ('Belo Horizonte', 'Conselheiro Lafaiete');

MEDIA_MATEMATICA
578.0392265100108


## Nota média em Ciências Humanas dos alunos mineiros que moram sozinhos

In [0]:
%sql
SELECT AVG(NU_NOTA_CH) AS MEDIA_CIENCIASHUM FROM fEnem WHERE Q005=1;

MEDIA_CIENCIASHUM
534.4573388609218


## Nota média em Ciências Humanas dos alunos mineiros cujo pai completou pós-graduação e possuem renda familiar entre R$ 8.982,01 e R$ 9.980,00

In [0]:
%sql
SELECT AVG(NU_NOTA_CH) AS MEDIA_CIENCIASHUM FROM fEnem WHERE Q001='G' AND Q006='M';

MEDIA_CIENCIASHUM
586.7231663685152


## Nota média em Matemática dos alunos do sexo Feminino que moram em Lavras e escolheram “Espanhol” como língua estrangeira

In [0]:
%sql
SELECT AVG(NU_NOTA_MT) AS MEDIA_MATEMATICA FROM fEnem WHERE TP_SEXO='F' and NO_MUNICIPIO_RESIDENCIA='Lavras' and TP_LINGUA=1;

MEDIA_MATEMATICA
510.8095078299777


## Nota média em Matemática dos alunos do sexo Masculino que moram em Ouro Preto

In [0]:
%sql
SELECT AVG(NU_NOTA_MT) AS MEDIA_MATEMATICA FROM fEnem WHERE TP_SEXO='M' and NO_MUNICIPIO_RESIDENCIA='Ouro Preto';

MEDIA_MATEMATICA
555.0832520325201


## Nota média em Ciências Humanas dos alunos surdos

In [0]:
%sql
SELECT AVG(NU_NOTA_CH) AS MEDIA_CIENCIASHUM FROM fEnem WHERE IN_SURDEZ=1;

MEDIA_CIENCIASHUM
435.387962962963


## Nota média em Matemática dos alunos do sexo FEMININO, que moram em Belo Horizonte, Sabará, Nova Lima e Betim e possuem dislexia

In [0]:
%sql
SELECT AVG(NU_NOTA_MT) AS MEDIA_MATEMATICA FROM fEnem 
  WHERE TP_SEXO='F' AND NO_MUNICIPIO_RESIDENCIA in ('Belo Horizonte','Sabará','Nova Lima','Betim') AND IN_DISLEXIA=1;

MEDIA_MATEMATICA
582.1935483870968
