# Teste de Analista de Dados SX
- Analise de desempenho das notas no Enem de 2020

Informações pessoais e contato:
- Linkedin [Thiago Felix](https://www.linkedin.com/in/thiago-f-488a67125/)             | GitHub: [Felix-tfs99](https://github.com/Felix-tfs99)

## Problema de Negócio

O objetivo da nossa analise é verificar o desempenho dos participantes do Enem de 2020 e entender quais foram os pontos fortes ou fracos na avaliação.

## Sobre os Dados

A base de dados são os resultados da prova do Enem de 2020 que estão em um arquivo csv salvo no Google Drive.
Para melhorar a analise, será realizada a modelagem dos dados para obtermos tabelas de dimensões e fatos com os dados disponibilizados

## Configurações do ambiente

### Instalação de Bibliotecas

In [None]:
# Manipulação de Dados
!pip install pyspark

# Conexão com MySQL
'''
!pip install mysql-connector-python
!pip install sqlalchemy
'''

# Para instalar o driver JDBC no Colab
'''
!wget https://dev.mysql.com/get/Downloads/Connector-J/mysql-connector-java-8.0.23.tar.gz
!tar -xvzf mysql-connector-java-8.0.23.tar.gz
'''



'\n!wget https://dev.mysql.com/get/Downloads/Connector-J/mysql-connector-java-8.0.23.tar.gz\n!tar -xvzf mysql-connector-java-8.0.23.tar.gz\n'

### Importação das Bibliotecas

In [None]:
# Configurações do Pyspark
from pyspark.sql import SparkSession

# Estrutura de Dados
from pyspark.sql.types import StructType, StructField, StringType, IntegerType, DoubleType
import pyspark.sql.functions as F

# Analise de dados
import pandas as pd
import numpy as np

# Data Viz
import plotly.express as px
import plotly.figure_factory as ff

# Conexão com MySql
from sqlalchemy import create_engine

# Google Drive
from google.colab import drive

### Sessão Pyspark

In [None]:
# Iniciando sessão
spark = spark=SparkSession.builder.master("local[*]").appName("case_tecnico").getOrCreate()

## Engenharia de Dados

### Definição de Schema

In [None]:
# Estruturação de Variaveis para criar o dataframe
schema_csv = StructType([
    StructField("NU_INSCRICAO", StringType(), True),
    StructField("NU_ANO", IntegerType(), True),
    StructField("TP_FAIXA_ETARIA", IntegerType(), True),
    StructField("TP_SEXO", StringType(), True),
    StructField("TP_ESTADO_CIVIL", IntegerType(), True),
    StructField("TP_COR_RACA", IntegerType(), True),
    StructField("TP_NACIONALIDADE", IntegerType(), True),
    StructField("TP_ST_CONCLUSAO", IntegerType(), True),
    StructField("TP_ANO_CONCLUIU", IntegerType(), True),
    StructField("TP_ESCOLA", IntegerType(), True),
    StructField("TP_ENSINO", IntegerType(), True),
    StructField("IN_TREINEIRO", IntegerType(), True),
    StructField("CO_MUNICIPIO_ESC", IntegerType(), True),
    StructField("NO_MUNICIPIO_ESC", StringType(), True),
    StructField("CO_UF_ESC", IntegerType(), True),
    StructField("SG_UF_ESC", StringType(), True),
    StructField("TP_DEPENDENCIA_ADM_ESC", IntegerType(), True),
    StructField("TP_LOCALIZACAO_ESC", IntegerType(), True),
    StructField("TP_SIT_FUNC_ESC", IntegerType(), True),
    StructField("CO_MUNICIPIO_PROVA", IntegerType(), True),
    StructField("NO_MUNICIPIO_PROVA", IntegerType(), True),
    StructField("CO_UF_PROVA", IntegerType(), True),
    StructField("SG_UF_PROVA", StringType(), True),
    StructField("TP_PRESENCA_CN", IntegerType(), True),
    StructField("TP_PRESENCA_CH", IntegerType(), True),
    StructField("TP_PRESENCA_LC", IntegerType(), True),
    StructField("TP_PRESENCA_MT", IntegerType(), True),
    StructField("CO_PROVA_CN", IntegerType(), True),
    StructField("CO_PROVA_CH", IntegerType(), True),
    StructField("CO_PROVA_LC", IntegerType(), True),
    StructField("CO_PROVA_MT", IntegerType(), True),
    StructField("NU_NOTA_CN", DoubleType(), True),
    StructField("NU_NOTA_CH", DoubleType(), True),
    StructField("NU_NOTA_LC", DoubleType(), True),
    StructField("NU_NOTA_MT", DoubleType(), True),
    StructField("TX_RESPOSTAS_CN", StringType(), True),
    StructField("TX_RESPOSTAS_CH", StringType(), True),
    StructField("TX_RESPOSTAS_LC", StringType(), True),
    StructField("TX_RESPOSTAS_MT", StringType(), True),
    StructField("TP_LINGUA", IntegerType(), True),
    StructField("TX_GABARITO_CN", StringType(), True),
    StructField("TX_GABARITO_CH", StringType(), True),
    StructField("TX_GABARITO_LC", StringType(), True),
    StructField("TX_GABARITO_MT", StringType(), True),
    StructField("TP_STATUS_REDACAO", IntegerType(), True),
    StructField("NU_NOTA_COMP1", IntegerType(), True),
    StructField("NU_NOTA_COMP2", IntegerType(), True),
    StructField("NU_NOTA_COMP3", IntegerType(), True),
    StructField("NU_NOTA_COMP4", IntegerType(), True),
    StructField("NU_NOTA_COMP5", IntegerType(), True),
    StructField("NU_NOTA_REDACAO", IntegerType(), True),
    StructField("Q001", StringType(), True),
    StructField("Q002", StringType(), True),
    StructField("Q003", StringType(), True),
    StructField("Q004", StringType(), True),
    StructField("Q005", IntegerType(), True),
    StructField("Q006", StringType(), True),
    StructField("Q007", StringType(), True),
    StructField("Q008", StringType(), True),
    StructField("Q009", StringType(), True),
    StructField("Q010", StringType(), True),
    StructField("Q011", StringType(), True),
    StructField("Q012", StringType(), True),
    StructField("Q013", StringType(), True),
    StructField("Q014", StringType(), True),
    StructField("Q015", StringType(), True),
    StructField("Q016", StringType(), True),
    StructField("Q017", StringType(), True),
    StructField("Q018", StringType(), True),
    StructField("Q019", StringType(), True),
    StructField("Q020", StringType(), True),
    StructField("Q021", StringType(), True),
    StructField("Q022", StringType(), True),
    StructField("Q023", StringType(), True),
    StructField("Q024", StringType(), True),
    StructField("Q025", StringType(), True)
])

## Leitura do Arquivo

In [None]:
# Leitura do Arquivo
file_path = '/content/drive/MyDrive/SX/DADOS/MICRODADOS_ENEM_2020.csv'
df_estruturado = spark.read.option("delimiter", ";").csv(file_path, encoding='ISO-8859-1', header=True, schema = schema_csv )

## DataFrames

### Tabela Dimensão

#### d_participante

In [None]:
d_participante = df_estruturado.select(
    "NU_INSCRICAO",
    "NU_ANO",
    "TP_FAIXA_ETARIA",
    "TP_SEXO",
    "TP_ESTADO_CIVIL",
    "TP_COR_RACA",
    "TP_NACIONALIDADE",
    "TP_ST_CONCLUSAO",
    "TP_ANO_CONCLUIU",
    "TP_ESCOLA",
    "TP_ENSINO",
    "IN_TREINEIRO")

#### d_escola

In [None]:
d_escola = df_estruturado.select(
    "NU_INSCRICAO",
    "CO_MUNICIPIO_ESC",
    "NO_MUNICIPIO_ESC",
    "CO_UF_ESC",
    "SG_UF_ESC",
    "TP_DEPENDENCIA_ADM_ESC",
    "TP_LOCALIZACAO_ESC",
    "TP_SIT_FUNC_ESC"
    )

#### d_aplicacao_prova

In [None]:
d_aplicacao_prova = df_estruturado.select(
    "NU_INSCRICAO",
    "CO_MUNICIPIO_PROVA",
    "NO_MUNICIPIO_PROVA",
    "CO_UF_PROVA",
    "SG_UF_PROVA")

### Tabela Fato

#### f_prova_objetiva

In [None]:
f_prova_objetiva = df_estruturado.select(
    "NU_INSCRICAO",
    "TP_PRESENCA_CN",
    "TP_PRESENCA_CH",
    "TP_PRESENCA_LC",
    "TP_PRESENCA_MT",
    "CO_PROVA_CN",
    "CO_PROVA_CH",
    "CO_PROVA_LC",
    "CO_PROVA_MT",
    "NU_NOTA_CN",
    "NU_NOTA_CH",
    "NU_NOTA_LC",
    "NU_NOTA_MT",
    "TX_RESPOSTAS_CN",
    "TX_RESPOSTAS_CH",
    "TX_RESPOSTAS_LC",
    "TX_RESPOSTAS_MT",
    "TP_LINGUA",
    "TX_GABARITO_CN",
    "TX_GABARITO_CH",
    "TX_GABARITO_LC",
    "TX_GABARITO_MT"
)

#### f_redacao

In [None]:
f_redacao = df_estruturado.select(
    "NU_INSCRICAO",
    "TP_STATUS_REDACAO",
    "NU_NOTA_COMP1",
    "NU_NOTA_COMP2",
    "NU_NOTA_COMP3",
    "NU_NOTA_COMP4",
    "NU_NOTA_COMP5",
    "NU_NOTA_REDACAO"
)

#### f_quest_socioeconomico

In [None]:
f_quest_socioeconomico = df_estruturado.select(
    "NU_INSCRICAO",
    "Q001",
    "Q002",
    "Q003",
    "Q004",
    "Q005",
    "Q006",
    "Q007",
    "Q008",
    "Q009",
    "Q010",
    "Q011",
    "Q012",
    "Q013",
    "Q014",
    "Q015",
    "Q016",
    "Q017",
    "Q018",
    "Q019",
    "Q020",
    "Q021",
    "Q022",
    "Q023",
    "Q024",
    "Q025"
    )

## Analise Explorátória de Dados

### Nulos

d_participantes

In [None]:
# Contar valores nulos em cada coluna
d_participante.select([F.sum(F.col(c).isNull().cast("int")).alias(c) for c in d_participante.columns]).show()

+------------+------+---------------+-------+---------------+-----------+----------------+---------------+---------------+---------+---------+------------+
|NU_INSCRICAO|NU_ANO|TP_FAIXA_ETARIA|TP_SEXO|TP_ESTADO_CIVIL|TP_COR_RACA|TP_NACIONALIDADE|TP_ST_CONCLUSAO|TP_ANO_CONCLUIU|TP_ESCOLA|TP_ENSINO|IN_TREINEIRO|
+------------+------+---------------+-------+---------------+-----------+----------------+---------------+---------------+---------+---------+------------+
|           0|     0|              0|      0|              0|          0|               0|              0|              0|        0|  4479663|           0|
+------------+------+---------------+-------+---------------+-----------+----------------+---------------+---------------+---------+---------+------------+



d_aplicação_prova

In [None]:
# Contar valores nulos em cada coluna
d_aplicacao_prova.select([F.sum(F.col(c).isNull().cast("int")).alias(c) for c in d_aplicacao_prova.columns]).show()

+------------+------------------+------------------+-----------+-----------+
|NU_INSCRICAO|CO_MUNICIPIO_PROVA|NO_MUNICIPIO_PROVA|CO_UF_PROVA|SG_UF_PROVA|
+------------+------------------+------------------+-----------+-----------+
|           0|                 0|           5783109|          0|          0|
+------------+------------------+------------------+-----------+-----------+



f_prova_objetiva

In [None]:
# Contar valores nulos em cada coluna
f_prova_objetiva.select([F.sum(F.col(c).isNull().cast("int")).alias(c) for c in f_prova_objetiva.columns]).show()

+------------+--------------+--------------+--------------+--------------+-----------+-----------+-----------+-----------+----------+----------+----------+----------+---------------+---------------+---------------+---------------+---------+--------------+--------------+--------------+--------------+
|NU_INSCRICAO|TP_PRESENCA_CN|TP_PRESENCA_CH|TP_PRESENCA_LC|TP_PRESENCA_MT|CO_PROVA_CN|CO_PROVA_CH|CO_PROVA_LC|CO_PROVA_MT|NU_NOTA_CN|NU_NOTA_CH|NU_NOTA_LC|NU_NOTA_MT|TX_RESPOSTAS_CN|TX_RESPOSTAS_CH|TX_RESPOSTAS_LC|TX_RESPOSTAS_MT|TP_LINGUA|TX_GABARITO_CN|TX_GABARITO_CH|TX_GABARITO_LC|TX_GABARITO_MT|
+------------+--------------+--------------+--------------+--------------+-----------+-----------+-----------+-----------+----------+----------+----------+----------+---------------+---------------+---------------+---------------+---------+--------------+--------------+--------------+--------------+
|           0|             0|             0|             0|             0|    3185669|    3028969

f_redacao

In [None]:
# Contar valores nulos em cada coluna
f_redacao.select([F.sum(F.col(c).isNull().cast("int")).alias(c) for c in f_redacao.columns]).show()

+------------+-----------------+-------------+-------------+-------------+-------------+-------------+---------------+
|NU_INSCRICAO|TP_STATUS_REDACAO|NU_NOTA_COMP1|NU_NOTA_COMP2|NU_NOTA_COMP3|NU_NOTA_COMP4|NU_NOTA_COMP5|NU_NOTA_REDACAO|
+------------+-----------------+-------------+-------------+-------------+-------------+-------------+---------------+
|           0|          3028969|      3028969|      3028969|      3028969|      3028969|      3028969|        3028969|
+------------+-----------------+-------------+-------------+-------------+-------------+-------------+---------------+



f_quest_socioeconomico

In [None]:
# Contar valores nulos em cada coluna
f_quest_socioeconomico.select([F.sum(F.col(c).isNull().cast("int")).alias(c) for c in f_quest_socioeconomico.columns]).show()

+------------+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+
|NU_INSCRICAO| Q001| Q002| Q003| Q004| Q005| Q006| Q007| Q008| Q009| Q010| Q011| Q012| Q013| Q014| Q015| Q016| Q017| Q018| Q019| Q020| Q021| Q022| Q023| Q024| Q025|
+------------+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+
|           0|95966|95966|95966|95966|95966|95966|95966|95966|95966|95966|95966|95966|95966|95966|95966|95966|95966|95966|95966|95966|95966|95966|95966|95966|95966|
+------------+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+



Observação:

Na nossa base, temos muitos alunos com nota nula e para uma análise justa em um contexto como o do Enem, vou manter as notas nulas e calcular médias apenas para provas feitas. Isso porque ela reflete de maneira mais precisa o desempenho do aluno nas provas que ele realmente realizou, sem penalizá-lo por ausências, a menos que a ausência de uma prova seja interpretada como uma falha significativa.

### Indicadores

Nessa etapa, vamos responder às seguintes perguntas:

* Qual a escola com a maior média de notas?

* Qual o aluno com a maior média de notas e o valor dessa média?

* Qual a média geral?

* Qual o % de Ausentes?

* Qual o número total de Inscritos?

* Qual a média por disciplina?

* Qual a média por Sexo?

* Qual a média por Etnia?

#### Qual a escola com a maior média de notas?

In [None]:
# Selecionando as colunas de interesse
df_escola_media = d_escola.join(
    f_prova_objetiva, on='NU_INSCRICAO', how='inner').join(
        f_redacao, on='NU_INSCRICAO', how='inner')

df_escola_media = df_escola_media.select(
    'NU_INSCRICAO',
    'CO_MUNICIPIO_ESC',
    'NU_NOTA_CN',
    'NU_NOTA_CH',
    'NU_NOTA_LC',
    'NU_NOTA_MT',
    'NU_NOTA_REDACAO'
)

In [None]:
# Calculando a média das notas (incluindo a redação) por escola
df_escola_media = df_escola_media.groupBy("CO_MUNICIPIO_ESC").agg(
    F.avg(F.col("NU_NOTA_CN")).alias("media_cn"),
    F.avg(F.col("NU_NOTA_CH")).alias("media_ch"),
    F.avg(F.col("NU_NOTA_LC")).alias("media_lc"),
    F.avg(F.col("NU_NOTA_MT")).alias("media_mt"),
    F.avg(F.col("NU_NOTA_REDACAO")).alias("media_redacao")
)

# Calculando a média total de cada escola
df_escola_media = df_escola_media.withColumn(
    "media_total",
    (F.col("media_cn") + F.col("media_ch") + F.col("media_lc") + F.col("media_mt") + F.col("media_redacao")) / 5
)

# Encontrando a escola com a maior média
df_escola_media.orderBy(F.col("media_total").desc()).show(1)


+----------------+--------+--------+--------+--------+-------------+-----------------+
|CO_MUNICIPIO_ESC|media_cn|media_ch|media_lc|media_mt|media_redacao|      media_total|
+----------------+--------+--------+--------+--------+-------------+-----------------+
|         3158904|   591.2|   730.3|   651.1|   720.2|        840.0|706.5600000000001|
+----------------+--------+--------+--------+--------+-------------+-----------------+
only showing top 1 row



#### Qual o aluno com a maior média de notas e o valor dessa média?

In [None]:
# Selecionando as colunas de interesse
df_media  = f_prova_objetiva.join(
        f_redacao, on='NU_INSCRICAO', how='inner')

df_aluno_media = df_media.select(
    'NU_INSCRICAO',
    'NU_NOTA_CN',
    'NU_NOTA_CH',
    'NU_NOTA_LC',
    'NU_NOTA_MT',
    'NU_NOTA_REDACAO'
)

In [None]:
# Calculando a média de cada aluno
df_aluno_media = df_aluno_media.withColumn(
    "media_aluno",
    (F.col("NU_NOTA_CN") + F.col("NU_NOTA_CH") + F.col("NU_NOTA_LC") + F.col("NU_NOTA_MT") + F.col("NU_NOTA_REDACAO")) / 5
)

# Encontrando o aluno com a maior média
df_aluno_media.orderBy(F.col("media_aluno").desc()).select("NU_INSCRICAO", "media_aluno").show(1)


+------------+-----------------+
|NU_INSCRICAO|      media_aluno|
+------------+-----------------+
|200005996961|858.5799999999999|
+------------+-----------------+
only showing top 1 row



#### Qual a média geral?

In [None]:
# Calculando a média geral das notas
df_media_geral = df_media.agg(
    F.avg(F.col("NU_NOTA_CN")).alias("media_cn"),
    F.avg(F.col("NU_NOTA_CH")).alias("media_ch"),
    F.avg(F.col("NU_NOTA_LC")).alias("media_lc"),
    F.avg(F.col("NU_NOTA_MT")).alias("media_mt"),
    F.avg(F.col("NU_NOTA_REDACAO")).alias("media_redacao")
)

df_media_geral.withColumn(
    "media_geral",
    (F.col("media_cn") + F.col("media_ch") + F.col("media_lc") + F.col("media_mt") + F.col("media_redacao")) / 5
).show()


+------------------+------------------+-----------------+-----------------+-----------------+-----------------+
|          media_cn|          media_ch|         media_lc|         media_mt|    media_redacao|      media_geral|
+------------------+------------------+-----------------+-----------------+-----------------+-----------------+
|490.40979248800454|511.15220163101566|523.8009359364513|520.5783348219691|573.4127241171473|523.8707977989176|
+------------------+------------------+-----------------+-----------------+-----------------+-----------------+



#### Qual o % de Ausentes?

In [None]:
# Contar ausentes (TP_PRESENCA == 0)
df_ausentes = f_prova_objetiva.withColumn(
    "ausente",
    F.when(
        (F.col("TP_PRESENCA_CN") == 0) & (F.col("TP_PRESENCA_CH") == 0) & (F.col("TP_PRESENCA_LC") == 0) & (F.col("TP_PRESENCA_MT") == 0)
        , 1
        ).otherwise(0)
)

# Calcular o percentual de ausentes
total_inscritos = f_prova_objetiva.count()
total_ausentes = df_ausentes.filter(F.col("ausente") == 1).count()

percentual_ausentes = (total_ausentes / total_inscritos) * 100
print(f"Percentual de Ausentes: {percentual_ausentes}%")

Percentual de Ausentes: 52.15329678205961%


#### Qual o número total de Inscritos?

In [None]:
total_inscritos = f_prova_objetiva.count()
print(f"Total de Inscritos: {total_inscritos}")

Total de Inscritos: 5783109


#### Qual a média por disciplina?

In [None]:
# Calculando a média por disciplina
df_media_disciplina = df_media.agg(
    F.avg(F.col("NU_NOTA_CN")).alias("media_cn"),
    F.avg(F.col("NU_NOTA_CH")).alias("media_ch"),
    F.avg(F.col("NU_NOTA_LC")).alias("media_lc"),
    F.avg(F.col("NU_NOTA_MT")).alias("media_mt"),
)

df_media_disciplina.show()

+-----------------+------------------+-----------------+-----------------+
|         media_cn|          media_ch|         media_lc|         media_mt|
+-----------------+------------------+-----------------+-----------------+
|490.4097924879985|511.15220163101645|523.8009359364592|520.5783348219734|
+-----------------+------------------+-----------------+-----------------+



#### Qual a média por Sexo?

In [None]:
# Selecionando as colunas de interesse
df_media_participante = d_participante.join(
    f_prova_objetiva, on='NU_INSCRICAO', how='inner').join(
        f_redacao, on='NU_INSCRICAO', how='inner')

df_media_participante = df_media_participante.select(
    'NU_INSCRICAO',
    'TP_SEXO',
    'TP_COR_RACA',
    'TP_FAIXA_ETARIA',
    'NU_NOTA_CN',
    'NU_NOTA_CH',
    'NU_NOTA_LC',
    'NU_NOTA_MT',
    'NU_NOTA_REDACAO',
    "NU_NOTA_COMP1",
    "NU_NOTA_COMP2",
    "NU_NOTA_COMP3",
    "NU_NOTA_COMP4",
    "NU_NOTA_COMP5"
)

In [None]:
# Calculando a média pelo sexo
df_media_sexo = df_media_participante.groupBy("TP_SEXO").agg(
    F.avg(F.col("NU_NOTA_CN")).alias("media_cn"),
    F.avg(F.col("NU_NOTA_CH")).alias("media_ch"),
    F.avg(F.col("NU_NOTA_LC")).alias("media_lc"),
    F.avg(F.col("NU_NOTA_MT")).alias("media_mt"),
    F.avg(F.col("NU_NOTA_REDACAO")).alias("media_redacao")
)

df_media_sexo.withColumn(
    "media_total",
    (F.col("media_cn") + F.col("media_ch") + F.col("media_lc") + F.col("media_mt") + F.col("media_redacao")) / 5
).show()


+-------+-----------------+-----------------+-----------------+-----------------+-----------------+-----------------+
|TP_SEXO|         media_cn|         media_ch|         media_lc|         media_mt|    media_redacao|      media_total|
+-------+-----------------+-----------------+-----------------+-----------------+-----------------+-----------------+
|      F|480.2196713996062|502.7785575348682|521.7115493504675|500.6864256785954|588.2979132655147|518.7388234458105|
|      M|505.9472788827989|523.9270599951562|526.9885108318473|550.9087170619389|550.7038316790281|531.6950796901539|
+-------+-----------------+-----------------+-----------------+-----------------+-----------------+-----------------+



#### Qual a média por Etnia?

In [None]:
# Calculando a média por Etnia
df_media_etnia = df_media_participante.groupBy("TP_COR_RACA").agg(
    F.avg(F.col("NU_NOTA_CN")).alias("media_cn"),
    F.avg(F.col("NU_NOTA_CH")).alias("media_ch"),
    F.avg(F.col("NU_NOTA_LC")).alias("media_lc"),
    F.avg(F.col("NU_NOTA_MT")).alias("media_mt"),
    F.avg(F.col("NU_NOTA_REDACAO")).alias("media_redacao")
)

df_media_etnia.withColumn(
    "media_total",
    (F.col("media_cn") + F.col("media_ch") + F.col("media_lc") + F.col("media_mt") + F.col("media_redacao")) / 5
).show()


+-----------+------------------+------------------+-----------------+-----------------+------------------+-----------------+
|TP_COR_RACA|          media_cn|          media_ch|         media_lc|         media_mt|     media_redacao|      media_total|
+-----------+------------------+------------------+-----------------+-----------------+------------------+-----------------+
|          1| 513.1382837802648| 537.8960004918081|545.2805824487317|557.5818172798474| 615.3174718290039|553.8428311659312|
|          3| 476.5909913395584| 494.7300490904937|510.1543132140318|498.7696476509748|     550.088064693|506.0666131976117|
|          5|453.35988752847413| 466.3566553582114|482.0146344708311|462.9141585990885|488.58378234550656|470.6458236604223|
|          4|491.03190799174325| 505.7550382653056|519.7248593668228|522.5354918729516| 571.4795918367347|522.1053778667116|
|          2| 470.6304130596608|490.59110437207585|509.7374053252954|486.3334190958985| 534.5475107062398| 498.367970511834|


## Escrita

### MySQL

Criação de um container para armazenar as tabelas criadas:


In [None]:
# Informações ficticias para criação do container
'''
docker run --name mysql-container -e MYSQL_ROOT_PASSWORD=my-secret-pw -e MYSQL_DATABASE=enem_db -p 3306:3306 -d mysql:latest
'''

In [None]:
# Definindo o caminho para o driver JDBC
'''
driver_path = "/content/mysql-connector-java-8.0.23/mysql-connector-java-8.0.23.jar"
'''

Conexão com Banco de Dados

In [None]:
# Defina as credenciais do MySQL
'''
user = "root"
password = "my-secret-pw"
host = "localhost"  # ou '127.0.0.1'
port = "3306"
database = "enem_db"

# Crie a string de conexão
engine = create_engine(f"mysql+mysqlconnector://{user}:{password}@{host}:{port}/{database}")

# Verifique a conexão (opcional)
connection = engine.connect()
print("Conectado ao banco de dados MySQL com sucesso.")
'''

Carregar dados para o Banco

In [None]:
'''
# URL de conexão JDBC
url = "jdbc:mysql://localhost:3306/enem_db"

# Configurações da conexão com o MySQL
properties = {
    "user": "root",
    "password": "my-secret-pw",
    "driver": "com.mysql.cj.jdbc.Driver"
}

# Escrever o DataFrame PySpark no MySQL
d_participante.write.jdbc(url=url, table="d_participante", mode="overwrite", properties=properties)
d_escola.write.jdbc(url=url, table="d_escola", mode="overwrite", properties=properties)
d_aplicacao_prova.write.jdbc(url=url, table="d_aplicacao_prova", mode="overwrite", properties=properties)
f_prova_objetiva.write.jdbc(url=url, table="f_prova_objetiva", mode="overwrite", properties=properties)
f_redacao.write.jdbc(url=url, table="f_redacao", mode="overwrite", properties=properties)
f_quest_socioeconomico.write.jdbc(url=url, table="f_quest_socioeconomico", mode="overwrite", properties=properties)
'''

### CSV

In [None]:
# Drive do Google
drive.mount('/content/drive')

# Especificando o caminho para salvar os arquivos CSV
output_path = "/content/drive/My Drive/enem_data/"

# Verifique se o caminho existe e crie-o se não existir
import os
if not os.path.exists(output_path):
    os.makedirs(output_path)

# Gravando o DataFrame d_participante em CSV
d_participante.coalesce(1).write.option("header", "true").csv(f"{output_path}d_participantes.csv", mode="overwrite")

# Gravando o DataFrame d_escola em CSV
d_escola.coalesce(1).write.option("header", "true").csv(f"{output_path}d_escola.csv", mode="overwrite")

# Gravando o DataFrame d_aplicacao_prova em CSV
d_aplicacao_prova.coalesce(1).write.option("header", "true").csv(f"{output_path}d_aplicacao_prova.csv", mode="overwrite")

# Gravando o DataFrame f_prova_objetiva em CSV
f_prova_objetiva.coalesce(1).write.option("header", "true").csv(f"{output_path}f_prova_objetiva.csv", mode="overwrite")

# Gravando o DataFrame f_redacao em CSV
f_redacao.coalesce(1).write.option("header", "true").csv(f"{output_path}f_redacao.csv", mode="overwrite")

# Gravando o DataFrame f_quest_socioeconomico em CSV
f_quest_socioeconomico.coalesce(1).write.option("header", "true").csv(f"{output_path}f_quest_socioeconomico.csv", mode="overwrite")

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
