## Importação das Bibiliotecas

In [1]:
from pyspark.sql import SparkSession
import pandas as pd
from sqlalchemy import create_engine
import os
from pyspark.sql.functions import col, count, sum
import pymssql


## Criando uma SparkSession

In [2]:
spark = SparkSession.builder.remote("sc://spark-connect").getOrCreate()

## Processo de Leitura do CSV de Participantes


In [3]:
#Path dos arquivos

caminho_arquivo_2022 = '/opt/datasets/ENEM/2022/microdados_enem_2022/DADOS/MICRODADOS_ENEM_2022.csv'
caminho_arquivo_2021 = '/opt/datasets/ENEM/2021/microdados_enem_2021/DADOS/MICRODADOS_ENEM_2021.csv'
caminho_arquivo_2020 = '/opt/datasets/ENEM/2020/microdados_enem_2020/DADOS/MICRODADOS_ENEM_2020.csv'
caminho_arquivo_2019 = '/opt/datasets/ENEM/2019/microdados_enem_2019/DADOS/MICRODADOS_ENEM_2019.csv'

In [4]:
os.chdir('/opt/datasets/ENEM/2022/microdados_enem_2022/DADOS/')
print(os.getcwd())

/opt/datasets/ENEM/2022/microdados_enem_2022/DADOS


In [5]:
#Função Paa ler os arquivos CSV
def lerCSV(spark, caminho_arquivo):
    df = spark.read.csv(caminho_arquivo, sep=';', header=True, inferSchema=True, encoding='ISO-8859-1')
    #colunas_selecionadas = df.columns[12:19]
    #return df.select(colunas_selecionadas)
    return df


In [6]:
##Chama função quer ler o arquivo CSV e Transforma para DF.SPARK

dfEscola22 = lerCSV(spark, caminho_arquivo_2022)
#dfEscola21 = lerCSV(spark, caminho_arquivo_2021)
#dfEscola20 = lerCSV(spark, caminho_arquivo_2020)
#dfEscola19 = lerCSV(spark, caminho_arquivo_2019)


In [7]:
#Unir os DF em um só 

#dfDadosGerais = dfEscola22.union(dfEscola21).union(dfEscola20).union(dfEscola19)
dfDadosGerais = dfEscola22


In [None]:
dfPreencher = dfDadosGerais.fillna(-2)  # Preenche com -2(sem ref), por exemplo
dfPreencher.cache()

In [None]:
dfPreencherDistinct = dfPreencher.select(
    col("NU_INSCRICAO").alias("NU_INSCRICAO"),
    col("NU_ANO").alias("ANO_EDICAO"),
    col("TP_ANO_CONCLUIU").alias("ANO_CONCLUSAO"),
    col("TP_SEXO").alias("SEXO_CODIGO"),
    col("CO_MUNICIPIO_ESC").alias("MUNICIPIO_CODIGO"),
    col("TP_ESTADO_CIVIL").alias("ESTADO_CIVIL_ID"),
    col("TP_COR_RACA").alias("COR_RACA_ID"),
    col("TP_NACIONALIDADE").alias("NACIONALIDADE_ID"),
    col("TP_ST_CONCLUSAO").alias("SITUACAO_ESCOLARIDADE_ID"),
    col("TP_ESCOLA").alias("ESCOLA_ID"),
    col("Q006").alias("FAIXA_RENDA_MENSAL_ID"),
    col("TP_FAIXA_ETARIA").alias("FAIXA_ETARIA_ID"),
    col("NU_NOTA_CN").alias("NOTA_CIENCIA_DA_NATUREZA"),
    col("NU_NOTA_CH").alias("NOTA_CIENCIA_DA_HUMANA"),
    col("NU_NOTA_LC").alias("NOTA_LINGUAGEM_CODIGO"),
    col("NU_NOTA_MT").alias("NOTA_MATEMATICA")
).distinct()
dfPreencherDistinct.cache()

In [None]:
dfPreencherDistinct.count()

In [None]:
dfAgregate = dfPreencherDistinct.select(
    "ANO_EDICAO",
    "ANO_CONCLUSAO",
    "SEXO_CODIGO",
    "MUNICIPIO_CODIGO",
    "ESTADO_CIVIL_ID",
    "COR_RACA_ID",
    "NACIONALIDADE_ID",
    "SITUACAO_ESCOLARIDADE_ID",
    "ESCOLA_ID",
    "FAIXA_RENDA_MENSAL_ID",
    "FAIXA_ETARIA_ID",
    "NU_INSCRICAO",  # Adicionando essa coluna para o count
    "NOTA_CIENCIA_DA_NATUREZA",
    "NOTA_CIENCIA_DA_HUMANA",
    "NOTA_LINGUAGEM_CODIGO",
    "NOTA_MATEMATICA"
)

# Agregação após o agrupamento
dfAgregate = dfAgregate.groupBy(
    "ANO_EDICAO",
    "ANO_CONCLUSAO",
    "SEXO_CODIGO",
    "MUNICIPIO_CODIGO",
    "ESTADO_CIVIL_ID",
    "COR_RACA_ID",
    "NACIONALIDADE_ID",
    "SITUACAO_ESCOLARIDADE_ID",
    "ESCOLA_ID",
    "FAIXA_RENDA_MENSAL_ID",
    "FAIXA_ETARIA_ID"
).agg(
    count("NU_INSCRICAO").alias("QTD"),
    sum("NOTA_CIENCIA_DA_NATUREZA").alias("NOTA_CIENCIA_DA_NATUREZA"),
    sum("NOTA_CIENCIA_DA_HUMANA").alias("NOTA_CIENCIA_DA_HUMANA"),
    sum("NOTA_LINGUAGEM_CODIGO").alias("NOTA_LINGUAGEM_CODIGO"),
    sum("NOTA_MATEMATICA").alias("NOTA_MATEMATICA")
)

In [None]:
dfAgregate.count()

# Salvar em SQL 
Salvar os dados em uma tabela SQL


## Parametrizando a conexão do Banco SQL SERVER Usando JDBC

In [35]:
server_name = "5d1dd44f946f"
database_name = "DockerEnem"
username = "sa"
password = "bi@123456"

In [None]:
# Nome da tabela a ser excluída
table_name = "ODS_ENEM"

#obter Schema do dfAgregate 
df_schema = dfAgregate.schema

# Gerando as definições de coluna para a tabela
columns_definitions = [f"{field.name} {field.dataType}" for field in df_schema.fields]

# Mapeamento de tipos de dados do Spark para tipos de dados do SQL Server
data_type_mapping = {
    "IntegerType": "INT",
    "StringType": "NVARCHAR(255)",  # Você pode ajustar o tamanho conforme necessário
    "DoubleType": "FLOAT",
    "LongType": "BIGINT"
}

# Gerando as definições de coluna para a tabela com os tipos de dados corretos
columns_definitions = [f"{field.name} {data_type_mapping.get(str(field.dataType), 'NVARCHAR(255)')}" for field in df_schema.fields]


# Combinando as definições de coluna em uma string
columns_str = ",\n".join(columns_definitions)

In [62]:
# Conectando ao banco de dados
conn = pymssql.connect(server=server_name, database=database_name, user=username, password=password)

# Criando um cursor
cursor = conn.cursor()

In [64]:
# Dropando a tabela se ela já existir
drop_table_query = """
IF OBJECT_ID('ODS_ENEM', 'U') IS NOT NULL
    DROP TABLE ODS_ENEM
"""
cursor.execute(drop_table_query)

In [65]:
# Criando o comando CREATE TABLE
create_table_query = f"""
CREATE TABLE {table_name} (
{columns_str}
)
"""
# Executando o comando SQL para criar a tabela
cursor.execute(create_table_query)

In [None]:
# Inserindo os dados na tabela
insert_query = f"""
INSERT INTO ODS_ENEM VALUES {",".join(["(" + ",".join(map(str, row)) + ")" for row in dfAgregate.collect()])}
"""
cursor.execute(insert_query)

In [None]:
# Commit das alterações no banco de dados
conn.commit()

In [None]:
# Fechando a conexão
conn.close()

In [None]:
print(f'Tabela {nomeTabela} criada com sucesso no banco de dados.')
