GitHub - lafabigdatamg/edc-mod1-exercise-igti: TRABALHO PRÁTICO DO MÓDULO 1 DO BOOTCAMP ENGENHARIA DE DADOS CLOUD IGTI 2022

TRABALHO PRÁTICO DO MÓDULO 1 DO BOOTCAMP ENGENHARIA DE DADOS CLOUD IGTI 2022

Objetivos

Exercitar os seguintes conceitos trabalhados no Módulo:

Utilizar os principais serviços de nuvem para Engenharia de Dados
Ingerir dados de maneira programática em bucket S3
Implementar um pipeline de processamento de big data
Disponibilizar dados para consulta usando engine de Data Lake
Realizar consultas ad hoc para investigar os dados

Enunciado

Você é Engenheiro(a) de Dados em uma grande instituição educacional. O gestor de sua área iniciou um novo projeto de inteligência de dados com o objetivo de entender o desempenho de alunos do ensino médio de todo o Brasil no Exame Nacional do Ensino Médio (ENEM). Desse modo, você será responsável por construir um Data Lake com os dados do ENEM 2020, realizar o processamento utilizando ferramental adequado e disponibilizar o dado para consultas dos usuários de negócios e analistas de BI.

Atividades

Realizar o download dos MICRODADOS do ENEM 2020. O arquivo está disponível neste link: (https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/microdados);
Criar um bucket chamado datalake-- para armazenamento dos dados crus do ENEM 2020;
Fazer a ingestão dos dados do ENEM 2020 em seu data lake numa pasta intitulada raw-data utilizando o SDK de sua preferência ou a AWS CLI (Boto3 - https://boto3.amazonaws.com/v1/documentation/api/latest/index.html; AWS CLI - https://docs.aws.amazon.com/cli/latest/userguide/cli-chap-welcome.html e https://awscli.amazonaws.com/v2/documentation/api/latest/index.html);
Fazer a transformação do CSV em parquet utilizando spark;
Escrever o parquet em uma outra pasta no bucket chamada consumer-zone;
Criar e executar um Glue Crawler para disponibilizar o schema dos dados do ENEM 2020;
Realizar consultas SQL no AWS Athena para responder às perguntas do trabalho prático.

Name		Name	Last commit message	Last commit date
Latest commit History 23 Commits
.github/workflows		.github/workflows
airflow		airflow
data		data
etl		etl
infrastructure		infrastructure
notebooks		notebooks
scripts		scripts
.gitignore		.gitignore
README.md		README.md
emr_job_spark_2020.py		emr_job_spark_2020.py
glue_job_spark_2020.py		glue_job_spark_2020.py
interact_s3.py		interact_s3.py
interact_s3_2020.py		interact_s3_2020.py
simulations_to_kinesis.py		simulations_to_kinesis.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

TRABALHO PRÁTICO DO MÓDULO 1 DO BOOTCAMP ENGENHARIA DE DADOS CLOUD IGTI 2022

Objetivos

Enunciado

Atividades

About

Releases

Packages

Languages

lafabigdatamg/edc-mod1-exercise-igti

Folders and files

Latest commit

History

Repository files navigation

TRABALHO PRÁTICO DO MÓDULO 1 DO BOOTCAMP ENGENHARIA DE DADOS CLOUD IGTI 2022

Objetivos

Enunciado

Atividades

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages