Skip to content
This repository has been archived by the owner on Jun 16, 2023. It is now read-only.

Este é um projeto pessoal que tem como objetivo de criar uma solução de Data Lakehouse na plataforma de nuvem da Microsoft Azure, utilizando a ferramenta Azure Data Factory, seguindo a medallion architecture (Bronze, Silver, Gold) para armazenar dados do NNDSS do órgão CDC.

License

Notifications You must be signed in to change notification settings

alexandremcastro/Data-Lakehouse-Azure

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

6 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Data Warehouse Cloud Azure

GitHub license

📝 Nota: Eu não sou responsável pelos custos do projeto, isso significa que qualquer gasto que ocorra durante a realização do projeto, como utilização de serviços, não é de minha responsabilidade. É importante que você esteja ciente desses custos e os gerencie adequadamente.

Um projeto de Data Lakehouse utilizando os serviços em nuvem da Microsoft Azure pode ser uma solução eficiente e escalável para armazenamento, processamento e análise de dados estruturados e não estruturados.

O primeiro passo seria configurar um armazenamento de dados em nuvem com o Azure Data Lake Storage Gen2. Esse serviço permite o armazenamento de grandes quantidades de dados em formato de arquivo e oferece recursos avançados de segurança, controle de acesso e gerenciamento de custos.

Para a integração com outras ferramentas e serviços, seria recomendado utilizar o Azure Data Factory, que permite a orquestração de pipelines de dados em diferentes plataformas e sistemas. O Data Factory também oferece recursos avançados de monitoramento, diagnóstico e gerenciamento de erros.

Essa será a arquitetura a ser seguida no projeto: Group 1 (3).jpg

Ferramenta utilizada

📝 Nota: 💡 Este projeto foi executado em Março de 2023, e é importante ressaltar que alguns dos requisitos abordados podem sofrer alterações ao longo do tempo. Como em qualquer área de tecnologia, novas soluções e tecnologias surgem constantemente, o que pode tornar algumas das abordagens e soluções apresentadas neste projeto desatualizadas em algum momento.

Azure Data Factory: O Azure Data Factory é um serviço de integração de dados baseado na nuvem, desenvolvido pela Microsoft. Ele permite orquestrar e automatizar fluxos de dados entre diferentes fontes e destinos, transformando e processando dados em larga escala, em ambientes híbridos ou totalmente em nuvem.

Motivação

Implemente esse texto: Este projeto experimental é o resultado das minhas experiências com Data Lakehouse. Durante o processo de criação, tive a oportunidade de explorar diversas ferramentas e serviços em nuvem, incluindo o Microsoft Azure Data Lake Storage Gen2 e Azure Data Factory.

Ao longo do projeto, fui capaz de armazenar e processar de dados de diferentes fontes, realizando tarefas de extração, transformação e carga (ETL), além de criar pipelines de processamento automatizados seguindo o conceito de arquitetura medalhão.

Sumário

Pré-requisitos

  • Cadastro: É preciso possuir uma conta na Microsoft Azure. Se você ainda não possui uma, pode criar uma facilmente no site oficial da plataforma. Basta fornecer algumas informações básicas e escolher o plano que melhor atenda às suas necessidades.

    Além disso, é importante estar familiarizado com os conceitos básicos de computação em nuvem e ter conhecimento sobre a arquitetura dos serviços que deseja utilizar. A Microsoft Azure oferece uma vasta documentação e tutoriais para ajudar seus usuários a entenderem esses conceitos e a aproveitarem ao máximo seus serviços.

  • Rede: A Microsoft Azure requer uma rede adequada para comunicação com a Nuvem. Verifique se a rede suporta entrar em conexão com a Web sem maiores problemas.

Tarefas

Tarefas concluídas:

  • Descrever sobre a finalidade do Data Lakehouse
  • Criar uma conta na Microsoft Azure
  • Criar o grupo de recursos
  • Criar o recurso conta de armazenamento
  • Criar o recurso Data Factory
  • Importar os dados do CDC (NNDSS)
  • Criar os Datasets (Bronze, Silver e Gold)
  • Criar os Pipelines (Copia e fluxo de dados)
  • Criar os Data flows (Bronze, Silver e Gold)

Futuras implementações:

  • Automatizar a coleta semanal dos dados
  • Automatizar a criação de snapshots semanais
  • Automatizar a criação de relatórios no PowerBI diretamente da camada Gold

Links

Projeto:

Artigos orientados:

Conclusão

Em resumo, um projeto de data lakehouse utilizando os serviços em nuvem da Microsoft Azure pode ser uma solução escalável e eficiente para o armazenamento, processamento e análise de dados em larga escala, com recursos avançados de segurança, integração e gerenciamento de custos.

About

Este é um projeto pessoal que tem como objetivo de criar uma solução de Data Lakehouse na plataforma de nuvem da Microsoft Azure, utilizando a ferramenta Azure Data Factory, seguindo a medallion architecture (Bronze, Silver, Gold) para armazenar dados do NNDSS do órgão CDC.

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published