📝 Nota: Eu não sou responsável pelos custos do projeto, isso significa que qualquer gasto que ocorra durante a realização do projeto, como utilização de serviços, não é de minha responsabilidade. É importante que você esteja ciente desses custos e os gerencie adequadamente.
Um projeto de Data Lakehouse utilizando os serviços em nuvem da Microsoft Azure pode ser uma solução eficiente e escalável para armazenamento, processamento e análise de dados estruturados e não estruturados.
O primeiro passo seria configurar um armazenamento de dados em nuvem com o Azure Data Lake Storage Gen2. Esse serviço permite o armazenamento de grandes quantidades de dados em formato de arquivo e oferece recursos avançados de segurança, controle de acesso e gerenciamento de custos.
Para a integração com outras ferramentas e serviços, seria recomendado utilizar o Azure Data Factory, que permite a orquestração de pipelines de dados em diferentes plataformas e sistemas. O Data Factory também oferece recursos avançados de monitoramento, diagnóstico e gerenciamento de erros.
Essa será a arquitetura a ser seguida no projeto:
📝 Nota: 💡 Este projeto foi executado em Março de 2023, e é importante ressaltar que alguns dos requisitos abordados podem sofrer alterações ao longo do tempo. Como em qualquer área de tecnologia, novas soluções e tecnologias surgem constantemente, o que pode tornar algumas das abordagens e soluções apresentadas neste projeto desatualizadas em algum momento.
Azure Data Factory: O Azure Data Factory é um serviço de integração de dados baseado na nuvem, desenvolvido pela Microsoft. Ele permite orquestrar e automatizar fluxos de dados entre diferentes fontes e destinos, transformando e processando dados em larga escala, em ambientes híbridos ou totalmente em nuvem.
Implemente esse texto: Este projeto experimental é o resultado das minhas experiências com Data Lakehouse. Durante o processo de criação, tive a oportunidade de explorar diversas ferramentas e serviços em nuvem, incluindo o Microsoft Azure Data Lake Storage Gen2 e Azure Data Factory.
Ao longo do projeto, fui capaz de armazenar e processar de dados de diferentes fontes, realizando tarefas de extração, transformação e carga (ETL), além de criar pipelines de processamento automatizados seguindo o conceito de arquitetura medalhão.
-
Cadastro: É preciso possuir uma conta na Microsoft Azure. Se você ainda não possui uma, pode criar uma facilmente no site oficial da plataforma. Basta fornecer algumas informações básicas e escolher o plano que melhor atenda às suas necessidades.
Além disso, é importante estar familiarizado com os conceitos básicos de computação em nuvem e ter conhecimento sobre a arquitetura dos serviços que deseja utilizar. A Microsoft Azure oferece uma vasta documentação e tutoriais para ajudar seus usuários a entenderem esses conceitos e a aproveitarem ao máximo seus serviços.
-
Rede: A Microsoft Azure requer uma rede adequada para comunicação com a Nuvem. Verifique se a rede suporta entrar em conexão com a Web sem maiores problemas.
Tarefas concluídas:
- Descrever sobre a finalidade do Data Lakehouse
- Criar uma conta na Microsoft Azure
- Criar o grupo de recursos
- Criar o recurso conta de armazenamento
- Criar o recurso Data Factory
- Importar os dados do CDC (NNDSS)
- Criar os Datasets (Bronze, Silver e Gold)
- Criar os Pipelines (Copia e fluxo de dados)
- Criar os Data flows (Bronze, Silver e Gold)
Futuras implementações:
- Automatizar a coleta semanal dos dados
- Automatizar a criação de snapshots semanais
- Automatizar a criação de relatórios no PowerBI diretamente da camada Gold
Projeto:
Artigos orientados:
Em resumo, um projeto de data lakehouse utilizando os serviços em nuvem da Microsoft Azure pode ser uma solução escalável e eficiente para o armazenamento, processamento e análise de dados em larga escala, com recursos avançados de segurança, integração e gerenciamento de custos.