# INFNET
## Projeto de Bloco: Engenharia de Dados: Big Data [25E1_5] - AT
### Aluno: Rodrigo Avila
### Data: 16/06/2025

## Estudo Big Data

Uma empresa irá realizar um investimento em Soluções de Tecnologia, visando modernização e aumento de competitividade, para tanto pretende:

Criar um aplicativo para dispositivos móveis e site que será amplamente acessado e utilizado por milhares de usuários;
Receber milhares de dados por segundo em tempo real através de sensores;
Capturar posts dos usuários para realizar análise de sentimento e verificar as palavras em maior evidência (word count);
Realizar predições de vendas.

### 1) Explique, com suas palavras, para usuários de negócio os principais conceitos, técnicas e ferramentas relativas à Big Data que devem constar no projeto.

- **Armazenamento**: O armazenamento dos dados deve ser feito em um banco de dados NoSQL, como o MongoDB ou Cassandra, que são mais adequados para lidar com grandes volumes de dados não estruturados. (Dados de sensores, posts dos usuários, etc.)
- **Processamento**: O processamento dos dados deve ser feito em tempo real, utilizando ferramentas como Apache Kafka para ingestão de dados e Apache Spark para processamento em tempo real.
- **Análise de Dados**: Podemos usar bibliotecas de ML como TensorFlow ou PyTorch para realizar predições de vendas e análise de sentimentos, além de bibliotecas como NLTK ou SpaCy para análise de sentimentos e contagem de palavras.

### 2) Explique quais componentes e qual(is) arquitetura(s) utilizaria. Justifique sua resposta.
Utilizaria uma arquitetura de Big Data, contendo os seguintes componentes:

* **Data Lake**: Um Data Lake é um repositório centralizado que permite armazenar grandes volumes de dados em seu formato bruto.
* **Data Warehouse**: Um Data Warehouse é um repositório centralizado que permite armazenar dados estruturados e não estruturados, otimizando consultas e análises.
* **ETL (Extract, Transform, Load)**: O processo de ETL é responsável por extrair dados de diferentes fontes, transformá-los em um formato adequado e carregá-los em um Data Warehouse ou Data Lake.

### 3) Defina os principais perfis de profissionais necessários para compor tal solução, com seus respectivos papéis e responsabilidades.

Os principais perfis de profissionais necessários para compor a solução são:
- **Engenheiro de Dados**: Que é responsável por projetar, construir e manter a infraestrutura de dados, incluindo Data Lakes e Data Warehouses. Ele também é responsável por garantir a qualidade e integridade dos dados.
- **Cientista de Dados**: Responsável por analisar os dados e criar modelos preditivos, utilizando técnicas de Machine Learning e estatística.
- **Analista de Dados**: Tem o papel de analisar os dados e criar relatórios e dashboards, utilizando ferramentas de visualização de dados, além de interpretar e apresentar os resultados para a equipe de negócios.

### 4) Você adotaria uma solução de dados local (on-premise) ou em nuvem? Justifique. Você utilizaria MongoDB? Justifique sua resposta. 

Depende se a empresa já possui infra-estrutura local e uma equipe de TI capacitada para gerenciar essa infraestrutura.

Na maioria dos casos atualmente, a solução em nuvem é mais viável, pois oferece escalabilidade, flexibilidade e redução de custos com hardware e manutenção.

Por não ter o detalhamento da empresa, eu optaria por cloud pois é o modelo que funciona melhor para a maioria das empresas atualmente.

Eu utilizaria o MongoDB, por se tratar de dados não estruturados e por ser escalável, permitindo o armazenamento de grandes volumes de dados.

# Objetivo do Data Lake
Meu Data Lake tem como principal objetivo armazenar, extrair e disponibilizar dados de .EPUBs, arquivos de livros digitais e extrair os dados contidos neles, e também receber eventos em tempo real dos livros que estão sendo lidos pelos usuário, para servir como base para análises futuras e até mesmo para alimentar um sistema de recomendação.

A demanda se originou da necessidade de complementar meu projeto de extensão do INFNET, que é um site para leitura de livros digitais estilo Netflix, onde temos um **dataset de livros digitais públicos no formato .EPUB**, que pretendemos disponibiliza-los para leitura online.

Para isso, precisamos extrair os dados contidos nos arquivos .EPUBs, como capa (imagem), título, autor, gênero, sinopse, entre outros, e disponibilizar esses dados para consulta no frontend através de uma API Restful.

## Um pouco sobre .EPUBs

Os .EPUBs são arquivos compactados que contêm arquivos de diversos formatos como HTML, CSS e imagens, entre outros. Eles são usados para criar livros digitais e podem ser lidos em dispositivos como e-readers, tablets e smartphones.

Apesar dos arquivos .EPUBs seguirem uma estrutura padrão, os dados não são obrigatórios e podem variar de livro para livro. Portanto, o processo de extração de dados pode ser complexo.

![epubs](/Users/rodrigo/Dev/infnet/5SEM/projeto_de_bloco/AT/images/00_epub.png) 

## Demonstração de como estão os projetos que utilizarão os dados do datalake.

### Frontend React JS (Preview)
![frontend](/Users/rodrigo/Dev/infnet/5SEM/projeto_de_bloco/AT/images/01_frontend.png) 
![frontend](/Users/rodrigo/Dev/infnet/5SEM/projeto_de_bloco/AT/images/02_frontend.png) 

### Backend Java Spring Boot
![backend](/Users/rodrigo/Dev/infnet/5SEM/projeto_de_bloco/AT/images/03_backend.png) 
![backend](/Users/rodrigo/Dev/infnet/5SEM/projeto_de_bloco/AT/images/04_backend.png) 
![backend](/Users/rodrigo/Dev/infnet/5SEM/projeto_de_bloco/AT/images/05_backend.png)

### Requisitos iniciais do Data Lake
1) Escolha de tecnologias e ferramentas (ex: Google Cloud Storage, AWS S3, Azure Blob Storage)

2) Configuração do ambiente de armazenamento

3) Organização dos dados (ex: diretórios, metadados)

4) Implementação de um pipeline de ingestão de dados

5) Mecanismos de segurança e controle de acesso  

6) Monitoramento

### Uso de Banco de Dados NoSQL:
Eu pretendia utilizar o **MongoDB** como banco de dados NoSQL, mas desisti após verificar que o **Full Text Search** do MongoDB não está disponível na versão Community, dessa forma, optei por utilizar o **Elasticsearch**, que é um banco de dados NoSQL open source, que além de ter as features que necessito, também possui boa integração com o Kibana para visualização dos dados.

### Escolha de Ambiente OnPremise ou Cloud:
Optei por utilizar um modelo de solução **On-Premises**, pois nesse momento o volume de dados é pequeno, cerca de 5000 .EPUBs, e não há necessidade de envolver custos de cloud.

## Arquitetura do Data Lake

A arquitetura do meu Data Lake é baseada na arquitetura **Lambda**, que é uma abordagem de processamento de dados em tempo real e em lote:

![arquitetura](/Users/rodrigo/Dev/infnet/5SEM/projeto_de_bloco/AT/images/00_arq_pb_att.png)

A arquitetura Lambda é composta por três camadas principais: a camada batch, speed e serving.

A camada **batch** é responsável por processar grandes volumes de dados em lotes. Ela será usada para processar os arquivos .EPUBs e extrair os dados contidos neles.

A camada **speed** é responsável por processar dados em tempo real. Ela será usada para receber eventos em tempo real dos livros que estão sendo lidos pelos usuários. Esses eventos podem incluir informações como inicio de leitura, fim da leitura, adicionar aos favoritos, entre outros. Esses eventos serão processados e armazenados para análises futuras.

A camada **serving** é responsável por armazenar os dados processados e torná-los disponíveis para consulta.

A camada **api** é adicional ao datalake, sendo responsável apenas por expor os dados processados para o frontend, tanto através das APIs do elastic para análises de dados no Kibana quanto para o Frontend React JS para a leitura dos livros digitais através da API Java Spring Boot.

## Ambiente Google Colab
Criei um ambiente no Google Colab para demonstrar a configuração, dataset, transformações e análise de dados. 

*⚠️ Eu troquei o dataset à partir do TP4, portanto, o dataset do ambiente do Google Colab é diferente do dataset atual do projeto.*

Link: [Google Colab TP3](https://colab.research.google.com/drive/1k13KP8T8bpEnixmUVOkHRUDZx1tQgVp9#scrollTo=hVjJPyvCI8Bt), compartilhamento feito para o email abaixo:

![compartilhamento](/Users/rodrigo/Dev/infnet/5SEM/projeto_de_bloco/AT/images/09_comp.png)

Realizei atividades bem mais complexas envolvendo o novo dataset de .EPUBs nos TP4 e TP5 onde querendo ou não foi requisito fazer do zero todos os passos do TP3.

### Identificação da ferramenta de Orquestração
A ferramenta de orquestração escolhida para automatizar o fluxo de dados em meu projeto foi o **Apache Spark**.

Outras opções de ferramentas de orquestração que não foram escolhidas incluem:
- **Apache Airflow**: Uma plataforma de orquestração de fluxo de trabalho que permite programar e monitorar tarefas. É amplamente utilizada para automação de pipelines de dados, especialmente em ambientes de Big Data.
- **Luigi**: Uma ferramenta de orquestração de fluxo de trabalho desenvolvida pelo Spotify. É usada para construir pipelines de dados complexos, permitindo a execução de tarefas em sequência e o gerenciamento de dependências entre elas.
- **Apache NiFi**: Uma ferramenta de automação de fluxo de dados que permite mover e transformar dados entre sistemas. É útil para integrar dados de diferentes fontes e destinos, além de permitir o monitoramento em tempo real dos

Pelo que pesquisei, o **Apache Airflow** seria uma ferramenta mais adequada para orquestração de fluxo de dados no meu caso, pois é uma plataforma que permite programar e monitorar tarefas, coisas que teriam que ser feitas manualmente no Apache Spark.

Porém, escolhi o Apache Spark em detrimento das outras devido a questões de conhecimento. Não fomos apresentados a nenhuma ferramenta de orquestração de fluxo de dados, e estive sem tempo aprender por fora da faculdade devido a outros projetos. (Principalmente o de extensão)

O nível de conhecimento dos desenvolvedores com relação a uma tecnologia também é um fator importante a ser considerado na escolha de ferramentas.

## Fluxo de Dados Camada Batch
Aqui eu não utilizei o Data Set completo que temos do projeto de extensão (vários gigas), mas sim um subconjunto pequeno de EPUBs pessoais que eu tinha no meu computador, apenas para demonstrar o fluxo de dados.

### Ambiente antes da execução do orquestrador (Spark Batch):

##### 1) MinIO bucket `raw` com arquivos .EPUBs:
![minio_raw](/Users/rodrigo/Dev/infnet/5SEM/projeto_de_bloco/AT/images/00_minio_raw.png)

##### 2) MinIO bucket `processed` vazio:
![minio_processed](/Users/rodrigo/Dev/infnet/5SEM/projeto_de_bloco/AT/images/01_minio_processed.png)

##### 3) PostgreSQL sem a tabela `books_metadata`:
![postgresql](/Users/rodrigo/Dev/infnet/5SEM/projeto_de_bloco/AT/images/02_postgres.png)

##### 4) Elasticsearch sem o índice `books_content`:
![elastic](/Users/rodrigo/Dev/infnet/5SEM/projeto_de_bloco/AT/images/03_elastic.png)

##### 5) Execução do Spark Batch para processar os arquivos .EPUBs
![spark](/Users/rodrigo/Dev/infnet/5SEM/projeto_de_bloco/AT/images/05_1_spark.png)
![spark](/Users/rodrigo/Dev/infnet/5SEM/projeto_de_bloco/AT/images/05_2_spark.png)
![spark](/Users/rodrigo/Dev/infnet/5SEM/projeto_de_bloco/AT/images/05_3_spark.png)


### Ambiente após a execução do orquestrador (Spark Batch):

##### 1) MinIO bucket `raw` sem arquivos .EPUBs:
![minio_raw](/Users/rodrigo/Dev/infnet/5SEM/projeto_de_bloco/AT/images/06_minio_raw.png)

##### 2) MinIO bucket `processed` com diretórios de arquivos processados:
![minio_processed](/Users/rodrigo/Dev/infnet/5SEM/projeto_de_bloco/AT/images/06_minio_processed_1.png)

##### 3) MinIO bucket `processed/cover` com imagens de capas extraídas:
![minio_processed](/Users/rodrigo/Dev/infnet/5SEM/projeto_de_bloco/AT/images/06_minio_processed_2.png)

##### 4) MinIO bucket `processed/epub` com arquivos EPUBs processados:
![minio_processed](/Users/rodrigo/Dev/infnet/5SEM/projeto_de_bloco/AT/images/06_minio_processed_3.png)

##### 5) PostgreSQL com metadados dos epubs disponíveis na tabela `books_metadata`:
![postgres](/Users/rodrigo/Dev/infnet/5SEM/projeto_de_bloco/AT/images/07_postgres_att.png)

##### 6) Elasticsearch com conteúdo dos epubs no índice `books_content`:
![postgres](/Users/rodrigo/Dev/infnet/5SEM/projeto_de_bloco/AT/images/08_elastic.png)

## Fluxo de Dados Camada Speed - Analytics
Recebe eventos em tempo real dos livros que estão sendo lidos pelos usuários, faz join com os metadados, e os persiste no Elasticsearch para análises futuras.

##### 1) Aplicação Java enviando ```eventos``` para o Kafka
![java events](/Users/rodrigo/Dev/infnet/5SEM/projeto_de_bloco/AT/images/02_java_events.png)

##### 2) Spark ```processando``` eventos
![spark speed](/Users/rodrigo/Dev/infnet/5SEM/projeto_de_bloco/AT/images/04_spark_speed.png)

##### 3) Eventos chegando no ```elasticsearch```
Obs: os eventos possuem apenas os dados abaixo:
```python
KAFKA_USERS_INTERACTION_SCHEMA = StructType([
    StructField("processId", StringType(), False),
    StructField("userId", LongType(), False),
    StructField("bookId", LongType(), False),
    StructField("interactionType", StringType(), False),
    StructField("timestamp", TimestampType(), False)
])
```

O Spark faz um join com os dados dos EPUBs que foram salvos pela camada Batch no PostgreSQL, o resultado é salvo no elasticsearch, conforme print abaixo:

![elastic events](/Users/rodrigo/Dev/infnet/5SEM/projeto_de_bloco/AT/images/05_elasticsearch_events.png)


##### 4) Kibana: Métricas dos eventos em tempo real
![kibana](/Users/rodrigo/Dev/infnet/5SEM/projeto_de_bloco/AT/images/07_kibana_graphs.png)

## Fluxo de Dados Camada Speed - Recomendações
O fluxo da **Camada Speed - Recomendações** recebe eventos em tempo real do mesmo tópico do fluxo de dados da camada **Speed - Analytics**, e também faz um join com os dados do PostgreSQL, a diferença é que é um consumidor separado e que está interessado apenas em eventos de fim de leitura, ou seja, quando o usuário finalizou a leitura de um livro.

Com base no livro que a pessoa leu, o sistema de recomendação irá buscar livros similares e salvar as recomendações no índice `user_recommendations`, o qual é utilizado pelo frontend para exibir as recomendações de livros para o usuário após a leitura de um livro.

O algorítmo utilizado para recomendações é o **Butina Clustering** em conjunto com o **Jaccard Similarity**, que é uma técnica de agrupamento que agrupa livros com base em suas características e similaridade.

Referência: https://ptabdata.blob.core.windows.net/files/2016/PGR2016-00042/v58_1061%20-%20Butina.pdf

##### 1) Aplicação Java enviando ```eventos``` para o Kafka
![java events](/Users/rodrigo/Dev/infnet/5SEM/projeto_de_bloco/AT/images/02_java_events_rec.png)

##### 2) Spark ```processando``` eventos
![spark speed](/Users/rodrigo/Dev/infnet/5SEM/projeto_de_bloco/AT/images/04_rec_spark_speed.png)

##### 3) Recomendações chegando no ```elasticsearch```
![elastic events](/Users/rodrigo/Dev/infnet/5SEM/projeto_de_bloco/AT/images/05_elasticsearch_rec.png)

## Monitoração do Ambiente

##### 1) Recursos usados por toda infra estrutura

![docker stats](/Users/rodrigo/Dev/infnet/5SEM/projeto_de_bloco/AT/images/01_docker_stats.png)

##### 2) Monitoração específica do Cluster Kafka 
![kakfa ui](/Users/rodrigo/Dev/infnet/5SEM/projeto_de_bloco/AT/images/03_kafka_ui.png)

##### 3) Monitoração do spark
![spark monit](/Users/rodrigo/Dev/infnet/5SEM/projeto_de_bloco/AT/images/06_spark_monit.png)

## Governança do Data Lake

### 1. Organização e Estrutura:
- **Estrutura de Diretórios**: Criar uma estrutura de diretórios clara para os dados, como `raw/`, `processed/`.
- **Metadados**: Utilizar um banco de dados relacional (PostgreSQL) para armazenar metadados dos livros, como título, autor, data de publicação, etc. Isso facilita a busca e o gerenciamento dos dados.
- **Indexação**: Utilizar Elasticsearch para indexar o conteúdo dos livros, permitindo buscas rápidas e eficientes em textos longos.
- **Orquestração**: Utilizar Apache Spark para orquestrar o processamento dos dados, garantindo que os dados sejam processados de forma eficiente e escalável.
- **Eventos em Tempo Real**: Utilizar Apache Kafka para receber eventos em tempo real dos livros que estão sendo lidos pelos usuários, permitindo análises em tempo real e atualizações dinâmicas dos dados.

### 2. Controle de Acesso
- **Políticas de Acesso**: Implementar políticas de acesso para controlar quem pode acessar, ler, escrever ou modificar os dados.
- **Autenticação e Autorização**: Utilizar autenticação baseada em usuários e roles para garantir que apenas usuários autorizados possam acessar os dados. Por exemplo, o backend Java terá acesso de escrita no bucket `raw/` para fazer upload dos arquivos `.EPUB`, enquanto o Job Spark terá acesso de leitura e escrita para processar esses arquivos (mover entre camadas / upload).

### 3. Qualidade dos Dados:
- **Validação de Dados**: Implementar processos de validação para garantir que os dados sejam consistentes e estejam no formato correto. Isso é importante, especialmente para os arquivos `.EPUB`, que podem ter informações faltantes ou inconsistentes.
- **Dados Faltantes**: Implementar mecanismos para lidar com dados faltantes, é muito provável que diversos arquivos `.EPUB` não tenham todos os metadados preenchidos, como título, autor, etc, nesse casos será definido valores padrões. No futuro, a ideia é implementar um processo de enriquecimento de dados para preencher esses campos faltantes com informações adicionais, como sinopse, gênero, etc. O backend Java Spring Boot também suporta operações de enriquecimento de dados (CRUD), permitindo que os dados sejam atualizados com informações adicionais conforme necessário.

### 4. Auditoria e Monitoramento:
- **Logs de Acesso**: Manter logs de acesso aos dados para rastrear quem acessou ou modificou os dados.
- **Monitoramento de Performance**: Implementar ferramentas de monitoramento para acompanhar a performance do Data Lake.

### 5. Backup e Recuperação:
- **Backups Regulares**: Realizar backups regulares dos dados armazenados no Data Lake, incluindo os arquivos `.EPUB`, metadados e índices.

## Gestão de Acesso e Segurança

### Docker Compose
A infraestrutura de containers será configurada com variáveis de ambiente para gerenciar as credenciais de acesso aos serviços.

#### Acessos na Camada Batch

##### Minio (Object Storage)

- Backend Java
  - **Ação:** `s3:PutObject`  
  - **Recurso:** `arn:aws:s3:::raw/*`  
  - **Descrição:** Permissão exclusiva para fazer upload de arquivos `.ePUB` diretamente no bucket `raw/`. Não deve ter permissão de leitura ou escrita em outras áreas.

- Job Spark (Batch)
  - **Ações:** `s3:GetObject`, `s3:ListBucket`  
    - **Recurso:** `arn:aws:s3:::raw/*`  
    - **Descrição:** Permissão para ler os arquivos do bucket `raw/`.

  - **Ação:** `s3:PutObject`  
    - **Recurso:** `arn:aws:s3:::processed/*`  
    - **Descrição:** Permissão para escrever os dados processados no bucket `processed/`.

##### PostgreSQL (Metadados)

- Job Spark (Batch)
  - **Permissões:** `INSERT`, `UPDATE`  
  - **Recursos:** Tabelas de metadados dos livros `books_metadata`
  - **Descrição:** O Job precisa de permissão para criar e atualizar os registros de metadados após o processamento.

- Backend Java
  - **Permissão:** `SELECT`, `UPDATE`    
  - **Recursos:** Tabelas de metadados dos livros `books_metadata`
  - **Descrição:** O backend necessita de acesso de leitura para consultar os metadados e do update, pois ele também pode atualizar os metadados dos livros, com informações faltantes ou corrigidas.

##### Elasticsearch (Conteúdo e Índices)

- Job Spark (Batch)
  - **Permissões:** `create_index`, `index`, `update`  
  - **Recursos:** Índice de conteúdo dos livros `books_content`  
  - **Descrição:** Permissão para criar o índice e inserir/atualizar os documentos com o conteúdo extraído dos `.ePUBs`.

- Backend Java
  - **Permissão:** `search`  
  - **Recursos:** Índice de conteúdo dos livros (`books_content`)  
  - **Descrição:** Permissão de leitura para executar as buscas textuais solicitadas pelos usuários.

---

#### Acessos na Camada Speed

##### Kafka (Event Streaming)

- Backend Java
  - **Permissão:** `PRODUCER`  
  - **Recurso:** Tópico específico de eventos (ex: `users_interactions`)  
  - **Descrição:** O backend tem permissão apenas para enviar mensagens a este tópico.

- Jobs Spark (Streaming)
  - **Permissão:** `CONSUMER`  
  - **Recurso:** Tópico `users_interactions`  
  - **Descrição:** O job de streaming tem permissão apenas para consumir mensagens deste tópico.

##### PostgreSQL (Metadados)

- Jobs Spark (Streaming)
  - **Permissão:** `SELECT`  
  - **Recursos:** Tabelas de metadados dos livros `books_metadata` 
  - **Descrição:** Necessário para enriquecer os eventos em tempo real com informações dos livros.

##### Elasticsearch (Eventos e Análises)

- Jobs Spark (Streaming)
  - **Permissões:** `index`, `update`  
  - **Recursos:** Índice de eventos em tempo real (ex: `users_interactions` e `user_recommendations`)  
  - **Descrição:** O job de streaming precisa de permissão para salvar os eventos processados e agregados.

- Kibana (Data Visualization)
  - **Permissão:** `read`  
  - **Recursos:** Acesso aos índices `users_interactions` e `user_recommendations`  
  - **Descrição:** Uma conta de serviço para o Kibana com acesso somente leitura para criar dashboards e visualizações. O acesso de usuários ao Kibana deve ser gerenciado por meio de seus próprios mecanismos de autenticação (RBAC).


## Implementação da Camada de Segurança:

Abaixo os comandos necessários para a implementação do plano de segurança para ambientes produtivos, que inclui a criação de usuários, roles e políticas de acesso para os diferentes componentes do Data Lake.

### Minio (Object Storage)

backend-java-policy.json
```json
{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Effect": "Allow",
            "Action": [
                "s3:PutObject"
            ],
            "Resource": [
                "arn:aws:s3:::raw/*"
            ]
        }
    ]
}
```

spark-job-policy.json
```json
{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Effect": "Allow",
            "Action": [
                "s3:GetObject",
                "s3:ListBucket"
            ],
            "Resource": [
                "arn:aws:s3:::raw/*"
            ]
        },
        {
            "Effect": "Allow",
            "Action": [
                "s3:PutObject"
            ],
            "Resource": [
                "arn:aws:s3:::processed/*"
            ]
        }
    ]
}
```

```bash
#'minio' é o alias/host do Minio configurado no mc (MinIO Client) 

#A diciona a política para o Backend Java
mc admin policy add minio backend-java-policy backend-java-policy.json

# Adiciona a política para o Job Spark
mc admin policy add minio spark-job-policy spark-job-policy.json

# Cria um usuário para o backend
mc admin user add minio backend-user SENHA_DO_BACKEND

# Cria um usuário para o job spark
mc admin user add minio spark-user SENHA_DO_SPARK

# Anexa a política ao usuário do backend
mc admin policy set minio backend-java-policy user=backend-user

# Anexa a política ao usuário do spark
mc admin policy set minio spark-job-policy user=spark-user
```

### PostgreSQL (Metadados)

```sql
-- Role para o Job Spark, que poderá inserir e atualizar dados
CREATE ROLE spark_job_role;

-- Role para o Backend Java, que poderá ler e atualizar dados
CREATE ROLE backend_java_role;

-- Usuário para o Job Spark
CREATE USER spark_user WITH LOGIN PASSWORD 'SENHA_DO_SPARK';

-- Usuário para o Backend Java
CREATE USER backend_java_user WITH LOGIN PASSWORD 'SENHA_DO_BACKEND';

-- Concede permissões de INSERT e UPDATE na tabela para o role do Spark
GRANT INSERT, UPDATE, DELETE ON TABLE books_metadata TO spark_job_role;

-- Concede permissões de SELECT e UPDATE na tabela para o role do Backend
GRANT SELECT, UPDATE, DELETE ON TABLE books_metadata TO backend_java_role;

-- Atribui o role do Spark ao usuário do Spark
GRANT spark_job_role TO spark_user;

-- Atribui o role do Backend ao usuário do Backend
GRANT backend_java_role TO backend_java_user;
```

### Elasticsearch (Conteúdo e Índices)
```bash
# Criação de roles no Elasticsearch para o Job Spark
curl -X PUT "http://localhost:9200/_security/role/spark_writer_role" \
-H "Content-Type: application/json" \
-u elastic:<SENHA_DO_USER_ELASTIC> \
-d'
{
  "cluster": [],
  "indices": [
    {
      "names": [
        "books_metadata*",
        "books_content*",
        "users_interactions*",
        "user_recommendations*"
      ],
      "privileges": [
        "read",
        "write",
        "create_index",
        "auto_configure"

      ],
      "allow_restricted_indices": false
    }
  ]
}
'
```

```bash
# Criação de roles no Elasticsearch para o Backend Java
curl -X PUT "http://localhost:9200/_security/role/backend_reader_role" \
-H "Content-Type: application/json" \
-u elastic:<SENHA_DO_USER_ELASTIC> \
-d'
{
  "cluster": [],
  "indices": [
    {
      "names": [ "books_content*", "user_recommendations*" ],
      "privileges": [ "read", ],
      "allow_restricted_indices": false
    }
  ]
}
'
```

```bash
# Criação de usuário spark_user no Elasticsearch
curl -X PUT "http://localhost:9200/_security/user/spark_user" \
-H "Content-Type: application/json" \
-u elastic:<SENHA_DO_USER_ELASTIC> \
-d'
{
  "password" : "SENHA_DO_USER_SPARK",
  "roles" : [ "spark_writer_role" ]
}
'
```

```bash
# Criação de usuário backend_java_user no Elasticsearch
curl -X PUT "http://localhost:9200/_security/user/backend_java_user" \
-H "Content-Type: application/json" \
-u elastic:<SENHA_DO_USER_ELASTIC> \
-d'
{
  "password" : "SENHA_DO_USER_BACKEND",
  "roles" : [ "backend_reader_role" ]
}
'
```

### Kibana (Data Visualization)
```bash
# Criação de role para o Kibana
curl -X PUT "http://localhost:9200/_security/role/kibana_analytics_viewer_role" \
-H "Content-Type: application/json" \
-u elastic:<SENHA_DO_USER_ELASTIC> \
-d'
{
  "cluster": [],
  "indices": [
    {
      "names": [ "users_interactions*", "books_content*", "user_recommendations*" ],
      "privileges": [ "read" ]
    }
  ],
  "applications": [
    {
      "application": "kibana-.kibana",
      "privileges": [ "all" ],
      "resources": [ "space:default" ]
    }
  ]
}
'
```

```bash
# Atribuindo a role ao usuário do Kibana
curl -X PUT "http://localhost:9200/_security/user/data_analyst" \
-H "Content-Type: application/json" \
-u elastic:<SENHA_DO_USER_ELASTIC> \
-d'
{
  "password" : "SENHA_DO_USER_ANALISTA",
  "roles" : [ "kibana_analytics_viewer_role" ],
  "full_name": "Analista De Dados",
}
'
```

## Infraestrutura

Minha infraestutura e configuração do data lake foi desenvolvido totalmente utilizando Docker Compose.

Por enquanto estou deixando a aplicação Java Spring com Boot, assim como o Frontend em Javascript com React em um docker compose separado, pois não fazem parte da infra estrutura do data lake.

A configuração do ambiente pode ser encontrada dentro do diretório `src`, arquivos: `Dockerfile`, `docker-compose.yml` e `requirements.txt.`


## Código Fonte
Os códigos utilizados podem ser encontrados dentro do diretório `src` na raiz do projeto, sub diretórios: `spark-work` e `scripts`.

In [5]:
!jupyter nbconvert --to webpdf rodrigo_avila_PB_AT.ipynb

[NbConvertApp] Converting notebook rodrigo_avila_PB_AT.ipynb to webpdf
[NbConvertApp] Building PDF
[NbConvertApp] PDF successfully created
[NbConvertApp] Writing 5171017 bytes to rodrigo_avila_PB_AT.pdf
