# <center><span style="font-size: 42px;color: darkgreen;">Conceito Sobre <u>ETL</u> (*Extract* - *Transform* - *Load*)</center></span>

<br>

Em qualquer projeto de **Análise de Dados**, seja com **Big Data** ou não, uma tarefa é sempre essencial: o **ETL**.

As **Operações de ETL** (*Extract*, *Transform*, *Load*) são um processo de **extração de dados** de uma fonte, seguido pela **transformação** dos dados para atender a requisitos específicos e, finalmente, o **carregamento** dos dados em um repositório. Esse repositório é então utilizado para o **processo de análise**.

O **ETL** é especialmente comum em ambientes de *BI* (*Business Intelligence*), sendo amplamente utilizado para a criação de **Data Marts** (conjuntos de dados específicos para uma área de negócios, como vendas ou marketing, dentro de uma organização) e **Data Warehouses** (repositórios de dados centralizados e estruturados para toda a organização, que integram informações de múltiplas fontes para análise e tomada de decisões estratégicas).

O **Hadoop** possui duas ferramentas principais em seu ecossistema:
 - `Apache Sqoop`: Normalmente usado para **carga de dados em batch** (em lotes), transferindo grandes volumes de dados de bancos de dados relacionais para o Hadoop, facilitando a movimentação de dados estruturados.
 - `Apache Flume`: Ideal para a **ingestão de dados em tempo real, especialmente dados de log**. O `Flume` é amplamente utilizado para coletar e agregar dados de fontes contínuas e não estruturadas, como logs de servidores e eventos em tempo real.
 
O **Apache Sqoop** será estudado neste capítulo.
 
<br><br>

### O que é ETL (*Extract* - *Transform* - *Load*) ?

<br>

O **ETL** é um processo de integração de dados que envolve três etapas principais: **extração**, **transformação** e **carga** dos dados. Ele permite mover dados de uma ou várias fontes para um destino, onde esses dados serão analisados.

- **Extract (Extrair)**: Nessa etapa, os dados são obtidos de suas fontes, que podem variar amplamente, como bancos de dados, APIs, ou arquivos. Cada fonte pode exigir um **método específico de extração** (login com usuário e senha, comandos específicos, ou chamada de APIs), de acordo com suas características.

- **Transform (Transformar)**: Esta etapa garante que os dados estejam consistentes e prontos para uso. Transformar é importante porque os dados geralmente vêm desorganizados ou em diferentes formatos. Por exemplo, dados de um formulário web podem estar com formatos variados devido à ausência de validação no preenchimento. A transformação inclui **limpar**, **padronizar** e **estruturar** os dados, preparando-os para a análise.

- **Load (Carregar)**: Aqui, os dados já transformados são carregados no sistema de destino, como um **data warehouse** ou **data lake**. Este é o passo final que disponibiliza os dados prontos para consulta e análise.

<br>

O **ETL** é fundamental para preparar dados de forma consistente e confiável para **Business Intelligence** e **Análise de Dados**, integrando informações de múltiplas fontes em um único repositório para insights e tomada de decisões.

<br><br>

### Principais Ferramentas ETL do Mercado

<br>

#### Principais Ferramentas Propietárias (Pagas)

- Informatica Power Center
- IBM InfoSphere Data Stage
- Oracle Data Integrator (ODI)
- Microsoft - SQL Server Integration Services (SSIS)
- SAS - Data Integration Studio
- SAP - Business Object Integrator
- Pentaho Data Integration

---

#### Principais Ferramentas Open Source (Gratuitas)

- Dataiku Data Science Studio (DSS) *Community Edition*
- Talend Open Studio For Data Integration
- Jaspersoft ETL
- Jedox
- RapidMiner
- Apache NiFi
- Apache Flume
- Apache Sqoop

<br><br><br>

# Passo a Passo para a Instalação Banco Oracle

<br>

> Verifcar o arquivo **Oracle-Installation.txt**.

<br><br><br>

---

<br><br><br>

# <center><u><span style="font-size: 34px;color: darkgreen;">Lab - Carregando 20 milhões de Registros no Banco de Dados Oracle </span></center></u>

<br>

Neste laboratório, iremos **carregar 20 milhões de registros** em uma tabela no `Banco de Dados Oracle`. Em seguida, utilizaremos o `Apache Sqoop` como ferramenta **ETL** para transferir **uma amostra desses dados** do `Banco Oracle` para o `HDFS`.

<br><br>


## 1. Iniciando os Serviços

<br>

- **1.1 Iniciar o Listener digitando no terminal**:
   ```java
   lsnrctl start  |  lsnrctl stop
   ```
- **1.2 Iniciar o Banco de Dados digitando no terminal**:
   ```java
   sqlplus / as sysdba
   ```
- **1.3 Dentro do terminal do Oracle, digitar**:
   ```java
   startup  |  shutdown immediate
   ```
- **1.4 Verificar Status**:
   ```java
   lsnrctl status
   ```
   
<br><br><br>

## 2. Carregando Dados Para o Banco Oracle

<br>

Nesta etapa, utilizaremos o **`SQL*Loader`** (**etapa 2.5.4**), uma ferramenta da `Oracle` projetada para carregar grandes volumes de dados de maneira rápida e eficiente em tabelas de um banco de dados Oracle. Ele é especialmente útil para transferir dados de arquivos externos (como arquivos CSV ou de texto) diretamente para o banco, simplificando o processo de `ETL` (Extração, Transformação e Carga) no Oracle.

Antes de carregar os dados, precisamos criar um **usuário**, que, no `Oracle`, também equivale a criar um **schema**.

<br>

**O que é um `schema`?**

No `Oracle`, o **schema** é automaticamente associado a um **usuário** e serve como uma **área específica de armazenamento dentro do banco de dados**. Ele organiza e isola as tabelas, dados e outros objetos (como *índices* e *views*) pertencentes a esse *usuário*. Assim, cada **usuário tem seu próprio schema**, o que mantém o banco de dados organizado e seguro ao separar e proteger os dados por diferentes proprietários.

<br><br>

### 2.1 Criando Um Schema

<br>

- **2.1.1 Acessar Terminal do sqlplus**:
   ```java
   sqlplus / as sysdba
   ```
- **2.1.2  Criando o schema (usuário) `aluno`**:
   ```java
   create user aluno identified by digitar_senha;
   ```
- **2.1.3 Conceder previlégios necessários para `aluno`**:
   ```java
   grant connect, resource, unlimited tablespace to aluno;
   ```
- **2.1.4 Sair do terminal do sqlplus**:
   ```java
   exit
   ```
   
<br><br>

### 2.2 Conectando com o Schema `aluno`

<br>

- **2.2.1 Acessar Terminal do sqlplus como `aluno` (digitar senha)**:
   ```bash
   sqlplus aluno@orcl
   ```
   
<br><br>

### 2.3 Criando uma Tabela

<br>

- **2.3.1 Acessar Terminal do sqlplus como `aluno` e digitar**:
   ```bash
   CREATE TABLE cinema ( 
     ID   NUMBER PRIMARY KEY , 
     USER_ID       VARCHAR2(30), 
     MOVIE_ID      VARCHAR2(30), 
     RATING        DECIMAL, 
     TIMESTAMP     VARCHAR2(256) );
   ```

<br><br>

### 2.4 Realizando Download dos Dados Para Carregar na Tabela

<br>

- **2.4.1 Acessar o link e realizar o dowload**:
   ```bash
   http://files.grouplens.org/datasets/movielens/ml-20m.zip
   ```

<br>

> **Importante**: O dataset `ratings.csv` baixado anteriormente contém as seguintes colunas `ID`, `USER_ID`, `MOVIE_ID`, `RATING` e `TIMESTAMP`.

<br><br>

### 2.5 Preparando a Carga de Dados

<br>

- **2.5.1 Navegar até diretório *home* criar um novo diretório chamado `etl`**:
   ```bash
   mkdir etl
   ```
- **2.5.2 Dentro do diretório `etl` criar o arquivo `loader.dat` digitando no terminal**:
   ```bash
   gedit loader.dat
   ```
- **2.5.3 No arquivo `loader.dat` colar o conteúdo e salvar**:
   ```bash
load data
INFILE '/home/oracle/Downloads/ml-20m/ratings.csv'
INTO TABLE cinema
APPEND
FIELDS TERMINATED BY ','
trailing nullcols
(id SEQUENCE (MAX,1),
 user_id CHAR(30),
 movie_id CHAR(30),
 rating   decimal external,
 timestamp  char(256))
   ```
- **2.5.4 Executando o arquivo `loader.dat` no terminal do diretório `etl`**:
   ```bash
   sqlldr userid=aluno/digitar_senha control=loader.dat log=loader.log
   ```
- **2.5.5 Verificar Arquivo de Log**:
   ```bash
   gedit loader.log
   ```
<br><br>

### 2.6 Verificando Dados Carregados no Banco Oracle

<br>

- **2.6.1 Acessar Terminal do sqlplus como `aluno` (digitar senha) ou outro schema/usuário**:
   ```bash
   sqlplus aluno@orcl
   ```
- **2.6.2 Verificando tabelas no schema `aluno`**:
   ```bash
   select table_name FROM user_tables;
   ```
- **2.6.3 Visualizando *count* (*quantidade*) de linhas da tabela `cinema`**:
   ```bash
   select count(*) from cinema;
   ```
- **2.6.4 Visualizando as 5 primeiras linhas da tabela `cinema`**:
   ```bash
   SELECT * FROM cinema WHERE ROWNUM <= 5;
   ```   
- **2.6.5 Visualizando 5 linhas aleatórias da tabela `cinema`**:
   ```bash
   SELECT * FROM cinema ORDER BY dbms_random.value FETCH FIRST 5 ROWS ONLY;
   ```
- **2.6.6 Ajustando a exibição temporária para melhor visualizar**:
   ```bash
   SET LINESIZE 100
   SET PAGESIZE 20
   ```  

<br><br><br>

## 3. Configurando o Sistema Para Importação de Dados do Banco de Dados Oracle para o HDFS com o Apache Sqoop

<br>

### Contexto

Sua empresa possui **milhões de registros de avaliações de filmes** (dados gerados na etapa ***2.***) e deseja utilizá-los para criar um **sistema de recomendação de filmes** para seus clientes.

Esses dados estão armazenados em um **banco de dados relacional** (`Oracle`), enquanto a empresa conta com um cluster **Hadoop** para armazenamento e processamento distribuídos.

<br>

### Objetivo

Transferir os dados da **fonte** para o **HDFS** a fim de realizar análises e desenvolver o sistema de recomendação.

<br>

### Apache Sqoop

Usaremos como **ferramenta ETL** o `Apache Sqoop` que é um dos componentes do ecossistema do `Hadoop`.

<br><br>

---

<br>

## 3.1 Iniciando os Serviços

<br>

####  <u>Hadoop</u>

> **<u>Importante</u>**: é necessário está logado com o usuário **hadoop** para inicializar os **serviços do hadoop**.

<br>

- **3.1.1 Iniciar o HDFS (NameNode, DataNode, SecondaryNameNode)**:
   ```bash
   start-dfs.sh  |  stop-dfs.sh
   ```
- **3.1.2 Iniciar o YARN (ResourceManager, NodeManager)**:
   ```bash
   start-yarn.sh  |  stop-yarn.sh
   ```
- **3.1.3 Verificando serviços**:
   ```bash
   jps
   ```

<br><br>

#### <u>Oracle</u>

> **<u>Importante</u>**: é necessário está logado com o usuário **oracle** para inicializar o **banco oracle**.

<br>

- **3.1.4 Iniciar o Listener digitando no terminal**:
   ```java
   lsnrctl start  |  lsnrctl stop
   ```
- **3.1.5 Iniciar o Banco de Dados digitando no terminal**:
   ```java
   sqlplus / as sysdba
   ```
- **3.1.6 Dentro do terminal do Oracle, digitar**:
   ```java
   startup  |  shutdown immediate  |  exit
   ```
- **3.1.7 Verificar Status**:
   ```java
   lsnrctl status
   ```
- **3.1.8 Acessar Terminal do sqlplus como `aluno` (digitar senha) ou outro schema/usuário**:
   ```bash
   sqlplus aluno@orcl
   ```
- **3.1.9 Verificando tabelas no schema `aluno`**:
   ```bash
   select table_name FROM user_tables;
   ```
   
<br><br><br>

## 3.2 Configurando o Driver JDBC

<br>

O `Apache Sqoop` conecta-se ao `Banco Oracle` usando o **driver JDBC**.

Cada **banco relacional** possui seu próprio **driver JDBC**, como o `MySQL` e o `PostgreSQL`. 

No caso do` Oracle`, é necessário fazer o **download do driver JDBC** específico diretamente no site da Oracle:

https://www.oracle.com/database/technologies/jdbc-ucp-122-downloads.html

Após o download, acesse a pasta onde o arquivo foi descompactado, localize o `ojdbc8.jar` e mova-o para o diretório do `Sqoop`, permitindo que o `Sqoop` reconheça o **driver JDBC**. O procedimento para drivers de outros bancos é o mesmo. No terminal digite:

- Conectar como usuário root: `su` (depois digite a senha)
- Como usuário root copie o arquivo com: `cp ojdbc8.jar /opt/sqoop/lib`
- Acessar diretório do sqoop: `cd /opt/sqoop/lib/`
- Alterar propriedade do arquivo ojdbc8.jar: `chown hadoop:hadoop ojdbc8.jar`
- Sair do usuário root: `exit`

<br><br><br>  chown hadoop:hadoop commons-lang-2.6.jar

## 3.3 Ajustando os Previlégios de Acesso

<br>

Em um **Ambiente de Produção** em empresas de médio e grande porte, cada *software* normalmente é executado em um servidor separado. Por exemplo:

- Um servidor é dedicado ao `Banco Oracle`,
- Outro servidor é dedicado ao `Apache Sqoop`,
- E uma máquina ou um grupo de máquinas são dedicadas ao `Apache HDFS`.

Neste laboratório, configuramos um **Ambiente de Teste** em uma única máquina. Nessa configuração, todos os serviços estão instalados, mas distribuídos em **diferentes usuários** no mesmo sistema operacional. Essa configuração gera desafios, pois cada serviço possui seu próprio usuário.

Dentro deste cenário, o **usuário oracle**, que executa o `Banco Oracle`, atualmente não possui acesso ao `HDFS`, pois ele está instalado no **usuário hadoop**. Para que o `Sqoop` possa acessar o `HDFS` e funcionar corretamente, é necessário **conceder acesso ao usuário oracle** para que ele consiga interagir com o `HDFS`.

O **objetivo** é **ajustar os privilégios de acesso** de modo que os diferentes usuários no sistema possam interagir com os serviços necessários, permitindo o uso completo de todos os serviços em uma única máquina de teste.

<br>

- **3.3.1 No `usuario oracle`, configurar as variáveis de ambiente para o Hadoop e Sqoop**.
  - Ir ao terminal e digitar: `gedit .bashrc`
  - No arquivo .bashrch colar o conteúdo:
   ```code
    # Java JDK
    export JAVA_HOME=/opt/jdk
    export PATH=$PATH:$JAVA_HOME/bin
    
    # Hadoop
    export HADOOP_HOME=/opt/hadoop
    export HADOOP_INSTALL=$HADOOP_HOME
    export HADOOP_COMMON_HOME=$HADOOP_HOME
    export HADOOP_MAPRED_HOME=$HADOOP_HOME
    export HADOOP_HDFS_HOME=$HADOOP_HOME
    export YARN_HOME=$HADOOP_HOME
    export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
    
    # Sqoop
    export SQOOP_HOME=/opt/sqoop
    export PATH=$PATH:$SQOOP_HOME/bin
    export HCAT_HOME=/opt/sqoop/hcatalog
    export ACCUMULO_HOME=/opt/sqoop/accumulo
   ```
   
   - Após salvar digite: `source .bashrc`

<br>

- **3.3.2 No `usuario hadoop`, definir os privilégios com os comandos abaixos**: 

```code
    hdfs dfsadmin -safemode leave
    hdfs dfs -chmod -R 777 /
    chmod -R 777 /opt/hadoop/logs
    exit
```
<br>

- **3.3.3 No `usuario root`, definir os privilégios com os comandos abaixos**:

```code
    groups oracle
    usermod -a -G hadoop oracle
    groups oracle
    exit
```

<br>

- **3.3.4 No `usuario oracle`, testar digitando no terminal**:

```code
    hdfs dfs -ls /
```

<br><br><br>

## 4. Transferindo os Dados do Oracle para o HDFS com o Apache Sqoop

<br>

- **4.1 No `usuario oracle`, acessar o diretório `etl` e digitar no terminal**:

```code
sqoop import --connect jdbc:oracle:thin:aluno/dsahadoop@dataserver.localdomain:1539/orcl --username aluno -password sua_senha --query "select user_id, movie_id from cinema where rating = 1 and \$CONDITIONS" --target-dir /user/oracle/output -m 1
```

<br>

- **4.2 Checar se diretório `oracle` foi criado com**:

```code
hdfs dfs -ls /user
hdfs dfs -ls /user/oracle
hdfs dfs -ls /user/oracle/output
```

<br>

- **4.2 Visualizando conteúdo**:

```code
hdfs dfs -cat /user/oracle/output/part-m-00000
```

<br>

- **4.3 Verificando quantidade de linhas**:

```code
hdfs dfs -cat /user/oracle/output/part-m-00000 | wc -l
```

<br>

- **4.4 No diretório `etl` foi gerado o arquivo `QueryResult.java` que contém o código do MapReduce necessário para importação dos dados**:

```code
gedit QueryResult.java
```

<br>

- **4.5 Comando usado para corrigir problemas com blocos corrompidos, caso ocorra**:

```code
hdfs fsck / | egrep -v '^\.+$' | grep -v replica | grep -v Replica
```

<br>

- **4.6 Para deixar o modo de segurança do Hadoop caso ocorrar algum problema**:

```code
hdfs dfsadmin -safemode leave
```


<br><br><br>

---

<br><br>

# Alternando Entre Usuários

- **Conectar como usuário root**: `su` (digitar senha)
- **Digitar**: `su - nome_usuario`

<br><br><br><br>

# Fim