# <center><span style="font-size: 42px;color: darkgreen;">Conceito Sobre <u>ETL</u> (*Extract* - *Transform* - *Load*)</center></span>

<br>

Em qualquer projeto de **Análise de Dados**, seja com **Big Data** ou não, uma tarefa é sempre essencial: o **ETL**.

As **Operações de ETL** (*Extract*, *Transform*, *Load*) são um processo de **extração de dados** de uma fonte, seguido pela **transformação** dos dados para atender a requisitos específicos e, finalmente, o **carregamento** dos dados em um repositório. Esse repositório é então utilizado para o **processo de análise**.

O **ETL** é especialmente comum em ambientes de *BI* (*Business Intelligence*), sendo amplamente utilizado para a criação de **Data Marts** (conjuntos de dados específicos para uma área de negócios, como vendas ou marketing, dentro de uma organização) e **Data Warehouses** (repositórios de dados centralizados e estruturados para toda a organização, que integram informações de múltiplas fontes para análise e tomada de decisões estratégicas).

O **Hadoop** possui duas ferramentas principais em seu ecossistema:
 - `Apache Sqoop`: Normalmente usado para **carga de dados em batch** (em lotes), transferindo grandes volumes de dados de bancos de dados relacionais para o Hadoop, facilitando a movimentação de dados estruturados.
 - `Apache Flume`: Ideal para a **ingestão de dados em tempo real, especialmente dados de log**. O `Flume` é amplamente utilizado para coletar e agregar dados de fontes contínuas e não estruturadas, como logs de servidores e eventos em tempo real.
 
O **Apache Sqoop** será estudado neste capítulo.
 
<br><br>

### O que é ETL (*Extract* - *Transform* - *Load*) ?

<br>

O **ETL** é um processo de integração de dados que envolve três etapas principais: **extração**, **transformação** e **carga** dos dados. Ele permite mover dados de uma ou várias fontes para um destino, onde esses dados serão analisados.

- **Extract (Extrair)**: Nessa etapa, os dados são obtidos de suas fontes, que podem variar amplamente, como bancos de dados, APIs, ou arquivos. Cada fonte pode exigir um **método específico de extração** (login com usuário e senha, comandos específicos, ou chamada de APIs), de acordo com suas características.

- **Transform (Transformar)**: Esta etapa garante que os dados estejam consistentes e prontos para uso. Transformar é importante porque os dados geralmente vêm desorganizados ou em diferentes formatos. Por exemplo, dados de um formulário web podem estar com formatos variados devido à ausência de validação no preenchimento. A transformação inclui **limpar**, **padronizar** e **estruturar** os dados, preparando-os para a análise.

- **Load (Carregar)**: Aqui, os dados já transformados são carregados no sistema de destino, como um **data warehouse** ou **data lake**. Este é o passo final que disponibiliza os dados prontos para consulta e análise.

<br>

O **ETL** é fundamental para preparar dados de forma consistente e confiável para **Business Intelligence** e **Análise de Dados**, integrando informações de múltiplas fontes em um único repositório para insights e tomada de decisões.

<br><br>

### Principais Ferramentas ETL do Mercado

<br>

#### Principais Ferramentas Propietárias (Pagas)

- Informatica Power Center
- IBM InfoSphere Data Stage
- Oracle Data Integrator (ODI)
- Microsoft - SQL Server Integration Services (SSIS)
- SAS - Data Integration Studio
- SAP - Business Object Integrator
- Pentaho Data Integration

---

#### Principais Ferramentas Open Source (Gratuitas

- Dataiku Data Science Studio (DSS) *Community Edition*
- Talend Open Studio For Data Integration
- Jaspersoft ETL
- Jedox
- RapidMiner
- Apache NiFi
- Apache Flume
- Apache Sqoop

<br><br>

# Instalação Banco Oracle

## Oracle 19c - Instalação

--- 

### 1- Efetuar login como usuário root
su
cd ~

### 2- Atualizar o SO
yum update -y

### 3- Editar o arquivo /etc/hosts e incluir o nome da máquina como FQDN com o IP da VM (não usar localhost)
echo "192.168.122.1 dataserver.localdomain" >> /etc/hosts

### 4- Editar o arquivo /etc/sysctl.conf e incluir as linhas abaixo
echo -e "# Oracle\nfs.file-max = 6815744\nkernel.sem = 250 32000 100 128\nkernel.shmmni = 4096\nkernel.shmall = 1073741824\nkernel.shmmax = 4398046511104\nkernel.panic_on_oops = 1\nnet.core.rmem_default = 262144\nnet.core.rmem_max = 4194304\nnet.core.wmem_default = 262144\nnet.core.wmem_max = 1048576\nnet.ipv4.conf.all.rp_filter = 2\nnet.ipv4.conf.default.rp_filter = 2\nfs.aio-max-nr = 1048576\nnet.ipv4.ip_local_port_range = 9000 65500" >> /etc/sysctl.conf

### 5- Efetivar as alterações do item 4
/sbin/sysctl -p

### 6- Adicionar as linhas abaixo para o arquivo /etc/security/limits.conf
echo -e "# Oracle\noracle soft nofile 1024\noracle hard nofile 65536\noracle soft nproc 16384\noracle hard nproc 16384\noracle soft stack 10240\noracle hard stack 32768\noracle hard memlock 134217728\noracle soft memlock 134217728" >> /etc/security/limits.conf

### 7- Instalar os pacotes necessários no SO
yum install -y bc binutils compat-libcap1 compat-libstdc++-33 elfutils-libelf elfutils-libelf-devel fontconfig-devel glibc glibc-devel ksh libaio libaio-devel libdtrace-ctf-devel libXrender libXrender-devel libX11 libXau libXi libXtst libgcc librdmacm-devel libstdc++ libstdc++-devel libxcb make net-tools nfs-utils smartmontools sysstat unixODBC

### 8- Criar os grupos no SO
groupadd -g 54321 oinstall
groupadd -g 54322 dba
groupadd -g 54323 oper

### 9- Adicionar usuário owner da instalação Oracle
useradd -u 54321 -g oinstall -G dba,oper oracle
echo "Bon_t__10!" | passwd --stdin oracle

### 10- Editar o arquivo /etc/selinux/config e definir SELINUX=permissive
sed -i 's/^SELINUX=.*/SELINUX=permissive/' /etc/selinux/config
setenforce Permissive

### 11- Desativar o firewall
systemctl stop firewalld
systemctl disable firewalld

### 12- Criar os diretórios de instalação
mkdir -p /u01/app/oracle/product/19.0.0/dbhome_1
mkdir -p /u02/oradata
chown -R oracle:oinstall /u01 /u02
chmod -R 775 /u01 /u02

### 13- Criar um diretório de scripts
mkdir /home/oracle/scripts

### 14- Criar o arquivo de variáveis do usuário Oracle
echo -e "# Oracle\nexport TMP=/tmp\nexport TMPDIR=\$TMP\nexport ORACLE_HOSTNAME=dataserver.localdomain\nexport ORACLE_UNQNAME=orcl\nexport ORACLE_BASE=/u01/app/oracle\nexport ORACLE_HOME=\$ORACLE_BASE/product/19.0.0/dbhome_1\nexport ORA_INVENTORY=/u01/app/oraInventory\nexport ORACLE_SID=orcl\nexport DATA_DIR=/u02/oradata\nexport PATH=/usr/sbin:/usr/local/bin:\$PATH\nexport PATH=\$ORACLE_HOME/bin:\$PATH\nexport LD_LIBRARY_PATH=\$ORACLE_HOME/lib:/lib:/usr/lib\nexport CLASSPATH=\$ORACLE_HOME/jlib:\$ORACLE_HOME/rdbms/jlib" > /home/oracle/scripts/setEnv.sh

### 15- Adicionar variáveis de ambiente ao profile do usuário oracle
echo ". /home/oracle/scripts/setEnv.sh" >> /home/oracle/.bash_profile

# 16- Efetuar login como usuário oracle, fazer download e instalar Oracle 19c (O download deve ser feito manualmente e colocado em /home/oracle/Downloads/)

su - oracle
cd $ORACLE_HOME
unzip -oq /home/oracle/Downloads/LINUX.X64_193000_db_home.zip
./runInstaller

### Siga as instruções de instalação conforme descrito

#### Obs: Se receber mensagem de erro durante a instalação, abra um terminal e adicione as linhas abaixo no arquivo /home/oracle/.bashrc e não esqueça de executar source .bashrc. Depois clique em Retry no instalador.

export JAVA_HOME=/opt/jdk
export PATH=$PATH:$JAVA_HOME/bin



- Deixar marcado a primeira opção "Create and configure..." e clicar em Next
- Deixar marcado Desktop class e clicar em Next
- Adicionar uma senha e desmarcar a opcao "Create as Container database" e clicar em Next
- Na sequência deixar Inventory Directory como está e clicar em Next
- Marcar a opção "Automatically run configuration scripts" e digitar a senha do root e clicar em Next
- Será exibido dois avisos de warning, marcar a caixa 'Ignore All' e clicar em Next. Na sequência clicar em Yes para realmente ignorar.
- Depois será exibido um resumo da instalação. Clicar então em Install

### 17 - Checar o status e iniciar o listener

lsnrctl status

lsnrctl start

lsnrctl stop

### 18- Conectar ao Banco de Dados e registrar no listener

sqlplus / as sysdba
show parameter local_listener
alter system set local_listener='(ADDRESS=(PROTOCOL=TCP)(HOST=192.168.122.1)(PORT=1539))';
ALTER SYSTEM REGISTER;
exit

lsnrctl status

### 19- Criar o arquivo /u01/app/oracle/product/19.0.0/dbhome_1/network/admin/tnsnames.ora
cd /u01/app/oracle/product/19.0.0/dbhome_1/network/admin/
echo -e "orcl= \n (DESCRIPTION= \n   (ADDRESS=(PROTOCOL=tcp)(HOST=dataserver.localdomain)(PORT=1539))\n   (CONNECT_DATA= \n     (SERVICE_NAME=orcl)))" > tnsnames.ora

### 20- Testar a conexão
tnsping orcl

### 21- Parar ou Iniciar o Banco

#### Parar

Parar   -> lsnrctl stop

Checar  -> lsnrctl status

Acessar -> sqlplus / as sysdba e digitar -> shutdown immediate

exit


#### Iniciar

Iniciar -> lsnrctl start

Acessar -> sqlplus / as sysdba e digitar -> startup

exit

#### Checar

Checar  -> lsnrctl status
