# Migración de Packages y Sp Oracle a HDFS

##  Spark SQL   

Con Spark SQL es posible ejecutar sentencias de codigo SQL gracias a su API , permitiendo unificar los datos de diferentes entornos y sistemas de almacenamiento en memoria.

### Entorno de trabajo 
- Windows 10  
- Anaconda
- Jupyter con kernel Spark  
- Python 3
- Package : get_saldos_documento

#### Bloque de código SQL 
```sql
    SELECT Nvl(SUM(cucovato - cucovaab - cucovare), 0) AS total
    FROM   chilquin.cuencobr a
    WHERE  a.cucofact = 20031385
           AND a.cucosacu IS NOT NULL
           AND a.cucovato - a.cucovaab - a.cucovare > 0
           AND a.cucoesta = 'F' 
```
#### Bloque de funcion encapsulada
```sql
SELECT CHQ_PRUEBAS_BIGDATA.obt_saldo(47090846) AS total from dual
```



### Llamada al cluster Spark

In [1]:
from pyspark.sql import SparkSession , SQLContext, Row
spark = SparkSession.builder.appName("Ejemplo Spark SQL con Python").getOrCreate()

Definiedo la consulta y el driver al Oracle

In [17]:
# Código SQL
consulta = "(SELECT nvl(sum(CUCOVATO - CUCOVAAB -CUCOVARE),0) AS TOTAL FROM   	CHILQUIN.CUENCOBR a WHERE 	a.CUCOFACT = 47090846AND   	a.CUCOSACU IS NOT NULL AND   	a.CUCOVATO - a.CUCOVAAB - a.CUCOVARE > 0 AND   	a.CUCOESTA='F') tabla"

df = spark.read.format("jdbc").options(url = "jdbc:oracle:thin:@10.135.30.128:1521:SFTU0708",
        dbtable = consulta,
        driver = "oracle.jdbc.OracleDriver",
        user = "SFINTERFAZ",
        password = "S1C5E5E7CD09797FBE8EF33AAF2E28").load()
df.show() 

+---------------+
|          TOTAL|
+---------------+
|3456.0000000000|
+---------------+



In [10]:
# Función encapsulada
consulta = "(SELECT SFINTERFAZ.CHQ_PRUEBAS_BIGDATA.obt_saldo(47090846) as total from dual ) final " 

df = spark.read.format("jdbc").options(url = "jdbc:oracle:thin:@10.135.30.128:1521:SFTU0708",
        dbtable = consulta,
        driver = "oracle.jdbc.OracleDriver",
        user = "SFINTERFAZ",
        password = "S1C5E5E7CD09797FBE8EF33AAF2E28").load()
df.show()

+---------------+
|          TOTAL|
+---------------+
|3456.0000000000|
+---------------+



In [None]:
# Código bloque anónimo (no ejecutar)
consulta = "(set serveroutput on declare    factcodi   NUMBER;    saldo NUMBER;begin    factcodi := 47090846;     SFINTERFAZ.CHQ_PRUEBAS_BIGDATA.get_saldos_documento (factcodi, saldo);    dbms_output.put_line('saldo: ' || saldo); end;) tabla"

df = spark.read.format("jdbc").options(url="jdbc:oracle:thin:@10.135.30.128:1521:SFTU0708", 
      dbtable = consulta , 
      driver  = "oracle.jdbc.OracleDriver" , 
      user = "SFINTERFAZ" ,
      password = "S1C5E5E7CD09797FBE8EF33AAF2E28").load()

` Py4JJavaError: An error occurred while calling o114.load.
: java.sql.SQLSyntaxErrorException: ORA-00903: nombre de tabla no válido

	at oracle.jdbc.driver.T4CTTIoer.processError(T4CTTIoer.java:450)
	at oracle.jdbc.driver.T4CTTIoer.processError(T4CTTIoer.java:399)
	at oracle.jdbc.driver.T4C8Oall.processError(T4C8Oall.java:1017 `

 
## Librería HPL / SQL (HIVE)

#### Características clave


- Facilita la migración de la lógica empresarial existente a Hadoop.
- Entiende las sintaxis y la semántica de casi cualquier dialecto SQL de procedimiento existente.
-  Compatible en gran medida con 
    - Oracle PL / SQL, ANSI / ISO SQL / PSM (IBM DB2, MySQL, Teradata ie)
    - PostgreSQL PL / pgSQL (Netezza)
    - Transact-SQL (Microsoft SQL Server y Sybase)
    - Apache Hive 
    - Cloudera Impala 
    - Amazon Redshift
    
#### Contra 
<p>It's not included with Hive 1.1.0 (CDH 5's version of Hive), but is downloadable and usable as a separate package. Note that it's helpful for porting, but it's not optimized like Oracle PL/SQL would be when run in an Oracle DB, or like a Spark job would be when run on a cluster.</p>
   
#### Instalación en sistemas unix
```
   wget http://www.hplsql.org/downloads/hplsql-0.3.31.tar.gz
    gunzip hplsql-0.3.31.tar.gz 
    tar -xvf hplsql-0.3.31.tar 
    cd hplsql-0.3.31
    export HADOOP_CLASSPATH=`hadoop classpath`
    ./hplsql --version
    ./hplsql -e "select * from employees"
```

Implementación : http://agnihotripawan.blogspot.com/2017/10/hplsql-procedural-sql-on-hadoop.html

Sitio : http://www.hplsql.org/doc#functions


##  Oracle Big Data SQL 

#### Características clave

- Consulta perfecta de datos a través de Oracle
Base de datos, Hadoop, Kafka y
Fuentes NoSQL
- Ejecuta todas las consultas de Oracle SQL sin
Modificación - Conservación de la aplicación.
inversión
- Smart Scan en Hadoop, Kafka,
NoSQL y espacios de tabla de Oracle
mejorar el rendimiento mediante el análisis y
filtrado de datos de forma inteligente donde
reside
- Habilita el acceso a Oracle Database 12c
a las principales distribuciones de Hadoop
- Características de Oracle Database Security
proporcionar control de acceso único a
datos sensibles a través de Oracle
Base de datos, Hadoop, Kafka y
Datos NoSQL
-  Copie fácilmente los datos de Oracle


Enlace : https://www.oracle.com/database/big-data-sql/index.html

Contacto Oracle Oficina Chile : +56 2 2830 7879

Información : 

- https://www.oracle.com/technetwork/database/bigdata-appliance/learnmore/bigdatasqloverview21jan2015-2408000.pdf

- https://www.oracle.com/technetwork/database/bigdata-appliance/overview/bigdatasql-datasheet-2934203.pdf


Productos Big Data : https://www.oracle.com/cl/big-data/products.html

Oracle integrador :
http://www.oracle.com/us/products/middleware/data-integration/hadoop/overview/index.html

Extraido de Quora : https://www.quora.com/How-do-I-replace-Oracle-PL-SQL-application-with-Big-data-tools-like-Hive-and-Spark

## Migracion de datos con Oracle GoldenGate (licencia)

 
#### Características clave:

- El movimiento de datos es en tiempo real, reduciendo la latencia.

- Solo se mueven las transacciones comprometidas, lo que permite la consistencia y mejora el rendimiento.

- Se admiten diferentes versiones y versiones de Oracle Database junto con una amplia gama de bases de datos heterogéneas que se ejecutan en una variedad de sistemas operativos. Puede replicar datos de una base de datos Oracle a una base de datos heterogénea diferente.

- Arquitectura simple y fácil configuración.

- Alto rendimiento con una sobrecarga mínima en las bases de datos e infraestructura subyacentes.

Información : http://www.oracle.com/us/products/middleware/data-integration/goldengate-for-big-data-ds-2415102.pdf

Implementaciones : http://www.ateam-oracle.com/oracle-goldengate-big-data-apply-to-apache-hdfs/

Descargas : https://www.oracle.com/technetwork/middleware/goldengate/downloads/index.html


##  UDF - Funciones definidas por usuario
Estas realmente no son SP  pero permiten definir la logica en java.

```
 protected ResultSet fetchDataFromJdbc(String storedProc) {
   Connection connection;
   CallableStatement statement;

   try {
     Class.forName("my.db.Driver");

     connection = DriverManager.getConnection("url","user","pass");

     statement = connection.prepareCall(storedProc);
     statement.registerOutParameter(1, "outValue");
     statement.executeQuery();

     return (ResultSet) statement.getObject(1);
   } catch (Exception e) {
         e.printStackTrace();
         log.error(e.getMessage());
   }

 throw new IllegalStateException("Results should have returned.");
}
```

```
    from pyspark.sql.types import StringType
    from pyspark.sql.functions import udf
    F1 = udf(lambda x: '-1' if x in not_found_cat else x, StringType())

```


https://stackoverflow.com/questions/46735996/convert-oracle-stored-procedure-to-hive-or-spark



## Carga desde archivos

Esta opcion permite cargar los achivos sql con java y enviarlos a Hive para completar los parametros de entrada. 


## Uso de Vistas

Almacenadas en la BD




## A tener en cuenta

### Transcribir la lógica de los packages a scala o pyspark: 
El flujo de código de las operaciones en los RDBMS es muy diferente al flujo de código en Spark, no hay una compatibilidad asegurada en estos términos para Spark SQL.
### Diseñar un marco BD:
Seguir la misma lógica de ingeniería inversa para proponer un modelo de datos y reproducirlo a través de scripts.
### Tipos de datos: 
Sera necesario hacer transformaciones para trabajar con tipo de datos entre los entornos.
### Ambientes de testing: 
Es importante considerar ciclos de prueba con ayuda de expertos del negocio, para validar los datos finales.
### Caos:
Abra muchos casos en los cuales no se logrará un resultado exacto entre aun SP y el código Spark. 
Una razón de esto es que los RDBMS están altamente estructurados y el procesamiento hace que los datos sean útiles. Sin embargo, al ocupar grandes almacenes, esta cualidad no se podría asegurar de la misma manera.
 
Extraído de Quora :https://www.quora.com/How-can-I-translate-PL-SQL-procedures-to-Spark-Code


In [22]:
#Guarda el actual notebook como html
!jupyter nbconvert Migración.ipynb --to html --output Migración.html

[NbConvertApp] Converting notebook Migración.ipynb to html
[NbConvertApp] Writing 270638 bytes to Migración.html
