# Tutorial: creación de ETLs con PySpark

In [1]:
# Configuración servidor base de datos transaccional
# Recuerde usar Estudiante_i como usuario y la contraseña asigana en el excel de conexión a maquina virtual como contraseña
db_user = 'Estudiante_19_202413'
db_psswd = 'aabb1122'
source_db_connection_string = 'jdbc:mysql://157.253.236.120:8080/WWImportersTransactional'

dest_db_connection_string = 'jdbc:mysql://157.253.236.120:8080/Estudiante_19_202413'

# Driver de conexion
path_jar_driver = 'C:\Program Files (x86)\MySQL\Connector J 8.0\mysql-connector-java-8.0.28.jar'

In [42]:
import os 
from pyspark.sql import functions as f, SparkSession, types as t
from pyspark.sql.functions import lit
from pyspark import SparkContext, SparkConf, SQLContext
from pyspark.sql.functions import udf, col, length, isnan, when, count, regexp_replace, to_date, date_format,trim
import mysql.connector
from pyspark.sql.window import Window
from datetime import datetime
from pyspark.sql.types import NumericType, DateType, StringType,IntegerType
from pyspark.sql import functions as F
from pyspark.sql.functions import col, max
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np


In [3]:
#Configuración de la sesión
conf=SparkConf() \
    .set('spark.driver.extraClassPath', path_jar_driver)

spark_context = SparkContext(conf=conf)
sql_context = SQLContext(spark_context)
spark = sql_context.sparkSession



### Conexión y carga de datos

Se define la función para conexión y cargue de dataframes desde la base de datos origen y luego la función para guardar un dataframe en una tabla de la base de datos destino.

In [4]:
def obterner_dataframe_desde_csv(_PATH, _sep):
    return spark.read.load(_PATH, format="csv", sep=_sep, inferSchema="true", header='true')

def obtener_dataframe_de_bd(db_connection_string, sql, db_user, db_psswd):
    df_bd = spark.read.format('jdbc')\
        .option('url', db_connection_string) \
        .option('dbtable', sql) \
        .option('user', db_user) \
        .option('password', db_psswd) \
        .option('driver', 'com.mysql.cj.jdbc.Driver') \
        .load()
    return df_bd

def guardar_db(db_connection_string, df, tabla, db_user, db_psswd):
    df.select('*').write.format('jdbc') \
      .mode('append') \
      .option('url', db_connection_string) \
      .option('dbtable', tabla) \
      .option('user', db_user) \
      .option('password', db_psswd) \
      .option('driver', 'com.mysql.cj.jdbc.Driver') \
      .save()

# 3. Tarea ETL
Espacio para desarrollar la tarea planteada

In [5]:
proveedores = obtener_dataframe_de_bd(source_db_connection_string, 'WWImportersTransactional.proveedores', db_user, db_psswd)
tipos_transaccion = obtener_dataframe_de_bd(source_db_connection_string, 'WWImportersTransactional.TiposTransaccion', db_user, db_psswd)
movimientos = obtener_dataframe_de_bd(source_db_connection_string, 'WWImportersTransactional.movimientos', db_user, db_psswd)

In [8]:
proveedores.printSchema()

root
 |-- ProveedorID: integer (nullable = true)
 |-- NombreProveedor: string (nullable = true)
 |-- CategoriaProveedorID: integer (nullable = true)
 |-- PersonaContactoPrincipalID: integer (nullable = true)
 |-- PersonaContactoAlternoID: integer (nullable = true)
 |-- MetodoEntregaID: double (nullable = true)
 |-- CiudadEntregaID: integer (nullable = true)
 |-- CiudadID: integer (nullable = true)
 |-- ReferenciaProveedor: string (nullable = true)
 |-- NombreCuentaBanco: string (nullable = true)
 |-- MarcaCuentaBanco: string (nullable = true)
 |-- CodigoCuentaBanco: integer (nullable = true)
 |-- NumeroCuentaBaco: long (nullable = true)
 |-- CodigoInternacionalBanco: integer (nullable = true)
 |-- DiasPago: integer (nullable = true)
 |-- ComentariosInternos: string (nullable = true)
 |-- NumeroTelefono: string (nullable = true)
 |-- NumeroFax: string (nullable = true)
 |-- URL: string (nullable = true)
 |-- Direccion1: string (nullable = true)
 |-- Direccion2: string (nullable = true)


In [10]:
proveedores.show(5)

+-----------+--------------------+--------------------+--------------------------+------------------------+---------------+---------------+--------+-------------------+--------------------+--------------------+-----------------+----------------+------------------------+--------+--------------------+--------------+--------------+--------------------+----------+--------------------+------------+--------------------+----------------+----------------+-------------+----------------+
|ProveedorID|     NombreProveedor|CategoriaProveedorID|PersonaContactoPrincipalID|PersonaContactoAlternoID|MetodoEntregaID|CiudadEntregaID|CiudadID|ReferenciaProveedor|   NombreCuentaBanco|    MarcaCuentaBanco|CodigoCuentaBanco|NumeroCuentaBaco|CodigoInternacionalBanco|DiasPago| ComentariosInternos|NumeroTelefono|     NumeroFax|                 URL|Direccion1|          Direccion2|CodigoPostal|    UbicacionEntrega|DireccionPostal1|DireccionPostal2|CodigoPostal2|UltimaEdicionPor|
+-----------+--------------------+

In [46]:
# Dimensión Proveedor
proveedores_clean = proveedores.dropDuplicates() \
     .withColumn("DiasPago", when(col("DiasPago") < 0, col("DiasPago") * -1).otherwise(col("DiasPago"))) \
    .withColumn("NombreProveedor", regexp_replace(col("NombreProveedor"), r"\s+Inc\.?", "")) \
    .withColumn("NombreProveedor", regexp_replace(col("NombreProveedor"), r"\s+Ltd\.?", "")) \
    .withColumn("CodigoPostal", when(col("CodigoPostal") == "DEFAULT_CODE", lit(None)).otherwise(col("CodigoPostal")))


In [47]:
proveedores_clean.show(5)

+-----------+--------------------+--------------------+--------------------------+------------------------+---------------+---------------+--------+-------------------+--------------------+--------------------+-----------------+----------------+------------------------+--------+--------------------+--------------+--------------+--------------------+----------+--------------------+------------+--------------------+----------------+----------------+-------------+----------------+
|ProveedorID|     NombreProveedor|CategoriaProveedorID|PersonaContactoPrincipalID|PersonaContactoAlternoID|MetodoEntregaID|CiudadEntregaID|CiudadID|ReferenciaProveedor|   NombreCuentaBanco|    MarcaCuentaBanco|CodigoCuentaBanco|NumeroCuentaBaco|CodigoInternacionalBanco|DiasPago| ComentariosInternos|NumeroTelefono|     NumeroFax|                 URL|Direccion1|          Direccion2|CodigoPostal|    UbicacionEntrega|DireccionPostal1|DireccionPostal2|CodigoPostal2|UltimaEdicionPor|
+-----------+--------------------+

In [12]:
tipos_transaccion.printSchema()

root
 |-- TipoTransaccionID: integer (nullable = true)
 |-- TipoTransaccionNombre: string (nullable = true)



In [39]:
tipos_transaccion_clean = tipos_transaccion.dropDuplicates()

In [40]:
tipos_transaccion_clean.show(5)

+-----------------+---------------------+
|TipoTransaccionID|TipoTransaccionNombre|
+-----------------+---------------------+
|               10|          Stock Issue|
|               12| Stock Adjustment ...|
|               13|      Customer Contra|
|                9|       Stock Transfer|
|                4|      Customer Refund|
+-----------------+---------------------+
only showing top 5 rows



In [17]:
movimientos.printSchema()

root
 |-- TransaccionProductoID: long (nullable = true)
 |-- ProductoID: long (nullable = true)
 |-- TipoTransaccionID: long (nullable = true)
 |-- ClienteID: double (nullable = true)
 |-- InvoiceID: double (nullable = true)
 |-- ProveedorID: double (nullable = true)
 |-- OrdenDeCompraID: double (nullable = true)
 |-- FechaTransaccion: string (nullable = true)
 |-- Cantidad: double (nullable = true)



In [22]:
movimientos.show(5)

+---------------------+----------+-----------------+---------+---------+-----------+---------------+----------------+--------+
|TransaccionProductoID|ProductoID|TipoTransaccionID|ClienteID|InvoiceID|ProveedorID|OrdenDeCompraID|FechaTransaccion|Cantidad|
+---------------------+----------+-----------------+---------+---------+-----------+---------------+----------------+--------+
|                94344|       108|               10|    185.0|  19763.0|       null|           null|     Jan 20,2014|   -10.0|
|                96548|       162|               11|      0.0|      0.0|        4.0|          228.0|     Jan 28,2014|    10.0|
|                96560|       216|               10|    474.0|  20224.0|       null|           null|     Jan 28,2014|   -10.0|
|                96568|        22|               11|      0.0|      0.0|        7.0|          193.0|     Jan 28,2014|    10.0|
|                96648|        25|               11|      0.0|      0.0|        7.0|          408.0|     Jan 28

In [43]:
movimientos_clean = movimientos.dropDuplicates() \
    .withColumn("Cantidad", when(col("Cantidad") < 0, col("Cantidad") * -1).otherwise(col("Cantidad"))) \
    .withColumn("FechaTransaccion", to_date(trim(col("FechaTransaccion")), "MMM dd,yyyy")) \
    .withColumn("ID_Fecha", date_format(col("FechaTransaccion"), "yyyyMMdd").cast(IntegerType())) \
    .filter(col("FechaTransaccion") >= "2014-01-01")

In [44]:
movimientos_clean.show(5)

+---------------------+----------+-----------------+---------+---------+-----------+---------------+----------------+--------+--------+
|TransaccionProductoID|ProductoID|TipoTransaccionID|ClienteID|InvoiceID|ProveedorID|OrdenDeCompraID|FechaTransaccion|Cantidad|ID_Fecha|
+---------------------+----------+-----------------+---------+---------+-----------+---------------+----------------+--------+--------+
|               171773|        45|               11|      0.0|      0.0|        7.0|         1972.0|      2014-11-05|    10.0|20141105|
|               187759|       153|               11|      0.0|      0.0|        7.0|         1572.0|      2015-01-05|    10.0|20150105|
|               243977|       204|               10|     55.0|  51099.0|       null|           null|      2015-07-16|    10.0|20150716|
|               301031|        14|               10|    905.0|  63084.0|       null|           null|      2016-01-29|    10.0|20160129|
|               237602|       173|              