# Poblando Capa Curated

### Poblando Clientes

**1° PASO:** Importamos módulos de apache spark

In [14]:
from pyspark.sql import SparkSession
from pyspark.sql.types import *
from pyspark.sql.functions import *

In [4]:
spark = SparkSession.builder.getOrCreate()

**8° PASO** Definimos ruta del archivo de la capa previa

In [16]:
#Archivo en Cloud Storage - Google Cloud Platform
ruta_persona_landing = "gs://curso-apache-spark/datalake/landing/personas/"

#Archivo DBFS - DataBricks
# ruta_persona_landing = "/FileStore/tables/landing/personas/"


#Archivo en HDFS - Hadoop
#ruta_persona_landing = "hdfs:/introduccion-apache-spark/datalake/landing/personas/"

df_personas_landing = spark.read.format("parquet").option("header","true").load(ruta_persona_landing)

**9° PASO** Mostramos el dataframe cargado en memoria

In [8]:
df_personas_landing.show(10)

[Stage 1:>                                                          (0 + 1) / 1]

+---+---------+--------------+--------------------+-------------+----+-------+----------+
| ID|   NOMBRE|      TELEFONO|              CORREO|FECHA_INGRESO|EDAD|SALARIO|ID_EMPRESA|
+---+---------+--------------+--------------------+-------------+----+-------+----------+
|  1|     Carl|1-745-633-9145|arcu.Sed.et@ante....|   2004-04-23|  32|20095.0|         5|
|  2|Priscilla|      155-2498|Donec.egestas.Ali...|   2019-02-17|  34| 9298.0|         2|
|  3|  Jocelyn|1-204-956-8594|amet.diam@loborti...|   2002-08-01|  27|10853.0|         3|
|  4|    Aidan|1-719-862-9385|euismod.et.commod...|   2018-11-06|  29| 3387.0|        10|
|  5|  Leandra|      839-8044|at@pretiumetrutru...|   2002-10-10|  41|22102.0|         1|
|  6|     Bert|      797-4453|a.felis.ullamcorp...|   2017-04-25|  70| 7800.0|         7|
|  7|     Mark|1-680-102-6792|Quisque.ac@placer...|   2006-04-21|  52| 8112.0|         5|
|  8|    Jonah|      214-2975|eu.ultrices.sit@v...|   2017-10-07|  23|17040.0|         5|
|  9|    H

                                                                                

**10° PASO** Mostramos el schema del dataframe

In [9]:
df_personas_landing.printSchema()

root
 |-- ID: string (nullable = true)
 |-- NOMBRE: string (nullable = true)
 |-- TELEFONO: string (nullable = true)
 |-- CORREO: string (nullable = true)
 |-- FECHA_INGRESO: string (nullable = true)
 |-- EDAD: integer (nullable = true)
 |-- SALARIO: double (nullable = true)
 |-- ID_EMPRESA: string (nullable = true)



**11° PASO** Realizamos la limpieza del dataframe

In [15]:
df_personas_procesado = df_personas_landing.withColumn('telefono', regexp_replace('telefono', '-', ''))
df_personas_procesado.show(10)

+---+---------+-----------+--------------------+-------------+----+-------+----------+
| ID|   NOMBRE|   telefono|              CORREO|FECHA_INGRESO|EDAD|SALARIO|ID_EMPRESA|
+---+---------+-----------+--------------------+-------------+----+-------+----------+
|  1|     Carl|17456339145|arcu.Sed.et@ante....|   2004-04-23|  32|20095.0|         5|
|  2|Priscilla|    1552498|Donec.egestas.Ali...|   2019-02-17|  34| 9298.0|         2|
|  3|  Jocelyn|12049568594|amet.diam@loborti...|   2002-08-01|  27|10853.0|         3|
|  4|    Aidan|17198629385|euismod.et.commod...|   2018-11-06|  29| 3387.0|        10|
|  5|  Leandra|    8398044|at@pretiumetrutru...|   2002-10-10|  41|22102.0|         1|
|  6|     Bert|    7974453|a.felis.ullamcorp...|   2017-04-25|  70| 7800.0|         7|
|  7|     Mark|16801026792|Quisque.ac@placer...|   2006-04-21|  52| 8112.0|         5|
|  8|    Jonah|    2142975|eu.ultrices.sit@v...|   2017-10-07|  23|17040.0|         5|
|  9|    Hanae|    9352277|          eu@Nun

**12° PASO** Definir ruta de almacenamiento en la capa curated

In [18]:
#Archivo en Cloud Storage - Google Cloud Platform
ruta_persona_curated = "gs://curso-apache-spark/datalake/curated/personas/"

#Archivo DBFS - DataBricks
# ruta_persona_curated = "/FileStore/tables/curated/personas/"


#Archivo en HDFS - Hadoop
#ruta_persona_curated = "hdfs:/introduccion-apache-spark/datalake/curated/personas/"



In [19]:
df_personas_procesado.write.mode("overwrite").format("parquet").save(ruta_persona_curated)

                                                                                

### Poblando Empresa
**13° PASO** Poblando capa Curated empresa

* Declarar en una variable la ruta del archivo
* Leer el archivo de la capa landing
* Mostrar la estructura del dataframe
* mostrar los datos del dataframe
* Realizar una limpieza al dataframe
* Guardar el dataframe en un ruta de la capa curated

In [22]:
# 13.1 variable la ruta del archivo

#Archivo en Cloud Storage - Google Cloud Platform
ruta_empresa_landing = "gs://curso-apache-spark/datalake/landing/empresas/"

#Archivo DBFS - DataBricks
# ruta_empresa_landing = "/FileStore/tables/landing/empresas/"

#Archivo en HDFS - Hadoop
#ruta_empresa_landing = "hdfs:/introduccion-apache-spark/datalake/landing/empresas/"


# 13.2 Leer el archivo de la capa landing
df_empresas_landing = spark.read.format("parquet").option("header","true").load(ruta_empresa_landing)

# 13.3 Mostrar la estructura del dataframe
df_empresas_landing.printSchema()

#13.4 Mostrar los datos del dataframe
df_empresas_landing.show(5)

#13.5 Realizar limpieza a dataframe
df_empresas_procesado = df_empresas_landing.withColumn('EMPRESA_NAME',upper(col('EMPRESA_NAME')))

#13.6 Mostrar los datos procesado
df_empresas_procesado.show(5)

#13.7 Definir ruta de curated

#Archivo en Cloud Storage - Google Cloud Platform
ruta_empresa_curated = "gs://curso-apache-spark/datalake/curated/empresas/"

#Archivo DBFS - DataBricks
# ruta_empresa_curated = "/FileStore/tables/curated/empresas/"

#Archivo en HDFS - Hadoop
#ruta_empresa_curated = "hdfs:/introduccion-apache-spark/datalake/curated/empresas/"

# 13.8 Guardar daframe en capa curated

df_empresas_procesado.write.mode("overwrite").format("parquet").save(ruta_empresa_curated)

root
 |-- ID: string (nullable = true)
 |-- EMPRESA_NAME: string (nullable = true)

+---+------------+
| ID|EMPRESA_NAME|
+---+------------+
|  1|     Walmart|
|  2|   Microsoft|
|  3|       Apple|
|  4|      Toyota|
|  5|      Amazon|
+---+------------+
only showing top 5 rows

+---+------------+
| ID|EMPRESA_NAME|
+---+------------+
|  1|     WALMART|
|  2|   MICROSOFT|
|  3|       APPLE|
|  4|      TOYOTA|
|  5|      AMAZON|
+---+------------+
only showing top 5 rows



                                                                                

### Poblando Transacciones
**14° PASO** Poblando capa Curated Transacciones

* Declarar en una variable la ruta del archivo
* Leer el archivo de la capa landing
* Mostrar la estructura del dataframe
* mostrar los datos del dataframe
* Realizar una limpieza al dataframe
* Guardar el dataframe en un ruta de la capa curated

In [25]:
# 14.1 variable la ruta del archivo

#Archivo en Cloud Storage - Google Cloud Platform
ruta_transacciones_landing = "gs://curso-apache-spark/datalake/landing/transacciones/"

#Archivo DBFS - DataBricks
# ruta_transacciones_landing = "/FileStore/tables/landing/transacciones/"

#Archivo en HDFS - Hadoop
#ruta_transacciones_landing = "hdfs:/introduccion-apache-spark/datalake/landing/transacciones/"


# 13.2 Leer el archivo de la capa landing
df_transacciones_landing = spark.read.format("parquet").option("header","true").load(ruta_transacciones_landing)

# 13.3 Mostrar la estructura del dataframe
df_transacciones_landing.printSchema()

#13.4 Mostrar los datos del dataframe
df_transacciones_landing.show(5)

#13.7 Definir ruta de curated

#Archivo en Cloud Storage - Google Cloud Platform
ruta_transacciones_curated = "gs://curso-apache-spark/datalake/curated/transacciones/"

#Archivo DBFS - DataBricks
# ruta_transacciones_curated = "/FileStore/tables/curated/transacciones/"

#Archivo en HDFS - Hadoop
#ruta_transacciones_curated = "hdfs:/introduccion-apache-spark/datalake/curated/transacciones/"

# 13.8 Guardar daframe en capa curated

df_transacciones_landing.write.mode("overwrite").format("parquet").partitionBy("FECHA").save(ruta_transacciones_curated)

root
 |-- ID_PERSONA: string (nullable = true)
 |-- ID_EMPRESA: string (nullable = true)
 |-- MONTO: double (nullable = true)
 |-- FECHA: string (nullable = true)

+----------+----------+------+----------+
|ID_PERSONA|ID_EMPRESA| MONTO|     FECHA|
+----------+----------+------+----------+
|        18|         3|1383.0|2018-01-21|
|        30|         6|2331.0|2018-01-21|
|        47|         2|2280.0|2018-01-21|
|        28|         1| 730.0|2018-01-21|
|        91|         4|3081.0|2018-01-21|
+----------+----------+------+----------+
only showing top 5 rows



                                                                                