# Poblando Capa Landing

### Poblando Clientes

**1° PASO:** Importamos módulos de apache spark

In [46]:
from pyspark.sql import SparkSession
from pyspark.sql.types import *

**2° PASO:** Creamos las session de apache spark en una variable

In [47]:
spark = SparkSession.builder.getOrCreate()

**3° PASO:** Verificamos la versión de apache spark

In [48]:
spark

**4° PASO:** Crear un dataframe

1.   Crear la estructura del dataframe
2.   Declarar en una variable la ruta del archivo
3.   Leer el archivo de origen
4.   Mostrar la estructura del dataframe
5.   mostrar los datos del dataframe
6.   Cantidad de registros del dataframe
7.   Mostrar las estadísticas básicas de un campo determinado

In [49]:
# 4.1 Estructura del dataframe.
df_schema = StructType([
StructField("ID", StringType(),True),
StructField("NOMBRE", StringType(),True),
StructField("TELEFONO", StringType(),True),
StructField("CORREO", StringType(),True),
StructField("FECHA_INGRESO", StringType(),True),
StructField("EDAD", IntegerType(),True),
StructField("SALARIO", DoubleType(),True),
StructField("ID_EMPRESA", StringType(),True),
])

In [50]:
# 4.2 Definimos ruta del archivo

#Archivo en Cloud Storage - Google Cloud Platform
ruta_persona_raw = "gs://curso-apache-spark/datalake/workload/personas/persona.data"

#Archivo DBFS - DataBricks
# ruta_persona_raw = "/FileStore/tables/persona.data"

#Archivo en HDFS - Hadoop
#ruta_persona_raw = "hdfs:/datalake/workload/personas/persona.data"

In [51]:
#Leer el archivo de origen
df_personas = spark.read.format("CSV").option("header","true").option("delimiter","|").schema(df_schema).load(ruta_persona_raw)

In [52]:
#4.4 Mostramos la estructura del dataframe.
df_personas.printSchema()

root
 |-- ID: string (nullable = true)
 |-- NOMBRE: string (nullable = true)
 |-- TELEFONO: string (nullable = true)
 |-- CORREO: string (nullable = true)
 |-- FECHA_INGRESO: string (nullable = true)
 |-- EDAD: integer (nullable = true)
 |-- SALARIO: double (nullable = true)
 |-- ID_EMPRESA: string (nullable = true)



In [53]:
# 4.5 Mostraremos todos los datos del dataframe.
df_personas.show(5)

[Stage 17:>                                                         (0 + 1) / 1]

+---+---------+--------------+--------------------+-------------+----+-------+----------+
| ID|   NOMBRE|      TELEFONO|              CORREO|FECHA_INGRESO|EDAD|SALARIO|ID_EMPRESA|
+---+---------+--------------+--------------------+-------------+----+-------+----------+
|  1|     Carl|1-745-633-9145|arcu.Sed.et@ante....|   2004-04-23|  32|20095.0|         5|
|  2|Priscilla|      155-2498|Donec.egestas.Ali...|   2019-02-17|  34| 9298.0|         2|
|  3|  Jocelyn|1-204-956-8594|amet.diam@loborti...|   2002-08-01|  27|10853.0|         3|
|  4|    Aidan|1-719-862-9385|euismod.et.commod...|   2018-11-06|  29| 3387.0|        10|
|  5|  Leandra|      839-8044|at@pretiumetrutru...|   2002-10-10|  41|22102.0|         1|
+---+---------+--------------+--------------------+-------------+----+-------+----------+
only showing top 5 rows



                                                                                

In [54]:
# 4.6 Mostraremos todos los datos del dataframe.
num_rows = df_personas.count()

print("La cantidad de registro del dataframe es: ", num_rows)

La cantidad de registro del dataframe es:  100


In [55]:
# 4.7 Estadísticas de un campo determinado.
df_personas.describe('salario').show()

+-------+-----------------+
|summary|          salario|
+-------+-----------------+
|  count|              100|
|   mean|         11684.55|
| stddev|6841.493958437246|
|    min|           1256.0|
|    max|          24575.0|
+-------+-----------------+



**5° PASO:** Guardar el dataframe en un ruta de la capa landing

In [56]:

#Archivo en Cloud Storage - Google Cloud Platform
ruta_persona_landing = "gs://curso-apache-spark/datalake/landing/personas/"

#Archivo DBFS - DataBricks
# ruta_persona_landing = "/FileStore/tables/landing/personas/"


#Archivo en HDFS - Hadoop
#ruta_persona_landing = "hdfs:/introduccion-apache-spark/datalake/landing/personas/"

df_personas.write.mode("overwrite").format("parquet").save(ruta_persona_landing)

                                                                                

In [57]:
print("=========================================")
print("Termino procesamiento de Persona Landing")
print("=========================================")
print(" ")
print("=========================================")
print("Inicio procesamiento de Empresa Landing")
print("=========================================")

Termino procesamiento de Persona Landing
 
Inicio procesamiento de Empresa Landing


## Poblando Empresa
**6° PASO:** Realizar la ingesta de Empresas en la capa landing
* Crear estructura del dataframe.
* Definir la ruta del archivo.
* Crear la estructura del dataframe
* Declarar en una variable la ruta del archivo
* Leer el archivo de origen
* Mostrar la información del dataframe
* Guardar el dataframe en un ruta de la capa landing

In [58]:
# 6.1 Estructura del dataframe.
df_schema_empresas = StructType([
StructField("ID", StringType(),True),
StructField("EMPRESA_NAME", StringType(),True)
])

In [59]:
# 6.2 Definimos ruta del archivo

#Archivo en Cloud Storage - Google Cloud Platform
ruta_empresa_raw = "gs://curso-apache-spark/datalake/workload/empresas/empresa.data"

#Archivo DBFS - DataBricks
# ruta_empresa_raw = "/FileStore/tables/persona.data"

#Archivo en HDFS - Hadoop
#ruta_empresa_raw = "hdfs:/datalake/workload/personas/persona.data"

In [60]:
# 6.3 Creamos el dataframe 
df_empresas = spark.read.format("CSV").option("header","true").option("delimiter","|").schema(df_schema_empresas).load(ruta_empresa_raw)

In [61]:
df_empresas.show(10)

+---+------------+
| ID|EMPRESA_NAME|
+---+------------+
|  1|     Walmart|
|  2|   Microsoft|
|  3|       Apple|
|  4|      Toyota|
|  5|      Amazon|
|  6|      Google|
|  7|     Samsung|
|  8|          HP|
|  9|         IBM|
| 10|        Sony|
+---+------------+



In [62]:
# 6.5 Definimos la ruta de almacenamiento

#Archivo en Cloud Storage - Google Cloud Platform
ruta_empresa_landing = "gs://curso-apache-spark/datalake/landing/empresas/"

#Archivo DBFS - DataBricks
# ruta_empresas_landing = "/FileStore/tables/landing/empresas/"


#Archivo en HDFS - Hadoop
#ruta_empresas_landing = "hdfs:/introduccion-apache-spark/datalake/landing/empresas/"


# 6.6 Guardamos el archivo en formato parquet
df_empresas.write.mode("overwrite").format("parquet").save(ruta_empresa_landing)

                                                                                

In [63]:
print("=========================================")
print("Termino procesamiento de Empresa Landing")
print("=========================================")
print(" ")
print("=========================================")
print("Inicio procesamiento de Transacciones Landing")
print("=========================================")

Termino procesamiento de Empresa Landing
 
Inicio procesamiento de Transacciones Landing


## Poblando Transacciones
**7° PASO:** Realizar la ingesta de transacciones en la capa landing
* Crear estructura del dataframe.
* Definir la ruta del archivo.
* Crear la estructura del dataframe
* Declarar en una variable la ruta del archivo
* Leer el archivo de origen
* Mostrar la información del dataframe
* Guardar el dataframe en un ruta de la capa landing

In [64]:
# 6.1 Estructura del dataframe.
df_schema_transacciones = StructType([
StructField("ID_PERSONA", StringType(),True),
StructField("ID_EMPRESA", StringType(),True),
StructField("MONTO", DoubleType(),True),
StructField("FECHA", StringType(),True)
])

In [65]:
# 4.2 Definimos ruta del archivo

#Archivo en Cloud Storage - Google Cloud Platform
ruta_transacciones_raw = "gs://curso-apache-spark/datalake/workload/transaccion/transacciones.data"

#Archivo DBFS - DataBricks
# ruta_transacciones_raw = "/FileStore/tables/transacciones.data"

#Archivo en HDFS - Hadoop
#ruta_transacciones_raw = "hdfs:/datalake/workload/transaccion/transacciones.data"

In [66]:
df_transacciones = spark.read.format("CSV").option("header","true").option("delimiter","|").schema(df_schema_transacciones).load(ruta_transacciones_raw)

In [67]:
df_transacciones.show()

+----------+----------+------+----------+
|ID_PERSONA|ID_EMPRESA| MONTO|     FECHA|
+----------+----------+------+----------+
|        18|         3|1383.0|2018-01-21|
|        30|         6|2331.0|2018-01-21|
|        47|         2|2280.0|2018-01-21|
|        28|         1| 730.0|2018-01-21|
|        91|         4|3081.0|2018-01-21|
|        74|         8|2409.0|2018-01-21|
|        41|         2|3754.0|2018-01-22|
|        42|         9|4079.0|2018-01-22|
|        24|         6|4475.0|2018-01-22|
|        67|         9| 561.0|2018-01-22|
|         9|         4|3765.0|2018-01-22|
|        97|         3|3669.0|2018-01-22|
|        91|         5|3497.0|2018-01-22|
|        61|         3| 735.0|2018-01-23|
|        15|         5| 367.0|2018-01-23|
|        20|         9|2039.0|2018-01-23|
|        11|         4| 719.0|2018-01-23|
|        36|         2|2659.0|2018-01-23|
|        12|         4| 467.0|2018-01-23|
|        38|         9|2411.0|2018-01-23|
+----------+----------+------+----

In [None]:
# 7.5 Definimos la ruta de almacenamiento

#Archivo en Cloud Storage - Google Cloud Platform
ruta_transacciones_landing = "gs://curso-apache-spark/datalake/landing/transacciones/"

#Archivo DBFS - DataBricks
# ruta_transacciones_landing = "/FileStore/tables/landing/transacciones/"


#Archivo en HDFS - Hadoop
#ruta_transacciones_landing = "hdfs:/introduccion-apache-spark/datalake/landing/empresas/"


# 6.6 Guardamos el archivo en formato parquet
df_transacciones.write.mode("overwrite").format("parquet").save(ruta_transacciones_landing)

In [None]:
print("=========================================")
print("Termino procesamiento de Transacciones Landing")
print("=========================================")