In [None]:
#Desde la librería "pyspark.sql.types" importamos los utilitarios "StructType" y el "StructField"
#"StrucType" nos permite modificar el esquema de metadatos de un dataframe
#"StructField" nos permite modificar a un campo del esquema de metadatos.
#Tambien es necesario importar los tipos de datos que utilizaremos
from pyspark.sql.types import StructType, StructField, StringType, IntegerType, DoubleType

In [None]:
#Tambien, es posible hacer esto -> Importacion de todos los utilitarios de forma conjunta
from pyspark.sql.types import *

In [None]:
#Leemos el archivo de persona, con un esquema de metadatos predefinido
dfPersona = spark.read.format("csv").option("header", "true").option("delimiter", "|").schema(
    StructType(
        [
            StructField("ID", StringType(), True),
            StructField("NOMBRE", StringType(), True),
            StructField("TELEFONO", StringType(), True),
            StructField("CORREO", StringType(), True),
            StructField("FECHA_INGRESO", StringType(), True),
            StructField("EDAD", IntegerType(), True),
            StructField("SALARIO", DoubleType(), True),
            StructField("ID_EMPRESA", StringType(), True)
        ]
    )
).load("dbfs:///FileStore/curso_databricks/persona.data")

In [None]:
#Mostramos los datos
dfPersona.show(10)

+---+---------+--------------+--------------------+-------------+----+-------+----------+
| ID|   NOMBRE|      TELEFONO|              CORREO|FECHA_INGRESO|EDAD|SALARIO|ID_EMPRESA|
+---+---------+--------------+--------------------+-------------+----+-------+----------+
|  1|     Carl|1-745-633-9145|arcu.Sed.et@ante....|   2004-04-23|  32|20095.0|         5|
|  2|Priscilla|      155-2498|Donec.egestas.Ali...|   2019-02-17|  34| 9298.0|         2|
|  3|  Jocelyn|1-204-956-8594|amet.diam@loborti...|   2002-08-01|  27|10853.0|         3|
|  4|    Aidan|1-719-862-9385|euismod.et.commod...|   2018-11-06|  29| 3387.0|        10|
|  5|  Leandra|      839-8044|at@pretiumetrutru...|   2002-10-10|  41|22102.0|         1|
|  6|     Bert|      797-4453|a.felis.ullamcorp...|   2017-04-25|  70| 7800.0|         7|
|  7|     Mark|1-680-102-6792|Quisque.ac@placer...|   2006-04-21|  52| 8112.0|         5|
|  8|    Jonah|      214-2975|eu.ultrices.sit@v...|   2017-10-07|  23|17040.0|         5|
|  9|    H

In [None]:
#Creacion de la vista temporal para utilizar con Spark SQL
dfPersona.createOrReplaceTempView("dfPersona")

In [None]:
#Filtraremos algunos registros según la edad
spark.sql("SELECT T.* FROM dfpersona T WHERE T.EDAD > 30").show(10)

+---+---------+--------------+--------------------+-------------+----+-------+----------+
| ID|   NOMBRE|      TELEFONO|              CORREO|FECHA_INGRESO|EDAD|SALARIO|ID_EMPRESA|
+---+---------+--------------+--------------------+-------------+----+-------+----------+
|  1|     Carl|1-745-633-9145|arcu.Sed.et@ante....|   2004-04-23|  32|20095.0|         5|
|  2|Priscilla|      155-2498|Donec.egestas.Ali...|   2019-02-17|  34| 9298.0|         2|
|  5|  Leandra|      839-8044|at@pretiumetrutru...|   2002-10-10|  41|22102.0|         1|
|  6|     Bert|      797-4453|a.felis.ullamcorp...|   2017-04-25|  70| 7800.0|         7|
|  7|     Mark|1-680-102-6792|Quisque.ac@placer...|   2006-04-21|  52| 8112.0|         5|
|  9|    Hanae|      935-2277|          eu@Nunc.ca|   2003-05-25|  69| 6834.0|         3|
| 11|  Melyssa|      596-7736|vel@vulputateposu...|   2008-10-14|  48| 4913.0|         8|
| 13|   Trevor|      512-1955|Nunc.quis.arcu@eg...|   2010-08-06|  34| 9501.0|         5|
| 14|    A

In [None]:
#En ocasiones los SQL pueden ser muy grandes. Para escribirlos de una mejor manera, utilizaremos la triple comilla doble
spark.sql("""
SELECT
  T.*
FROM
  dfPersona T
WHERE
  T.EDAD > 30
""").show(10)

+---+---------+--------------+--------------------+-------------+----+-------+----------+
| ID|   NOMBRE|      TELEFONO|              CORREO|FECHA_INGRESO|EDAD|SALARIO|ID_EMPRESA|
+---+---------+--------------+--------------------+-------------+----+-------+----------+
|  1|     Carl|1-745-633-9145|arcu.Sed.et@ante....|   2004-04-23|  32|20095.0|         5|
|  2|Priscilla|      155-2498|Donec.egestas.Ali...|   2019-02-17|  34| 9298.0|         2|
|  5|  Leandra|      839-8044|at@pretiumetrutru...|   2002-10-10|  41|22102.0|         1|
|  6|     Bert|      797-4453|a.felis.ullamcorp...|   2017-04-25|  70| 7800.0|         7|
|  7|     Mark|1-680-102-6792|Quisque.ac@placer...|   2006-04-21|  52| 8112.0|         5|
|  9|    Hanae|      935-2277|          eu@Nunc.ca|   2003-05-25|  69| 6834.0|         3|
| 11|  Melyssa|      596-7736|vel@vulputateposu...|   2008-10-14|  48| 4913.0|         8|
| 13|   Trevor|      512-1955|Nunc.quis.arcu@eg...|   2010-08-06|  34| 9501.0|         5|
| 14|    A

In [None]:
#También, podemos almacenar el resultado del procesamiento SQL en una variable dataframe.
df1 = spark.sql("""
SELECT
  T.*
FROM
  dfPersona T
WHERE
  T.EDAD > 30
""")

#Vemos el resultado
df1.show(10)

+---+---------+--------------+--------------------+-------------+----+-------+----------+
| ID|   NOMBRE|      TELEFONO|              CORREO|FECHA_INGRESO|EDAD|SALARIO|ID_EMPRESA|
+---+---------+--------------+--------------------+-------------+----+-------+----------+
|  1|     Carl|1-745-633-9145|arcu.Sed.et@ante....|   2004-04-23|  32|20095.0|         5|
|  2|Priscilla|      155-2498|Donec.egestas.Ali...|   2019-02-17|  34| 9298.0|         2|
|  5|  Leandra|      839-8044|at@pretiumetrutru...|   2002-10-10|  41|22102.0|         1|
|  6|     Bert|      797-4453|a.felis.ullamcorp...|   2017-04-25|  70| 7800.0|         7|
|  7|     Mark|1-680-102-6792|Quisque.ac@placer...|   2006-04-21|  52| 8112.0|         5|
|  9|    Hanae|      935-2277|          eu@Nunc.ca|   2003-05-25|  69| 6834.0|         3|
| 11|  Melyssa|      596-7736|vel@vulputateposu...|   2008-10-14|  48| 4913.0|         8|
| 13|   Trevor|      512-1955|Nunc.quis.arcu@eg...|   2010-08-06|  34| 9501.0|         5|
| 14|    A

In [None]:
#Seleccionamos el campos ID, NOMBRE, CORREO, EDAD, SALARIO y aplicamos un filtro con WHERE

df2 = spark.sql("""
SELECT
  T.ID,
  T.NOMBRE,
  T.CORREO,
  T.EDAD,
  T.SALARIO
FROM
  dfPersona T
WHERE
  T.EDAD > 30 AND
  T.SALARIO > 5000
""")

#Vemos el resultado
df2.show(10)

+---+---------+--------------------+----+-------+
| ID|   NOMBRE|              CORREO|EDAD|SALARIO|
+---+---------+--------------------+----+-------+
|  1|     Carl|arcu.Sed.et@ante....|  32|20095.0|
|  2|Priscilla|Donec.egestas.Ali...|  34| 9298.0|
|  5|  Leandra|at@pretiumetrutru...|  41|22102.0|
|  6|     Bert|a.felis.ullamcorp...|  70| 7800.0|
|  7|     Mark|Quisque.ac@placer...|  52| 8112.0|
|  9|    Hanae|          eu@Nunc.ca|  69| 6834.0|
| 13|   Trevor|Nunc.quis.arcu@eg...|  34| 9501.0|
| 14|    Allen|felis.Donec@necle...|  59|16289.0|
| 17|     Omar|Phasellus.vitae.m...|  60| 6851.0|
| 19|    Laura|    mollis@ornare.ca|  70|17403.0|
+---+---------+--------------------+----+-------+
only showing top 10 rows



In [None]:
#Por ultimo, veamos la parametrizacion de codigo en SQL
PARAM_EDAD = 30
PARAM_SALARIO = 5000

In [None]:
#Para usar un parametro en el codigo debemos de escribir {NOMBRE_PARAMETRO}
df3 = spark.sql(f"""
SELECT
  T.ID,
  T.NOMBRE,
  T.CORREO,
  T.EDAD,
  T.SALARIO
FROM
  dfPersona T
WHERE
  T.EDAD > {PARAM_EDAD} AND
  T.SALARIO > {PARAM_SALARIO}
""")

#Vemos el resultado
df3.show(10)

+---+---------+--------------------+----+-------+
| ID|   NOMBRE|              CORREO|EDAD|SALARIO|
+---+---------+--------------------+----+-------+
|  1|     Carl|arcu.Sed.et@ante....|  32|20095.0|
|  2|Priscilla|Donec.egestas.Ali...|  34| 9298.0|
|  5|  Leandra|at@pretiumetrutru...|  41|22102.0|
|  6|     Bert|a.felis.ullamcorp...|  70| 7800.0|
|  7|     Mark|Quisque.ac@placer...|  52| 8112.0|
|  9|    Hanae|          eu@Nunc.ca|  69| 6834.0|
| 13|   Trevor|Nunc.quis.arcu@eg...|  34| 9501.0|
| 14|    Allen|felis.Donec@necle...|  59|16289.0|
| 17|     Omar|Phasellus.vitae.m...|  60| 6851.0|
| 19|    Laura|    mollis@ornare.ca|  70|17403.0|
+---+---------+--------------------+----+-------+
only showing top 10 rows

