# **Spark SQL Básico**

## Introducción

### `Ventajas y desventajas de trabajar con Spark en Google Colab`

Ventajas:
- Fácil acceso
- Ejecutar Spark en prácticamente cualquier dispositivo, los recursos están en la nube.
- Como los recursos están la nube, no hay que preocuparse por los recursos de hardware
- Trabajo en equipo, más sencillo el trabajo colaborativo. Varias personas pueden trabajar sobre un mismo notebook.


Desventajas:
- No se guardan las configuraciones de Spark luego de un tiempo
> No obstante el notebook permanece intacto. Se puede volver a ejecutar las líneas de código para tener la configuración nuevamente.
- Escalabilidad, como el servicio es gratuito, los recursos son limitados.
> Para llevarlo a ambientes productivos, necesitamos una infraestructura capaz de brindarnos estas especificaciones.

## Instalaciones Necesarias para trabajar con Spark en Colab

### `Descarga e instalación de Apache Spark en Colab`
Se explica celda por celda las instalaciones necesarias. Para fines prácticos, utilizar la celda de abajo que instala todo junto.

In [None]:
# Instalar SDK Java 8
!apt-get install openjdk-8-jdk-headless -qq > /dev/null

In [None]:
# Descargar Spark 3.2.4
!wget -q https://archive.apache.org/dist/spark/spark-3.2.4/spark-3.2.4-bin-hadoop3.2.tgz

In [None]:
# Descomprimir el archivo descargado de Spark
!tar xf spark-3.2.4-bin-hadoop3.2.tgz

In [None]:
# Establecer las variables de entorno
import os

os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.2.4-bin-hadoop3.2"

In [None]:
# Instalar la librería findspark
!pip install -q findspark

In [None]:
# Instalar pyspark
!pip install -q pyspark

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m316.9/316.9 MB[0m [31m2.3 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
  Building wheel for pyspark (setup.py) ... [?25l[?25hdone


In [None]:
### verificar la instalación ###
import findspark
findspark.init()

from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[*]").getOrCreate()

In [None]:
# Probando la sesión de Spark
df = spark.createDataFrame([{"Hola": "Mundo"} for x in range(10)])
# df.show(10, False)
df.show()

+-----+
| Hola|
+-----+
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
+-----+



### `Descarga e instalación de Apache Spark en una sola celda (Utilizar esta opción)`
Para fines prácticos, toda la instalación está en una celda, así luego de ejecutarse ya se puede trabajar con Spark.

In [None]:
# Instalar SDK Java 8
!apt-get install openjdk-8-jdk-headless -qq > /dev/null

# Descargar Spark 3.2.4
!wget -q https://archive.apache.org/dist/spark/spark-3.2.4/spark-3.2.4-bin-hadoop3.2.tgz

# Descomprimir el archivo descargado de Spark
!tar xf spark-3.2.4-bin-hadoop3.2.tgz

# Establecer las variables de entorno
import os

os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.2.4-bin-hadoop3.2"

# Instalar la librería findspark
!pip install -q findspark

# Instalar pyspark
!pip install -q pyspark

### verificar la instalación ###
import findspark
findspark.init()

from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[*]").getOrCreate()

# Probando la sesión de Spark
df = spark.createDataFrame([{"Hola": "Mundo"} for x in range(10)])
# df.show(10, False)
df.show()

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m317.3/317.3 MB[0m [31m4.6 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
  Building wheel for pyspark (setup.py) ... [?25l[?25hdone
+-----+
| Hola|
+-----+
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
|Mundo|
+-----+



## `Importante: Carga de archivos en Google Colab`

Dos formas de cargar los archivos para resolver los ejercicios:

1. **Montando el drive para acceder a los contenidos** de la unidad.

  Utilizar esta opción si los datos para los ejercicios se cargan en una carpeta del drive y se quiere acceder a ella.

2. **Utilizando el cuadro de archivos**, donde se carga el archivo que se quiere trabajar. Se guarda temporalmente.
> Esta es la forma que voy a estar utizando

In [None]:
# Levantar una sesión de Spark
import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName('Cap2').master('local(*)').getOrCreate()
spark

### 1. Utilizando el montado al drive y yendo hacia la carpeta donde se encuentra el archivo.

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
rdd_texto = sc.wholeTextFiles('/content/drive/MyDrive/Spark/data-ej-PySpark-RDD/el_valor_del_big_data.txt')
rdd_texto.collect()

### 2. Utilizando el cuadro de archivos, donde se carga el archivo que se quiere trabajar. Se guarda temporalmente.

Esta es la que voy a estar utizando a lo largo de todos los notebooks.


In [None]:
rdd_texto = sc.wholeTextFiles('./el_valor_del_big_data.txt')
rdd_texto.collect()

## Spark UI en Colab

In [None]:
# Instalar SDK java 8
!apt-get install openjdk-8-jdk-headless -qq > /dev/null

# Descargar Spark
!wget -q https://archive.apache.org/dist/spark/spark-3.3.4/spark-3.3.4-bin-hadoop3.tgz

# Descomprimir la version de Spark
!tar xf spark-3.3.4-bin-hadoop3.tgz

# Establecer las variables de entorno
import os

os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.3.4-bin-hadoop3"

# Descargar findspark
!pip install -q findspark

# Crear la sesión de Spark
import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = (
    SparkSession.builder
    .config('spark.ui.port', '4050')
    .getOrCreate()
)

from google.colab import output
output.serve_kernel_port_as_window(4050, path='/jobs/index.html')
from pyspark.sql.functions import col

spark.range(10000).toDF("id").filter(col('id') / 2 == 0).write.mode('overwrite').parquet('/output')

<IPython.core.display.Javascript object>

## Spark SQL Básico

- En Spark 1.6 se introdujo una nueva abstracción de programación llamada API Estructurada. Esta es la forma preferida para realizar el procesamiento de datos de la mayoría de los casos de uso.

- En esta nueva forma de hacer el procesamiento de datos, los datos deben organizarse en un formato estructurado y la lógica de cálculo de datos debe seguir una determinada estructura.

- Con estas dos piezas de información, Spark puede realizar optimizaciones para acelerar las aplicaciones de procesamiento de datos.

- Dataframe -> Gran Volumen de datos -> Schema -> formato determinado

- Spark SQL <----> formato determinado

- Lectura <----> Escritura (Spark puede utilizarse como una herramienta de conversión de formato de datos)

### Dataframes: Parte I
Creando dataframes, a partir de un RDD.

In [None]:
# Levantar una sesión de Spark
import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()
sc = spark.sparkContext

rdd = sc.parallelize([item for item in range(10)]).map(lambda x: (x, x ** 2))
rdd.collect()

[(0, 0),
 (1, 1),
 (2, 4),
 (3, 9),
 (4, 16),
 (5, 25),
 (6, 36),
 (7, 49),
 (8, 64),
 (9, 81)]

#### 1. Creando un dataframe a partir de un RDD

In [None]:
df = rdd.toDF(['numero', 'cudrado'])
df.printSchema()
df.show()

root
 |-- numero: long (nullable = true)
 |-- cudrado: long (nullable = true)

+------+-------+
|numero|cudrado|
+------+-------+
|     0|      0|
|     1|      1|
|     2|      4|
|     3|      9|
|     4|     16|
|     5|     25|
|     6|     36|
|     7|     49|
|     8|     64|
|     9|     81|
+------+-------+



#### Ver el Schema

In [None]:
df.printSchema()

root
 |-- numero: long (nullable = true)
 |-- cudrado: long (nullable = true)



#### Ver una cierta cantidad de registros (por defecto se muestran 10)

In [None]:
df.show()

+------+-------+
|numero|cudrado|
+------+-------+
|     0|      0|
|     1|      1|
|     2|      4|
|     3|      9|
|     4|     16|
|     5|     25|
|     6|     36|
|     7|     49|
|     8|     64|
|     9|     81|
+------+-------+



#### 2. Creando un dataframe a partir de un RDD  con Schema

In [None]:
# Crear un DataFrame a partir de un RDD con schema
from pyspark.sql.types import StructType, StructField, IntegerType, StringType, DoubleType

rdd1 = sc.parallelize([(1, 'Jose', 35.5), (2, 'Teresa', 54.3), (3, 'Katia', 12.7)])

In [None]:
# Primera vía
# nombre de la columna, tipo de dato, admite nulos o no
esquema1 = StructType(
    [
     StructField('id', IntegerType(), True),
     StructField('nombre', StringType(), True),
     StructField('saldo', DoubleType(), True)
    ]
)

df1 = spark.createDataFrame(rdd1, schema=esquema1)
df1.printSchema()
df1.show()

root
 |-- id: integer (nullable = true)
 |-- nombre: string (nullable = true)
 |-- saldo: double (nullable = true)

+---+------+-----+
| id|nombre|saldo|
+---+------+-----+
|  1|  Jose| 35.5|
|  2|Teresa| 54.3|
|  3| Katia| 12.7|
+---+------+-----+



In [None]:
# Segunda vía
# nombre de la columna, tipo de dato, admite nulos o no
esquema2 = "`id` INT, `nombre` STRING, `saldo` DOUBLE"

df2 = spark.createDataFrame(rdd1, schema=esquema2)
df2.printSchema()
df2.show()

root
 |-- id: integer (nullable = true)
 |-- nombre: string (nullable = true)
 |-- saldo: double (nullable = true)

+---+------+-----+
| id|nombre|saldo|
+---+------+-----+
|  1|  Jose| 35.5|
|  2|Teresa| 54.3|
|  3| Katia| 12.7|
+---+------+-----+



#### 3. Creando un dataframe a partir de un rango de números

In [None]:
# Crear un DataFrame a partir de un rango de números
spark.range(5).toDF('id').show()
spark.range(3, 15).toDF('id').show()
spark.range(0, 20, 2).toDF('id').show()

+---+
| id|
+---+
|  0|
|  1|
|  2|
|  3|
|  4|
+---+

+---+
| id|
+---+
|  3|
|  4|
|  5|
|  6|
|  7|
|  8|
|  9|
| 10|
| 11|
| 12|
| 13|
| 14|
+---+

+---+
| id|
+---+
|  0|
|  2|
|  4|
|  6|
|  8|
| 10|
| 12|
| 14|
| 16|
| 18|
+---+



### Dataframes: Parte II
Creando dataframes, a partir de una fuente de datos.

#### Spark SQL tiene dos clases principales para leer y escribir datos:

- DataFrameReader
- DataFrameWriter

Una instancia de la clase DataFrameReader está disponible como read en la sesión de Spark.

Spark.read

El patrón común para interactuar con DataFrameReader es:

Spark.read.format(...).option('key', 'value').schema(...).load()

format no es opcional (hay que indicar si es cvs, parquet, json, etc), pero option y schema si lo son ya que option tiene opciones predeterminadas y schema por defecto infiere el tipo de dato.

#### Alternativas para leer datos:

- spark.read.csv("path")
- spark.read.format("csv")

- spark.read.text("path")
- spark.read.format("text")

- spark.read.json("path")
- spark.read.format("json")

- spark.read.parquet("path")
- spark.read.format("parquet")

- spark.read.jdbc("path")
- spark.read.format("jdbc")

- spark.read.orc("path")
- spark.read.format("orc")


In [None]:
# Creando DataFrames

import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()
sc = spark.sparkContext

rdd = sc.parallelize([item for item in range(10)]).map(lambda x: (x, x ** 2))

rdd.collect()

df = rdd.toDF(['numero', 'cudrado'])

df.printSchema()

df.show()

# Crear un DataFrame a partir de un RDD con schema

rdd1 = sc.parallelize([(1, 'Jose', 35.5), (2, 'Teresa', 54.3), (3, 'Katia', 12.7)])

from pyspark.sql.types import StructType, StructField, IntegerType, StringType, DoubleType

# Primera vía

esquema1 = StructType(
    [
     StructField('id', IntegerType(), True),
     StructField('nombre', StringType(), True),
     StructField('saldo', DoubleType(), True)
    ]
)

# Segunda vía

esquema2 = "`id` INT, `nombre` STRING, `saldo` DOUBLE"

df1 = spark.createDataFrame(rdd1, schema=esquema1)

df1.printSchema()

df1.show()

df2 = spark.createDataFrame(rdd1, schema=esquema2)

df2.printSchema()

df2.show()

# Crear un DataFrame a partir de un rango de números

spark.range(5).toDF('id').show()

spark.range(3, 15).toDF('id').show()

spark.range(0, 20, 2).toDF('id').show()



#### Crear un dataframe mediante la lectura de un archivo de texto

In [None]:
import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

# Crear un DataFrame mediante la lectura de un archivo de texto
df = spark.read.text('dataTXT.txt')
df.show()
df.show(truncate=False)

+--------------------+
|               value|
+--------------------+
|Estamos en el cur...|
|En este capítulo ...|
|En esta sección e...|
|y en este ejemplo...|
+--------------------+

+-----------------------------------------------------------------------+
|value                                                                  |
+-----------------------------------------------------------------------+
|Estamos en el curso de pyspark                                         |
|En este capítulo estamos estudiando el API SQL de Saprk                |
|En esta sección estamos creado dataframes a partir de fuentes de datos,|
|y en este ejemplo creamos un dataframe a partir de un texto plano      |
+-----------------------------------------------------------------------+



#### Crear un DataFrame mediante la lectura de un archivo csv

In [None]:
# Crear un DataFrame mediante la lectura de un archivo csv
df1 = spark.read.csv('dataCSV.csv')
df1.show()

+-----------+-------------+--------------------+--------------------+-----------+--------------------+--------------------+-------+------+--------+-------------+--------------------+-----------------+----------------+--------------------+--------------------+
|        _c0|          _c1|                 _c2|                 _c3|        _c4|                 _c5|                 _c6|    _c7|   _c8|     _c9|         _c10|                _c11|             _c12|            _c13|                _c14|                _c15|
+-----------+-------------+--------------------+--------------------+-----------+--------------------+--------------------+-------+------+--------+-------------+--------------------+-----------------+----------------+--------------------+--------------------+
|   video_id|trending_date|               title|       channel_title|category_id|        publish_time|                tags|  views| likes|dislikes|comment_count|      thumbnail_link|comments_disabled|ratings_disabled|vid

In [None]:
df1 = spark.read.option('header', 'true').csv('dataCSV.csv')
df1.show()

+-----------+-------------+--------------------+--------------------+-----------+--------------------+--------------------+-------+------+--------+-------------+--------------------+-----------------+----------------+----------------------+--------------------+
|   video_id|trending_date|               title|       channel_title|category_id|        publish_time|                tags|  views| likes|dislikes|comment_count|      thumbnail_link|comments_disabled|ratings_disabled|video_error_or_removed|         description|
+-----------+-------------+--------------------+--------------------+-----------+--------------------+--------------------+-------+------+--------+-------------+--------------------+-----------------+----------------+----------------------+--------------------+
|2kyS6SvSYSE|     17.14.11|WE WANT TO TALK A...|        CaseyNeistat|         22|2017-11-13T17:13:...|     SHANtell martin| 748374| 57527|    2966|        15954|https://i.ytimg.c...|            False|           Fal

#### Leer un archivo de texto con un delimitador diferente

In [None]:
# Leer un archivo de texto con un delimitador diferente
df2 = spark.read.option('header', 'true').option('delimiter', '|').csv('dataTab.txt')
df2.show()

+----+----+----------+-----+
|pais|edad|     fecha|color|
+----+----+----------+-----+
|  MX|  23|2021-02-21| rojo|
|  CA|  56|2021-06-10| azul|
|  US|  32|2020-06-02|verde|
+----+----+----------+-----+



#### Crear un DataFrame a partir de un json proporcionando un schema

In [None]:
# Crear un DataFrame a partir de un json proporcionando un schema
from pyspark.sql.types import StructType, StructField, StringType, IntegerType, DateType

json_schema =  StructType(
    [
     StructField('color', StringType(), True),
     StructField('edad', IntegerType(), True),
     StructField('fecha', DateType(), True),
     StructField('pais', StringType(), True)
    ]
)

df4 = spark.read.schema(json_schema).json('dataJSON.json')
df4.show()
df4.printSchema()

+-----+----+----------+----+
|color|edad|     fecha|pais|
+-----+----+----------+----+
| rojo|null|2021-02-21|  MX|
| azul|null|2021-06-10|  CA|
|verde|null|2020-06-02|  US|
+-----+----+----------+----+

root
 |-- color: string (nullable = true)
 |-- edad: integer (nullable = true)
 |-- fecha: date (nullable = true)
 |-- pais: string (nullable = true)



#### Crear un DataFrame a partir de un archivo parquet

In [None]:

# Crear un DataFrame a partir de un archivo parquet
df5 = spark.read.parquet('dataPARQUET.parquet')
df5.show()

# Otra alternativa para leer desde una fuente de datos parquet en este caso
df6 = spark.read.format('parquet').load('dataPARQUET.parquet')
df6.printSchema()

+-----------+-------------+--------------------+--------------------+-----------+--------------------+--------------------+-------+------+--------+-------------+--------------------+-----------------+----------------+----------------------+--------------------+
|   video_id|trending_date|               title|       channel_title|category_id|        publish_time|                tags|  views| likes|dislikes|comment_count|      thumbnail_link|comments_disabled|ratings_disabled|video_error_or_removed|         description|
+-----------+-------------+--------------------+--------------------+-----------+--------------------+--------------------+-------+------+--------+-------------+--------------------+-----------------+----------------+----------------------+--------------------+
|2kyS6SvSYSE|     17.14.11|WE WANT TO TALK A...|        CaseyNeistat|         22|2017-11-13T17:13:...|     SHANtell martin| 748374| 57527|    2966|        15954|https://i.ytimg.c...|            False|           Fal

#### Otra alternativa para leer desde una fuente de datos parquet en este caso

In [None]:
# Otra alternativa para leer desde una fuente de datos parquet en este caso
df6 = spark.read.format('parquet').load('dataPARQUET.parquet')
df6.printSchema()

root
 |-- video_id: string (nullable = true)
 |-- trending_date: string (nullable = true)
 |-- title: string (nullable = true)
 |-- channel_title: string (nullable = true)
 |-- category_id: string (nullable = true)
 |-- publish_time: string (nullable = true)
 |-- tags: string (nullable = true)
 |-- views: string (nullable = true)
 |-- likes: string (nullable = true)
 |-- dislikes: string (nullable = true)
 |-- comment_count: string (nullable = true)
 |-- thumbnail_link: string (nullable = true)
 |-- comments_disabled: string (nullable = true)
 |-- ratings_disabled: string (nullable = true)
 |-- video_error_or_removed: string (nullable = true)
 |-- description: string (nullable = true)



### Trabajo con columnas

In [None]:
# Trabajo con columnas
import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

df = spark.read.parquet('dataPARQUET.parquet')
df.printSchema()

root
 |-- video_id: string (nullable = true)
 |-- trending_date: string (nullable = true)
 |-- title: string (nullable = true)
 |-- channel_title: string (nullable = true)
 |-- category_id: string (nullable = true)
 |-- publish_time: string (nullable = true)
 |-- tags: string (nullable = true)
 |-- views: string (nullable = true)
 |-- likes: string (nullable = true)
 |-- dislikes: string (nullable = true)
 |-- comment_count: string (nullable = true)
 |-- thumbnail_link: string (nullable = true)
 |-- comments_disabled: string (nullable = true)
 |-- ratings_disabled: string (nullable = true)
 |-- video_error_or_removed: string (nullable = true)
 |-- description: string (nullable = true)



In [None]:
# Primera alternativa para referirnos a las columnas
df.select('title').show()

+--------------------+
|               title|
+--------------------+
|WE WANT TO TALK A...|
|The Trump Preside...|
|Racist Superman |...|
|Nickelback Lyrics...|
|I Dare You: GOING...|
|2 Weeks with iPho...|
|Roy Moore & Jeff ...|
|5 Ice Cream Gadge...|
|The Greatest Show...|
|Why the rise of t...|
|Dion Lewis' 103-Y...|
|(SPOILERS) 'Shiva...|
|Marshmello - Bloc...|
|Which Countries A...|
|SHOPPING FOR NEW ...|
|    The New SpotMini|
|One Change That W...|
|How does your bod...|
|HomeMade Electric...|
|Founding An Inbre...|
+--------------------+
only showing top 20 rows



In [None]:
# Segunda alternativa
from pyspark.sql.functions import col

df.select(col('title')).show()

+--------------------+
|               title|
+--------------------+
|WE WANT TO TALK A...|
|The Trump Preside...|
|Racist Superman |...|
|Nickelback Lyrics...|
|I Dare You: GOING...|
|2 Weeks with iPho...|
|Roy Moore & Jeff ...|
|5 Ice Cream Gadge...|
|The Greatest Show...|
|Why the rise of t...|
|Dion Lewis' 103-Y...|
|(SPOILERS) 'Shiva...|
|Marshmello - Bloc...|
|Which Countries A...|
|SHOPPING FOR NEW ...|
|    The New SpotMini|
|One Change That W...|
|How does your bod...|
|HomeMade Electric...|
|Founding An Inbre...|
+--------------------+
only showing top 20 rows



### Transformaciones, funciones, select y selectExpr

In [None]:
# Transformaciones - funciones select y selectExpr
import findspark
findspark.init()
from pyspark.sql import SparkSession
from pyspark.sql.functions import col

spark = SparkSession.builder.getOrCreate()

df = spark.read.parquet('datos.parquet')
df.printSchema()

#### Con select

In [None]:
df.select(col('video_id')).show()

In [None]:
df.select('video_id', 'trending_date').show()

In [None]:
# Esta vía nos dará error
df.select(
    'likes',
    'dislikes',
    ('likes' - 'dislikes')
).show()

In [None]:
# Forma correcta
df.select(
    col('likes'),
    col('dislikes'),
    (col('likes') - col('dislikes')).alias('aceptacion')
).show()

#### Con selectExpr

In [None]:
# selectExpr
df.selectExpr('likes', 'dislikes', '(likes - dislikes) as aceptacion').show()
df.selectExpr("count(distinct(video_id)) as videos").show()

### Transformaciones, funciones, filter y where

In [None]:
# Transformaciones - funciones filter y where
import findspark
findspark.init()
from pyspark.sql import SparkSession
from pyspark.sql.functions import col

spark = SparkSession.builder.getOrCreate()

df = spark.read.parquet('datos.parquet')
df.show()

#### Filter y where

In [None]:
df.filter(col('video_id') == '2kyS6SvSYSE').show()

In [None]:
df1 = spark.read.parquet('datos.parquet').where(col('trending_date') != '17.14.11')
df1.show()

In [None]:
df2 = spark.read.parquet('datos.parquet').where(col('likes') > 5000)

In [None]:
df2.filter((col('trending_date') != '17.14.11') & (col('likes') > 7000)).show()

In [None]:
df2.filter(col('trending_date') != '17.14.11').filter(col('likes') > 7000).show()

### Transformaciones, funciones, distinct y dropDuplicates

In [None]:
# Transformaciones - funciones distinct y dropDuplicates
import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

df = spark.read.parquet('./data')

#### distinct

In [None]:
# distinct
df_sin_duplicados = df.distinct()
print('El conteo del dataframe original es {}'.format(df.count()))
print('El conteo del dataframe sin duplicados es {}'.format(df_sin_duplicados.count()))

#### dropDuplicates

In [None]:
# función dropDuplicates
dataframe = spark.createDataFrame([(1, 'azul', 567), (2, 'rojo', 487), (1, 'azul', 345), (2, 'verde', 783)]).toDF('id', 'color', 'importe')
dataframe.show()

In [None]:
dataframe.dropDuplicates(['id', 'color']).show()

### Transformaciones, funciones, sort y orderBy

In [None]:
# Transformaciones - funciones sort y orderBy
import findspark
findspark.init()
from pyspark.sql import SparkSession
from pyspark.sql.functions import col
from pyspark.sql.functions import desc

spark = SparkSession.builder.getOrCreate()

df = (spark.read.parquet('./data')
    .select(col('likes'), col('views'), col('video_id'), col('dislikes'))
    .dropDuplicates(['video_id'])
)

df.show()

In [None]:
# sort
df.sort('likes').show()
df.sort(desc('likes')).show()

In [None]:
# función orderBy
df.orderBy(col('views')).show()
df.orderBy(col('views').desc()).show()

In [None]:
dataframe = spark.createDataFrame([(1, 'azul', 568), (2, 'rojo', 235), (1, 'azul', 456), (2, 'azul', 783)]).toDF('id', 'color', 'importe')
dataframe.show()

In [None]:
dataframe.orderBy(col('color').desc(), col('importe')).show()

In [None]:
# funcion limit
top_10 = df.orderBy(col('views').desc()).limit(10)
top_10.show()

### Transformaciones, funciones, withColumn y withColumnRenamed

In [None]:
# Transformaciones - funciones withColumn y withColumnRenamed
import findspark
findspark.init()
from pyspark.sql import SparkSession
from pyspark.sql.functions import col

spark = SparkSession.builder.getOrCreate()

df = spark.read.parquet('./data')

In [None]:
# withColumn
df_valoracion = df.withColumn('valoracion', col('likes') - col('dislikes'))
df_valoracion.printSchema()
df_valoracion1 = (df.withColumn('valoracion', col('likes') - col('dislikes'))
                    .withColumn('res_div', col('valoracion') % 10)
)

df_valoracion1.printSchema()
df_valoracion1.select(col('likes'), col('dislikes'), col('valoracion'), col('res_div')).show()

In [None]:
# withColumnRenamed
df_renombrado = df.withColumnRenamed('video_id', 'id')
df_renombrado.printSchema()
df_error = df.withColumnRenamed('nombre_que_no_existe', 'otro_nombre')
df_error.printSchema()

### Transformaciones, funciones, drop, sample, randomSplit

In [None]:
# Transformaciones - funciones drop, sample y randomSplit
import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

df = spark.read.parquet('./data')
df.printSchema()

In [None]:
# drop
df_util = df.drop('comments_disabled')
df_util.printSchema()

df_util = df.drop('comments_disabled', 'ratings_disabled', 'thumbnail_link')
df_util.printSchema()

df_util = df.drop('comments_disabled', 'ratings_disabled', 'thumbnail_link', 'cafe')
df_util.printSchema()

In [None]:
# sample
df_muestra = df.sample(0.8)
num_filas = df.count()
num_filas_muestra = df_muestra.count()

print('El 80% de filas del dataframe original es {}'.format(num_filas - (num_filas*0.2)))
print('El numero de filas del dataframe muestra es {}'.format(num_filas_muestra))

df_muestra = df.sample(fraction=0.8, seed=1234)
df_muestra = df.sample(withReplacement=True, fraction=0.8, seed=1234)

In [None]:
# randomSplit
train, test = df.randomSplit([0.8, 0.2], seed=1234)
train, validation, test = df.randomSplit([0.6, 0.2, 0.2], seed=1234)

train.count()
validation.count()
test.count()

### Trabajo con datos incorrectos faltantes

In [None]:
# Trabajo con datos incorrectos o faltantes
import findspark
findspark.init()
from pyspark.sql import SparkSession
from pyspark.sql.functions import col

spark = SparkSession.builder.getOrCreate()

df = spark.read.parquet('./data/')
df.count()

In [None]:
df.na.drop().count()

In [None]:
df.na.drop('any').count()

In [None]:
df.dropna().count()

In [None]:
df.na.drop(subset=['views']).count()

In [None]:
df.na.drop(subset=['views', 'dislikes']).count()

In [None]:
df.orderBy(col('views')).select(col('views'), col('likes'), col('dislikes')).show()

In [None]:
df.fillna(0).orderBy(col('views')).select(col('views'), col('likes'), col('dislikes')).show()

In [None]:
df.fillna(0, subset=['likes', 'dislikes']).orderBy(col('views')).select(col('views'), col('likes'), col('dislikes')).show()

### Acciones sobre un dataframe

In [None]:
# Acciones sobre un dataframe en Spark SQL
import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

df = spark.read.parquet('./data/')

In [None]:
# show
df.show()
df.show(5)
df.show(5, truncate=False)

In [None]:
# take
df.take(1)

In [None]:
# head
df.head(1)

In [None]:
# collect
df.select('likes').collect()

### Escritura de dataframes

In [None]:
# Escritura de DataFrames
import findspark
findspark.init()
from pyspark.sql import SparkSession
from pyspark.sql.functions import col

spark = SparkSession.builder.getOrCreate()

df = spark.read.parquet('./data/')

In [None]:
df1 = df.repartition(2)

In [None]:
df1.write.format('csv').option('sep', '|').save()

In [None]:
df1.coalesce(1).write.format('csv').option('sep', '|').save('./output/csv1')

In [None]:
df.printSchema()

In [None]:
df.select('comments_disabled').distinct().show()

In [None]:
df_limpio = df.filter(col('comments_disabled').isin('True', 'False'))

In [None]:
df_limpio.write.partitionBy('comments_disabled').parquet('./output/parquet')

### Lectura 1

In [None]:
# Instalar SDK java 8
!apt-get install openjdk-8-jdk-headless -qq > /dev/null

# Descargar Spark
!wget -q https://archive.apache.org/dist/spark/spark-3.3.4/spark-3.3.4-bin-hadoop3.tgz

# Descomprimir la version de Spark
!tar xf spark-3.3.4-bin-hadoop3.tgz

# Establecer las variables de entorno
import os

os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.3.4-bin-hadoop3"

# Descargar findspark
!pip install -q findspark

# Instalar dotenv para manejar las credenciales
!pip install python-dotenv

# Extraer las credenciales del archivo .env a un diccionario de Python
from dotenv import dotenv_values

config = dotenv_values(".env")

# Crear la sesión de Spark con las configuraciones necesarias para conectarse a AWS S3
import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = (SparkSession
         .builder
         .config("spark.jars.packages", "org.apache.hadoop:hadoop-aws:3.3.1,com.amazonaws:aws-java-sdk-bundle:1.11.469")
         .config("spark.hadoop.fs.s3a.aws.credentials.provider", "org.apache.hadoop.fs.s3a.SimpleAWSCredentialsProvider")
         .getOrCreate()
         )

# Extraer las credenciales del diccionario
accessKeyId=config.get('ACCESS_KEY')
secretAccessKey=config.get('SECRET_ACCESS_KEY')

# Establecer las configuraciones de Hodoop necesarias
sc = spark.sparkContext

sc._jsc.hadoopConfiguration().set('fs.s3a.access.key', accessKeyId)
sc._jsc.hadoopConfiguration().set('fs.s3a.secret.key', secretAccessKey)
sc._jsc.hadoopConfiguration().set('fs.s3a.path.style.access', 'true')
sc._jsc.hadoopConfiguration().set('fs.s3a.impl', 'org.apache.hadoop.fs.s3a.S3AFileSystem')
sc._jsc.hadoopConfiguration().set('fs.s3a.endpoint', 's3.amazonaws.com')

df = spark.read.parquet('s3a://josemtech/parquet')
df.show()

In [None]:
df1 = spark.read.option('header', 'true').option('inferSchema', 'true').csv('s3a://josemtech/csv/')
df1.show()

In [None]:
df.write.mode('overwrite').parquet('s3a://josemtech/salida')

### Lectura 2

In [None]:
# Instalar SDK java 8
!apt-get install openjdk-8-jdk-headless -qq > /dev/null

# Descargar Spark
!wget -q https://archive.apache.org/dist/spark/spark-3.3.4/spark-3.3.4-bin-hadoop3.tgz

# Descomprimir la version de Spark
!tar xf spark-3.3.4-bin-hadoop3.tgz

# Establecer las variables de entorno
import os

os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.3.4-bin-hadoop3"

# Descargar findspark
!pip install -q findspark

# Extraer las credenciales desde los Secrets
from google.colab import userdata

account_key = userdata.get('ACCOUNT_KEY')

# Crear la sesión de Spark
import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = (SparkSession.builder
         .config("spark.jars.packages", "org.apache.hadoop:hadoop-azure:3.3.6,com.microsoft.azure:azure-storage:8.6.6")
         .config("spark.hadoop.fs.azure.account.key.josemtech.blob.core.windows.net", account_key)
         .config("spark.hadoop.fs.wasbs.impl", "org.apache.hadoop.fs.azure.NativeAzureFileSystem")
         .config("spark.hadoop.fs.azure", "org.apache.hadoop.fs.azure.NativeAzureFileSystem")
         .getOrCreate())

In [None]:
# Lectura
df = spark.read.parquet("wasbs://spark-data@josemtech.blob.core.windows.net/parquet")
df.show()

In [None]:
# Escritura
df.write.mode("overwrite").parquet("wasbs://spark-data@josemtech.blob.core.windows.net/test/")

### Lectura 3

In [None]:
# Instalar SDK java 8
!apt-get install openjdk-8-jdk-headless -qq > /dev/null

# Descargar Spark
!wget -q https://archive.apache.org/dist/spark/spark-3.3.4/spark-3.3.4-bin-hadoop3.tgz

# Descomprimir la version de Spark
!tar xf spark-3.3.4-bin-hadoop3.tgz

# Establecer las variables de entorno
import os

os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.3.4-bin-hadoop3"

# Descargar findspark
!pip install -q findspark

# Descargar el jar necesario para conectarse al bucket de GCP
!wget https://repo1.maven.org/maven2/com/google/cloud/bigdataoss/gcs-connector/hadoop3-2.2.9/gcs-connector-hadoop3-2.2.9-shaded.jar

# Mover el jar descargado a la carpeta de jars de Spark
!mv gcs-connector-hadoop3-2.2.9-shaded.jar /content/spark-3.4.2-bin-hadoop3/jars

# Crear la sesión de Spark
import findspark
findspark.init()
from pyspark.sql import SparkSession

spark = (SparkSession.builder
         .config("spark.hadoop.fs.gs.impl","com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystem")
         .config("google.cloud.auth.service.account.json.keyfile","/content/pyspark.json")
         .getOrCreate())

df = spark.read.parquet('gs://josemtech/parquet')
df.show()

In [None]:
df.write.mode('overwrite').parquet('gs://josemtech/salida_parquet')

In [None]:
df1 = spark.read.option('header', 'true').csv('gs://josemtech/csv')
df1.show()

In [None]:
df1.write.mode('overwrite').csv('gs://josemtech/salida_csv')

### Persistencia de dataframes

In [None]:
# Persistencia de DataFrames
import findspark
findspark.init()
from pyspark.sql import SparkSession
from pyspark.storagelevel import StorageLevel

spark = SparkSession.builder.getOrCreate()

df = spark.createDataFrame([(1, 'a'), (2, 'b'), (3, 'c')], ['id', 'valor'])
df.show()

In [None]:
df.persist()

In [None]:
df.unpersist()

In [None]:
df.cache()

In [None]:
df.persist(StorageLevel.DISK_ONLY)

In [None]:
df.persist(StorageLevel.MEMORY_AND_DISK)

### Ejercicios

-----------
## Fin Notebook
-----------