<a href="https://colab.research.google.com/github/plerzundidev/pyspark-ejemplos/blob/main/PySpark_Create_an_Empty_DataFrame_And_RDD.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Iniciamos librerias esenciales para su funcionamiento

In [1]:
# Levantamos google drive para ejecutar el instalador
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
# Ahora iniciamos pyspark
exec(open('/content/drive/MyDrive/BigDataSw/spark_colab_installer_new.py').read())

Servicios Activos:
2384 NodeManager
2161 NameNode
2229 DataNode
2549 Jps
2311 ResourceManager
2492 JobHistoryServer

Apache Spark installed


En este artículo, voy a explicar cómo crear un PySpark DataFrame/RDD vacío manualmente con o sin esquema (nombres de columnas) de diferentes maneras. A continuación he explicado uno de los muchos escenarios en los que necesitamos crear un DataFrame vacío.

Mientras trabajamos con ficheros, a veces puede que no recibamos un fichero para procesar, sin embargo, necesitamos crear un DataFrame manualmente con el mismo esquema que esperamos. Si no lo creamos con el mismo esquema, nuestras operaciones/transformaciones (como las uniones) en el DataFrame fallan ya que nos referimos a las columnas que pueden no estar presentes.

Para manejar situaciones similares a estas, siempre necesitamos crear un DataFrame con el mismo esquema, lo que significa los mismos nombres de columnas y tipos de datos sin importar si el archivo existe o está vacío.

# 1. Crear un RDD vacío en PySpark

Crea un RDD vacío utilizando emptyRDD() de SparkContext por ejemplo spark.sparkContext.emptyRDD().

In [3]:
# esencial para que el contenedor reconozca la instalacion de pyspark
import findspark
findspark.init()

from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('SparkByExamples.com').getOrCreate()

In [4]:
#Creates Empty RDD
emptyRDD = spark.sparkContext.emptyRDD()
print(emptyRDD)

EmptyRDD[0] at emptyRDD at NativeMethodAccessorImpl.java:0


Alternativamente también puedes obtener RDD vacíos usando spark.sparkContext.parallelize([]).

**Nota**: Si intenta realizar operaciones en un RDD vacío obtendrá ValueError("RDD está vacío").

In [5]:
#Creates Empty RDD using parallelize
rdd2= spark.sparkContext.parallelize([])
print(rdd2)

ParallelCollectionRDD[1] at readRDDFromFile at PythonRDD.scala:289


# 2. Crear DataFrame vacío con esquema (StructType)

Para crear un PySpark DataFrame vacío manualmente con un esquema (nombres de columnas y tipos de datos) primero, Crea un esquema usando StructType y StructField .

In [6]:
#Create Schema
from pyspark.sql.types import StructType,StructField, StringType

schema = StructType([
  StructField('firstname', StringType(), True),
  StructField('middlename', StringType(), True),
  StructField('lastname', StringType(), True)
  ])

Ahora utiliza el RDD vacío creado anteriormente y pásalo a createDataFrame() de SparkSession junto con el esquema de nombres de columnas y tipos de datos.

Esto produce el siguiente esquema del DataFrame vacío.

In [7]:
#Create empty DataFrame from empty RDD
df = spark.createDataFrame(emptyRDD,schema)
df.printSchema()

root
 |-- firstname: string (nullable = true)
 |-- middlename: string (nullable = true)
 |-- lastname: string (nullable = true)



# 3. Convertir RDD vacío en DataFrame

También puede crear un DataFrame vacío convirtiendo un RDD vacío en un DataFrame utilizando toDF().

In [8]:
#Convert empty RDD to Dataframe
df1 = emptyRDD.toDF(schema)
df1.printSchema()

root
 |-- firstname: string (nullable = true)
 |-- middlename: string (nullable = true)
 |-- lastname: string (nullable = true)



# 4. Crear DataFrame vacío con esquema.

Hasta ahora he cubierto la creación de un DataFrame vacío desde RDD, pero aquí lo crearemos manualmente con esquema y sin RDD.

In [9]:
#Create empty DataFrame directly.
df2 = spark.createDataFrame([], schema)
df2.printSchema()

root
 |-- firstname: string (nullable = true)
 |-- middlename: string (nullable = true)
 |-- lastname: string (nullable = true)



# 5. Crear DataFrame vacío sin esquema (sin columnas)
Para crear un DataFrame vacío sin esquema (sin columnas) simplemente crea un esquema vacío y úsalo mientras creas el DataFrame de PySpark.

In [10]:
#Create empty DatFrame with no schema (no columns)
df3 = spark.createDataFrame([], StructType([]))
df3.printSchema()

root

