(Spark con Python) PySpark DataFrame se puede convertir a Python pandas DataFrame utilizando una función toPandas(), En este artículo, voy a explicar cómo crear Pandas DataFrame de PySpark (Spark) DataFrame con ejemplos.
Antes de empezar primero hay que entender las principales diferencias entre Pandas y PySpark, las operaciones en Pyspark se ejecutan más rápido que en Pandas debido a su naturaleza distribuida y ejecución paralela en múltiples núcleos y máquinas.
En otras palabras, Pandas ejecuta las operaciones en un único nodo mientras que PySpark lo hace en múltiples máquinas. Si estás trabajando en una aplicación de Aprendizaje Automático donde estás tratando con grandes conjuntos de datos, PySpark procesa operaciones muchas veces más rápido que pandas. Ver pandas DataFrame Tutorial guía para principiantes con ejemplos
Después de procesar los datos en PySpark necesitaremos convertirlos de nuevo a Pandas DataFrame para un posterior procesado con la aplicación de Machine Learning o cualquier aplicación Python.

In [0]:
import pyspark
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StructField, StringType,IntegerType

In [0]:
spark = SparkSession.builder.appName("SparkByExamples").getOrCreate()

In [0]:
data = [("James","","Smith","36636","M",60000),
        ("Michael","Rose","","40288","M",70000),
        ("Robert","","Williams","42114","",400000),
        ("Maria","Anne","Jones","39192","F",500000),
        ("Jen","Mary","Brown","","F",0)]

columns = ["first_name","middle_name","last_name","dob","gender","salary"]
pysparkDF = spark.createDataFrame(data = data, schema = columns)
pysparkDF.printSchema()
pysparkDF.show(truncate=False)

root
 |-- first_name: string (nullable = true)
 |-- middle_name: string (nullable = true)
 |-- last_name: string (nullable = true)
 |-- dob: string (nullable = true)
 |-- gender: string (nullable = true)
 |-- salary: long (nullable = true)

+----------+-----------+---------+-----+------+------+
|first_name|middle_name|last_name|dob  |gender|salary|
+----------+-----------+---------+-----+------+------+
|James     |           |Smith    |36636|M     |60000 |
|Michael   |Rose       |         |40288|M     |70000 |
|Robert    |           |Williams |42114|      |400000|
|Maria     |Anne       |Jones    |39192|F     |500000|
|Jen       |Mary       |Brown    |     |F     |0     |
+----------+-----------+---------+-----+------+------+



# Convertir PySpark Dataframe a Pandas DataFrame
PySpark DataFrame proporciona un método toPandas() para convertirlo en Python Pandas DataFrame.

toPandas() resulta en la colección de todos los registros en el PySpark DataFrame al programa controlador y debe hacerse sólo en un pequeño subconjunto de los datos. la ejecución en conjuntos de datos más grandes resulta en error de memoria y bloquea la aplicación. Para hacer frente a un conjunto de datos más grande, también puede tratar de aumentar la memoria en el controlador.

In [0]:
pandasDF = pysparkDF.toPandas()
print(pandasDF)

  first_name middle_name last_name    dob gender  salary
0      James                 Smith  36636      M   60000
1    Michael        Rose            40288      M   70000
2     Robert              Williams  42114         400000
3      Maria        Anne     Jones  39192      F  500000
4        Jen        Mary     Brown             F       0


# Convertir Spark Nested Struct DataFrame a Pandas

La mayoría de las veces los datos en PySpark DataFrame estarán en un formato estructurado, lo que significa que una columna contiene otras columnas, así que vamos a ver cómo convertirlo a Pandas. Aquí tenemos un ejemplo con una estructura anidada donde tenemos firstname, middlename y lastname como parte de la columna name.

In [0]:
dataStruct = [(("James","","Smith"),"36636","M","3000"), \
      (("Michael","Rose",""),"40288","M","4000"), \
      (("Robert","","Williams"),"42114","M","4000"), \
      (("Maria","Anne","Jones"),"39192","F","4000"), \
      (("Jen","Mary","Brown"),"","F","-1") \
]

schemaStruct = StructType([
        StructField('name', StructType([
             StructField('firstname', StringType(), True),
             StructField('middlename', StringType(), True),
             StructField('lastname', StringType(), True)
             ])),
          StructField('dob', StringType(), True),
         StructField('gender', StringType(), True),
         StructField('salary', StringType(), True)
         ])

In [0]:
df = spark.createDataFrame(data=dataStruct, schema = schemaStruct)
df.printSchema()

root
 |-- name: struct (nullable = true)
 |    |-- firstname: string (nullable = true)
 |    |-- middlename: string (nullable = true)
 |    |-- lastname: string (nullable = true)
 |-- dob: string (nullable = true)
 |-- gender: string (nullable = true)
 |-- salary: string (nullable = true)



In [0]:
pandasDF2 = df.toPandas()
print(pandasDF2)

                                                name    dob gender salary
0  {'firstname': 'James', 'middlename': '', 'last...  36636      M   3000
1  {'firstname': 'Michael', 'middlename': 'Rose',...  40288      M   4000
2  {'firstname': 'Robert', 'middlename': '', 'las...  42114      M   4000
3  {'firstname': 'Maria', 'middlename': 'Anne', '...  39192      F   4000
4  {'firstname': 'Jen', 'middlename': 'Mary', 'la...             F     -1
