PySpark RDD – Robustes verteiltes Dataset
In diesem Abschnitt des PySpark-Tutorials werde ich die RDD vorstellen und anhand von Beispielen erklären, wie sie erstellt und ihre Transformations- und Aktionsvorgänge verwendet werden. Hier ist der vollständige Artikel über PySpark RDD, falls Sie mehr darüber erfahren und Ihre Grundlagen stärken möchten.

PySpark RDD (Resilient Distributed Dataset) ist eine grundlegende Datenstruktur von PySpark, bei der es sich um fehlertolerante, unveränderliche verteilte Sammlungen von Objekten handelt, was bedeutet, dass Sie ein RDD nicht mehr ändern können, sobald Sie es erstellt haben. Jedes Dataset in RDD ist in logische Partitionen unterteilt, die auf verschiedenen Knoten des Clusters berechnet werden können.

RDD-Erstellung
Um eine RDD zu erstellen, müssen Sie zunächst eine SparkSession erstellen, die ein Einstiegspunkt für die PySpark-Anwendung ist. SparkSession kann mit einer oder-Methode der SparkSession erstellt werden.

Die Spark-Sitzung erstellt intern die Variable . Sie können mehrere SparkSession-Objekte erstellen, aber nur einen SparkContext pro JVM. 
Wenn Sie einen weiteren neuen SparkContext erstellen möchten, 
sollten Sie den vorhandenen Sparkcontext (mit ) beenden, bevor Sie einen neuen erstellen.

In [2]:
# Import SparkSession
from pyspark.sql import SparkSession

# Create SparkSession 
spark = SparkSession.builder \
      .master("local[1]") \
      .appName("SparkByExamples.com") \
      .getOrCreate() 


Verwenden von parallelize()
SparkContext verfügt über mehrere Funktionen, die mit RDDs verwendet werden können. Zum Beispiel wird seine Methode verwendet, um eine RDD aus einer Liste zu erstellen

In [4]:
# Create RDD from parallelize    
dataList = [("Java", 20000), ("Python", 100000), ("Scala", 3000)]
rdd=spark.sparkContext.parallelize(dataList)
rdd.count()


3

Verwendung von textFile()
RDD kann auch aus einer Textdatei erstellt werden, indem die Funktion des SparkContext verwendet wird.

In [5]:
# Create RDD from external Data source
rdd2 = spark.sparkContext.textFile("datacamp_ecommerce.csv")
rdd2.count()

65536

Sobald Sie über eine RDD verfügen, können Sie Transformations- und Aktionsvorgänge ausführen. 
Alle Vorgänge, die Sie auf RDD ausführen, werden parallel ausgeführt.

RDD-Vorgänge
Auf PySpark RDD können Sie zwei Arten von Vorgängen ausführen.

RDD-Transformationen – Transformationen sind faule Vorgänge. Wenn Sie eine Transformation (z. B. Update) ausführen, geben diese Vorgänge anstelle des Aktualisierens einer aktuellen RDD eine andere RDD zurü
RDD-Aktionen – Vorgänge, die Berechnungen auslösen und RDD-Werte an den Treiber zurückgeben.
ck.

RDD-Aktionen
RDD-Aktionsvorgang gibt die Werte von einem RDD an einen Treiberknoten zurück. Mit anderen Worten: Jede RDD-Funktion, die Nicht-RDD[T] zurückgibt, wird als Aktion betrachtet.

Einige Aktionen für RDDs sind , , , und mehr.count()collect()first()max()reduce()



PySpark DataFrame-Tutorial für Anfänger
Die DataFrame-Definition wird von Databricks sehr gut erklärt, daher möchte ich sie nicht erneut definieren und Sie verwirren. Im Folgenden finden Sie die Definition, die ich von Databricks übernommen habe.

DataFrame ist eine verteilte Sammlung von Daten, die in benannten Spalten organisiert sind. 
Sie entspricht konzeptionell einer Tabelle in einer relationalen Datenbank oder einem Datenrahmen in R/Python, jedoch mit umfangreicheren Optimierungen unter der Haube. 
DataFrames können aus einer Vielzahl von Quellen erstellt werden, z. B. aus strukturierten Datendateien, Tabellen in Hive, externen Datenbanken oder vorhandenen RDDs.

– Databricks

Wenn Sie einen Python-Hintergrund haben, würde ich davon ausgehen, dass Sie bereits wissen, was Pandas DataFrame ist. PySpark DataFrame ähnelt größtenteils Pandas DataFrame, mit der Ausnahme, dass PySpark DataFrames im Cluster verteilt sind (d. h. die Daten in Datenrahmen werden auf verschiedenen Computern in einem Cluster gespeichert) und alle Vorgänge in PySpark parallel auf allen Computern ausgeführt werden, während Panda Dataframe auf einem einzelnen Computer speichert und ausgeführt wird.

Wenn Sie keinen Python-Hintergrund haben, würde ich Ihnen empfehlen, einige Grundlagen von Python zu lernen, bevor Sie mit diesem Spark-Tutorial fortfahren. Für den Moment sollten Sie nur wissen, dass Daten in PySpark-DataFrames auf verschiedenen Computern in einem Cluster gespeichert werden.

***DataFrame-Erstellung***

Die einfachste Möglichkeit, einen DataFrame zu erstellen, besteht darin, eine Python-Datenliste zu erstellen. DataFrame kann auch aus einer RDD und durch Lesen von Dateien aus mehreren Quellen erstellt werden.

Verwenden von createDataFrame()
Mit Hilfe der Funktion der SparkSession können Sie einen DataFrame erstellen.createDataFrame()

In [15]:
data = [('James','','Smith','1991-04-01','M',3000),
  ('Michael','Rose','','2000-05-19','M',4000),
  ('Robert','','Williams','1978-09-05','M',4000),
  ('Maria','Anne','Jones','1967-12-01','F',4000),
  ('Jen','Mary','Brown','1980-02-17','F',-1)
]

columns = ["firstname","middlename","lastname","gender","salary"]
df = spark.createDataFrame(data=data, schema = columns)
print(df.printSchema())
print(df.show())


root
 |-- firstname: string (nullable = true)
 |-- middlename: string (nullable = true)
 |-- lastname: string (nullable = true)
 |-- gender: string (nullable = true)
 |-- salary: string (nullable = true)
 |-- _6: long (nullable = true)

None
+---------+----------+--------+----------+------+----+
|firstname|middlename|lastname|    gender|salary|  _6|
+---------+----------+--------+----------+------+----+
|    James|          |   Smith|1991-04-01|     M|3000|
|  Michael|      Rose|        |2000-05-19|     M|4000|
|   Robert|          |Williams|1978-09-05|     M|4000|
|    Maria|      Anne|   Jones|1967-12-01|     F|4000|
|      Jen|      Mary|   Brown|1980-02-17|     F|  -1|
+---------+----------+--------+----------+------+----+

None


In [5]:

df = spark.read.csv("datacamp_ecommerce.csv")
df.printSchema()


root
 |-- _c0: string (nullable = true)
 |-- _c1: string (nullable = true)
 |-- _c2: string (nullable = true)
 |-- _c3: string (nullable = true)
 |-- _c4: string (nullable = true)
 |-- _c5: string (nullable = true)
 |-- _c6: string (nullable = true)
 |-- _c7: string (nullable = true)
 |-- _c8: string (nullable = true)
 |-- _c9: string (nullable = true)
 |-- _c10: string (nullable = true)
 |-- _c11: string (nullable = true)
 |-- _c12: string (nullable = true)
 |-- _c13: string (nullable = true)
 |-- _c14: string (nullable = true)
 |-- _c15: string (nullable = true)
 |-- _c16: string (nullable = true)
 |-- _c17: string (nullable = true)
 |-- _c18: string (nullable = true)



In [6]:
df.show()


+--------------+-----------+----------+---------+------+-----------+-------------+----------+-------------+-----------+-------------------+---------------+----------+-----------------+------------------+----------+--------------------+----------+--------+
|           _c0|        _c1|       _c2|      _c3|   _c4|        _c5|          _c6|       _c7|          _c8|        _c9|               _c10|           _c11|      _c12|             _c13|              _c14|      _c15|                _c16|      _c17|    _c18|
+--------------+-----------+----------+---------+------+-----------+-------------+----------+-------------+-----------+-------------------+---------------+----------+-----------------+------------------+----------+--------------------+----------+--------+
|Transaction_id|customer_id|      Date|  Product|Gender|Device_Type|      Country|     State|         City|   Category|Customer_Login_type|  Delivery_Type| Quantity |Transaction Start|Transaction_Result|Amount US$|Individual_Price_U

PySpark withColumnRenamed zum Umbenennen der Spalte im DataFrame

Verwenden Sie PySpark, um eine DataFrame-Spalte umzubenennen, müssen wir häufig eine Spalte oder mehrere (oder alle) Spalten im PySpark-DataFrame umbenennen, Sie können dies auf verschiedene Arten tun. Wenn Spalten verschachtelt sind, wird es kompliziert.    withColumnRenamed()


In [7]:
df.count()

65536

In [11]:
df = spark.read.csv("zipcode.csv")
df.printSchema()

root
 |-- _c0: string (nullable = true)
 |-- _c1: string (nullable = true)
 |-- _c2: string (nullable = true)
 |-- _c3: string (nullable = true)
 |-- _c4: string (nullable = true)
 |-- _c5: string (nullable = true)
 |-- _c6: string (nullable = true)



In [40]:
dataDF = [(('James','','Smith'),'1991-04-01','M',3000),
  (('Michael','Rose',''),'2000-05-19','M',4000),
  (('Robert','','Williams'),'1978-09-05','M',4000),
  (('Maria','Anne','Jones'),'1967-12-01','F',4000),
  (('Jen','Mary','Brown'),'1980-02-17','F',-1)
]


from pyspark.sql.types import StructType,StructField, StringType, IntegerType
schema = StructType([
        StructField('name', StructType([
             StructField('firstname', StringType(), True),
             StructField('middlename', StringType(), True),
             StructField('lastname', StringType(), True)
             ])),
         StructField('dob', StringType(), True),
         StructField('gender', StringType(), True),
         StructField('salary', IntegerType(), True)
         ])


from pyspark.sql import SparkSession

from pyspark.sql.functions import col

spark = SparkSession.builder.appName('SparkByExamples.com').getOrCreate()
df = spark.createDataFrame(data = dataDF, schema = schema)
print(df.printSchema())
print(df.show())




root
 |-- name: struct (nullable = true)
 |    |-- firstname: string (nullable = true)
 |    |-- middlename: string (nullable = true)
 |    |-- lastname: string (nullable = true)
 |-- dob: string (nullable = true)
 |-- gender: string (nullable = true)
 |-- salary: integer (nullable = true)

None
+--------------------+----------+------+------+
|                name|       dob|gender|salary|
+--------------------+----------+------+------+
|    {James, , Smith}|1991-04-01|     M|  3000|
|   {Michael, Rose, }|2000-05-19|     M|  4000|
|{Robert, , Williams}|1978-09-05|     M|  4000|
|{Maria, Anne, Jones}|1967-12-01|     F|  4000|
|  {Jen, Mary, Brown}|1980-02-17|     F|    -1|
+--------------------+----------+------+------+

None


In [41]:
df.withColumnRenamed("dob","Geburtstag").printSchema()

root
 |-- name: struct (nullable = true)
 |    |-- firstname: string (nullable = true)
 |    |-- middlename: string (nullable = true)
 |    |-- lastname: string (nullable = true)
 |-- Geburtstag: string (nullable = true)
 |-- gender: string (nullable = true)
 |-- salary: integer (nullable = true)



In [42]:
df2 = df.withColumnRenamed("dob","Geb.-Tag") \
    .withColumnRenamed("salary","Verkauf")
df2.printSchema()
df2.show()

root
 |-- name: struct (nullable = true)
 |    |-- firstname: string (nullable = true)
 |    |-- middlename: string (nullable = true)
 |    |-- lastname: string (nullable = true)
 |-- Geb.-Tag: string (nullable = true)
 |-- gender: string (nullable = true)
 |-- Verkauf: integer (nullable = true)

+--------------------+----------+------+-------+
|                name|  Geb.-Tag|gender|Verkauf|
+--------------------+----------+------+-------+
|    {James, , Smith}|1991-04-01|     M|   3000|
|   {Michael, Rose, }|2000-05-19|     M|   4000|
|{Robert, , Williams}|1978-09-05|     M|   4000|
|{Maria, Anne, Jones}|1967-12-01|     F|   4000|
|  {Jen, Mary, Brown}|1980-02-17|     F|     -1|
+--------------------+----------+------+-------+



In [43]:

schema2 = StructType([
    StructField("fname",StringType()),
    StructField("middlename",StringType()),
    StructField("lname",StringType())])


df.select(col("name").cast(schema2), \
     col("dob"), col("gender"),col("salary")) \
   .printSchema()  


root
 |-- name: struct (nullable = true)
 |    |-- fname: string (nullable = true)
 |    |-- middlename: string (nullable = true)
 |    |-- lname: string (nullable = true)
 |-- dob: string (nullable = true)
 |-- gender: string (nullable = true)
 |-- salary: integer (nullable = true)



In [44]:
from pyspark.sql.functions import *
df4 = df.withColumn("fname",col("name.firstname")) \
      .withColumn("mname",col("name.middlename")) \
      .withColumn("lname",col("name.lastname")) \
      .drop("name")
df4.printSchema()
df4.show()

root
 |-- dob: string (nullable = true)
 |-- gender: string (nullable = true)
 |-- salary: integer (nullable = true)
 |-- fname: string (nullable = true)
 |-- mname: string (nullable = true)
 |-- lname: string (nullable = true)

+----------+------+------+-------+-----+--------+
|       dob|gender|salary|  fname|mname|   lname|
+----------+------+------+-------+-----+--------+
|1991-04-01|     M|  3000|  James|     |   Smith|
|2000-05-19|     M|  4000|Michael| Rose|        |
|1978-09-05|     M|  4000| Robert|     |Williams|
|1967-12-01|     F|  4000|  Maria| Anne|   Jones|
|1980-02-17|     F|    -1|    Jen| Mary|   Brown|
+----------+------+------+-------+-----+--------+

