<h1> 저수준의 RDD API 패턴과 고수준 RDD API 패턴

<h3> 저수준 DSL, 데이터프레임 API 사용

In [1]:
import findspark
findspark.init()

from pyspark.sql import SparkSession

In [None]:
# RDD를 이용한 예제
spark = SparkSession.builder.appName("DataFrame").getOrCreate()
sc = spark.sparkContext
# (name, age) 형태의 튜플로 된 RDD를 생성한다.
dataRDD = sc.parallelize([("Brooke", 20), ("Denny", 31), ("Jules", 30), ("TD", 35), ("Brooke", 25)])

# 집계와 평균을 위한 람다 표현식과 함께 map, reduceByKey 트랜스포메이션 사용용
ageRDD = (dataRDD
          .map(lambda x: (x[0], (x[1], 1)))
          .reduceByKey(lambda x, y: (x[0] + y[0], x[1] + y[1]))
          .map(lambda x: (x[0], x[1][0] / x[1][1]))
          )
print(ageRDD.collect())
spark.stop()

[('Denny', 31.0), ('TD', 35.0), ('Brooke', 22.5), ('Jules', 30.0)]


<h3>고수준 DSL, 데이터프레임 API 사용

In [3]:
import findspark
findspark.init()

In [4]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import avg
spark = SparkSession.builder.appName("DataFrame").getOrCreate()

data_df = spark.createDataFrame([("Brooke", 20), ("Denny", 31), ("Jules", 30), ("TD", 35), ("Brooke", 25)], ['name', 'age'])
avg_df = data_df.groupBy('name').agg(avg('age'))
avg_df.show()
input("Press Enter to terminate...")
spark.stop()

+------+--------+
|  name|avg(age)|
+------+--------+
|Brooke|    22.5|
| Denny|    31.0|
| Jules|    30.0|
|    TD|    35.0|
+------+--------+



<h1> 스키마 정의 방법

<h3> 프로그래밍 스타일

In [8]:
from pyspark.sql.types import *
schema = StructType([StructField('author', StringType(), False),
                     StructField('title',StringType(), False),
                     StructField('pages',IntegerType(),False)])

In [9]:
schema

StructType([StructField('author', StringType(), False), StructField('title', StringType(), False), StructField('pages', IntegerType(), False)])

<h3> DDL 사용

In [10]:
schema = 'author STRING, title STRING, pages INT'

In [11]:
schema

'author STRING, title STRING, pages INT'