In [3]:
sc

In [4]:
#DataFrame, DataSet으로 RDD 생성하기
spark.range(10).rdd

MapPartitionsRDD[11] at javaToPython at NativeMethodAccessorImpl.java:0

In [5]:
#row 객체에서 값을 추출
spark.range(10).toDF("id").rdd.map(lambda row: row[0])

PythonRDD[18] at RDD at PythonRDD.scala:53

In [6]:
#RDD 사용하여 DataFrame이나 Dataset 생성
spark.range(10).rdd.toDF()

DataFrame[id: bigint]

In [7]:
#로컬럴렉션으로 RDD 생성하기
myCollection = "Spark The Definitive Guide : Big Data Processing Made Simple"\
  .split(" ")
words = spark.sparkContext.parallelize(myCollection, 2)

In [8]:
#RDD에 이름 지정
words.setName("myWords")
words.name() # myWords

'myWords'

In [9]:
#데이터소스로 RDD 생성
#spark.sparkContext.textFile("/some/path/withTextFiles")

In [11]:
#distinct -> RDD에서 중복된 데이터 제고
#words.distinct.count()

In [12]:
#filter
def startsWithS(individual):
  return individual.startswith("S") #S로 시작하는 단어만 남도록 필터링

words.filter(lambda word: startsWithS(word)).collect()

['Spark', 'Simple']

In [15]:
#map
#주어진 입력을 원하는 값으로 반환하는 함수 명시하고 레코드별로 적용
words2 = words.map(lambda word: (word, word[0], word.startswith("S")))
words2.collect()

[('Spark', 'S', True),
 ('The', 'T', False),
 ('Definitive', 'D', False),
 ('Guide', 'G', False),
 (':', ':', False),
 ('Big', 'B', False),
 ('Data', 'D', False),
 ('Processing', 'P', False),
 ('Made', 'M', False),
 ('Simple', 'S', True)]

In [16]:
words2.filter(lambda record: record[2]).take(5)

[('Spark', 'S', True), ('Simple', 'S', True)]

In [17]:
#flatmap
#단어를 문자 집합으로 변환
words.flatMap(lambda word: list(word)).take(5)

['S', 'p', 'a', 'r', 'k']

In [18]:
#sortBy
words.sortBy(lambda word: len(word) * -1).take(2)

['Definitive', 'Processing']

In [19]:
#randomSplit
fiftyFiftySplit = words.randomSplit([0.5, 0.5])

In [20]:
#액션
#reduce
#모든 값을 하나의 값으로 만들기
spark.sparkContext.parallelize(range(1, 21)).reduce(lambda x, y: x + y) # 210

210

In [21]:
#가장 긴 단어를 찾는 예제
def wordLengthReducer(leftWord, rightWord):
  if len(leftWord) > len(rightWord):
    return leftWord
  else:
    return rightWord

words.reduce(wordLengthReducer)

'Processing'

In [23]:
#count
#전체 로우 수를 알 수 있다
words.count()

10

In [24]:
#countApprox
#count 함수의 근사치를 제한 시간 내에 계산
confidence = 0.95
timeoutMilliseconds = 400
words.countApprox(timeoutMilliseconds, confidence)

10

In [25]:
#countApproxDistinct
words.countApproxDistinct(0.05)

10

In [27]:
#words.countApproxDistinct(4,10)

In [28]:
#countByValue
#RDD 값의 개수 구하기
words.countByValue()

defaultdict(int,
            {'Spark': 1,
             'The': 1,
             'Definitive': 1,
             'Guide': 1,
             ':': 1,
             'Big': 1,
             'Data': 1,
             'Processing': 1,
             'Made': 1,
             'Simple': 1})

In [30]:
#countByValueApprox
#words.countByValueApprox(1000, 0.95)

In [31]:
#first -> 데이터셋의 첫 번째 값 반환
words.first()

'Spark'

In [33]:
#max와 min
#spark.sparkContext.parallelize(1 to 20).max()
#spark.sparkContext.parallelize(1 to 20).min()

In [35]:
#take
#RDD에서 가져올 값으 개수를 파라미터로 사용
words.take(5)
words.takeOrdered(5)
words.top(5)
withReplacement = True
numberToTake = 6
randomSeed = 100
words.takeSample(withReplacement, numberToTake, randomSeed)

['Data', 'Definitive', 'Data', 'The', 'Definitive', 'Spark']

In [36]:
#파일 저장하기
#saveAsTextFile
#words.saveasTextFile("file:/tmp/bookTitle")

In [37]:
#시퀀스 파일
#words.saveAsObjectFile("/tmp/my/sequenceFilePath")

In [38]:
#캐싱
words.cache()

myWords ParallelCollectionRDD[30] at parallelize at PythonRDD.scala:195

In [39]:
#저장소수준
words.getStorageLevel()

StorageLevel(False, True, False, False, 1)

In [40]:
#체크포인팅
#RDD를 디스크에 저장하는 방식
#spark.sparkContext.setCheckpointDir("/some/path/for/checkpointing")
#words.checkpoint()

In [42]:
#RDD를 시스템 명령으로 전송하기
#각 파티션을 wc 명령에 연결
words.pipe("wc -l").collect()

['5', '5']

In [43]:
#mapPartitions
words.mapPartitions(lambda part: [1]).sum()

2

In [44]:
def indexedFunc(partitionIndex, withinPartIterator):
  return ["partition: {} => {}".format(partitionIndex,
    x) for x in withinPartIterator]
words.mapPartitionsWithIndex(indexedFunc).collect()

['partition: 0 => Spark',
 'partition: 0 => The',
 'partition: 0 => Definitive',
 'partition: 0 => Guide',
 'partition: 0 => :',
 'partition: 1 => Big',
 'partition: 1 => Data',
 'partition: 1 => Processing',
 'partition: 1 => Made',
 'partition: 1 => Simple']

In [45]:
spark.sparkContext.parallelize(["Hello", "World"], 2).glom().collect()
# [['Hello'], ['World']]

[['Hello'], ['World']]