## 과제: Key-Value RDD를 이용한 황순원의 '소나기'의 단어별 빈도 세기
+ [+]에 해당되는 코드를 완성할 것

### 1. Spark 애플리케이션 시작

In [1]:
# [+] SparkConf, SparkContext 임포트
from pyspark import SparkConf, SparkContext

In [2]:
# [+] SparkConf, SparkContext 생성
conf = SparkConf().setMaster('local').setAppName('rainshower')
sc = SparkContext(conf=conf)

### 2. 황순원의 소나기 원문(.txt) 불러오기

In [15]:
# 파일 이름과 경로
path = './data/'
filename = 'rainshower.txt'

In [16]:
# [+] textFile()을 이용하여 원문(.txt)을 읽어 RDD 객체로 생성하기
lines =  sc.textFile(path + filename)


In [27]:
# [+] take()을 이용하여 RDD 객체의 값 100개(= 100 줄) 출력
rdd = sc.parallelize(range(1000))
output = rdd.take(100)

### 3. (단어, 1) 형태의 Key-Value RDD 생성하기

In [46]:
# [+] flatMap()를 이용하여 각 문장들을 단어 단위로 분리 및 저장
text_file_rdd = sc.textFile(path + filename)
words =text_file_rdd.flatMap(lambda line: line.split())


In [47]:
# [+] words 객체의 값 100개 출력
print(words.take(100))

['소년은', '개울가에서', '소녀를', '보자', '곧', '윤', '초시네', '증손녀(曾孫女)딸이라는', '걸', '알', '수', '있었다.', '소녀는', '개울에다', '손을', '잠그고', '물장난을', '하고', '있는', '것이다.', '서울서는', '이런', '개울물을', '보지', '못하기나', '한', '듯이.', '벌써', '며칠째', '소녀는,', '학교에서', '돌아오는', '길에', '물장난이었다.', '그런데,', '어제까지', '개울', '기슭에서', '하더니,', '오늘은', '징검다리', '한가운데', '앉아서', '하고', '있다.', '소년은', '개울둑에', '앉아', '버렸다.', '소녀가', '비키기를', '기다리자는', '것이다.', '요행', '지나가는', '사람이', '있어,', '소녀가', '길을', '비켜', '주었다.', '다음', '날은', '좀', '늦게', '개울가로', '나왔다.', '이', '날은', '소녀가', '징검다리', '한가운데', '앉아', '세수를', '하고', '있었다.', '분홍', '스웨터', '소매를', '걷어올린', '목덜미가', '마냥', '희었다.', '한참', '세수를', '하고', '나더니,', '이번에는', '물', '속을', '빤히', '들여다', '본다.', '얼굴이라도', '비추어', '보는', '것이리라.', '갑자기', '물을', '움켜']


In [48]:
# [+] map()을 이용하여 (단어, 1) 형태의 Key-Value RDD로 변환
word_pairs = words.map(lambda word: (word, 1)).reduceByKey(lambda x, y: x + y)

In [49]:
# [+] word_pairs 객체의 값 100개 출력
print(word_pairs.take(100))

[('소년은', 29), ('개울가에서', 1), ('소녀를', 3), ('보자', 1), ('곧', 2), ('윤', 4), ('초시네', 1), ('증손녀(曾孫女)딸이라는', 1), ('걸', 5), ('알', 2), ('수', 6), ('있었다.', 24), ('소녀는', 11), ('개울에다', 1), ('손을', 5), ('잠그고', 1), ('물장난을', 3), ('하고', 5), ('있는', 10), ('것이다.', 3), ('서울서는', 1), ('이런', 3), ('개울물을', 1), ('보지', 2), ('못하기나', 1), ('한', 20), ('듯이.', 2), ('벌써', 2), ('며칠째', 3), ('소녀는,', 1), ('학교에서', 3), ('돌아오는', 3), ('길에', 1), ('물장난이었다.', 1), ('그런데,', 3), ('어제까지', 1), ('개울', 1), ('기슭에서', 1), ('하더니,', 1), ('오늘은', 3), ('징검다리', 3), ('한가운데', 2), ('앉아서', 1), ('있다.', 6), ('개울둑에', 3), ('앉아', 7), ('버렸다.', 2), ('소녀가', 29), ('비키기를', 1), ('기다리자는', 1), ('요행', 1), ('지나가는', 2), ('사람이', 2), ('있어,', 1), ('길을', 3), ('비켜', 1), ('주었다.', 2), ('다음', 3), ('날은', 3), ('좀', 5), ('늦게', 2), ('개울가로', 5), ('나왔다.', 5), ('이', 8), ('세수를', 3), ('분홍', 3), ('스웨터', 3), ('소매를', 1), ('걷어올린', 2), ('목덜미가', 2), ('마냥', 1), ('희었다.', 1), ('한참', 1), ('나더니,', 1), ('이번에는', 3), ('물', 7), ('속을', 5), ('빤히', 1), ('들여다', 1), ('본다.', 2), ('얼굴이라도', 1), ('비추어', 1), (

### 4. 단어별 빈도 세기 및 결과 출력

In [50]:
# [+] reduceByKey()를 이용하여 단어별 빈도 세기
word_counts = words.map(lambda word: (word, 1)).reduceByKey(lambda x, y: x + y)

In [51]:
# sortBy()를 이용하여 빈도(x[1])를 기준으로 내림차순 정렬
sorted_word_counts = word_counts.sortBy(lambda x: x[1], ascending=False)

In [52]:
# [+] collect()를 이용하여 정렬된 단어별 빈도를 list 객체로 출력
res = word_counts.sortBy(lambda x: x[1], ascending=False).collect()


In [53]:
# 상위 100개의 단어 및 빈도 출력
res[:100]

[('소년은', 29),
 ('소녀가', 29),
 ('있었다.', 24),
 ('한', 20),
 ('소녀의', 15),
 ('소년이', 12),
 ('소녀는', 11),
 ('그', 11),
 ('있는', 10),
 ('했다.', 9),
 ('이', 8),
 ('그러나,', 8),
 ('않았다.', 8),
 ('앉아', 7),
 ('물', 7),
 ('안고', 7),
 ('소년의', 7),
 ('수', 6),
 ('있다.', 6),
 ('뵈지', 6),
 ('전에', 6),
 ('하는', 6),
 ('더', 6),
 ('가', 6),
 ('날', 6),
 ('걸', 5),
 ('손을', 5),
 ('하고', 5),
 ('좀', 5),
 ('개울가로', 5),
 ('나왔다.', 5),
 ('속을', 5),
 ('가을', 5),
 ('저', 5),
 ('것이었다.', 5),
 ('번', 5),
 ('이게', 5),
 ('윤', 4),
 ('그냥', 4),
 ('저도', 4),
 ('모르게', 4),
 ('같았다.', 4),
 ('보았다.', 4),
 ('몇', 4),
 ('시작했다.', 4),
 ('소리가', 4),
 ('못', 4),
 ('무슨', 4),
 ('같은', 4),
 ('우리', 4),
 ('많이', 4),
 ('게', 4),
 ('소녀를', 3),
 ('물장난을', 3),
 ('것이다.', 3),
 ('이런', 3),
 ('며칠째', 3),
 ('학교에서', 3),
 ('돌아오는', 3),
 ('그런데,', 3),
 ('오늘은', 3),
 ('징검다리', 3),
 ('개울둑에', 3),
 ('길을', 3),
 ('다음', 3),
 ('날은', 3),
 ('세수를', 3),
 ('분홍', 3),
 ('스웨터', 3),
 ('이번에는', 3),
 ('낸다.', 3),
 ('그대로', 3),
 ('자꾸', 3),
 ('그러다가', 3),
 ('하나', 3),
 ('그리고는', 3),
 ('일어나', 3),
 ('징검다리를', 3),
 ('뛰어', 3)