# 중간고사 대체 과제

영화평점 데이터셋(movielens)을 분석하여 평점이 가장 높은 영화를 찾는 예제입니다.
+ 참고자료: https://juheck.gitbooks.io/hadoop-and-big-data/content/apache-spark/exercise-spark-rdd.html

제공된 데이터셋은 다음의 두 개의 파일로 구성됩니다.
+ u.item.txt: 영화에 대한 메타 정보를 저장하고 있는 텍스트 파일
+ u.data.txt: 사용자의 영화 평점 데이터를 저장하고 있는 텍스트 파일

과제 수행 내용:
1. [+] 코드 부분을 작성하기
2. 작성한 코드에 대한 설명을 상세하게 작성하기
    + 파이썬 주석: #내용 또는 """ 내용 """
    + Markdown 방식

In [1]:
# [+] PySpark 설정하기


### 영화 메타 정보 RDD 생성하기

영화 메타 정보(u.item.txt)는 다음의 변수들을 포함한다.
+ [0]: 영화ID
+ [1]: 영화 제목
+ [2]: 개봉일
+ [3]: ?
+ [4]: 영화 IMDb(Internet Movie Database) URL 
+ [5]~[24]: 영화 장르 embedding vector
    + [5]: unknown
    + [6]: Action
    + [7]: Adventure
    + [8]: Animation
    + [9]: Children's
    + [10]: Comedy
    + [11]: Crime
    + [12]: Documentary
    + [13]: Drama
    + [14]: Fantasy
    + [15]: Film-Noir
    + [16]: Horror
    + [17]: Musical
    + [18]: Mystery
    + [19]: Romance
    + [20]: Sci-Fi
    + [21]: Thriller
    + [22]: War
    + [23]: Western

예시:

'1|Toy Story (1995)|01-Jan-1995||http://us.imdb.com/M/title-exact?Toy%20Story%20(1995) |0|0|0|1|1|1|0|0|0|0|0|0|0|0|0|0|0|0|0'


In [1]:
# [+] u.item.txt 로부터 RDD 생성하기
rawItem = "u.item.txt"
sc.textFile('./data/' + rawitem)

NameError: name 'sc' is not defined

In [39]:
rawItem.take(10) # RDD 내용 10개 출력

['1|Toy Story (1995)|01-Jan-1995||http://us.imdb.com/M/title-exact?Toy%20Story%20(1995)|0|0|0|1|1|1|0|0|0|0|0|0|0|0|0|0|0|0|0',
 '2|GoldenEye (1995)|01-Jan-1995||http://us.imdb.com/M/title-exact?GoldenEye%20(1995)|0|1|1|0|0|0|0|0|0|0|0|0|0|0|0|0|1|0|0',
 '3|Four Rooms (1995)|01-Jan-1995||http://us.imdb.com/M/title-exact?Four%20Rooms%20(1995)|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|1|0|0',
 '4|Get Shorty (1995)|01-Jan-1995||http://us.imdb.com/M/title-exact?Get%20Shorty%20(1995)|0|1|0|0|0|1|0|0|1|0|0|0|0|0|0|0|0|0|0',
 '5|Copycat (1995)|01-Jan-1995||http://us.imdb.com/M/title-exact?Copycat%20(1995)|0|0|0|0|0|0|1|0|1|0|0|0|0|0|0|0|1|0|0',
 '6|Shanghai Triad (Yao a yao yao dao waipo qiao) (1995)|01-Jan-1995||http://us.imdb.com/Title?Yao+a+yao+yao+dao+waipo+qiao+(1995)|0|0|0|0|0|0|0|0|1|0|0|0|0|0|0|0|0|0|0',
 '7|Twelve Monkeys (1995)|01-Jan-1995||http://us.imdb.com/M/title-exact?Twelve%20Monkeys%20(1995)|0|0|0|0|0|0|0|0|1|0|0|0|0|0|0|1|0|0|0',
 '8|Babe (1995)|01-Jan-1995||http://us.imdb.com/M/title

### 영화 평점 데이터 RDD 생성하기

영화 평점 데이터(u.data.txt)는 다음의 변수들을 포함한다.
+ [0]: 사용자 ID
+ [1]: 영화 ID
+ [2]: 평점(1~5)
+ [3]: 타임스탬프

예시:
'196\t242\t3\t881250949'

In [4]:
# [+] u.data.txt로부터 RDD 생성하기
rawData = 

In [40]:
rawData.take(10)

['196\t242\t3\t881250949',
 '186\t302\t3\t891717742',
 '22\t377\t1\t878887116',
 '244\t51\t2\t880606923',
 '166\t346\t1\t886397596',
 '298\t474\t4\t884182806',
 '115\t265\t2\t881171488',
 '253\t465\t5\t891628467',
 '305\t451\t3\t886324817',
 '6\t86\t3\t883603013']

### 필요한 RDD 정보 추출하기
1. rawItem 으로부터 (영화 ID, 영화 타이틀)로 이루어진 Key-Value RDD로 변환
    + 힌트1: rawItem의 데이터들은 '|' 으로 구분되어 있음
    + 힌트2: 파이썬 인덱싱 방법 이해 필요
    + 예: [0:1] -> 0번 인덱스에 해당되는 값만 반환
    + 예: [0:2] -> 0번, 1번 인덱스에 해당되는 값들을 반환
    + 예: [1:5] -> 1~4번 인덱스에 해당되는 값들을 반환


2. rawData 로부터 (영화 ID, (평점, 1))로 이루어진 Key-Value RDD로 변환
    + (평점, 1) Pair 형태는 영화 별 평균 평점을 구하기 위해 필요함
    + 힌트1: rawData의 데이터들은 '\t' 으로 구분되어 있음
    + 힌트2: 평점이 문자열 형태이므로 정수 형태로 변환해야함

In [57]:
# [+] rawItem 으로부터 (영화 ID, 영화 타이틀) RDD로 변환하기
movieList = 
movieList.take(10)

[['1', 'Toy Story (1995)'],
 ['2', 'GoldenEye (1995)'],
 ['3', 'Four Rooms (1995)'],
 ['4', 'Get Shorty (1995)'],
 ['5', 'Copycat (1995)'],
 ['6', 'Shanghai Triad (Yao a yao yao dao waipo qiao) (1995)'],
 ['7', 'Twelve Monkeys (1995)'],
 ['8', 'Babe (1995)'],
 ['9', 'Dead Man Walking (1995)'],
 ['10', 'Richard III (1995)']]

In [41]:
# [+] rawData 로부터 (영화 ID, 평점) RDD로 변환하기
movieRatings = 
movieRatings.take(10)

[['242', '3'],
 ['302', '3'],
 ['377', '1'],
 ['51', '2'],
 ['346', '1'],
 ['474', '4'],
 ['265', '2'],
 ['465', '5'],
 ['451', '3'],
 ['86', '3']]

In [42]:
# [+] 평균 평점을 구하기 위해 (영화 ID, (평점, 1))의 형태로 변환
# 힌트: int()를 사용하면 문자열 값을 정수 값으로 변환
movieRatings = 
movieRatings.take(10)

[('242', (3, 1)),
 ('302', (3, 1)),
 ('377', (1, 1)),
 ('51', (2, 1)),
 ('346', (1, 1)),
 ('474', (4, 1)),
 ('265', (2, 1)),
 ('465', (5, 1)),
 ('451', (3, 1)),
 ('86', (3, 1))]

### 영화별 평균 평점 구하기
1. movieRatings 로부터 평점 총합과 갯수 총합을 각각 구하기
    + 변수: rating_total_and_count
    
    
2. 영화별 평균 평점 구하기
    + 변수: average_ratings
    
    
3. 영화 ID를 기준으로 평균 평점 정렬하기
    + 변수: sorted_movies
    + pyspark.RDD.sortBy() API https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.sortBy.html)

    
4. (영화 ID, (영화 제목, 평균 평점)) 의 형태로 변환하기
    + 변수: joinRDD
    + 힌트: join() 사용
    
    
5. 평균 평점 기준 내림차순으로 정렬한 결과 출력
    + 변수: result
    + sortBy()의 매개변수 ascending: True(오름차순), False(내림차순)

In [44]:
# [+] 영화별 평점/갯수 총합 구하기
rating_total_and_count = 
rating_total_and_count.take(10)

[('242', (467, 117)),
 ('302', (1236, 297)),
 ('377', (28, 13)),
 ('51', (280, 81)),
 ('346', (459, 126)),
 ('474', (825, 194)),
 ('265', (877, 227)),
 ('465', (303, 85)),
 ('451', (569, 170)),
 ('86', (591, 150))]

In [45]:
# [+] 영화별 평균 평점 구하기
average_ratings = 
average_ratings.take(10)

[('242', 3.9914529914529915),
 ('302', 4.161616161616162),
 ('377', 2.1538461538461537),
 ('51', 3.45679012345679),
 ('346', 3.642857142857143),
 ('474', 4.252577319587629),
 ('265', 3.8634361233480177),
 ('465', 3.5647058823529414),
 ('451', 3.347058823529412),
 ('86', 3.94)]

In [46]:
# 영화 ID를 기준으로 평균 평점 정렬하기
sorted_movies = average_ratings.sortBy(lambda x: x[0])
sorted_movies.take(10)

[('1', 3.8783185840707963),
 ('2', 3.2061068702290076),
 ('3', 3.033333333333333),
 ('4', 3.550239234449761),
 ('5', 3.302325581395349),
 ('6', 3.576923076923077),
 ('7', 3.798469387755102),
 ('8', 3.9954337899543377),
 ('9', 3.8963210702341136),
 ('10', 3.831460674157303)]

In [49]:
# [+] (영화 ID, (영화 제목, 평균 평점)) 의 형태로 변환하기
joinRDD = 
joinRDD.take(10)

[('1', ('Toy Story (1995)', 3.8783185840707963)),
 ('4', ('Get Shorty (1995)', 3.550239234449761)),
 ('8', ('Babe (1995)', 3.9954337899543377)),
 ('9', ('Dead Man Walking (1995)', 3.8963210702341136)),
 ('10', ('Richard III (1995)', 3.831460674157303)),
 ('12', ('Usual Suspects, The (1995)', 4.385767790262173)),
 ('14', ('Postino, Il (1994)', 3.9672131147540983)),
 ('16', ('French Twist (Gazon maudit) (1995)', 3.2051282051282053)),
 ('17', ('From Dusk Till Dawn (1996)', 3.119565217391304)),
 ('19', ("Antonia's Line (1995)", 3.9565217391304346))]

In [55]:
# [+] 평균 평점 기준 내림차순으로 정렬한 결과 출력 
# x[0]: 영화 ID
# x[1][1]
result = 
result.collect()

[('814', ('Great Day in Harlem, A (1994)', 5.0)),
 ('1201', ('Marlene Dietrich: Shadow and Light (1996) ', 5.0)),
 ('1293', ('Star Kid (1997)', 5.0)),
 ('1467', ('Saint of Fort Washington, The (1993)', 5.0)),
 ('1599', ("Someone Else's America (1995)", 5.0)),
 ('1122', ('They Made Me a Criminal (1939)', 5.0)),
 ('1189', ('Prefontaine (1997)', 5.0)),
 ('1500', ('Santa with Muscles (1996)', 5.0)),
 ('1536', ('Aiqing wansui (1994)', 5.0)),
 ('1653', ('Entertaining Angels: The Dorothy Day Story (1996)', 5.0)),
 ('1449', ('Pather Panchali (1955)', 4.625)),
 ('119', ('Maya Lin: A Strong Clear Vision (1994)', 4.5)),
 ('1398', ('Anna (1996)', 4.5)),
 ('1594', ('Everest (1998)', 4.5)),
 ('1642', ("Some Mother's Son (1996)", 4.5)),
 ('408', ('Close Shave, A (1995)', 4.491071428571429)),
 ('318', ("Schindler's List (1993)", 4.466442953020135)),
 ('169', ('Wrong Trousers, The (1993)', 4.466101694915254)),
 ('483', ('Casablanca (1942)', 4.45679012345679)),
 ('114',
  ('Wallace & Gromit: The Best of


### Bonus exercise: 각각 가점 0.5점
1. 평점 갯수가 10개 이상인 영화들에 대한 평균 평점을 구해보세요.
    + 힌트: filter(): 인자 함수를 적용하여 조건을 만족하는 특정 RDD 값만 선택


2. 최종 결과의 영화 제목에서 연도 정보가 제거된 형태로 평균 평점을 구해보세요.
    + 힌트: split(): 특정 구분자를 기준으로 값을 여러 개의 세부 값으로 분할
    + 이전 결과: '814', ('Great Day in Harlem, A (1994)', 5.0)
    + 기대 결과: '814', ('Great Day in Harlem, A ', 5.0)