### 입력 데이터:

* 다운로드: https://github.com/nongaussian/class-2020-spark/blob/master/Week%208/input.zip
* 설명 - 영화DB사이트 (MovieLens)에서 수집된 데이터로서 u.data에는 사용자가 영화에 매긴 평점이 담겨있고 u.item에는 영화마다 제목, 카테고리 등의 정보가 담겨 있다.


#### 입력파일 1 - u.data

* 라인마다 사용자의 영화평점이 기록되어 있으며 4개의 속성 "user id \t item id \t rating \t timestamp"가 탭으로 구분되어 작성되어 있다. (즉, split("\t") 로 자를 수 있음)
* 모두 integer값이다.
* 한 사람이 여러개의 영화에 평점을 매길 수 있으므로 같은 user id로 시작하는 라인이 복수번 나타날수 있다.
* item id는 아래 u.item파일에 있는 영화 아이디 (movie id)를 가리킨다 (즉, foreign key)
* rating은 1에서 5까지 범위이다.


***힌트*** Data frame으로 읽는 방법:

 ````python
 from pyspark.sql.types import *

 udataschema = StructType([
   StructField("uid", LongType(), False),
   StructField("mid", LongType(), False),
   StructField("rate",LongType(), False),
   StructField("timestamp", LongType(), False)
 ])

 udata = spark.read.format("csv").option("sep", "\t").schema(udataschema).load("u.data")
 ````


#### 입력파일 2 - u.item

* 라인마다 영화 정보가 기록되어 있으며 "movie id | movie title | release date | video release date | IMDb URL | unknown | Action | Adventure | Animation | Children's | Comedy | Crime | Documentary | Drama | Fantasy | Film-Noir | Horror | Musical | Mystery | Romance | Sci-Fi | Thriller | War | Western" 의 속성 들이 파이프라인(|)으로 구분되어 작성되어 있다.
* 그러나 아래 문제를 보면 맨 앞의 두개 속성, movie id와 movie title 만 사용한다.
* movie id는 이 파일 안에서 한번만 나타난다 (즉, primary key)


***힌트*** Data frame으로 읽는 방법:

````python
uitemschema = StructType([
  StructField("mid", LongType(), False),
  StructField("title",StringType(), False)
])

uitem = spark.read.format("csv").option("sep", "|").schema(uitemschema).load("u.item")
````


### 문제 1.
* 5점을 받은 영화 중에서 알파벳 'T'로 시작하는 영화의 개수는?
* 'T'는 대문자
* 주의: 5점을 받은 영화중 알파벳 'T'로 시작하는 영화를 중복해서 세지 않도록!
* 제한조건: 위 코드를 이용해 u.data와 u.item을 DataFrame으로 읽어들여 select및 join을 이용하여 계산하시오.
* 제한조건: 마지막 action으로 답이 출력되도록 코드를 작성하시오. 즉, 최종 답을 계산하기 위해 pyspark action이 아닌 python 코드를 사용하지 마시오.
* 힌트: filter를 수행 시 filter조건을 표현할 때 어떤 column의 부분문자열을 뽑기 위해 pyspark.sql.functions.substring를 사용할 수 있음. 예를 들어 uitem이란 data frame의 title이란 column의 첫 글자는 substring(uitem["title"], 0, 1)으로 지정할 수 있음.

### 문제 2.
* 사용자들에게 1점도 받고 5점도 받은 적이 있는 영화의 제목의 길이 중 가장 긴 영화제목의 길이는?
* 동일 영화가 어떤 사용자에게는 1점, 어떤 사용자에게는 5점을 받은 경우를 말함
* 힌트: 어떤 column의 길이의 max 를 select할 때 max 함수와 length함수를 사용. 예를 들어 uitem["title"]의 길이의 max는 select(max(length(uitem["title"]))) 로 계산 할 수 있음
* 제한조건: 마지막 action으로 답이 출력되도록 코드를 작성하시오. 즉, 최종 답을 계산하기 위해 pyspark action이 아닌 python 코드를 사용하지 마시오.

In [1]:
import findspark
findspark.init()

# create spark session
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("my app").master("local").getOrCreate()

# get context from the session
sc = spark.sparkContext

In [4]:
from pyspark.sql.types import *

udataschema = StructType([
    StructField("uid", LongType(), False),
    StructField("mid", LongType(), False),
    StructField("rate",LongType(), False),
    StructField("timestamp", LongType(), False)
])
udata = spark.read.format("csv").option("sep", "\t").schema(udataschema).load("u.data")

In [5]:
uitemschema = StructType([
    StructField("mid", LongType(), False),
    StructField("title",StringType(), False)
])
uitem = spark.read.format("csv").option("sep", "|").schema(uitemschema).load("u.item")

In [8]:
udata.show(10)

+---+---+----+---------+
|uid|mid|rate|timestamp|
+---+---+----+---------+
|196|242|   3|881250949|
|186|302|   3|891717742|
| 22|377|   1|878887116|
|244| 51|   2|880606923|
|166|346|   1|886397596|
|298|474|   4|884182806|
|115|265|   2|881171488|
|253|465|   5|891628467|
|305|451|   3|886324817|
|  6| 86|   3|883603013|
+---+---+----+---------+
only showing top 10 rows



In [9]:
uitem.show(10)

+---+--------------------+
|mid|               title|
+---+--------------------+
|  1|    Toy Story (1995)|
|  2|    GoldenEye (1995)|
|  3|   Four Rooms (1995)|
|  4|   Get Shorty (1995)|
|  5|      Copycat (1995)|
|  6|Shanghai Triad (Y...|
|  7|Twelve Monkeys (1...|
|  8|         Babe (1995)|
|  9|Dead Man Walking ...|
| 10|  Richard III (1995)|
+---+--------------------+
only showing top 10 rows



### 5점을 받은 영화 중에서 알파벳 'T'로 시작하는 영화의 개수

In [30]:
from pyspark.sql.functions import *

udata\
.join(uitem, udata["mid"] == uitem["mid"], "inner")\
.filter(udata["rate"] == 5)\
.filter(substring(uitem["title"], 0, 1) == "T")\
.select(uitem["mid"])\
.distinct()\
.count()

75

### 1점도 받고 5점도 받은 영화의 제목의 길이중 가장 긴 영화제목의 길이는?

In [27]:
udata1 = udata.filter(udata["rate"] == 1).select("mid").distinct()
udata2 = udata.filter(udata["rate"] == 5).select("mid").distinct()
udata1\
    .join(udata2, "mid")\
    .join(uitem, udata1["mid"] == uitem["mid"])\
    .select(max(length(uitem["title"])))\
    .show()

+------------------+
|max(length(title))|
+------------------+
|                81|
+------------------+

