# 영화 평점 분석 실습

In [2]:
# 라이브러리 불러오기
import pandas as pd

## 1. 영화 평점 데이터 적재 및 결합

In [3]:
# 사용자 정보 적재
users = pd.read_csv('data/movie_users.csv')
users.drop('Unnamed: 0', axis=1, inplace=True)
users.head()

Unnamed: 0,사용자아이디,성별,연령,직업,지역
0,1,F,1,10,48067
1,2,M,56,16,70072
2,3,M,25,15,55117
3,4,M,45,7,2460
4,5,M,25,20,55455


In [6]:
# 영화 평점 정보 적재
ratings = pd.read_csv('data/movie_ratings.csv')
ratings.drop('Unnamed: 0', axis=1, inplace=True)
ratings.head()

Unnamed: 0,사용자아이디,영화아이디,평점,타임스탬프
0,1,1193,5,978300760
1,1,661,3,978302109
2,1,914,3,978301968
3,1,3408,4,978300275
4,1,2355,5,978824291


In [13]:
# movie_details.csv 파일을 movies 변수에 입력
# 쓸데없는 컬럼 삭제 후 .head()로 조회
movies = pd.read_csv('data/movie_details.csv')
movies.drop('Unnamed: 0', axis=1, inplace=True)
movies.head()

Unnamed: 0,영화아이디,제목,장르
0,1,Toy Story (1995),Animation|Children's|Comedy
1,2,Jumanji (1995),Adventure|Children's|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama
4,5,Father of the Bride Part II (1995),Comedy


In [16]:
# 사용자수, 영화수, 평점수 개수 확인
print('''사용자수 : {}
영화수 : {}
평점수 : {}'''.format(len(users),len(movies),len(ratings)))

사용자수 : 6040
영화수 : 3883
평점수 : 1000209


### 1. 데이터 결합
#### 1-1) 사용자 데이터와 영화 평점 데이터를 사용자아이디 컬럼 기준으로 공통으로 존재하는 데이터만 결합

In [17]:
# 유저 정보의 컬럼 이름 확인
users.columns

Index(['사용자아이디', '성별', '연령', '직업', '지역'], dtype='object')

In [20]:
# 레이팅(평점입력)정보의 컬럼 이름 확인
ratings.columns

Index(['사용자아이디', '영화아이디', '평점', '타임스탬프'], dtype='object')

In [21]:
# users, ratings의 배열 구조 확인
print(users.shape)
print(ratings.shape)

(6040, 5)
(1000209, 4)


In [26]:
# data1 변수에 users, rating 순으로 pd.merge() 메서드를 실행
data1 = pd.merge(users, ratings)
# 실행 후 data1.shape로 배열 구조 확인
data1.shape

(1000209, 8)

#### 1-2) 1번 결과에 영화 아이디 컬럼 기준으로 영화 정보 추가하기

In [30]:
data1.head()

Unnamed: 0,사용자아이디,성별,연령,직업,지역,영화아이디,평점,타임스탬프
0,1,F,1,10,48067,1193,5,978300760
1,1,F,1,10,48067,661,3,978302109
2,1,F,1,10,48067,914,3,978301968
3,1,F,1,10,48067,3408,4,978300275
4,1,F,1,10,48067,2355,5,978824291


In [31]:
# 영화 데이터인 movies
movies.head()

Unnamed: 0,영화아이디,제목,장르
0,1,Toy Story (1995),Animation|Children's|Comedy
1,2,Jumanji (1995),Adventure|Children's|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama
4,5,Father of the Bride Part II (1995),Comedy


In [33]:
data2 = pd.merge(data1, movies)

In [35]:
data2.head()

Unnamed: 0,사용자아이디,성별,연령,직업,지역,영화아이디,평점,타임스탬프,제목,장르
0,1,F,1,10,48067,1193,5,978300760,One Flew Over the Cuckoo's Nest (1975),Drama
1,2,M,56,16,70072,1193,5,978298413,One Flew Over the Cuckoo's Nest (1975),Drama
2,12,M,25,12,32793,1193,4,978220179,One Flew Over the Cuckoo's Nest (1975),Drama
3,15,M,25,7,22903,1193,4,978199279,One Flew Over the Cuckoo's Nest (1975),Drama
4,17,M,50,1,95350,1193,5,978158471,One Flew Over the Cuckoo's Nest (1975),Drama


In [38]:
data2.shape

(1000209, 10)

### 2. 인기 있는 영화 찾기

- 기준 : 평점이 4.5 이상이고 평점 개수가 2000개 이상인 영화

In [51]:
# 평점이 높은 순서대로 10개 정렬
data2.sort_values(by='평점', ascending=False).head()

Unnamed: 0,사용자아이디,성별,연령,직업,지역,영화아이디,평점,타임스탬프,제목,장르
0,1,F,1,10,48067,1193,5,978300760,One Flew Over the Cuckoo's Nest (1975),Drama
233796,5374,M,35,7,38018,2770,5,962391108,Bowfinger (1999),Comedy
233813,5483,F,25,6,15202,2770,5,959888512,Bowfinger (1999),Comedy
669852,1812,F,25,12,48103,3635,5,974706848,"Spy Who Loved Me, The (1977)",Action
669856,1871,F,45,1,46774,3635,5,974694190,"Spy Who Loved Me, The (1977)",Action


In [61]:
# 하나의 영화에 여러개의 평점이 존재하는 1:N 관계이므로
# 사용자 아이디는 사실상 영화 평점을 집계하는데 불필요한 자료임
# 따라서 내가 원하는 로우(index) : 영화 제목
# 원하는 컬럼(value) : 영화 평점
# 집계함수(aggfunc) : 평균
# 으로 pivot_table을 data2에 걸어 집계해보기.

data2.pivot_table(index=['제목'], values='평점', aggfunc='mean')

Unnamed: 0_level_0,평점
제목,Unnamed: 1_level_1
"$1,000,000 Duck (1971)",3.027027
'Night Mother (1986),3.371429
'Til There Was You (1997),2.692308
"'burbs, The (1989)",2.910891
...And Justice for All (1979),3.713568
...,...
"Zed & Two Noughts, A (1985)",3.413793
Zero Effect (1998),3.750831
Zero Kelvin (Kj�rlighetens kj�tere) (1995),3.500000
Zeus and Roxanne (1997),2.521739


In [63]:
# 데이터를 평점이 높은 순으로 정렬하기
data2.pivot_table(index=['제목'], values='평점', aggfunc='mean').sort_values(by='평점', ascending=False)

Unnamed: 0_level_0,평점
제목,Unnamed: 1_level_1
Ulysses (Ulisse) (1954),5.0
Lured (1947),5.0
Follow the Bitch (1998),5.0
Bittersweet Motel (2000),5.0
Song of Freedom (1936),5.0
...,...
"Fantastic Night, The (La Nuit Fantastique) (1949)",1.0
Cheetah (1989),1.0
Torso (Corpi Presentano Tracce di Violenza Carnale) (1973),1.0
Mutters Courage (1995),1.0


In [71]:
# 평점을 기준으로 정렬하되, 평점만 출력하는게 아니라, 입력된 평가개수도 같이 출력
# Data2에 대해 pivot_table을 걸 때
# 로우 : 제목
# 값(컬럼) : 평점
# 집계함수 : [mean, count]
result = data2.pivot_table(index='제목', values='평점', aggfunc=['mean','count'])

In [73]:
# result에 대해 컬럼의 계층색인 재배열(평점을 카테고리, mean과 count를 하위컬럼)
result2 = result.swaplevel(1, 0, axis=1)

In [74]:
result2

Unnamed: 0_level_0,평점,평점
Unnamed: 0_level_1,mean,count
제목,Unnamed: 1_level_2,Unnamed: 2_level_2
"$1,000,000 Duck (1971)",3.027027,37
'Night Mother (1986),3.371429,70
'Til There Was You (1997),2.692308,52
"'burbs, The (1989)",2.910891,303
...And Justice for All (1979),3.713568,199
...,...,...
"Zed & Two Noughts, A (1985)",3.413793,29
Zero Effect (1998),3.750831,301
Zero Kelvin (Kj�rlighetens kj�tere) (1995),3.500000,2
Zeus and Roxanne (1997),2.521739,23


In [76]:
# 평점 mean이 동일한 경우 평점 count 순서로 정렬시키기
result2.sort_values(by=[('평점', 'mean'),('평점', 'count')], ascending=[False, False])

Unnamed: 0_level_0,평점,평점
Unnamed: 0_level_1,mean,count
제목,Unnamed: 1_level_2,Unnamed: 2_level_2
"Gate of Heavenly Peace, The (1995)",5.0,3
Smashing Time (1967),5.0,2
"Baby, The (1973)",5.0,1
Bittersweet Motel (2000),5.0,1
Follow the Bitch (1998),5.0,1
...,...,...
Underworld (1997),1.0,1
"Uninvited Guest, An (2000)",1.0,1
Waltzes from Vienna (1933),1.0,1
White Boys (1999),1.0,1


In [77]:
# 조건색인을 이용해서 result2에서
# 조건평균이 4.5이상이면서, 평점 개수가 2000개 이상인 영화만 남겨보기
# ex) 이중 컬럼은 result2['평점']['mean'] 과 같이 이중 리스트로 조회한다.

In [94]:
final_result = result2[(result2['평점']['mean']>=4.3) & (result2['평점']['count']>=500)]

In [95]:
final_result

Unnamed: 0_level_0,평점,평점
Unnamed: 0_level_1,mean,count
제목,Unnamed: 1_level_2,Unnamed: 2_level_2
American Beauty (1999),4.317386,3428
"Big Sleep, The (1946)",4.312384,541
"Boat, The (Das Boot) (1981)",4.302697,1001
"Bridge on the River Kwai, The (1957)",4.386994,938
Casablanca (1942),4.412822,1669
Chinatown (1974),4.339241,1185
Citizen Kane (1941),4.388889,1116
"Close Shave, A (1995)",4.520548,657
Double Indemnity (1944),4.415608,551
Dr. Strangelove or: How I Learned to Stop Worrying and Love the Bomb (1963),4.44989,1367


In [97]:
# final_result를 평점순으로, 평점이 동점이면 count순으로 나열
final_result.sort_values(by=[('평점','mean'),('평점','count')], ascending=[False, False])

Unnamed: 0_level_0,평점,평점
Unnamed: 0_level_1,mean,count
제목,Unnamed: 1_level_2,Unnamed: 2_level_2
Seven Samurai (The Magnificent Seven) (Shichinin no samurai) (1954),4.56051,628
"Shawshank Redemption, The (1994)",4.554558,2227
"Godfather, The (1972)",4.524966,2223
"Close Shave, A (1995)",4.520548,657
"Usual Suspects, The (1995)",4.517106,1783
Schindler's List (1993),4.510417,2304
"Wrong Trousers, The (1993)",4.507937,882
Raiders of the Lost Ark (1981),4.477725,2514
Rear Window (1954),4.47619,1050
Star Wars: Episode IV - A New Hope (1977),4.453694,2991
