# Numpy로 MovieLens 데이터셋 분석

small 데이터셋 다운로드: https://grouplens.org/datasets/movielens/

목표
    1. 전체 영화에 대한 평균 평점은 얼마인가
    2. 각 사용자별 평균 평점
    3. 각 영화별 평균 평점
    4. 가장 평균 평점이 높은 영화의 제목

In [17]:
%%time

import numpy as np
import pandas as pd

ratings = np.loadtxt("ratings.csv",
                    delimiter=",",
                    skiprows=1)

# numpy로 movie.csv를 읽을려 했는데 제목에 comma가 있어서 복잡해짐. 그래서 판다스 사용.
movie_list = pd.read_csv("movies.csv")
movie_list = movie_list.values

# userId, movieId, rating, timestamp


# 1. 모든 영화에 대한 평균
print("    1. 모든 영화에 대한 평균 평점: {}".format(ratings[:,2].mean())) # 3.50~ 정도 나온다

print("="*30)

# 2. 각 사용자별 모든 영화 평점 평균
# ratings 각 행에 0번 (userId) unique값들 호출
users = np.unique(ratings[:,0])
print("사용자 수: {}".format(users.size))
# 총 610명의 사용자가 있다.

_user_ratings = []

# loop으로 각 사용자에 대한 값들 표출
for user in users:
    # ratings 각 행에 0번이 사용자와 동일한 boolean mask
    tmp = ratings[:,0]==user
    # boolean 마스크를 사용하여 인덱싱 한 값(리스트),
    # 즉, 사용자만의 rating 리스트가 나온다. (사용자1 > rating(사용자1)의 값들)
    rate = ratings[tmp]
    # 표출 > 사용자 : 사용자의 3번째 값(rating)
    _user_ratings.append([user, rate[:,2].mean()])

user_ratings = np.array(_user_ratings)
# user_ratings에 제대로 들어갔는지 확인
print("    2. 사용자 1의 평균 평점: {}".format(user_ratings[0,1]))
print("    2. 사용자 2의 평균 평점: {}".format(user_ratings[1,1]))
print("user_ratings[n,1]을 사용해서 각 사용자의 평균 평점을 갖고 올 수 있다.")

print("="*30)

# 3. 각 영화별 평균 평점
movies = np.unique(ratings[:,1])
print("리뷰가 된 영화의 수: {}".format(movies.size))
# 총 9724의 영화가 있다.

_movie_ratings = []

for movie in movies:
    tmp = ratings[:,1]==movie
    rate = ratings[tmp]
    _movie_ratings.append([movie, rate[:,2].mean()])

movie_ratings = np.array(_movie_ratings)

# movieId, Title, genre
for title in movie_list:
    if title[0]==movie_ratings[0,0]:
        print("    3. 영화 {}의 평균 평점: {}".format(title[1],movie_ratings[0,1]))
        # movie_ratings[n,0]
        
for title in movie_list:
    if title[0]==movie_ratings[1,0]:
        print("    3. 영화 {}의 평균 평점: {}".format(title[1],movie_ratings[1,1]))

print("movie_ratings[n,1]을 사용해서 각 영화의 평균 평점을 갖고 올 수 있다.")
# 여기서 약간 헷갈릴수 있는데, movieId는 순차적으로 되있지 않다.
# 9018번 영화부터 25746으로 뜀.

print("="*30)

# 4. 가장 평점이 높은 영화의 제목

r_num = 0

'''
일단은 약간 ㅄ같은 닶
1번쨰 for문은 가장 큰 평균 평점 찾기
2번째 for문은 1번쨰 for문에서 나온
가장 큰 평균 평점을 갖고 있는 movie(movieId) 출력
'''
for movie in movies:
    tmp = ratings[:,1]==movie
    rate = ratings[tmp]
    # movie, rate[:,2].mean()
    if rate[:,2].mean() > r_num:
        r_num = rate[:,2].mean()

print("평균 평점 1등 점수: {}".format(r_num))

#print(movie_list[:,0])
                
high_list = []

for movie in movies:
    tmp = ratings[:,1]==movie
    rate = ratings[tmp]
    # 평균 평점이 가장 높은수와 같은 경우
    if rate[:,2].mean() ==r_num:
        # 9742는 movie.csv의 라인수 따라서;;
        for n in range(0,9742):
            # n행의 0(movieId)가 추출된 movie값과 동일한 경우
            if movie_list[n,0]==movie:
                # 파이썬 리스트에 추가 [영화아이디, 영화제목]
                high_list.append([movie, movie_list[n,1]])
                
high = np.array(high_list)
print("영화 개수:", high.shape[0])
print("    4. 평균 평점 1등 중 첫번쨰 영화:",high[0,1])
print("    4. 평균 평점 1등 중 마지막 영화:", high[-1,1])

print("="*30)

    1. 모든 영화에 대한 평균 평점: 3.501556983616962
사용자 수: 610
    2. 사용자 1의 평균 평점: 4.366379310344827
    2. 사용자 2의 평균 평점: 3.9482758620689653
user_ratings[n,1]을 사용해서 각 사용자의 평균 평점을 갖고 올 수 있다.
리뷰가 된 영화의 수: 9724
    3. 영화 Toy Story (1995)의 평균 평점: 3.9209302325581397
    3. 영화 Jumanji (1995)의 평균 평점: 3.4318181818181817
movie_ratings[n,1]을 사용해서 각 영화의 평균 평점을 갖고 올 수 있다.
평균 평점 1등 점수: 5.0
영화 개수: 296
    4. 평균 평점 1등 중 첫번쨰 영화: Lamerica (1994)
    4. 평균 평점 1등 중 마지막 영화: Won't You Be My Neighbor? (2018)
Wall time: 12.7 s
