### 어떤 영화가 좋은 평점을 받았는지 분석

In [2]:
import numpy as np

#### 1. 데이터 불러오기

In [12]:
# genfromtxt 함수 사용
# np.genfromtxt('파일경로', delimiter = '구분자', dtype = 데이터타입)

movie = np.genfromtxt('data/ratings.dat', delimiter = '::', dtype = np.int64)
movie

array([[        1,      1193,         5, 978300760],
       [        1,       661,         3, 978302109],
       [        1,       914,         3, 978301968],
       ...,
       [     6040,       562,         5, 956704746],
       [     6040,      1096,         4, 956715648],
       [     6040,      1097,         4, 956715569]])

In [16]:
# 데이터를 저장하는 방법
# np.savetxt()
# np.savetxt('파일경로', 데이터, delimiter = '구분자', fmt = '자료형')
np.savetxt('data/temp.txt', movie, delimiter = ':', fmt = '%d')

In [18]:
movie

array([[        1,      1193,         5, 978300760],
       [        1,       661,         3, 978302109],
       [        1,       914,         3, 978301968],
       ...,
       [     6040,       562,         5, 956704746],
       [     6040,      1096,         4, 956715648],
       [     6040,      1097,         4, 956715569]])

### 각 열
- 0번 인덱스열: 사용자의 id
- 1번 인덱스열: 영화의 id
- 2번 인덱스열: 영화의 평점
- 3번 인덱스열: 리뷰 입력 시간(유닉스 시간)

#### 2. 데이터의 속성 확인
- 배열의 형태
- 배열의 차원 수
- 배열의 전체 요소 수

In [26]:
print(movie.shape)
print(movie.ndim)
print(movie.size)

(1000209, 4)
2
4000836


In [28]:
movie

array([[        1,      1193,         5, 978300760],
       [        1,       661,         3, 978302109],
       [        1,       914,         3, 978301968],
       ...,
       [     6040,       562,         5, 956704746],
       [     6040,      1096,         4, 956715648],
       [     6040,      1097,         4, 956715569]])

### 3. 전체 영화들의 평점의 평균 구하기

In [37]:
# 전체 영화의 평점에 먼저 접근
# 2차원 배열에서 데이터 접근 [행의 범위, 열의 범위]

ratings = movie[::, 2]
ratings

array([5, 3, 3, ..., 5, 4, 4])

In [39]:
# 전체 영화 평점들의 평균
ratings.mean()

3.581564453029317

In [41]:
np.mean(ratings)

3.581564453029317

In [45]:
round(ratings.mean(), 2)

3.58

In [49]:
movie

array([[        1,      1193,         5, 978300760],
       [        1,       661,         3, 978302109],
       [        1,       914,         3, 978301968],
       ...,
       [     6040,       562,         5, 956704746],
       [     6040,      1096,         4, 956715648],
       [     6040,      1097,         4, 956715569]])

### 4. 아이디가 1인 사용자가 매긴 영화의 평점들의 평균

In [54]:
# 1. id가 1인 사용자가 매긴 영화 데이터
# 불리언 인덱싱 사용
# 불리언 인덱싱: 특정 조건에 맞는 데이터를 가져올 때 사용

# 조건식
movie[:, 0] == 1

array([ True,  True,  True, ..., False, False, False])

In [56]:
# 불리언 인덱싱
# 아이디가 1인 사용자가 매긴 영화
id_1 = movie[movie[:, 0] == 1]
id_1

array([[        1,      1193,         5, 978300760],
       [        1,       661,         3, 978302109],
       [        1,       914,         3, 978301968],
       [        1,      3408,         4, 978300275],
       [        1,      2355,         5, 978824291],
       [        1,      1197,         3, 978302268],
       [        1,      1287,         5, 978302039],
       [        1,      2804,         5, 978300719],
       [        1,       594,         4, 978302268],
       [        1,       919,         4, 978301368],
       [        1,       595,         5, 978824268],
       [        1,       938,         4, 978301752],
       [        1,      2398,         4, 978302281],
       [        1,      2918,         4, 978302124],
       [        1,      1035,         5, 978301753],
       [        1,      2791,         4, 978302188],
       [        1,      2687,         3, 978824268],
       [        1,      2018,         4, 978301777],
       [        1,      3105,         5, 97830

In [72]:
# 아이디가 1인 사용자가 매긴 영화의 평점들
id_1_r = id_1[:, 2]
id_1_r

array([5, 3, 3, 4, 5, 3, 5, 5, 4, 4, 5, 4, 4, 4, 5, 4, 3, 4, 5, 4, 3, 3,
       5, 5, 3, 5, 4, 4, 4, 3, 4, 4, 4, 4, 4, 4, 5, 5, 4, 5, 5, 5, 4, 4,
       4, 5, 5, 4, 5, 4, 4, 4, 4])

In [74]:
# 아이디가 1인 사용자가 매긴 영화의 평점들의 평균
round(id_1_r.mean(), 2)

4.19

In [82]:
# 중간 변수로 만드는 과정 없이
round(movie[movie[:, 0] == 1 ][:, 2].mean(),2)

4.19

#### 5. 각 사용자가 매긴 평점들의 평균

In [133]:
# 각 사용자 구하기
movie_r_list = []
for i in range(1, 6040):
     movie_r_list.append([i, movie[movie[:, 0] == i][:, 2].mean()])

movie_r_list

[[1, 4.188679245283019],
 [2, 3.7131782945736433],
 [3, 3.9019607843137254],
 [4, 4.190476190476191],
 [5, 3.1464646464646466],
 [6, 3.9014084507042255],
 [7, 4.32258064516129],
 [8, 3.884892086330935],
 [9, 3.7358490566037736],
 [10, 4.114713216957606],
 [11, 3.2773722627737225],
 [12, 3.8260869565217392],
 [13, 3.388888888888889],
 [14, 3.32],
 [15, 3.3233830845771144],
 [16, 3.0285714285714285],
 [17, 4.075829383886256],
 [18, 3.6491803278688524],
 [19, 3.5725490196078433],
 [20, 4.083333333333333],
 [21, 2.909090909090909],
 [22, 3.0673400673400675],
 [23, 3.3157894736842106],
 [24, 3.948529411764706],
 [25, 3.7411764705882353],
 [26, 2.96],
 [27, 4.171428571428572],
 [28, 3.7570093457943927],
 [29, 3.5833333333333335],
 [30, 3.488372093023256],
 [31, 3.73109243697479],
 [32, 3.625],
 [33, 3.498721227621483],
 [34, 3.8658536585365852],
 [35, 3.54040404040404],
 [36, 4.199430199430199],
 [37, 3.69811320754717],
 [38, 3.58],
 [39, 3.564516129032258],
 [40, 3.4479166666666665],
 [41, 

In [298]:
# 1. 데이터 유효성 검사(id가 6040개가 맞는지)
# 1 ~ 6400

# 중복값을 제거해주는(유일한 값들만 구해주는 함수) 함수
# np.unique(시퀀스 자료형)

user_id = np.unique(movie[:, 0])
# 중간에 튀는 값이 있는지 확인 => 정렬 사용
print(np.sort(user_id)) # 오름차순

print(len(user_id))
# 아이디가 총 6040개 => 사용자가 6040명

# 2. 사용자들의 평점들의 평균
user_mean_list = []
for i in user_id:
    user_mean_list.append([i, movie[movie[:, 0] == i ][:, 2].mean()])


[   1    2    3 ... 6038 6039 6040]
6040


numpy.ndarray

In [157]:
# 내림차순 정렬
np.sort(user_id)[:: -1]

array([6040, 6039, 6038, ...,    3,    2,    1])

#### 6. 각 사용자 평균 평점이 4점 이상인 사용자만 구해보기

In [195]:
user_mean_arr = np.array(user_mean_list)
user_mean_arr

array([[   1.  ,    4.19],
       [   2.  ,    3.71],
       [   3.  ,    3.9 ],
       ...,
       [6038.  ,    3.8 ],
       [6039.  ,    3.88],
       [6040.  ,    3.58]])

In [188]:
# set_printoptions: numpy의 배열 출력시 출력 형태 설정 함수
# suppress=True -> 소수점 자리수를 고정 출력하겠다고 선언
# precision = 2 -> 소수점 둘째 자리까지 출력
np.set_printoptions(suppress = True, precision = 2)

In [198]:
user_mean_arr

array([[   1.  ,    4.19],
       [   2.  ,    3.71],
       [   3.  ,    3.9 ],
       ...,
       [6038.  ,    3.8 ],
       [6039.  ,    3.88],
       [6040.  ,    3.58]])

In [234]:
user_mean_arr[user_mean_arr[:, :][:, 1] >= 4]

array([[   1.  ,    4.19],
       [   4.  ,    4.19],
       [   7.  ,    4.32],
       ...,
       [6027.  ,    4.25],
       [6032.  ,    4.13],
       [6034.  ,    4.1 ]])

In [240]:
# astype(int) : 데이터 타입 변환
user_mean_arr[user_mean_arr[:, :][:, 1] >= 4][:, 0].astype(int)

array([   1,    4,    7, ..., 6027, 6032, 6034])

### 7. 10번 영화의 평점의 평균 구하기

In [254]:
movie_10 = movie[movie[:, 1] == 10][:, 2].mean()
movie_10

3.5405405405405403

### 8. 각 영화가 받은 평점의 평균 구하기

In [397]:
movie_r = movie[movie[:, 1]][:, 1]

# print(movie_r[:, 1])

# print(np.sort(movie_r))

# print(np.unique(movie_r))

print(len(np.unique(movie_r[:, 1])))


movie_r

IndexError: too many indices for array: array is 1-dimensional, but 2 were indexed

In [None]:


movie_r_f = []

for i in movie_r:
    movie_r_f.append([i, movie_r2[:, 1] == i])

movie_r_f

In [299]:
type(user_id)

numpy.ndarray

In [407]:
movie_n = np.unique(movie[movie[:, 1]][:, 1])
movie_n

array([   1,    2,    3, ..., 3932, 3948, 3952])

In [437]:
movie_r_f = []

for i in movie_n:
    movie_r_f.append([i, movie[movie[:, 1] == i][:, 2].mean()])

movie_r_f

[[1, 4.146846413095811],
 [2, 3.20114122681883],
 [3, 3.01673640167364],
 [4, 2.7294117647058824],
 [5, 3.0067567567567566],
 [6, 3.8787234042553194],
 [7, 3.410480349344978],
 [10, 3.5405405405405403],
 [11, 3.7938044530493706],
 [14, 3.542483660130719],
 [16, 3.7932551319648096],
 [17, 4.027544910179641],
 [21, 3.6238938053097347],
 [24, 3.1794871794871793],
 [25, 3.6510204081632653],
 [26, 3.53],
 [29, 4.062034739454094],
 [32, 3.945731303772336],
 [34, 3.8914905768132497],
 [36, 3.9579741379310347],
 [38, 2.8214285714285716],
 [39, 3.6233480176211454],
 [41, 3.958677685950413],
 [42, 2.8687782805429864],
 [44, 2.787781350482315],
 [45, 3.4246323529411766],
 [47, 4.106420404573439],
 [48, 2.9764397905759163],
 [50, 4.517106001121705],
 [52, 3.640371229698376],
 [58, 4.093812375249501],
 [60, 3.212885154061625],
 [62, 3.6968576709796674],
 [64, 2.2658227848101267],
 [65, 2.062937062937063],
 [70, 3.1564551422319473],
 [73, 3.8169642857142856],
 [74, 2.975],
 [76, 2.853932584269663],
