### Numpy(Numerical Python)

>* 백터 및 행렬연산에 특화된 라이브러리
* array단위로 데이터를 관리한다. 즉, array단위로 연산을 수행한다.
* 2차원자료구조는 행령(matrix)와 유사하다.
* pandas와 함께 데이터 분석에서 사용된다.
* 수치해석용 라이브러리

### 참고사이트
1. home : www.numpy.org
2. documentation : www.docs.scipy.org/doc/
3. tutorial : 
- www.scipy-lectures.org/intro/numpy/index.html - 깃허브연동 연습자료
- www.docs.scipy.org/doc/numpy/user/quickstart.html




In [None]:
# numpy를 사용하기 위해 numpy import
import numpy as np
np.__version__
print(dir(np))

#### 1. 1차원 array정의 및 사용하기

In [None]:
# 1. np.array()
data = [1,2,3,4,5]
print(type(data))

# np.array() : 데이터를 numpy배열 즉, numpy.array로 변환해주는 함수
arr = np.array(data)
print(type(arr))

# 강제형변환 
arr1 = np.array([1,2,3,4.,5])
print(type(arr1))
print(arr1)

In [None]:
# 2. np.shape() : numpy배열의 크기를 리턴
# 튜플값으로 리턴

a = 4
b = 4, 
print(type(b))

c = (4,) 
print(type(c))

np.shape(arr1)

#### 2. 2차원 array(행렬, Matrix)

In [None]:
# 1. np.array()
# 2차원 리스트
data = [[1,2,3],[4.,5,6]]
print(type(data))

# 2차원리스트를 2차우너 ndarray변환
arr = np.array(data)
print(type(arr))

# numpy의 datatype보기
arr.dtype


arr = np.array([[1,2,3],[4,5,6],[7,8,9]])
print(arr)

#### 3. Numpy 연산

##### 1. numpy shape

* numpy에서 해당 array크기를 확인할 수 있는 함수이다. 이 함수는 정수를 리턴한다.
* shape(크기)를 확인함으로써 numpy배열에 몇개의 데이터가 있는지, 몇차원의 데이터인지를 확인한다.
* 1차원배열일 경우 `(5,)`형태로 2차원 배열일 경우 `(1,2)`형태로 리턴한다.

##### 2. numpy datatype
* int : 부호가 있는 정수
* uint : 부호가 없는 정수
* float  : 실수
* complex : 복소수
* bool : boolean
* string : 문자열
* object : 파이썬의 오브젝트
* unicode : 유니코드



In [None]:
# 1. numpy배열의 연산
# numpy의 배열은 리스트와 비슷하지만 다음과 같은 점에서 다르다.
# 1) 모든 원소가 list는 형식이 다를 수 있으나 numpy는 같은 자료형이다.
# 2) 원소의 갯수는 바꿀 수가 없다.
# 메트릭스와 비슷한거지 메트릭스가 아니여서 곱하기 형식이 덧샘과 같이 작용한다.
arr1 = np.array([[1,2,3],[4,5,6]])
arr2 = np.array([[7,8,9],[10,11,12]])
print(arr1+arr2)
print(arr1*arr2)
print(arr1*2)
print(arr1**2)

In [None]:
# 2. array broadcast
# numpy배열에서는 기본적으로 동일 크기를 가져야 연산이 가능하지만 배열의 크기가 틀릴 경우를
# 보완하기 위해서 broeadcast라는 기능을 제공해 준다.
# 즉, broadcast는 서로 크기가 다른 numpy배열간의 연산을 가능하게 한다.

arr1 = np.array([[1,2,3],[4,5,6],[7,8,9],[10,11,12]]) # 4*3
arr2 = np.array([14,15,16]) 
# 배열에 차이가 있을 시 앞에 존재하는 배열을 복사해서 확장을 한다.
# 이 경우 작은 배열이 1차원 배열일 경우에만 가능하다.
print(arr1+arr2)


#### 4. Numpy Array의 인덱싱과 슬라이싱

* numpy에서 사용되는 인덱싱은 python에서의 인덱싱과 기본적으로 동일하다.
* numpy의 인덱싱은 0부터 시작한다.


In [None]:
# np.arange(start[start,]],stop[,step]], step = 증가율, dtype)
a = np.arange(1,10, dtype = 'float64')
print(a)
print(type(a))
print(a.dtype)

# 1차원 array의 인덱싱과 슬라이싱
arr1 = np.arange(10)
print(arr1)
print(arr1[1])
print(arr1[0:4])
print()

# 2차원 array의 인덱싱과 슬라이싱
arr2 = np.array([[1,2,3],[4,5,6],[7,8,9]])
print(arr2)

# 2차원(행, 요소의 위치)
print(arr2[0,0])
print(arr2[0,1])
print(arr2[0,2])

print(arr2[1,0])
print(arr2[1,1])
print(arr2[1,2])

print(arr2[2,0])
print(arr2[2,1])
print(arr2[2,2])

# 요소를 꺼내기
# 전체요소를 꺼내기
# 3번째행(2차원)의 모든 요소 꺼내기
# 3번째 행(1차원)의 모든 요소 꺼내기

print(arr2[:]) 
print(arr2[2:]) # arr2[2:,:]
print(arr2[2,:])
print()

# 다차원배열의 원소 중 복수개를 접근하려면 slicing과 ,(컴마)를 함께 사용하면 된다.

# a[0,:] : 1번째 행의 모든 열
# a[:, 1] : 2열 전체
# a[1,1:] : 2행의 2열부터 끝까지
# a[:2, :2 ] : 3행부터 끝까지, 처음부터 2열까지



# 9를 꺼내기 : 2행의 3번쨰 요소
print(arr2[2,2])
print()

# 모든 열의 3번째 요소
print(arr2[:,2])
print()

# [[1,2],[4,5]]
print(arr2[0:2,0:2])
print()

# [[5,6],[8,9]]
print(arr2[1:3,1:3])
print()

In [None]:
# 실습문제 
m = np.array([[ 0,  1,  2,  3,  4],
               [ 5,  6,  7,  8,  9],
                 [10, 11, 12, 13, 14]])
# 이 행렬에서 값 7 을 인덱싱한다.
print(m[1,2])
    
# 이 행렬에서 값 14 을 인덱싱한다.
print(m[2,4])    
    
# 이 행렬에서 배열 [6, 7] 을 슬라이싱한다.\n",
print(m[1,1:3]) 

# 이 행렬에서 배열 [7, 12] 을 슬라이싱한다.\n",
print(m[1:3,2]) 
# 이 행렬에서 배열 [[3, 4], [8, 9]] 을 슬라이싱한다."
print(m[0:2,3:5]) 

In [None]:
# 배열인덱싱
# numpy배열 객체의 강력한 기능은 팬시 인덱싱(Fancy indexing)이라고 부르는 배열인덱싱이다.
# 인덱싱이란 이름이 붙어있지만 사실은 데이터베이스의 질의(query) 기능을 수행한다.
# 배열의 인덱싱은 정수배열방식과 불리언배열방식이 있다.
# 불리안 인덱싱 방식은 배열의 원소가 True or False 두 값으로만 구성되며 인덱스 배열의 
# 크기가 원래 ndarray객체의 크기와 동일해야 한다.
a = np.array([0,1,2,3,4,5,6,7,8,9])
idx = np.array([True, False,True, False,True, False,True, False, False,True])
print(a)
print(idx)

# true false값을 인덱스로 사용하여 호출할 인덱스를 결정
print(a[idx])

# 짝수만 나오게 할 경우 
# true false를 배열로 만들지 않고 조건을 넣어서 boolean을 해도 작용이 가능하다.
a[a%2 == 0]

In [None]:
# 2차원 불리안 인덱싱
a = np.array([[1,2,3,4],[5,6,7,8],[9,10,11,12]])
print(a)

a[:,[0,3]]
a[:,[True, False,False,True]]

lst = [
    [1,2,3],
    [4,5,6],
    [7,8,9]
]
print()
a = np.array(lst)
print(a)
bool_idx_array = np.array([[False, True,False],
                          [True,False,True],
                          [False, True,False]])
print(a[bool_idx_array])
print(a[a%2==0])
print(a[a%3==0])

In [None]:
a = np.array([1,2,3,4])
a+1
# 숫자에 nparray를 넣어서 array로 변환하며 계산하는 것이 가능 int -> nparray로 케스팅된다
2**a

np.arange(5)

In [None]:
# np.arnage로 배열을 만든뒤 계산을 하는 것이 일반 range보다 빠르다. 
a = np.arange(10000)
%timeit a + 1  

l = range(10000)
%timeit [i+1 for i in l] 


#### 5. Numpy 함수

##### 1) 한개의 array에 적용되는 함수

In [None]:
# 1. zeros() : array를 생성할 시 모든 값을 0으로 초기화
z1 =np.zeros(10)
print(z1)

# 2차배열을 할 시 튜플 혹은 배열 형식으로 넣어줘야 한다.
z2 = np.zeros((10,5))
print(z2)

In [None]:
# 2. ones() : array를 생성할 시 모든 값을 1로 초기화
# ?np.ones
o1 = np.ones(10)
print(o1)
o2 = np.ones((4,5))
print(o2)

In [None]:
# 3. arange()
print(np.arange(10,20,2,dtype='float32'))

In [None]:
# 4. random()

# 1) seed 설정하기
# 특정한 시작 숫자를 정의하지 않으면 실행될 때마다 무작위수가 발생이 된다.
# 하지만 특정 시작 숫자를 정해주면 랜덤 알고리즘은 마치 난수처럼 수열을 생성한다.
# 이 시작되는 숫자를 seed라고 한다. 파이썬에서 rendom모듈은 seed(인수)함수를 제공하는데
# 보통 인수는 0 또는 0보다 큰 임의의 수로 설정한다.
# 각 시드마다 다른 결과값을 저장할 수 있다.

# np.random.seed(0)
result = np.random.rand(5)
print(result)

# 2) 난수를 발생시키는 3가지 메서드
# 2-1) rand : 0~1 사이의 균일분포를 가지는 난수를 생성
print(np.random.rand(10))
print(np.random.rand(3,5))
print()
# 2-2) randn : 표준정규분포(가우시안)
print(np.random.randn(10))
print()

# 2-3) randint : 균일 분포의 정수 난수
# numpy.random.randint(low, high=none, size =none )
# high을 입력하지 않으면 0과 low, 입력하면 low, high 사이의 숫자로 난수를 만들어줌
# size 는 난수의 숫자

print(np.random.randint(1,10,3))

In [None]:
# 5. abs()
arr1 = np.random.randn(5,3)
print(np.abs(arr1))

In [None]:
# 6. square() : 각 요소에 제곱근을 계산
print(np.square(arr1))

In [None]:
# 7. exp() : 각 요소의 무리수를 e지수로 연산
print(np.exp(arr1))

In [None]:
# 8. log(), log10(), log2() 
# 자연로그, 상용로그, 밑2인 로그
print(np.log(arr1))

In [None]:
# 9. sign() : 각 요소의 값이 음수일 때 -1, 0 일 때는 0, 양수일 때는 1로 리턴
print(np.sign(arr1))

In [None]:
# 10. ceil()
print(np.ceil(arr1))

In [None]:
# 11. floor()
print(np.floor(arr1))

In [None]:
# 12. isnan() : Nan일 경우는 True, 아닐 경우 False()
print(np.isnan(arr1))
print(np.isnan(np.log(arr1)))

In [None]:
# 13. cos(), sin(), tan(), cosh(), sinh(), tanh()

##### 2) 두개의 array에 적용되는 함수

In [None]:
arr1 = np.random.randn(5,3)
arr2 = np.random.rand(5,3)
print(arr1)
print(arr2)

In [None]:
# 1. 사칙연산함수(add,subtract, multiply, divide)
print(np.add(arr1,arr2))
print(np.subtract(arr1,arr2))
print(np.multiply(arr1,arr2))
print(np.divide(arr1,arr2))

In [None]:
# 2. 최대값, 최소값 (maximum, minimum)
print(np.maximum(arr1,arr2))
print(np.minimum(arr1,arr2))

##### 3) 통계함수

* 통계함수를 통해서 numpy배열의 총합 또는 평균등을 구할 떄 유용한 함수들
* 열의 합 또는 행의 합을 쉽게 구할 수 있다.

In [None]:
# 1. sum() : 합계
# sum(a, axis = ) axis = 행, 열을 선택해서 더한 값을 출력(0: 열의 합)
print(np.sum(arr1))
print(np.sum(arr1, axis=0))
print(np.sum(arr1, axis=1))


In [None]:
# 2. mean() : 평군
print(np.mean(arr1))
print(np.mean(arr1, axis = 1))
print(np.mean(arr1, axis = 0))

In [None]:
# 3. std() 표준편차, 분산 var(), 최대, 최소 max(),min()
print(np.std(arr1))
print(np.std(arr1, axis = 1))
print(np.std(arr1, axis = 0))

print(np.var(arr1))
print(np.var(arr1, axis = 1))
print(np.var(arr1, axis = 0))

print(np.max(arr1))
print(np.max(arr1, axis = 1))
print(np.max(arr1, axis = 0))

print(np.min(arr1))
print(np.min(arr1, axis = 1))
print(np.min(arr1, axis = 0))

In [None]:
# 4. 위치함수 : argmin()최소값의 위치, argmax() 최대값의 위치
print(np.argmin(arr1))
print(np.argmax(arr1))

In [None]:
# 5. 누적함수 : 각 요소의 누적합 cumsum(), 누적곱 cumprod()
print(np.cumsum(arr1))
# sort
arr = np.array([5,4,1,8,9,10,2])
print(np.sort(arr))

# 행, 열별 정렬
print(np.sort(arr1)[0])

# unique : 중복제거함수
# 중복제거 및 정렬도 해줌
# 1) 1차원 중복제거
a = np.array([1,2,3,1,2,4,5])
print(np.unique(a))

# 2) 2차원 중복제거
a = np.array([[1,2],[1,2],[2,3]])
print(np.unique(a))

# 열의 요소개수가 틀릴 경우 열의 크기에 따른 리스트를 생성해 중복을 제거한다.
a = np.array([[1,2],[1,2],[2,3,4]])
print(np.unique(a))

In [None]:
import numpy as np

#np.savetxt?

In [None]:
import numpy as np
import random
#np.savetxt?
#np.loadtxt?
numbers = np.zeros((10,4))

In [None]:
# savetxt
numbers = np.zeros((10,4))
for i in range(10):
    for j in range(4):
        numbers[i, j] = random.randint(1000,4000)
numbers
np.savetxt('../data/numbers.csv',numbers,fmt='%d',delimiter=',')

In [None]:
# loadtxt
f = np.loadtxt('../data/numbers.csv',delimiter=',')
print(f)

#### 6. Data분석실습 (영화 평점데이터)

In [None]:
# 1. 영화평점데이터업로드 : ratings
data = np.loadtxt('../data/movilens/ratings.dat',delimiter ='::',dtype=np.int64)

In [None]:
print(data.shape)

# 첫 5행만 출력
print(data[:5])

# 1백만 ~1백만 10까지 출력
print(data[1000000:1000011,:3])

In [None]:
# 전체평점의 평균은?
mean_rating_total = np.mean(data[:,2:3])
mean_rating_total = data[:,2:3].mean()
print('영화 평점의 전체 평균은 %f 입니다'%mean_rating_total)

In [None]:
# 사용자id만 추출(중복제거) - 사용자건수?
user_ids = data[:,0]
user_ids = np.unique(user_ids)

print('사용자의 건수 = ', len(user_ids))

In [None]:
# 1000인 사용자만 추출
data_for_user = data[data[:,1]==1000]
# print(data_for_user)
print('1000번의 영화 평점 = ', data_for_user[:,2].mean())

In [None]:
# 사용자별 평점의 평균 구하기
mean_values = []
for i in user_ids:
    data_for_us = data[data[:,0] == i]
    mean_values.append([i, round(data_for_us[:,2].mean(),3)])


In [None]:
print(mean_values)


In [None]:
# 5. 결과가 list 자료형을 넘파이 array로 변환
mean_array= np.array(mean_values, dtype = np.float64)
mean_array[2]

In [None]:
# 파일 저장 np.savetxt()
np.savetxt('../data/sample2.csv', mean_array, delimiter = ',')

#### 연습문제
* movie.dat
* movie.dat -> movies_utf8.dat utf8로 전환

In [None]:
data_user = np.loadtxt('../data/movilens/ratings.dat',delimiter ='::',dtype=np.int64)
data_movie = np.loadtxt('../data/movilens/movies_utf8.dat',delimiter = '::', encoding = 'utf-8',
                        dtype = np.str )


In [None]:
print(data_movie)
print(data_movie[:,1])
print(data_user)

In [None]:
print(data_movie[:,1])
print(data_movie[data_movie[:,0] == '1193'])
a= data_movie[data_movie[:,0] == '1193']

a[0,1]

In [None]:
# 영화별 평점의 평균 구하기
movie_ids = np.unique(data_user[:,1])
mean_value =[]
# 영화 id, 영화제목 평점 평균
for i in movie_ids:
    # 1. user에서 movie_id와 같은 자료 추출
    data_for_movie = data_user[data_user[:,1] == i]
    
    # 2. 영화별 평균
    value = round(data_for_movie[:,2].mean(),3)
    
    # 3. 영화제목
    a = data_movie[data_movie[:,0] == str(i),1]
   
    # 3. 평균 저장 
 
    mean_value.append([i,a[0].replace(',',''), str(value)])
   

In [None]:
# 4. savetxt() : movie_ratings_mean.csv로 저장
mean_array= np.array(mean_value, dtype = np.str)

np.savetxt('../data/movilens/movie_ratings_mean.csv', mean_array,fmt = '%s',delimiter = ',')

In [None]:
# 연령별 영화평점 평균 구하기
data_score = np.loadtxt('../data/movilens/ratings.dat',delimiter ='::',dtype=np.int64)
data_user = np.loadtxt('../data/movilens/users.dat',delimiter = '::', encoding = 'utf-8',
                        dtype = np.str )

In [None]:
# print(data_score) # userid movieid rating
# print(data_user) # userid famal age jobcode


user_id = np.unique(data_score[:,0])
mean_value = {'1':0,'18':0,'25':0,'35':0,'45':0,'50':0,'56':0}
for i in user_id :
    data_user_values = data_score[data_score[:,0]== i,2]
    data_mean = round(data_user_values.mean(),3)
    
    # user는 문자열이기 때문에 int -> str로 변환해줘야함
    age = data_user[data_user[:,0] == str(i),2]
    # 연령에 따른 평균 점수를 더함
    mean_value[age[0]] += data_mean


In [None]:
ages = ['1','18','25','35','45','50','56']
age_value = []
for i in ages:
    count_1 = len(data_user[data_user[:,2] == i,2])
    means = round(mean_value[i]/count_1,3)
    age_value.append([i, means])
    
    

In [None]:
mean_array= np.array(age_value, dtype = np.str)
np.savetxt('../data/movilens/movie_ratings_age_mean.csv', mean_array,fmt = '%s',delimiter = ',')

In [None]:
# 영화 직업별 평점 구하기
data_score = np.loadtxt('../data/movilens/ratings.dat',delimiter ='::',dtype=np.int64)
data_user = np.loadtxt('../data/movilens/users.dat',delimiter = '::', encoding = 'utf-8',
                        dtype = np.str )

In [None]:
# 영화 id, 영화제목 평점 평균
user_id = np.unique(data_score[:,0])
data_user[:,3] # 0~20 까지 직업군
job_score = {}
# 키 0~20까지 만듬
for i in range(21):
    job_score[str(i)] = 0

In [None]:
for i in user_id :
    data_user_values = data_score[data_score[:,0]== i,2]
    data_mean = round(data_user_values.mean(),3)

    
    # user는 문자열이기 때문에 int -> str로 변환해줘야함
    job = data_user[data_user[:,0] == str(i),3]
    
    # 직업별 점수의 합
    job_score[job[0]] += data_mean    

In [None]:
jobs = []
job_value=[]

for i in range(21):
    jobs.append(str(i))
# 직업별 평균구함
for i in jobs:
    count_1 = len(data_user[data_user[:,3] == i,3])
    means = round(job_score[i]/count_1,3)
    job_value.append([i, means])


In [None]:
mean_array= np.array(job_value, dtype = np.str)
np.savetxt('../data/movilens/movie_ratings_job_mean.csv', mean_array,fmt = '%s',delimiter = ',')

In [None]:
import numpy as np
data_user = np.loadtxt('../data/movilens/ratings.dat',delimiter ='::',dtype=np.int64)
data_movie = np.loadtxt('../data/movilens/movies_utf8.dat',delimiter = '::', encoding = 'utf-8',
                        dtype = np.str )

In [None]:
data_genre = data_movie[:,[0,2]].tolist()
data_genre
b = []

# 데이터를 리스트로 변환
for i in range(len(data_genre)):
    result = data_genre[:][i][1].split('|')
    b.append([data_genre[:][i][0], result])

In [None]:
# 영화별 평점의 평균 구하기
movie_ids = np.unique(data_user[:,1])
mean_value =[]
# 영화 id, 영화제목 평점 평균
for i in movie_ids:
    # 1. user에서 movie_id와 같은 자료 추출
    data_for_movie = data_user[data_user[:,1] == i]
    
    # 2. 영화별 평균
    value = round(data_for_movie[:,2].mean(),3)
    
    # 3. 평균 저장 
    mean_value.append([b[i][1], value])
        



In [None]:
for i in range(len(mean_value)):
    for j in range(len(mean_value[i][0])):
        if dic != mean_value[i][0][j].replace("'","") :
            dic[mean_value[i][0][j].replace("'","")] = 0
            count[mean_value[i][0][j].replace("'","")] = 0
        
        dic[mean_value[i][0][j].replace("'","")] += mean_value[i][1]
        count[mean_value[i][0][j].replace("'","")] += 1

[['1', "Animation|Children's|Comedy"],
 ['2', "Adventure|Children's|Fantasy"],
 ['3', 'Comedy|Romance'],
 ['4', 'Comedy|Drama'],
 ['5', 'Comedy'],
 ['6', 'Action|Crime|Thriller'],
 ['7', 'Comedy|Romance'],
 ['8', "Adventure|Children's"],
 ['9', 'Action'],
 ['10', 'Action|Adventure|Thriller'],
 ['11', 'Comedy|Drama|Romance'],
 ['12', 'Comedy|Horror'],
 ['13', "Animation|Children's"],
 ['14', 'Drama'],
 ['15', 'Action|Adventure|Romance'],
 ['16', 'Drama|Thriller'],
 ['17', 'Drama|Romance'],
 ['18', 'Thriller'],
 ['19', 'Comedy'],
 ['20', 'Action'],
 ['21', 'Action|Comedy|Drama'],
 ['22', 'Crime|Drama|Thriller'],
 ['23', 'Thriller'],
 ['24', 'Drama|Sci-Fi'],
 ['25', 'Drama|Romance'],
 ['26', 'Drama'],
 ['27', 'Drama'],
 ['28', 'Romance'],
 ['29', 'Adventure|Sci-Fi'],
 ['30', 'Drama'],
 ['31', 'Drama'],
 ['32', 'Drama|Sci-Fi'],
 ['33', 'Adventure|Romance'],
 ['34', "Children's|Comedy|Drama"],
 ['35', 'Drama|Romance'],
 ['36', 'Drama'],
 ['37', 'Documentary'],
 ['38', 'Comedy'],
 ['39', 'Co

In [1]:
import numpy as np
data_user = np.loadtxt('../data/movilens/ratings.dat',delimiter ='::',dtype=np.int64)
data_movie = np.loadtxt('../data/movilens/movies_utf8.dat',delimiter = '::', encoding = 'utf-8',
                        dtype = np.str )

In [None]:
data_genre = data_movie[:,[0,2]].tolist()
data_genre
b = []

# 데이터를 리스트로 변환
for i in range(len(data_genre)):
    result = data_genre[:][i][1].split('|')
    b.append([data_genre[:][i][0], result])

In [2]:
# 유저가 평가하지 않는 영화를 구분하기 위해서 영화번호를
# 리스트로 만든 뒤 index함수를 사용하여 영화번호의 list위치를 호출해
# 오류발생을 방지
a = data_movie[:,0]
a = list(a)

NameError: name 'data_movie' is not defined

In [118]:
# 데이터를 리스트로 변환
for i in range(len(data_genre)):
    result = data_genre[:][i][1].split('|')
    b.append([data_genre[:][i][0], result])

In [170]:
# 영화별 평점의 평균 구하기
movie_ids = np.unique(data_user[:,1])
mean_value =[]
# 영화 id, 영화제목 평점 평균
for i in movie_ids:
    # 1. user에서 movie_id와 같은 자료 추출
    data_for_movie = data_user[data_user[:,1] == i]
    
    # 2. 영화별 평균
    value = round(data_for_movie[:,2].mean(),3)
 
    # 3. 영화평균과 영화의 카테고리를 합침
    # index를 통해 영화번호의 위치를 넣게 만듬
    mean_value.append([value, b[a.index(str(i))][1]])
    

In [171]:
# 카테고리를 리스트화
genres = ['Action', 'Adventure', 'Animation', "Children's", 'Comedy',
          'Crime', 'Documentary', 'Drama', 'Fantasy', 'Film-Noir', 
          'Horror', 'Musical', 'Mystery', 'Romance', 'Sci-Fi', 'Thriller', 
          'War', 'Western']
dic = {}
count = {}
# for을 통해서 카테고리를 딕셔너리화
for i in genres :
    dic[i] = 0
    count[i] = 0

In [172]:
# 카테고리별 점수와 카테고리 숫자를 키값으로 입력
for i in range(len(mean_value)):
    for j in range(len(mean_value[i][1])):
        dic[mean_value[i][1][j]] += mean_value[i][0]
        count[mean_value[i][1][j]] += 1


In [173]:
list = []
# 리스트에 영화카테고리, 카테고리별 점수/숫자 입력
for i in genres:
    list.append([i, round(dic[i]/count[i],2)])

In [None]:
np.savetxt('../data/movilens/movie_ratings_category_mean.csv', list,fmt = '%s',delimiter = ',')

In [174]:
list

[['Action', 3.1],
 ['Adventure', 3.1],
 ['Animation', 3.36],
 ["Children's", 3.01],
 ['Comedy', 3.16],
 ['Crime', 3.39],
 ['Documentary', 3.69],
 ['Drama', 3.42],
 ['Fantasy', 3.1],
 ['Film-Noir', 3.81],
 ['Horror', 2.73],
 ['Musical', 3.39],
 ['Mystery', 3.44],
 ['Romance', 3.34],
 ['Sci-Fi', 3.07],
 ['Thriller', 3.23],
 ['War', 3.59],
 ['Western', 3.47]]