In [1]:
import numpy as np
import pandas as pd

![](png/matrix.PNG)

<img src="png/matrix.PNG" style="width:800px;height:300px;">

> 본 Lab은 Pandas의 기본적인 동작과 Numpy를 결합하여 일반적으로 쌓여있는 데이터를 Matrix 형태로 변경합니다.  
변환되는 Matrix 형태는 두가지이며, 본 Lab도 두 가지 모두를 지원하는 것을 목표로 합니다.

### 1️⃣ get_rating_matrix  
Rating Matrix는 영화, 책 처럼 사용자가 제품에 대한 평가를 Matrix 형태로 표현한 것입니다.  
저희는 movie_rating.csv라는 파일을 활용하여 rating matrix를 구성한다. movie_rating.csv는 아래처럼 구성된다.

<img src="png/rating matrix.png" style="width:500px;height:300px;">

본 랩에서 다루는 모든 csv파일의 column은 source, target으로 구성되며, source는 row의 index 정보가, target는 column의 기준 정보가 된다.  
rating 정보는 get_rating_matrix 함수에서만 사용되며, 사용자가 영화에 대한 평가를 정보를 담고 있다.  

본 랩의 목적은 위 테이블과 같이 구성된 정보를 Matrix 형태로 바꾸는 거다. Matrix 형태로 바꾸는 규칙은 다음과 같다.  

- source는 row, target은 column의 기준이 된다.  
- source와 target의 정렬된 값을 활용하여 index를 설정한다. 즉 위 Table에서는 Claudia Puig과 row의 0번째 index로 설정된다.  
- rating의 정보는 Matrix에서 각 Element 값에 할당된다.  
- 생성되는 Matrix Ndarray로 나타난다.  
- dict, collection 모듈 등 파이썬의 Built-in Module은 사용할 수 있으나, for 문은 사용할 수 없다.  

생성하는 함수의 Template은 아래와 같으며, 입력값은 처리하는 csv 파일의 이름만 넣을 수 있다.

```
def get_rating_matrix(filename):
    pass
```


In [15]:
#Data
data = "movie_rating.csv"
df = pd.read_csv(data, sep = ",")
df.head()

Unnamed: 0,source,target,rating
0,Jack Matthews,Lady in the Water,3.0
1,Jack Matthews,Snakes on a Plane,4.0
2,Jack Matthews,You Me and Dupree,3.5
3,Jack Matthews,Superman Returns,5.0
4,Jack Matthews,The Night Listener,3.0


In [29]:
df1 = df.groupby(["source","target"])["rating"].sum()
# change to matrix shape, Nan change to 0
df2 = df1.unstack(fill_value=0)
df2.values

array([[3. , 0. , 3.5, 0. , 4.5, 0. ],
       [0. , 3. , 3.5, 0. , 3. , 3.5],
       [0. , 3. , 4. , 5. , 3. , 3.5],
       [3. , 2.5, 3.5, 3.5, 3. , 2.5],
       [2. , 3. , 4. , 3. , 3. , 0. ],
       [0. , 0. , 4.5, 4. , 0. , 0. ]])

In [32]:
def get_rating_matrix(filename, dtype=np.float32):
    data = filename
    # csv file read
    df = pd.read_csv(data, sep = ",")
    # df의 source와 target을 기준으로 rating의 합이 element가 되는 df생성
    df1 = df.groupby(["source", "target"])["rating"].sum()
    # Nan change to 0, change to matrix shape
    df_matrix = df1.unstack(fill_value=0)
    # matrix의 element => value 추출
    df_v = df_matrix.values
    return df_v

In [33]:
get_rating_matrix("movie_rating.csv")

array([[3. , 0. , 3.5, 0. , 4.5, 0. ],
       [0. , 3. , 3.5, 0. , 3. , 3.5],
       [0. , 3. , 4. , 5. , 3. , 3.5],
       [3. , 2.5, 3.5, 3.5, 3. , 2.5],
       [2. , 3. , 4. , 3. , 3. , 0. ],
       [0. , 0. , 4.5, 4. , 0. , 0. ]])

### 2️⃣ get_frequent_matrix
두 번째 함수는 얼마나 빈번하게 제품을 구매했는지를 표현하는 Frequent Matrix를 만드는 것 입니다.   
Frequent Matrix는 사용자가 특정 제품을 구매한 횟수를 기록하는 Matrix이다. 저희가 제공하는 csv파일은 1000i.csv라는 파일로 아래처럼 구성되어 있습니다.

<img src="png/1000i.png" style="width:300px;height:650px;">

본 함수에서는 기존 함수와 달리 Rating column이 없습니다. 대신 source와 target의 조합이 한 개 이상으로 중복될 수 있고, 이것이 Frequent로 처리해야 합니다.  
즉 Rating이 명시적으로 있는게 아니라 데이터를 통해 Frequent를 찾아내는 것이 목적입니다. Matrix 형태로 바꾸는 규칙은 다음과 같습니다.

- source는 row, target은 column의 기준이 된다.
- source와 target의 정렬된 값을 활용하여 index를 설정한다. 즉 위 Table에서는 1은 row의 0번째 index로 설정된다.  
- Source와 Target이 출현한 정보는 Frequent로 Matrix에서 각 Element 값에 할당되어야 한다.  
- 생성되는 Matrix Ndarray로 나타내며, dtype은 np.float32  
- dict, collection 모듈 등 파이썬의 Built-in Module은 사용할 수 있으나, for 문은 사용할 수 없다.  

생성하는 함수의 Template은 아래와 같으며, 입력값은 처리하는 csv 파일의 이름만 넣을 수 있다.

In [52]:
data = "1000i.csv"
df = pd.read_csv(data, sep = ",")
df.head()

Unnamed: 0,source,target
0,3,7
1,4,15
2,2,49
3,5,44
4,1,1


In [82]:
df1=df.groupby(["source", "target"]).value_counts()
#df2 =df1.astype(np.float32)
df2.unstack().values

array([[19., 17., 14., 11., 17., 25.,  7., 22.,  5., 18., 10., 13., 13.,
         8., 20., 10.,  9., 10., 16., 15.,  9., 11., 17., 15., 14.,  8.,
         6., 12., 18., 12.,  6., 18.,  9., 24.,  7., 19., 14.,  6.,  4.,
        12., 15., 14., 20.,  9., 12., 16., 11.,  9., 11., 12.],
       [20., 16., 10., 15., 17., 18., 10., 13.,  5., 19.,  8., 14., 14.,
         9., 15., 14., 13.,  8., 12.,  9.,  5., 10., 28., 18.,  7.,  8.,
         6., 19., 14., 13., 11., 12., 18., 15.,  7., 11., 17.,  9.,  5.,
         5., 13., 12., 15.,  9., 13., 16., 16., 10., 16.,  9.],
       [12., 16., 13., 19., 23., 19.,  5., 14.,  5., 18.,  7.,  6., 14.,
         8., 20., 17., 14., 11., 16., 12.,  7.,  9., 23., 12., 12.,  8.,
         7., 23., 26., 10.,  9., 20., 16., 11.,  4., 19., 12., 12.,  5.,
        10., 10., 14., 10., 17., 15., 16., 11., 17.,  9., 11.],
       [14., 14., 19., 11., 11., 18.,  7., 16.,  7., 17.,  6., 19., 18.,
        12., 13., 13., 14.,  9., 21., 16.,  6.,  6., 19., 14., 19.,  5.,
     

In [92]:
def get_frequent_matrix(filename):
    data = filename
    # Read the Data
    df = pd.read_csv(data, sep = ",")
    # source, target의 그룹별 빈도
    df_count = df.groupby(["source","target"]).value_counts()
    # data type int change to float
    df_float = df_count.astype(np.float32)
    # change to matrix shape, return value
    df_value = df_float.unstack().values
    return df_value

In [93]:
get_frequent_matrix("1000i.csv")

array([[19., 17., 14., 11., 17., 25.,  7., 22.,  5., 18., 10., 13., 13.,
         8., 20., 10.,  9., 10., 16., 15.,  9., 11., 17., 15., 14.,  8.,
         6., 12., 18., 12.,  6., 18.,  9., 24.,  7., 19., 14.,  6.,  4.,
        12., 15., 14., 20.,  9., 12., 16., 11.,  9., 11., 12.],
       [20., 16., 10., 15., 17., 18., 10., 13.,  5., 19.,  8., 14., 14.,
         9., 15., 14., 13.,  8., 12.,  9.,  5., 10., 28., 18.,  7.,  8.,
         6., 19., 14., 13., 11., 12., 18., 15.,  7., 11., 17.,  9.,  5.,
         5., 13., 12., 15.,  9., 13., 16., 16., 10., 16.,  9.],
       [12., 16., 13., 19., 23., 19.,  5., 14.,  5., 18.,  7.,  6., 14.,
         8., 20., 17., 14., 11., 16., 12.,  7.,  9., 23., 12., 12.,  8.,
         7., 23., 26., 10.,  9., 20., 16., 11.,  4., 19., 12., 12.,  5.,
        10., 10., 14., 10., 17., 15., 16., 11., 17.,  9., 11.],
       [14., 14., 19., 11., 11., 18.,  7., 16.,  7., 17.,  6., 19., 18.,
        12., 13., 13., 14.,  9., 21., 16.,  6.,  6., 19., 14., 19.,  5.,
     