# Data Handling

## Assignment

### Numpy Lab

In [25]:
import numpy as np
import pandas as pd

#### n_size_ndarray_creation  
- 함수목적  
    - n의 제곱수로 2 dimentional array를 생성하는 ndarray

In [4]:
def n_size_ndarray_creation(n, dtype=np.int):
    return np.array(range(n**2),dtype=dtype).reshape(n,n)

In [5]:
n_size_ndarray_creation(3)

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

#### zero_or_one_or_empty_ndarray 
- 함수목적  
    - shape이 지정된 크기의 ndarray를 생성, 이때 행렬의 element는 type에 따라 0,1 또는 empty로 생성됨

In [7]:
def zero_or_one_or_empty_ndarray(shape, type=0, dtype=np.int):
    if type == 0:
        return np.zeros(shape=shape, dtype=dtype)
    if type == 1:
        return np.ones(shape=shape, dtype=dtype)
    if type == 99:
        return np.empty(shape=shape, dtype=dtype)

#### change_shape_of_ndarray
- 함수목적  
    - 입력된 ndarray X를 n_row의 값을 row의 개수로 지정한 matrix를 반환함.  
    - 이때 입력하는 X의 size는 2의 거듭제곱수로 전제함.  
    - 만약 n_row과 1일 때는 matrix가 아닌 vector로 반환함.

In [8]:
def change_shape_of_ndarray(X, n_row):
    return X.flatten() if n_row==1 else X.reshape(n_row, -1)

In [9]:
X = np.ones((32,32),dtype=np.int)
change_shape_of_ndarray(X,1)

array([1, 1, 1, ..., 1, 1, 1])

#### concat_ndarray  
- 함수목적  
    - 입력된 ndarray X_1과 X_2를 axis로 입력된 축을 기준으로 통합하여 반환하는 함수  
    - X_1과 X_2는 matrix 또는 vector임, 그러므로 vector 일 경우도 처리할 수가 있어야 함  
    - axis를 기준으로 통합할 때, 통합이 불가능하면 False가 반환됨.  
    - 단 X_1과 X_2 matrix, vector 형태로 들어왔다면, vector를 row가 1개인 maxtrix로 변환하여 통합이 가능한지 확인할 것

In [10]:
def concat_ndarray(X_1, X_2, axis):
    try:
        if X_1.ndim == 1:
            X_1 = X_1.reshape(1,-1)
        if X_2.ndim == 1:
            X_2 = X_2.reshape(1,-1)
        return np.concatenate((X_1, X_2), axis=axis)
    except ValueError as e:
        return False

In [11]:
a = np.array([[1,2],[3,4]])
b = np.array([[5,6]])
concat_ndarray(a,b,1)

False

#### normalize_ndarray
- 함수목적  
    - 입력된 matrix 또는 vector를 ndarray X의 정규화된 값으로 변환하여 반환함.  
    - 이때 정규화 변환 공식 Z = (X - X의 평균) / X의 표준편차 로 구성됨.  
    - X의 평균과 표준편차는 axis를 기준으로 axis별로 산출됨 
    - matrix의 경우 axis가 0 또는 1일 경우, row 또는 column별로 Z value를 산출함. 
    - axis가 99일 경우 전체 값에 대한 normalize 값을 구함

In [12]:
def normalize_ndarray(X, axis=99, dtype=np.float32):
    X = X.astype(np.float32)
    n_row, n_column = X.shape
    if axis == 99:
        x_mean = np.mean(X)
        x_std = np.std(X)
        Z = (X - x_mean) / x_std
    if axis == 0:
        x_mean = np.mean(X,0).reshape(1,-1)
        x_std = np.std(X, 0).reshape(1, -1)
        Z = (X - x_mean) / x_std
    if axis == 1:
        x_mean = np.mean(X,1).reshape(n_row, -1)
        x_std = np.std(X,1).reshape(n_row, -1)
        Z = (X - x_mean) / x_std
        
    return Z

In [13]:
X = np.arange(12, dtype = np.float32).reshape(4,3)
normalize_ndarray(X,1)

array([[-1.2247448,  0.       ,  1.2247448],
       [-1.2247448,  0.       ,  1.2247448],
       [-1.2247448,  0.       ,  1.2247448],
       [-1.2247448,  0.       ,  1.2247448]], dtype=float32)

#### save_ndarray
- 함수목적  
    - 입력된 ndarray X를 argument filename으로 저장함

In [14]:
def save_ndarray(X, filename="test.npy"):
    file_test = open(filename, "wb")
    np.save(X, file_test)

#### boolean_index
- 함수목적  
    - 입력된 ndarray X를 String type의 condition 정보를 바탕으로 해당 컨디션에 해당하는 ndarray X의 index 번호를 반환함  
    - 단 이때, str type의 조건인 condition을 코드로 변환하기 위해서는 eval(str("X") + condition) 를 사용할 수 있음

In [15]:
def boolean_index(X, condition):
    condition = eval(str("X") + condition)
    return np.where(condition)

In [17]:
X = np.arange(32, dtype=np.float32)
boolean_index(X,">6")

(array([ 7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23,
        24, 25, 26, 27, 28, 29, 30, 31], dtype=int64),)

#### find_nearest_value
- 함수목적  
    - 입력된 vector type의 ndarray X에서 target_value와 가장 차이가 작게나는 element를 찾아 리턴함  
    - 이때 X를 list로 변경하여 처리하는 것은 실패로 간주함

In [18]:
def find_nearest_value(X, target_value):
    return X[np.argmin(np.abs(X-target_value))]

In [19]:
X = np.random.uniform(0,1,100)
target_value = 0.3
find_nearest_value(X, target_value)

0.31126254386069474

#### get_n_largest_values
- 함수목적  
    - 입력된 vector type의 ndarray X에서 큰 숫자 순서대로 n개의 값을 반환함

In [20]:
def get_n_largest_values(X, n):
    return X[np.argsort(X[::-1])[:n]]

In [24]:
X = np.random.uniform(0,1,5)
get_n_largest_values(X,3)

array([0.0899013 , 0.93856346, 0.77942355])

### Lab Build Matrix

#### get_rating_matrix

In [26]:
def get_rating_matrix(filename, dtype=np.float32):
    df = pd.read_csv(filename)
    return df.groupby(["source", "target"])["rating"].sum().unstack().fillna(0)

In [28]:
get_rating_matrix("data/movie_rating.csv")

target,Just My Luck,Lady in the Water,Snakes on a Plane,Superman Returns,The Night Listener,You Me and Dupree
source,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Claudia Puig,3.0,0.0,3.5,0.0,4.5,0.0
Gene Seymour,0.0,3.0,3.5,0.0,3.0,3.5
Jack Matthews,0.0,3.0,4.0,5.0,3.0,3.5
Lisa Rose,3.0,2.5,3.5,3.5,3.0,2.5
Mick LaSalle,2.0,3.0,4.0,3.0,3.0,0.0
Toby,0.0,0.0,4.5,4.0,0.0,0.0


#### get_frequent_matrix

In [29]:
def get_frequent_matrix(filename, dtype=np.float32):
    df = pd.read_csv(filename)
    df["rating"] = 1
    return df.groupby(["source", "target"])["rating"].sum().unstack().fillna(0)

In [30]:
get_frequent_matrix("data/1000i.csv")

target,0,1,2,3,4,5,6,7,8,9,...,40,41,42,43,44,45,46,47,48,49
source,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,19,17,14,11,17,25,7,22,5,18,...,15,14,20,9,12,16,11,9,11,12
2,20,16,10,15,17,18,10,13,5,19,...,13,12,15,9,13,16,16,10,16,9
3,12,16,13,19,23,19,5,14,5,18,...,10,14,10,17,15,16,11,17,9,11
4,14,14,19,11,11,18,7,16,7,17,...,9,16,18,12,16,16,26,16,12,20
5,13,7,8,15,13,16,3,19,11,12,...,11,10,16,8,13,20,14,18,21,3
