## 분산(variance)
- 1개의 이산정도를 나타냄
- 편차제곱의 평균

$ variance = \frac{\sum_{i=1}^n{(x_i-\bar{x})^2}}{n}, (\bar{x}:평균) $

In [10]:
data1 = np.array([80,85,100,90,95])
data2 = np.array([70,80,100,95,95])
# 분산
def variance(data):
    avg = np.average(data)
    var = 0
    for num in data:
        var += (num - avg) ** 2
    return var / len(data)

variance(data1), variance(data2), variance(data1)**0.5, variance(data2)**0.5

(50.0, 126.0, 7.0710678118654755, 11.224972160321824)

In [11]:
# numpy 분산, 표준편차
np.var(data1), np.var(data2), np.std(data1), np.std(data2)

(50.0, 126.0, 7.0710678118654755, 11.224972160321824)

## 공분산(covariance)
- 2개의 확률변수의 상관정도를 나타냄
- 평균 편차곱
- 방향성은 보여줄수 있으나 강도를 나타내는데 한계가 있음 (표본데이터의 크기에 따라서 값이 많이 달라짐)

$ covariance = \frac{\sum_{i=1}^{n}{(x_i-\bar{x})(y_i-\bar{y})}}{n}, (\bar{x}:x의 평균, \bar{y}:y의 평균) $

In [14]:
def covariance(data1, data2):
    avgx = np.average(data1)
    avgy = np.average(data2)    
    cov = 0
    for i in range(len(data1)):
        cov += (data1[i] - avgx) * (data2[i] - avgy)
    return cov / (len(data1) - 1)
covariance(data1, data2)

93.75

In [13]:
np.cov(data1,data2)

array([[ 62.5 ,  93.75],
       [ 93.75, 157.5 ]])

## 상관계수(correlation coefficient)
- 공분산의 한계를 극복하기 위해서 만들어짐
- -1 ~ 1까지의 수를 가지며 0과 가까울수록 상관도가 적음을 의미
- x의 분산과 y의 분산을 곱한 결과의 제곱근을 나눠주면 x나 y의 변화량이 클수록 0에 가까워짐

$ correlation-coefficient = \frac{공분산}{\sqrt{{x분산} \cdot {y분산}}} $

$ r = \frac{\sum(x-\bar{x})(y-\bar{y})}{\sqrt{{\sum(x-\bar{x})^2}\cdot{\sum(y-\bar{y})^2}}} $

In [15]:
def cc(data1, data2):
    x_ = np.average(data1)
    y_ = np.average(data2) 
    cov, xv, yv = 0, 0, 0
    for idx in range(len(data1)):
        cov += (data1[idx] - x_) * (data2[idx]- y_)
        xv += (data1[idx] - x_) ** 2
        yv += (data2[idx] - y_) ** 2
    return cov / ((xv*yv) **0.5)
print(cc(data1, data2))
np.corrcoef(data1, data2)

0.944911182523068


array([[1.        , 0.94491118],
       [0.94491118, 1.        ]])

In [16]:
# 승점
point = np.array([81,65,63,61,56,48,43,40,40,36,36,34,32,31,31,30,30,28,27,20])

# 득점
gf = np.array([85,58,73,59,52,55,27,45,37,37,39,28,30,25,25,30,36,29,29,24])

# 실점
ga = np.array([20,23,34,25,27,41,26,43,50,49,55,40,40,42,52,48,57,44,58,49])

np.corrcoef(point, gf)[0][1], np.corrcoef(ga, gf)[0][1], np.corrcoef(point, ga)[0][1], 

(0.9364548116039458, -0.6418821483404011, -0.8231510970282535)

## Euclidean Distance Similarity - 유클리드 거리 유사도

$similarit y = \sqrt{\sum_i (A_i -b_i)^2}$

In [3]:
vector_1 = np.array([1,2,3,4,5])
vector_2 = np.array([5,4,3,2,1])
print(np.sqrt(sum((vector_1 - vector_2) ** 2)))
np.linalg.norm(vector_1 - vector_2)

6.324555320336759


6.324555320336759

## Cosine Similarity - 코사인 유사도

$Similarity = cos(\theta)= \dfrac{A \cdot B}{\| A \|\| B \|}$


d는 Euclidean Distance를 의미하며, $\theta$의 를 의미합니다.

두개의 유사도는 하나는 거리를 하나는 각도를 의미하는 수치를 나타냅니다. 

그러므로 d 값이 작다고해서 $\theta값$이 작은건 아니며 $\theta값$값이 크다고해서 d 값이 큰것은 아닙니다

In [6]:
print(np.dot(vector_1, vector_2) / (np.sqrt(np.dot(vector_1, vector_1)) * np.sqrt(np.dot(vector_2,
vector_2))) )
from scipy import spatial
1 - spatial.distance.cosine(vector_1, vector_2)

0.6363636363636364


0.6363636363636364

## Recommend System - 추천 시스템
 
- sample dataset - 간단한 샘플 데이터
- similarity matrix - 사용자 기반의 유사도 행렬
- similarity mean score matrix - 추천할 대상에 대한 평균 스코어 행렬
- recommend - 평균 스코어 행렬로 추천할 컨텐츠 순서
- error - 오차 - MSE, RMSE, MAE

### (1) Sample Dataset - 샘플 데이터

In [17]:
from scipy import spatial
6
# sample data set matrix
columns = ["article_1","article_2","article_3","article_4","article_5"]
index = ["user_1", "user_2", "user_3", "user_4"]
data = np.array([
 [5,3,0,0,2],
 [2,0,0,1,4],
 [0,0,4,3,1],
 [4,0,4,5,0],
])
sample_df = pd.DataFrame(data, columns=columns, index=index)
sample_df

Unnamed: 0,article_1,article_2,article_3,article_4,article_5
user_1,5,3,0,0,2
user_2,2,0,0,1,4
user_3,0,0,4,3,1
user_4,4,0,4,5,0


### (2) Similarity Matrix - 유사도 행렬

In [18]:
# 코사인 유사도 구하는 함수
def cosine_smimilarity(vector_1, vector_2):
    # vector_1 데이터가 0인 index를 제거
    idx = vector_1.nonzero()[0] # vector에서 value가 0이 아닌 index를 구함
    # index 값으로 vector의 요소를 필터링 함
    vector_1, vector_2 = np.array(vector_1)[idx], np.array(vector_2)[idx]

    return 1 - spatial.distance.cosine(vector_1, vector_2)

In [20]:
# 유사도 행렬 함수
def similarity_matrix(sample_df, similarity_func):
    # index 데이터 저장
    index = sample_df.index

    # 데이터 프레임 전치 (index - article, columns - user)
    df = sample_df.T

    # 모든 user 데이터 사이의 유사도를 구해 행렬 생성
    matrix = []
    for idx_1, value_1 in df.items():
        # row 데이터 저장
        row = []
        for idx_2, value_2 in df.items():
        # 두 user 사이의 유사도 구함
        
            row.append(similarity_func(value_1, value_2))
        matrix.append(row)

    return pd.DataFrame(matrix, columns=index, index=index)
sm_df = similarity_matrix(sample_df, cosine_smimilarity)
sm_df

Unnamed: 0,user_1,user_2,user_3,user_4
user_1,1.0,0.652929,0.324443,0.811107
user_2,0.729397,1.0,0.483046,0.443039
user_3,0.196116,0.332956,1.0,0.949474
user_4,0.529813,0.770054,0.82121,1.0


### (3) Similarity Mean Score Matrix - 유사도 평균값 행렬

In [21]:
# 추천할 대상 및 추천 대상과 유사한 몇개의 데이터까지 사용할지에 대해 설정
user, closer_count = "user_1", 2
# 본인 데이터 제거
ms_df = sm_df.drop(user)
# 유사도가 높은 순으로 sorting
ms_df = ms_df.sort_values(user, ascending=False)
# 위의 설정 대로 컨텐츠를 추천할 사용자와 유사도가 높은 사용자 필터링
ms_df = ms_df[:closer_count]

ms_df



Unnamed: 0,user_1,user_2,user_3,user_4
user_2,0.729397,1.0,0.483046,0.443039
user_4,0.529813,0.770054,0.82121,1.0


In [22]:
sample_df.loc[ms_df.index]
#user_1과 유사도가 높은 상위 2명 user에 대한 데이터 입니다.


Unnamed: 0,article_1,article_2,article_3,article_4,article_5
user_2,2,0,0,1,4
user_4,4,0,4,5,0


In [24]:
# 유사도가 높은 user에 대한 평균값 구하는 함수
def mean_score(sample_df, sm_df, target, closer_count):

    # 유사도 행렬에서 추천 user와 가까운 user의 유사도 데이터 프레임
    ms_df = sm_df.drop(target)
    ms_df = ms_df.sort_values(target, ascending=False)
    ms_df = ms_df[target][:closer_count]

    # 유사도가 높은 user를 나타내는 데이터 프레임
    ms_df = sample_df.loc[ms_df.index]

    # 결과 데이터 프레임 생성
    pred_df = pd.DataFrame(columns=sample_df.columns)
    pred_df.loc["user"] = sample_df.loc[target]
    pred_df.loc["mean"] = ms_df.mean()

    return pred_df


# user 데이터에 대한 컨텐츠별 평균을 구해줍니다.

In [25]:
# 결과 데이터 - sample_df : sample dataframe, sm_df : similarity matrix dataframe
target, closer_count = "user_1", 2
pred_df = mean_score(sample_df, sm_df, target, closer_count)
pred_df

Unnamed: 0,article_1,article_2,article_3,article_4,article_5
user,5,3,0,0,2
mean,3,0,2,3,2


### (4) Recommend - 추천

In [26]:
# user가 읽지 않은 기사를 순서대로 나열 추천 기사 정렬 및 출력
recommand_df = pred_df.T
recommand_df = recommand_df[recommand_df["user"] == 0]
recommand_df = recommand_df.sort_values("mean", ascending=False)
print(list(recommand_df.index))
recommand_df

['article_4', 'article_3']


Unnamed: 0,user,mean
article_4,0,3
article_3,0,2


### (5) Performance Evaluation - 성능 측정

In [28]:
def mse(value, pred):
    # user 데이터에서 0인 데이터 제거
    idx = value.nonzero()[0]
    value, pred = np.array(value)[idx], np.array(pred)[idx]
    # 수식 계산후 결과 리턴
    return sum((value - pred)**2) / len(idx)
mse(pred_df.loc["user"], pred_df.loc["mean"])

4.333333333333333

In [29]:
# 전체 user에 대한 평가
def evaluate(df, sm_df, closer_count, algorithm):

    # user 리스트
    users = df.index
    evaluate_list = []

    # 모든 user에 대해서 mae 값을 구함
    for target in users:
        result_df = mean_score(df, sm_df, target, closer_count)
        evaluate_list.append(algorithm(result_df.loc["user"], result_df.loc["mean"]))

    # 모든 user의 mae값의 평균을 리턴
    return np.average(evaluate_list)
evaluate(sample_df, sm_df, 2, mse)

4.5

In [30]:
def rmse(value, pred):
    # user 데이터에서 0인 데이터 제거
    idx = value.nonzero()[0]
    value, pred = np.array(value)[idx], np.array(pred)[idx]

    # 수식 계산후 결과 리턴
    return np.sqrt(sum((value - pred)**2) / len(idx))
rmse(pred_df.loc["user"], pred_df.loc["mean"])

2.0816659994661326

In [31]:
evaluate(sample_df, sm_df, closer_count, rmse)

2.067791827548017

In [33]:
# 한명의 user에 대한 MAE 값
def mae(value, pred):

    # user 데이터에서 0인 데이터 제거
    idx = value.nonzero()[0]
    value, pred = np.array(value)[idx], np.array(pred)[idx]
    # 수식 계산후 결과 리턴
    return np.absolute(sum(value - pred)) / len(idx)
mae(pred_df.loc["user"], pred_df.loc["mean"])

1.6666666666666667

In [35]:
evaluate(sample_df, sm_df, closer_count, mae)

1.1666666666666667