### 수행단계
- 아래 데이터를 활용해서 추천 개수에 따라 달라지는 정밀도와 재현율을 확인한다.
- 데이터는 KMRD-small 데이터에서 사용자별 평가를 10개만 한 사용자와 영화별 평점 개수가 [60, 200)인 영화를 간추린 내용 중 일부이다.
- K개의 영화를 추천 했을 경우 사용자가 관심 있는 영화 비율을 Precision@K 라고 한다. (TP / (TP + FP))
- 사용자가 관심 있는 영화 중 추천한 영화 K개가 포함되는 비율을 Recall@K 라고 한다. (TP / (TP + FN))
(가위손, 나 홀로 집에, 대부, 사운드 오브 뮤직) 4개 영화를 추천했다고 했을 경우 사용자별 정밀도와 재현율을 계산해본다.

<!-- Precision@K와 Recall@K 정의

1. Precision@K (정밀도): 추천한 영화들 중 사용자가 실제로 평가한 영화의 비율
공식: Precision@K = TP / (TP + FP)
TP (True Positive): 추천한 영화 중 사용자가 평가한 영화
FP (False Positive): 추천한 영화 중 사용자가 평가하지 않은 영화

2. Recall@K (재현율): 사용자가 실제로 평가한 영화 중 추천된 영화의 비율
공식: Recall@K = TP / (TP + FN)
TP (True Positive): 추천한 영화 중 사용자가 평가한 영화
FN (False Negative): 사용자가 평가한 영화 중 추천되지 않은 영화 -->

In [10]:
import pandas as pd

csv_file_path = 'movie_ratings_with_users.csv' 

df = pd.read_csv(csv_file_path)

# 추천 영화 리스트
recommended_movies = ["가위손", "나 홀로 집에", "대부", "사운드 오브 뮤직"]

# Precision@K와 Recall@K를 계산할 함수
def calculate_precision_recall(df, recommended_movies, user_index):
    # 사용자 데이터 (해당 사용자가 평가한 영화 리스트 중 추천된 영화만 추출)
    user_data = df.iloc[user_index, 1:].values
    recommended_data = df.iloc[user_index][recommended_movies].values
    
    # Precision@K 계산
    # True Positive (TP): 추천된 영화 중 실제로 평가한 영화
    TP = sum((recommended_data == 1))
    # False Positive (FP): 추천된 영화 중 실제로 평가하지 않은 영화
    FP = len(recommended_data) - TP
    
    # Precision@K = TP / (TP + FP)
    precision = TP / (TP + FP) if (TP + FP) != 0 else 0
    
    # Recall@K 계산
    # 사용자 평가 데이터에서 추천된 영화만 추출
    user_interested = sum(user_data)
    FN = user_interested - TP  # False Negative: 관심 있지만 추천되지 않은 영화
    
    # Recall@K = TP / (TP + FN)
    recall = TP / (TP + FN) if (TP + FN) != 0 else 0
    
    return precision, recall

# 사용자별 Precision@K와 Recall@K 계산
precision_list = []
recall_list = []

for user_index in range(df.shape[0]):
    precision, recall = calculate_precision_recall(df, recommended_movies, user_index)
    precision_list.append(precision)
    recall_list.append(recall)

results = pd.DataFrame({
    "사용자": df.iloc[:, 0],
    "Precision@K (정밀도)": precision_list,
    "Recall@K (재현율)": recall_list
})

print(results)


     사용자  Precision@K (정밀도)  Recall@K (재현율)
0   1917               0.75        0.428571
1  10418               0.75        0.600000
2   1980               1.00        0.666667
3   2277               0.75        0.500000
4   1805               0.75        0.428571
5   5136               0.75        0.500000
6   1561               0.50        0.333333
7   1105               0.75        0.600000
8   1312               0.50        0.400000
9   3189               0.50        0.333333
