In [14]:
import pandas as pd
import numpy as np

# 간단한 영화 데이터 생성
movie_data = {
    'movie_id': [101, 102, 103, 104, 105],
    'title': ['Movie A', 'Movie B', 'Movie C', 'Movie D', 'Movie E'],
    'genre': ['Action', 'Comedy', 'Action', 'Comedy', 'Drama']
}

user_ratings = {
    'user_id': [1, 1, 1, 2, 2],
    'movie_id': [101, 102, 103, 104, 105],
    'rating': [5, 3, 4, 4, 5]
}

movie_df = pd.DataFrame(movie_data)
user_ratings_df = pd.DataFrame(user_ratings)

# user_ratings_df


In [12]:
# 장르를 one-hot encoding하여 콘텐츠 기반 행렬 생성
movie_df['genre_encoded'] = pd.get_dummies(movie_df['genre']).values.tolist()

In [15]:
# 특정 사용자가 평가한 영화의 장르 벡터를 가져옴
target_user_ratings = user_ratings_df[user_ratings_df['user_id'] == 1]
rated_movies = movie_df[movie_df['movie_id'].isin(target_user_ratings['movie_id'])]
user_genre_profile = np.mean(np.array(rated_movies['genre_encoded'].tolist()), axis=0)

# 나머지 영화와의 유사도 계산
movie_df['similarity'] = movie_df['genre_encoded'].apply(lambda x: np.dot(user_genre_profile, x))

# 추천할 영화 선택 (사용자가 보지 않은 영화)
recommendations = movie_df[~movie_df['movie_id'].isin(target_user_ratings['movie_id'])].sort_values(by='similarity', ascending=False)
print(f"Recommendations for user 1 based on content: {recommendations[['title', 'similarity']]}")

KeyError: 'genre_encoded'

| 코드 줄 | 사용한 함수 / 문법 | 함수 종류 | 역할 설명 |
|--------|-------------------|---------|-----------|
| pd.DataFrame(movie_data) | pd.DataFrame() | Pandas 함수 | 파이썬 데이터 → 데이터프레임 생성 |
| pd.DataFrame(user_ratings) | pd.DataFrame() | Pandas 함수 | 사용자 평점 데이터 → 데이터프레임 생성 |
| pd.get_dummies(movie_df['genre']) | pd.get_dummies() | Pandas 함수 | 범주형 데이터 → One-Hot Encoding |
| .values | .values | Pandas 속성 | DataFrame → Numpy 배열 |
| .tolist() | .tolist() | Numpy / Python 메서드 | 배열 → 파이썬 리스트 |
| user_ratings_df[user_ratings_df['user_id'] == 1] | Boolean Indexing | Pandas 문법 | 특정 사용자 데이터 필터링 |
| .isin() | .isin() | Pandas 함수 | 특정 값 포함 여부 확인 |
| movie_df[ ... ] | Boolean Indexing | Pandas 문법 | 조건에 맞는 영화 행 선택 |
| np.array() | np.array() | Numpy 함수 | 리스트 → Numpy 배열 |
| np.mean(..., axis=0) | np.mean() | Numpy 함수 | 여러 장르 벡터 평균 계산 |
| axis=0 | 축 지정 옵션 | Numpy 옵션 | 열 단위 평균 |