In [None]:
# 각 단어별 벡터값 이미 임베딩 (어디에 기준이 되는 게 아니라 단어 독자적인 벡터값)

In [13]:
import os
import time
import numpy as np
import pandas as pd
import nltk
from nltk.corpus import stopwords
from gensim.models import Word2Vec
from supabase import create_client, Client

# Stopwords 다운로드
nltk.download('punkt')
nltk.download('stopwords')

# Supabase 클라이언트 설정
url = "https://nhcmippskpgkykwsumqp.supabase.co"
key = "eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJzdXBhYmFzZSIsInJlZiI6Im5oY21pcHBza3Bna3lrd3N1bXFwIiwicm9sZSI6ImFub24iLCJpYXQiOjE3MjE2MjYyNzEsImV4cCI6MjAzNzIwMjI3MX0.quApu8EwzqcTgcxdWezDvpZIHSX9LKVQ_NytpLBeAiY"
supabase: Client = create_client(url, key)

# 텍스트 전처리 함수
def preprocess_text(text):
    stop_words = set(stopwords.words('english'))
    words = []
    if isinstance(text, list):
        for phrase in text:
            words.extend([word.lower() for word in nltk.word_tokenize(phrase) if word.isalnum() and word not in stop_words])
    else:
        words = [word.lower() for word in nltk.word_tokenize(text) if word.isalnum() and word not in stop_words]
    return words

# Word2Vec 모델 훈련 및 저장 함수
def train_and_save_word2vec(games, model_path):
    sentences = [preprocess_text(game['description_phrases']) for game in games if game['description_phrases']]
    sentences = [sentence for sentence in sentences if sentence]  # 빈 문장 제거
    print(f"전처리된 문장 수: {len(sentences)}")  # 디버깅용 출력
    start_time = time.time()
    model = Word2Vec(sentences, vector_size=150, window=7, min_count=2, workers=4, epochs=10, seed=42)
    end_time = time.time()
    print(f"훈련 시간: {end_time - start_time:.2f}초")
    model.save(model_path)
    print(f"Word2Vec 모델이 {model_path}에 저장되었습니다.")

# 페이지네이션을 사용하여 모든 데이터를 가져오는 함수
def fetch_all_games():
    limit = 1000
    offset = 0
    all_games = []
    
    while True:
        response = supabase.table('steamsearcher_duplicate').select('appid, name, genre, recommendation_count, description_phrases').range(offset, offset + limit - 1).execute()
        games = response.data
        if not games:
            break
        all_games.extend(games)
        offset += limit
        print(f"가져온 게임 데이터 개수: {len(all_games)}")  # 진행 상황 출력
    
    return all_games

# 게임 데이터를 미리 임베딩하고 저장하는 함수
def embed_and_save_game_data(model_path, embed_path):
    games = fetch_all_games()
    print(f"총 가져온 게임 데이터 개수: {len(games)}")
    
    model = Word2Vec.load(model_path)
    embeddings = []
    
    for game in games:
        if not game['description_phrases']:
            continue
        game_words = preprocess_text(game['description_phrases'])
        game_vectors = [model.wv[word] for word in game_words if word in model.wv]
        if not game_vectors:
            continue
        game_embedding = np.mean(game_vectors, axis=0)
        embeddings.append({
            'appid': game['appid'],
            'name': game['name'],
            'genre': game['genre'],
            'recommendation_count': game['recommendation_count'],
            'embedding': game_embedding,
            'embedding_words': game_words
        })
    
    df = pd.DataFrame(embeddings)
    df.to_pickle(embed_path)
    print(f"임베딩 데이터가 {embed_path}에 저장되었습니다.")

# 임베딩 저장 함수 호출
if __name__ == "__main__":
    model_dir = "models"
    os.makedirs(model_dir, exist_ok=True)
    model_path = os.path.join(model_dir, 'word2vec_model.bin')
    
    embed_path = os.path.join(model_dir, 'game_embeddings.pkl')
    
    # 모델 학습 및 저장
    games = fetch_all_games()
    train_and_save_word2vec(games, model_path)
    
    # 게임 데이터 임베딩 및 저장
    embed_and_save_game_data(model_path, embed_path)

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\USER\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\USER\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


가져온 게임 데이터 개수: 1000
가져온 게임 데이터 개수: 2000
가져온 게임 데이터 개수: 3000
가져온 게임 데이터 개수: 4000
가져온 게임 데이터 개수: 5000
가져온 게임 데이터 개수: 6000
가져온 게임 데이터 개수: 7000
가져온 게임 데이터 개수: 8000
가져온 게임 데이터 개수: 9000
가져온 게임 데이터 개수: 10000
가져온 게임 데이터 개수: 11000
가져온 게임 데이터 개수: 12000
가져온 게임 데이터 개수: 13000
가져온 게임 데이터 개수: 14000
가져온 게임 데이터 개수: 15000
가져온 게임 데이터 개수: 16000
가져온 게임 데이터 개수: 17000
가져온 게임 데이터 개수: 18000
가져온 게임 데이터 개수: 19000
가져온 게임 데이터 개수: 20000
가져온 게임 데이터 개수: 21000
가져온 게임 데이터 개수: 22000
가져온 게임 데이터 개수: 23000
가져온 게임 데이터 개수: 24000
가져온 게임 데이터 개수: 25000
가져온 게임 데이터 개수: 26000
가져온 게임 데이터 개수: 26249
전처리된 문장 수: 24893
훈련 시간: 7.60초
Word2Vec 모델이 models\word2vec_model.bin에 저장되었습니다.
가져온 게임 데이터 개수: 1000
가져온 게임 데이터 개수: 2000
가져온 게임 데이터 개수: 3000
가져온 게임 데이터 개수: 4000
가져온 게임 데이터 개수: 5000
가져온 게임 데이터 개수: 6000
가져온 게임 데이터 개수: 7000
가져온 게임 데이터 개수: 8000
가져온 게임 데이터 개수: 9000
가져온 게임 데이터 개수: 10000
가져온 게임 데이터 개수: 11000
가져온 게임 데이터 개수: 12000
가져온 게임 데이터 개수: 13000
가져온 게임 데이터 개수: 14000
가져온 게임 데이터 개수: 15000
가져온 게임 데이터 개수: 16000
가져온 게임 데이터 개수: 17000
가져온 게임 데이터 개수: 

In [None]:
# 검색

In [9]:
!pip install faiss-cpu

Collecting faiss-cpu
  Downloading faiss_cpu-1.8.0.post1-cp312-cp312-win_amd64.whl.metadata (3.8 kB)
Downloading faiss_cpu-1.8.0.post1-cp312-cp312-win_amd64.whl (14.6 MB)
   ---------------------------------------- 0.0/14.6 MB ? eta -:--:--
    --------------------------------------- 0.2/14.6 MB 7.6 MB/s eta 0:00:02
   -- ------------------------------------- 0.8/14.6 MB 10.6 MB/s eta 0:00:02
   ----- ---------------------------------- 1.9/14.6 MB 15.3 MB/s eta 0:00:01
   -------- ------------------------------- 2.9/14.6 MB 17.1 MB/s eta 0:00:01
   ---------- ----------------------------- 3.8/14.6 MB 17.4 MB/s eta 0:00:01
   ------------- -------------------------- 4.9/14.6 MB 18.6 MB/s eta 0:00:01
   ---------------- ----------------------- 6.0/14.6 MB 19.2 MB/s eta 0:00:01
   ------------------- -------------------- 7.1/14.6 MB 19.9 MB/s eta 0:00:01
   ---------------------- ----------------- 8.1/14.6 MB 19.8 MB/s eta 0:00:01
   ---------------------- ----------------- 8.2/14.6 MB 20

In [1]:
import os
import numpy as np
import pandas as pd
import nltk
from nltk.corpus import stopwords
from gensim.models import Word2Vec
from sklearn.metrics.pairwise import cosine_similarity

# Stopwords 다운로드
nltk.download('punkt')
nltk.download('stopwords')

# 텍스트 전처리 함수
def preprocess_text(text):
    stop_words = set(stopwords.words('english'))
    words = []
    if isinstance(text, list):
        for phrase in text:
            words.extend([word.lower() for word in nltk.word_tokenize(phrase) if word.isalnum() and word not in stop_words])
    else:
        words = [word.lower() for word in nltk.word_tokenize(text) if word.isalnum() and word not in stop_words]
    return words

# 검색어와 유사한 단어를 포함하는 게임을 찾는 함수
def search_games(query, model, embeddings_df):
    query_words = preprocess_text(query)
    if not query_words:
        print("검색어가 너무 짧습니다.")
        return []

    similar_words = []
    for word in query_words:
        if word in model.wv:
            similar_words.extend([w for w, _ in model.wv.most_similar(word, topn=10)])
    
    similar_words = set(similar_words)  # 유사한 단어들을 집합으로 만듭니다.

    # 유사한 단어를 포함하는 게임 찾기
    results = []
    for _, row in embeddings_df.iterrows():
        game_words = set(row['embedding_words'])
        common_words = game_words.intersection(similar_words)
        if common_words:
            results.append({
                'name': row['name'],
                'genre': row['genre'],
                'recommendation_count': row['recommendation_count'],
                'common_words': common_words
            })

    results.sort(key=lambda x: -x['recommendation_count'])

    return results[:10]

# 검색어 입력 및 결과 출력
def main_search():
    query = input("검색어를 입력하세요: ")

    # 모델 로드 경로 설정
    model_dir = "models"
    model_path = os.path.join(model_dir, 'word2vec_model.bin')
    embed_path = os.path.join(model_dir, 'game_embeddings.pkl')
    
    model = Word2Vec.load(model_path)
    embeddings_df = pd.read_pickle(embed_path)

    top_games = search_games(query, model, embeddings_df)

    print(f"검색어: {query}")
    for game in top_games:
        print(f"Name: {game['name']}, Genre: {game['genre']}, Recommendation Count: {game['recommendation_count']}")
        print(f"Common Words: {', '.join(game['common_words'])}")

# 검색 함수 호출
if __name__ == "__main__":
    main_search()


[nltk_data] Downloading package punkt to /home/downtown/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /home/downtown/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


검색어: battle
Name: Battlefield™ 2042, Genre: Action, Adventure, Casual, Recommendation Count: 208302
Common Words: battlefield
Name: Titanfall® 2, Genre: Action, Recommendation Count: 197493
Common Words: blast, campaign
Name: Battlefield™ V, Genre: Action, Recommendation Count: 189366
Common Words: battlefield, battles
Name: Battlefield™ 1, Genre: Action, Massively Multiplayer, Recommendation Count: 132762
Common Words: battlefield, battles
Name: STAR WARS Jedi: Fallen Order™, Genre: Action, Adventure, Recommendation Count: 126185
Common Words: battles
Name: ULTRAKILL, Genre: Action, Indie, Early Access, Recommendation Count: 107448
Common Words: attacks, campaign
Name: MORDHAU, Genre: Action, Indie, Recommendation Count: 90396
Common Words: battlefield, attacks, brutal
Name: FOR HONOR™, Genre: Action, Recommendation Count: 89739
Common Words: battles
Name: Ravenfield, Genre: Action, Indie, Early Access, Recommendation Count: 65171
Common Words: battles
Name: METAL GEAR SOLID V: THE PH