# DQN 값 저장 시작

## 시작전 DQN에 관하여
#### DQN 설명
##### 1. DQN은 Deep-Q-Network 줄임말이다. 이는 '강화학습'이라 불리우며 '보상을 최대화하도록 스스로 학습하는 알고리즘이라 불리운다.
##### 2. Q-Learning이라는 전통적인 강화학습 방법을 딥러닝으로 확장한 것이라 볼 수 있다.
##### 3. Q에 관하여
###### -여기서 Q값은 이 상태에서 하나의 행동을 진행하면 그에 대한 기대 보상이라 볼 수 있다.

### cosine 유사도와 다른 유사도
##### 1. 코사인 유사도: 각도의 유사성/ -1~1/ 텍스트, 백터/ 문서...
##### 2. 유클리드 거리: 절대거리(크기포함) 0~무한대/ 좌표/실수값 데이터 좌표거리 측정
##### 3. 자카드 유사도: 집합의 교칩합 합집합/0~1 이진,집합 데이터/ 태그,키워드

### 코사인 유사도 비교
#### 코사인 유사도는 데이터가 얼마나 비슷한지 수치화한 데이터인데 강화학습은 해당 선택에 관하여 보상(좋아요 비중, 선택 비중 등)을 학습하여 보다 적절한 결과를 출력
##### 1.코사인유사도: 두 데이터의 각도가 얼마나 비슷한지
##### 2.강화학습 행동을 실행할때마다 보상을 얼마나 받아갈지

### 필수 패키지

In [None]:
import torch
import torch.nn as nn
import torch.optim as optim
import pandas as pd
import numpy as np
import random
import math
import time
import itertools
import pymysql
from sqlalchemy import create_engine

### 코사인 유사도
#### 해당 과정을 통해 유사한 action 즉 DQN에서 행동에 관해 선택하는 기준을 제공
##### 현재 유사한 혜택을 가진 카드 20개를 선택해서 action을 정하도록함

In [None]:
def cosine_similarity(vec1, vec2):
    v1 = np.array(vec1)
    v2 = np.array(vec2)
    return np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2) + 1e-8)

### 데이터를 DATABASE에서 불러와 min-max 정규화 진행

In [None]:
dic = {}
conn = pymysql.connect(
    host='localhost',
    user='cardgarden',
    password='1234',
    database='cardgarden',
    charset='utf8mb4',
    cursorclass=pymysql.cursors.DictCursor
)

with conn.cursor() as cursor:
    cursor.execute("SELECT card_id, card_like FROM Card")
    rows = cursor.fetchall()
    likes = [row['card_like'] for row in rows]
    min_like = min(likes)
    max_like = max(likes)
    if max_like == min_like:
        for row in rows:
            dic[row['card_id']] = 0.5
    else:
        for row in rows:
            dic[row['card_id']] = (row['card_like'] - min_like) / (max_like - min_like)
conn.close()

### 카드 혜택 데이터 백터화

In [None]:
arr_key2 = ['모든가맹점','모빌리티','대중교통','통신','생활','쇼핑','외식/카페','뷰티/피트니스','금융/포인트','병원/약국','문화/취미','숙박/항공']
conn = pymysql.connect(
    host='localhost',
    user='cardgarden',
    password='1234',
    db='test',
    charset='utf8mb4',
    cursorclass=pymysql.cursors.DictCursor
)
try:
    with conn.cursor() as cursor:
        sql = """
        SELECT cbd.card_id,bc.benefitcategory_id
        FROM CardBenefitDetail cbd
            INNER JOIN BenefitDetail bd ON cbd.benefitdetail_id = bd.benefitdetail_id
            INNER JOIN BenefitCategory bc ON bd.benefitcategory_id = bc.benefitcategory_id;
        """
        cursor.execute(sql)
        benefitDetail = cursor.fetchall()
        cardId_dic = list({row["card_id"] for row in benefitDetail})
finally:
    conn.close()

rows = []
for card_id in cardId_dic:
    arr = [card_id] + [0] * len(arr_key2)
    for item in benefitDetail:
        if item["card_id"] == card_id:
            benefit_index = item["benefitcategory_id"] - 1
            if 0 <= benefit_index < len(arr_key2):
                arr[benefit_index + 1] = 1
    rows.append(arr)
df_card = pd.DataFrame(rows, columns=["카드번호"] + arr_key2)

### 고객 소비 데이터 벡터화(금액) 및 reward/action 매핑

In [None]:
# sql DataBase 값 불러온 후 DataFrame 형태로 저장
engine = create_engine("mysql+pymysql://cardgarden:1234@localhost/cardgarden?charset=utf8mb4")
sql_pattern = "SELECT pattern_id, user_id FROM UserConsumptionPattern "
sql_detail = "SELECT pattern_id, benefitcategory_id, amount FROM UserConsumptionPatternDetail"
sql_like = "SELECT card_id, user_id FROM LikeCard"
df_pattern_all = pd.read_sql(sql_pattern, engine)
df_detail = pd.read_sql(sql_detail, engine)
df_like = pd.read_sql(sql_like,engine)
engine.dispose()
# 카테고리값 매칭
categories = arr_key2
# 카테고리 숫자 매핑 SQL에 값을 저장하였다면 해당 과정은 SQL에서 불러온 후 매핑 진행
category_id_map = {cat: i+1 for i, cat in enumerate(categories)}
id_to_category = {v: k for k, v in category_id_map.items()}


df_detail["benefitcategory_name"] = df_detail["benefitcategory_id"].map(id_to_category)
# 새로운 DataFarme 생성
df_wide = pd.DataFrame(columns=["고객번호"] + arr_key2)
for pid in df_detail["pattern_id"].unique():
    user_id = df_pattern_all[df_pattern_all["pattern_id"] == pid]["user_id"].values[0]
    # 임시 저장 List 생성
    arr1 = [user_id] + [0] * len(arr_key2)
    subset = df_detail[df_detail["pattern_id"] == pid]
    for _, row in subset.iterrows():
        bid = row["benefitcategory_id"]
        # amount값이 있으면 해당 값을 설정 나머지는 0의 값 부여
        amount = row.get("amount", 0)
        if bid in id_to_category:
            cat_name = id_to_category[bid]
            idx = arr_key2.index(cat_name)
            arr1[idx + 1] = amount  # 금액 반영
    df_wide.loc[len(df_wide)] = arr1


# 해당 값 min-max 정규화 진행
for cat in arr_key2:
    max_amt = df_wide[cat].max()
    min_amt = df_wide[cat].min()
    if max_amt > min_amt:
        df_wide[cat] = (df_wide[cat] - min_amt) / (max_amt - min_amt)
    elif max_amt > 0:  # 전부 같은 값이지만 0이 아닌 경우
        df_wide[cat] = 1.0
    # 모두 0이면 그냥 0
# 유저별 좋아요 한 카드 목록
like_rows = {}
for i in range(len(df_like)):
    if df_like['user_id'][i] not in like_rows:
        like_rows[df_like['user_id'][i]] = []
    like_rows[df_like['user_id'][i]].append(df_like['card_id'][i])

df_sorted_desc = df_wide.sort_values(by='고객번호', ascending=True).reset_index(drop=True)
card_data = {row[0]: row[1:] for row in rows}

### 카드 action의 값을 설정하기 위한 유사한 혜택을 가진 카드 설정
#### 1. 해당 데이터는 고객이 소비패턴을 입력하고 카드를 선택한다면 해당 데이터를
#### 2. 소비패턴에 카드의 이름도 입력한다면 해당 카드 정보를

In [None]:
TOP_N = 20

action_list = []
for i in range(len(df_sorted_desc)):
    state = [df_sorted_desc[c][i] for c in arr_key2]
    similarities = []
    for card_id, card_vec in card_data.items():
        sim = cosine_similarity(state, card_vec)
        similarities.append((card_id, sim))
    similarities.sort(key=lambda x: x[1], reverse=True)
    n = min(TOP_N, len(similarities))
    top_n_cards = similarities[:n]
    chosen_card = random.choice([cid for cid, _ in top_n_cards])
    action_list.append(chosen_card)
df_sorted_desc['action'] = action_list

### action 값 채우기

In [None]:
# 좋아요 한 카드와 매핑을 위한 준비
for i, val in enumerate(df_sorted_desc['action']):
    # action 값이 비어있는(없거나 NaN, None, '') 데이터만 보정
    if pd.isna(val) or val is None or val == '':
        user_id = df_sorted_desc.loc[i, "고객번호"]  # 현재 행의 user_id 추출
        possible_values = []
        # 해당 user가 좋아요 한 카드가 있다면 후보로 설정
        if user_id in like_rows and like_rows[user_id]:
            possible_values = like_rows[user_id]
        else:
            # 없다면 모든 유저의 좋아요 카드 id를 후보로 설정 (랜덤 추출을 위함)
            possible_values = [item for sublist in like_rows.values() for item in sublist]
        if possible_values:
            # 후보 카드가 있으면 랜덤으로 하나 선택해서 action에 할당
            df_sorted_desc.at[i, 'action'] = random.choice(possible_values)
        else:
            # 후보도 없다면 action에 None 기록
            df_sorted_desc.at[i, 'action'] = None

# 좋아요 한 카드를 본격적인 매칭 (reward 값 할당)
like_list = []
for i in range(len(df_sorted_desc)):
    act = df_sorted_desc['action'][i]  # action(카드 id) 추출
    # 카드별 reward 점수(dic에 있으면 사용, 없으면 0.5의 기본값)
    like_list.append(dic[act] if act in dic else 0.5)
df_sorted_desc['reward'] = like_list  # reward 컬럼 추가

# 카드데이터 리스트 추출하여 ID값 설정
card_ids = [df_card["카드번호"].iloc[i] for i in range(len(df_card))]  # 전체 카드 id 리스트
action_size = len(card_ids)  # 전체 카드 개수(action space size)
card_data = {row[0]: row[1:] for row in rows}  # 카드 id별 벡터(또는 feature) dict

# 학습 전 본격적인 training_data 설정
training_data = []
for i in range(len(df_sorted_desc)):
    # 각 샘플의 상태(state): 카테고리별 소비 패턴 벡터
    state = [df_sorted_desc[c][i] for c in arr_key2]
    action = df_sorted_desc['action'][i]  # 추천된(또는 보정된) 카드 id
    reward = df_sorted_desc['reward'][i]  # reward 값
    training_data.append({
        "user_id": df_sorted_desc['고객번호'][i],  # 고객번호
        "state": state,                           # 소비 패턴(입력 특성 벡터)
        "action": action,                         # 추천/선택된 카드 id
        "reward": reward                          # reward 값(좋아요 등)
    })

# 실제 카드 id 집합 (유효 카드 id만 필터링용)
valid_card_ids = set(card_data.keys())


# 이 아래서 실제 학습에 쓸 데이터만 골라낼 리스트(아직 비어있음)
filtered_training_data = []

# 각 샘플(state-action 쌍)에 대해 추가 보정된 reward 계산
for i, sample in enumerate(training_data):
    state = np.array(sample["state"])
    action_key = int(sample["action"])
    # 카드 정보 없는 경우 스킵
    if action_key not in card_data:
        continue
    card_vec = np.array(card_data[action_key])
    sim = cosine_similarity(state, card_vec)

    # 💡 sim(유사도)이 0.05 이하라면 강하게 패널티 (거의 매칭이 안된 케이스)
    if sim <= 0.05:
        reward = 0.01   # 아주 낮은 reward (실패 케이스)
    else:
        user_id = sample["user_id"]
        user_likes = like_rows.get(user_id, [])
        if user_likes:
            # 유저가 좋아요한 카드들과 현재 action 카드와의 유사도 평균
            like_sims = [cosine_similarity(card_vec, card_data[like_id]) for like_id in user_likes if like_id in card_data]
            like_sim_score = np.mean(like_sims) if like_sims else 0
        else:
            like_sim_score = 0
        # reward 계산 (좋아요 점수, 코사인 유사도, 좋아요 카드와의 유사도 가중합)
        reward = 0.4 * dic.get(action_key, 0.5) + 0.4 * sim + 0.2 * like_sim_score
    training_data[i]["reward"] = reward  # reward 값 갱신

# 전체 action(카드id) 모음 → action 인덱스 부여용
all_actions = set(int(sample["action"]) for sample in training_data if sample["action"] is not None)
card_id_to_index = {action: idx for idx, action in enumerate(sorted(all_actions))}
state_size = 12   # 입력 벡터(소비 카테고리) 차원 수

### 학습 시작

In [None]:
class DQN(nn.Module):
    def __init__(self, state_size, action_size):
        super(DQN, self).__init__()
        # 3층 fully-connected(완전연결) 신경망
        self.fc1 = nn.Linear(state_size, 32)
        self.fc2 = nn.Linear(32, 32)
        self.fc3 = nn.Linear(32, action_size)
    def forward(self, x):
        # 순전파: relu → relu → (최종 layer는 선형)
        x = torch.relu(self.fc1(x))
        x = torch.relu(self.fc2(x))
        return self.fc3(x)

model = DQN(state_size, action_size)    # DQN 네트워크 인스턴스 생성
optimizer = optim.Adam(model.parameters(), lr=0.001)  # Adam 옵티마이저
criterion = nn.MSELoss()    # 손실 함수: 평균제곱오차(MSE)
patience = 30               # 조기 종료를 위한 patience 설정
best_loss = float('inf')
trigger_times = 0

# DQN 학습 루프 (최대 200 epoch)
for epoch in range(200):
    total_loss = 0
    for sample in training_data:
        state = torch.tensor(sample["state"], dtype=torch.float32)     # 입력 state 벡터
        action_value = sample["action"]                                # 실제 action(card id)
        try:
            action = card_id_to_index[int(action_value)]               # action 인덱스
        except KeyError:
            print(f"존재하지 않는 키입니다: {action_value}")           # mapping 안 된 경우 건너뜀
            continue
        reward = sample["reward"]                                      # reward 값
        q_values = model(state)                                        # Q값 추정 (모든 action에 대해)
        target = q_values.clone().detach()                             # 타겟 Q값: 복사본
        target[action] = reward                                        # 실제 action의 Q만 reward로 대체
        loss = criterion(q_values, target)                             # 손실 계산
        optimizer.zero_grad()                                          # 기울기 0 초기화
        loss.backward()                                                # 역전파
        optimizer.step()                                               # 가중치 업데이트
        total_loss += loss.item()
    if epoch % 20 == 0:
        print(f"Epoch {epoch}, Loss: {total_loss:.4f}")                # 20 epoch마다 손실 출력
    if total_loss < best_loss:                                         # 조기종료 조건 체크
        best_loss = total_loss
        trigger_times = 0
    else:
        trigger_times += 1
        if trigger_times >= patience:
            print(f"🛑 조기 종료 at epoch {epoch} (Loss 미개선 {patience}회)")
            break

### 결과 값 저장

In [None]:
# 모든 (카테고리별 0/1 조합) state에 대해 Q값 테이블 생성 (이진 feature의 모든 조합)
levels = [0.0, 1.0]
n = 12  # 카테고리 수
user_states = list(itertools.product(levels, repeat=n))  # 가능한 모든 상태 조합

data = []
for user_state in user_states:
    state_tensor = torch.tensor(user_state, dtype=torch.float32)
    q_values = model(state_tensor)
    row = {"user_state": ",".join([f"{v:.3f}" for v in user_state])}
    # 각 카드 id 별 Q값 저장
    for cid in card_id_to_index.keys():
        row[str(cid)] = q_values[card_id_to_index[cid]].item()
    data.append(row)

df = pd.DataFrame(data)
df.to_parquet("/Users/isanghyeon/Documents/workspace-sts-3.9.18.RELEASE/cardgarden/python/result/q_table_continuous1.parquet")
print("✅ Q값 테이블을 Parquet 파일(q_table_continuous1.parquet)로 저장했습니다.")
