## 데이터 전처리

In [None]:
import os
import json
import pandas as pd
from tqdm import tqdm

# 전처리된 결과 저장 리스트
all_data = []

# 루트 디렉토리 설정
root_dir = "/content/drive/MyDrive/kt_bigproject/data/train"

# 모든 JSON 파일 수집
json_files = []
for dirpath, dirnames, filenames in os.walk(root_dir):
    for filename in filenames:
        if filename.endswith(".json"):
            json_files.append(os.path.join(dirpath, filename))

# 전처리 수행
for full_path in tqdm(json_files, desc="📂 JSON 처리 중"):
    try:
        with open(full_path, "r", encoding="utf-8") as f:
            raw = json.load(f)
            dataset = raw.get("dataset", [])
            for entry in dataset:
                claims = entry.get("claims", "").strip()
                ipc = entry.get("ipc_main", "").strip()
                title = entry.get("invention_title", "").strip()
                year = entry.get("application_year", "").strip()

                # 필터 조건: claims 30자 이상, ipc와 title 존재, 연도는 2000 이상
                if claims and ipc and title and year.isdigit() and int(year) >= 2000 and len(claims) > 30:
                    all_data.append({
                        "claims": claims,
                        "ipc_main": ipc,
                        "title": title
                    })
    except Exception as e:
        print(f"❌ 오류 발생: {full_path} - {e}")

# 데이터프레임 생성 및 저장
df = pd.DataFrame(all_data)
df.to_csv("ipc_dataset_cleaned.csv", index=False, encoding="utf-8-sig")
print(f"\n✅ 전처리 완료! 총 샘플 수: {len(df)}")


### 클래스별 최소 10개 최대 30개 한정

In [None]:
import os
import json
import pandas as pd
from tqdm import tqdm
from collections import defaultdict

# ====== 1. 설정 ======
root_dir = "/content/drive/MyDrive/kt_bigproject/data/train"
save_path = "/content/drive/MyDrive/kt_bigproject/data/ipc_balanced_by_main_7_28_300.csv"
min_samples = 300
max_samples = 301

# ====== 2. 모든 JSON 파일 경로 수집 ======
json_files = []
for dirpath, _, filenames in os.walk(root_dir):
    for filename in filenames:
        if filename.endswith(".json"):
            json_files.append(os.path.join(dirpath, filename))

# ====== 3. ipc_main별로 데이터 수집 ======
ipc_main_to_samples = defaultdict(list)

for json_path in tqdm(json_files, desc="📂 JSON 파일 처리 중"):
    try:
        with open(json_path, "r", encoding="utf-8") as f:
            data = json.load(f)
            dataset = data.get("dataset", [])
            for item in dataset:
                claims = item.get("claims", "").strip()
                ipc_main = item.get("ipc_main", "").strip()
                ipc_subclass = item.get("ipc_subclass", "").strip()
                year = item.get("application_year", "")

                if claims and ipc_main and ipc_subclass and len(claims) > 30:
                    try:
                        year = int(year)
                    except:
                        continue  # 연도 파싱 안되면 제외

                    ipc_main_to_samples[ipc_main].append({
                        "claims": claims,
                        "ipc_main": ipc_main,
                        "ipc_subclass": ipc_subclass,
                        "application_year": year
                    })
    except Exception as e:
        print(f"❌ 오류 발생 - {json_path}: {e}")

# ====== 4. ipc_main별로 최신순 정렬 후 샘플 추출 ======
final_samples = []
for ipc_main, samples in tqdm(ipc_main_to_samples.items(), desc="📦 최신순 샘플 선택 중"):
    if len(samples) >= min_samples:
        sorted_samples = sorted(samples, key=lambda x: x["application_year"], reverse=True)
        selected = sorted_samples[:max_samples]
        final_samples.extend(selected)

# ====== 5. 저장 ======
df = pd.DataFrame(final_samples)
df.to_csv(save_path, index=False, encoding="utf-8-sig")
print(f"\n✅ 전처리 완료! 총 샘플 수: {len(df)}, IPC_main 수: {df['ipc_main'].nunique()}")

# 모델링

## GPT 메인 클래스 1단계 분류

### gpt파인튜닝 업로드

In [None]:
import pandas as pd

# CSV 파일 경로 (Colab에 업로드한 후 경로 지정)
file_path = "/content/drive/MyDrive/kt_bigproject/data/hierarchical_ipc_dataset.csv"  # ← 본인 파일 경로에 맞게 수정

# CSV 파일 불러오기
df = pd.read_csv(file_path)
print(len(df))
df['ipc_subclass'].nunique()

In [None]:
import pandas as pd

# 1. CSV 파일 불러오기
file_path = "/content/drive/MyDrive/kt_bigproject/data/hierarchical_ipc_dataset.csv"  # ← 본인 파일 경로에 맞게 수정
df = pd.read_csv(file_path)

# 2. ipc_subclass별 최대 5개 샘플링
#    (클래스별로 샘플 수가 5개보다 적으면 있는 만큼 유지)
df_filtered = df.groupby("ipc_subclass", group_keys=False).apply(
    lambda x: x.sample(min(len(x), 5), random_state=42)
)

# 3. 결과 저장 (선택)
df_filtered.to_csv("ipc_subclass_sampled.csv", index=False, encoding="utf-8-sig")

print(f"✅ 전처리 완료! 추출된 행 수: {len(df_filtered)}")

In [None]:
import pandas as pd
import json
from tqdm import tqdm

tqdm.pandas()

file_path = "/content/drive/MyDrive/kt_bigproject/data/ipc_subclass_sampled.csv"
df = pd.read_csv(file_path)

def convert_to_jsonl(row):
    prompt = f"다음 청구항에 해당하는 IPC 서브클래스는?\n{row['claims']}"
    return {
        "messages": [
            {"role": "user", "content": prompt},
            {"role": "assistant", "content": row['ipc_subclass']}
        ]
    }

jsonl_data = df.progress_apply(convert_to_jsonl, axis=1).tolist()

output_path = "ipc_subclass_finetune_data.jsonl"
with open(output_path, "w", encoding="utf-8") as f:
    for item in jsonl_data:
        f.write(json.dumps(item, ensure_ascii=False) + "\n")

print(f"✅ JSONL 파일 저장 완료: {output_path}")

In [None]:
from openai import OpenAI

# 새 클라이언트 객체 생성
client = OpenAI(api_key="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")  # 본인의 API 키 입력

# JSONL 파일 경로
jsonl_path = "/content/ipc_subclass_finetune_data.jsonl"  # ← Colab 경로에 맞게 수정

# 파일 업로드
file_response = client.files.create(
    file=open(jsonl_path, "rb"),
    purpose="fine-tune"
)

# 파일 ID 확인
print("📂 업로드 성공! File ID:", file_response.id)

### main 분류 테스트

In [None]:
import openai

client = openai.OpenAI(api_key="open ai api키 입력")  # ← 너의 API 키

response = client.chat.completions.create(
    model="ft:gpt-3.5-turbo-0125:personal::Bwjsx7ZE",
    messages=[
        {"role": "system", "content": "청구항을 보고 IPC subclass를 예측하세요."},
        {"role": "user", "content": "본 발명은 토양의 수분을 효과적으로 유지시키기 위한 농업용 필름에 관한 것이다."}
    ],
    temperature=0.0,
)

print("GPT 예측 subclass:", response.choices[0].message.content.strip())

## SBERT 서브 클래스 2단계 분류

### 2차 전처리

In [None]:
import pandas as pd

# ✅ 1. 파일 경로 지정 (예: Google Drive 또는 업로드한 파일 경로)
file_path = "/content/drive/MyDrive/kt_bigproject/data/ipc/IPC_CODE.txt"  # ← 필요 시 수정

# ✅ 2. 파일 불러오기 (¶로 구분)
df = pd.read_csv(
    file_path,
    sep="¶",
    names=["ipc", "date", "desc_kr", "desc_en"],
    engine='python',
    quoting=3,
    on_bad_lines='skip',
    encoding='utf-8'
)

# ✅ 3. 날짜 변환
df["date"] = pd.to_datetime(df["date"], format="%Y%m%d", errors="coerce")

# ✅ 4. 첫 줄(헤더 행) 제거
df = df[df["ipc"] != "IPC코드"]

# ✅ 5. desc_kr이 '.' 또는 빈 문자열 또는 NaN인 경우 제거
df = df[(df["desc_kr"].notna()) & (df["desc_kr"].str.strip() != ".")]

# ✅ 6. 최신 개정일 기준 IPC별 하나만 남기기 (기본 정렬이 오래된 순이라고 가정)
df = df.drop_duplicates(subset="ipc", keep="last")

# ✅ 7. desc_en 컬럼 제거
df = df.drop(columns=["desc_en"]).reset_index(drop=True)

# ✅ 8. 저장
save_path = "/content/drive/MyDrive/kt_bigproject/data/ipc/ipc_kr_latest_cleaned.csv"
df.to_csv(save_path, index=False, encoding="utf-8-sig")

print(f"✅ 저장 완료: {save_path}")
df.head()


### 테스트

In [None]:
import openai

client = openai.OpenAI(api_key="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")  # ← 너의 API 키

claim = "흙막이 대상 영역에 배치되는 제1 프레임;상기 제1 프레임과 이격 배치되도록 상기 흙막이 대상 영역에 배치되는 제2 프레임;양단부가 상기 제1 프레임과 상기 제2 프레임에 마련된 삽입홈에 각각 결합되어 상기 흙막이 대상 영역에 있는 흙을 막는 복수의 흙막이 지지부재;상기 제1 프레임과 상기 제2 프레임에 양단부가 결합 되어 상기 복수의 흙막이 지지부재를 지지하는 지지 플레이트; 및일측부는 상기 흙에 배치되고 타측부는 상기 지지 플레이트와 상기 복수의 흙막이 지지부재의 일부를 관통하여 상기 복수의 흙막이 지지부재의 전방으로 배출되어 상기 흙막이 대상 영역에 있는 물을 상기 복수의 흙막이 지지부재의 전방으로 배출시키는 배수부를 포함하고,상기 배수부는, 일단부가 상기 복수의 흙막이 지지부재의 전방부로 배출되는 배수 파이프 및 일측부에 상기 배수 파이프가 연결되고 타측부는 상기 지지 플레이트의 후방벽에 지지되어 상기 배수 파이프로 물을 안내하는 배수파이프 지지판을 포함하고,상기 지지 플레이트는, 상기 배수부가 결합 되는 영역의 상기 지지 플레이트에 탈착 가능하게 마련되는 분리판 및 상기 분리판을 상기 지지 플레이트에 탈착 가능하게 결합시키는 복수의 분리판 결합 부재를 포함하고,상기 복수의 흙막이 지지부재는 바 형상을 가지고,상기 복수의 흙막이 지지부재에는 수직 방향으로 각각의 흙막이 지지부재를 관통하여 결합되는 고정 부재가 마련되고,상기 배수파이프 지지판은 상기 배수 파이프보다 크게 마련되어 일측면이 지지 플레이트에 지지되고,상기 제1 프레임과 상기 제2 프레임에 각각 결합 되는 커버 프레임을 더 포함하고,상기 제1 프레임과 상기 제2 프레임의 상단부에 각각 결합 되는 캡 부재를 더 포함하고,상기 배수 파이프는 상기 분리판에 관통 결합되고,상기 배수 파이프(510)와 접하는 영역의 상기 흙막이 지지부재(300)에는 상기 배수 파이프(510)의 외경에 대응되는 절개홈이 마련되어 상기 배수 파이프(510)와 상기 흙막이 지지부재(300)를 밀착시킬 수 있고,상기 복수의 흙막이 지지부재(300)에는 상기 분리판 결합부재(420)에 대응되는 수용홈이 마련되어 상기 분리판 결합부재(420)를 수용할 수 있는 것을 특징으로 하는 조경용 축대목. "
response = client.chat.completions.create(
    model="ft:gpt-3.5-turbo-0125:personal::Bwjsx7ZE",
    messages=[
        {"role": "system", "content": "청구항을 보고 IPC subclass를 예측하세요. 가능성이 높은 3개의 subclass를 콤마로 구분하여 출력하세요."},
        {"role": "user", "content": claim}
    ],
    temperature=0.0,
)

subclass_candidates = response.choices[0].message.content.strip().replace(" ", "").split(",")
print("GPT 예측 subclass 후보:", subclass_candidates)

In [None]:
import pandas as pd

df = pd.read_csv("/content/drive/MyDrive/kt_bigproject/data/ipc/ipc_kr_latest_cleaned.csv")
df["subclass"] = df["ipc"].str.extract(r"^([A-Z]\d{2}[A-Z]?)")
df["maingroup"] = df["ipc"]

# GPT가 준 subclass 후보만 필터링
filtered_df = df[df["subclass"].isin(subclass_candidates)].copy()

In [None]:
from sentence_transformers import SentenceTransformer, util

model = SentenceTransformer("jhgan/ko-sbert-nli")
claim_emb = model.encode(claim, convert_to_tensor=True)

# 설명 강화
filtered_df["desc_full"] = filtered_df["maingroup"] + " " + filtered_df["desc_kr"]

# 임베딩 + 유사도
filtered_df["desc_emb"] = filtered_df["desc_full"].apply(lambda x: model.encode(str(x), convert_to_tensor=True))
filtered_df["score"] = filtered_df["desc_emb"].apply(lambda emb: util.cos_sim(claim_emb, emb).item())

# 결과 정렬
top_match = filtered_df.sort_values("score", ascending=False).head(5)
print("✅ SBERT 추천:")
print(top_match[["maingroup", "desc_kr", "score"]])

#### 평가

In [None]:
import pandas as pd
from sentence_transformers import SentenceTransformer, util
import openai
from tqdm.notebook import tqdm
import re

# ✅ 1. 파일 불러오기 (정제된 평가셋)
eval_df = pd.read_csv("/content/drive/MyDrive/kt_bigproject/data/ipc_dataset_cleaned_normalized.csv")

# ✅ 2. 일부 샘플 추출 (속도 고려, 원하는 개수만)
# 평가용 샘플 10개만 추출 (컬럼 이름 맞게)
sample_eval = eval_df.sample(n=50, random_state=42)[["claims", "ipc_normalized"]] \
                     .rename(columns={"claims": "claim", "ipc_normalized": "label"}) \
                     .reset_index(drop=True)

print("샘플 수:", len(sample_eval))
sample_eval.head()

ipc_df = pd.read_csv("/content/drive/MyDrive/kt_bigproject/data/ipc/ipc_kr_latest_cleaned.csv")
ipc_df["subclass"] = ipc_df["ipc"].str.extract(r"^([A-Z]\d{2}[A-Z]?)")
ipc_df["maingroup"] = ipc_df["ipc"]

# SBERT 모델
sbert_model = SentenceTransformer("jhgan/ko-sbert-nli")  # 또는 다른 SBERT 모델

# OpenAI GPT 설정
import openai
openai_client = openai.OpenAI(api_key="open ai api키 입력")  # 너의 키 입력
gpt_model_name = "ft:gpt-3.5-turbo-0125:personal::Bwjsx7ZE"


In [None]:
def normalize_ipc(code):
    if not isinstance(code, str):
        return ""
    code = code.upper().replace("-", "")
    code = re.sub(r"([A-Z]\d{2}[A-Z]?)(0+)(\d+/)", r"\1\3", code)
    return code.strip()


In [None]:
def predict_ipc(claim, client, df, model, gpt_model_name):
    # GPT로 subclass top-3 예측
    response = client.chat.completions.create(
        model=gpt_model_name,
        messages=[
            {"role": "system", "content": "청구항을 보고 IPC subclass를 예측하세요. 가능성이 높은 3개의 subclass를 콤마로 구분하여 출력하세요."},
            {"role": "user", "content": claim}
        ],
        temperature=0.0,
    )

    subclass_candidates = response.choices[0].message.content.strip().replace(" ", "").split(",")

    # 해당 subclass IPC만 필터링
    candidates = df[df["subclass"].isin(subclass_candidates)].copy()
    candidates["desc_full"] = candidates["maingroup"] + " " + candidates["desc_kr"]

    claim_emb = model.encode(claim, convert_to_tensor=True)
    candidates["desc_emb"] = candidates["desc_full"].apply(lambda x: model.encode(str(x), convert_to_tensor=True))
    candidates["score"] = candidates["desc_emb"].apply(lambda emb: util.cos_sim(claim_emb, emb).item())

    top1 = candidates.sort_values("score", ascending=False).iloc[0]["maingroup"]
    return normalize_ipc(top1)


In [None]:
correct = 0
results = []

for idx, row in tqdm(sample_eval.iterrows(), total=len(sample_eval)):
    claim = row["claim"]
    label = normalize_ipc(row["label"])

    try:
        pred = predict_ipc(claim, openai_client, ipc_df, sbert_model, gpt_model_name)
        is_correct = (pred == label)
        if is_correct:
            correct += 1
    except Exception as e:
        pred = f"error: {e}"
        is_correct = False

    results.append({
        "claim": claim,
        "label": label,
        "predicted": pred,
        "correct": is_correct
    })

accuracy = correct / len(sample_eval)
print(f"✅ Top-1 정확도: {accuracy:.2%}")