## 텍스트 파일로 변환하는 로직
- asposecells 라이브러리 사용

In [9]:
''' 텍스트파일로 변환하는 로직
import  jpype     
import  asposecells     
from asposecells.api import Workbook
# notebooks → backend/data 로 접근
csv_path = "../backend/data/BookLoan_10years_data.csv"
txt_path = "../backend/data/BookLoan_10years_data.txt"

workbook = Workbook(csv_path)
workbook.save(txt_path)
jpype.shutdownJVM() 
'''

## 저장한 csv파일 로드하여 도서 종류에 따라 분류와 정렬
1. 도서 종류에 따라 데이터셋을 grouping, 분야 → 학년 → 학기 순서로 정렬
2. 학년 및 학기에 맞는 학생 분류 (예: 1학년 1학기, 4학년 2학기)
3. 도서별 대출 횟수 집계
4. 같은 사용자가 대출할 대출 횟수 가능성을 방지하여 도서 대출 학생 수 추가

In [2]:
import pandas as pd
import re
from datetime import datetime

# CSV 불러오기
df = pd.read_csv("../backend/data/BookLoan_10years_data.csv", encoding="utf-8")

# 날짜 변환
df["대출일자"] = pd.to_datetime(df["대출일자"])

# 입학년도 추론 (학번 앞 2자리)
df["입학년도"] = 2000 + df["학번"].astype(str).str[:2].astype(int)

# 현재 학년 (최대 4학년)
df["재학년차"] = datetime.now().year - df["입학년도"]
df["학년"] = df["재학년차"].apply(lambda x: x if x <= 4 else 4)

# 학기 계산 (3~9월 = 1학기, 10~2월 = 2학기)
df["월"] = df["대출일자"].dt.month
df["학기"] = df["월"].apply(lambda m: 1 if 3 <= m <= 9 else 2)

# 청구기호 분류 매핑
def classify_subject(code):
    try:
         # 문자열에서 연속된 숫자 추출 (예: "657.3 ㄹ468ㅈ v" → "657")
        match = re.match(r"(\d{3})", str(code).strip())
        if not match:
            return "기타"
        num = int(match.group(1))  # 3자리 정수
    except:
        return "기타"

    if 0 <= num <= 99: return "총류"
    elif 100 <= num <= 199: return "철학"
    elif 200 <= num <= 299: return "종교"
    elif 300 <= num <= 399: return "사회과학"
    elif 400 <= num <= 499: return "자연과학"
    elif 500 <= num <= 599: return "기술과학"
    elif 600 <= num <= 699: return "예술"
    elif 700 <= num <= 799: return "언어"
    elif 800 <= num <= 899: return "문학"
    elif 900 <= num <= 999: return "역사"
    else: return "기타"

df["분류"] = df["청구기호"].apply(classify_subject)

# 분야 리스트
subjects = ["총류", "철학", "종교", "사회과학", "자연과학", "기술과학", "예술", "언어", "문학", "역사", "기타"]

# 추천 집계 함수
def recommend_books(year, semester, category, top_n=5):
    subset = df[(df["학년"] == year) & (df["학기"] == semester) & (df["분류"] == category)]

    if subset.empty:
        return pd.DataFrame()  # 빈 DF 반환

    book_counts = (
        subset.groupby("서명")
        .agg(
            대출횟수=("서명", "count"),
            대출학생수=("학번", "nunique")
        )
        .reset_index()
        .sort_values(by="대출학생수", ascending=False)
    )
    return book_counts.head(top_n)

# 전체 결과 저장
results = []

for grade in range(1, 5):       # 1~4학년
    for semester in [1, 2]:     # 1학기, 2학기
        for subject in subjects:
            result = recommend_books(grade, semester, subject)
            if not result.empty:
                result["학년"] = grade
                result["학기"] = semester
                result["분야"] = subject
                results.append(result)

# 리스트 → 하나의 DataFrame으로 합치기
final_df = pd.concat(results, ignore_index=True)

# 분야 → 학년 → 학기 순서로 정렬
final_df = final_df.sort_values(
    by=["분야", "학년", "학기"], 
    ascending=[True, True, True]
).reset_index(drop=True)

# CSV로 저장
final_df.to_csv("../backend/data/recommend_all.csv", index=False, encoding="utf-8-sig")

print("✅ 분야 기준으로 정렬된 recommend_all.csv 파일 저장 완료!")

✅ 분야 기준으로 정렬된 recommend_all.csv 파일 저장 완료!


### 1.추천 CSV 파일 -> RAG 평가 CSV 포멧으로 변환 
- 위에서 시행된 도서 추천 목록 csv파일을 RAG 평가용 데이터셋으로 반환
- 평가용 데이터셋을 통해 RAGAS 테스트 진행

### 2. 웹문서 데이터 기반 평가 데이터셋 생성
- 한성대학교 학술정보관 이용 세칙에 관한 웹 문서 로드
- 세칙에 맞게 웹문서에서 context 매핑

In [4]:
import pandas as pd
from langchain_community.document_loaders import WebBaseLoader
import bs4

# === 1. 추천 결과 불러오기 ===
df = pd.read_csv("../backend/data/recommend_all.csv", encoding="utf-8")

rec_rows = []

# === 2. 추천 도서 기반 질문 생성 ===
for (grade, semester, category), group in df.groupby(["학년", "학기", "분야"]):
    contexts = group["서명"].tolist()
    # ground_truth = 대출학생수 상위 3개
    ground_truth_top3 = group.head(3)["서명"].tolist()

    question = f"{grade}학년 {semester}학기 {category} 분야에서 추천할 도서는?"

    rec_rows.append({
        "question": question,
        "contexts": str(contexts),
        "ground_truth": str(ground_truth_top3),  # 리스트 그대로 CSV에 저장
        "source": "도서대출내역.csv"
    })

    import pandas as pd
import requests
from bs4 import BeautifulSoup

# === 2. 웹 규정 데이터 기반 평가셋 생성 ===
url = "https://hsel.hansung.ac.kr/intro_data.mir"
resp = requests.get(url)
soup = BeautifulSoup(resp.text, "html.parser")

rule_div = soup.find("div", id="intro_rule")

contexts_rules = []
for h4 in rule_div.find_all("h4", class_="sub_title"):
    section_title = h4.get_text(strip=True)
    ul = h4.find_next_sibling("ul")
    if ul:
        items = [li.get_text(strip=True) for li in ul.find_all("li")]
        section_text = section_title + " " + " ".join(items)
        contexts_rules.append(section_text)

rule_questions = [
    "도서관 이용시간은 어떻게 돼?",
    "도서관의 휴관일은 어떻게 돼?",
    "학술정보관 재학생 대출기간은 어떻게 돼?",
    "학술정보관 교직원 대출기간은 어떻게 돼?"
]
rule_answers = [
    "1. 자료열람실 : 학기 중 평일 09:00～21:00 토요일 11:00 ~ 15:00 학기 중 방학 중 평일 10:00～16:00 토요일 휴관2. 일반열람실 : 연중 06:30～23:00",
    "1. 일요일, 2. 법정공휴일, 3. 개교기념일",
    "재학생(학부) 대출기간은 15일, 대학원은 30일",
    "교직원 대출기간은 직원 60일, 연구원 및 조교는 30일"
]

rule_rows = []
for q, gt in zip(rule_questions, rule_answers):
    rule_rows.append({
        "question": q,
        "contexts": str(contexts_rules),
        "ground_truth": gt,
        "source": "학술정보관규정"
    })
    
# === 3. 통합 데이터셋 ===
eval_df = pd.DataFrame(rec_rows + rule_rows)

# 저장
eval_df.to_csv("../backend/data/ragas_eval_dataset.csv", index=False, encoding="utf-8-sig")

print("✅ ragas_eval_dataset.csv 저장 완료!")
print(eval_df.head())

✅ ragas_eval_dataset.csv 저장 완료!
                     question  \
0  1학년 1학기 기술과학 분야에서 추천할 도서는?   
1    1학년 1학기 문학 분야에서 추천할 도서는?   
2  1학년 1학기 사회과학 분야에서 추천할 도서는?   
3    1학년 1학기 언어 분야에서 추천할 도서는?   
4    1학년 1학기 역사 분야에서 추천할 도서는?   

                                            contexts  \
0  ['강박에 빠진 뇌 :신경학적 불균형이 만들어낸 멈출 수 없는 불안', '백반증, ...   
1  ['(박완서 장편소설)그 남자네 집', '(잊지 않으려고 시작한 매일의 습관) 기록...   
2  ['(데이터로 공감하고 똑똑하게 의사결정하는) 데이터 드리븐 디자인씽킹', '디자인...   
3  ['(ETS TOEIC) 토익기출 파트별 voca :최신 기출 예문 독점 수록', ...   
4  ['강대국 국제정치의 비극', '사피엔스 :유인원에서 사이보그까지, 인간 역사의 대...   

                                        ground_truth      source  
0  ['강박에 빠진 뇌 :신경학적 불균형이 만들어낸 멈출 수 없는 불안', '백반증, ...  도서대출내역.csv  
1  ['(박완서 장편소설)그 남자네 집', '(잊지 않으려고 시작한 매일의 습관) 기록...  도서대출내역.csv  
2  ['(데이터로 공감하고 똑똑하게 의사결정하는) 데이터 드리븐 디자인씽킹', '디자인...  도서대출내역.csv  
3  ['(ETS TOEIC) 토익기출 파트별 voca :최신 기출 예문 독점 수록', ...  도서대출내역.csv  
4  ['강대국 국제정치의 비극', '사피엔스 :유인원에서 사이보그까지, 인간 역사의 대...  도서대출내역.csv  
