# 1. JSON 구조 미리보기
- 우선 샘플 1개 파일을 열어서 실제 키 이름이 무엇인지 확인

In [None]:
# 경로 내 JSON 하나 미리 열기
import os
import json

# 실제 있는 파일 하나 예시 (경로 수정 가능)
sample_json = None

for root, _, files in os.walk(qa_data_root):
    for file in files:
        if file.endswith(".json"):
            sample_json = os.path.join(root, file)
            break

# 열어서 구조 보기
if sample_json:
    print("✅ 샘플 파일:", sample_json)
    with open(sample_json, encoding="utf-8") as f:
        content = json.load(f)
        print("📦 JSON 타입:", type(content))
        if isinstance(content, list):
            print("🔍 첫 항목:", content[0])
        elif isinstance(content, dict):
            print("🔍 키 목록:", content.keys())
else:
    print("❌ JSON 파일을 찾을 수 없습니다.")

# 1. 라이브러리 및 경로 설정

In [15]:
import os
import json
import pandas as pd

# 2. QA JSON 루트 경로 지정

In [16]:
qa_data_root = "/mnt/e/chatbot_project_data/law_chatbot_dataset/Law_Regulations_Text_Analysis_Data"

# 3. 모든 하위 JSON에서 질문/답변 추출

In [17]:
def extract_qa_from_clause_json(folder_path):
    qa_pairs = []
    for root, _, files in os.walk(folder_path):
        for file in files:
            if file.lower().endswith(".json"):
                try:
                    with open(os.path.join(root, file), encoding="utf-8") as f:
                        data = json.load(f)
                        if isinstance(data, dict):
                            # 예시 질문 생성
                            q = "이 조항이 소비자에게 불리한가요?"
                            a = data.get("unfavorableProvision") or data.get("dvAntageous")
                            if a and isinstance(a, str) and len(a.strip()) > 0:
                                qa_pairs.append({
                                    "question": q,
                                    "answer": a.strip()
                                })
                except Exception as e:
                    print(f"[스킵] {file} 실패: {e}")
    return pd.DataFrame(qa_pairs)

# 4. QA 데이터 로딩 + 컬럼 확인

In [13]:
# 다시 로딩
law_qa_df = extract_qa_from_clause_json(qa_data_root)

print("📌 컬럼:", law_qa_df.columns.tolist())
print("📌 로딩 수:", len(law_qa_df))

📌 컬럼: ['question', 'answer']
📌 로딩 수: 9000


# 5. 상위 5개 질문/답변 확인

In [14]:
law_qa_df.head(5)

Unnamed: 0,question,answer
0,이 조항이 소비자에게 불리한가요?,1
1,이 조항이 소비자에게 불리한가요?,1
2,이 조항이 소비자에게 불리한가요?,1
3,이 조항이 소비자에게 불리한가요?,1
4,이 조항이 소비자에게 불리한가요?,1


In [18]:
print(law_qa_df.shape)  # (0, 0)이라면 비어있음
print(law_qa_df.columns)  # 실제 컬럼이 있는지 확인

(9000, 2)
Index(['question', 'answer'], dtype='object')


# QA 파일 따로 저장

In [19]:
# ✅ 1. law_qa_df 저장
law_qa_df.to_pickle("/mnt/e/chatbot_project_data/law_chatbot_dataset/law_qa_df.pkl")

# ✅ 2. 저장된 파일 다시 로드
df_check = pd.read_pickle("/mnt/e/chatbot_project_data/law_chatbot_dataset/law_qa_df.pkl")

# ✅ 3. 상위 5개 확인
print(df_check.head(5))

             question answer
0  이 조항이 소비자에게 불리한가요?      1
1  이 조항이 소비자에게 불리한가요?      1
2  이 조항이 소비자에게 불리한가요?      1
3  이 조항이 소비자에게 불리한가요?      1
4  이 조항이 소비자에게 불리한가요?      1
