1. 엑셀 파일 처리: 엑셀 파일에서 데이터를 추출하고, JSON 파일로 저장합니다.
2. JSON 파일 검증: 변환된 JSON 파일에서 데이터를 샘플링하고, 필드 유효성을 확인합니다.
3. 데이터 전처리: 형태소 분석과 불용어 제거를 통해 데이터를 정제합니다.
4. 토큰화: 정제된 데이터를 BERT Tokenizer로 토큰화합니다.
5. 데이터셋 준비: 데이터셋을 정의하고, DataLoader로 데이터를 배치 단위로 나눕니다.
6. 데이터 확인: 배치된 데이터를 확인하고, 학습에 사용할 준비가 되었는지 검증합니다.

In [1]:
import os
import sys
import urllib.request
import pandas as pd
import requests

import warnings
# 경고 메시지 무시 설정
warnings.filterwarnings("ignore", category=UserWarning, module="openpyxl")

1. 엑셀 파일 읽기 및 JSON 변환

* 다음부터는 이거 실행안해도됨 1번만 하면됨

In [2]:
import pandas as pd
import json
import glob
import os

# 엑셀 파일들이 들어 있는 최상위 폴더 경로
base_dir = r"/mnt/c/study/KISTI_AI/023.국회 회의록 기반 지식검색 데이터/3.개방데이터/1.데이터/Training/01.원천데이터"

# 모든 하위 폴더 내 엑셀 파일 경로 검색
excel_files = glob.glob(os.path.join(base_dir, '**', '*.xlsx'), recursive=True)

qa_data = []  # JSON으로 저장할 데이터 리스트

# 모든 엑셀 파일 읽기
for file_path in excel_files:
    try:
        # 엑셀 파일 읽기
        df = pd.read_excel(file_path)

        question_info = None  # 현재 질문 정보를 저장할 변수

        # 각 행을 순회하며 질문(Q)과 답변(A) 추출
        for idx, row in df.iterrows():
            if row['질의응답'] == 'Q':  # 질문일 때
                question_info = {
                    "question": row['발언내용'],
                    "회의번호": row['회의번호'],
                    "질의응답번호": row['질의응답번호'],
                    "회의구분": row['회의구분'],
                    "위원회": row['위원회'],
                    "회의일자": row['회의일자'],
                    "질문자": row['의원ID'],
                    "질문자_ISNI": row['ISNI']
                }
            elif row['질의응답'] == 'A' and question_info is not None:  # 답변일 때
                answer_info = {
                    "answer": row['발언내용'],
                    "답변자": row['의원ID'],
                    "답변자_ISNI": row['ISNI']
                }

                # 유효성 검사: 질문과 답변이 있는지 확인
                if not question_info['question'] or not answer_info['answer']:
                    print(f"파일 {file_path}의 {idx}번째 항목에서 질문 또는 답변이 누락되었습니다. 건너뜁니다.")
                    continue

                # 질문과 답변을 연결하여 하나의 JSON 객체로 만듦
                qa_data.append({**question_info, **answer_info})
                question_info = None  # 사용 후 질문 정보를 초기화

    except FileNotFoundError:
        print(f"파일을 찾을 수 없습니다: {file_path}")
    except pd.errors.EmptyDataError:
        print(f"빈 파일이므로 건너뜁니다: {file_path}")
    except Exception as e:
        print(f"파일 처리 중 오류 발생 ({file_path}): {e}")

# 라벨링 데이터 파일 저장 경로
save_dir = r"/mnt/c/study/KISTI_AI/023.국회 회의록 기반 지식검색 데이터/3.개방데이터/1.데이터/Training/02.라벨링데이터"
save_path = os.path.join(save_dir, '라벨링데이터.json')

# 디렉토리가 존재하지 않으면 생성
os.makedirs(save_dir, exist_ok=True)

# JSON 파일로 저장
try:
    with open(save_path, 'w', encoding='utf-8') as f:
        json.dump(qa_data, f, ensure_ascii=False, indent=4)
    print(f"모든 파일 처리가 완료되었습니다. JSON 파일이 저장되었습니다: {save_path}")
except Exception as e:
    print(f"JSON 파일 저장 중 오류 발생: {e}")


KeyboardInterrupt: 

2. 변환된 JSON 파일 검증

In [2]:
import json
import os

# 라벨링된 JSON 파일 경로
file_path = "/mnt/c/study/KISTI_AI/023.국회 회의록 기반 지식검색 데이터/3.개방데이터/1.데이터/Training/02.라벨링데이터/라벨링데이터.json"

# JSON 파일 로드 및 예외 처리
try:
    # 파일 존재 여부 확인
    if not os.path.exists(file_path):
        raise FileNotFoundError(f"파일을 찾을 수 없습니다. 경로를 확인해주세요: {file_path}")

    # JSON 파일 읽기
    with open(file_path, 'r', encoding='utf-8') as f:
        qa_data = json.load(f)
    print(f"JSON 파일이 정상적으로 로드되었습니다. 총 {len(qa_data)}개의 질문-답변 쌍이 있습니다.")
    
    # 첫 5개의 질문-답변 쌍 확인
    print("\n첫 5개의 질문-답변 쌍 확인:\n")
    for i, item in enumerate(qa_data[:5]):
        print(f"샘플 {i + 1}:")
        print(f"질문: {item.get('question')}")
        print(f"답변: {item.get('answer')}")
        print("-" * 50)

except FileNotFoundError:
    print(f"파일을 찾을 수 없습니다. 경로를 확인해주세요: {file_path}")
except json.JSONDecodeError:
    print("JSON 파일을 읽는 중 오류가 발생했습니다. 파일 형식이 올바른지 확인해주세요.")
except Exception as e:
    print(f"오류 발생: {e}")


JSON 파일이 정상적으로 로드되었습니다. 총 35233개의 질문-답변 쌍이 있습니다.

첫 5개의 질문-답변 쌍 확인:

샘플 1:
질문: 우리 사장이나 간부들이 이것을 대단히 소홀하게 중요하지 않게 생각하는데 끝까지 내 이야기에 대한 답변이 나오지 않았습니다.  공역문제인데 아까 공역을 전부 예를 들었습니다마는 가령 미공군 매향리 사격장, 한ㆍ미합동훈련장 또 여주 공군사격장, 수도권 비행금지구역, 휴전선 비행금지구역 이렇게 공역이 되어 있는데 앞으로 허브공항으로서 많은 비행기가 오는 곳에 공역이 도처에 있어요. 과연 그 공역을 피해 갈 수 있을 것인가에 대한 어려움을 우리 건교부하고 미8군하고 국방부하고 협의해서 공역문제는 사전에 합의를 보아야 할 문제인데 이것에 대해서 사장은 어떤 생각을 가지고 있느냐고 물어 보았습니다. 답변을 해주십시오.
답변: 서면으로 답변을 드리려고 했습니다마는 공역문제는 너무 중요한 문제입니다. 그리고 당장은 아니지만 2, 3년 앞을 내다보면 매우 심각한 문제입니다. 미국 정부에서도 그 심각성을 인정하고 있습니다. 그래서 제가 알기로는 건교부에서 국방부, 미 당국과도 협의를 이미 진행하고 있습니다.   그래서 공역을 변경하기로 일부 합의되어서 저희 공항개항과 더불어 현재의 공역보다도 많이 여유를 갖게 되어 있습니다. 그리고 근본적인 문제는 앞으로 한ㆍ미간 또는 국내에서 국방부와 협의가 계속 진행될 것으로 알고 있습니다.
--------------------------------------------------
샘플 2:
질문: 제가 아까 한 질의는 아주 근본적인 질의거든요.  평가원이라는 것이 책임이 막중하지요.  이번에 R&D가 3조 이상 나갔고 2조2,000 이상을 평가하고 그것이 앞으로 우리나라의 방향을 제시해 주는 것 아닙니까, 그런데 그 평가 아까 말씀드린 것 이해하시지요?  근본적으로 저는 그 12개 카테고리가 아주 무작위적이고 그런데 전반적으로 이 시스템을 다 바꿔야 돼요.  아니면 평가기반이 지금 흔들리면 이렇게 많

3. 데이터 전처리: 형태소 분석과 불용어 제거

개선된 코드?

In [3]:
import re
from konlpy.tag import Mecab
import time

# Mecab 형태소 분석기 로드
mecab = Mecab()

# 불용어 리스트 정의 (set 자료형 사용)
stop_words = set([
    "것", "있다", "하다", "입니다", "그리고", "하지만", "또한", "그런데", "저는", "우리는", "그래서", "이것", "저것", "그것",
    "다시", "모든", "각각", "모두", "어느", "몇몇", "이런", "저런", "그런", "어떤", "특히", "즉", "또", "이후", "때문에", "통해서",
    "같은", "많은", "따라서", "등", "경우", "관련", "대해", "의해", "이기", "대한", "그리고", "라고", "이라는", "에서", "부터", "까지",
    "와", "과", "으로", "에", "의", "를", "가", "도", "로", "에게", "만", "뿐", "듯", "제", "내", "저", "그", "할", "수", "있", "같",
    "되", "보다", "아니", "아닌", "이", "있어서", "입니다", "있습니다", "합니다", "입니까", "같습니다", "아닙니다", "라는", "그러므로", 
    "입니다만", "때문입니다", "라고요", "그러하다", "하고", "이와"
])

# 긴 텍스트를 슬라이싱하는 함수 정의 (최소 길이 조건 추가)
def slice_long_text(text, max_length=512, overlap=50, min_length=50):
    tokens = mecab.morphs(text)  # 형태소 분석을 통한 토큰화
    sliced_texts = []
    start_idx = 0

    while start_idx < len(tokens):
        end_idx = min(start_idx + max_length, len(tokens))
        slice = tokens[start_idx:end_idx]
        
        if len(slice) >= min_length:
            sliced_texts.append(" ".join(slice))
        
        start_idx = end_idx - overlap  # overlap 만큼 겹치게 슬라이싱

    return sliced_texts

# 여러 문장을 한 번에 처리하도록 최적화된 함수
def preprocess_text_batch(texts):
    preprocessed_texts = []

    # 형태소 분석을 한 번에 수행
    for text in texts:
        tokens = mecab.morphs(text)  # 형태소 분석

        # 불용어 제거 및 특수문자 제거
        tokens = [word for word in tokens if word not in stop_words]
        preprocessed_text = " ".join(tokens)
        preprocessed_texts.append(preprocessed_text)

    return preprocessed_texts


In [4]:
# 샘플 데이터로 시간 측정
sample_data = [
    "저는 오늘 국회 회의에 참석하여 중요한 발표를 했습니다.",
    "정부 정책에 대한 국민들의 반응이 매우 긍정적입니다.",
    "이 법안이 통과될 경우, 앞으로의 경제 상황이 나아질 것입니다."
]

# 전처리 전과 후의 시간 측정
print("전처리 전과 후 비교:\n")
start_time = time.time()  # 시작 시간
preprocessed_texts = preprocess_text_batch(sample_data)
end_time = time.time()  # 끝난 시간

for i, preprocessed in enumerate(preprocessed_texts):
    print(f"원본: {sample_data[i]}")
    print(f"전처리 후: {preprocessed}")
    print("-" * 50)

print(f"총 소요 시간: {end_time - start_time:.4f} 초")


전처리 전과 후 비교:

원본: 저는 오늘 국회 회의에 참석하여 중요한 발표를 했습니다.
전처리 후: 는 오늘 국회 회의 참석 하 여 중요 한 발표 했 습니다 .
--------------------------------------------------
원본: 정부 정책에 대한 국민들의 반응이 매우 긍정적입니다.
전처리 후: 정부 정책 국민 들 반응 매우 긍정 적 .
--------------------------------------------------
원본: 이 법안이 통과될 경우, 앞으로의 경제 상황이 나아질 것입니다.
전처리 후: 법안 통과 될 , 앞 경제 상황 나아질 .
--------------------------------------------------
총 소요 시간: 0.0631 초


4. BERT Tokenizer를 사용한 토큰화

In [6]:
import gc  # 메모리 관리 모듈
from transformers import BertTokenizer
import torch

# BERT Tokenizer 로드 (한국어 지원되는 BERT 모델)
tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-cased')

def tokenize_text_batch(questions, answers, batch_size=2):
    """
    여러 질문과 답변을 배치 단위로 토큰화하며 긴 텍스트 처리
    :param questions: 질문 리스트
    :param answers: 답변 리스트
    :param batch_size: 배치 사이즈
    :return: 모든 배치의 input_ids_list와 attention_mask_list
    """
    input_ids_list = []
    attention_mask_list = []

    for i in range(0, len(questions), batch_size):
        batch_questions = questions[i:i+batch_size]
        batch_answers = answers[i:i+batch_size]

        # BERT Tokenizer로 배치 토큰화
        inputs = tokenizer(
            batch_questions,
            batch_answers,
            max_length=512,
            padding='max_length',
            truncation=True,
            return_tensors='pt'  # PyTorch 텐서 형식으로 반환
        )

        input_ids_list.append(inputs['input_ids'])
        attention_mask_list.append(inputs['attention_mask'])

        # 메모리 정리
        gc.collect()

    return torch.cat(input_ids_list, dim=0), torch.cat(attention_mask_list, dim=0)


In [None]:
# 샘플 질문과 답변 리스트
questions = [
    "저는 오늘 국회 회의에 참석하여 중요한 발표를 했습니다.",
    "정부 정책에 대한 국민들의 반응이 매우 긍정적입니다."
]
answers = [
    "오늘 회의에서는 정부의 새로운 정책에 대해 논의가 있었습니다.",
    "발표된 정책에 대한 세부 사항을 공유했습니다."
]

# 토큰화 및 배치 처리
input_ids_batch, attention_mask_batch = tokenize_text_batch(questions, answers)

# 메모리 정리
gc.collect()

# 결과 확인
for i in range(input_ids_batch.size(0)):
    print(f"슬라이스 {i+1}:")
    print("Input IDs:", input_ids_batch[i])
    print("Attention Mask:", attention_mask_batch[i])
    print("-" * 50)


5. 데이터셋 준비: 데이터셋을 정의하고, DataLoader로 데이터를 배치 단위로 나눕니다.

In [9]:
import json
import os

# 라벨링된 JSON 파일 경로
file_path = "/mnt/c/study/KISTI_AI/023.국회 회의록 기반 지식검색 데이터/3.개방데이터/1.데이터/Training/02.라벨링데이터/라벨링데이터.json"

# JSON 파일 로드
try:
    with open(file_path, 'r', encoding='utf-8') as f:
        data = json.load(f)  # 여기가 data 변수를 정의하는 부분입니다.
    print(f"JSON 파일이 정상적으로 로드되었습니다. 총 {len(data)}개의 질문-답변 쌍이 있습니다.")
except FileNotFoundError:
    print(f"파일을 찾을 수 없습니다. 경로를 확인해주세요: {file_path}")
except json.JSONDecodeError:
    print("JSON 파일을 읽는 중 오류가 발생했습니다. 파일 형식이 올바른지 확인해주세요.")
except Exception as e:
    print(f"오류 발생: {e}")

# DataLoader 설정
dataloader = DataLoader(dataset, batch_size=8, shuffle=True, collate_fn=collate_fn)

# 배치 확인
for batch in dataloader:
    print(batch['input_ids'].shape)
    print(batch['attention_mask'].shape)
    break


NameError: name 'data' is not defined

6. 데이터 확인: 배치된 데이터를 확인하고, 학습에 사용할 준비가 되었는지 검증합니다.

In [None]:
# 데이터셋에서 샘플 확인
for batch in dataloader:
    print("Input IDs (첫 번째 배치):", batch['input_ids'])
    print("Attention Mask (첫 번째 배치):", batch['attention_mask'])
    break  # 첫 번째 배치만 확인
