In [None]:
import os
import json
import torch
from transformers import BertTokenizer, BertForQuestionAnswering, AdamW
from torch.utils.data import Dataset, DataLoader
import gradio as gr
import zipfile
import pickle
from concurrent.futures import ThreadPoolExecutor

# 1. ZIP 파일 압축 해제 함수
def extract_zip_files(zip_folder, extract_to):
    zip_files = [f for f in os.listdir(zip_folder) if f.endswith('.zip')]
    for zip_file in zip_files:
        zip_file_path = os.path.join(zip_folder, zip_file)
        with zipfile.ZipFile(zip_file_path, 'r') as zip_ref:
            zip_ref.extractall(extract_to)
            print(f"{zip_file_path} 압축 해제 완료. 압축 해제 경로: {extract_to}")

# 2. 데이터 로드 함수
def load_single_file(file_path):
    """한 개의 JSON 파일을 로드하는 함수"""
    with open(file_path, 'r', encoding='utf-8') as f:
        try:
            data = json.load(f)
            # 필요한 데이터를 처리
            question = data.get('question', {}).get('comment')  # 질문 필드
            context = data.get('context')  # 문맥 필드
            answer = data.get('answer', {}).get('comment')  # 답변 필드

            # answer_start는 문맥 내에서 답변 시작 위치를 찾음
            answer_start = context.find(answer) if answer in context else -1

            if question and context and answer and answer_start != -1:
                return (question, context, answer, answer_start)
        except json.JSONDecodeError as e:
            print(f"JSON 디코딩 오류: {e}, 파일: {file_path}")
    return None

# 3. 데이터 캐시 관련 함수
def load_data_from_cache(cache_file):
    """캐시된 데이터를 불러오는 함수"""
    if os.path.exists(cache_file):
        print(f"캐시된 데이터를 불러오는 중: {cache_file}")
        with open(cache_file, 'rb') as f:
            return pickle.load(f)
    return None

def save_data_to_cache(data, cache_file):
    """데이터를 캐시에 저장하는 함수"""
    with open(cache_file, 'wb') as f:
        pickle.dump(data, f)
    print(f"데이터를 캐시에 저장했습니다: {cache_file}")

def load_data_parallel(data_folder):
    """여러 개의 파일을 병렬로 로드하는 함수"""
    qa_pairs = []
    print(f"데이터 폴더 경로: {data_folder}")

    # 파일 리스트 가져오기
    files = [os.path.join(root, file)
             for root, _, files in os.walk(data_folder)
             for file in files if file.endswith('.json')]

    print(f"발견된 파일들: {len(files)}개")

    # 각 파일을 병렬로 로드
    with ThreadPoolExecutor() as executor:
        results = list(executor.map(load_single_file, files))

    # None이 아닌 결과만 모으기
    qa_pairs = [result for result in results if result is not None]

    print(f"로드된 QA 쌍 개수: {len(qa_pairs)}")
    return qa_pairs

# 4. 캐시와 함께 데이터 로드 함수
def load_data_with_cache(data_folder, cache_file):
    """캐시를 사용해 데이터를 로드하는 함수"""
    # 캐시에서 데이터를 불러오려고 시도
    data = load_data_from_cache(cache_file)
    if data is not None:
        return data

    # 캐시된 데이터가 없으면 병렬로 데이터 로드
    data = load_data_parallel(data_folder)
    save_data_to_cache(data, cache_file)
    return data

# 5. 데이터 경로 설정 및 압축 해제
train_zip_folder = './extracted_files/Training'
val_zip_folder = './extracted_files/Validation'

# 압축 해제 경로
train_extracted_path = './extracted_files/Training/unzipped'
val_extracted_path = './extracted_files/Validation/unzipped'

# 캐시 파일 경로 설정
train_cache_file = './extracted_files/train_data_cache.pkl'
val_cache_file = './extracted_files/val_data_cache.pkl'

# ZIP 파일 압축 해제
extract_zip_files(train_zip_folder, train_extracted_path)
extract_zip_files(val_zip_folder, val_extracted_path)

# 캐시된 데이터를 로드 (없을 경우 병렬로 로드 후 캐시에 저장)
train_qa_pairs = load_data_with_cache(train_extracted_path, train_cache_file)
val_qa_pairs = load_data_with_cache(val_extracted_path, val_cache_file)

# 데이터가 비어있는지 확인
print(f"Training 데이터 쌍 개수: {len(train_qa_pairs)}")
print(f"Validation 데이터 쌍 개수: {len(val_qa_pairs)}")

if len(train_qa_pairs) == 0 or len(val_qa_pairs) == 0:
    raise ValueError("데이터셋이 비어 있습니다. 데이터 로드 또는 전처리를 확인하세요.")

# 6. Dataset 및 DataLoader 설정
class QADataset(Dataset):
    def __init__(self, qa_pairs, tokenizer, max_len=512):
        self.qa_pairs = qa_pairs
        self.tokenizer = tokenizer
        self.max_len = max_len

    def __len__(self):
        return len(self.qa_pairs)

    def __getitem__(self, idx):
        question, context, answer, answer_start = self.qa_pairs[idx]

        # 토크나이즈하고 필요한 인코딩 준비
        inputs = self.tokenizer.encode_plus(
            question,
            context,
            add_special_tokens=True,
            max_length=self.max_len,
            truncation=True,
            padding="max_length",
            return_tensors="pt"
        )

        # 정답에 대한 시작과 끝 위치 계산
        answer_end = answer_start + len(self.tokenizer.encode(answer, add_special_tokens=False))

        input_ids = inputs["input_ids"].squeeze()
        attention_mask = inputs["attention_mask"].squeeze()
        token_type_ids = inputs["token_type_ids"].squeeze()

        return {
            "input_ids": input_ids,
            "attention_mask": attention_mask,
            "token_type_ids": token_type_ids,
            "start_positions": torch.tensor(answer_start),
            "end_positions": torch.tensor(answer_end)
        }

# 7. 모델 및 토크나이저 로드
tokenizer = BertTokenizer.from_pretrained("bert-base-multilingual-cased")
model = BertForQuestionAnswering.from_pretrained("bert-base-multilingual-cased")

# 데이터셋 및 DataLoader 생성
train_dataset = QADataset(train_qa_pairs, tokenizer)
val_dataset = QADataset(val_qa_pairs, tokenizer)

train_loader = DataLoader(train_dataset, batch_size=8, shuffle=True)
val_loader = DataLoader(val_dataset, batch_size=8, shuffle=False)

# 8. 학습 설정
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model.to(device)
optimizer = AdamW(model.parameters(), lr=2e-5)

# 학습 함수
def train_epoch(model, data_loader, optimizer, device):
    model.train()
    total_loss = 0
    for batch in data_loader:
        optimizer.zero_grad()

        input_ids = batch["input_ids"].to(device)
        attention_mask = batch["attention_mask"].to(device)
        token_type_ids = batch["token_type_ids"].to(device)
        start_positions = batch["start_positions"].to(device)
        end_positions = batch["end_positions"].to(device)

        outputs = model(input_ids, attention_mask=attention_mask, token_type_ids=token_type_ids,
                        start_positions=start_positions, end_positions=end_positions)

        loss = outputs.loss
        total_loss += loss.item()

        loss.backward()
        optimizer.step()

    return total_loss / len(data_loader)

# 평가 함수
def evaluate(model, data_loader, device):
    model.eval()
    total_loss = 0
    with torch.no_grad():
        for batch in data_loader:
            input_ids = batch["input_ids"].to(device)
            attention_mask = batch["attention_mask"].to(device)
            token_type_ids = batch["token_type_ids"].to(device)
            start_positions = batch["start_positions"].to(device)
            end_positions = batch["end_positions"].to(device)

            outputs = model(input_ids, attention_mask=attention_mask, token_type_ids=token_type_ids,
                            start_positions=start_positions, end_positions=end_positions)

            loss = outputs.loss
            total_loss += loss.item()

    return total_loss / len(data_loader)

# 9. 학습 루프
epochs = 3
for epoch in range(epochs):
    print(f"Epoch {epoch + 1}/{epochs}")
    train_loss = train_epoch(model, train_loader, optimizer, device)
    val_loss = evaluate(model, val_loader, device)
    print(f"Train Loss: {train_loss:.4f}, Validation Loss: {val_loss:.4f}")

# 10. Gradio 웹 인터페이스 구현
def predict_answer(question, context):
    inputs = tokenizer.encode_plus(question, context, return_tensors="pt", max_length=512, truncation=True)
    input_ids = inputs["input_ids"].to(device)
    attention_mask = inputs["attention_mask"].to(device)
    
    with torch.no_grad():
        outputs = model(input_ids, attention_mask=attention_mask)
        start_scores = outputs.start_logits
        end_scores = outputs.end_logits

    start_idx = torch.argmax(start_scores)
    end_idx = torch.argmax(end_scores)

    answer = tokenizer.convert_tokens_to_string(tokenizer.convert_ids_to_tokens(input_ids[0][start_idx:end_idx+1]))
    return answer

# Gradio 인터페이스
gr.Interface(fn=predict_answer,
             inputs=["text", "text"],
             outputs="text",
             title="질문 답변 시스템",
             description="BERT 모델을 사용하여 질문과 문맥에 대한 답변을 제공합니다."
).launch()
