In [2]:
!pip install transformers torch gradio sklearn pandas mecab-python3

Collecting sklearn
  Using cached sklearn-0.0.post12.tar.gz (2.6 kB)
  Preparing metadata (setup.py) ... [?25lerror
  [1;31merror[0m: [1msubprocess-exited-with-error[0m
  
  [31m×[0m [32mpython setup.py egg_info[0m did not run successfully.
  [31m│[0m exit code: [1;36m1[0m
  [31m╰─>[0m [31m[15 lines of output][0m
  [31m   [0m The 'sklearn' PyPI package is deprecated, use 'scikit-learn'
  [31m   [0m rather than 'sklearn' for pip commands.
  [31m   [0m 
  [31m   [0m Here is how to fix this error in the main use cases:
  [31m   [0m - use 'pip install scikit-learn' rather than 'pip install sklearn'
  [31m   [0m - replace 'sklearn' by 'scikit-learn' in your pip requirements files
  [31m   [0m   (requirements.txt, setup.py, setup.cfg, Pipfile, etc ...)
  [31m   [0m - if the 'sklearn' package is used by one of your dependencies,
  [31m   [0m   it would be great if you take some time to track which package uses
  [31m   [0m   'sklearn' instead of 'scikit-le

In [8]:
# !pip install --upgrade gradio



In [3]:
import os
import json
import torch
import zipfile
import pickle
from transformers import BertTokenizer, BertForQuestionAnswering, AdamW
from torch.utils.data import Dataset, DataLoader
import gradio as gr
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import MeCab

  from .autonotebook import tqdm as notebook_tqdm


In [4]:

# Mecab 초기화
mecab = MeCab.Tagger()

# 1. 데이터 전처리 및 형태소 분석
def preprocess_with_mecab(text):
    """Mecab을 사용하여 텍스트를 전처리하는 함수"""
    words = mecab.parse(text).split()  # 형태소 단위로 나누기
    return " ".join(words)

def load_single_file(file_path):
    """한 개의 JSON 파일을 로드하고 형태소 분석을 적용하는 함수"""
    with open(file_path, 'r', encoding='utf-8') as f:
        try:
            data = json.load(f)
            question = data.get('question', {}).get('comment')  # 질문 필드
            context = data.get('context')  # 문맥 필드
            answer = data.get('answer', {}).get('comment')  # 답변 필드

            # Mecab으로 전처리
            if question:
                question = preprocess_with_mecab(question)
            if context:
                context = preprocess_with_mecab(context)
            if answer:
                answer = preprocess_with_mecab(answer)

            answer_start = context.find(answer) if answer in context else -1

            if question and context and answer and answer_start != -1:
                return (question, context, answer, answer_start)
        except json.JSONDecodeError as e:
            print(f"JSON 디코딩 오류: {e}, 파일: {file_path}")
    return None

# 2. 캐시를 활용한 데이터 로드
CACHE_FILE = 'data_cache.pkl'

def load_data_from_cache(cache_file):
    if os.path.exists(cache_file):
        print(f"캐시된 데이터를 불러오는 중: {cache_file}")
        with open(cache_file, 'rb') as f:
            return pickle.load(f)
    return None

def save_data_to_cache(data, cache_file):
    with open(cache_file, 'wb') as f:
        pickle.dump(data, f)
    print(f"데이터를 캐시에 저장했습니다: {cache_file}")

def load_data_parallel(data_folder):
    qa_pairs = []
    files = [os.path.join(root, file)
             for root, _, files in os.walk(data_folder)
             for file in files if file.endswith('.json')]

    from concurrent.futures import ThreadPoolExecutor
    with ThreadPoolExecutor() as executor:
        results = list(executor.map(load_single_file, files))

    qa_pairs = [result for result in results if result is not None]
    return qa_pairs

def load_data_with_cache(data_folder, cache_file):
    data = load_data_from_cache(cache_file)
    if data is not None:
        return data

    data = load_data_parallel(data_folder)
    save_data_to_cache(data, cache_file)
    return data

# 3. 질문-답변 데이터셋 및 모델 설정
class QADataset(Dataset):
    def __init__(self, qa_pairs, tokenizer, max_len=512):
        self.qa_pairs = qa_pairs
        self.tokenizer = tokenizer
        self.max_len = max_len

    def __len__(self):
        return len(self.qa_pairs)

    def __getitem__(self, idx):
        question, context, answer, answer_start = self.qa_pairs[idx]

        inputs = self.tokenizer.encode_plus(
            question, context, add_special_tokens=True, max_length=self.max_len,
            truncation=True, padding="max_length", return_tensors="pt"
        )

        answer_end = answer_start + len(self.tokenizer.encode(answer, add_special_tokens=False))
        input_ids = inputs["input_ids"].squeeze()
        attention_mask = inputs["attention_mask"].squeeze()
        token_type_ids = inputs["token_type_ids"].squeeze()

        return {
            "input_ids": input_ids,
            "attention_mask": attention_mask,
            "token_type_ids": token_type_ids,
            "start_positions": torch.tensor(answer_start),
            "end_positions": torch.tensor(answer_end)
        }

# 4. BERT 모델 로드 및 학습
def train_epoch(model, data_loader, optimizer, device):
    model.train()
    total_loss = 0
    for batch in data_loader:
        optimizer.zero_grad()
        input_ids = batch["input_ids"].to(device)
        attention_mask = batch["attention_mask"].to(device)
        token_type_ids = batch["token_type_ids"].to(device)
        start_positions = batch["start_positions"].to(device)
        end_positions = batch["end_positions"].to(device)

        outputs = model(input_ids, attention_mask=attention_mask, token_type_ids=token_type_ids,
                        start_positions=start_positions, end_positions=end_positions)
        loss = outputs.loss
        total_loss += loss.item()

        loss.backward()
        optimizer.step()

    return total_loss / len(data_loader)

def evaluate(model, data_loader, device):
    model.eval()
    total_loss = 0
    with torch.no_grad():
        for batch in data_loader:
            input_ids = batch["input_ids"].to(device)
            attention_mask = batch["attention_mask"].to(device)
            token_type_ids = batch["token_type_ids"].to(device)
            start_positions = batch["start_positions"].to(device)
            end_positions = batch["end_positions"].to(device)

            outputs = model(input_ids, attention_mask=attention_mask, token_type_ids=token_type_ids,
                            start_positions=start_positions, end_positions=end_positions)
            loss = outputs.loss
            total_loss += loss.item()

    return total_loss / len(data_loader)

# 5. TF-IDF 기반 검색 기능 추가
def search_issues(query, documents):
    vectorizer = TfidfVectorizer(stop_words='korean')
    doc_vectors = vectorizer.fit_transform(documents)
    query_vector = vectorizer.transform([query])
    similarities = cosine_similarity(query_vector, doc_vectors).flatten()
    ranked_docs_idx = similarities.argsort()[::-1]
    return ranked_docs_idx[:5]

# 6. Gradio 인터페이스를 통한 시스템 구현
def predict_answer(question, context):
    inputs = tokenizer.encode_plus(question, context, return_tensors="pt", max_length=512, truncation=True)
    input_ids = inputs["input_ids"].to(device)
    attention_mask = inputs["attention_mask"].to(device)
    
    with torch.no_grad():
        outputs = model(input_ids, attention_mask=attention_mask)
        start_scores = outputs.start_logits
        end_scores = outputs.end_logits

    start = torch.argmax(start_scores)
    end = torch.argmax(end_scores) + 1

    answer = tokenizer.convert_tokens_to_string(tokenizer.convert_ids_to_tokens(input_ids[0][start:end]))
    return answer

def chatbot_interface(user_input):
    # 검색된 문서 중 하나를 선택하여 문맥으로 활용
    search_results = search_issues(user_input, [doc['context'] for doc in train_qa_pairs])
    selected_context = train_qa_pairs[search_results[0]][1]  # 검색된 첫 문서의 문맥
    
    answer = predict_answer(user_input, selected_context)
    return answer

# 7. Gradio 실행
interface = gr.Interface(fn=chatbot_interface, inputs="text", outputs="text", title="BERT 기반 국회 회의록 챗봇")
interface.launch()



Running on local URL:  http://127.0.0.1:7860

To create a public link, set `share=True` in `launch()`.


--------




Traceback (most recent call last):
  File "/home/user/miniforge3/envs/dml/lib/python3.9/site-packages/gradio/queueing.py", line 536, in process_events
    response = await route_utils.call_process_api(
  File "/home/user/miniforge3/envs/dml/lib/python3.9/site-packages/gradio/route_utils.py", line 322, in call_process_api
    output = await app.get_blocks().process_api(
  File "/home/user/miniforge3/envs/dml/lib/python3.9/site-packages/gradio/blocks.py", line 1935, in process_api
    result = await self.call_function(
  File "/home/user/miniforge3/envs/dml/lib/python3.9/site-packages/gradio/blocks.py", line 1520, in call_function
    prediction = await anyio.to_thread.run_sync(  # type: ignore
  File "/home/user/miniforge3/envs/dml/lib/python3.9/site-packages/anyio/to_thread.py", line 56, in run_sync
    return await get_async_backend().run_sync_in_worker_thread(
  File "/home/user/miniforge3/envs/dml/lib/python3.9/site-packages/anyio/_backends/_asyncio.py", line 2177, in run_sync_in_wo

Traceback (most recent call last):
  File "/home/user/miniforge3/envs/dml/lib/python3.9/site-packages/gradio/queueing.py", line 536, in process_events
    response = await route_utils.call_process_api(
  File "/home/user/miniforge3/envs/dml/lib/python3.9/site-packages/gradio/route_utils.py", line 322, in call_process_api
    output = await app.get_blocks().process_api(
  File "/home/user/miniforge3/envs/dml/lib/python3.9/site-packages/gradio/blocks.py", line 1935, in process_api
    result = await self.call_function(
  File "/home/user/miniforge3/envs/dml/lib/python3.9/site-packages/gradio/blocks.py", line 1520, in call_function
    prediction = await anyio.to_thread.run_sync(  # type: ignore
  File "/home/user/miniforge3/envs/dml/lib/python3.9/site-packages/anyio/to_thread.py", line 56, in run_sync
    return await get_async_backend().run_sync_in_worker_thread(
  File "/home/user/miniforge3/envs/dml/lib/python3.9/site-packages/anyio/_backends/_asyncio.py", line 2177, in run_sync_in_wo

In [5]:
train_qa_pairs = None
val_qa_pairs = None

def load_data():
    global train_qa_pairs, val_qa_pairs
    train_qa_pairs = load_data_with_cache(train_extracted_path, 'train_data_cache.pkl')
    val_qa_pairs = load_data_with_cache(val_extracted_path, 'val_data_cache.pkl')

load_data()  # 데이터를 로드하는 함수 호출


NameError: name 'train_extracted_path' is not defined

In [9]:
# 1. Mecab 형태소 분석기 초기화
import MeCab
mecab = MeCab.Tagger()

# 2. 필요한 모듈 불러오기
import os
import zipfile
import pickle

# 3. ZIP 파일 압축 해제 함수
def extract_zip_files(zip_folder, extract_to):
    zip_files = [f for f in os.listdir(zip_folder) if f.endswith('.zip')]
    for zip_file in zip_files:
        zip_file_path = os.path.join(zip_folder, zip_file)
        with zipfile.ZipFile(zip_file_path, 'r') as zip_ref:
            zip_ref.extractall(extract_to)
            print(f"{zip_file_path} 압축 해제 완료. 압축 해제 경로: {extract_to}")

# 4. Mecab을 이용한 형태소 분석 및 전처리
def preprocess_with_mecab(text):
    """Mecab을 사용하여 텍스트를 전처리하는 함수"""
    words = mecab.parse(text).split()  # 형태소 단위로 나누기
    return " ".join(words)

# 5. 데이터 로드 함수
def load_single_file(file_path):
    """한 개의 JSON 파일을 로드하고 형태소 분석을 적용하는 함수"""
    import json
    with open(file_path, 'r', encoding='utf-8') as f:
        try:
            data = json.load(f)
            # 필요한 데이터를 처리
            question = data.get('question', {}).get('comment')  # 질문 필드
            context = data.get('context')  # 문맥 필드
            answer = data.get('answer', {}).get('comment')  # 답변 필드

            # Mecab으로 전처리
            if question:
                question = preprocess_with_mecab(question)
            if context:
                context = preprocess_with_mecab(context)
            if answer:
                answer = preprocess_with_mecab(answer)

            # answer_start는 문맥 내에서 답변 시작 위치를 찾음
            answer_start = context.find(answer) if answer in context else -1

            if question and context and answer and answer_start != -1:
                return (question, context, answer, answer_start)
        except json.JSONDecodeError as e:
            print(f"JSON 디코딩 오류: {e}, 파일: {file_path}")
    return None

# 6. 캐시 관련 함수
CACHE_FILE = 'data_cache.pkl'

def load_data_from_cache(cache_file):
    """캐시된 데이터를 불러오는 함수"""
    if os.path.exists(cache_file):
        print(f"캐시된 데이터를 불러오는 중: {cache_file}")
        with open(cache_file, 'rb') as f:
            return pickle.load(f)
    return None

def save_data_to_cache(data, cache_file):
    """데이터를 캐시에 저장하는 함수"""
    with open(cache_file, 'wb') as f:
        pickle.dump(data, f)
    print(f"데이터를 캐시에 저장했습니다: {cache_file}")

# 7. 병렬로 데이터 로드
from concurrent.futures import ThreadPoolExecutor

def load_data_parallel(data_folder):
    """여러 개의 파일을 병렬로 로드하는 함수"""
    qa_pairs = []
    print(f"데이터 폴더 경로: {data_folder}")

    # 파일 리스트 가져오기
    files = [os.path.join(root, file)
             for root, _, files in os.walk(data_folder)
             for file in files if file.endswith('.json')]

    print(f"발견된 파일들: {len(files)}개")

    # 각 파일을 병렬로 로드
    with ThreadPoolExecutor() as executor:
        results = list(executor.map(load_single_file, files))

    # None이 아닌 결과만 모으기
    qa_pairs = [result for result in results if result is not None]

    print(f"로드된 QA 쌍 개수: {len(qa_pairs)}")
    return qa_pairs

# 8. 캐시와 함께 데이터 로드 함수
def load_data_with_cache(data_folder, cache_file):
    """캐시를 사용해 데이터를 로드하는 함수"""
    # 캐시에서 데이터를 불러오려고 시도
    data = load_data_from_cache(cache_file)
    if data is not None:
        return data

    # 캐시된 데이터가 없으면 병렬로 데이터 로드
    data = load_data_parallel(data_folder)
    save_data_to_cache(data, cache_file)
    return data

# 9. 데이터 경로 설정
train_extracted_path = './extracted_files/Training/unzipped'
val_extracted_path = './extracted_files/Validation/unzipped'

# 10. 데이터 로드 함수
train_qa_pairs = None
val_qa_pairs = None

def load_data():
    global train_qa_pairs, val_qa_pairs
    train_qa_pairs = load_data_with_cache(train_extracted_path, 'train_data_cache.pkl')
    val_qa_pairs = load_data_with_cache(val_extracted_path, 'val_data_cache.pkl')

# 데이터를 로드
load_data()

# 11. Gradio 웹 인터페이스
import gradio as gr

def chatbot_interface(user_input):
    if not train_qa_pairs:
        return "데이터 로드에 실패했습니다."
    
    # 검색 로직이 필요한 부분 (context는 튜플의 두 번째 요소)
    search_results = [doc[1] for doc in train_qa_pairs if user_input in doc[1]]
    if not search_results:
        return "문맥에서 답을 찾지 못했습니다."
    return search_results[0]

# Gradio 인터페이스 생성 및 실행
interface = gr.Interface(fn=chatbot_interface, inputs="text", outputs="text", title="BERT 기반 국회 회의록 챗봇")
interface.launch()


캐시된 데이터를 불러오는 중: train_data_cache.pkl
캐시된 데이터를 불러오는 중: val_data_cache.pkl
Running on local URL:  http://127.0.0.1:7863

To create a public link, set `share=True` in `launch()`.




--------


In [11]:
# 데이터를 샘플로 출력해보기
def check_sample_data(train_qa_pairs):
    for i, qa in enumerate(train_qa_pairs[:2]):  # 5개만 출력
        print(f"Sample {i+1}:")
        print(f"Question: {qa[0]}")
        print(f"Context: {qa[1]}")
        print(f"Answer: {qa[2]}\n")

# 샘플 데이터를 확인
check_sample_data(train_qa_pairs)


Sample 1:
Question: 국무총리 NNG,*,F,국무총리,Compound,*,*,국무/NNG/행위+총리/NNG/* 와 JC,*,F,와,*,*,*,* 국무 NNG,행위,F,국무,*,*,*,* 위원 NNG,*,T,위원,*,*,*,* 들 XSN,*,T,들,*,*,*,* 의 JKG,*,F,의,*,*,*,* 답변 NNG,행위,T,답변,*,*,*,* 이 JKS,*,F,이,*,*,*,* 대체로 MAG,*,F,대체로,*,*,*,* 보 VV,*,F,보,*,*,*,* 면 EC,*,T,면,*,*,*,* 여당 NNG,*,T,여당,*,*,*,* 의원 NNG,*,T,의원,*,*,*,* 들 XSN,*,T,들,*,*,*,* 의 JKG,*,F,의,*,*,*,* 질문 NNG,행위,T,질문,*,*,*,* 에 JKB,*,F,에,*,*,*,* 대해서 VV+EC,*,F,대해서,Inflect,VV,EC,대하/VV/*+아서/EC/* 는 JX,*,T,는,*,*,*,* 굉장히 MAG,성분부사|정도부사,F,굉장히,*,*,*,* 상세 XR,*,F,상세,*,*,*,* 하 XSA,*,F,하,*,*,*,* 게 EC,*,F,게,*,*,*,* 하 VV,*,F,하,*,*,*,* 면서 EC,*,F,면서,*,*,*,* 야당 NNG,*,T,야당,*,*,*,* 의원 NNG,*,T,의원,*,*,*,* 들 XSN,*,T,들,*,*,*,* 의 JKG,*,F,의,*,*,*,* 발언 NNG,*,T,발언,*,*,*,* 은 JX,*,T,은,*,*,*,* 그냥 MAG,성분부사|양태부사,T,그냥,*,*,*,* 한마디 NNG,*,F,한마디,Compound,*,*,한/NNG/*+마디/NNG/* 로 JKB,*,F,로,*,*,*,* 지나가 VV,*,F,지나가,*,*,*,* 버려요 EC+VX+EF,*,F,버려요,Inflect,EC,EF,아/EC/*+버리/VX/*+어요/EF/* . SF,*,*,*,*,*,*,* 아마 MAG,문장부사|양상부사,F,아마,*,*,*,* 그 MM,~명사,F,그,*,*,*,* 기회 NNG,정적사태,F,기회,*,*,*,

In [13]:
import pandas as pd
import re
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans

# 텍스트 전처리 함수
def preprocess_text(text):
    # 소문자로 변환하고 특수문자 제거
    text = text.lower()
    text = re.sub(r'\s+', ' ', text)  # 중복된 공백 제거
    text = re.sub(r'[^a-zA-Z가-힣0-9\s]', '', text)  # 특수문자 제거
    return text

# 예시 데이터 로드
data = pd.read_csv('train_qa_pairs')

# 전처리 적용
data['cleaned_text'] = data['text'].apply(preprocess_text)

# 결과 확인
print(data.head())


FileNotFoundError: [Errno 2] No such file or directory: 'train_qa_pairs'

In [14]:
import pandas as pd
import re
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans
from transformers import pipeline

# 캐시된 데이터를 로드하는 함수 정의
def load_data_with_cache(extracted_path, cache_filename):
    # 캐시에서 데이터를 불러오는 로직 구현
    # 캐시 파일이 존재하면 해당 데이터를 로드하고, 그렇지 않으면 파일을 읽고 캐싱하는 방식
    # (캐시 구현은 생략하겠습니다. 필요에 따라 pickle 등을 사용할 수 있습니다.)
    pass

# 전처리 함수 정의
def preprocess_text(text):
    text = text.lower()
    text = re.sub(r'\s+', ' ', text)  # 중복된 공백 제거
    text = re.sub(r'[^a-zA-Z가-힣0-9\s]', '', text)  # 특수문자 제거
    return text

# 데이터 로드
global train_qa_pairs, val_qa_pairs
train_qa_pairs = load_data_with_cache('path_to_train_data', 'train_data_cache.pkl')
val_qa_pairs = load_data_with_cache('path_to_val_data', 'val_data_cache.pkl')

# train_qa_pairs, val_qa_pairs에서 필요한 컬럼 추출 (예시로 질문, 답변, 날짜)
train_data = pd.DataFrame(train_qa_pairs, columns=['question', 'answer', 'date'])
val_data = pd.DataFrame(val_qa_pairs, columns=['question', 'answer', 'date'])

# 전처리 적용
train_data['cleaned_text'] = train_data['answer'].apply(preprocess_text)
val_data['cleaned_text'] = val_data['answer'].apply(preprocess_text)

# TF-IDF로 텍스트 벡터화
tfidf = TfidfVectorizer(max_features=5000)
X_train = tfidf.fit_transform(train_data['cleaned_text'])
X_val = tfidf.transform(val_data['cleaned_text'])

# KMeans로 클러스터링 (이슈 개수에 따라 k값 조정 가능)
kmeans = KMeans(n_clusters=5, random_state=0)
train_data['issue_cluster'] = kmeans.fit_predict(X_train)
val_data['issue_cluster'] = kmeans.predict(X_val)

# 클러스터별로 정리
train_issue_groups = train_data.groupby('issue_cluster')
val_issue_groups = val_data.groupby('issue_cluster')

# 클러스터별 시간순 정렬
for issue, group in train_issue_groups:
    group = group.sort_values(by='date')
    print(f"Train Issue {issue} - Time Sorted:")
    print(group[['date', 'cleaned_text']].head())

for issue, group in val_issue_groups:
    group = group.sort_values(by='date')
    print(f"Val Issue {issue} - Time Sorted:")
    print(group[['date', 'cleaned_text']].head())

# 요약 모델을 통한 답변 생성
summarizer = pipeline('summarization')

# 각 이슈별 텍스트 요약
for issue, group in train_issue_groups:
    full_text = ' '.join(group['cleaned_text'].tolist())
    summary = summarizer(full_text, max_length=150, min_length=50, do_sample=False)[0]['summary_text']
    print(f"Train Issue {issue} - Summary:")
    print(summary)

for issue, group in val_issue_groups:
    full_text = ' '.join(group['cleaned_text'].tolist())
    summary = summarizer(full_text, max_length=150, min_length=50, do_sample=False)[0]['summary_text']
    print(f"Val Issue {issue} - Summary:")
    print(summary)


2024-10-14 14:20:49.016845: I tensorflow/core/platform/cpu_feature_guard.cc:193] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  AVX2 FMA
To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.
2024-10-14 14:20:55.189107: I tensorflow/c/logging.cc:34] Successfully opened dynamic library libdirectml.d6f03b303ac3c4f2eeb8ca631688c9757b361310.so
2024-10-14 14:20:55.189395: I tensorflow/c/logging.cc:34] Successfully opened dynamic library libdxcore.so
2024-10-14 14:20:55.215602: I tensorflow/c/logging.cc:34] Successfully opened dynamic library libd3d12.so
2024-10-14 14:20:58.158708: I tensorflow/c/logging.cc:34] DirectML device enumeration: found 1 compatible adapters.


ValueError: empty vocabulary; perhaps the documents only contain stop words

In [15]:
def preprocess_text(text):
    text = text.lower()  # 소문자로 변환
    text = re.sub(r'\s+', ' ', text)  # 중복된 공백 제거
    text = re.sub(r'[^a-zA-Z가-힣0-9\s]', '', text)  # 특수문자 제거 (필요에 따라 수정)
    return text


In [16]:
from sklearn.feature_extraction.text import TfidfVectorizer

# TF-IDF로 텍스트 벡터화
tfidf = TfidfVectorizer(max_features=5000, stop_words='english')  # 영어 불용어 처리 추가
X_train = tfidf.fit_transform(train_data['cleaned_text'])
X_val = tfidf.transform(val_data['cleaned_text'])


ValueError: empty vocabulary; perhaps the documents only contain stop words

In [17]:
print(train_data['cleaned_text'].head())  # 전처리된 텍스트 데이터 확인
print(train_data['cleaned_text'].apply(lambda x: len(x)).describe())  # 각 텍스트의 길이 확인


Series([], Name: cleaned_text, dtype: object)
count       0
unique      0
top       NaN
freq      NaN
Name: cleaned_text, dtype: object


In [18]:
print(train_data.head())  # 원본 데이터를 출력하여 텍스트가 있는지 확인


Empty DataFrame
Columns: [question, answer, date, cleaned_text]
Index: []


In [19]:
print(train_data.head())  # 데이터가 제대로 로드되었는지 확인
print(train_data.info())  # 데이터의 전체적인 정보 확인


Empty DataFrame
Columns: [question, answer, date, cleaned_text]
Index: []
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 0 entries
Data columns (total 4 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   question      0 non-null      object
 1   answer        0 non-null      object
 2   date          0 non-null      object
 3   cleaned_text  0 non-null      object
dtypes: object(4)
memory usage: 124.0+ bytes
None


In [20]:
# 파일 경로와 파일 내용을 직접 확인
with open(train_extracted_path, 'r', encoding='utf-8') as file:
    print(file.read())  # 데이터 파일의 내용을 출력


IsADirectoryError: [Errno 21] Is a directory: './extracted_files/Training/unzipped'

In [21]:
import os

# 디렉토리 내 파일 목록을 출력
directory_path = train_extracted_path  # 현재 디렉토리 경로
file_list = os.listdir(directory_path)
print(f"Directory contains: {file_list}")

# 원하는 파일 선택 후 경로 설정
# 예를 들어, 만약 'data.csv'라는 파일을 선택하고 싶다면
selected_file = 'data.csv'  # 선택한 파일 이름
train_extracted_file = os.path.join(directory_path, selected_file)

# 파일 내용 확인
with open(train_extracted_file, 'r', encoding='utf-8') as file:
    print(file.read())


IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.

Current values:
NotebookApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
NotebookApp.rate_limit_window=3.0 (secs)



FileNotFoundError: [Errno 2] No such file or directory: './extracted_files/Training/unzipped/data.csv'

In [24]:
import os

# 디렉토리 경로 설정
directory_path = './extracted_files/Training/unzipped'  # 현재 지정된 디렉토리 경로

# 디렉토리 내 파일 목록 확인
if os.path.exists(directory_path):
    file_list = os.listdir(directory_path)
    print(f"Directory contains: {file_list}")
else:
    print(f"Directory does not exist: {directory_path}")
    
    
    
selected_file = 'your_selected_file.csv'  # 실제 파일 이름으로 변경
train_extracted_file = os.path.join(directory_path, selected_file)

# 파일 내용 확인
with open(train_extracted_file, 'r', encoding='utf-8') as file:
    print(file.read())



IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.

Current values:
NotebookApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
NotebookApp.rate_limit_window=3.0 (secs)



FileNotFoundError: [Errno 2] No such file or directory: './extracted_files/Training/unzipped/your_selected_file.csv'

In [23]:
selected_file = 'your_selected_file.csv'  # 실제 파일 이름으로 변경
train_extracted_file = os.path.join(directory_path, selected_file)

# 파일 내용 확인
with open(train_extracted_file, 'r', encoding='utf-8') as file:
    print(file.read())


FileNotFoundError: [Errno 2] No such file or directory: './extracted_files/Training/unzipped/your_selected_file.csv'

In [25]:
import os

# 디렉토리 경로 설정
directory_path = './extracted_files/Training/unzipped'  # 실제 디렉토리 경로

# 디렉토리 내 파일 목록 확인
if os.path.exists(directory_path):
    file_list = os.listdir(directory_path)
    print(f"Directory contains: {file_list}")
else:
    print(f"Directory does not exist: {directory_path}")

# 파일이 있으면, 일부 내용을 확인 (여기서는 첫 번째 파일을 사용)
if file_list:
    selected_file = file_list[0]  # 첫 번째 파일 선택
    train_extracted_file = os.path.join(directory_path, selected_file)
    
    try:
        # 파일의 일부 내용만 출력
        with open(train_extracted_file, 'r', encoding='utf-8') as file:
            for i in range(10):  # 처음 10줄만 출력
                print(file.readline())
    except FileNotFoundError:
        print(f"File not found: {train_extracted_file}")
else:
    print("No files found in the directory.")


IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.

Current values:
NotebookApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
NotebookApp.rate_limit_window=3.0 (secs)



In [28]:
import pandas as pd

# 큰 파일을 처리할 때 chunk 단위로 로드
file_path = './extracted_files/Training/unzipped/'

# chunksize를 사용해 데이터 부분적으로 읽기
chunksize = 1000  # 한 번에 1000행씩 읽기
for chunk in pd.read_csv(file_path, chunksize=chunksize):
    print(chunk.head())  # 각 chunk의 첫 5행만 출력
    break  # 처음 chunk만 출력하고 중지


IsADirectoryError: [Errno 21] Is a directory: './extracted_files/Training/unzipped/'

In [31]:
import os
import pandas as pd
import json
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans

# JSON 파일 로드 함수
def load_json_data(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        data = json.load(file)
    return data

# 데이터 로드
file_path = '/mnt/data/LAB_15대_제180회_제1차_특별위원회_여성특별위원회_0001(022829).json'
data = load_json_data(file_path)

# 필요한 필드 추출
question = data.get('question', {}).get('comment', '')
answer = data.get('answer', {}).get('comment', '')
date = data.get('date', '')

# DataFrame으로 변환
df = pd.DataFrame({
    'question': [question],
    'answer': [answer],
    'date': [date]
})

# 텍스트 데이터 정리
df['cleaned_text'] = df['question'] + ' ' + df['answer']

# 빈 텍스트 제거
df = df[df['cleaned_text'].str.strip() != '']

# TF-IDF로 텍스트 벡터화
tfidf = TfidfVectorizer(max_features=5000, stop_words='english')
X = tfidf.fit_transform(df['cleaned_text'])

# KMeans 클러스터링 (이슈별로 분류, 클러스터 수는 3으로 설정)
kmeans = KMeans(n_clusters=3, random_state=42)
df['cluster'] = kmeans.fit_predict(X)

# 결과 출력
print(df[['date', 'question', 'answer', 'cluster']])


FileNotFoundError: [Errno 2] No such file or directory: '/mnt/data/LAB_15대_제180회_제1차_특별위원회_여성특별위원회_0001(022829).json'

In [32]:
import json

def load_json_data(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        data = json.load(file)
    return data

# 올린 파일의 경로
file_path = '/mnt/data/LAB_15대_제180회_제1차_특별위원회_여성특별위원회_0001(022829).json'

# 데이터 로드
data = load_json_data(file_path)

# 데이터 확인
print(data)


FileNotFoundError: [Errno 2] No such file or directory: '/mnt/data/LAB_15대_제180회_제1차_특별위원회_여성특별위원회_0001(022829).json'

In [35]:
import os
import json
import pandas as pd

def load_json_data(file_path):
    """지정된 경로의 JSON 파일을 읽어옵니다."""
    with open(file_path, 'r', encoding='utf-8') as file:
        data = json.load(file)
    return data

def process_directory(directory_path):
    """지정된 디렉토리 내의 모든 JSON 파일을 처리합니다."""
    data_list = []
    
    # 디렉토리 내의 모든 파일을 순회합니다.
    for file_name in os.listdir(directory_path):
        if file_name.endswith('.json'):
            file_path = os.path.join(directory_path, file_name)
            try:
                # JSON 파일 읽기
                data = load_json_data(file_path)
                
                # 필요한 데이터 필드 추출 (예시: question, answer, date)
                question = data.get('question', {}).get('comment', '')
                answer = data.get('answer', {}).get('comment', '')
                date = data.get('date', '')
                
                # 데이터 리스트에 추가
                data_list.append({
                    'file_name': file_name,
                    'question': question,
                    'answer': answer,
                    'date': date
                })
            except Exception as e:
                print(f"Error processing file {file_name}: {e}")
    
    # 데이터프레임으로 변환
    df = pd.DataFrame(data_list)
    return df

# 디렉토리 경로 설정 (슬래시 `/` 사용)
directory_path = 'C:/fintech_service/08_AI_Serving/extracted_files/Training/unzipped'

# 디렉토리 내 모든 파일 처리
df = process_directory(directory_path)

# 결과 출력 (필요에 따라 저장 가능)
print(df.head())


FileNotFoundError: [Errno 2] No such file or directory: 'C:/fintech_service/08_AI_Serving/extracted_files/Training/unzipped'

In [36]:
import os
import json
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

def load_json_data(file_path):
    """지정된 경로의 JSON 파일을 읽어옵니다."""
    with open(file_path, 'r', encoding='utf-8') as file:
        data = json.load(file)
    return data

def process_directory(directory_path):
    """지정된 디렉토리 내의 모든 JSON 파일을 처리합니다."""
    data_list = []
    
    # 디렉토리 내의 모든 파일을 순회합니다.
    for file_name in os.listdir(directory_path):
        if file_name.endswith('.json'):
            file_path = os.path.join(directory_path, file_name)
            try:
                # JSON 파일 읽기
                data = load_json_data(file_path)
                
                # 필요한 데이터 필드 추출 (예시: question, answer, date)
                question = data.get('question', {}).get('comment', '')
                answer = data.get('answer', {}).get('comment', '')
                date = data.get('date', '')
                
                # 데이터 리스트에 추가
                if question and answer:
                    data_list.append({
                        'file_name': file_name,
                        'question': question,
                        'answer': answer,
                        'date': date
                    })
            except Exception as e:
                print(f"Error processing file {file_name}: {e}")
    
    # 데이터프레임으로 변환
    df = pd.DataFrame(data_list)
    return df

# 절대 경로 설정 (경로에 r을 사용하여 이스케이프 처리)
directory_path = r'C:\fintech_service\08_AI_Serving\extracted_files\Training\unzipped'

# 디렉토리 내 모든 파일 처리
qa_data = process_directory(directory_path)

# 결과 확인
print(qa_data.head())

# 추출한 질문/답변 데이터를 CSV로 저장 (필요할 경우)
qa_data.to_csv('qa_pairs.csv', index=False)


FileNotFoundError: [Errno 2] No such file or directory: 'C:\\fintech_service\\08_AI_Serving\\extracted_files\\Training\\unzipped'

In [37]:
import os
import json
import pandas as pd

def load_json_data(file_path):
    """지정된 경로의 JSON 파일을 읽어옵니다."""
    with open(file_path, 'r', encoding='utf-8') as file:
        data = json.load(file)
    return data

def process_directory(directory_path):
    """지정된 디렉토리 내의 모든 JSON 파일을 처리합니다."""
    data_list = []
    
    # 디렉토리 내의 모든 파일을 순회합니다.
    for file_name in os.listdir(directory_path):
        if file_name.endswith('.json'):
            file_path = os.path.join(directory_path, file_name)
            try:
                # JSON 파일 읽기
                data = load_json_data(file_path)
                
                # 필요한 데이터 필드 추출 (예시: question, answer, date)
                question = data.get('question', {}).get('comment', '')
                answer = data.get('answer', {}).get('comment', '')
                date = data.get('date', '')
                
                # 데이터 리스트에 추가
                if question and answer:
                    data_list.append({
                        'file_name': file_name,
                        'question': question,
                        'answer': answer,
                        'date': date
                    })
            except Exception as e:
                print(f"Error processing file {file_name}: {e}")
    
    # 데이터프레임으로 변환
    df = pd.DataFrame(data_list)
    return df

# 경로 설정 (문제가 발생할 수 있는 경로 처리)
directory_path = r'C:/fintech_service/08_AI_Serving/extracted_files/Training/unzipped'  # 백슬래시 대신 슬래시 사용

# 디렉토리 내 모든 파일 처리
qa_data = process_directory(directory_path)

# 결과 확인
print(qa_data.head())

# 추출한 질문/답변 데이터를 CSV로 저장 (필요할 경우)
qa_data.to_csv('qa_pairs.csv', index=False)


FileNotFoundError: [Errno 2] No such file or directory: 'C:/fintech_service/08_AI_Serving/extracted_files/Training/unzipped'

In [39]:
import os
import pickle
import json

# 캐시 파일에서 데이터를 로드하는 함수
def load_data_with_cache(file_path, cache_path):
    # 캐시 파일이 있는지 확인
    if os.path.exists(cache_path):
        print(f"Loading data from cache: {cache_path}")
        with open(cache_path, 'rb') as cache_file:
            data = pickle.load(cache_file)
    else:
        print(f"No cache found. Processing raw data from: {file_path}")
        # 캐시가 없을 경우, 데이터를 처리하고 캐시에 저장
        data = process_json_files(file_path)
        with open(cache_path, 'wb') as cache_file:
            pickle.dump(data, cache_file)
    return data

# JSON 파일을 처리하는 함수 (디렉토리 내 모든 JSON 파일을 처리)
def process_json_files(directory_path):
    data_list = []

    # 디렉토리 내 모든 파일 처리
    for file_name in os.listdir(directory_path):
        if file_name.endswith('.json'):
            file_path = os.path.join(directory_path, file_name)
            with open(file_path, 'r', encoding='utf-8') as json_file:
                json_data = json.load(json_file)

                # 필요한 필드 추출
                question = json_data.get('question', {}).get('comment', '')
                answer = json_data.get('answer', {}).get('comment', '')
                date = json_data.get('date', '')

                # 데이터를 리스트에 저장
                data_list.append({
                    'question': question,
                    'answer': answer,
                    'date': date
                })

    return data_list

# 데이터 로드 경로 설정
train_extracted_path = 'C:/fintech_service/08_AI_Serving/train_data_cache.pkl'  # 사용자가 업로드한 경로
val_extracted_path = 'C:/fintech_service/08_AI_Serving/val_data_cache.pkl'      # 사용자가 업로드한 경로

# 캐시 파일 경로 설정
train_cache_path = '/mnt/data/train_data_cache.pkl'
val_cache_path = '/mnt/data/val_data_cache.pkl'

# 캐시에서 데이터를 로드
train_qa_pairs = load_data_with_cache(train_extracted_path, train_cache_path)
val_qa_pairs = load_data_with_cache(val_extracted_path, val_cache_path)

# 로드된 데이터 확인
print("Training Data Sample:", train_qa_pairs[:5])
print("Validation Data Sample:", val_qa_pairs[:5])



No cache found. Processing raw data from: C:/fintech_service/08_AI_Serving/train_data_cache.pkl


FileNotFoundError: [Errno 2] No such file or directory: 'C:/fintech_service/08_AI_Serving/train_data_cache.pkl'

In [41]:
import os
import pickle
import json

# 캐시 파일에서 데이터를 로드하는 함수
def load_data_with_cache(directory_path, cache_path):
    # 캐시 파일이 있는지 확인
    if os.path.exists(cache_path):
        print(f"Loading data from cache: {cache_path}")
        with open(cache_path, 'rb') as cache_file:
            data = pickle.load(cache_file)
    else:
        print(f"No cache found. Processing raw data from directory: {directory_path}")
        # 캐시가 없을 경우, 데이터를 처리하고 캐시에 저장
        data = process_json_files(directory_path)
        with open(cache_path, 'wb') as cache_file:
            pickle.dump(data, cache_file)
    return data

# JSON 파일을 처리하는 함수 (디렉토리 내 모든 JSON 파일을 처리)
def process_json_files(directory_path):
    data_list = []

    # 디렉토리 내의 모든 파일을 순회합니다.
    for file_name in os.listdir(directory_path):
        if file_name.endswith('.json'):
            file_path = os.path.join(directory_path, file_name)
            with open(file_path, 'r', encoding='utf-8') as json_file:
                json_data = json.load(json_file)

                # 필요한 필드 추출
                question = json_data.get('question', {}).get('comment', '')
                answer = json_data.get('answer', {}).get('comment', '')
                date = json_data.get('date', '')

                # 데이터를 리스트에 저장
                data_list.append({
                    'question': question,
                    'answer': answer,
                    'date': date
                })

    return data_list

# 데이터 로드 경로 설정
train_extracted_path = r'C:/fintech_service/08_AI_Serving/extracted_files/Training/unzipped'  # JSON 파일들이 있는 디렉토리 경로
val_extracted_path = r'C:/fintech_service/08_AI_Serving/extracted_files/Validation/unzipped'  # JSON 파일들이 있는 디렉토리 경로

# 캐시 파일 경로 설정
train_cache_path = 'C:/fintech_service/08_AI_Serving/train_data_cache.pkl'
val_cache_path = 'C:/fintech_service/08_AI_Serving/val_data_cache.pkl'

# 캐시에서 데이터를 로드
train_qa_pairs = load_data_with_cache(train_extracted_path, train_cache_path)
val_qa_pairs = load_data_with_cache(val_extracted_path, val_cache_path)

# 로드된 데이터 확인
print("Training Data Sample:", train_qa_pairs[:5])
print("Validation Data Sample:", val_qa_pairs[:5])


No cache found. Processing raw data from directory: C:/fintech_service/08_AI_Serving/extracted_files/Training/unzipped


FileNotFoundError: [Errno 2] No such file or directory: 'C:/fintech_service/08_AI_Serving/extracted_files/Training/unzipped'

In [42]:
train_extracted_path = r'C:\\fintech_service\\08_AI_Serving\\extracted_files\\Training\\unzipped'
val_extracted_path = r'C:\\fintech_service\\08_AI_Serving\\extracted_files\\Validation\\unzipped'

train_cache_path = r'C:\\fintech_service\\08_AI_Serving\\train_data_cache.pkl'
val_cache_path = r'C:\\fintech_service\\08_AI_Serving\\val_data_cache.pkl'


In [43]:
import os

# 경로에 있는 파일을 확인
train_extracted_path = r'C:\\fintech_service\\08_AI_Serving\\extracted_files\\Training\\unzipped'
if os.path.exists(train_extracted_path):
    print(f"Directory exists: {train_extracted_path}")
    print(f"Files in the directory: {os.listdir(train_extracted_path)}")
else:
    print(f"Directory does not exist: {train_extracted_path}")


Directory does not exist: C:\\fintech_service\\08_AI_Serving\\extracted_files\\Training\\unzipped


In [44]:
train_extracted_path = r'C:\fintech_service\08_AI_Serving\extracted_files\Training\unzipped'
val_extracted_path = r'C:\fintech_service\08_AI_Serving\extracted_files\Validation\unzipped'

train_cache_path = r'C:\fintech_service\08_AI_Serving\train_data_cache.pkl'
val_cache_path = r'C:\fintech_service\08_AI_Serving\val_data_cache.pkl'


In [45]:
import os

# 경로 확인
train_extracted_path = r'C:\fintech_service\08_AI_Serving\extracted_files\Training\unzipped'
if os.path.exists(train_extracted_path):
    print(f"Directory exists: {train_extracted_path}")
    print(f"Files in the directory: {os.listdir(train_extracted_path)}")
else:
    print(f"Directory does not exist: {train_extracted_path}")


Directory does not exist: C:\fintech_service\08_AI_Serving\extracted_files\Training\unzipped


In [46]:
import os
import json
import pandas as pd
from transformers import BertTokenizer, BertModel
from sklearn.metrics.pairwise import cosine_similarity
from datetime import datetime
import torch
from flask import Flask, request, jsonify

# BERT 모델 로드
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')

# JSON 파일 로드 및 데이터 전처리 함수
def process_json_files(directory_path):
    data_list = []
    for file_name in os.listdir(directory_path):
        if file_name.endswith('.json'):
            file_path = os.path.join(directory_path, file_name)
            with open(file_path, 'r', encoding='utf-8') as file:
                data = json.load(file)
                # 필요 데이터 추출 (예: question, answer, date)
                for entry in data.get('entries', []):
                    question = entry.get('question', '')
                    answer = entry.get('answer', '')
                    date = entry.get('date', '')
                    # 데이터 정리
                    data_list.append({
                        'question': question,
                        'answer': answer,
                        'date': date
                    })
    return pd.DataFrame(data_list)

# 텍스트를 BERT 임베딩으로 변환하는 함수
def get_bert_embeddings(text_list):
    inputs = tokenizer(text_list, return_tensors='pt', padding=True, truncation=True, max_length=512)
    with torch.no_grad():
        outputs = model(**inputs)
    embeddings = outputs.last_hidden_state.mean(dim=1)
    return embeddings

# 유사도 검색 함수 (BERT 기반)
def search_similar_question_bert(user_question, df, top_n=5):
    # 질문 데이터 벡터화
    df_embeddings = get_bert_embeddings(df['question'].tolist())
    
    # 사용자 질문 벡터화
    user_embedding = get_bert_embeddings([user_question])
    
    # 코사인 유사도 계산
    cosine_sim = cosine_similarity(user_embedding, df_embeddings)
    
    # 상위 N개의 유사한 질문 선택
    similar_indices = cosine_sim.argsort()[0][-top_n:][::-1]
    return df.iloc[similar_indices]

# 시간순 정렬 함수
def sort_by_time(df):
    df['date'] = pd.to_datetime(df['date'], errors='coerce')
    return df.sort_values(by='date')

# Flask 앱 생성
app = Flask(__name__)

# 메인 페이지 (질문 입력 및 답변 제공)
@app.route('/ask', methods=['POST'])
def ask_question():
    data = request.json
    user_question = data.get('question', '')
    sort_by = data.get('sort_by', 'time')  # 시간순 정렬 또는 이슈별 정렬
    
    if not user_question:
        return jsonify({'error': '질문을 입력하세요.'}), 400

    # 유사한 질문 검색
    similar_questions = search_similar_question_bert(user_question, qa_data)

    # 정렬 옵션에 따라 정렬
    if sort_by == 'time':
        sorted_similar_questions = sort_by_time(similar_questions)
    else:
        sorted_similar_questions = similar_questions  # 이슈별 정렬 로직 추가 가능
    
    # 결과 반환
    result = sorted_similar_questions[['question', 'answer', 'date']].to_dict(orient='records')
    return jsonify(result)

if __name__ == '__main__':
    # 데이터 파일 경로
    train_directory_path = r'C:/fintech_service/08_AI_Serving/extracted_files/Training/unzipped'

    # 데이터 로드 및 처리
    qa_data = process_json_files(train_directory_path)

    # Flask 앱 실행
    app.run(host='0.0.0.0', port=5000)


ModuleNotFoundError: No module named 'flask'