# 데이터 전처리

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
import os
import json

# 폴더 내의 모든 파일 경로를 가져오는 함수
def get_file_paths(directory):
    file_paths = [os.path.join(directory, filename) for filename in os.listdir(directory) if os.path.isfile(os.path.join(directory, filename))]
    return file_paths

def extract_facts_from_folder(folder_path):
    facts_list = []  # 'facts' 값을 저장할 리스트

    # 지정된 폴더 내의 모든 파일 목록을 얻기 위해 os.listdir()를 사용
    for filename in os.listdir(folder_path):
        file_path = os.path.join(folder_path, filename)  # 파일 경로 생성
        if os.path.isfile(file_path) and filename.endswith('.json'):
            # 파일인지 확인하고 확장자가 '.json'인 파일만 처리
            with open(file_path, 'r', encoding='utf-8') as file:
                content = json.load(file)
                if 'facts' in content and 'bsisFacts' in content['facts']:
                  # 'bsisFacts' 배열의 모든 항목을 하나의 문자열로 결합
                  combined_facts = " ".join(content['facts']['bsisFacts'])
                  # 결합된 문자열을 리스트에 추가
                  facts_list.append(combined_facts)

    return facts_list

# 폴더 경로 지정 (실제 경로로 변경해야 합니다)
civil_case_directory = '/content/drive/MyDrive/SKT_FLY_AI/Project/civil'  # 민사 사건 파일이 있는 폴더 경로
criminal_case_directory = '/content/drive/MyDrive/SKT_FLY_AI/Project/criminal'  # 형사 사건 파일이 있는 폴더 경로

# 데이터 로드 (facts를 하나로 묶어서 저장)
civil_facts = extract_facts_from_folder(civil_case_directory)
criminal_facts = extract_facts_from_folder(criminal_case_directory)

# # 단어 변환 매핑
# word_replacements = {
#     "형법": "법",
#     "민법": "법",
#     "형사": "소송",
#     "민사": "소송",
#     "피고": "사람",
#     "피고인": "사람"
# }

# # 단어 변환 함수
# def replace_words_in_text(text, word_replacements):
#     for old_word, new_word in word_replacements.items():
#         text = text.replace(old_word, new_word)
#     return text

# # 데이터 변환
# civil_texts_r = [replace_words_in_text(text, word_replacements) for facts in civil_facts for text in facts]
# criminal_texts_r = [replace_words_in_text(text, word_replacements) for facts in criminal_facts for text in facts]

# # 민사 및 형사 텍스트 데이터를 하나의 데이터셋으로 결합
# texts_all = civil_texts_r + criminal_texts_r  # 전체 텍스트 데이터
# labels = [0] * len(civil_texts_r) + [1] * len(criminal_texts_r)  # 민사: 0, 형사: 1

texts_all = civil_facts + criminal_facts
labels = [0] * len(civil_facts) + [1] * len(criminal_facts)


In [None]:
civil_facts

['제1심판결 제3면 제13행의 “망 소송수계인”을 “소송수계인”으로, 제4면 제2행의 “배후조정”을 “배후조종”으로 각 고친다. 제1심판결 제5면 제16행과 제17행 사이에 "마. 망 소외인과 원고 00, 원고 00는 \'민주화운동관련자 명예회복 및 보상심의위원회\'(이하 \'보상심의위원회\'라고 한다)에 구 \'민주화운동관련자 명예회복 및 보상 등에 관한 법률(2000. 1. 12. 법률 제6123호로 제정되고 2015. 5. 18. 법률 제13289호로 개정되기 전의 것, 이하 \'구 민주화운동보상법\'이라고 한다)\'에 따른 생활지원금을 신청한다."  "그리하여 망 소외인은 28,092,120원, 원고 00는 5,000만 원, 원고 00는 45,617,000원의 각 지급결정을 받아 그 무렵 위 지급결정에 동의하고 생활지원금을 모두 수령하였다."를 추가한다. 제1심판결 제5면 제17행의 "[인정근거]"에 "환송 전 이 법원의 민주화운동관련자명예회복및보상심의위원회에 대한 사실조회결과"를 추가한다.',
 '민사소송법 제420조 본문에 따라 제1심판결의 이유를 이 판결의 이유로 인용한다, ',
 "원고는 태양광발전사업을 하기 위하여 부지를 물색하던 중 0000 외 25필지(이하 '이 사건 토지'라한다)가 태양광발전시설을 설치하기에 적합한 것으로 판단하고, 이 사건 토지에 개발행위가 가능한지 여부 등을 확인하기 위하여 2013. 7. 5. 피고로부터 이 사건 토지에 관한 토지이용계획확인서를 발급받았다. 위 확인서의 지역·지구 등 지정 여부란에는 '생산관리지역', '가축사육제한구역'이라고만 기재되어 있었다. 이에 원고는 이 사건 토지에 태양광발전시설을 설치할 수 있을 것으로 판단하고, 2013. 7. 6. 소외인으로부터 이 사건 토지를 474,660,000원에 매수하기로 하는 계약(이하 '이 사건 계약'이라 한다)을 체결하고, 같은 날 소외인에게 계약금 50,000,000원을 지급하였다. 이후 원고는 이 사건 토지가 문화재 현상변경허가 대상구역으로 지정되어 있어 

In [None]:
# 데이터셋 생성
dataset = list(zip(texts_all, labels))

In [None]:
dataset

[('제1심판결 제3면 제13행의 “망 소송수계인”을 “소송수계인”으로, 제4면 제2행의 “배후조정”을 “배후조종”으로 각 고친다. 제1심판결 제5면 제16행과 제17행 사이에 "마. 망 소외인과 원고 00, 원고 00는 \'민주화운동관련자 명예회복 및 보상심의위원회\'(이하 \'보상심의위원회\'라고 한다)에 구 \'민주화운동관련자 명예회복 및 보상 등에 관한 법률(2000. 1. 12. 법률 제6123호로 제정되고 2015. 5. 18. 법률 제13289호로 개정되기 전의 것, 이하 \'구 민주화운동보상법\'이라고 한다)\'에 따른 생활지원금을 신청한다."  "그리하여 망 소외인은 28,092,120원, 원고 00는 5,000만 원, 원고 00는 45,617,000원의 각 지급결정을 받아 그 무렵 위 지급결정에 동의하고 생활지원금을 모두 수령하였다."를 추가한다. 제1심판결 제5면 제17행의 "[인정근거]"에 "환송 전 이 법원의 민주화운동관련자명예회복및보상심의위원회에 대한 사실조회결과"를 추가한다.',
  0),
 ('민사소송법 제420조 본문에 따라 제1심판결의 이유를 이 판결의 이유로 인용한다, ', 0),
 ("원고는 태양광발전사업을 하기 위하여 부지를 물색하던 중 0000 외 25필지(이하 '이 사건 토지'라한다)가 태양광발전시설을 설치하기에 적합한 것으로 판단하고, 이 사건 토지에 개발행위가 가능한지 여부 등을 확인하기 위하여 2013. 7. 5. 피고로부터 이 사건 토지에 관한 토지이용계획확인서를 발급받았다. 위 확인서의 지역·지구 등 지정 여부란에는 '생산관리지역', '가축사육제한구역'이라고만 기재되어 있었다. 이에 원고는 이 사건 토지에 태양광발전시설을 설치할 수 있을 것으로 판단하고, 2013. 7. 6. 소외인으로부터 이 사건 토지를 474,660,000원에 매수하기로 하는 계약(이하 '이 사건 계약'이라 한다)을 체결하고, 같은 날 소외인에게 계약금 50,000,000원을 지급하였다. 이후 원고는 이 사건 토지가 문화재 현상변경허가 대상

In [None]:
import numpy as np

# 데이터셋을 numpy 배열로 변환
dataset_np = np.array(dataset)

In [None]:
dataset_np

array([['제1심판결 제3면 제13행의 “망 소송수계인”을 “소송수계인”으로, 제4면 제2행의 “배후조정”을 “배후조종”으로 각 고친다. 제1심판결 제5면 제16행과 제17행 사이에 "마. 망 소외인과 원고 00, 원고 00는 \'민주화운동관련자 명예회복 및 보상심의위원회\'(이하 \'보상심의위원회\'라고 한다)에 구 \'민주화운동관련자 명예회복 및 보상 등에 관한 법률(2000. 1. 12. 법률 제6123호로 제정되고 2015. 5. 18. 법률 제13289호로 개정되기 전의 것, 이하 \'구 민주화운동보상법\'이라고 한다)\'에 따른 생활지원금을 신청한다."  "그리하여 망 소외인은 28,092,120원, 원고 00는 5,000만 원, 원고 00는 45,617,000원의 각 지급결정을 받아 그 무렵 위 지급결정에 동의하고 생활지원금을 모두 수령하였다."를 추가한다. 제1심판결 제5면 제17행의 "[인정근거]"에 "환송 전 이 법원의 민주화운동관련자명예회복및보상심의위원회에 대한 사실조회결과"를 추가한다.',
        '0'],
       ['민사소송법 제420조 본문에 따라 제1심판결의 이유를 이 판결의 이유로 인용한다, ', '0'],
       ["원고는 태양광발전사업을 하기 위하여 부지를 물색하던 중 0000 외 25필지(이하 '이 사건 토지'라한다)가 태양광발전시설을 설치하기에 적합한 것으로 판단하고, 이 사건 토지에 개발행위가 가능한지 여부 등을 확인하기 위하여 2013. 7. 5. 피고로부터 이 사건 토지에 관한 토지이용계획확인서를 발급받았다. 위 확인서의 지역·지구 등 지정 여부란에는 '생산관리지역', '가축사육제한구역'이라고만 기재되어 있었다. 이에 원고는 이 사건 토지에 태양광발전시설을 설치할 수 있을 것으로 판단하고, 2013. 7. 6. 소외인으로부터 이 사건 토지를 474,660,000원에 매수하기로 하는 계약(이하 '이 사건 계약'이라 한다)을 체결하고, 같은 날 소외인에게 계약금 50,000,000원을 지급하였다. 이

In [None]:
import pandas as pd

# 데이터프레임으로 변환
df = pd.DataFrame(dataset, columns=['sentence', 'label'])

# 상위 n개의 행을 출력
n = 5  # 원하는 행의 수
print(df.head(n))

                                            sentence  label
0  제1심판결 제3면 제13행의 “망 소송수계인”을 “소송수계인”으로, 제4면 제2행의...      0
1     민사소송법 제420조 본문에 따라 제1심판결의 이유를 이 판결의 이유로 인용한다,       0
2  원고는 태양광발전사업을 하기 위하여 부지를 물색하던 중 0000 외 25필지(이하 ...      0
3  000는 000 홈페이지(홈페이지 주소 생략, 이하 '이 사건 홈페이지'라 한다) ...      0
4  피고는 0000에서 '0'이라는 상호의 경마공원(이하 '이 사건 경마공원'이라 한다...      0


In [None]:
df.shape

(178, 2)

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 178 entries, 0 to 177
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   sentence  178 non-null    object
 1   label     178 non-null    int64 
dtypes: int64(1), object(1)
memory usage: 2.9+ KB


# KoBERT 학습

In [None]:
import tensorflow as tf

# Get the GPU device name.
device_name = tf.test.gpu_device_name()

# The device name should look like the following:
if device_name == '/device:GPU:0':
    print('Found GPU at: {}'.format(device_name))
else:
    print('GPU device not found')

Found GPU at: /device:GPU:0


In [None]:
# 텍스트와 레이블(형사, 민사) 구분
train_sentences = df.sentence.values
train_labels = df.label.values

In [None]:
from transformers import BertTokenizer

# Load the BERT tokenizer.
print('Loading BERT tokenizer...')
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased', do_lower_case=True)

Loading BERT tokenizer...


In [None]:
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader, random_split
from transformers import BertTokenizer, BertForSequenceClassification
from sklearn.metrics import accuracy_score

# KoBERT 모델 및 토크나이저 로드
model_name = "monologg/kobert"
tokenizer = BertTokenizer.from_pretrained(model_name)
model = BertForSequenceClassification.from_pretrained(model_name, num_labels=2)  # 레이블 수에 맞게 설정

# 데이터 전처리
texts = df['sentence'].tolist()
labels = df['label'].tolist()

tokenized_texts = [tokenizer(text, padding='max_length', truncation=True, max_length=64, return_tensors='pt') for text in texts]

input_ids = torch.cat([t['input_ids'] for t in tokenized_texts], dim=0)
attention_mask = torch.cat([t['attention_mask'] for t in tokenized_texts], dim=0)
labels = torch.tensor(labels)

# 데이터셋 생성
dataset = TensorDataset(input_ids, attention_mask, labels)

# DataLoader 설정
batch_size = 32
dataloader = DataLoader(dataset, batch_size=batch_size, shuffle=True)

# 데이터를 훈련(train) 세트와 검증(validation) 세트로 분할
train_size = int(0.8 * len(dataset))
val_size = len(dataset) - train_size
train_dataset, val_dataset = random_split(dataset, [train_size, val_size])

# DataLoader 설정
batch_size = 32
train_dataloader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)
val_dataloader = DataLoader(val_dataset, batch_size=batch_size)

# 손실 함수 및 옵티마이저 설정
criterion = nn.CrossEntropyLoss()
optimizer = optim.AdamW(model.parameters(), lr=1e-5)

# 모델 훈련
num_epochs = 10  # 예제에서는 5 에포크로 설정
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

for epoch in range(num_epochs):
    model.train()
    total_loss = 0.0
    for inputs, attention_mask, labels in train_dataloader:
        inputs, attention_mask, labels = inputs.to(device), attention_mask.to(device), labels.to(device)

        optimizer.zero_grad()
        outputs = model(input_ids=inputs, attention_mask=attention_mask, labels=labels)
        loss = outputs.loss
        total_loss += loss.item()

        loss.backward()
        optimizer.step()

    avg_loss = total_loss / len(train_dataloader)
    print(f"Epoch {epoch + 1}/{num_epochs}, Loss: {avg_loss:.4f}")

# # 학습된 모델 가중치 저장
# torch.save(model.state_dict(), "model_checkpoint.pt")

# 모델 검증
model.eval()
val_labels = []
val_preds = []

with torch.no_grad():
    for inputs, attention_mask, labels in val_dataloader:
        inputs, attention_mask, labels = inputs.to(device), attention_mask.to(device), labels.to(device)
        outputs = model(input_ids=inputs, attention_mask=attention_mask)
        logits = outputs.logits
        preds = torch.argmax(logits, dim=1).cpu().numpy()
        val_preds.extend(preds)
        val_labels.extend(labels.cpu().numpy())

accuracy = accuracy_score(val_labels, val_preds)
print(f"Validation Accuracy: {accuracy:.4f}")

# # 학습된 모델 가중치 파일 저장
# torch.save(model.state_dict(), "model_checkpoint.pt")

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at monologg/kobert and are newly initialized: ['classifier.weight', 'classifier.bias']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


Epoch 1/10, Loss: 0.6791
Epoch 2/10, Loss: 0.6412
Epoch 3/10, Loss: 0.6505
Epoch 4/10, Loss: 0.6233
Epoch 5/10, Loss: 0.5813
Epoch 6/10, Loss: 0.5287
Epoch 7/10, Loss: 0.4987
Epoch 8/10, Loss: 0.4410
Epoch 9/10, Loss: 0.4242
Epoch 10/10, Loss: 0.3639
Validation Accuracy: 0.7222


# KoBERT 텍스트 입력 테스트

In [None]:
# 새로운 텍스트 데이터
new_texts = ["내 옆에 있는 사람이 어떤 사람을 죽였어.", "한 연예인이 우리랑 한 계약을 어겼어."]

# 텍스트 토크나이징 및 텐서 변환
tokenized_new_texts = [tokenizer(text, padding='max_length', truncation=True, max_length=64, return_tensors='pt') for text in new_texts]
input_ids = torch.cat([t['input_ids'] for t in tokenized_new_texts], dim=0)
attention_mask = torch.cat([t['attention_mask'] for t in tokenized_new_texts], dim=0)

# GPU 사용 설정 (가능한 경우)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
input_ids = input_ids.to(device)
attention_mask = attention_mask.to(device)

# 모델 평가 모드 설정
model.eval()

# 예측
with torch.no_grad():
    outputs = model(input_ids=input_ids, attention_mask=attention_mask)
    logits = outputs.logits
    predictions = torch.argmax(logits, dim=1).cpu().numpy()

# 예측 결과 출력
for i, text in enumerate(new_texts):
    print(f"Text: {text}")
    print(f"Prediction: {'형사' if predictions[i] == 0 else '민사'}")


Text: 내 옆에 있는 사람이 어떤 사람을 죽였어.
Prediction: 형사
Text: 한 연예인이 우리랑 한 계약을 어겼어.
Prediction: 형사


In [None]:
# 모델과 입력 텐서를 동일한 디바이스로 이동
model.to(device)
input_ids = input_ids.to(device)
attention_mask = attention_mask.to(device)

## KoBERT

In [None]:
import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification

def classify_legal_text(texts):
    # KoBERT 모델과 토크나이저 로드
    model_name = "monologg/kobert"
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=2)  # 2개의 클래스(민사, 형사)에 대한 분류

    # 텍스트 데이터를 토큰화하고 패딩
    inputs = tokenizer(texts, padding=True, truncation=True, return_tensors="pt", max_length=512)

    # 모델로 예측
    with torch.no_grad():
        outputs = model(**inputs)

    # 확률값을 이진 분류로 변환
    predicted_labels = torch.argmax(outputs.logits, dim=1).tolist()

    return predicted_labels

# 민사 및 형사 텍스트 데이터 분류
predicted_labels = classify_legal_text(texts_all)

# 결과 출력 (0: 민사, 1: 형사)
for i, text in enumerate(texts_all):
    print(f"Text: {text}")
    print(f"Predicted Label: {'민사' if predicted_labels[i] == 0 else '형사'}")
    print()