머신러닝 기반 서비스
1. 법률 질문 응답 시스템
이 시스템은 사용자의 질문을 분류하고 유사한 질문과 답변을 찾아주는 간단한 예제를 보여줍니다.

In [None]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.neighbors import NearestNeighbors

# 질문-답변 데이터셋
data = {
    'questions': [
        "내 계약이 유효한가요?",
        "법원에 소송을 제기하려면 어떻게 하나요?",
        "이혼 절차는 어떻게 되나요?",
        "상속을 받으려면 어떻게 해야 하나요?"
    ],
    'answers': [
        "계약이 유효하려면 양 당사자의 동의가 필요합니다.",
        "소송을 제기하려면 먼저 소장 작성이 필요합니다.",
        "이혼 절차는 법원에 청구서를 제출하는 것부터 시작됩니다.",
        "상속을 받으려면 상속재산에 대한 신고가 필요합니다."
    ]
}

df = pd.DataFrame(data)

# TF-IDF 벡터화
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(df['questions'])

# 최근접 이웃 모델 훈련
model = NearestNeighbors(n_neighbors=1)
model.fit(X)

# 질문을 입력받아 가장 유사한 질문 찾기
def find_answer(user_question):
    user_vector = vectorizer.transform([user_question])
    _, indices = model.kneighbors(user_vector)
    return df['answers'].iloc[indices[0]].values[0]

# 예시 질문
user_question = "계약이 유효한지 궁금합니다."
answer = find_answer(user_question)
print("답변:", answer)


In [None]:
## 1. 법률 질문 응답 시스템 (학습 추가)


import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.neighbors import NearestNeighbors
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 질문-답변 데이터셋
data = {
    'questions': [
        "내 계약이 유효한가요?",
        "법원에 소송을 제기하려면 어떻게 하나요?",
        "이혼 절차는 어떻게 되나요?",
        "상속을 받으려면 어떻게 해야 하나요?",
        "법률 상담은 어디서 받을 수 있나요?"
    ],
    'answers': [
        "계약이 유효하려면 양 당사자의 동의가 필요합니다.",
        "소송을 제기하려면 먼저 소장 작성이 필요합니다.",
        "이혼 절차는 법원에 청구서를 제출하는 것부터 시작됩니다.",
        "상속을 받으려면 상속재산에 대한 신고가 필요합니다.",
        "법률 상담은 변호사 사무실이나 법률 상담 센터에서 가능합니다."
    ]
}

df = pd.DataFrame(data)

# TF-IDF 벡터화
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(df['questions'])

# 질문-답변 쌍 생성
y = df['answers']

# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 최근접 이웃 모델 훈련
model = NearestNeighbors(n_neighbors=1)
model.fit(X_train)

# 질문을 입력받아 가장 유사한 질문 찾기
def find_answer(user_question):
    user_vector = vectorizer.transform([user_question])
    _, indices = model.kneighbors(user_vector)
    return df['answers'].iloc[indices[0]].values[0]

# 예시 질문
user_question = "계약이 유효한지 궁금합니다."
answer = find_answer(user_question)
print("답변:", answer)

# 예측 및 평가
y_pred = [find_answer(q) for q in X_test]
print("예측 정확도:", accuracy_score(y_test, y_pred))


2. 사건 예측 서비스
이 모델은 사건 데이터를 기반으로 사건의 결과를 예측합니다.

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report

# 예시 사건 데이터 (features: 사건의 특성, label: 사건 결과)
data = {
    'feature1': [1, 2, 1, 2, 1],
    'feature2': [3, 3, 1, 1, 3],
    'outcome': [1, 0, 1, 0, 1]  # 1: 원고 승소, 0: 피고 승소
}

df = pd.DataFrame(data)

# 피처와 레이블 설정
X = df[['feature1', 'feature2']]
y = df['outcome']

# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Random Forest 모델 훈련
model = RandomForestClassifier()
model.fit(X_train, y_train)

# 예측 및 평가
y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))


In [None]:
## 2. 사건 예측 서비스 (학습 및 최적화)
## 사건 데이터의 예측 성능을 향상시키기 위해 Random Forest의 하이퍼파라미터 조정을 추가합니다.

import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report

# 예시 사건 데이터 (features: 사건의 특성, label: 사건 결과)
data = {
    'feature1': [1, 2, 1, 2, 1, 2, 1, 2],
    'feature2': [3, 3, 1, 1, 3, 3, 1, 1],
    'outcome': [1, 0, 1, 0, 1, 0, 1, 0]  # 1: 원고 승소, 0: 피고 승소
}

df = pd.DataFrame(data)

# 피처와 레이블 설정
X = df[['feature1', 'feature2']]
y = df['outcome']

# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 하이퍼파라미터 조정
param_grid = {
    'n_estimators': [10, 50, 100],
    'max_depth': [None, 10, 20, 30]
}

grid_search = GridSearchCV(RandomForestClassifier(), param_grid, cv=5, scoring='accuracy')
grid_search.fit(X_train, y_train)

# 최적 모델
best_model = grid_search.best_estimator_

# 예측 및 평가
y_pred = best_model.predict(X_test)
print(classification_report(y_test, y_pred))


3. 법률 문서 자동 생성기
입력 정보를 기반으로 간단한 법률 문서를 자동 생성하는 예제입니다.

In [None]:
def generate_legal_document(client_name, case_details):
    document = f"""
    법률 문서
    
    고객 이름: {client_name}
    사건 내용: {case_details}
    
    이 문서는 법률 상담의 결과로 작성되었습니다.
    """
    return document

# 예시 입력
client_name = "홍길동"
case_details = "계약 불이행으로 인한 소송"

# 법률 문서 생성
legal_document = generate_legal_document(client_name, case_details)
print(legal_document)


In [None]:
## 3. 법률 문서 자동 생성기
## 법률 문서 자동 생성기는 추가적인 기능이 필요하지 않지만, 사용자 입력의 유효성을 검사하는 코드를 추가합니다


def generate_legal_document(client_name, case_details):
    if not client_name or not case_details:
        raise ValueError("고객 이름과 사건 내용은 필수 입력입니다.")
    
    document = f"""
    법률 문서
    
    고객 이름: {client_name}
    사건 내용: {case_details}
    
    이 문서는 법률 상담의 결과로 작성되었습니다.
    """
    return document

# 예시 입력
client_name = "홍길동"
case_details = "계약 불이행으로 인한 소송"

# 법률 문서 생성
legal_document = generate_legal_document(client_name, case_details)
print(legal_document)


딥러닝 기반 서비스
1. 법률 상담 챗봇
챗봇을 구축하기 위해 사전 학습된 모델을 활용합니다. 여기서는 Hugging Face의 Transformers 라이브러리를 사용합니다.

In [None]:
from transformers import AutoModelForCausalLM, AutoTokenizer

# 모델과 토크나이저 로드
model_name = "microsoft/DialoGPT-medium"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

def chatbot_response(user_input):
    # 사용자 입력 인코딩
    new_user_input_ids = tokenizer.encode(user_input + tokenizer.eos_token, return_tensors='pt')
    
    # 모델 응답 생성
    bot_input_ids = new_user_input_ids
    chat_history_ids = model.generate(bot_input_ids, max_length=1000, pad_token_id=tokenizer.eos_token_id)
    
    # 응답 디코딩
    bot_response = tokenizer.decode(chat_history_ids[:, bot_input_ids.shape[-1]:][0], skip_special_tokens=True)
    return bot_response

# 예시 대화
user_input = "법원에 소송을 제기하려면 어떻게 해야 하나요?"
response = chatbot_response(user_input)
print("챗봇 응답:", response)


In [None]:
## 1. 법률 상담 챗봇
## 딥러닝 모델 학습을 위해 데이터를 수집하고 Fine-tuning을 진행합니다.

from transformers import Trainer, TrainingArguments

# 데이터셋 준비 (여기서는 간단한 예제)
train_texts = [
    "법원에 소송을 제기하려면 어떻게 해야 하나요?",
    "계약이 유효한가요?",
    "이혼 절차는 어떻게 되나요?"
]
train_labels = [
    "소송 제기 방법 설명",
    "계약 유효성에 대한 설명",
    "이혼 절차 설명"
]

# 입력 데이터 변환
train_encodings = tokenizer(train_texts, truncation=True, padding=True)

# 모델 학습을 위한 데이터셋 클래스 정의
import torch

class LegalDataset(torch.utils.data.Dataset):
    def __init__(self, encodings, labels):
        self.encodings = encodings
        self.labels = labels

    def __getitem__(self, idx):
        item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
        item['labels'] = torch.tensor(self.labels[idx])
        return item

    def __len__(self):
        return len(self.labels)

# 데이터셋 객체 생성
train_dataset = LegalDataset(train_encodings, train_labels)

# 학습 파라미터 설정
training_args = TrainingArguments(
    output_dir='./results',
    num_train_epochs=3,
    per_device_train_batch_size=2,
    warmup_steps=500,
    weight_decay=0.01,
    logging_dir='./logs',
)

# Trainer 객체 생성
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
)

# 모델 학습
trainer.train()


2. 판례 분석 및 추천 시스템
입력된 사건 설명에 대한 유사한 판례를 추천하는 간단한 예제를 구현합니다.

In [None]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.neighbors import NearestNeighbors

# 판례 데이터셋
case_data = {
    'case_description': [
        "계약 불이행 사건",
        "상속 분쟁 사건",
        "이혼 소송 사건",
        "범죄 피해자 소송 사건"
    ],
    'case_reference': [
        "사건 A 판례",
        "사건 B 판례",
        "사건 C 판례",
        "사건 D 판례"
    ]
}

case_df = pd.DataFrame(case_data)

# TF-IDF 벡터화
vectorizer = TfidfVectorizer()
X_cases = vectorizer.fit_transform(case_df['case_description'])

# 최근접 이웃 모델 훈련
knn_model = NearestNeighbors(n_neighbors=1)
knn_model.fit(X_cases)

# 사건 설명을 입력받아 관련 판례 추천
def recommend_case(user_case_description):
    user_vector = vectorizer.transform([user_case_description])
    _, indices = knn_model.kneighbors(user_vector)
    return case_df['case_reference'].iloc[indices[0]].values[0]

# 예시 사건 설명
user_case_description = "계약을 이행하지 않은 사건"
recommended_case = recommend_case(user_case_description)
print("추천 판례:", recommended_case)


In [None]:
## 판례 분석 및 추천 시스템 학습추가 

import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.neighbors import NearestNeighbors

# 판례 데이터셋
case_data = {
    'case_description': [
        "계약 불이행 사건",
        "상속 분쟁 사건",
        "이혼 소송 사건",
        "범죄 피해자 소송 사건",
        "부동산 계약 사건"
    ],
    'case_reference': [
        "사건 A 판례",
        "사건 B 판례",
        "사건 C 판례",
        "사건 D 판례",
        "사건 E 판례"
    ]
}

case_df = pd.DataFrame(case_data)

# TF-IDF 벡터화
vectorizer = TfidfVectorizer()
X_cases = vectorizer.fit_transform(case_df['case_description'])

# 최근접 이웃 모델 훈련
knn_model = NearestNeighbors(n_neighbors=1)
knn_model.fit(X_cases)

# 사건 설명을 입력받아 관련 판례 추천
def recommend_case(user_case_description):
    user_vector = vectorizer.transform([user_case_description])
    _, indices = knn_model.kneighbors(user_vector)
    return case_df['case_reference'].iloc[indices[0]].values[0]

# 예시 사건 설명
user_case_description = "계약을 이행하지 않은 사건"
recommended_case = recommend_case(user_case_description)
print("추천 판례:", recommended_case)


In [None]:
## 판례추천(학습)

import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.neighbors import NearestNeighbors
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.pipeline import make_pipeline

# 판례 데이터셋
case_data = {
    'case_description': [
        "계약 불이행 사건",
        "상속 분쟁 사건",
        "이혼 소송 사건",
        "범죄 피해자 소송 사건"
    ],
    'case_reference': [
        "사건 A 판례",
        "사건 B 판례",
        "사건 C 판례",
        "사건 D 판례"
    ]
}

case_df = pd.DataFrame(case_data)

# 데이터 분할
X_train, X_test = train_test_split(case_df['case_description'], test_size=0.2, random_state=42)

# 파이프라인 및 그리드 서치
pipeline = make_pipeline(TfidfVectorizer(), NearestNeighbors())
param_grid = {'nearestneighbors__n_neighbors': [1, 2, 3]}
grid_search = GridSearchCV(pipeline, param_grid, cv=5)
grid_search.fit(X_train)

# 최적 모델 사용
model = grid_search.best_estimator_

# 사건 설명을 입력받아 관련 판례 추천
def recommend_case(user_case_description):
    user_vector = model.transform([user_case_description])
    _, indices = model.kneighbors(user_vector)
    return case_df['case_reference'].iloc[indices[0]].values[0]

# 예시 사건 설명
user_case_description = "계약을 이행하지 않은


3. 법률 문서 이해 및 요약 시스템
사전 학습된 BERT 모델을 사용하여 법률 문서의 요약을 생성합니다

In [None]:
from transformers import BartTokenizer, BartForConditionalGeneration

# BART 모델 및 토크나이저 초기화
tokenizer = BartTokenizer.from_pretrained('facebook/bart-large-cnn')
model = BartForConditionalGeneration.from_pretrained('facebook/bart-large-cnn')

def summarize_legal_document(document):
    inputs = tokenizer(document, return_tensors='pt', max_length=1024, truncation=True)
    summary_ids = model.generate(inputs['input_ids'], max_length=150, min_length=30, length_penalty=2.0, num_beams=4, early_stopping=True)
    summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
    return summary

# 예시 법률 문서
legal_document = """
계약 불이행에 대한 사건입니다. 원고는 피고가 계약의 조건을 이행하지 않았다고 주장하고 있으며, 
이에 따라 법원에 소송을 제기했습니다. 피고는 계약이 유효하지 않다고 주장하고 있습니다. 
법원은 이러한 주장들을 바탕으로 사건을 심리할 것입니다.
"""

# 법률 문서 요약
summary = summarize_legal_document(legal_document)
print("요약:", summary)


In [None]:
## 3. 법률 문서 이해 및 요약 시스템
## Fine-tuning을 통해 BART 모델을 학습하여 문서 요약 기능을 최적화합니다.

from transformers import BartTokenizer, BartForConditionalGeneration

# BART 모델 및 토크나이저 초기화
tokenizer = BartTokenizer.from_pretrained('facebook/bart-large-cnn')
model = BartForConditionalGeneration.from_pretrained('facebook/bart-large-cnn')

def summarize_legal_document(document):
    inputs = tokenizer(document, return_tensors='pt', max_length=1024, truncation=True)
    summary_ids = model.generate(inputs['input_ids'], max_length=150, min_length=30, length_penalty=2.0, num_beams=4, early_stopping=True)
    summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
    return summary

# 예시 법률 문서
legal_document = """
계약 불이행에 대한 사건입니다. 원고는 피고가 계약의 조건을 이행하지 않았다고 주장하고 있으며, 
이에 따라 법원에 소송을 제기했습니다. 피고는 계약이 유효하지 않다고 주장하고 있습니다. 
법원은 이러한 주장들을 바탕으로 사건을 심리할 것입니다.
"""

# 법률 문서 요약
summary = summarize_legal_document(legal_document)
print("요약:", summary)
