In [1]:
import re
import numpy as np
import pandas as pd
import pickle
import joblib
import torch
import torch.nn as nn
from torch.utils.data import Dataset, DataLoader
from transformers import AutoTokenizer, AdamW, get_linear_schedule_with_warmup
from torch.optim import AdamW
from tqdm import tqdm
from sklearn.utils.class_weight import compute_class_weight
from sklearn.preprocessing import LabelEncoder
from sklearn.ensemble import RandomForestClassifier

import EncoderModel as mm

# 1. 데이터 입력

In [2]:
test_df = pd.read_csv('val_df.csv')
test_df.info()

  test_df = pd.read_csv('val_df.csv')


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 169615 entries, 0 to 169614
Data columns (total 26 columns):
 #   Column     Non-Null Count   Dtype  
---  ------     --------------   -----  
 0   소관부처명      169615 non-null  object 
 1   법령명        169615 non-null  object 
 2   법령구분       169615 non-null  int64  
 3   조번호        169502 non-null  object 
 4   항번호        130938 non-null  object 
 5   호번호        99764 non-null   object 
 6   조문제목       169615 non-null  object 
 7   조문         169615 non-null  object 
 8   사무판단       169615 non-null  int64  
 9   사무판단근거     137581 non-null  object 
 10  사무명        10920 non-null   object 
 11  수행주체       10911 non-null   object 
 12  사무유형       10909 non-null   object 
 13  위임사무판단     169615 non-null  int64  
 14  위임근거규정     711 non-null     object 
 15  수임기관       550 non-null     object 
 16  특행기관       169615 non-null  int64  
 17  재위임사무판단    169615 non-null  int64  
 18  재위임근거규정    0 non-null       float64
 19  재수임기관      0 non-null  

In [3]:
def x_null_drop(df):
    select_column = ['부처', '법령명', '조번호', '항번호', '호번호', '조문제목', '조문']
    delete_row_idx = list(df[df[select_column].isnull().all(axis = 1)].index)
    delete_row_idx.sort(reverse = True)
    for i in delete_row_idx:
        df = df.drop([i],axis = 0)
    return df

In [4]:
# 사무판단이 0인데 대분류가 분류 되어있는 경우
def x_wrong_drop(df):
    delete_row_idx = list(df[(df['사무판단']==0) & (df['사무유형(대분류)']!=0)].index)
    delete_row_idx.sort(reverse = True)
    for i in delete_row_idx:
        df = df.drop([i],axis = 0)
    return df

In [5]:
# 사무판단 없는 행은 비사무로 처리
test_df.loc[test_df['사무판단'].isna(), '사무판단'] = 0
test_df['사무판단'] = test_df['사무판단'].astype(int)

In [6]:
test_df['사무유형(대분류)'].value_counts()

0     158706
국가      7629
지방      1898
공동      1382
Name: 사무유형(대분류), dtype: int64

In [7]:
# 대분류 라벨 생성
def make_large_type(df):
    df.loc[df['사무유형(대분류)']=='국가', '사무유형(대분류)'] = 1
    df.loc[df['사무유형(대분류)']=='지방', '사무유형(대분류)'] = 2
    df.loc[df['사무유형(대분류)']=='공동', '사무유형(대분류)'] = 3
    df['사무유형(대분류)'] = df['사무유형(대분류)'].astype(int)
    return df

In [8]:
test_df = make_large_type(test_df)

In [9]:
check_cols = ['법령명' ,'조문제목', '조문', '사무판단', '사무유형(대분류)']
sub_df = test_df.loc[:, check_cols]
sub_df

Unnamed: 0,법령명,조문제목,조문,사무판단,사무유형(대분류)
0,환경영향평가법 시행규칙,규제의 재검토,② 환경부장관은 다음 각 호의 사항에 대하여 해당 호에 해당하는 날을 기준으로 2년...,0,0
1,도서관법,자격취소,2. 제6조제3항에 따라 발급받은 자격증을 다른 사람에게 대여한 경우,0,0
2,장애인복지법 시행규칙,장애인자립생활지원센터의 운영기준,"자립생활센터는 조직 운영, 사업 수행, 재정 확보, 운용 등에 대해 객관적으로 평가...",0,0
3,건설기술 진흥법,건설공사 지원 통합정보체계의 구축,5. 건설공사 지원 통합정보체계를 이용한 정보의 공동활용 촉진,0,0
4,농수산물 유통 및 가격안정에 관한 법률 시행령,도매시장법인의 겸영사업의 제한,2. 제2차 위반: 1개월 금지,0,0
...,...,...,...,...,...
169610,언론중재 및 피해구제 등에 관한 법률,사망자의 인격권 보호,① 제5조제1항의 타인에는 사망한 사람을 포함한다.,0,0
169611,장애인복지법 시행규칙,시설운영의 중단ㆍ재개ㆍ폐지 신고 등,장애인복지시설을 설치ㆍ운영하는 자는 법 제60조제2항에 따라 시설 운영을 일시중단또...,0,0
169612,한부모가족지원법,금융정보등의 제공,⑤ 제1항부터 제3항까지의 규정에 따른 금융정보등의 제공 요청과 제공은 「정보통신망...,0,0
169613,육군종합행정학교령,설치와 임무,①육군에 육군종합행정학교를 둔다. <개정 1999.2.26>,0,0


# 2. Rule-Base 적용

In [10]:
def rule_based(df):
    df['rule_based'] = 1

    # 조문이 결측치인 행
    df.loc[df['조문'].isnull(), 'rule_based'] = 0

    # '^제.*\)$' 표현 0으로
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'^제.*\)$')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'제\d+조$')), 'rule_based'] = 0

    # '^제(\d+)(장|절)' 표현 0으로
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'^제(\d+)(장|절|편)')), 'rule_based'] = 0

    # 조문제목 == '목적'|'정의' 0으로
    df.loc[((df['조문제목'].notnull()) & ((df['조문제목'] == '목적') | (df['조문제목'] == '정의'))), 'rule_based'] = 0

    # 삭제된 조문 0으로
    df.loc[((df['조문'].str.contains("삭제 <"))|(df['조문'].str.contains("삭제<"))), 'rule_based'] = 0

    # 조문이 '목적', '명칭'뿐인 것
    df.loc[(df['조문'].notnull()) & ((df['조문'].str.match(r"\d+\. 목적")) | (df['조문'] == '목적')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & ((df['조문'].str.match(r"\d+\. .*명칭")) | (df['조문'] == '명칭')), 'rule_based'] = 0

    # 조문에서 사무판단 무조건 0인 표현들
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'.*있는 경우$')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'.*없게 된 경우$')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'\d+\. .*거짓이나 그 밖의 부정한 방법으로 지정을 받은 경우')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'.*의사를 밝히는 경우')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'\d+\. .*인정되는 경우')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'.*친족이었던 경우')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'.*대리인이었던 경우')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'\d+\..*인증을 받은 경우')), 'rule_based'] = 0

    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'.*후견인$')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'\d+\. .*소재지')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'\d+\. .*정관')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'\d+\. .*계획서')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'\d+\. .*서류')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'\d+\. .*상호$')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'\d+\. .*증명서')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'\d+\. .*경매')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'\d+\. .*등록증')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'.*주소$')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'.*절차$')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'\d+\. .*출연금')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'.*정도$')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'\d+\. .*대표자')), 'rule_based'] = 0


    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'\d+\. .*공고의 방법')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'\d+\. .*대통령령으로 정하는 사항')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'\d+\. .*되지 아니한 자')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'\d+\. .*그 밖에 필요한 사항')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'.*협회는 법인으로 한다')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'.*이사회.*사항$')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'.*회계.*사항$')), 'rule_based'] = 0

    ## new_수행주체 열도 필요한 경우
    #df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'.*이 포함되어야 한다')) & (df['new_수행주체'].isnull()), 'rule_based'] = 0
    #df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'.*가 포함되어야 한다')) & (df['new_수행주체'].isnull()), 'rule_based'] = 0

    return df

In [11]:
sub_df = rule_based(sub_df)

rule_base_filter_idx = sub_df.loc[sub_df['rule_based']==0, :].index    # rule_base로 걸러낸 조문들

# 3. 1차 사무판단
## encoder 모델

* 모델 불러오기

In [12]:
# 모델 및 토크나이저 불러오기
model_name = 'klue/roberta-large'
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 모델 기본 구조 설정
input_size = 512
hidden_size = 256
output_size = 2
num_encoder_layers = 1
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

model = mm.MyModel(input_size, hidden_size, output_size, num_encoder_layers)
model.to(device)

MyModel(
  (encoder): MyEncoder(
    (layers): ModuleList(
      (0): MyEncoderLayer(
        (self_attention): MultiheadAttention(
          (out_proj): NonDynamicallyQuantizableLinear(in_features=512, out_features=512, bias=True)
        )
        (feedforward): Sequential(
          (0): Linear(in_features=512, out_features=1024, bias=True)
          (1): ReLU()
          (2): Linear(in_features=1024, out_features=512, bias=True)
        )
        (layer_norm1): LayerNorm((512,), eps=1e-05, elementwise_affine=True)
        (layer_norm2): LayerNorm((512,), eps=1e-05, elementwise_affine=True)
        (dropout): Dropout(p=0.1, inplace=False)
      )
    )
  )
  (layer1): Linear(in_features=512, out_features=256, bias=True)
  (batch_norm): BatchNorm1d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
  (relu): ReLU()
  (layer2): Linear(in_features=256, out_features=2, bias=True)
)

In [13]:
model_path = 'type3/encoder_model_type3.pth'  # Provide the correct path
model.load_state_dict(torch.load(model_path, map_location=device))

<All keys matched successfully>

* 모델 평가

In [14]:
# 데이터셋 정의
class CustomDataset(Dataset):
    def __init__(self, dataframe, tokenizer):
        self.data = dataframe
        self.tokenizer = tokenizer

    def __len__(self):
        return len(self.data)

    def __getitem__(self, idx):
        # '조문'과 '법령명' 칼럼의 데이터를 안전하게 문자열로 변환하고 결합
        text1 = str(self.data.iloc[idx]['조문'])
        text2 = str(self.data.iloc[idx]['조문제목'])
        text_data = text1 + " // " + text2
        label = torch.tensor(self.data.iloc[idx]['사무판단'], dtype=torch.long)

        # 결합된 텍스트를 토크나이징
        tokenized_data = tokenizer([text_data], padding='max_length', max_length=512, truncation=True, return_tensors='pt')

        return {
            'input_ids': tokenized_data['input_ids'].squeeze(),
            'attention_mask': tokenized_data['attention_mask'].squeeze(),
            'labels': label
        }

# 각 배치의 텍스트 길이를 맞추기
def collate_fn(batch):
    input_ids = [item['input_ids'] for item in batch]
    attention_mask = [item['attention_mask'] for item in batch]
    labels = [item['labels'] for item in batch]

    # 패딩 적용
    input_ids = torch.nn.utils.rnn.pad_sequence(input_ids, batch_first=True, padding_value=tokenizer.pad_token_id)
    attention_mask = torch.nn.utils.rnn.pad_sequence(attention_mask, batch_first=True, padding_value=0)

    return {'input_ids': input_ids, 'attention_mask': attention_mask, 'labels': torch.stack(labels)}

In [15]:
# 데이터로더 생성
batch_size = 16  # 배치크기 조절

test_dataset = CustomDataset(sub_df, tokenizer)
test_loader = DataLoader(test_dataset, batch_size=batch_size, shuffle=False, collate_fn=collate_fn)

In [16]:
model.eval()

test_loss = 0
probs = []

with torch.no_grad():
    for batch in tqdm(test_loader, desc=f'Validation'):
        inputs = {key: value.to(device) for key, value in batch.items() if key != 'labels'}
        labels = batch['labels'].to(device)

        # 모델에 토큰화된 입력 데이터 전달
        outputs = model(**inputs).float()
        
        test_loss += torch.nn.functional.cross_entropy(outputs, labels.long())
        
        # 소프트맥스를 적용하여 확률값 얻기
        probs_batch = torch.nn.functional.softmax(outputs, dim=1)
        
        probs.append(probs_batch.cpu().numpy())

# 손실 계산
avg_test_loss = test_loss / len(test_loader)

# 확률값을 하나의 배열로 통합
probs = np.concatenate(probs, axis=0)

print(avg_test_loss)

Validation: 100%|████████████████████████| 10601/10601 [00:57<00:00, 185.46it/s]

tensor(0.3599)





In [17]:
prob_1 = probs[:, 1]
prob_1 = [round(prob, 5) for prob in prob_1]
#prob_1

In [18]:
sub_df

Unnamed: 0,법령명,조문제목,조문,사무판단,사무유형(대분류),rule_based
0,환경영향평가법 시행규칙,규제의 재검토,② 환경부장관은 다음 각 호의 사항에 대하여 해당 호에 해당하는 날을 기준으로 2년...,0,0,1
1,도서관법,자격취소,2. 제6조제3항에 따라 발급받은 자격증을 다른 사람에게 대여한 경우,0,0,1
2,장애인복지법 시행규칙,장애인자립생활지원센터의 운영기준,"자립생활센터는 조직 운영, 사업 수행, 재정 확보, 운용 등에 대해 객관적으로 평가...",0,0,1
3,건설기술 진흥법,건설공사 지원 통합정보체계의 구축,5. 건설공사 지원 통합정보체계를 이용한 정보의 공동활용 촉진,0,0,1
4,농수산물 유통 및 가격안정에 관한 법률 시행령,도매시장법인의 겸영사업의 제한,2. 제2차 위반: 1개월 금지,0,0,1
...,...,...,...,...,...,...
169610,언론중재 및 피해구제 등에 관한 법률,사망자의 인격권 보호,① 제5조제1항의 타인에는 사망한 사람을 포함한다.,0,0,1
169611,장애인복지법 시행규칙,시설운영의 중단ㆍ재개ㆍ폐지 신고 등,장애인복지시설을 설치ㆍ운영하는 자는 법 제60조제2항에 따라 시설 운영을 일시중단또...,0,0,1
169612,한부모가족지원법,금융정보등의 제공,⑤ 제1항부터 제3항까지의 규정에 따른 금융정보등의 제공 요청과 제공은 「정보통신망...,0,0,1
169613,육군종합행정학교령,설치와 임무,①육군에 육군종합행정학교를 둔다. <개정 1999.2.26>,0,0,1


In [19]:
threshold = 0.251

sub_df['사무예측 결과'] = 0
sub_df['사무예측 확률'] = prob_1

# 1차 사무판단
sub_df.loc[sub_df['사무예측 확률'] >= threshold, '사무예측 결과'] = 1

sub_df.loc[rule_base_filter_idx, '사무예측 결과'] = 0   # rule-base 결과 적용

In [20]:
sub_df['사무예측 결과'].value_counts()  # 예측 결과 분포

0    105586
1     64029
Name: 사무예측 결과, dtype: int64

In [21]:
sub_df['사무판단'].value_counts()    # 원 대이터 분포

0    158706
1     10909
Name: 사무판단, dtype: int64

In [22]:
sub_df.loc[(sub_df['사무예측 결과']==0)&(sub_df['사무판단']!=0), :]    # 모델 예측 결과 틀린 부분

Unnamed: 0,법령명,조문제목,조문,사무판단,사무유형(대분류),rule_based,사무예측 결과,사무예측 확률
80,중소기업 기술혁신 촉진법,중소기업 기술혁신 지원단,② 지원단은 다음 각 호의 업무를 수행한다.,1,1,1,0,0.06233
158,한국원자력안전기술원법,원장,원장은 원자력안전위원회 위원장의 제청으로 대통령이 임명한다. <개정 2020.6.9>,1,1,1,0,0.18709
219,관세법,0,② 제1항에 따른 작업을 하려는 자는 세관장의 허가를 받아야 한다.,1,1,1,0,0.04861
457,지방자치단체 출자ㆍ출연 기관의 운영에 관한 법률,수사기관 등의 수사 등 개시ㆍ종료 통보,2. 검찰ㆍ경찰 및 그 밖의 수사기관,1,1,1,0,0.00300
928,국유재산의 위탁에 관한 규칙,수탁자의 행위 제한,한국자산관리공사는 총괄청의 승인을 받아 위탁재산을 직접 사용ㆍ수익할 수 있다.,1,1,1,0,0.22635
...,...,...,...,...,...,...,...,...
167799,한국보건의료인국가시험원법,지도ㆍ감독 등,보건복지부장관은 국시원을 지도ㆍ감독한다.,1,1,1,0,0.02455
168260,공항시설법,수수료,"① 이 법에 따른 허가, 증명 또는 검사를 받으려는 자는 국토교통부령으로 정하는 수...",1,1,1,0,0.13261
168542,동북아역사재단 설립ㆍ운영에 관한 법률,사업,재단은 제1조의 목적을 달성하기 위하여 다음 각 호의 사업을 행한다.,1,1,1,0,0.10909
168759,방위사업법,분석ㆍ평가의 실시,②방위사업청장은 다음 각 호에 관한 분석ㆍ평가를 실시한다. <개정 2014.5.9>,1,1,1,0,0.11727


In [23]:
from sklearn.metrics import accuracy_score, confusion_matrix, precision_score, recall_score, f1_score

def cal_result(preds, y):
    conf_matrix = confusion_matrix(y, preds)
    accuracy = accuracy_score(y, preds)
    precision = precision_score(y, preds)
    recall = recall_score(y, preds)
    f1 = f1_score(y, preds)
    
    # 결과 출력
    print(f"Accuracy: {accuracy}")
    print(f"Precision: {precision}")
    print(f"Recall: {recall}")
    print(f"F1-Score: {f1}")
    print("Confusion Matrix:")
    print(conf_matrix)

In [24]:
# 1차 필터링 결과
cal_result(sub_df['사무예측 결과'], sub_df['사무판단'])

Accuracy: 0.6807357839813696
Precision: 0.16231707507535648
Recall: 0.9526996058300485
F1-Score: 0.27737596413034776
Confusion Matrix:
[[105070  53636]
 [   516  10393]]


## 1차 filtering 결과

In [25]:
# 1차 filter 결과
first_filtered_df = sub_df.loc[sub_df['사무예측 결과']==1, :].copy()
first_filtered_df

Unnamed: 0,법령명,조문제목,조문,사무판단,사무유형(대분류),rule_based,사무예측 결과,사무예측 확률
0,환경영향평가법 시행규칙,규제의 재검토,② 환경부장관은 다음 각 호의 사항에 대하여 해당 호에 해당하는 날을 기준으로 2년...,0,0,1,1,0.71157
2,장애인복지법 시행규칙,장애인자립생활지원센터의 운영기준,"자립생활센터는 조직 운영, 사업 수행, 재정 확보, 운용 등에 대해 객관적으로 평가...",0,0,1,1,0.59481
5,국제항해선박 및 항만시설의 보안에 관한 법률 시행규칙,국제항해여객선 승객 등의 보안검색의 실시방법과 절차 등,③ 제1항의 항만시설소유자는 다음 각 호의 어느 하나에 해당하는 경우에 승선하는 자...,0,0,1,1,0.66063
6,적극행정 운영규정,위원회의 구성 및 운영,"⑤ 위원회의 회의는 제4항에 따른 구성원 과반수의 출석으로 개의(開議)하고, 출석위...",0,0,1,1,0.68158
8,지방세특례제한법,장애인용 자동차에 대한 감면,② 장애인이 대통령령으로 정하는 바에 따라 대체취득을 하는 경우 해당 자동차에 대해...,0,0,1,1,0.68488
...,...,...,...,...,...,...,...,...
169604,전기통신사업법,사업의 겸업,② 과학기술정보통신부장관은 기간통신사업자가 제1항에 따른 사업을 경영함으로써 전기통...,0,0,1,1,0.90938
169608,남북관계 발전에 관한 법률 시행령,0,"② 기본계획 및 연도별시행계획의 변경에 관한 고시, 협조요청 및 의견통보 등에 관한...",0,0,1,1,0.59577
169609,지속가능 교통물류 발전법,국가 등의 책무,② 국가와 지방자치단체는 제1항에 따른 책무를 다하기 위하여 이에 따르는 예산상의 ...,0,0,1,1,0.59128
169611,장애인복지법 시행규칙,시설운영의 중단ㆍ재개ㆍ폐지 신고 등,장애인복지시설을 설치ㆍ운영하는 자는 법 제60조제2항에 따라 시설 운영을 일시중단또...,0,0,1,1,0.54155


# 4. 2차 사무판단 + 사무유형 판단
* 사무로 판단되었을때 실행

## Encoder Model

In [26]:
input_size = 128
hidden_size = 64
output_size = 4

total_encoder = mm.MyModel(input_size, hidden_size, output_size)

In [27]:
model_path2 = 'type3/encoder_model2_type3.pth'  # Provide the correct path
total_encoder.load_state_dict(torch.load(model_path2, map_location=device))

<All keys matched successfully>

* 수행주체 추출

In [28]:
# 수행주체 종류 불러오기
with open('subject_list.pkl', 'rb') as file:
    subject_list = pickle.load(file)

# 수행주체 열 추가
first_filtered_df['수행주체'] = '0'

for i in tqdm(first_filtered_df.index, desc="Processing rows"):
    text = first_filtered_df.loc[i, '조문']
    actor = ''
    for subject in subject_list:
        if subject in text:
            actor += (' ' + subject)
    first_filtered_df.loc[i, '수행주체'] = actor

Processing rows: 100%|██████████████████| 64029/64029 [00:11<00:00, 5672.12it/s]


In [29]:
# 데이터셋 정의
class CustomDataset(Dataset):
    def __init__(self, dataframe, tokenizer):
        self.data = dataframe
        self.tokenizer = tokenizer

    def __len__(self):
        return len(self.data)

    def __getitem__(self, idx):
        # '조문'과 '법령명' 칼럼의 데이터를 안전하게 문자열로 변환하고 결합
        text1 = str(self.data.iloc[idx]['법령명'])
        text2 = str(self.data.iloc[idx]['조문제목'])
        text3 = str(self.data.iloc[idx]['수행주체'])
        text_data = text1 + " // " + text2 + " // " + text3
        label = torch.tensor(self.data.iloc[idx]['사무유형(대분류)'], dtype=torch.long)

        # 결합된 텍스트를 토크나이징
        tokenized_data = tokenizer([text_data], padding='max_length', max_length=128, truncation=True, return_tensors='pt')

        return {
            'input_ids': tokenized_data['input_ids'].squeeze(),
            'attention_mask': tokenized_data['attention_mask'].squeeze(),
            'labels': label
        }

In [30]:
# 데이터로더 생성
batch_size = 16  # 배치크기 조절

total_dataset = CustomDataset(first_filtered_df, tokenizer)
total_loader = DataLoader(total_dataset, batch_size=batch_size, shuffle=False, collate_fn=collate_fn)

In [31]:
class_weights = [0.2969,  2.2733,  9.0880, 12.1487]
class_weights = torch.tensor(class_weights, dtype=torch.float32)

In [32]:
total_encoder.eval()
val_loss = 0.0
y_true = []  # 실제 레이블을 저장할 리스트
y_pred = []  # 모델의 예측 결과를 저장할 리스트
y_probs = [] # 사무유형별 확률 저장할 리스트
with torch.no_grad():
    for batch in tqdm(total_loader, desc=f'Test'):
        inputs = {key: value.to(device) for key, value in batch.items() if key != 'labels'}
        labels = batch['labels'].to(device)

        # 모델에 토큰화된 입력 데이터 전달
        outputs = total_encoder(**inputs).float()
        
        probs = torch.nn.functional.softmax(outputs, dim=1)
        y_probs.extend(probs.cpu().numpy())
        _, predictions = torch.max(outputs, 1)
        y_true.extend(labels.cpu().numpy())
        y_pred.extend(predictions.cpu().numpy())
        val_loss += torch.nn.functional.cross_entropy(outputs, labels, weight=class_weights)

avg_val_loss = val_loss / len(total_loader)
print(f'Test Loss: {avg_val_loss}')

Test: 100%|████████████████████████████████| 4002/4002 [00:14<00:00, 279.00it/s]

Test Loss: 1.2843151092529297





In [33]:
probs = pd.DataFrame(y_probs)
probs = probs.set_index(first_filtered_df.index)
encoder_result_df = pd.DataFrame({
    '사무유형(대분류)' : y_true,
    '사무유형(대분류) 예측' : y_pred,
    '비사무 확률' : round(probs[0], 5),
    '국가 확률' : round(probs[1], 5),
    '지방 확률' : round(probs[2], 5),
    '공동 확률' : round(probs[3], 5),
    })

In [34]:
encoder_result_df

Unnamed: 0,사무유형(대분류),사무유형(대분류) 예측,비사무 확률,국가 확률,지방 확률,공동 확률
0,0,0,0.63346,0.15598,0.10317,0.10739
2,0,0,0.48013,0.20462,0.15528,0.15997
5,0,2,0.26985,0.17593,0.36356,0.19066
6,0,0,0.50363,0.19602,0.12904,0.17131
8,0,0,0.59654,0.16972,0.09734,0.13640
...,...,...,...,...,...,...
169604,0,1,0.24744,0.35215,0.13735,0.26306
169608,0,0,0.65957,0.16122,0.05424,0.12496
169609,0,0,0.36134,0.28676,0.19878,0.15313
169611,0,0,0.37884,0.27776,0.13332,0.21008


In [35]:
# encoder_2_filtered_df = first_filtered_df.copy()
# probs = pd.DataFrame(y_probs)
# probs = probs.set_index(encoder_2_filtered_df.index)
# encoder_2_filtered_df['사무유형(대분류) 결과'] = y_pred
# encoder_2_filtered_df['비사무 확률'] = round(probs[0], 5)
# encoder_2_filtered_df['국가 확률'] = round(probs[1], 5)
# encoder_2_filtered_df['지방 확률'] = round(probs[2], 5)
# encoder_2_filtered_df['공동 확률'] = round(probs[3], 5)


## Random Forest

In [36]:
rf_2_filtered_df = first_filtered_df.copy()

In [37]:
# RF 모델 불러오기
with open('RF.pkl', 'rb') as file:
    model_2_rf = pickle.load(file)

In [38]:
# 조문에서 수행주체 뽑아서 list를 넣기
def new_subject_make(df):
    df['수행주체'] = ''  # 초기 열 설정
    for ii in tqdm(first_filtered_df.index, desc="Processing rows"):
        text = df['조문'][ii]
        new_subject_list = [subject for subject in subject_list if subject in text]
        df.at[ii, '수행주체'] = new_subject_list

    return df

In [39]:
rf_2_filtered_df = new_subject_make(rf_2_filtered_df)

Processing rows: 100%|██████████████████| 64029/64029 [00:08<00:00, 7429.54it/s]


In [40]:
rf_2_filtered_df

Unnamed: 0,법령명,조문제목,조문,사무판단,사무유형(대분류),rule_based,사무예측 결과,사무예측 확률,수행주체
0,환경영향평가법 시행규칙,규제의 재검토,② 환경부장관은 다음 각 호의 사항에 대하여 해당 호에 해당하는 날을 기준으로 2년...,0,0,1,1,0.71157,"[장관, 환경부]"
2,장애인복지법 시행규칙,장애인자립생활지원센터의 운영기준,"자립생활센터는 조직 운영, 사업 수행, 재정 확보, 운용 등에 대해 객관적으로 평가...",0,0,1,1,0.59481,"[관리, 센터]"
5,국제항해선박 및 항만시설의 보안에 관한 법률 시행규칙,국제항해여객선 승객 등의 보안검색의 실시방법과 절차 등,③ 제1항의 항만시설소유자는 다음 각 호의 어느 하나에 해당하는 경우에 승선하는 자...,0,0,1,1,0.66063,[소유자]
6,적극행정 운영규정,위원회의 구성 및 운영,"⑤ 위원회의 회의는 제4항에 따른 구성원 과반수의 출석으로 개의(開議)하고, 출석위...",0,0,1,1,0.68158,[위원회]
8,지방세특례제한법,장애인용 자동차에 대한 감면,② 장애인이 대통령령으로 정하는 바에 따라 대체취득을 하는 경우 해당 자동차에 대해...,0,0,1,1,0.68488,[대통령]
...,...,...,...,...,...,...,...,...,...
169604,전기통신사업법,사업의 겸업,② 과학기술정보통신부장관은 기간통신사업자가 제1항에 따른 사업을 경영함으로써 전기통...,0,0,1,1,0.90938,"[장관, 과학기술정보통신부, 사업자]"
169608,남북관계 발전에 관한 법률 시행령,0,"② 기본계획 및 연도별시행계획의 변경에 관한 고시, 협조요청 및 의견통보 등에 관한...",0,0,1,1,0.59577,[]
169609,지속가능 교통물류 발전법,국가 등의 책무,② 국가와 지방자치단체는 제1항에 따른 책무를 다하기 위하여 이에 따르는 예산상의 ...,0,0,1,1,0.59128,"[국가, 단체, 지방자치단체]"
169611,장애인복지법 시행규칙,시설운영의 중단ㆍ재개ㆍ폐지 신고 등,장애인복지시설을 설치ㆍ운영하는 자는 법 제60조제2항에 따라 시설 운영을 일시중단또...,0,0,1,1,0.54155,"[구청, 군수, 구청장, 시장, 청장]"


In [41]:
# 법령명 통합
rf_2_filtered_df['법령명'] = rf_2_filtered_df['법령명'].apply(lambda x: re.sub(r'\s?시행령|\s?시행규칙', '', x))

In [42]:
# 새로운 컬럼을 이용하기 위한 수행주체 count dictionary
with open('subject_dic.pkl', 'rb') as file:
    subject_dic = pickle.load(file)

In [43]:
# 조문에서 수행주체 뽑아서 list를 넣기
def score_subject(df,subject_dic):
    df['score_subject_nan'] = 0
    df['score_subject_n'] = 0
    df['score_subject_r'] = 0
    df['score_subject_p'] = 0
    df['score_subject_len'] = 0
    for ii in df.index.tolist():
        s = df['수행주체'][ii]
        if len(s) != 0:
            for jj in s:
                df.at[ii, 'score_subject_nan'] = df.at[ii, 'score_subject_nan'] + subject_dic[jj][0]
                df.at[ii, 'score_subject_n'] = df.at[ii, 'score_subject_n'] + subject_dic[jj][1]
                df.at[ii, 'score_subject_r'] = df.at[ii, 'score_subject_r'] + subject_dic[jj][2]
                df.at[ii, 'score_subject_p'] = df.at[ii, 'score_subject_p'] + subject_dic[jj][3]
        df.at[ii, 'score_subject_len'] = len(s)
    return df

In [44]:
rf_2_filtered_df = score_subject(rf_2_filtered_df,subject_dic)

In [45]:
select_column = ['법령명','score_subject_nan','score_subject_n','score_subject_r','score_subject_p']
rf_2_filtered_label = rf_2_filtered_df['사무유형(대분류)']
rf_2_filtered_input = rf_2_filtered_df[select_column]

In [46]:
# '법령명' label encoding 진행
encoder = LabelEncoder()
rf_2_filtered_input['법령명'] = encoder.fit_transform(rf_2_filtered_input['법령명']) # train set에는 fit_transform

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  rf_2_filtered_input['법령명'] = encoder.fit_transform(rf_2_filtered_input['법령명']) # train set에는 fit_transform


In [47]:
rf_2_filtered_input

Unnamed: 0,법령명,score_subject_nan,score_subject_n,score_subject_r,score_subject_p
0,2001,8129,3562,142,336
2,1410,4755,865,258,194
5,438,505,53,58,14
6,1443,4270,869,98,46
8,1614,4307,787,270,183
...,...,...,...,...,...
169604,1457,9268,3750,157,338
169608,551,0,0,0,0
169609,1640,6055,913,553,1583
169611,1410,10453,810,2480,738


In [48]:
# rf 결과
y_pred_rf = model_2_rf.predict(rf_2_filtered_input)
y_pred_proba_rf = model_2_rf.predict_proba(rf_2_filtered_input)

In [49]:
rf_result_df = pd.DataFrame({
    '사무유형(대분류)' : rf_2_filtered_label,
    '사무유형(대분류) 예측' : y_pred_rf,
    '비사무 확률' : y_pred_proba_rf[:,0],
    '국가 확률' : y_pred_proba_rf[:,1],
    '지방 확률' : y_pred_proba_rf[:,2],
    '공동 확률' : y_pred_proba_rf[:,3],
    })

## Ensemble

In [50]:
ensemble_result_df_11 = pd.DataFrame({
    '사무유형(대분류)' : rf_2_filtered_label,
    '비사무 확률' : (rf_result_df['비사무 확률']*1 + encoder_result_df['비사무 확률']*1)/2,
    '국가 확률' :  (rf_result_df['국가 확률'] + encoder_result_df['국가 확률']*1)/2,
    '지방 확률' :  (rf_result_df['지방 확률'] + encoder_result_df['지방 확률']*1)/2,
    '공동 확률' :  (rf_result_df['공동 확률'] + encoder_result_df['공동 확률']*1)/2,
    })

cols = ['비사무 확률', '국가 확률', '지방 확률', '공동 확률']
ensemble_result_df_11['사무유형(대분류) 예측'] = ensemble_result_df_11[['비사무 확률', '국가 확률', '지방 확률', '공동 확률']].idxmax(axis=1)
for i in range(len(cols)):
    ensemble_result_df_11.loc[ensemble_result_df_11['사무유형(대분류) 예측']==cols[i], '사무유형(대분류) 예측'] = i


In [51]:
ensemble_result_df_11

Unnamed: 0,사무유형(대분류),비사무 확률,국가 확률,지방 확률,공동 확률,사무유형(대분류) 예측
0,0,0.589668,0.300052,0.051585,0.058695,0
2,0,0.735065,0.107310,0.077640,0.079985,0
5,0,0.634925,0.087965,0.181780,0.095330,0
6,0,0.751815,0.098010,0.064520,0.085655,0
8,0,0.793270,0.084860,0.053670,0.068200,0
...,...,...,...,...,...,...
169604,0,0.416930,0.382865,0.068675,0.131530,0
169608,0,0.829785,0.080610,0.027120,0.062480,0
169609,0,0.241960,0.143380,0.099390,0.515275,3
169611,0,0.672768,0.138880,0.083312,0.105040,0


In [52]:
ensemble_result_df_11['사무유형(대분류) 예측'] = ensemble_result_df_11['사무유형(대분류) 예측'].astype(int)
ensemble_result_df_11.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 64029 entries, 0 to 169612
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   사무유형(대분류)     64029 non-null  int64  
 1   비사무 확률        64029 non-null  float64
 2   국가 확률         64029 non-null  float64
 3   지방 확률         64029 non-null  float64
 4   공동 확률         64029 non-null  float64
 5   사무유형(대분류) 예측  64029 non-null  int64  
dtypes: float64(4), int64(2)
memory usage: 5.4 MB


In [53]:
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

def cal_result(preds, y):
    conf_matrix = confusion_matrix(y, preds)
    print('혼동행렬')
    print(conf_matrix)
    accuracy = accuracy_score(y, preds)
    print(f'정확도: {accuracy}')
    class_report = classification_report(y, preds)
    print('Classification Report:')
    print(class_report)
    
    return conf_matrix

In [54]:
cal_result(ensemble_result_df_11['사무유형(대분류) 예측'], ensemble_result_df_11['사무유형(대분류)'])

혼동행렬
[[49935  2828   497   376]
 [ 2402  4777    11    34]
 [  713    12  1079    10]
 [  485    20     5   845]]
정확도: 0.8845366943103906
Classification Report:
              precision    recall  f1-score   support

           0       0.93      0.93      0.93     53636
           1       0.63      0.66      0.64      7224
           2       0.68      0.59      0.63      1814
           3       0.67      0.62      0.65      1355

    accuracy                           0.88     64029
   macro avg       0.73      0.70      0.71     64029
weighted avg       0.89      0.88      0.88     64029



array([[49935,  2828,   497,   376],
       [ 2402,  4777,    11,    34],
       [  713,    12,  1079,    10],
       [  485,    20,     5,   845]])

In [55]:
# 애매 / 확실 나누기
good_df = (ensemble_result_df_11[(rf_result_df['사무유형(대분류) 예측'] == encoder_result_df['사무유형(대분류) 예측'])])
bad_df = (ensemble_result_df_11[(rf_result_df['사무유형(대분류) 예측'] != encoder_result_df['사무유형(대분류) 예측'])])
ensemble_result_df_11['need_to_check'] = 0
for ii in bad_df.index.tolist():
    ensemble_result_df_11.at[ii,'need_to_check'] = 1

In [56]:
ensemble_result_df_11

Unnamed: 0,사무유형(대분류),비사무 확률,국가 확률,지방 확률,공동 확률,사무유형(대분류) 예측,need_to_check
0,0,0.589668,0.300052,0.051585,0.058695,0,0
2,0,0.735065,0.107310,0.077640,0.079985,0,0
5,0,0.634925,0.087965,0.181780,0.095330,0,1
6,0,0.751815,0.098010,0.064520,0.085655,0,0
8,0,0.793270,0.084860,0.053670,0.068200,0,0
...,...,...,...,...,...,...,...
169604,0,0.416930,0.382865,0.068675,0.131530,0,1
169608,0,0.829785,0.080610,0.027120,0.062480,0,0
169609,0,0.241960,0.143380,0.099390,0.515275,3,1
169611,0,0.672768,0.138880,0.083312,0.105040,0,0


In [57]:
# 확실 결과
cal_result(good_df['사무유형(대분류) 예측'].tolist(), good_df['사무유형(대분류)'].tolist())

혼동행렬
[[34414   952    81    14]
 [ 1227  1777     0     1]
 [  301     6   297     0]
 [  224     7     0    36]]
정확도: 0.9284897170602741
Classification Report:
              precision    recall  f1-score   support

           0       0.95      0.97      0.96     35461
           1       0.65      0.59      0.62      3005
           2       0.79      0.49      0.60       604
           3       0.71      0.13      0.23       267

    accuracy                           0.93     39337
   macro avg       0.77      0.55      0.60     39337
weighted avg       0.92      0.93      0.92     39337



array([[34414,   952,    81,    14],
       [ 1227,  1777,     0,     1],
       [  301,     6,   297,     0],
       [  224,     7,     0,    36]])

In [58]:
# 애매 결과
cal_result(bad_df['사무유형(대분류) 예측'].tolist(), bad_df['사무유형(대분류)'].tolist())

혼동행렬
[[15521  1876   416   362]
 [ 1175  3000    11    33]
 [  412     6   782    10]
 [  261    13     5   809]]
정확도: 0.814514822614612
Classification Report:
              precision    recall  f1-score   support

           0       0.89      0.85      0.87     18175
           1       0.61      0.71      0.66      4219
           2       0.64      0.65      0.65      1210
           3       0.67      0.74      0.70      1088

    accuracy                           0.81     24692
   macro avg       0.70      0.74      0.72     24692
weighted avg       0.82      0.81      0.82     24692



array([[15521,  1876,   416,   362],
       [ 1175,  3000,    11,    33],
       [  412,     6,   782,    10],
       [  261,    13,     5,   809]])

## 2차 filter 결과 저장

In [59]:
sencond_filtered_df = first_filtered_df.copy()   # 2차 필터 결과 저장

probs = pd.DataFrame(y_probs)
probs = probs.set_index(sencond_filtered_df.index)   # 인덱스 맞추기

sencond_filtered_df['수행주체'] = rf_2_filtered_df['수행주체']
sencond_filtered_df['사무유형(대분류) 결과'] = ensemble_result_df_11['사무유형(대분류) 예측']
sencond_filtered_df['비사무 확률'] = ensemble_result_df_11['비사무 확률']
sencond_filtered_df['국가 확률'] = ensemble_result_df_11['국가 확률']
sencond_filtered_df['지방 확률'] = ensemble_result_df_11['지방 확률']
sencond_filtered_df['공동 확률'] = ensemble_result_df_11['공동 확률']
sencond_filtered_df['need_to_check'] = ensemble_result_df_11['need_to_check']

In [60]:
sencond_filtered_df

Unnamed: 0,법령명,조문제목,조문,사무판단,사무유형(대분류),rule_based,사무예측 결과,사무예측 확률,수행주체,사무유형(대분류) 결과,비사무 확률,국가 확률,지방 확률,공동 확률,need_to_check
0,환경영향평가법 시행규칙,규제의 재검토,② 환경부장관은 다음 각 호의 사항에 대하여 해당 호에 해당하는 날을 기준으로 2년...,0,0,1,1,0.71157,"[장관, 환경부]",0,0.589668,0.300052,0.051585,0.058695,0
2,장애인복지법 시행규칙,장애인자립생활지원센터의 운영기준,"자립생활센터는 조직 운영, 사업 수행, 재정 확보, 운용 등에 대해 객관적으로 평가...",0,0,1,1,0.59481,"[관리, 센터]",0,0.735065,0.107310,0.077640,0.079985,0
5,국제항해선박 및 항만시설의 보안에 관한 법률 시행규칙,국제항해여객선 승객 등의 보안검색의 실시방법과 절차 등,③ 제1항의 항만시설소유자는 다음 각 호의 어느 하나에 해당하는 경우에 승선하는 자...,0,0,1,1,0.66063,[소유자],0,0.634925,0.087965,0.181780,0.095330,1
6,적극행정 운영규정,위원회의 구성 및 운영,"⑤ 위원회의 회의는 제4항에 따른 구성원 과반수의 출석으로 개의(開議)하고, 출석위...",0,0,1,1,0.68158,[위원회],0,0.751815,0.098010,0.064520,0.085655,0
8,지방세특례제한법,장애인용 자동차에 대한 감면,② 장애인이 대통령령으로 정하는 바에 따라 대체취득을 하는 경우 해당 자동차에 대해...,0,0,1,1,0.68488,[대통령],0,0.793270,0.084860,0.053670,0.068200,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
169604,전기통신사업법,사업의 겸업,② 과학기술정보통신부장관은 기간통신사업자가 제1항에 따른 사업을 경영함으로써 전기통...,0,0,1,1,0.90938,"[장관, 과학기술정보통신부, 사업자]",0,0.416930,0.382865,0.068675,0.131530,1
169608,남북관계 발전에 관한 법률 시행령,0,"② 기본계획 및 연도별시행계획의 변경에 관한 고시, 협조요청 및 의견통보 등에 관한...",0,0,1,1,0.59577,[],0,0.829785,0.080610,0.027120,0.062480,0
169609,지속가능 교통물류 발전법,국가 등의 책무,② 국가와 지방자치단체는 제1항에 따른 책무를 다하기 위하여 이에 따르는 예산상의 ...,0,0,1,1,0.59128,"[국가, 단체, 지방자치단체]",3,0.241960,0.143380,0.099390,0.515275,1
169611,장애인복지법 시행규칙,시설운영의 중단ㆍ재개ㆍ폐지 신고 등,장애인복지시설을 설치ㆍ운영하는 자는 법 제60조제2항에 따라 시설 운영을 일시중단또...,0,0,1,1,0.54155,"[구청, 군수, 구청장, 시장, 청장]",0,0.672768,0.138880,0.083312,0.105040,0


In [61]:
# 학실, 주의별 확인 함수
def check_result(result):
    jF = result.loc[(result['need_to_check']==1)&(result['사무유형(대분류)']!=result['사무유형(대분류) 결과']), :]
    jT = result.loc[(result['need_to_check']==1)&(result['사무유형(대분류)']==result['사무유형(대분류) 결과']), :]
    hF = result.loc[(result['need_to_check']==0)&(result['사무유형(대분류)']!=result['사무유형(대분류) 결과']), :]
    hT = result.loc[(result['need_to_check']==0)&(result['사무유형(대분류)']==result['사무유형(대분류) 결과']), :]
    
    print(f'주의 사무 개수: {len(jF) + len(jT)}')
    print(f'주의에서 틀린 개수: {len(jF)}')
    print(f'주의에서 맞은 개수: {len(jT)}')
    print('------------------')
    print(f'확실 사무 개수: {len(hF) + len(hT)}')
    print(f'확실에서 틀린 개수: {len(hF)}')
    print(f'확실에서 맞은 개수: {len(hT)}')
    
    h_ratio = len(hT)/(len(hF)+len(hT))
    j_ratio = len(jT)/(len(jF)+len(jT))
    
    return h_ratio, j_ratio  # 확실 사무중 맞은 것의 개수

In [62]:
cal_result(sencond_filtered_df['사무유형(대분류) 결과'], sencond_filtered_df['사무유형(대분류)'])

혼동행렬
[[49935  2828   497   376]
 [ 2402  4777    11    34]
 [  713    12  1079    10]
 [  485    20     5   845]]
정확도: 0.8845366943103906
Classification Report:
              precision    recall  f1-score   support

           0       0.93      0.93      0.93     53636
           1       0.63      0.66      0.64      7224
           2       0.68      0.59      0.63      1814
           3       0.67      0.62      0.65      1355

    accuracy                           0.88     64029
   macro avg       0.73      0.70      0.71     64029
weighted avg       0.89      0.88      0.88     64029



array([[49935,  2828,   497,   376],
       [ 2402,  4777,    11,    34],
       [  713,    12,  1079,    10],
       [  485,    20,     5,   845]])

In [63]:
h_ratio, j_ratio = check_result(sencond_filtered_df)
print("============")
print(f"확실 정확도: {h_ratio}")
print(f"애매 정확도: {j_ratio}")

주의 사무 개수: 24692
주의에서 틀린 개수: 4580
주의에서 맞은 개수: 20112
------------------
확실 사무 개수: 39337
확실에서 틀린 개수: 2813
확실에서 맞은 개수: 36524
확실 정확도: 0.9284897170602741
애매 정확도: 0.814514822614612


In [64]:
sub_df

Unnamed: 0,법령명,조문제목,조문,사무판단,사무유형(대분류),rule_based,사무예측 결과,사무예측 확률
0,환경영향평가법 시행규칙,규제의 재검토,② 환경부장관은 다음 각 호의 사항에 대하여 해당 호에 해당하는 날을 기준으로 2년...,0,0,1,1,0.71157
1,도서관법,자격취소,2. 제6조제3항에 따라 발급받은 자격증을 다른 사람에게 대여한 경우,0,0,1,0,0.00717
2,장애인복지법 시행규칙,장애인자립생활지원센터의 운영기준,"자립생활센터는 조직 운영, 사업 수행, 재정 확보, 운용 등에 대해 객관적으로 평가...",0,0,1,1,0.59481
3,건설기술 진흥법,건설공사 지원 통합정보체계의 구축,5. 건설공사 지원 통합정보체계를 이용한 정보의 공동활용 촉진,0,0,1,0,0.00632
4,농수산물 유통 및 가격안정에 관한 법률 시행령,도매시장법인의 겸영사업의 제한,2. 제2차 위반: 1개월 금지,0,0,1,0,0.00666
...,...,...,...,...,...,...,...,...
169610,언론중재 및 피해구제 등에 관한 법률,사망자의 인격권 보호,① 제5조제1항의 타인에는 사망한 사람을 포함한다.,0,0,1,0,0.05174
169611,장애인복지법 시행규칙,시설운영의 중단ㆍ재개ㆍ폐지 신고 등,장애인복지시설을 설치ㆍ운영하는 자는 법 제60조제2항에 따라 시설 운영을 일시중단또...,0,0,1,1,0.54155
169612,한부모가족지원법,금융정보등의 제공,⑤ 제1항부터 제3항까지의 규정에 따른 금융정보등의 제공 요청과 제공은 「정보통신망...,0,0,1,1,0.38753
169613,육군종합행정학교령,설치와 임무,①육군에 육군종합행정학교를 둔다. <개정 1999.2.26>,0,0,1,0,0.09126


In [65]:
# 결과 저장
sub_df['수행주체'] = sencond_filtered_df['수행주체']
sub_df['rule_based'] = sencond_filtered_df['rule_based']
sub_df['사무유형(대분류) 결과'] = sencond_filtered_df['사무유형(대분류) 결과']
sub_df['비사무 확률'] = sencond_filtered_df['비사무 확률']
sub_df['국가 확률'] = sencond_filtered_df['국가 확률']
sub_df['지방 확률'] = sencond_filtered_df['지방 확률']
sub_df['공동 확률'] = sencond_filtered_df['공동 확률']
sub_df['need_to_check'] = sencond_filtered_df['need_to_check']

In [69]:
sub_df.loc[sub_df['사무유형(대분류) 결과'].isna(), '사무유형(대분류) 결과'] = 0
sub_df.loc[sub_df['rule_based'].isna(), 'rule_based'] = 0
sub_df.loc[sub_df['need_to_check'].isna(), 'need_to_check'] = 0
sub_df.loc[sub_df['수행주체'].isna(), '수행주체'] = ''
sub_df.loc[sub_df['비사무 확률'].isna(), '비사무 확률'] = 0
sub_df.loc[sub_df['국가 확률'].isna(), '국가 확률'] = 0
sub_df.loc[sub_df['지방 확률'].isna(), '지방 확률'] = 0
sub_df.loc[sub_df['공동 확률'].isna(), '공동 확률'] = 0

In [70]:
# 자료형 정리
sub_df['사무유형(대분류) 결과'] = sub_df['사무유형(대분류) 결과'].astype(int)
sub_df['need_to_check'] = sub_df['need_to_check'].astype(int)
sub_df

Unnamed: 0,법령명,조문제목,조문,사무판단,사무유형(대분류),rule_based,사무예측 결과,사무예측 확률,수행주체,사무유형(대분류) 결과,비사무 확률,국가 확률,지방 확률,공동 확률,need_to_check
0,환경영향평가법 시행규칙,규제의 재검토,② 환경부장관은 다음 각 호의 사항에 대하여 해당 호에 해당하는 날을 기준으로 2년...,0,0,1.0,1,0.71157,"[장관, 환경부]",0,0.589668,0.300052,0.051585,0.058695,0
1,도서관법,자격취소,2. 제6조제3항에 따라 발급받은 자격증을 다른 사람에게 대여한 경우,0,0,0.0,0,0.00717,,0,0.000000,0.000000,0.000000,0.000000,0
2,장애인복지법 시행규칙,장애인자립생활지원센터의 운영기준,"자립생활센터는 조직 운영, 사업 수행, 재정 확보, 운용 등에 대해 객관적으로 평가...",0,0,1.0,1,0.59481,"[관리, 센터]",0,0.735065,0.107310,0.077640,0.079985,0
3,건설기술 진흥법,건설공사 지원 통합정보체계의 구축,5. 건설공사 지원 통합정보체계를 이용한 정보의 공동활용 촉진,0,0,0.0,0,0.00632,,0,0.000000,0.000000,0.000000,0.000000,0
4,농수산물 유통 및 가격안정에 관한 법률 시행령,도매시장법인의 겸영사업의 제한,2. 제2차 위반: 1개월 금지,0,0,0.0,0,0.00666,,0,0.000000,0.000000,0.000000,0.000000,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
169610,언론중재 및 피해구제 등에 관한 법률,사망자의 인격권 보호,① 제5조제1항의 타인에는 사망한 사람을 포함한다.,0,0,0.0,0,0.05174,,0,0.000000,0.000000,0.000000,0.000000,0
169611,장애인복지법 시행규칙,시설운영의 중단ㆍ재개ㆍ폐지 신고 등,장애인복지시설을 설치ㆍ운영하는 자는 법 제60조제2항에 따라 시설 운영을 일시중단또...,0,0,1.0,1,0.54155,"[구청, 군수, 구청장, 시장, 청장]",0,0.672768,0.138880,0.083312,0.105040,0
169612,한부모가족지원법,금융정보등의 제공,⑤ 제1항부터 제3항까지의 규정에 따른 금융정보등의 제공 요청과 제공은 「정보통신망...,0,0,1.0,1,0.38753,[],0,0.866910,0.070095,0.023285,0.039710,0
169613,육군종합행정학교령,설치와 임무,①육군에 육군종합행정학교를 둔다. <개정 1999.2.26>,0,0,0.0,0,0.09126,,0,0.000000,0.000000,0.000000,0.000000,0


In [71]:
sub_df.to_csv('final_df(val).csv', index=False)