# 사용함수 총 정리

In [3]:
# 모든 입력값이 null인 행 제거
def x_null_drop(df):
    select_column = ['부처', '법령명', '조번호', '항번호', '호번호', '조문제목', '조문']
    delete_row_idx = list(df[df[select_column].isnull().all(axis = 1)].index)
    delete_row_idx.sort(reverse = True)
    for i in delete_row_idx:
        df = df.drop([i],axis = 0)
    return df

In [4]:
# 사무판단이 0인데 대분류가 분류 되어있는 경우
def x_wrong_drop(df):
    delete_row_idx = list(df[(df['사무판단']==0) & (df['사무유형(대분류)']!=0)].index)
    delete_row_idx.sort(reverse = True)
    for i in delete_row_idx:
        df = df.drop([i],axis = 0)
    return df

In [6]:
# 사무판단 없는 행 비사무 처리
def no_work_check(df):
    df.loc[df['사무판단'].isna(), '사무판단'] = 0
    df['사무판단'] = df['사무판단'].astype(int)
    return df

In [5]:
# 대분류 라벨 생성
def make_large_type(df):
    df.loc[df['사무유형(대분류)']=='국가', '사무유형(대분류)'] = 1
    df.loc[df['사무유형(대분류)']=='지방', '사무유형(대분류)'] = 2
    df.loc[df['사무유형(대분류)']=='공동', '사무유형(대분류)'] = 3
    df['사무유형(대분류)'] = df['사무유형(대분류)'].astype(int)
    return df

In [None]:
# rule-base 제거 가능 열 생성
def rule_based(df):
    df['rule_based'] = 1

    # 조문이 결측치인 행
    df.loc[df['조문'].isnull(), 'rule_based'] = 0

    # '^제.*\)$' 표현 0으로
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'^제.*\)$')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'제\d+조$')), 'rule_based'] = 0

    # '^제(\d+)(장|절)' 표현 0으로
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'^제(\d+)(장|절|편)')), 'rule_based'] = 0

    # 조문제목 == '목적'|'정의' 0으로
    df.loc[((df['조문제목'].notnull()) & ((df['조문제목'] == '목적') | (df['조문제목'] == '정의'))), 'rule_based'] = 0

    # 삭제된 조문 0으로
    df.loc[((df['조문'].str.contains("삭제 <"))|(df['조문'].str.contains("삭제<"))), 'rule_based'] = 0

    # 조문이 '목적', '명칭'뿐인 것
    df.loc[(df['조문'].notnull()) & ((df['조문'].str.match(r"\d+\. 목적")) | (df['조문'] == '목적')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & ((df['조문'].str.match(r"\d+\. .*명칭")) | (df['조문'] == '명칭')), 'rule_based'] = 0

    # 조문에서 사무판단 무조건 0인 표현들
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'.*있는 경우$')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'.*없게 된 경우$')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'\d+\. .*거짓이나 그 밖의 부정한 방법으로 지정을 받은 경우')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'.*의사를 밝히는 경우')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'\d+\. .*인정되는 경우')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'.*친족이었던 경우')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'.*대리인이었던 경우')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'\d+\..*인증을 받은 경우')), 'rule_based'] = 0

    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'.*후견인$')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'\d+\. .*소재지')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'\d+\. .*정관')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'\d+\. .*계획서')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'\d+\. .*서류')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'\d+\. .*상호$')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'\d+\. .*증명서')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'\d+\. .*경매')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'\d+\. .*등록증')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'.*주소$')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'.*절차$')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'\d+\. .*출연금')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'.*정도$')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'\d+\. .*대표자')), 'rule_based'] = 0


    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'\d+\. .*공고의 방법')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'\d+\. .*대통령령으로 정하는 사항')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'\d+\. .*되지 아니한 자')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'\d+\. .*그 밖에 필요한 사항')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'.*협회는 법인으로 한다')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'.*이사회.*사항$')), 'rule_based'] = 0
    df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'.*회계.*사항$')), 'rule_based'] = 0

    ## new_수행주체 열도 필요한 경우
    #df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'.*이 포함되어야 한다')) & (df['new_수행주체'].isnull()), 'rule_based'] = 0
    #df.loc[(df['조문'].notnull()) & (df['조문'].str.match(r'.*가 포함되어야 한다')) & (df['new_수행주체'].isnull()), 'rule_based'] = 0

    return df

In [None]:
# 1차 filter용 데이터셋 정의 -> (조문 + 조문제목) [embedding vector화 + 배치화]
class CustomDataset1(Dataset):
    def __init__(self, dataframe, tokenizer):
        self.data = dataframe
        self.tokenizer = tokenizer

    def __len__(self):
        return len(self.data)

    def __getitem__(self, idx):
        # '조문'과 '법령명' 칼럼의 데이터를 안전하게 문자열로 변환하고 결합
        text1 = str(self.data.iloc[idx]['조문'])
        text2 = str(self.data.iloc[idx]['조문제목'])
        text_data = text1 + " // " + text2
        label = torch.tensor(self.data.iloc[idx]['사무판단'], dtype=torch.long)

        # 결합된 텍스트를 토크나이징
        tokenized_data = tokenizer([text_data], padding='max_length', max_length=512, truncation=True, return_tensors='pt')

        return {
            'input_ids': tokenized_data['input_ids'].squeeze(),
            'attention_mask': tokenized_data['attention_mask'].squeeze(),
            'labels': label
        }

In [None]:
# 2차 filter용 데이터셋 정의 -> (법령명 + 조문제목 + 수행주체) [embedding vector화 + 배치화]
class CustomDataset2(Dataset):
    def __init__(self, dataframe, tokenizer):
        self.data = dataframe
        self.tokenizer = tokenizer

    def __len__(self):
        return len(self.data)

    def __getitem__(self, idx):
        # '조문'과 '법령명' 칼럼의 데이터를 안전하게 문자열로 변환하고 결합
        text1 = str(self.data.iloc[idx]['법령명'])
        text2 = str(self.data.iloc[idx]['조문제목'])
        text3 = str(self.data.iloc[idx]['수행주체'])
        text_data = text1 + " // " + text2 + " // " + text3
        label = torch.tensor(self.data.iloc[idx]['사무유형(대분류)'], dtype=torch.long)

        # 결합된 텍스트를 토크나이징
        tokenized_data = tokenizer([text_data], padding='max_length', max_length=128, truncation=True, return_tensors='pt')

        return {
            'input_ids': tokenized_data['input_ids'].squeeze(),
            'attention_mask': tokenized_data['attention_mask'].squeeze(),
            'labels': label
        }

In [None]:
# 각 배치의 텍스트 길이를 맞추기
def collate_fn(batch):
    input_ids = [item['input_ids'] for item in batch]
    attention_mask = [item['attention_mask'] for item in batch]
    labels = [item['labels'] for item in batch]

    # 패딩 적용
    input_ids = torch.nn.utils.rnn.pad_sequence(input_ids, batch_first=True, padding_value=tokenizer.pad_token_id)
    attention_mask = torch.nn.utils.rnn.pad_sequence(attention_mask, batch_first=True, padding_value=0)

    return {'input_ids': input_ids, 'attention_mask': attention_mask, 'labels': torch.stack(labels)}

In [None]:
# 평가 결과 확인
def cal_result(preds, y):
    conf_matrix = confusion_matrix(y, preds)
    accuracy = accuracy_score(y, preds)
    precision = precision_score(y, preds)
    recall = recall_score(y, preds)
    f1 = f1_score(y, preds)
    
    # 결과 출력
    print(f"Accuracy: {accuracy}")
    print(f"Precision: {precision}")
    print(f"Recall: {recall}")
    print(f"F1-Score: {f1}")
    print("Confusion Matrix:")
    print(conf_matrix)

In [None]:
def make_result_df(y_true, y_pred, probs0, probs1, probs2, probs3):
    result_df = pd.DataFrame({
        '사무유형(대분류)' : y_true,
        '사무유형(대분류) 예측' : y_pred,
        '비사무 확률' : round(probs0, 5),
        '국가 확률' : round(probs1, 5),
        '지방 확률' : round(probs2, 5),
        '공동 확률' : round(probs3, 5),
        })
    return result_df

In [None]:
# 조문에서 수행주체 뽑기
def new_subject_make(df):
    df['수행주체'] = ''  # 초기 열 설정
    for ii in tqdm(first_filtered_df.index, desc="Processing rows"):
        text = df['조문'][ii]
        new_subject_list = [subject for subject in subject_list if subject in text]
        df.at[ii, '수행주체'] = new_subject_list

    return df

In [None]:
# 조문에서 수행주체 뽑아서 list를 넣기
def score_subject(df,subject_dic):
    df['score_subject_nan'] = 0
    df['score_subject_n'] = 0
    df['score_subject_r'] = 0
    df['score_subject_p'] = 0
    df['score_subject_len'] = 0
    for ii in df.index.tolist():
        s = df['수행주체'][ii]
        if len(s) != 0:
            for jj in s:
                df.at[ii, 'score_subject_nan'] = df.at[ii, 'score_subject_nan'] + subject_dic[jj][0]
                df.at[ii, 'score_subject_n'] = df.at[ii, 'score_subject_n'] + subject_dic[jj][1]
                df.at[ii, 'score_subject_r'] = df.at[ii, 'score_subject_r'] + subject_dic[jj][2]
                df.at[ii, 'score_subject_p'] = df.at[ii, 'score_subject_p'] + subject_dic[jj][3]
        df.at[ii, 'score_subject_len'] = len(s)
    return df

In [None]:
# 앙상블 결과 열 추가 ('사무유형(대분류) 예측' 열 추가)
def make_ensemble_pred(df):
    cols = ['비사무 확률', '국가 확률', '지방 확률', '공동 확률']
    df['사무유형(대분류) 예측'] = df[cols].idxmax(axis=1)
    for i in range(len(cols)):
        df[df['사무유형(대분류) 예측']==cols[i], '사무유형(대분류) 예측'] = i
    
    return df

In [None]:
# [확실, 주의] 정확도 확인 함수
def check_result(df):
    jF = df.loc[(df['need_to_check']==1)&(df['사무유형(대분류)']!=df['사무유형(대분류) 결과']), :]
    jT = df.loc[(df['need_to_check']==1)&(df['사무유형(대분류)']==df['사무유형(대분류) 결과']), :]
    hF = df.loc[(df['need_to_check']==0)&(df['사무유형(대분류)']!=df['사무유형(대분류) 결과']), :]
    hT = df.loc[(df['need_to_check']==0)&(df['사무유형(대분류)']==df['사무유형(대분류) 결과']), :]
    
    print(f'주의 사무 개수: {len(jF) + len(jT)}')
    print(f'주의에서 틀린 개수: {len(jF)}')
    print(f'주의에서 맞은 개수: {len(jT)}')
    print('------------------')
    print(f'확실 사무 개수: {len(hF) + len(hT)}')
    print(f'확실에서 틀린 개수: {len(hF)}')
    print(f'확실에서 맞은 개수: {len(hT)}')
    
    h_ratio = len(hT)/(len(hF)+len(hT))
    j_ratio = len(jT)/(len(jF)+len(jT))
    
    return h_ratio, j_ratio  # 확실 사무중 맞은 것의 개수

In [None]:
# 2차 필터까지 진행한 결과 전체 데이터에 저장
def make_final_df(sub_df, sencond_filtered_df):
    # 열추가
    sub_df['수행주체'] = sencond_filtered_df['수행주체']
    sub_df['rule_based'] = sencond_filtered_df['rule_based']
    sub_df['사무유형(대분류) 결과'] = sencond_filtered_df['사무유형(대분류) 결과']
    sub_df['비사무 확률'] = sencond_filtered_df['비사무 확률']
    sub_df['국가 확률'] = sencond_filtered_df['국가 확률']
    sub_df['지방 확률'] = sencond_filtered_df['지방 확률']
    sub_df['공동 확률'] = sencond_filtered_df['공동 확률']
    sub_df['need_to_check'] = sencond_filtered_df['need_to_check']
    
    # 열의 빈값 처리
    sub_df.loc[sub_df['사무유형(대분류) 결과'].isna(), '사무유형(대분류) 결과'] = 0
    sub_df.loc[sub_df['rule_based'].isna(), 'rule_based'] = 0
    sub_df.loc[sub_df['need_to_check'].isna(), 'need_to_check'] = 0
    sub_df.loc[sub_df['수행주체'].isna(), '수행주체'] = ''
    sub_df.loc[sub_df['비사무 확률'].isna(), '비사무 확률'] = 0
    sub_df.loc[sub_df['국가 확률'].isna(), '국가 확률'] = 0
    sub_df.loc[sub_df['지방 확률'].isna(), '지방 확률'] = 0
    sub_df.loc[sub_df['공동 확률'].isna(), '공동 확률'] = 0
    
    # 자료형 정리
    sub_df['사무유형(대분류) 결과'] = sub_df['사무유형(대분류) 결과'].astype(int)
    sub_df['need_to_check'] = sub_df['need_to_check'].astype(int)
    
    return sub_df