In [116]:
import os
import numpy as np
import pandas as pd
from itertools import combinations
from sklearn.metrics import accuracy_score, recall_score, precision_score, f1_score
import sklearn
import warnings

# 경고 메시지를 무시하고 숨기거나
warnings.filterwarnings(action='ignore')

In [117]:
#label_to_num dict
l2n_dict ={'no_relation': 0, 'org:top_members/employees': 1, 'org:members': 2, 'org:product': 3, 'per:title': 4, 'org:alternate_names': 5, 'per:employee_of': 6, 'org:place_of_headquarters': 7, 'per:product': 8, 'org:number_of_employees/members': 9, 'per:children': 10, 
         'per:place_of_residence': 11, 'per:alternate_names': 12, 'per:other_family': 13, 'per:colleagues': 14, 'per:origin': 15, 'per:siblings': 16, 'per:spouse': 17, 'org:founded': 18, 'org:political/religious_affiliation': 19, 'org:member_of': 20, 
         'per:parents': 21, 'org:dissolved': 22, 'per:schools_attended': 23, 'per:date_of_death': 24, 'per:date_of_birth': 25, 'per:place_of_birth': 26, 'per:place_of_death': 27, 'org:founded_by': 28, 'per:religion': 29}



#num_to_label dict
n2l_dict = {value:key for key, value in list(l2n_dict.items())}



#labels 숫자형태로 만들기(모범답안)
test_with_label = pd.read_csv("../data/test_with_label.csv")
labels = list(test_with_label["label"])

for i in range(len(labels)):
    labels[i] = l2n_dict[labels[i]]



# f1계산해주는 함수
def klue_re_micro_f1(preds, labels):
    """KLUE-RE micro f1 (except no_relation)"""
    label_list = ['no_relation', 'org:top_members/employees', 'org:members',
       'org:product', 'per:title', 'org:alternate_names',
       'per:employee_of', 'org:place_of_headquarters', 'per:product',
       'org:number_of_employees/members', 'per:children',
       'per:place_of_residence', 'per:alternate_names',
       'per:other_family', 'per:colleagues', 'per:origin', 'per:siblings',
       'per:spouse', 'org:founded', 'org:political/religious_affiliation',
       'org:member_of', 'per:parents', 'org:dissolved',
       'per:schools_attended', 'per:date_of_death', 'per:date_of_birth',
       'per:place_of_birth', 'per:place_of_death', 'org:founded_by',
       'per:religion']
    no_relation_label_idx = label_list.index("no_relation")
    label_indices = list(range(len(label_list)))
    label_indices.remove(no_relation_label_idx)
    return sklearn.metrics.f1_score(labels, preds, average="micro", labels=label_indices) * 100.0



# 성능 계산해주는 함수
def score_calculator(file_list):
    scores = []
    for i in range(len(file_list)):
        
        temp = eval(f"df{i}")
        
        #preds를 숫자로 바꾸기
        preds = list(temp["pred_label"])
        for i in range(len(preds)):
            preds[i] = l2n_dict[preds[i]]
            
            
        scores.append(klue_re_micro_f1(preds, labels))
        
    return scores

# 앙상블 해주는 함수
def ensemble(file_list, num):
    for candidates in combinations(range(len(file_list)), num):
        temp = pd.DataFrame({"id":list(range(7765)) , "pred_label":range(7765), "probs":[[0.0]*30 for _ in range(7765)] })


        score_sum = 0
        for i in candidates:
            for j in range(7765):
                temp["probs"][j] = temp["probs"][j] + np.array(eval(eval(f"df{i}")["probs"][j]))*scores[i]

            score_sum += scores[i]


        for k in range(7765):

            #최종 temp의 pred_label 채워 놓기
            temp["pred_label"][k] = n2l_dict[np.argmax(temp["probs"][k])]

            #최종 temp의 probs 채워 놓기
            temp["probs"][k] = str(list(temp["probs"][k]/score_sum))



        #preds를 숫자로 바꾸기
        preds = list(temp["pred_label"])
        for i in range(len(preds)):
            preds[i] = l2n_dict[preds[i]] 


        print("들어간 모델: ", candidates)
        print(klue_re_micro_f1(preds, labels))
        print()
        
# 성능 계산해주는 함수
def submission(file_list, candidates):
    temp = pd.DataFrame({"id":list(range(7765)) , "pred_label":range(7765), "probs":[[0.0]*30 for _ in range(7765)] })
    score_sum = 0
    
    for i in candidates:
        for j in range(7765):
            temp["probs"][j] = temp["probs"][j] + np.array(eval(eval(f"df{i}")["probs"][j]))*scores[i]

            score_sum += scores[i]
            
    for k in range(7765):

        #최종 temp의 pred_label 채워 놓기
        temp["pred_label"][k] = n2l_dict[np.argmax(temp["probs"][k])]

        #최종 temp의 probs 채워 놓기
        temp["probs"][k] = str(list(temp["probs"][k]/score_sum))
        
    return temp

In [118]:
# ensemble 폴더에 있는 csv 파일이름 담긴 리스트 만들기
# origin = "/Users/kowoojin/Desktop/앙상블 후보군/selected"
origin = os.getcwd()
# origin = "/Users/kowoojin/Desktop/앙상블 후보군"
file_list = os.listdir(origin + "/submission")
#file_list.remove( 'selected')
#file_list.remove( '.DS_Store')
file_list.sort()
# file_list = file_list[1:]
file_list  

['.DS_Store',
 'sub_123.csv',
 'sub_134.csv',
 'sub_136.csv',
 'submission1_05.csv',
 'submission1_15.csv',
 'submission_ensem1_78.csv',
 'woojin_result_71_259.csv',
 'woojin_result_ensem1_78.csv']

In [112]:
# 각각의 파일을 불러오기(df_{i} 형식)
for i in range(len(file_list)):
    globals()[f"df{i}"] = pd.read_csv(f"{origin}/submission/{file_list[i]}")

In [113]:
# #models: df들을 모아 놓은 리스트
# models =[] 
# for i in range(len(file_list)):
#     models.append(globals()[f"df{i}"])
    
    
#scores: 각 df의 리더보드 점수를 모아 놓은 리스트
scores = score_calculator(file_list)
scores

[71.73427020121366,
 71.39442231075698,
 71.59272263006702,
 72.25047679593135,
 72.10559796437657,
 71.01587301587303,
 71.0688836104513,
 71.08685182212233,
 71.259282667088,
 71.73427020121366]

# 앙상블 돌리는 코드!!!

In [114]:
print(file_list)
print(scores)

['sub_123.csv', 'sub_134.csv', 'sub_136.csv', 'submission1_05.csv', 'submission1_15.csv', 'submission_ensem1_78.csv', 'woojin_result_71_068.csv', 'woojin_result_71_0868.csv', 'woojin_result_71_259.csv', 'woojin_result_ensem1_78.csv']
[71.73427020121366, 71.39442231075698, 71.59272263006702, 72.25047679593135, 72.10559796437657, 71.01587301587303, 71.0688836104513, 71.08685182212233, 71.259282667088, 71.73427020121366]


In [115]:
ensemble(file_list, num=1) # 

들어간 모델:  (0,)
71.73427020121366

들어간 모델:  (1,)
71.39442231075698

들어간 모델:  (2,)
71.59272263006702

들어간 모델:  (3,)
72.25047679593135

들어간 모델:  (4,)
72.10559796437657

들어간 모델:  (5,)
71.01587301587303

들어간 모델:  (6,)
71.0688836104513

들어간 모델:  (7,)
71.08685182212233

들어간 모델:  (8,)
71.259282667088

들어간 모델:  (9,)
71.73427020121366



In [99]:
ensemble(file_list, num=2)

들어간 모델:  (0, 1)
71.48568687030227

들어간 모델:  (0, 2)
71.01587301587303

들어간 모델:  (0, 3)
71.616690464858

들어간 모델:  (0, 4)
71.86851763204085

들어간 모델:  (0, 5)
72.25047679593135

들어간 모델:  (0, 6)
71.39442231075698

들어간 모델:  (1, 2)
71.01587301587303

들어간 모델:  (1, 3)
71.64653528289892

들어간 모델:  (1, 4)
71.40806888853454

들어간 모델:  (1, 5)
72.10559796437657

들어간 모델:  (1, 6)
71.59272263006702

들어간 모델:  (2, 3)
71.01587301587303

들어간 모델:  (2, 4)
71.01587301587303

들어간 모델:  (2, 5)
71.01587301587303

들어간 모델:  (2, 6)
71.01587301587303

들어간 모델:  (3, 4)
71.23069574908453

들어간 모델:  (3, 5)
71.32003798670465

들어간 모델:  (3, 6)
71.0688836104513

들어간 모델:  (4, 5)
71.73427020121366

들어간 모델:  (4, 6)
71.08685182212233

들어간 모델:  (5, 6)
71.259282667088



In [103]:
ensemble(file_list, num=3)

들어간 모델:  (0, 1, 2)
71.01587301587303

들어간 모델:  (0, 1, 3)
71.7329093799682

들어간 모델:  (0, 1, 4)
71.89396358990737

들어간 모델:  (0, 1, 5)
71.7948717948718

들어간 모델:  (0, 1, 6)
71.48568687030227

들어간 모델:  (0, 2, 3)
71.01587301587303

들어간 모델:  (0, 2, 4)
71.01587301587303

들어간 모델:  (0, 2, 5)
71.01587301587303

들어간 모델:  (0, 2, 6)
71.01587301587303

들어간 모델:  (0, 3, 4)
71.53748411689962

들어간 모델:  (0, 3, 5)
71.94426852438252

들어간 모델:  (0, 3, 6)
71.616690464858

들어간 모델:  (0, 4, 5)
71.8347895154885

들어간 모델:  (0, 4, 6)
71.86851763204085

들어간 모델:  (0, 5, 6)
72.25047679593135

들어간 모델:  (1, 2, 3)
71.01587301587303

들어간 모델:  (1, 2, 4)
71.01587301587303

들어간 모델:  (1, 2, 5)
71.01587301587303

들어간 모델:  (1, 2, 6)
71.01587301587303

들어간 모델:  (1, 3, 4)
71.52866242038218

들어간 모델:  (1, 3, 5)
71.82829888712241

들어간 모델:  (1, 3, 6)
71.64653528289892

들어간 모델:  (1, 4, 5)
71.61752988047809

들어간 모델:  (1, 4, 6)
71.40806888853454

들어간 모델:  (1, 5, 6)
72.10559796437657

들어간 모델:  (2, 3, 4)
71.01587301587303

들어간 모델:  (2, 3, 5

In [90]:
ensemble(file_list, num=4)

들어간 모델:  (0, 1, 2, 3)
70.48472244440889

들어간 모델:  (0, 1, 2, 4)
71.15354017501988

들어간 모델:  (0, 1, 2, 5)
70.91053048297702

들어간 모델:  (0, 1, 2, 6)
70.91053048297702

들어간 모델:  (0, 1, 2, 7)
70.91053048297702

들어간 모델:  (0, 1, 3, 4)
70.46366115835072

들어간 모델:  (0, 1, 3, 5)
69.48114727682886

들어간 모델:  (0, 1, 3, 6)
69.48114727682886

들어간 모델:  (0, 1, 3, 7)
69.48114727682886

들어간 모델:  (0, 1, 4, 5)
70.93060441317559

들어간 모델:  (0, 1, 4, 6)
70.93060441317559

들어간 모델:  (0, 1, 4, 7)
70.93060441317559

들어간 모델:  (0, 1, 5, 6)
69.63940759819704

들어간 모델:  (0, 1, 5, 7)
69.63940759819704

들어간 모델:  (0, 1, 6, 7)
69.61841893414909

들어간 모델:  (0, 2, 3, 4)
69.84377465677765

들어간 모델:  (0, 2, 3, 5)
68.48285580084547

들어간 모델:  (0, 2, 3, 6)
68.48285580084547

들어간 모델:  (0, 2, 3, 7)
68.48285580084547

들어간 모델:  (0, 2, 4, 5)
69.81989036805012

들어간 모델:  (0, 2, 4, 6)
69.81989036805012

들어간 모델:  (0, 2, 4, 7)
69.81989036805012

들어간 모델:  (0, 2, 5, 6)
67.67127543886903

들어간 모델:  (0, 2, 5, 7)
67.67127543886903

들어간 모델:  (0, 2, 

In [91]:
ensemble(file_list, num=5)

들어간 모델:  (0, 1, 2, 3, 4)
71.1864406779661

들어간 모델:  (0, 1, 2, 3, 5)
70.48472244440889

들어간 모델:  (0, 1, 2, 3, 6)
70.48472244440889

들어간 모델:  (0, 1, 2, 3, 7)
70.48472244440889

들어간 모델:  (0, 1, 2, 4, 5)
71.15354017501988

들어간 모델:  (0, 1, 2, 4, 6)
71.15354017501988

들어간 모델:  (0, 1, 2, 4, 7)
71.15354017501988

들어간 모델:  (0, 1, 2, 5, 6)
70.91053048297702

들어간 모델:  (0, 1, 2, 5, 7)
70.91053048297702

들어간 모델:  (0, 1, 2, 6, 7)
70.91053048297702

들어간 모델:  (0, 1, 3, 4, 5)
70.46366115835072

들어간 모델:  (0, 1, 3, 4, 6)
70.46366115835072

들어간 모델:  (0, 1, 3, 4, 7)
70.46366115835072

들어간 모델:  (0, 1, 3, 5, 6)
69.48114727682886

들어간 모델:  (0, 1, 3, 5, 7)
69.48114727682886

들어간 모델:  (0, 1, 3, 6, 7)
69.48114727682886

들어간 모델:  (0, 1, 4, 5, 6)
70.93060441317559

들어간 모델:  (0, 1, 4, 5, 7)
70.93060441317559

들어간 모델:  (0, 1, 4, 6, 7)
70.93060441317559

들어간 모델:  (0, 1, 5, 6, 7)
69.63940759819704

들어간 모델:  (0, 2, 3, 4, 5)
69.84377465677765

들어간 모델:  (0, 2, 3, 4, 6)
69.84377465677765

들어간 모델:  (0, 2, 3, 4, 7)
69.84377

In [None]:
ensemble(file_list, num=6)

In [None]:
ensemble(file_list, num=7)

In [None]:
ensemble(file_list, num=8)

# to_csv

In [107]:
result = submission(file_list, candidates = [0, 5])

In [108]:
result.to_csv("./submission1_05.csv")