In [9]:
import torch
from datasets import load_dataset
import pandas as pd

## KMMLU

In [5]:
ds = load_dataset(
    "HAERAE-HUB/KMMLU",
    "Korean-History",
    cache_dir = "/data/hf_cache"
    )

Generating train split:   0%|          | 0/1 [00:00<?, ? examples/s]

Generating dev split:   0%|          | 0/5 [00:00<?, ? examples/s]

Generating test split:   0%|          | 0/100 [00:00<?, ? examples/s]

In [7]:
ds

DatasetDict({
    train: Dataset({
        features: ['question', 'answer', 'A', 'B', 'C', 'D', 'Category', 'Human Accuracy'],
        num_rows: 1
    })
    dev: Dataset({
        features: ['question', 'answer', 'A', 'B', 'C', 'D', 'Category', 'Human Accuracy'],
        num_rows: 5
    })
    test: Dataset({
        features: ['question', 'answer', 'A', 'B', 'C', 'D', 'Category', 'Human Accuracy'],
        num_rows: 100
    })
})

In [10]:
df_train = ds["train"].to_pandas()
df_dev = ds["dev"].to_pandas()
df_test = ds["test"].to_pandas()

In [19]:
df_train

Unnamed: 0,question,answer,A,B,C,D,Category,Human Accuracy
0,다음과 같이 상소한 인물이 속한 붕당에 대한 설명으로 옳은 것만을 모두 고르면 ? ...,2,"ㄱ, ㄴ","ㄱ, ㄷ","ㄴ, ㄹ","ㄷ, ㄹ",Korean History,


In [14]:
df_train['question'].tolist()

['다음과 같이 상소한 인물이 속한 붕당에 대한 설명으로 옳은 것만을 모두 고르면 ? 상소하여 아뢰기를 , “신이 좌참 찬 송준길이 올린 차자를 보았는데 , 상복(喪服) 절차에 대하여 논한 것이 신과는 큰 차이가 있었습니다 . 장자를 위하여 3년을 입는 까닭은 위로 ‘정체(正體)’가 되기 때문이고 또 전 중(傳重: 조상의 제사나 가문의 법통을 전함)하기 때 문입니다 . …(중략) … 무엇보다 중요한 것은 할아버지와 아버지의 뒤를 이은 ‘정체’이지, 꼭 첫째이기 때문에 참 최 3년 복을 입는 것은 아닙니다 .”라고 하였다 .－현종실록 －ㄱ.기 사환국으로 정권을 장악하였다 .ㄴ.인 조반정을 주도 하여 집권세력이 되었다 .ㄷ.정조 시기에 탕평 정치의 한 축을 이루었다 .ㄹ.이 이와 성혼의 문인을 중심으로 형성되었다 .']

In [18]:
raw_text = df_train['question'].tolist()[0]

def format_text(text):
    # 질문과 지문 사이 분리 (물음표 기준)
    text = text.replace('?', '?\n\n[지문]\n')
    
    # 지문 출처 분리
    text = text.replace('－현종실록 －', '\n(출처: 현종실록)\n\n[선택지]')
    
    # 보기(ㄱ,ㄴ,ㄷ,ㄹ) 앞에서 줄바꿈
    for choice in ['ㄱ.', 'ㄴ.', 'ㄷ.', 'ㄹ.']:
        text = text.replace(choice, f'\n{choice} ')
        
    return text

print(format_text(raw_text))

다음과 같이 상소한 인물이 속한 붕당에 대한 설명으로 옳은 것만을 모두 고르면 ?

[지문]
 상소하여 아뢰기를 , “신이 좌참 찬 송준길이 올린 차자를 보았는데 , 상복(喪服) 절차에 대하여 논한 것이 신과는 큰 차이가 있었습니다 . 장자를 위하여 3년을 입는 까닭은 위로 ‘정체(正體)’가 되기 때문이고 또 전 중(傳重: 조상의 제사나 가문의 법통을 전함)하기 때 문입니다 . …(중략) … 무엇보다 중요한 것은 할아버지와 아버지의 뒤를 이은 ‘정체’이지, 꼭 첫째이기 때문에 참 최 3년 복을 입는 것은 아닙니다 .”라고 하였다 .
(출처: 현종실록)

[선택지]
ㄱ. 기 사환국으로 정권을 장악하였다 .
ㄴ. 인 조반정을 주도 하여 집권세력이 되었다 .
ㄷ. 정조 시기에 탕평 정치의 한 축을 이루었다 .
ㄹ. 이 이와 성혼의 문인을 중심으로 형성되었다 .


In [None]:
df_dev

Unnamed: 0,question,answer,A,B,C,D,Category,Human Accuracy
0,(가)에 대한 설명으로 옳지 않은 것은? (가)은/는 의병계열과 애국계몽 운동 계열...,1,고려 문종 때에 남경(南京)으로 승격되었다.,"종루(鐘樓), 이현, 칠패 등에서 상업활동이 이루어졌다.",정도전은 궁궐 전각(殿閣)과도성성문 등의 이름을 지었다.,성곽은 거중기 등을 이용하여 약 2년 만에 완성되었다.,Korean History,
1,(가) 지역에 대한 설명으로 옳은 것은? 나는 삼한(三韓) 산천의 음덕을 입어 대업...,4,이곳에 대장도감을 설치하여 재조대장경을 만들었다.,지눌이 이곳에서 수선사 결사운동을 펼쳤다.,망이 ․망소이가 이곳에서 봉기하였다.,몽골이 이곳에 동녕부를 두었다.,Korean History,
2,밑줄 친 ‘그’에 대한 설명으로 옳은 것은? 이 날 소정방이 부총관 김인문 등과 함...,2,살수에서 수의 군대를 물리쳤다 .,김춘추 의 신라 왕위 계승을 지원하였다 .,청해진을 설치하고 해상 무역을 전개하였다 .,대가야를 정벌하여 낙동강 유역을 확보하였다 .,Korean History,
3,다음과 같은 대통령 선출 방식이 포함된 헌법의 내용으로 옳지 않은 것은? 제39조,2,대통령은 통일 주체국민회의에서 토론 없이 무기명 투표로 선거한 다 .,통일주체국민회의에서 재적 대의원 과반수의 찬성을 얻은 자를 대통령 당선자로 한다. ...,대법원장은 대통령이 국회의 동의를 얻어 임명한 다 .,대통령은 국정 전반에 걸쳐 필요한 긴급조치를 할 수 있다.,Korean History,
4,(가) 인물이 추진한 정책으로 옳지 않은 것은? 선비들 수만 명이 대궐 앞에 모여 ...,3,사창제를 실시하였다 .,대전회통을 편찬하였다 .,비변사의 기능을 강화하였다 .,통상 수교 거부 정책을 추진하였다 .,Korean History,


In [33]:
df_dev['question'][2]

'밑줄 친 ‘그’에 대한 설명으로 옳은 것은? 이 날 소정방이 부총관 김인문 등과 함께 기 벌포에 도착하여 백제 군사와 마주쳤다 . …(중략) …소정방이 신라군이 늦게 왔다는 이유로 군문에서 신라 독군 김문영의 목을 베고 자 하니, 그가 군사들 앞에 나아가 “황산 전투를 보지도 않고 늦게 온 것을 이유로 우리를 죄 주려 하는구나 . 죄도 없이 치욕을 당할 수는  없으니, 결단코 먼저 당나라 군사와 결전을 한 후에 백제를 쳐야겠다 .”라고 말하였다 .'

In [34]:
df_dev.iloc[2,2:6].tolist()

['살수에서 수의 군대를 물리쳤다 .',
 '김춘추 의 신라 왕위 계승을 지원하였다 .',
 '청해진을 설치하고 해상 무역을 전개하였다 .',
 '대가야를 정벌하여 낙동강 유역을 확보하였다 .']

In [35]:
df_test

Unnamed: 0,question,answer,A,B,C,D,Category,Human Accuracy
0,"밑줄 친 ‘왕’의 재위 기간에 있었던 사실로 옳은 것은? 왕은 노론과 소론, 남인을...",3,동학이창시되었다.,대전회통이 편찬되었다.,신해통공이 시행되었다.,홍경래의 난이 발생하였다.,Korean History,
1,(가) 국가에 대한 설명으로 옳은 것은? (가)의 사신 고제덕 등이 일본에 와서 왕...,3,나 당연합군의 공격으로 멸망하였다 .,9주 5소경의 지방 행정 구역을 두었다 .,중앙 행정 기구로 3성 6부를 설치하였다 .,고구려의 수도였던 평양을 서경으로 삼았다 .,Korean History,
2,다음 사건을 시기 순으로 바르게 나열한 것은? (가)신라의 한강 유역 확보 (나)관...,4,(가)→(라)→(나)→(다),(나)→(다)→(가)→(라),(다)→(나)→(가)→(라),(라)→(다)→(가)→(나),Korean History,
3,"(가)에 대한 설명으로 옳은 것은? 신돈이 (가)을/를 설치하자고 요청하자 , …(...",3,시 전의 물가를 감독하는 임무를 담당하였다 .,국가재정의 출납과 회계 업무를 총괄하였다 .,불법적으로 점유된 토지와 노비를 조사하였다 .,부족한 녹봉을 보충하고자 관료에게 녹과 전을 지급하였다 .,Korean History,
4,(가) 재위 기간에 있었던 사실이 아닌 것은? (가) 황제가 영원히 가시던 길에 엎...,1,일본은 동양척식 주식회사를 설립하였다.,일본이 간도를 청에 귀속하는 협약을 체결하였다.,유생의 병장 중심으로 13도 창의군을 결성하였다.,대한제국의 외교권을 박탈하고 통감부를 설치하였다.,Korean History,
...,...,...,...,...,...,...,...,...
95,밑줄 친 ‘대한국’에 대한 설명으로 옳지 않은 것은? 제1조 대한국은 세계만국에 공...,3,양 전 사업을 실시하고 지계(地契)를 발급하였다.,국가재정은 탁지아문으로 일원화하였다.,서북철도국을 설치하여 경의 철도부설을 시도하였다.,원수부를 설치하여 황제가 군의 통수권을 장악하였다.,Korean History,
96,다음 상황이 나타나게 된 역사적 배경으로 옳은 것은? (진덕여왕 2년) 당 태종이 ...,2,(가) 사신인 서긍은 고려도경에서 고려청자의 우수함을 서술하였다.,"윤관은 별무반을 이끌어(가)를 몰아내고, 북방영토를 개척하였다.","(가)가 빼앗긴 지역의 반환을 간청하자, 고려는 조공을 받는 조건으로 돌려주었다.",(가)는 1115년 나라를 세운 뒤 고려에 군 신 관계를 요구하였다.,Korean History,
97,(가) 왕이 추진한 정책으로 옳은 것은? 책이 이루어지자 여섯 권으로 정리하여 올리...,3,계미자를 제작하였다 .,계해약조를 체결하였다 .,6조 직계제를 실시하였다 .,관수 관급제를 시행하였다 .,Korean History,
98,밑줄 친 ‘왕’의 재위 기간에 있었던 사실로 옳은 것은? 영동대장군인 백제사마왕은 ...,4,"16등급의 관 등을 마련하고, 공복을 제정하였다.","수도는 5부, 지방은 5방으로 나누어 정비하였다.",왕족을 파견하여 지방에 대한 통제를 강화하였다.,"남으로 마한을 통합하고, 북으로 고구려 평양성을 공격하였다.",Korean History,


### KLUE/MRC

#### 변수 설명
- title: 글 제목
- context: 지문
- news_category: 뉴스 카테고리
- source: 출처
- guid: 고유 ID
- is_impossible: 답변 불가능 여부(True: 지문 안에 답 없는 경우/ False: 지문 안에 답 있는 경우)
- question_type: 질문 유형(1: 말바꾸기 (Paraphrasing) - 쉬움 / 2: 여러 문장 결합 추론 (Multi-hop) - 어려움, 3: 답변 불가 )
- question: 질문
- answers: 정답 ({'text':['...'], 'answer_start': [int]})

In [36]:
ds_mrc = load_dataset(
    "klue/klue",
    "mrc",
    cache_dir = "/data/hf_cache"
    )

README.md: 0.00B [00:00, ?B/s]

mrc/train-00000-of-00001.parquet:   0%|          | 0.00/21.4M [00:00<?, ?B/s]

mrc/validation-00000-of-00001.parquet:   0%|          | 0.00/8.68M [00:00<?, ?B/s]

Generating train split:   0%|          | 0/17554 [00:00<?, ? examples/s]

Generating validation split:   0%|          | 0/5841 [00:00<?, ? examples/s]

In [41]:
df_mrc_train = ds_mrc['train'].to_pandas()
df_mrc_validation = ds_mrc['validation'].to_pandas()

In [42]:
df_mrc_train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17554 entries, 0 to 17553
Data columns (total 9 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   title          17554 non-null  object
 1   context        17554 non-null  object
 2   news_category  12117 non-null  object
 3   source         17554 non-null  object
 4   guid           17554 non-null  object
 5   is_impossible  17554 non-null  bool  
 6   question_type  17554 non-null  int32 
 7   question       17554 non-null  object
 8   answers        17554 non-null  object
dtypes: bool(1), int32(1), object(7)
memory usage: 1.0+ MB


In [46]:
df_mrc_train['news_category'].value_counts(dropna=False)

news_category
None      5437
종합        2444
사회         909
국제         746
산업섹션       729
부동산        722
경제         693
문화/TV      600
생활경제       534
기획         436
기업&CEO     393
금융         386
생활         304
미디어        295
IT모바일      288
게임         279
산업         275
책마을        267
자동차        267
테크         247
중기         197
전국         183
IT 과학      139
중기 의료      114
기업&IT      103
중기과학       103
JOB        101
경제금융        88
교육산업        79
로&비즈        62
과학          59
커버스토리       44
생생헬스        27
             4
Name: count, dtype: int64

In [None]:
# new_category 없는건 원본이 source 이기 때문
df_mrc_train[df_mrc_train['news_category'].isna()]['source'].value_counts(dropna=False)

source
wikipedia    5437
Name: count, dtype: int64

In [54]:
df_mrc_train['source'].value_counts(dropna=False)

source
hankyung     9908
wikipedia    5437
acrofan      2209
Name: count, dtype: int64

In [67]:
### 봐야하는것만 Zoom-in
target_categories = ['경제', '교육산업', '국제', '부동산', '사회', '생활', '책마을']
df_mrc_train_s = df_mrc_train[df_mrc_train['news_category'].isin(target_categories)]
df_mrc_validation_s = df_mrc_validation[df_mrc_validation['news_category'].isin(target_categories)]

In [68]:
df_mrc_train_s.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3720 entries, 1 to 17546
Data columns (total 9 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   title          3720 non-null   object
 1   context        3720 non-null   object
 2   news_category  3720 non-null   object
 3   source         3720 non-null   object
 4   guid           3720 non-null   object
 5   is_impossible  3720 non-null   bool  
 6   question_type  3720 non-null   int32 
 7   question       3720 non-null   object
 8   answers        3720 non-null   object
dtypes: bool(1), int32(1), object(7)
memory usage: 250.7+ KB


In [81]:
df_mrc_train_s[df_mrc_train_s['question_type'] == 2].sample(10, random_state=42)

Unnamed: 0,title,context,news_category,source,guid,is_impossible,question_type,question,answers
1163,이번주 화제의 책,◇세종처럼=세종실록을 통해 소통하고 헌신하며 토론·설득·협상을 통해 반대자들도 더불...,책마을,hankyung,klue-mrc-v1_train_14308,False,2,세종처럼'의 저자는?,"{'answer_start': [161], 'text': ['박현모']}"
7603,"英 노동당, 黨대표 선거 앞두고 극심한 ‘노선 논쟁’",지난 5월 영국 총선거에서 보수당에 패한 노동당의 당대표 선거가 14일(현지시간)부...,국제,hankyung,klue-mrc-v1_train_07839,False,2,전통적인 노동당 공약을 다시 내건 인물의 이름은?,"{'answer_start': [181], 'text': ['제러미 코빈']}"
9659,화제의 책,"◇조선을 구한 신목, 소나무=소나무를 통해 조선의 역사를 들여다보는 책. 소나무가 ...",부동산,hankyung,klue-mrc-v1_train_16062,False,2,소나무의 조선시대 군사적 활용에 관한 내용을 담은 도서의 제목은?,"{'answer_start': [1], 'text': ['조선을 구한 신목, 소나무']}"
11602,中 수출 예상보다 ‘선방’...상하이 증시 2.9% 반등,중국 인민은행의 위안화 평가절하 조치에도 불구하고 중국의 8월 수출이 두 달째 감소...,국제,hankyung,klue-mrc-v1_train_16944,False,2,전문가들이 예상한 중국 8월 수출의 전년 대비 감소치는?,"{'answer_start': [199, 199], 'text': ['6.6%', ..."
1076,벌써 5천명 몰렸다,다음달 9일 개막하는 국내 첫 ‘리모델링 박람회(2014 대한민국 리모델링 엑스포)...,부동산,hankyung,klue-mrc-v1_train_09842,False,2,2014 대한민국 리모델링 엑스포가 개최되는 장소는?,"{'answer_start': [98, 105], 'text': ['서울 대치동 S..."
14967,"코인플러그 김정소 본부장, 과학기술정보통신부 장관 블록체인 유공 표창 수상",코인플러그 블록체인사업본부 김정소 본부장이 지난 18일 ‘제3회 블록체인 진흥주간'...,사회,acrofan,klue-mrc-v1_train_14739,False,2,분산신원증명을 위해 개발된 서비스 이름은?,"{'answer_start': [360, 361, 372, 372, 376], 't..."
9955,A1면‘광교 집값’서 계속 ...수도권 2기 신도시 중 ...광교만 유일하게 상승,반면 분당은 개발된 지 20년 가까이 지나면서 노후 아파트라는 이미지가 짙어졌다고 ...,부동산,hankyung,klue-mrc-v1_train_16843,False,2,2기 신도시에 아파트 공급이 늘어나면서 부동산 하락세를 보인 지역은?,"{'answer_start': [279], 'text': ['분당']}"
14019,내년 공공기관 846명 더 뽑는다,내년 공공기관 채용 인원이 올해보다 846명 늘어난다.19일 기획재정부에 따르면 3...,경제,hankyung,klue-mrc-v1_train_13233,False,2,119개 공공기관에서는 고졸을 몇 명 채용할 예정인가?,"{'answer_start': [482, 482], 'text': ['2137명',..."
1363,"제15회 서울스프링실내악축제 5월 13일~24일 개최, 전 일정 티켓 오픈",“음악을 통한 우정”이라는 모토를 걸고 2006년부터 매년 서울의 봄을 실내악 음악...,생활,acrofan,klue-mrc-v1_train_05636,False,2,5월 14일날 서울스프링실내악축제가 열리는 곳은?,"{'answer_start': [207, 207, 214], 'text': ['세종..."
13319,"카카오 VX, ‘스마트홈트’ 인포그래픽 공개","㈜카카오 VX(대표 문태식)는 22일(화), 자사의 홈트레이닝 서비스 ‘스마트홈트’...",생활,acrofan,klue-mrc-v1_train_13705,False,2,커피 쿠폰을 주는 행사가 마감되는 날짜는?,"{'answer_start': [618, 618], 'text': ['1월 10일(..."


In [87]:
df_mrc_train_s[df_mrc_train_s['question_type'] == 2].sample(10, random_state=42)['context'].tolist()[3]

'중국 인민은행의 위안화 평가절하 조치에도 불구하고 중국의 8월 수출이 두 달째 감소세를 보였다. 하지만 전달에 비해 감소폭이 줄어들어 상하이종합지수는 큰 폭으로 뛰었다.중국 관세청은 중국의 8월 수출이 전년 동월 대비 6.1% 줄었다고 8일 발표했다. 지난 7월(8.9% 감소)과 비교하면 감소폭이 다소 줄어든 데다 블룸버그통신이 집계한 전문가들의 예상치(6.6% 감소)도 약간 웃돌았다. 이 때문에 연초부터 시작된 중국의 수출 감소세가 바닥을 친 것 아니냐는 분석이 나온다고 제일재경일보 등 현지 언론은 분석했다.그러나 수출이 중국 실물경기를 회복세로 돌려놓기에는 여전히 역부족이라는 지적이 나오고 있다. 월스트리트저널은 “중국의 수출이 큰 폭의 증가세로 돌아서기에는 글로벌시장 수요가 아직 미약하다”며 “중국이 올해 목표로 내세운 7.0% 경제성장률 목표치를 달성하기 위해서는 추가 경기부양책이 필요한 상황”이라고 평가했다. 중국 관세청도 “중국 수출이 4분기에도 비교적 큰 어려움에 직면할 가능성이 높다”고 전망했다. 8월 수입은 전년 동월 대비 14.3% 줄어 전달(8.6% 감소)보다 감소폭이 더욱 확대됐다. 중국 내수경기 부진이 여전히 지속되고 있다는 방증이다. 수입이 크게 감소함에 따라 중국의 8월 무역수지는 3680억위안(71조7303억원) 흑자로 전년 동월보다 20.1% 늘어난 것으로 집계됐다.한편 상하이종합지수는 전날 대비 2.92% 상승한 3170.45에 마감했다.'

In [89]:
df_mrc_train_s[df_mrc_train_s['question_type'] == 2].sample(10, random_state=42)['question'].tolist()[3]

'전문가들이 예상한 중국 8월 수출의 전년 대비 감소치는?'

In [91]:
df_mrc_train_s[df_mrc_train_s['question_type'] == 2].sample(10, random_state=42)['answers'].tolist()[3]

{'answer_start': array([199, 199], dtype=int32),
 'text': array(['6.6%', '6.6% 감소'], dtype=object)}

In [116]:
df_mrc_train_s[df_mrc_train_s['question_type'] == 2].sample(10, random_state=42)['context'].tolist()[5]

"코인플러그 블록체인사업본부 김정소 본부장이 지난 18일 ‘제3회 블록체인 진흥주간' 개막식에서 과학기술정보통신부 장관 표창을 받았다. 김정소 본부장은 올 한해 동안 KISA 모바일 사원증 사업 수주, 한국남부발전(KOSPO)의 블록체인 기반 풍력발전 운영・보안 솔루션 개발 프로젝트 진행 등 다양한 블록체인 기술의 산업적 접목에 성공적 역할을 하였으며, 이전에 블록체인기반 개인인증 서비스, 신재생에너지(REC) 거래 계약플랫폼, 우정사업본부 우체국 간편결제 등의 프로젝트를 이끈바 있다. 특히 코인플러그가 작년 8월부터 부산 블록체인 규제자유특구 사업자로 선정된 이후, 해당 사업의 총괄 담당으로서 올해 상반기 부산시민을 위한 DID 기반의 ‘블록체인 통합서비스 비패스(B PASS)’를 성공적으로 론칭하였다. 해당 서비스는 사용자가 체감할 수 있는 블록체인 서비스를 구현해 국내 블록체인 기반 분산신원증명의 새로운 패러다임을 증명하였다. 또한 공공안전 제보 서비스인 ‘시민안전제보’ 앱을 출시하여 안전미션 제보 등 새로운 형태의 제보 서비스를 구현하였다. 과학기술정보통신부 장관의 블록체인 유공 표창은 블록체인 관련 제도, 기술개발, 보급 및 확산에 공이 큰 단체 및 개인을 표창하여 성과 확산 및 대국민 인식제고를 위하여 추진되는 것으로, 분야별 추천 후보자를 접수하여 과기정통부 공적심사위원회의 심사 및 의결을 거쳐 최종 선정된다. 관련 분야에서 △산업발전 기여도 △사업 및 공공분야 개발 참여도 △진흥활동 실적 등 블록체인 산업 발전에 대한 기여도를 평가해 수상한다. 블록체인 전문가로서 개인 표창을 수상한 김정소 본부장은 블록체인 공공분야 기술지원 및 개발에 참여하여 블록체인 기반 솔루션 및 서비스를 다양한 부문에 적용, 생태계를 확장하는데 기여한 점을 높게 평가 받았다. 뿐만 아니라 다수의 컨퍼런스 강연 활동 등을 통해 기술영역을 넘어 일반인을 대상으로 블록체인에 대해 알리는데 노력하고 있는 공적을 인정받았다. 코인플러그 김정소 본부장은 “블록체인 기술이 일반 사용자

In [71]:
df_mrc_validation_s.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1261 entries, 1 to 5840
Data columns (total 9 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   title          1261 non-null   object
 1   context        1261 non-null   object
 2   news_category  1261 non-null   object
 3   source         1261 non-null   object
 4   guid           1261 non-null   object
 5   is_impossible  1261 non-null   bool  
 6   question_type  1261 non-null   int32 
 7   question       1261 non-null   object
 8   answers        1261 non-null   object
dtypes: bool(1), int32(1), object(7)
memory usage: 85.0+ KB


## Dataset

In [119]:
ROOT_DIR = '/data/ephemeral/pro-nlp-generationfornlp-nlp-13'
DATA_DIR = os.path.join(ROOT_DIR, 'data')
df = pd.read_csv(os.path.join(DATA_DIR,'train.csv'))
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2031 entries, 0 to 2030
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   id             2031 non-null   object 
 1   paragraph      2031 non-null   object 
 2   problems       2031 non-null   object 
 3   question_plus  0 non-null      float64
dtypes: float64(1), object(3)
memory usage: 63.6+ KB


In [107]:
df.head()

Unnamed: 0,id,paragraph,problems,question_plus
0,generation-for-nlp-425,"상소하여 아뢰기를 , “신이 좌참 찬 송준길이 올린 차자를 보았는데 , 상복(喪服)...",{'question': '상소한 인물이 속한 붕당에 대한 설명으로 옳은 것만을 모두...,
1,generation-for-nlp-426,"(가)은/는 의병계열과 애국계몽 운동 계열의 비밀결사가 모여 결성된 조직으로, 총사...","{'question': '(가)에 대한 설명으로 옳지 않은 것은?', 'choice...",
2,generation-for-nlp-427,나는 삼한(三韓) 산천의 음덕을 입어 대업을 이루었다.(가)는/은 수덕(水德)이 순...,"{'question': '(가) 지역에 대한 설명으로 옳은 것은?', 'choice...",
3,generation-for-nlp-428,이 날 소정방이 부총관 김인문 등과 함께 기 벌포에 도착하여 백제 군사와 마주쳤다....,"{'question': '밑줄 친 ‘그’에 대한 설명으로 옳은 것은?', 'choi...",
4,generation-for-nlp-429,"선비들 수만 명이 대궐 앞에 모여 만 동묘와 서원을 다시 설립할 것을 청하니, (가...","{'question': '(가) 인물이 추진한 정책으로 옳지 않은 것은?', 'ch...",


In [109]:
df['problems'][0]

"{'question': '상소한 인물이 속한 붕당에 대한 설명으로 옳은 것만을 모두 고르면?', 'choices': ['ㄱ, ㄴ', 'ㄱ, ㄷ', 'ㄴ, ㄹ', 'ㄷ, ㄹ'], 'answer': 2}"

In [110]:
df['paragraph'][0]

'상소하여 아뢰기를 , “신이 좌참 찬 송준길이 올린 차자를 보았는데 , 상복(喪服) 절차에 대하여 논한 것이 신과는 큰 차이가 있었습니다 . 장자를 위하여 3년을 입는 까닭은 위로 ‘정체(正體)’가 되기 때문이고 또 전 중(傳重: 조상의 제사나 가문의 법통을 전함)하기 때문입니다 . …(중략) … 무엇보다 중요한 것은 할아버지와 아버지의 뒤를 이은 ‘정체’이지, 꼭 첫째이기 때문에 참 최 3년 복을 입는 것은 아닙니다 .”라고 하였다 .－현종실록 －ㄱ.기 사환국으로 정권을 장악하였다 .ㄴ.인 조반정을 주도 하여 집권세력이 되었다 .ㄷ.정조 시기에 탕평 정치의 한 축을 이루었다 .ㄹ.이 이와 성혼의 문인을 중심으로 형성되었다.'

In [117]:
df['paragraph'][4]

'선비들 수만 명이 대궐 앞에 모여 만 동묘와 서원을 다시 설립할 것을 청하니, (가)이/가 크게 노하여 한성부의 조례(皂隷)와 병졸로 하여 금 한 강 밖으로 몰아내게 하고 드디어 천여 곳의 서원을 철폐하고 그 토지를 몰수하여 관에 속하게 하였다.－대한계년사 －'

In [118]:
df['problems'][4]

"{'question': '(가) 인물이 추진한 정책으로 옳지 않은 것은?', 'choices': ['사창제를 실시하였다 .', '대전회통을 편찬하였다 .', '비변사의 기능을 강화하였다 .', '통상 수교 거부 정책을 추진하였다 .'], 'answer': 3}"

In [120]:
df['paragraph'][125]

'이 지문에 나타난 정보는 무엇입니까? 다음 편지를 읽어보십시오. 사건은 . . . 스페인 사람이 인디언을 보았는데 . . 살해된 인디언의 시체에서 떼어낸 살점을 먹었다는 겁니다. . . . 전 범인을 화형했고, 그 인디언을 죽이고 먹었기 때문이라고 이유를 설명했습니다. 폐하와 제가 폐하의 이름으로 금지한 일이었습니다. 저는 또한 추장에게 모든 사람들이 . . . 이 관습을 금해야 한다고 일렀습니다. . . . 저는 . . . 그들의 생명과 재산을 보호하고, 오직 유일신만을 숭배해야 한다는 것을 가르치기 위해 왔습니다. . . 그들은 우상과 지금까지 행하던 의식을 버려야 합니다. 이는 거짓말이자 속임수로 사탄이 . . . 발명한 것입니다. . . . 마찬가지로 저도 그들에게 폐하께서 신의 섭리로 우주를 다스리시고, 그들도 제국의 멍에에 복종해야 하고, 폐하의 종인 여기 우리가 명령하는 모든 일을 다 해야 함을 가르치려고 왔습니다. —에르난 코르테스, 신성 로마 황제 카를 5세에게 보낸 5번째 편지, 1521년'

In [122]:
df['problems'][125]

"{'question': '위 문서의 탐험 동기 중 가장 분명한 것은 무엇입니까?', 'choices': ['중상주의 부상으로 상업 발전과 해외 식민지 획득 촉진이라는 새로운 역할이 국가에 생겼습니다.', '유럽 국가들은 개인의 부와 국가 권력 강화 수단으로 금, 향신료, 사치품에 대한 직접 접근을 모색했습니다.', '개별 선장들은 큰 영광과 부를 추구했습니다.', '정부와 종교 당국이 신앙을 전파하고 이슬람에 맞서려 함에 따라 기독교는 탐험의 자극제가 되었고, 토착 문명의 물리적, 문화적 정복 정당화 역할을 했습니다.'], 'answer': 4}"

In [125]:
df['paragraph'][2000]

'골든브릿지투자증권이 경영환경 악화에 대응하기 위해 성과연봉제를 증권업계 최초로 도입했으나 노조가 장기파업으로 맞서고 있어 성공 여부가 주목된다.배상윤 골든브릿지투자증권 이사는 14일 서울 태평로 뉴국제호텔 회의실에서 열린 ‘일자리나누기 확산을 위한 전략적 선택’ 세미나에 참석해 “증권업계는 최근 1년간 지점 통폐합, 인력구조조정, 계약직 해지 등을 통해 3000여명의 인력을 줄였다”며 “골든브릿지도 성과연봉제라는 개혁적인 임금체계를 도입했다”고 설명했다. 그는 그러나 “노조가 이 제도에 대해 파업으로 맞서 어려움을 겪고 있다”며 “노조도 고용유지를 위해 제도를 받아들여야 할 것”이라고 촉구했다. 이 회사 임직원은 180여명으로 이 중 노조원 54명이 정리해고 및 성과연봉제 반대 등을 주장하며 지난해 4월13일부터 540일간 파업을 벌이고 있다. 성과연봉제는 비노조원 120여명에게 적용하고 있다. 배 이사는 “불황기에 고통을 분담하며 일자리를 유지하고 호황 때 많은 결실을 나눠 가질 수 있는 성과연봉제가 노사 공생의 윈윈전략”이라고 강조했다.'

In [126]:
df['problems'][2000]

"{'question': '골든브릿지투자증권이 도입한 임금체계의 이름은 무엇인가?', 'choices': ['성과연봉제', '기본급제', '시간급제', '성과급제', '계약직제'], 'answer': 1}"

In [127]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2031 entries, 0 to 2030
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   id             2031 non-null   object 
 1   paragraph      2031 non-null   object 
 2   problems       2031 non-null   object 
 3   question_plus  0 non-null      float64
dtypes: float64(1), object(3)
memory usage: 63.6+ KB


In [128]:
df.head()

Unnamed: 0,id,paragraph,problems,question_plus
0,generation-for-nlp-425,"상소하여 아뢰기를 , “신이 좌참 찬 송준길이 올린 차자를 보았는데 , 상복(喪服)...",{'question': '상소한 인물이 속한 붕당에 대한 설명으로 옳은 것만을 모두...,
1,generation-for-nlp-426,"(가)은/는 의병계열과 애국계몽 운동 계열의 비밀결사가 모여 결성된 조직으로, 총사...","{'question': '(가)에 대한 설명으로 옳지 않은 것은?', 'choice...",
2,generation-for-nlp-427,나는 삼한(三韓) 산천의 음덕을 입어 대업을 이루었다.(가)는/은 수덕(水德)이 순...,"{'question': '(가) 지역에 대한 설명으로 옳은 것은?', 'choice...",
3,generation-for-nlp-428,이 날 소정방이 부총관 김인문 등과 함께 기 벌포에 도착하여 백제 군사와 마주쳤다....,"{'question': '밑줄 친 ‘그’에 대한 설명으로 옳은 것은?', 'choi...",
4,generation-for-nlp-429,"선비들 수만 명이 대궐 앞에 모여 만 동묘와 서원을 다시 설립할 것을 청하니, (가...","{'question': '(가) 인물이 추진한 정책으로 옳지 않은 것은?', 'ch...",


In [129]:
df['paragraph'][255]

'케인스주의 분석에 따르면 대공황은 다음과 같은 원인으로 인해 발생했습니다.'

In [130]:
df['problems'][255]

"{'question': '대공황의 원인으로 케인스주의 분석에 따르면 무엇이 포함되는가?', 'choices': ['지출 부족.', '한계 소비 성향의 급격한 증가.', '너무 많은 투자.', '경제에 대한 지나치게 큰 외국의 영향력.'], 'answer': 1}"

In [131]:
df['paragraph'][256]

'금리 \xa0\xa0\xa0 신규 주택 \xa0\xa0\xa0 실업률'

In [132]:
df['problems'][256]

"{'question': '한 국가가 완전 고용 상태이고 중앙은행이 긴축적 통화 정책을 시행하는 경우, 다음 중 금리, 신규 주택 구입, 실업률이 다음 중 어떤 방식으로 변화할 것으로 예상할 수 있습니까?', 'choices': ['감소 \\xa0\\xa0\\xa0 증가 \\xa0\\xa0\\xa0 증가', '감소 \\xa0\\xa0\\xa0 감소 \\xa0\\xa0\\xa0 감소', '증가 \\xa0\\xa0\\xa0 감소 \\xa0\\xa0\\xa0 감소', '증가 \\xa0\\xa0\\xa0 감소 \\xa0\\xa0\\xa0 증가'], 'answer': 4}"

In [133]:
df['paragraph'][257]

'지급 준비율이 10%이고 연준이 시중 은행으로부터 100만 달러의 국채를 매입한다고 가정하겠습니다.'

In [134]:
df['problems'][257]

"{'question': '자금 수요가 완전 탄력적이라면 다음 중 어떤 상황이 발생할 가능성이 가장 높습니까?', 'choices': ['통화 공급량이 천만 달러 증가하며 금리가 낮아지고 AD가 증가한다.', '통화 공급량이 일정하게 유지되며 금리가 떨어지지 않고 AD가 증가하지 않는다.', '통화 공급량이 천만 달러 증가해도 금리가 떨어지지 않고 AD가 증가하지 않는다.', '통화 공급량이 천만 달러 감소하며 금리가 상승하고 AD가 감소한다.'], 'answer': 3}"

In [137]:
df['problems'][0]

"{'question': '상소한 인물이 속한 붕당에 대한 설명으로 옳은 것만을 모두 고르면?', 'choices': ['ㄱ, ㄴ', 'ㄱ, ㄷ', 'ㄴ, ㄹ', 'ㄷ, ㄹ'], 'answer': 2}"

In [139]:
df['paragraph'][0]

'상소하여 아뢰기를 , “신이 좌참 찬 송준길이 올린 차자를 보았는데 , 상복(喪服) 절차에 대하여 논한 것이 신과는 큰 차이가 있었습니다 . 장자를 위하여 3년을 입는 까닭은 위로 ‘정체(正體)’가 되기 때문이고 또 전 중(傳重: 조상의 제사나 가문의 법통을 전함)하기 때문입니다 . …(중략) … 무엇보다 중요한 것은 할아버지와 아버지의 뒤를 이은 ‘정체’이지, 꼭 첫째이기 때문에 참 최 3년 복을 입는 것은 아닙니다 .”라고 하였다 .－현종실록 －ㄱ.기 사환국으로 정권을 장악하였다 .ㄴ.인 조반정을 주도 하여 집권세력이 되었다 .ㄷ.정조 시기에 탕평 정치의 한 축을 이루었다 .ㄹ.이 이와 성혼의 문인을 중심으로 형성되었다.'

In [143]:
import ast

In [145]:
ast.literal_eval(df['problems'][0])

{'question': '상소한 인물이 속한 붕당에 대한 설명으로 옳은 것만을 모두 고르면?',
 'choices': ['ㄱ, ㄴ', 'ㄱ, ㄷ', 'ㄴ, ㄹ', 'ㄷ, ㄹ'],
 'answer': 2}