In [1]:
#=================================================================================
# bert 를 이용한 추출 요약 예제
# => 기존 bert 모델, sentencebert 모델을 이용하여 문장에 대한 추출 요약하는 예제로, 
# NeuralCoref(신경참조) 를 이용한다.
# => 기존, bert 모델과 sentence bert 모델을 이용할수 있음
#
# bert 추출 요약을 위해 아래 bert-extractive-summarizer 패키지 설치해야 함
#
# 참고 : https://github.com/dmmiller612/bert-extractive-summarizer
# 
#=================================================================================
#!pip install bert-extractive-summarizer

In [2]:
import time
from os import sys
sys.path.append('..')
from myutils import GPU_info, seed_everything, mlogging
from transformers import BertTokenizer, BertModel
from summarizer import Summarizer
from summarizer.sbert import SBertSummarizer

device = GPU_info()
seed_everything(111)
logger = mlogging(loggername="bert-exsummarizer", logfilname="bert-exsummarizer")


# bert 모델인 경우 => bert모델과 tokenizer를 Summarizer 함수 인자로 넘겨줌
model_path = '../model/bert/bmc-fpt-wiki_20190620_mecab_false_0311-0321-student-mlm'
# bert 모델과 tokenizer 로딩
tokenizer = BertTokenizer.from_pretrained(model_path, do_lower_case=False, max_len=128)
bertmodel = BertModel.from_pretrained(model_path, output_hidden_states=True)
# bert 모델을 연결시킴
model = Summarizer(custom_model=bertmodel, custom_tokenizer=tokenizer)


'''
# sentence bert 모델인 경우=> sentence bert 모델 경로를 SBertSummarizer 함수 인자로 넘겨줌
model_path = '../model/bert/bmc_fpt_kowiki20200920.train-sbert-tsmodel-0310'
model = SBertSummarizer(model_path)
'''

logfilepath:bwdataset_2022-03-22.log
logfilepath:qnadataset_2022-03-22.log
True
device: cuda:0
cuda index: 0
gpu 개수: 1
graphic name: NVIDIA A30
logfilepath:bert-exsummarizer_2022-03-22.log


Some weights of the model checkpoint at ../model/bert/bmc-fpt-wiki_20190620_mecab_false_0311-0321-student-mlm were not used when initializing BertModel: ['cls.predictions.transform.dense.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.decoder.bias', 'cls.predictions.decoder.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.bias', 'cls.predictions.transform.LayerNorm.weight']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of BertModel were not initialized from the model checkpoint at ../model/bert/bmc-fpt-wiki_20190620_mecab_false_0311-03

"\n# sentence bert 모델인 경우=> sentence bert 모델 경로를 SBertSummarizer 함수 인자로 넘겨줌\nmodel_path = '../model/bert/bmc_fpt_kowiki20200920.train-sbert-tsmodel-0310'\nmodel = SBertSummarizer(model_path)\n"

In [3]:
#import os
#os.environ["TOKENIZERS_PARALLELISM"] = "false"

body = '''
제주도(濟州島, 영어: Jeju-do)는 대한민국의 남해에 위치한 섬이자 대한민국에서 가장 큰 섬이다. 
또한 제주도는 행정구역상 제주특별자치도에 속한다. 섬의 면적은 1833.2 km²[2]인데 이는 남한 면적의 1.83%에 해당한다. 
2020년 기준 주민등록 인구는 약 67만 명으로[1] 대한민국의 섬 중에서 가장 인구가 많다.
또한 제주도는 중앙의 한라산을 중심으로 완만한 경사를 이루어 동서 73 km, 남북 31km의 타원형 모양을 하고 있다. 
일주도로 길이는 181km, 해안선은 258km이다. 제주도의 북쪽 끝은 김녕해수욕장이고, 남쪽 끝은 송악산이며, 서쪽 끝은 수월봉, 동쪽 끝은 성산 일출봉이다. 
제주도는 온대 기후에 속하며, 겨울에도 거의 영하로 떨어지지 않고 영상을 유지한다. 
황해와 동해, 동중국해 경계에 자리잡아 대한민국의 정치·경제는 물론 군사상으로도 중요한 지위에 있다.
또한 제주도는 2002년 12월 16일 유네스코가 기후 및 생물 다양성의 생태계적 가치를 인정하여 제주도를 생물권보전지역을 지정하였다.
가파도 뿐만 아니라 한라산, 성산 일출봉, 거문오름 용암동굴계가 학술·문화·관광·생태 등의 가치와 중요성을 인정받아 2007년 6월, 제주 화산섬과 용암 동굴이라는 이름으로 세계자연유산에 등록되었다. 
2010년 10월 3일 유네스코 세계지질공원네트워크(GGN)가 제주도 지역에 세계지질공원을 인증했다.
'''

logger.info(f'*model:{model_path}')
start = time.time()

result = model(
    body # The string body that you want to summarize
    # ratio: float # The ratio of sentences that you want for the final summary
    # min_length: int # Parameter to specify to remove sentences that are less than 40 characters
    # max_length: int # Parameter to specify to remove sentences greater than the max length,
    # num_sentences: Number of sentences to use. Overrides ratio if supplied.
)
#result = model(body, min_length=60)

full = ''.join(result)
logger.info(f'===처리시간: {time.time() - start:.3f} 초 ===')
logger.info(full)


2022-03-22 17:25:09,748 - bert-exsummarizer - INFO - ===처리시간: 1.368 초 ===
2022-03-22 17:25:09,749 - bert-exsummarizer - INFO - *model:../model/bert/bmc-fpt-wiki_20190620_mecab_false_0311-0321-student-mlm
2022-03-22 17:25:09,750 - bert-exsummarizer - INFO - 제주도(濟州島, 영어: Jeju-do)는 대한민국의 남해에 위치한 섬이자 대한민국에서 가장 큰 섬이다. 가파도 뿐만 아니라 한라산, 성산 일출봉, 거문오름 용암동굴계가 학술·문화·관광·생태 등의 가치와 중요성을 인정받아 2007년 6월, 제주 화산섬과 용암 동굴이라는 이름으로 세계자연유산에 등록되었다.


In [4]:
body = '''
오리너구리(학명: Ornithorhynchus anatinus)는 오스트레일리아와 태즈메이니아섬 토종의 반수서성 단공류(單孔類) 포유류의 일종이다. 가시두더지 4종과 함께 현존하는 다섯뿐인 단공류이며, 가장 원시적인 포유류인 동시에 난생(卵生)의 번식 방법을 택하고 있는 극소수의 포유류 중 하나이다.[2][3]
또한 오리너구리속, 오리너구리과에서도 유일하게 현재까지 명맥을 잇고 있는 종이자 모식종으로, 같은 오리너구리과에 속하는 것으로 여겨지는 다른 여러 종은 모두 화석으로만 발견된다. 다른 단공류 포유류처럼 오리너구리 역시 전기수용을 통하여 먹이의 동작을 포착한다. 포유류 가운데서는 매우 드물게도 독성 물질을 지니고 있는데, 그 중에서도 신경독을 보유하고 있고, 수컷 오리너구리의 뒷발 며느리발톱과 연결된 독샘을 통해서 분출되며, 인간이 여기에 베일 경우 찌르는 듯한 극심한 고통을 수반한다. 알에서 태어나지만 어미의 젖도 먹는다.
조류와 혼동되거나 조류와 포유류의 중간종이라는 오해를 받으나, 실제 유전적으로는 조류보다 파충류에 더 근접한 포유류이다. 오리를 닮은 부리, 비버를 닮은 꼬리, 수달을 닮은 발을 가진 다소 우스꽝스러운 외모에 알을 낳는 생태까지 겹쳐, 서구 박물학자들은 살아 있는 오리너구리를 확인하기 전까지, 1799년 학계에 기증된 오리너구리의 표본을 가리켜 다른 여러 동물들의 부위를 뒤섞어 조작해 놓은 가짜 표본이라고 의혹을 제기한 바도 있었다.[4][5]
태즈메이니아섬을 포함한 오스트레일리아의 동부에 서식한다. 뉴사우스웨일즈주의 상징동물이기도 한 오리너구리는[6][7][8] 20세기 초까지 모피를 얻고자 남획당했으나, 현재는 모든 서식지에서 법적으로 보호받고 있다. 인공번식으로 개체 수를 불리는 것이 어렵고 환경 파괴와 수질 오염에 취약하지만, 아직까지 개체 수의 폭락이나 눈에 띌 만한 위협은 보이지 않는다.
'''

logger.info(f'*model:{model_path}')
start = time.time()

result = model(
    body # The string body that you want to summarize
    # ratio: float # The ratio of sentences that you want for the final summary
    # min_length: int # Parameter to specify to remove sentences that are less than 40 characters
    # max_length: int # Parameter to specify to remove sentences greater than the max length,
    # num_sentences: Number of sentences to use. Overrides ratio if supplied.
)
#result = model(body, min_length=60)

full = ''.join(result)
logger.info(f'===처리시간: {time.time() - start:.3f} 초 ===')
logger.info(full)

2022-03-22 17:25:09,897 - bert-exsummarizer - INFO - ===처리시간: 0.140 초 ===
2022-03-22 17:25:09,898 - bert-exsummarizer - INFO - *model:../model/bert/bmc-fpt-wiki_20190620_mecab_false_0311-0321-student-mlm
2022-03-22 17:25:09,899 - bert-exsummarizer - INFO - 오리너구리(학명: Ornithorhynchus anatinus)는 오스트레일리아와 태즈메이니아섬 토종의 반수서성 단공류(單孔類) 포유류의 일종이다. 오리를 닮은 부리, 비버를 닮은 꼬리, 수달을 닮은 발을 가진 다소 우스꽝스러운 외모에 알을 낳는 생태까지 겹쳐, 서구 박물학자들은 살아 있는 오리너구리를 확인하기 전까지, 1799년 학계에 기증된 오리너구리의 표본을 가리켜 다른 여러 동물들의 부위를 뒤섞어 조작해 놓은 가짜 표본이라고 의혹을 제기한 바도 있었다.[4][5]
태즈메이니아섬을 포함한 오스트레일리아의 동부에 서식한다.


In [9]:
body = '''
에펠탑(프랑스어: Tour Eiffel, [tuʁ ɛfɛl], 영어: Eiffel Tower)은 프랑스 파리의 상징적 건축물로, 1889년에 프랑스 혁명 100주년을 맞이하여 파리 만국 박람회를 개최하였는데 이 박람회를 상징할만한 기념물로 에펠 탑을 건축하였다.[1] 박람회가 열린 마르스 광장에 출입 관문에 위치해있다. 프랑스의 대표 건축물인 이 탑은 격자 구조로 이루어져 파리에서 가장 높은 건축물이며, 매년 수백만 명이 방문할 정도로 파리에서 빼놓을 수 없는 세계적으로 유명한 관광명소이다. 이 탑은 공모전을 통해 선정된 프랑스 공학자 귀스타브 에펠의 작품으로 이를 디자인한 그의 이름을 따서 명명했다.
에펠탑은 그 높이가 324 m(1,063 ft)이며, 이는 81층 높이의 건물과 맞먹는 높이이다. 1930년 크라이슬러 빌딩이 완공되기 전까지는 세계에서 가장 높은 건축물이었다. 방송용 안테나를 제외하고도, 2004년 지어진 미요 교에 이어 프랑스에서 두 번째로 높은 구조물이다. 1991년에는 세계문화유산으로 등재되었다.[2]
현재의 긍정적인 평가와는 달리 착공 초기부터 도시미관을 훼손한다는 이유로 '흉물스럽고 추악한 철 구조물'이라는 등에 많은 비난이 있었으며, 이로 인해 20년이라는 계약기간이 만료되는 1909년에는 철거될뻔한 위기도 있었다.[3] 통신 시설물을 설치하여 활용가능하다는 사실이 증명되며 해체의 위기를 간신히 넘겼다.
훗날 여러 영화에서 배경으로 자주 사용하면서 파리 하면 많은 사람들이 제일 먼저 떠올리는 상징물이 되었으며, 현재에는 파리의 대표적인 명물로 사랑을 받고 있다. 1985년 야간 조명시설이 설치된 이후[4] 파리의 아름다운 야경을 만드는 데 일조하고 있는데, 밤이 되면 매 시각 정각부터 약 10분간 에펠탑이 반짝 거리는 쇼를 볼 수 있다.
관광객을 위해 3개 층이 개방되어 있다. 첫 번째 층과 두 번째 층 까지는 표를 구입하여 계단하고 엘리베이터를 통해 올라갈 수 있다[5]. 첫 번째 층까지의 높이와 첫 번째 층부터 두 번째 층까지의 높이는 각각 300 계단이 넘는다. 가장 높은 세 번째 층은 엘리베이터로만 올라갈 수 있다. 첫 번째 층과 두 번째 층에는 음식점이 있다.
프랑스 제3공화국 정부는 프랑스 혁명의 100주년을 기념하기 위해서 파리 만국 박람회를 1889년에 개최하기로 했다. 주최측은 박람회 기념물을 겸하여 당대 새로이 도래한 철(鐵)의 시대를 상징하는 볼거리를 관람객들에게 제공하고자 여러 아이디어를 공모했다.[1][2] 700여 편의 응모작중에 100여 편이 심사에 올랐다.[6] 그 결과 구스타프 에펠의 제안한 철탑 건축안이 채택되었다. 에펠은 이미 수 많은 철교를 건설한 교량전문가였으며[7] 하늘을 향해 솟은 수직구조의 철탑으로 사람들을 놀라게 해주려고 응모했었다.[1] 아울러 그는 1885년에 미국 뉴욕에 '자유의 여신상'을 세우기 위한 철골구조를 제작하는등 풍부한 경험을 가지고 있었다.[2][1][8][9]
건축은 1887년 1월 28일년부터 시작되어 26개월만인 1889년 3월 30일에 기본 구조가 완성되었다.[1] 1889년 3월 31일 준공식을 하였고, 같은 해 5월 6일 일반에 공개되었다. 건설될 당시의 높이는 984피트(약 300ｍ)로 당대에 세계에서 가장 높은 건축물이었으며 현재에는 꼭대기에 첨탑, 안테나가 덧붙여져 320m 이상이 되었다.[2]
미식축구장 크기 만한 기단 바닥에 4개의 철제 기둥을 세운 다음 콘크리트로 봉하고는 그 위에 철탑의 본체를 얹는 방식으로 공사가 진행되었다.[10] 철탑의 재료로는 프랑스에서 제조된 7,300여톤의 연철(시멘트 마르탕 평로강)이 사용되었다.[11] 모리스 쾨슐랭의 구조 설계를 바탕으로, 300명의 작업자가 정련된 부품(단단히 제련된 건축용 철제) 18,038 조각을 250여 만 개의 리벳을 이용해 조립하였다.
이 작업에 공동으로 참여한 건축가는 에밀 누기에와 모리스 쾨슐랭, 그리고 스테펭 소베스트르였다.[12] 에펠 탑은 현대의 마천루들과는 다르게, 두개의 층 외에는 아무런 외벽이 없는 열린 형태이기 때문에 사고의 위험이 매우 컸다. 하지만, 에펠이 가드레일과 가림판 등의 안전 조치를 해놓은 덕에 단 한 명만 떨어져 사망했다.
높이가 높고 튼튼한 구조물을 쌓아 올리는 것이 가능했던 것은 산업혁명으로 인한 제철산업의 발달과 엘리베이터의 발명에 있었다.[10] 기존보다 우수한 철강재는 석재보다 가벼우면서도 강도, 연성, 편리성 측면에서 훨씬 뛰어났다. 또한 1853년에 미국의 엘리샤 오티스가 발명한 수압식 엘리베이터등 여러 회사들이 만든 엘리베이터가 설치되어 빠른 시간내에 작업이 진행될 수 있었다.[10] 엘리베이터는 높은 곳까지 인부와 자재를 쉽게 옮길 수 있게 해주었으며 관광객들이 전망대까지 쉽게 올라가 아름다운 파리 시가지 전경을 감상할 수 있게 만들어 주었다.
건축 초기부터 파리의 경치를 해친다고 해서 심한 반대가 있었다. 에펠은 처음에 탑을 20년 간 세울 수 있는 허가를 받았다. 따라서 1909년에 소유권이 파리 시에 넘겨진 뒤 철거되었어야 했다.[3] 시에서는 애초부터 탑을 해체할 계획이었기 때문이다. 디자인 공모의 조건에 탑이 임의로 철거될 수 있다는 내용이 포함있었기 때문에 철거에는 아무런 문제가 없었다.
그러나 이미 파리의 명물로 자리잡은 에펠탑을 해체해서는 안 된다는 여론이 들끓자 파리시는 해체 계획을 접었다.[13] 1918년 라디오 방송을 위한 장치가 탑에 설치되었고 1957년에는 55피트의 텔레비전 송신 안테나가 설치되어 송신탑으로 사용되고 있다. 탑에 통신용 무선 안테나를 설치하여 활용하는 것이 여러면에서 이익이라는 사실이 알려지면서 철거 여론은 수그러들었다. 프랑스군은 제1차 세계 대전 당시에 벌어진 제1차 마른 전투에서 파리 시내의 택시들을 최전선에 투입할 때 이 탑을 이용하기도 했다. 현재에는 기상관측 장비와 항공운항 장비까지 갖추고 있다.
에펠탑 건립 계획이 알려지자 파리 시민들은 '무모한 짓'이라고 비난했다. 에펠탑 주변 샹 마르스 지역 주민들은 주거환경을 해칠 것이라고 소송을 내기까지 했다.[14] 완공후 예술가와 지식인들을 비롯한 많은 이들로부터 예술의 도시 파리와 어울리지 않기 때문에 도시의 미관을 해친다는 이유로 비판을 받기도 했다. 당시 파리 시내 건축물들이 중후한 석조건축으로 되어 있었는데, 에펠탑의 철골 노출 구조물이 가지는 이질성에 대한 반감이 강했고 미학적인 관심이 있는 전문가들로부터 비난이 이어졌다. '예술적 취향이라고는 찾을 수 없는 추악한 철 덩어리' '천박한 이미지의 철골 구조물' '공장의 굴뚝같은 형태의 공업기술을 예술의 도시 파리에 끌어들인 졸작'이라는 비난이 쏟아졌다.[15]
에펠탑을 무척 싫어했던 소설가 모파상은[16] 에펠 탑이 보이지 않도록 집의 창문을 반대 쪽으로 내었고, 거의 매일 점심을 의도적으로 에펠탑 1층 안에 있는 식당에서 먹었다고 한다. 에펠탑을 싫어하면서 이곳에서 식사를 하는 이유를 묻자, 파리에서 에펠탑이 보이지 않는 유일한 장소이기 때문이라고 말했다는 일화가 있다.[17][18] 재치있는 농담이기는 하지만 당시에는 그 정도로 에펠탑의 반대론이 강했다.[19]
착공 당시부터 에펠의 설계 구상은 흉물스럽다는 말이 있을 정도로 미학적, 건축적 측면에서 많은 반대가 있었다. 여태까지 한 번도 지어진 적이 없는 모양에다, 너무 높고 검은 철 구조물이 세워진다는 데 많은 반감을 가졌다.[2] 당시의 신문은 파리 예술 협회가 실은 비난조의 글들로 채워졌다. 가장 널리 인용되는 문장은 1892년 미국 정부 출판 부서에서 윌리엄 왓슨이 발간한, <<파리 만국 박람회: 토목공학, 공공 토목 공사와 건축>>에서 쓰인 "향후 20년간 우리가 도시 전체에서 보게 될 이것은 수 세기에 걸쳐 내려온 도시 미관을 위협하고 있고, 우리는 철판으로 엮인 역겨운 기둥의 검게 얼룩진 역겨운 그림자를 보게 될 것이다."라는 문구이다.[20] 이 문서의 공표에는 장 루이 에른스트 메소니에, 샤를 구노, 샤를 가르니에, 장레옹 제롬, 윌리암 아돌프 부그로, 그리고 알렉상드르 뒤마가 참여하였다.
초창기 여러 비판과는 달리 현재에는 역학적 구조가 그대로 건축미에 도입된 것으로 평가받고 있으며,[21] 철로 짜놓은 듯한 우아하고 아름다운 건축물이라는 평을 받고 있을뿐 에펠탑을 파리의 흉물이라고 말하는 사람은 없다. 특히 영화의 배경 화면으로 자주 사용되면서부터 파리의 대표적인 명물이자 랜드마크로 사랑을 받고 있다.
철과 콘크리트, 유리를 활용한 근대적 건축물의 흐름을 선도적으로 예측한 사례로 인정받으면서 에펠 탑의 철골 노출 구조는 이후 건설된 철도역사, 교량 등의 구조물에 큰 영향을 끼쳤다.[17] 또한 광고, 항공 등대, 라디오 및 텔레비전의 송신, 무선통신용 안테나를 설치하여 많이 활용되고 있다.
당시로서는 세계에서 가장 높은 인공 구조물로서 '공간정복'의 상징이 되었으며[10] 이로 인해 지난 보불전쟁에서 참패하며 손상된 프랑스의 자존심을 조금이나마 회복할 수 있었다. 또한 프랑스는 최첨단 기술을 보유한 국가라는 이미지를 가지게 되었고[10] 건축역사도 다시 쓰게 되었다. 파리 시민들의 비난에도 불구하고 박람회 기간동안 많은 사람들이 에펠탑을 보기 위해 방문했고 그 덕분에 박람회는 매우 성공적이었다. 이로 인해 프랑스는 지난 1789년이후 잦은 혁명으로 정국이 불안한 국가라는 부정적인 이미지를 말끔히 씻어버릴수 있게 되었다.
'''

logger.info(f'*model:{model_path}')
start = time.time()

result = model(
    body, # The string body that you want to summarize
    ratio = 0.1 # ratio: float # The ratio of sentences that you want for the final summary
    # min_length: int # Parameter to specify to remove sentences that are less than 40 characters
    # max_length: int # Parameter to specify to remove sentences greater than the max length,
    # num_sentences: Number of sentences to use. Overrides ratio if supplied.
)
#result = model(body, min_length=60)

full = ''.join(result)
logger.info(f'===처리시간: {time.time() - start:.3f} 초 ===')
logger.info(full)

2022-03-22 17:34:08,659 - bert-exsummarizer - INFO - *model:../model/bert/bmc-fpt-wiki_20190620_mecab_false_0311-0321-student-mlm
2022-03-22 17:34:09,019 - bert-exsummarizer - INFO - ===처리시간: 0.359 초 ===
2022-03-22 17:34:09,022 - bert-exsummarizer - INFO - 에펠탑(프랑스어: Tour Eiffel, [tuʁ ɛfɛl], 영어: Eiffel Tower)은 프랑스 파리의 상징적 건축물로, 1889년에 프랑스 혁명 100주년을 맞이하여 파리 만국 박람회를 개최하였는데 이 박람회를 상징할만한 기념물로 에펠 탑을 건축하였다.[1] 박람회가 열린 마르스 광장에 출입 관문에 위치해있다. 훗날 여러 영화에서 배경으로 자주 사용하면서 파리 하면 많은 사람들이 제일 먼저 떠올리는 상징물이 되었으며, 현재에는 파리의 대표적인 명물로 사랑을 받고 있다. 첫 번째 층과 두 번째 층 까지는 표를 구입하여 계단하고 엘리베이터를 통해 올라갈 수 있다[5]. 그러나 이미 파리의 명물로 자리잡은 에펠탑을 해체해서는 안 된다는 여론이 들끓자 파리시는 해체 계획을 접었다.[13] 1918년 라디오 방송을 위한 장치가 탑에 설치되었고 1957년에는 55피트의 텔레비전 송신 안테나가 설치되어 송신탑으로 사용되고 있다.
