In [78]:
from sumy.parsers.html import HtmlParser
from sumy.parsers.plaintext import PlaintextParser
from sumy.nlp.tokenizers import Tokenizer
from sumy.summarizers.lsa import LsaSummarizer
from sumy.summarizers.lex_rank import LexRankSummarizer
from sumy.nlp.stemmers import Stemmer
from sumy.utils import get_stop_words

# punktのダウンロード

In [2]:
# import nltk; nltk.download('punkt')

# English

In [3]:
LANGUAGE = "english"
SENTENCES_COUNT = 10

url = "https://en.wikipedia.org/wiki/Automatic_summarization"
parser = HtmlParser.from_url(url, Tokenizer(LANGUAGE))
# or for plain text files
# parser = PlaintextParser.from_file("document.txt", Tokenizer(LANGUAGE))
stemmer = Stemmer(LANGUAGE)

summarizer = Summarizer(stemmer)
summarizer.stop_words = get_stop_words(LANGUAGE)

for sentence in summarizer(parser.document, SENTENCES_COUNT):
    print(sentence)

In contrast, abstractive methods build an internal semantic representation and then use natural language generation techniques to create a summary that is closer to what a human might express.
Some techniques and algorithms which naturally model summarization problems are TextRank and PageRank, Submodular set function , Determinantal point process , maximal marginal relevance (MMR) etc.
Although the system exhibited good results, the researchers wanted to explore the effectiveness of a maximum entropy (ME) classifier for the meeting summarization task, as ME is known to be robust against feature dependencies.
Automatic summaries present information extracted from multiple sources algorithmically, without any editorial touch or subjective human intervention, thus making it completely unbiased.
LexRank deals with diversity as a heuristic final stage using CSIS, and other systems have used similar methods, such as Maximal Marginal Relevance (MMR), [10] in trying to eliminate redundancy in

# 日本語

In [190]:
import spacy
nlp = spacy.load('ja_ginza')

In [11]:
from requests_html import HTMLSession

In [140]:
import re
import tinysegmenter

In [12]:
sess = HTMLSession()

In [141]:
url = "https://ja.wikipedia.org/wiki/%E3%83%8E%E3%82%B9%E3%83%88%E3%83%A9%E3%83%80%E3%83%A0%E3%82%B9"

In [142]:
resp = sess.get(url)

In [143]:
text = resp.html.find("body", first=True).text

In [164]:
test_text = """
この説は、後にノストラダムスの秘書となったジャン＝エメ・ド・シャヴィニーによるものだが[17]、史料による確認が取れず、ノストラダムス自身が後の私信で、医学と判断占星術の研究歴を1521年頃から起算していることとも整合していない[18]ためである。
"""

In [171]:
[s for s in nlp(test_text).sents]

[
 この説は、後にノストラダムスの秘書となったジャン＝エメ・ド・シャヴィニーによるものだが[,
 17]、史料による確認が取れず、ノストラダムス自身が後の私信で、医学と判断占星術の研究歴を1521年頃から起算していることとも整合していない[18,
 ]ためである。]

In [181]:
text = re.sub("\[.+\]", "", text)
text = re.sub("-", "", text)

In [183]:
doc = nlp(text)

In [184]:
corpus = []
originals = []

for s in doc.sents:
    originals.append(s)
    tokens = [t.lemma_ for t in s]
    corpus.append(' '.join(tokens))

In [185]:
originals[:10]

[ノストラダムス 出典: フリー百科事典,
 『ウィキペディア（Wikipedia）』 ナビゲーションに移動 検索に移動,
 この項目では、ルネサンス期フランスの人物について説明しています。,
 その他の用法については「ノストラダムス (曖昧さ回避)」をご覧ください。,
 ミシェル・ド・ノートルダム Michel de Nostredame ノストラダムスの肖像画（1614年頃）,
 ペンネーム ノストラダムス Nostradamus 誕生,
 1503年12月14日 サン＝レミ＝ド＝プロヴァンス 死没 (15660702) 1566年7月2日（62歳没）,
 サロン＝ド＝プロヴァンス 職業 医師,
 占星術師 詩人 料理,
 研究家 国籍 フランス ジャンル 詩 予言]

In [186]:
corpus[:10]

['ノストラダムス 出典 ： フリー 百科事典',
 '『 ウィキペディア （ ウィキペディア ） 』 ナビゲーション に 移動 検索 に 移動',
 '此の 項目 で は 、 ルネサンス 期 フランス の 人物 に つく て 説明 為る て 居る ます 。',
 '其の 他 の 用法 に つく て は 「 ノストラダムス （ 曖昧 さ 回避 ） 」 を 御覧 下さる 。',
 'ミシェール ・ ド ・ ノートル・ダム ミヒエル デ nostredame ノストラダムス の 肖像画 （ 1614 年 頃 ）',
 'ペンネーム ノストラダムス nostradamus 誕生',
 '1503 年 12 月 14 日 サン ＝ レミー ＝ ド ＝ プロバンス 死没 （ 15660702 ） 1566 年 7 月 2 日 （ 62 歳 没 ）',
 'サロン ＝ ド ＝ プロバンス 職業 医師',
 '占星 術師 詩人 料理',
 '研究家 国籍 フランス ジャンル 詩 予言']

In [188]:
# 連結したcorpusを再度tinysegmenterでトークナイズさせる
string = ''.join(corpus)
parser = PlaintextParser.from_string(string, Tokenizer('japanese'))

In [189]:
summarizer = LexRankSummarizer()
summarizer.stop_words = [' ']  # スペースも1単語として認識されるため、ストップワードにすることで除外する

# sentencres_countに要約後の文の数を指定します。
summary = summarizer(document=parser.document, sentences_count=10)

# 元の文を表示
for sentence in summary:
    print(originals[corpus.index(str(sentence))])

現代では、しばしばこれがノストラダムスの予言通りであったとして大いに話題になったとされるが、現在的中例として有名な詩が取り沙汰されたのは、実際には17世紀に入ってからのことであった。
これも医師としての著作と言えるが、内容的には、医学的というより哲学的であるとも指摘されている。
カトリーヌの書簡は19世紀にまとめて出版されているが、その中にもこれへの返書が含まれていないからである。
1964年に製作されたが、サロン＝ド＝プロヴァンスに現在飾られているものは1999年に復元されたものである。
1555年5月4日  『ミシェル・ノストラダムス師の予言集』の初版を刊行する。
1557年9月6日  『予言集』の増補版を刊行する。
1561年頃  パリで『予言集』の海賊版が刊行される。
^ ノストラダムスの最初の結婚について語っている同時代の証言はシャヴィニーの伝記しかないが、彼は家族の死因については何も語っていない。
^ これを1556年7月としている文献も多い。
^ この時期は確定できていないが、息子セザールの証言通りアルルでのことだったのなら、1564年11月16日から12月17日の間だったことになる。
