# 初期設定

In [7]:
! pip install sumy tinysegmenter Janome

Collecting sumy
  Downloading https://files.pythonhosted.org/packages/2f/0e/30ebd2fb0925537a3b2f9fccf0a13171ba557e9450b1702d278159d3c592/sumy-0.7.0-py2.py3-none-any.whl (78kB)
Collecting tinysegmenter
  Downloading https://files.pythonhosted.org/packages/9c/70/488895cb11e160b548c9ba5847c171b65b86a8ca1e54d206d55b2976bf7b/tinysegmenter-0.4.tar.gz
Collecting Janome
  Downloading https://files.pythonhosted.org/packages/a0/af/a57956e98b26beebc4efe20c3f5b482f0b4e091f546bfd90a96678da2f1c/Janome-0.3.7-py27.py3-none-any.whl (20.7MB)
Collecting docopt<0.7,>=0.6.1 (from sumy)
  Downloading https://files.pythonhosted.org/packages/a2/55/8f8cab2afd404cf578136ef2cc5dfb50baa1761b68c9da1fb1e4eed343c9/docopt-0.6.2.tar.gz
Collecting breadability>=0.1.20 (from sumy)
  Downloading https://files.pythonhosted.org/packages/ad/2d/bb6c9b381e6b6a432aa2ffa8f4afdb2204f1ff97cfcc0766a5b7683fec43/breadability-0.1.20.tar.gz
Building wheels for collected packages: tinysegmenter, docopt, breadability
  Building wheel fo

In [19]:
#snssns..set_styleset_sty ('whitegrid')
%matplotlib inline

pd.set_option("display.max_columns", 200) # 表示カラムの最大値
pd.set_option('display.max_rows', 200) # 表示行数の最大値
pd.set_option('display.max_colwidth', 30)
pd.set_option("display.float_format", '{:.3f}'.format) # 小数点以下の有効数字

# jupyterの幅を自動調整
from IPython.core.display import display, HTML
display(HTML("<style>.container { width:85% !important; }</style>"))

## モデル読み込み

In [10]:
from janome.analyzer import Analyzer
from janome.charfilter import UnicodeNormalizeCharFilter, RegexReplaceCharFilter
from janome.tokenizer import Tokenizer as JanomeTokenizer  # sumyのTokenizerと名前が被るため
from janome.tokenfilter import POSKeepFilter, ExtractAttributeFilter

text = """米カリフォルニア州クパチーノの本社で開いた発表会で最大の目玉となったのは、定額制の動画配信サービス「アップルTV＋（プラス）」だ。
アップルも資金を出して著名な映画監督や俳優らと連携し、他の動画配信サービスでは見られない独自の映画や番組、ドキュメンタリーを制作する。会場にはスティーブン・スピルバーグ監督らも駆けつけ、制作への意欲を語った。
「アップルTV＋」はiPhoneなど同社製品の利用者を主なターゲットに100を超す国や地域で提供する。
ティム・クック最高経営責任者（CEO）は「創造性豊かな人々を結集し、これまでにない新しいサービスを作り上げる」と語った。
料金など詳細はサービス開始直前に発表するとの説明にとどめた。
アップルは動画配信分野では後発だ。専業の米ネットフリックスが先行し、27言語に対応する配信体制に強みがある。契約数は世界で1億4000万件にのぼる。
既存のコンテンツ企業も加わって競争が激しくなる見込みで、米ウォルト・ディズニーが19年後半にスタートさせる。アップルは世界で14億台を超える製品が強みとなる。
同社は定額制のニュース配信サービス「アップルニュース＋」を同日から米国で始めた。
専用のアプリケーションをダウンロードし、月9.99ドル（約1100円）を払えば経済紙「ウォール・ストリート・ジャーナル」や経済誌「フォーチュン」など300を超える新聞・雑誌が提供する記事を好きなだけ読める。
有力誌「タイム」や「ニューヨーカー」、ファッション誌「ヴォーグ」、科学誌「ナショナルジオグラフィック」などが参加する。
各コンテンツをそれぞれ個別に購入した場合は年8000ドルに相当するという。
当初は米国とカナダでサービスを始め、オーストラリアや欧州に段階的にサービス地域を拡大する。
アップルは同日、100を超える新作を定額で遊べるゲーム配信サービス「アップルアーケード」を19年秋に始めることも明らかにした。
iPhone上の決済サービスの利便性を高めるため、米金融大手ゴールドマン・サックスなどと組んで独自のクレジットカード「アップルカード」を19年夏から米国で発行する計画も表明した。"""

# 1行1文となっているため、改行コードで分離
sentences = [t for t in text.split('\n')]
for i in range(2):
    print(sentences[i])

# 形態素解析器を作る
analyzer = Analyzer(
    [UnicodeNormalizeCharFilter(), RegexReplaceCharFilter(r'[(\)「」、。]', ' ')],  # ()「」、。は全てスペースに置き換える
    JanomeTokenizer(),
    [POSKeepFilter(['名詞', '形容詞', '副詞', '動詞']), ExtractAttributeFilter('base_form')]  # 名詞・形容詞・副詞・動詞の原型のみ
)

# 抽出された単語をスペースで連結
# 末尾の'。'は、この後使うtinysegmenterで文として分離させるため。
corpus = [' '.join(analyzer.analyze(s)) + '。' for s in sentences]
for i in range(2):
    print(corpus[i])

米カリフォルニア州クパチーノの本社で開いた発表会で最大の目玉となったのは、定額制の動画配信サービス「アップルTV＋（プラス）」だ。
アップルも資金を出して著名な映画監督や俳優らと連携し、他の動画配信サービスでは見られない独自の映画や番組、ドキュメンタリーを制作する。会場にはスティーブン・スピルバーグ監督らも駆けつけ、制作への意欲を語った。
米 カリフォルニア 州 クパチーノ 本社 開く 発表 会 最大 目玉 なる の 定額 制 動画 配信 サービス アップル TV + プラス。
アップル 資金 出す 著名 映画 監督 俳優 ら 連携 する 他 動画 配信 サービス 見る られる 独自 映画 番組 ドキュメンタリー 制作 する 会場 スティーブン スピルバーグ 監督 ら 駆けつける 制作 意欲 語る。


In [11]:
from sumy.parsers.plaintext import PlaintextParser
from sumy.nlp.tokenizers import Tokenizer
from sumy.summarizers.lex_rank import LexRankSummarizer

# 連結したcorpusを再度tinysegmenterでトークナイズさせる
parser = PlaintextParser.from_string(''.join(corpus), Tokenizer('japanese'))

# LexRankで要約を2文抽出
summarizer = LexRankSummarizer()
summarizer.stop_words = [' ']  # スペースも1単語として認識されるため、ストップワードにすることで除外する

summary = summarizer(document=parser.document, sentences_count=2)

# 元の文を表示
for sentence in summary:
    print(sentences[corpus.index(sentence.__str__())])

既存のコンテンツ企業も加わって競争が激しくなる見込みで、米ウォルト・ディズニーが19年後半にスタートさせる。アップルは世界で14億台を超える製品が強みとなる。
同社は定額制のニュース配信サービス「アップルニュース＋」を同日から米国で始めた。
