<a href="https://colab.research.google.com/github/soichi-fujiwara/jupyter-notebook/blob/master/CreateAutoSentence.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

##RNNを使った文章の自動生成
https://www.pytry3g.com/entry/2018/03/16/203414

In [1]:
!pip install beautifulsoup4
!pip install mecab-python3

Collecting mecab-python3
[?25l  Downloading https://files.pythonhosted.org/packages/b3/92/e7e7f38df8457fa40c1ca86928be5ddbe2bf341e90a35e6ada30d03ef16d/mecab_python3-0.996.2-cp36-cp36m-manylinux1_x86_64.whl (15.9MB)
[K     |████████████████████████████████| 15.9MB 1.6MB/s 
[?25hInstalling collected packages: mecab-python3
Successfully installed mecab-python3-0.996.2


In [0]:
import MeCab
import re
import requests
from bs4 import BeautifulSoup

In [4]:
### データの用意 ###
# Wikipediaの記事をダウンロード
url = "http://ja.wikipedia.org/wiki/"
# 記事のリスト
wiki_name_list = ["小島よしお"]
# データを入れる
corpus = []
tagger = MeCab.Tagger('-Owakati')
for wiki_name in wiki_name_list:
    # 指定したページの情報を取得
    response = requests.get(url+wiki_name)
    # HTMLフォーマットに変換
    html = response.text
    soup = BeautifulSoup(html, 'html.parser')
    # pタグで囲まれた部分を抽出
    for p_tag in soup.find_all('p'):
        sentences = p_tag.text.strip()
        for sentence in sentences.split("。"):
            if len(sentence.strip()) == 0:
                continue
            # 前処理
            sentence = re.sub(r"\[[0-9]+\]", "", sentence)
            sentence = re.sub(r"\[注釈 [0-9]+\]", "", sentence)
            tokens = tagger.parse(sentence).strip().split()
            if len(tokens) > 46:
                continue
            corpus.append(sentence+"。")
print(corpus[0])

小島 よしお（こじま よしお、1980年11月16日 - ）は、日本のお笑いタレントである。


In [0]:
import pandas as pd
df = pd.DataFrame(data=corpus)
df.to_csv("text.txt",index=False,header=None)

##マルコフ連鎖で文章作成
https://chishiki-motomeru.com/post/20190329/

In [6]:
!pip install janome

Collecting janome
[?25l  Downloading https://files.pythonhosted.org/packages/a7/7c/560f4c9ff01a584b1ecd1da981e82d0077c079ecba84571b4f623680300e/Janome-0.3.9-py2.py3-none-any.whl (25.1MB)
[K     |████████████████████████████████| 25.1MB 18.9MB/s 
[?25hInstalling collected packages: janome
Successfully installed janome-0.3.9


In [31]:
from janome.tokenizer import Tokenizer
import re
import random

markov = {}
sentence = ''

#janomeを使用して文章をパースさせる。
def parse(text):
    
    t = Tokenizer()
    tokens = t.tokenize(text)
    result = []
    for token in tokens:
        result.append(token.surface)
    return(result)

#取得したファイルネームから、改行を除去した上でパースする関数を呼び出す。
#ワードリストに代入して、それを返却させる。
def get_morpheme(filename):

    with open(filename,"r",encoding = "utf_8") as f:
        text = f.read()
    text = re.sub("\n","",text)
    
    #★この処理が異常に遅い
    wordlist = parse(text)

    return wordlist

#マルコフ辞書を生成させるmarkovは辞書型
def create_markov(wordlist):

    p1 = ""
    p2 = ""
    p3 = ""
    
    #連続した単語に続く、次の単語をサフィックスとする。単語の並びが同じであればそこに二個目のサフィックスが追加される
    for word in wordlist:
        if p1 and p2 and p3:
            if (p1,p2,p3) not in markov:
                markov[(p1,p2,p3)] = []
            markov[(p1,p2,p3)].append(word)
        p1,p2,p3 = p2,p3,word

    #プレフィックスの3つに続くサフィックスを表示する。
    #print("マルコフ辞書の中身:{}".format(markov))
    #print()

#マルコフ辞書からsentenceに文字列を格納させる。
def generate(wordlist):

    global sentence

    #3つのプレフィックスをランダムに取得して、それをプレフィックスに代入させる。
    p1,p2,p3 = random.choice(list(markov.keys()))

    print("マルコフ連鎖のキー[{},{},{}]".format(p1,p2,p3))
    print()

    count = 0

    print("【長さ】",len(wordlist))
    #while count < len(wordlist):
    while count < 200:
        if ((p1,p2,p3) in markov ) == True:
            tmp = random.choice(markov[(p1,p2,p3)])
            sentence += tmp
        p1,p2,p3 = p2,p3,tmp
        count += 1

    sentence = re.sub("^.+?","",sentence)

    if re.search(".+。",sentence):
        sentence = re.search(".+。",sentence).group()

    sentence = re.sub("」","",sentence)
    sentence = re.sub("「","",sentence)
    sentence = re.sub("　","",sentence)

    #print("【重複カット前】",sentence)

#重複した文章を取り除く。sprit("。")にすることで一文単位でリスト化できる。最終的にリストを文字列型に戻す。
#一文単位でリスト化しているので、ですますが連続した場合はここで対処できる。
def overlap():

    global  sentence

    sentence = sentence.split("。")

    #空白リストを除去する
    if "" in sentence:
        sentence.remove("")

    #この工程で一文の末尾に。を付ける。
    new = []
    for str in sentence:
        str = str + "。"
        if str == "。":
            break
        new.append(str)

    #set関数を使用して、文章の重複を取り除いている
    new = set(new)

    #set関数を使用しているので、元のリストと文章の順序が異なっている。
    #文章の順序についてはこの時点で修正したほうが良さそう
    sentence="".join(new)

if __name__ == "__main__":
    
    word_list = get_morpheme("inputText.txt")

    #print("ワードリスト:{}".format(word_list))
    #print()

    create_markov(word_list)

    while(not sentence):
        generate(word_list)
        overlap()

    print("【文章】",sentence)

1


KeyboardInterrupt: ignored