In [1]:
import MeCab
import pandas as pd
from collections import Counter
import numpy as np
import os
import glob
import sys

In [2]:
review_files = ! ls data/*.csv

In [22]:
def extract_words(text, target_types=[]):
    output = []
    
    tagger = MeCab.Tagger('-Ochasen')
    tagger.parse('')  # https://teratail.com/questions/88592
    node = tagger.parseToNode(text)
        
    while(node):
        if node.surface != "":  # ヘッダとフッタを除外
            word_type = node.feature.split(",")[0]
            if target_types:
                if word_type in target_types:
                    output.append(node.surface)
            else:
                output.append(node.surface)
        node = node.next
        if node is None:
            break
            
    return output

In [4]:
def corpus_to_sentences(corpus_dir, th=20):
    review_files = glob.glob("{}/*.csv".format(corpus_dir))
    
    for idx, review_file in enumerate(review_files):
        sys.stdout.write('\r前処理中 {}/{}'.format(idx, len(review_files)))
        yield doc_to_sentence(review_file)

In [20]:
def doc_to_sentence(doc_path):
    name = os.path.basename(doc_path).replace('_reviews.csv', '')
    
    df = pd.read_csv(doc_path, encoding='utf-8')
    df = df.dropna() # remove empty line
    reviews = list(df['text'].values)

    whole_words = []
    for review in reviews:
        words = extract_words(review, target_types=["形容詞", "動詞","名詞", "副詞"])
        whole_words.extend(words)
    
    return whole_words

In [23]:
sentences = list(corpus_to_sentences("data"))

前処理中 3373/3374

In [24]:
words = [word for words in sentences for word in words]

In [25]:
len(words)

2428090

In [26]:
Counter(words).most_common()

[('し', 63406),
 ('あり', 47376),
 ('い', 37194),
 ('サイト', 28234),
 ('れ', 26080),
 ('の', 24040),
 ('さ', 24034),
 ('キャンプ場', 23825),
 ('思い', 20905),
 ('トイレ', 20808),
 ('ある', 19782),
 ('こと', 18087),
 ('いる', 17554),
 ('とても', 16847),
 ('利用', 15817),
 ('でき', 15377),
 ('近く', 14530),
 ('方', 14056),
 ('綺麗', 13813),
 ('場', 11719),
 ('炊事', 11397),
 ('車', 11192),
 ('感じ', 10288),
 ('する', 9921),
 ('よう', 9817),
 ('良い', 9443),
 ('温泉', 9358),
 ('スーパー', 9032),
 ('キャンプ', 8804),
 ('場所', 8636),
 ('テント', 8274),
 ('いい', 8124),
 ('ところ', 8011),
 ('あっ', 7866),
 ('管理', 7624),
 ('少し', 7599),
 ('ない', 7154),
 ('シャワー', 7068),
 ('夜', 6962),
 ('時', 6840),
 ('風呂', 6748),
 ('子供', 6600),
 ('中', 6571),
 ('棟', 6458),
 ('良かっ', 6444),
 ('川', 6440),
 ('なく', 6319),
 ('受付', 6230),
 ('なり', 6103),
 ('自然', 6060),
 ('行き', 5925),
 ('おり', 5915),
 ('スタッフ', 5907),
 ('さん', 5870),
 ('ゴミ', 5809),
 ('くれ', 5765),
 ('時間', 5686),
 ('ため', 5588),
 ('道', 5337),
 ('施設', 5300),
 ('気', 5278),
 ('出来', 5278),
 ('きれい', 5263),
 ('必要', 5163),
 ('すぐ', 5138),

In [16]:
# 1回
[x for x in Counter(words).most_common() if x[1] <= 1]

[('松山千春', 1),
 ('スポットライト', 1),
 ('イカツイ', 1),
 ('穫り', 1),
 ('宇多津', 1),
 ('インストール', 1),
 ('背徳', 1),
 ('上戸田', 1),
 ('多可町', 1),
 ('セブンイレヴン', 1),
 ('牧野', 1),
 ('当帰', 1),
 ('婦人病', 1),
 ('道の駅山田錦発祥のまち・多可', 1),
 ('南浜', 1),
 ('乗りこみ', 1),
 ('巻き込め', 1),
 ('藤樹', 1),
 ('アドベリージャム', 1),
 ('2列目', 1),
 ('松木', 1),
 ('松脂', 1),
 ('キチット', 1),
 ('マキノピックランド', 1),
 ('さをり', 1),
 ('コアユ', 1),
 ('そそぐ', 1),
 ('稲城市', 1),
 ('稲城', 1),
 ('相模原線', 1),
 ('若葉台駅', 1),
 ('稲木', 1),
 ('焼きもち', 1),
 ('容積', 1),
 ('受け入れよ', 1),
 ('ハコ', 1),
 ('後会', 1),
 ('計', 1),
 ('玄人志向', 1),
 ('ばらっ', 1),
 ('触れ込み', 1),
 ('狭くっ', 1),
 ('猪頭', 1),
 ('餌釣', 1),
 ('ペグレポート', 1),
 ('ひた走', 1),
 ('ゴルフクラブ', 1),
 ('珍走', 1),
 ('喧しかっ', 1),
 ('水産試験場', 1),
 ('エスポット', 1),
 ('抜かし', 1),
 ('ズル', 1),
 ('あったか', 1),
 ('花の湯', 1),
 ('疑問符', 1),
 ('スパイス', 1),
 ('三菱自動車', 1),
 ('スターキャンプ', 1),
 ('1000人', 1),
 ('三菱', 1),
 ('試乗', 1),
 ('おがむ', 1),
 ('朝モヤ', 1),
 ('くるまり', 1),
 ('西麓', 1),
 ('もうもうと', 1),
 ('にってい', 1),
 ('朝霧アリーナ', 1),
 ('別府湾', 1),
 ('師範場', 1),
 ('日出町', 1),
 ('周防灘', 1),


In [17]:
# 2回
[x for x in Counter(words).most_common() if x[1] == 2]

[('あおば', 2),
 ('妙見山', 2),
 ('175', 2),
 ('多可', 2),
 ('漢方薬', 2),
 ('海津大崎', 2),
 ('北浜', 2),
 ('軟', 2),
 ('知内川', 2),
 ('大鍋', 2),
 ('茂る', 2),
 ('心なし', 2),
 ('まくれ', 2),
 ('絡ま', 2),
 ('引き戻さ', 2),
 ('湧き出る', 2),
 ('切り口', 2),
 ('鋭い', 2),
 ('金属片', 2),
 ('湿る', 2),
 ('ゴソゴソ', 2),
 ('愛らしく', 2),
 ('戸締り', 2),
 ('脅かし', 2),
 ('追い出し', 2),
 ('思い知り', 2),
 ('小仏トンネル', 2),
 ('華の湯', 2),
 ('不正', 2),
 ('5月22日', 2),
 ('スナグパックナビゲーター', 2),
 ('のぞめる', 2),
 ('どうと', 2),
 ('180度', 2),
 ('だだっぴろい', 2),
 ('当選', 2),
 ('集結', 2),
 ('挽き', 2),
 ('黒ビール', 2),
 ('えて', 2),
 ('引火', 2),
 ('i', 2),
 ('暖色', 2),
 ('先方', 2),
 ('てるてる坊主', 2),
 ('込み入っ', 2),
 ('逃げ道', 2),
 ('ha', 2),
 ('国営備北丘陵公園', 2),
 ('庄原市', 2),
 ('オートビレッジ', 2),
 ('ふけっ', 2),
 ('庄原', 2),
 ('ラムー', 2),
 ('一時避難', 2),
 ('配', 2),
 ('半径', 2),
 ('きらい', 2),
 ('レオマ', 2),
 ('体育', 2),
 ('うどん店', 2),
 ('かきて', 2),
 ('あわび', 2),
 ('ふれ合う', 2),
 ('風味', 2),
 ('産ん', 2),
 ('旭川空港', 2),
 ('道外', 2),
 ('キャンプファイャー', 2),
 ('養豚場', 2),
 ('箕面市', 2),
 ('じょう', 2),
 ('11km', 2),
 ('敷ける', 2),
 ('ちきん', 2),
 (

In [18]:
# 3回
[x for x in Counter(words).most_common() if x[1] == 3]

[('はしょら', 3),
 ('427', 3),
 ('咲き乱れ', 3),
 ('行方不明', 3),
 ('1900円', 3),
 ('経由地', 3),
 ('死', 3),
 ('1列目', 3),
 ('オバチャン', 3),
 ('くだされ', 3),
 ('高圧的', 3),
 ('148', 3),
 ('もめ', 3),
 ('歪め', 3),
 ('により', 3),
 ('月明り', 3),
 ('かぶせ', 3),
 ('グシャグシャ', 3),
 ('かかわる', 3),
 ('り外', 3),
 ('ブッシュ', 3),
 ('力強い', 3),
 ('やまかい', 3),
 ('補え', 3),
 ('ハ', 3),
 ('わたさ', 3),
 ('鬼谷', 3),
 ('6区', 3),
 ('ちらばっ', 3),
 ('木曽路', 3),
 ('思考', 3),
 ('歯ごたえ', 3),
 ('東川', 3),
 ('銘打っ', 3),
 ('東条', 3),
 ('体重', 3),
 ('取り寄せ', 3),
 ('投資', 3),
 ('留まっ', 3),
 ('片づける', 3),
 ('キリン', 3),
 ('バンダナ', 3),
 ('竿代', 3),
 ('45分間', 3),
 ('流れ着い', 3),
 ('空砲', 3),
 ('リターン', 3),
 ('臨ん', 3),
 ('つまずい', 3),
 ('恥', 3),
 ('春の', 3),
 ('貸し借り', 3),
 ('大観', 3),
 ('キツキツ', 3),
 ('ムーミン', 3),
 ('近付い', 3),
 ('聞き逃', 3),
 ('聞かさ', 3),
 ('飯能市内', 3),
 ('引ける', 3),
 ('満たし', 3),
 ('仕上がっ', 3),
 ('新道', 3),
 ('御岳山', 3),
 ('10円', 3),
 ('桜の木の下', 3),
 ('もったいなく', 3),
 ('気がつけ', 3),
 ('辛うじて', 3),
 ('粘着', 3),
 ('アルビール', 3),
 ('70分', 3),
 ('痛ん', 3),
 ('坊さん', 3),
 ('元旦', 3),
 ('暖まる', 3),
 

In [27]:
# 4回
[x for x in Counter(words).most_common() if x[1] == 4]

[('ダムカード', 4),
 ('湿り気', 4),
 ('キャラ', 4),
 ('アプリ', 4),
 ('消防署', 4),
 ('アスパル', 4),
 ('バザール', 4),
 ('さとう', 4),
 ('漏水', 4),
 ('名神高速道路', 4),
 ('国道161号線', 4),
 ('決断', 4),
 ('禁漁', 4),
 ('団', 4),
 ('J', 4),
 ('きな粉', 4),
 ('欠片', 4),
 ('触れあう', 4),
 ('納め', 4),
 ('盛ら', 4),
 ('ルアーフィッシング', 4),
 ('緊急事態', 4),
 ('軒並み', 4),
 ('アメニティードーム', 4),
 ('びびっ', 4),
 ('C1', 4),
 ('凍り', 4),
 ('全体像', 4),
 ('転換', 4),
 ('次女', 4),
 ('かいは', 4),
 ('密接', 4),
 ('家畜', 4),
 ('みの', 4),
 ('ダイヤモンド富士', 4),
 ('日出', 4),
 ('蛍光', 4),
 ('手渡し', 4),
 ('ひざ下', 4),
 ('居場所', 4),
 ('ぶら', 4),
 ('パン焼き', 4),
 ('旭山動物園', 4),
 ('歯みがき', 4),
 ('至便', 4),
 ('煙突', 4),
 ('単体', 4),
 ('外来', 4),
 ('ウィンドブレーカー', 4),
 ('前週', 4),
 ('残り物', 4),
 ('野路', 4),
 ('照り', 4),
 ('寝起き', 4),
 ('ご時世', 4),
 ('とまる', 4),
 ('パウダー', 4),
 ('凌駕', 4),
 ('クレジット', 4),
 ('ぶらんこ', 4),
 ('身支度', 4),
 ('角地', 4),
 ('一色', 4),
 ('くれればいいのに', 4),
 ('ワンルーム', 4),
 ('いれれ', 4),
 ('さいこ', 4),
 ('ジャケット', 4),
 ('捕まえよ', 4),
 ('ステレオ', 4),
 ('飯能市', 4),
 ('八王子インター', 4),
 ('青梅市', 4),
 ('サイボクハム', 4),
 ('名栗湖

In [33]:
stop_words = [x[0] for x in Counter(words).most_common()[:16]] + [x[0] for x in Counter(words).most_common() if x[1] == 1] + [x[0] for x in Counter(words).most_common() if x[1] == 2]

In [34]:
with open('stopwords.txt', 'w') as f:
    f.write('\n'. join(stop_words))