# [Pythonの辞書を用いて文章中の各名詞の出現回数をカウントするレシピ](https://axross-recipe.com/recipes/303)

In [None]:
# 辞書型（辞書の作成）
d = {"one": 1, "two": 2}
print(d)
print(type(d))

In [None]:
# 辞書型（値の確認）
print(d["one"])

In [None]:
# 辞書型（値の確認、存在しないkey"three"）
print(d["three"])

In [None]:
# 辞書型（値の確認、get(key)で対応する値を返す）
print(d.get("one"))
print(d.get("three"))
print(d.get("three", 3))

In [None]:
# 辞書型（keyの存在の確認）
print("one" in d)
print("three" in d)

In [None]:
# 辞書型（辞書の追加と変更）
d["three"] = 3
print(d)

In [None]:
# 辞書型（ペアやリストでの表示）
print(list(d.keys()))
print(list(d.values()))
print(list(d.items()))

In [None]:
# パッケージのインストール（MeCab）
!apt-get update && apt-get install mecab libmecab-dev mecab-ipadic-utf8
!pip install mecab-python3==1.0.4
!ln -s /etc/mecabrc /usr/local/etc/mecabrc

In [None]:
# MeCab動作確認
import MeCab
tagger = MeCab.Tagger()
result = tagger.parse("Axrossはつかえる知識をともに学べる場所です")
print(result)

In [None]:
# 形態素解析（文章を代入）
sentence = """吾輩は猫である。名前はまだ無い。
どこで生れたかとんと見当がつかぬ。何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。
吾輩はここで始めて人間というものを見た。しかもあとで聞くとそれは書生という人間中で一番獰悪な種族であったそうだ。
この書生というのは時々我々を捕えて煮て食うという話である。しかしその当時は何という考もなかったから別段恐しいとも思わなかった。
ただ彼の掌に載せられてスーと持ち上げられた時何だかフワフワした感じがあったばかりである。
掌の上で少し落ちついて書生の顔を見たのがいわゆる人間というものの見始であろう。この時妙なものだと思った感じが今でも残っている。
第一毛をもって装飾されべきはずの顔がつるつるしてまるで薬缶だ。その後猫にもだいぶ逢あったがこんな片輪には一度も出会わした事がない。
のみならず顔の真中があまりに突起している。そうしてその穴の中から時々ぷうぷうと煙を吹く。
どうも咽せぽくて実に弱った。これが人間の飲む煙草というものである事はようやくこの頃知った。"""

In [None]:
# 形態素解析（設定と結果） 
from io import StringIO
import MeCab
import pandas as pd

tagger = MeCab.Tagger()
buffer = StringIO(tagger.parse(sentence))

df = pd.read_csv(
    buffer,
    names=["表層形", "品詞", "品詞細分類1", "品詞細分類2", "品詞細分類3", "活用型", "活用形", "原形", "読み", "発音"],
    skipfooter=1,
    sep="[\t,,]",
    engine="python",
)

df.head()

In [None]:
# 名詞のみを抽出
noun_df = df.query("品詞=='名詞'")
noun_df.head()

In [None]:
# 名詞の出現回数をカウント（辞書型）
noun_counter = dict()

for word in noun_df["表層形"]:
  if noun_counter.get(word):
    noun_counter[word] += 1
  else:
    noun_counter[word] = 1

print(noun_counter)

# カウント回数でソート
print(sorted(noun_counter.items(), key=lambda x: x[1], reverse=True)[:10])

In [None]:
# 名詞の出現回数をカウント（collectionsモジュール）
from collections import Counter
c = Counter(noun_df["表層形"])
print(c.most_common(10))
# =>こっちの方が短くてらくちん！