# 書誌データと形態素解析で遊ぼう！
今回は
[オープンデータセット](https://www.ndl.go.jp/jp/dlib/standards/opendataset/index.html)
にある、  
**国立国会図書館デジタルコレクション書誌情報**
の「インターネット公開」の「図書資料」を使って遊んでみましょう。
http://dl.ndl.go.jp/files/dataset/dataset_201901_t_internet.zip
をダウンロードして中身のtsvファイルを展開してください。

In [5]:
#必要なライブラリ群のインストール
!pip install tqdm pandas matplotlib seaborn janome



まずはデータを読み込んでみます。

In [1]:
import pandas as pd
dataset_tosho=pd.read_csv("dataset_201901_t_internet.tsv",sep="\t")

In [2]:
print(dataset_tosho)

                                               URL  \
0       http://dl.ndl.go.jp/info:ndljp/pid/3948672   
1       http://dl.ndl.go.jp/info:ndljp/pid/3948673   
2       http://dl.ndl.go.jp/info:ndljp/pid/3948674   
3       http://dl.ndl.go.jp/info:ndljp/pid/1901921   
4       http://dl.ndl.go.jp/info:ndljp/pid/1117806   
5       http://dl.ndl.go.jp/info:ndljp/pid/1117818   
6        http://dl.ndl.go.jp/info:ndljp/pid/975861   
7        http://dl.ndl.go.jp/info:ndljp/pid/975862   
8        http://dl.ndl.go.jp/info:ndljp/pid/975863   
9       http://dl.ndl.go.jp/info:ndljp/pid/1152434   
10      http://dl.ndl.go.jp/info:ndljp/pid/1075137   
11      http://dl.ndl.go.jp/info:ndljp/pid/1075145   
12      http://dl.ndl.go.jp/info:ndljp/pid/1075151   
13      http://dl.ndl.go.jp/info:ndljp/pid/1075160   
14      http://dl.ndl.go.jp/info:ndljp/pid/1075164   
15      http://dl.ndl.go.jp/info:ndljp/pid/1453136   
16      http://dl.ndl.go.jp/info:ndljp/pid/1273322   
17      http://dl.ndl.go.jp/

## 形態素解析をしてみる
形態素解析パッケージを使うと、任意の文字列を品詞ごとの形態素に分解できます。
例えば、「書誌データと形態素解析で遊ぼう！」という文章をjanomeという形態素解析パッケージで解析すると以下のように、
tokenの中に形態素解析結果が出力されます。

In [7]:
from janome.tokenizer import Tokenizer

t = Tokenizer()

s = '「書誌データと形態素解析で遊ぼう！」'

for token in t.tokenize(s):
    print(token)

「	記号,括弧開,*,*,*,*,「,「,「
書誌	名詞,一般,*,*,*,*,書誌,ショシ,ショシ
データ	名詞,一般,*,*,*,*,データ,データ,データ
と	助詞,並立助詞,*,*,*,*,と,ト,ト
形態素	名詞,一般,*,*,*,*,形態素,ケイタイソ,ケイタイソ
解析	名詞,サ変接続,*,*,*,*,解析,カイセキ,カイセキ
で	助詞,格助詞,一般,*,*,*,で,デ,デ
遊ぼ	動詞,自立,*,*,五段・バ行,未然ウ接続,遊ぶ,アソボ,アソボ
う	助動詞,*,*,*,不変化型,基本形,う,ウ,ウ
！	記号,一般,*,*,*,*,！,！,！
」	記号,括弧閉,*,*,*,*,」,」,」


## 固有名詞だけ集めてみる
先ほどのtokenの中身を見てみましょう。token.surfaceで形態素が、token.part_of_speechで品詞情報がそれぞれ取れます。
今回は固有名詞だけ取り出して、どの単語が一番多いか調べてみましょう。
まずはリストの中に出現した固有名詞を集めてみます。

In [15]:
from janome.tokenizer import Tokenizer
from tqdm import tqdm

t = Tokenizer()
koyumeishi=[]
for title in tqdm(dataset_tosho["タイトル"]):
    #print(title)
    for token in t.tokenize(title):
        if token.part_of_speech.split(",")[1]=="固有名詞":
            #print(token.surface)
            koyumeishi.append(token.surface)

## 集めた固有名詞を集計する
集めた固有名詞を集計するには、collectionsが便利です。

In [16]:
import collections
c = collections.Counter(koyumeishi)

## よく出てくる固有名詞トップ100を表示する。

In [22]:
print(c.most_common()[0:100])

[('日本', 17100), ('東京', 4685), ('明治', 3128), ('台湾', 2444), ('大阪', 2357), ('昭和', 2216), ('日', 1999), ('朝鮮', 1915), ('独', 1486), ('観世', 1445), ('京都', 1409), ('紀', 1392), ('露', 1326), ('仏', 1146), ('英', 1097), ('清', 1066), ('独逸', 1038), ('愛知', 984), ('學', 959), ('李', 900), ('ケル', 891), ('大正', 884), ('朝', 883), ('長崎', 880), ('北海道', 860), ('英国', 852), ('東亜', 834), ('新潟', 811), ('米', 796), ('静岡', 795), ('衆議院', 792), ('太白山', 780), ('埼玉', 754), ('名古屋', 730), ('三重', 716), ('岡山', 706), ('千葉', 701), ('広島', 689), ('兵庫', 680), ('福岡', 672), ('神戸', 660), ('岐阜', 654), ('熊本', 641), ('長野', 639), ('群馬', 635), ('山口', 626), ('茨城', 611), ('鹿児島', 592), ('義', 580), ('入', 577), ('秋田', 575), ('欧', 568), ('石川', 568), ('福島', 557), ('大成', 550), ('米国', 549), ('欧米', 546), ('徳川', 510), ('印度', 509), ('of', 506), ('愛媛', 505), ('文部省', 501), ('横浜', 488), ('大分', 484), ('譚', 481), ('翁', 480), ('島根', 471), ('漢', 464), ('大日本帝国', 460), ('滋賀', 456), ('青森', 452), ('釈', 451), ('宮崎', 444), ('栃木', 439), ('鳥取', 434), ('奈良', 433), ('

どうやら国立国会図書館デジタルコレクションでインターネット公開されている図書資料には、地名が含まれていることが多いようです。