## Load corpus and generate text documents for each timeframe

In [27]:
class Corpus:

    def __init__(self, corpus_file):
        self.corpus_file = corpus_file

    def iter_corpus(self, min_year=1920, max_year=2000):
        blob = []
        with open(self.corpus_file, "r") as f:
            for line in f:
                tokens = line.strip().split()
                year = int(tokens[0])
                text = tokens[1:]
                if year >= min_year and year <= max_year:
                    blob += text
        return " ".join(blob)

    def get_documents(self, years):
        docs = []
        for min_year, max_year in years:
            docs.append(self.iter_corpus(min_year, max_year))
        return docs
            

In [28]:
CORPUS_FILE = "../corpus/corpus_phrases.txt"

In [226]:
DOC_BY_YEARS = [
    (1920, 1945),
    (1946, 1973),
    (1973, 1989)
]

In [227]:
docs = Corpus(CORPUS_FILE).get_documents( DOC_BY_YEARS )

## Term Frequencies

In [231]:
from collections import Counter

In [232]:
def tf(doc):
    counter = Counter([x for x in doc.split(" ") if len(x) > 1 ])
    return counter

In [233]:
#1920-1945
c = tf(docs[0])
c.most_common(50)

[('小説', 680),
 ('日本', 425),
 ('する', 412),
 ('問題', 372),
 ('経済', 301),
 ('世界', 291),
 ('巻頭言', 288),
 ('創作', 280),
 ('口絵', 246),
 ('政治', 192),
 ('社会', 173),
 ('現代', 165),
 ('に於く', 157),
 ('生活', 153),
 ('運動', 142),
 ('外交', 138),
 ('思想', 136),
 ('として', 136),
 ('文学', 136),
 ('国民', 128),
 ('より', 125),
 ('時代', 122),
 ('ふる', 119),
 ('から', 117),
 ('文化', 112),
 ('支那', 112),
 ('内閣', 112),
 ('公論', 109),
 ('説苑', 109),
 ('物語', 107),
 ('について', 107),
 ('戦争', 107),
 ('政策', 100),
 ('批判', 96),
 ('議会', 95),
 ('東京', 94),
 ('展望', 91),
 ('米国', 86),
 ('その', 86),
 ('人物評論', 86),
 ('に対する', 84),
 ('及び', 83),
 ('特集', 82),
 ('主義', 80),
 ('映画', 80),
 ('事件', 78),
 ('文芸時評', 78),
 ('欧洲', 77),
 ('国際', 77),
 ('戯曲', 75)]

In [77]:
#1946-1972
c2 = tf(docs[1])
c2.most_common(30)

[('日本', 888),
 ('する', 598),
 ('座談会', 358),
 ('経済', 339),
 ('特集', 322),
 ('言葉', 290),
 ('政治', 288),
 ('世界', 284),
 ('マンガ', 247),
 ('問題', 242),
 ('アメリカ', 241),
 ('から', 236),
 ('対談', 213),
 ('社会', 204),
 ('中国', 197),
 ('について', 193),
 ('における', 191),
 ('巻頭言', 183),
 ('現代', 178),
 ('グラビア', 176),
 ('ない', 169),
 ('今月', 168),
 ('教育', 164),
 ('文化', 157),
 ('思想', 143),
 ('小説', 141),
 ('創作', 138),
 ('アジア', 136),
 ('映画', 135),
 ('もの', 135)]

In [234]:
#1973-1989
c2 = tf(docs[2])
c2.most_common(30)

[('日本', 628),
 ('する', 476),
 ('世界', 276),
 ('人物交差点', 235),
 ('連載', 227),
 ('時代', 212),
 ('から', 212),
 ('言葉', 206),
 ('今月', 194),
 ('書斎', 188),
 ('ない', 178),
 ('風土', 174),
 ('特集', 167),
 ('東風西風', 163),
 ('経済', 159),
 ('政治', 142),
 ('短歌', 141),
 ('俳句', 135),
 ('社会', 133),
 ('日本人', 122),
 ('月表', 122),
 ('中国', 121),
 ('中央公論整理', 121),
 ('アメリカ', 119),
 ('将棋', 116),
 ('囲碁', 111),
 ('ある', 110),
 ('たち', 100),
 ('もの', 99),
 ('現代', 98)]

## TF-IDF

In [194]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [195]:
tfidf = TfidfVectorizer(min_df = 1, sublinear_tf=True)
tfidf_matrix = tfidf.fit_transform(docs)

In [196]:
feature_names = tfidf.get_feature_names()

In [220]:
def tfidf(doc_n, top_n=50):
    feature_index = tfidf_matrix[doc_n,:].nonzero()[1]
    tfidf_scores = zip(feature_index, [tfidf_matrix[doc_n, x] for x in feature_index])
    sorted_scores = sorted(tfidf_scores, key=lambda x: x[1], reverse=True)
    for w, s in [(feature_names[i], s) for (i, s) in sorted_scores[:50]]:
        print(w, s)

In [221]:
#1920-1945
tfidf(0)

支那 0.038796337947695145
時論 0.034331852050842104
口絵 0.03356541849221787
小題 0.03345926584102752
想華 0.03318785536839903
独逸 0.03245765051647498
実話 0.031811032229269336
我国 0.031463040207534564
世界怪奇 0.031463040207534564
に於く 0.03124828055656048
蔣介石 0.030708445789435813
小説 0.030140653835859017
普選 0.03008175220676455
に就 0.03008175220676455
小言 0.02985929434218904
無産政党 0.02985929434218904
公論 0.029365524631088578
説苑 0.029365524631088578
軍部 0.02914449098840631
無産 0.028622359808891454
政友会 0.02834540882389491
日本 0.02825737253758266
人物評論 0.0281426778311625
する 0.028132893334911587
新著月評 0.02805666920514576
及び 0.027959474738323033
発句 0.027755092577802964
問題 0.02772366549897249
文芸時評 0.027638894730524142
欧洲 0.02757231731154104
事変 0.027108474290597328
経済 0.026875059129543022
北京だ 0.02676048226886255
良書推薦 0.02676048226886255
世界 0.026739676301192297
巻頭言 0.0266981531260343
創作 0.02658527381522437
戱曲 0.026454364446963356
為め 0.026393670936814603
国際連盟 0.026393670936814603
其の 0.026393670936814603
其他 0.02639367093681

In [222]:
#1946-1972
tfidf(1)

春夏秋冬 0.03333718106986193
東京紳士 0.03249101864456853
マンガ 0.03189510697872993
12人 0.031109633693775424
鎖に 0.03067512771805447
たアヒル 0.03067512771805447
読者論壇 0.030209185208455485
出張亭主 0.030209185208455485
今月 0.03000658067331384
つなぐれる 0.029878716352245968
日本 0.029638441336222964
審判決 0.0295303758335689
地下水 0.02835572723562935
表紙 0.0283169097500133
する 0.02813394541097985
遠縁近 0.027911224779720863
世界風土記 0.027911224779720863
東京通信 0.027676917860742757
中央公論整理 0.027656738582467616
月表 0.027561592634230143
大衆映画 0.027433767110330232
桃青 0.027433767110330232
フルシチョフ 0.027181078637689798
影絵女人 0.027181078637689798
芭蕉庵 0.027181078637689798
ている 0.027161381523402243
読者さる 0.026357482715987184
映画評 0.026357482715987184
筆者と 0.026247136020414067
座談会 0.026181668133904944
経済 0.02597416070043772
特集 0.02577838964976181
サークル雑誌 0.02574342494330679
放送時評 0.025412956087097274
戦争肯定 0.025412956087097274
言葉 0.025380099065478088
人物評論 0.025353785484581056
政治 0.025353765533140636
世界 0.025300545361600597
西遊記 0.025277817104357028
人物

In [235]:
#1973-1989
tfidf(2)

books 0.03316939566968374
scramble 0.032560225845788306
歴史探訪 0.0322323875479986
frontlady 0.03152149495822637
人物交差点 0.03139913488472258
同好同志 0.031394927544258135
章連載 0.031394927544258135
mybooks 0.031394927544258135
sports 0.031394927544258135
囲碁将棋 0.031265803040620745
heroine 0.031265803040620745
連載 0.031230776616358157
百景 0.030999454270954168
mystery 0.03086199853145173
今月 0.030467175230331083
vip 0.030430951257909254
美術館秘蔵 0.030280557365116603
一点 0.030280557365116603
豪族 0.030280557365116603
大阪通信 0.030126539176483818
韃靼疾風 0.030126539176483818
ブーちゃん 0.029968717687802578
風土 0.029938299861353383
録連載 0.02964087939001287
ホットライン 0.02964087939001287
東風西風 0.029620860980936727
アメリカ契約 0.029470430741064847
英語入門 0.029470430741064847
地方紙が 0.02929531168961247
わが読書 0.02911525906358643
短評 0.028929986800240642
情報だ 0.02873918321197773
空海 0.028542507831347028
湖水誕生 0.028542507831347028
白夜秋思 0.028542507831347028
家庭料理 0.02833958775501406
月表 0.02821252838255729
中央公論整理 0.028172521086115405
吉冨勝 0.02813001338