## Load corpus and generate text documents for each timeframe

In [17]:
class Corpus:

    def __init__(self, corpus_file):
        self.corpus_file = corpus_file

    def iter_corpus(self, min_year=1920, max_year=2000):
        blob = []
        with open(self.corpus_file, "r") as f:
            for line in f:
                tokens = line.strip().split()
                year = int(tokens[0])
                text = tokens[2:]
                if year >= min_year and year <= max_year:
                    blob += text
        return " ".join(blob)

    def get_documents(self, years):
        docs = []
        for min_year, max_year in years:
            docs.append(self.iter_corpus(min_year, max_year))
        return docs
            

In [18]:
CORPUS_FILE = "../corpus/corpus_phrases.txt"

In [19]:
DOC_BY_YEARS = [
    (1920, 1945),
    (1946, 1973),
    (1973, 1989)
]

In [20]:
docs = Corpus(CORPUS_FILE).get_documents( DOC_BY_YEARS )

## Term Frequencies

In [21]:
from collections import Counter

In [22]:
def tf(doc):
    counter = Counter([x for x in doc.split(" ") if len(x) > 1 ])
    return counter

In [23]:
#1920-1945
c = tf(docs[0])
c.most_common(50)

[('小説', 680),
 ('する', 418),
 ('日本', 415),
 ('問題', 369),
 ('経済', 294),
 ('巻頭言', 288),
 ('創作', 280),
 ('世界', 270),
 ('口絵', 246),
 ('政治', 191),
 ('社会', 172),
 ('現代', 165),
 ('於く', 157),
 ('生活', 153),
 ('運動', 144),
 ('外交', 138),
 ('文学', 136),
 ('思想', 135),
 ('時代', 122),
 ('国民', 112),
 ('文化', 112),
 ('支那', 112),
 ('公論', 109),
 ('説苑', 109),
 ('物語', 107),
 ('戦争', 107),
 ('内閣', 101),
 ('政策', 100),
 ('批判', 96),
 ('東京', 94),
 ('評論', 93),
 ('見る', 93),
 ('展望', 91),
 ('議会', 88),
 ('米国', 86),
 ('その', 86),
 ('及び', 83),
 ('特集', 82),
 ('街人物', 82),
 ('主義', 80),
 ('映画', 80),
 ('文芸時評', 78),
 ('欧洲', 77),
 ('国際', 77),
 ('事件', 76),
 ('戯曲', 75),
 ('短歌', 75),
 ('研究', 74),
 ('大衆', 73),
 ('教育', 72)]

In [24]:
#1946-1972
c2 = tf(docs[1])
c2.most_common(30)

[('日本', 839),
 ('する', 618),
 ('座談会', 358),
 ('経済', 346),
 ('特集', 340),
 ('政治', 294),
 ('世界', 273),
 ('マンガ', 248),
 ('問題', 245),
 ('アメリカ', 244),
 ('対談', 213),
 ('社会', 208),
 ('中国', 207),
 ('現代', 189),
 ('巻頭言', 184),
 ('グラビア', 176),
 ('教育', 162),
 ('文化', 154),
 ('もの', 149),
 ('小説', 141),
 ('今月言葉', 139),
 ('映画', 138),
 ('創作', 138),
 ('その', 136),
 ('思想', 135),
 ('人間', 134),
 ('昭和', 134),
 ('ソ連', 129),
 ('時代', 123),
 ('革命', 119)]

In [25]:
#1973-1989
c2 = tf(docs[2])
c2.most_common(30)

[('日本', 542),
 ('する', 478),
 ('連載', 281),
 ('人物交差点', 235),
 ('時代', 210),
 ('私書斎', 186),
 ('今月言葉', 174),
 ('特集', 167),
 ('東風西風', 163),
 ('経済', 159),
 ('世界', 143),
 ('政治', 142),
 ('社会', 125),
 ('月表', 122),
 ('中央公論整理', 121),
 ('将棋', 116),
 ('たち', 112),
 ('囲碁', 111),
 ('中国', 109),
 ('アメリカ', 107),
 ('もの', 104),
 ('ある', 98),
 ('蓮如連載', 92),
 ('説苑', 91),
 ('日本人', 88),
 ('現代', 87),
 ('文化', 87),
 ('いる', 85),
 ('見る', 84),
 ('こと', 83)]

## TF-IDF

In [26]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [27]:
tfidf = TfidfVectorizer(min_df = 1, sublinear_tf=True)
tfidf_matrix = tfidf.fit_transform(docs)

In [28]:
feature_names = tfidf.get_feature_names()

In [29]:
def tfidf(doc_n, top_n=50):
    feature_index = tfidf_matrix[doc_n,:].nonzero()[1]
    tfidf_scores = zip(feature_index, [tfidf_matrix[doc_n, x] for x in feature_index])
    sorted_scores = sorted(tfidf_scores, key=lambda x: x[1], reverse=True)
    for w, s in [(feature_names[i], s) for (i, s) in sorted_scores[:50]]:
        print(w, s)

In [30]:
#1920-1945
tfidf(0)

支那 0.03914748627609648
時論 0.03464259200972245
口絵 0.0338692214081406
小題 0.033762107961988856
想華 0.03348824093446844
独逸 0.032751426948107794
実話 0.032098956074223174
世界怪奇 0.03174781435271793
於く 0.031531110897342784
蔣介石 0.03098639004853834
我国 0.03057136827377406
小説 0.030413458970860525
普選 0.03035402421906194
小言 0.030129552873023546
無産政党 0.030129552873023546
与るふる 0.029897470895072303
公論 0.02963131401823994
説苑 0.02963131401823994
軍部 0.029408279784825294
無産 0.02888142276002215
政友会 0.02860196507257442
する 0.02844598326949576
日本 0.028416860326798306
新著月評 0.028310612051637575
及び 0.02821253787099751
街人物 0.02814942947423552
発句 0.028006305833457645
問題 0.027941855521992034
文芸時評 0.027889056271455364
欧洲 0.027821876255664887
事変 0.027353834959573026
経済 0.027023168217477564
良書推薦 0.02700269323806777
巻頭言 0.026939799949872393
創作 0.02682589896064128
戱曲 0.02669380472266656
世界 0.026678856656918732
為め 0.02663256187137478
国際連盟 0.02663256187137478
其の 0.02663256187137478
其他 0.02663256187137478
囘顧 0.0266325618713747

In [31]:
#1946-1972
tfidf(1)

表紙言葉 0.03639220244612195
春夏秋冬 0.03319461146381303
東京紳士 0.03235206773211507
マンガ 0.031778417323834914
読者論壇 0.03007999277238232
出張亭主 0.03007999277238232
鎖つなぐ 0.02975093719747402
れるアヒル 0.029579855665663745
審判決 0.02940408638995203
日本 0.02929662745033743
今月言葉 0.02895375025872283
自叙伝試み 0.028444813812973747
日本地下 0.02823446128777546
する 0.028138274273926994
中央公論整理 0.028071235186376272
月表 0.027986382479848707
遠縁近 0.027791859788636346
世界風土記 0.027791859788636346
東京通信 0.02755855490534516
大衆映画 0.027316444012100646
桃青 0.027316444012100646
フルシチョフ 0.027064836185598885
影絵女人 0.027064836185598885
芭蕉庵 0.027064836185598885
人企業 0.02680295585531098
今月視角 0.02680295585531098
筆者編集 0.026723420474381913
私書斎 0.026496453614319553
部手紙 0.026438022884228807
連載 0.02637888388562437
読者さる 0.026244762449706
映画評 0.026244762449706
座談会 0.026069699755302943
人物交差点 0.02600815566293578
秀吉利休 0.025946328304029473
経済 0.02594051995849622
特集 0.02587424001138596
サークル雑誌 0.02563333075313441
東風西風 0.025465496061151945
政治 0.025323462320363595

In [32]:
#1973-1989
tfidf(2)

短歌風土 0.03519788866246394
俳句風土 0.03511915479126625
books 0.03370921992864247
scramble 0.03309013600646079
連載 0.0327932625421873
空歴史 0.03264199523523984
frontlady 0.03203450001344503
人物交差点 0.03191014855798592
同好同志 0.03190587274402648
mybooks 0.03190587274402648
sports 0.03190587274402648
囲碁将棋 0.0317746467688946
heroine 0.0317746467688946
百景 0.031503963234475546
mystery 0.03136427043453778
日本豪族 0.030773366447418373
vip横顔 0.030773366447418373
私書斎 0.030754992066839505
大阪通信 0.030616841648313305
韃靼疾風 0.030616841648313305
ブーちゃん 0.030456451651329305
今月言葉 0.030425538781775147
録連載 0.030123277860908834
ホットライン 0.030123277860908834
東風西風 0.030102933656845264
わが読書 0.02958910318498406
遺跡世界 0.02958910318498406
短評 0.029400815658313546
情報ん 0.029206906785689518
湖水誕生 0.029007030558632137
章連載 0.029007030558632137
白夜秋思 0.029007030558632137
家庭料理 0.028800808004891227
アメリカ契約 0.028800808004891227
英語入門 0.028800808004891227
月表 0.028671680770473287
中央公論整理 0.02863102236451558
吉冨勝 0.028587822863507854
白夜連載 0.028367616