## Load corpus and generate text documents for each timeframe

In [1]:
class Corpus:

    def __init__(self, corpus_file):
        self.corpus_file = corpus_file

    def iter_corpus(self, min_year=1920, max_year=2000):
        blob = []
        with open(self.corpus_file, "r") as f:
            for line in f:
                tokens = line.strip().split()
                year = int(tokens[0])
                text = tokens[2:]
                if year >= min_year and year <= max_year:
                    blob += text
        return " ".join(blob)

    def get_documents(self, years):
        docs = []
        for min_year, max_year in years:
            docs.append(self.iter_corpus(min_year, max_year))
        return docs
            

In [2]:
CORPUS_FILE = "../corpus/corpus_phrases.txt"

In [3]:
DOC_BY_YEARS = [
    (1920, 1945),
    (1946, 1973),
    (1973, 1989)
]

In [4]:
docs = Corpus(CORPUS_FILE).get_documents( DOC_BY_YEARS )

## Term Frequencies

In [5]:
from collections import Counter

In [6]:
def tf(doc):
    counter = Counter([x for x in doc.split(" ") if len(x) > 1 ])
    return counter

In [7]:
#1920-1945
c = tf(docs[0])
c.most_common(50)

[('小説', 680),
 ('日本', 425),
 ('する', 412),
 ('問題', 372),
 ('経済', 301),
 ('世界', 291),
 ('巻頭言', 288),
 ('創作', 280),
 ('口絵', 246),
 ('政治', 192),
 ('社会', 173),
 ('現代', 165),
 ('に於く', 157),
 ('生活', 153),
 ('運動', 142),
 ('外交', 138),
 ('思想', 136),
 ('として', 136),
 ('文学', 136),
 ('国民', 128),
 ('より', 125),
 ('時代', 122),
 ('ふる', 119),
 ('から', 117),
 ('文化', 112),
 ('支那', 112),
 ('内閣', 112),
 ('公論', 109),
 ('説苑', 109),
 ('物語', 107),
 ('について', 107),
 ('戦争', 107),
 ('政策', 100),
 ('批判', 96),
 ('議会', 95),
 ('東京', 94),
 ('展望', 91),
 ('米国', 86),
 ('その', 86),
 ('人物評論', 86),
 ('に対する', 84),
 ('及び', 83),
 ('特集', 82),
 ('主義', 80),
 ('映画', 80),
 ('事件', 78),
 ('文芸時評', 78),
 ('欧洲', 77),
 ('国際', 77),
 ('戯曲', 75)]

In [8]:
#1946-1972
c2 = tf(docs[1])
c2.most_common(30)

[('日本', 920),
 ('する', 616),
 ('座談会', 358),
 ('経済', 354),
 ('特集', 332),
 ('言葉', 301),
 ('政治', 295),
 ('世界', 293),
 ('マンガ', 248),
 ('問題', 246),
 ('アメリカ', 244),
 ('から', 239),
 ('対談', 213),
 ('中国', 207),
 ('社会', 207),
 ('について', 196),
 ('における', 195),
 ('巻頭言', 184),
 ('現代', 182),
 ('ない', 177),
 ('グラビア', 176),
 ('今月', 168),
 ('教育', 165),
 ('文化', 159),
 ('思想', 145),
 ('小説', 141),
 ('映画', 138),
 ('創作', 138),
 ('もの', 137),
 ('アジア', 137)]

In [9]:
#1973-1989
c2 = tf(docs[2])
c2.most_common(30)

[('日本', 628),
 ('する', 476),
 ('世界', 276),
 ('人物交差点', 235),
 ('連載', 227),
 ('時代', 212),
 ('から', 212),
 ('言葉', 206),
 ('今月', 194),
 ('書斎', 188),
 ('ない', 178),
 ('風土', 174),
 ('特集', 167),
 ('東風西風', 163),
 ('経済', 159),
 ('政治', 142),
 ('短歌', 141),
 ('俳句', 135),
 ('社会', 133),
 ('日本人', 122),
 ('月表', 122),
 ('中国', 121),
 ('中央公論整理', 121),
 ('アメリカ', 119),
 ('将棋', 116),
 ('囲碁', 111),
 ('ある', 110),
 ('たち', 100),
 ('もの', 99),
 ('現代', 98)]

## TF-IDF

In [14]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [15]:
tfidf = TfidfVectorizer(min_df = 1, sublinear_tf=True)
tfidf_matrix = tfidf.fit_transform(docs)

In [16]:
feature_names = tfidf.get_feature_names()

In [17]:
def tfidf(doc_n, top_n=50):
    feature_index = tfidf_matrix[doc_n,:].nonzero()[1]
    tfidf_scores = zip(feature_index, [tfidf_matrix[doc_n, x] for x in feature_index])
    sorted_scores = sorted(tfidf_scores, key=lambda x: x[1], reverse=True)
    for w, s in [(feature_names[i], s) for (i, s) in sorted_scores[:50]]:
        print(w, s)

In [18]:
#1920-1945
tfidf(0)

支那 0.03882241131018579
時論 0.034354925022953633
口絵 0.03358797637705426
小題 0.03348175238519878
想華 0.03321015950917835
独逸 0.03247946391774629
実話 0.03183241106599443
我国 0.03148418517367788
世界怪奇 0.03148418517367788
に於く 0.03126928119191063
蔣介石 0.030729083624884912
小説 0.03016091008257557
普選 0.030101968868210743
に就 0.030101968868210743
小言 0.029879361499201344
無産政党 0.029879361499201344
公論 0.02938525994655744
説苑 0.02938525994655744
軍部 0.029164077756600012
無産 0.028641595675009564
政友会 0.028364458563079245
日本 0.028276363111337296
人物評論 0.028161591323501354
する 0.028151800251508218
新著月評 0.028075524894758837
及び 0.027978265107684263
発句 0.02777374559063933
問題 0.02774229739101082
文芸時評 0.027657469651747923
欧洲 0.02759084748892376
事変 0.02712669273888747
経済 0.026893120709468088
北京だ 0.02677846684657092
良書推薦 0.02677846684657092
世界 0.026757646896098018
巻頭言 0.02671609581498665
創作 0.026603140642810826
戱曲 0.02647214329595202
為め 0.026411408996286148
国際連盟 0.026411408996286148
其の 0.026411408996286148
其他 0.026411408996

In [19]:
#1946-1972
tfidf(1)

春夏秋冬 0.03292471296844844
東京紳士 0.032089019784939964
マンガ 0.031520033609052735
12人 0.03072472617809645
鎖に 0.030295596177461182
たアヒル 0.030295596177461182
読者論壇 0.029835418595073628
出張亭主 0.029835418595073628
今月 0.02963532080781125
つなぐれる 0.02950903850274044
日本 0.029404780306313633
審判決 0.02916500786713606
表紙 0.028007051486056835
地下水 0.02800489274387767
する 0.027897305947686277
中央公論整理 0.027842993800026927
月表 0.02775883101324264
遠縁近 0.027565889945654037
世界風土記 0.027565889945654037
東京通信 0.027334482015940093
ている 0.027124754032325747
大衆映画 0.027094339676111825
桃青 0.027094339676111825
フルシチョフ 0.02684477762061928
影絵女人 0.02684477762061928
芭蕉庵 0.02684477762061928
筆者と 0.026614889393588866
読者さる 0.026031371734044254
映画評 0.026031371734044254
座談会 0.025857732438070345
経済 0.02581550614880395
人物交差点 0.025796688747943063
特集 0.025574379132981755
連載 0.025467361824706467
サークル雑誌 0.025424911461678145
東風西風 0.025258441398737518
言葉 0.02520599247199242
政治 0.025130323468539426
世界 0.025104758062419984
放送時評 0.025098531369344954

In [20]:
#1973-1989
tfidf(2)

books 0.033360950843759486
scramble 0.03274826302897811
歴史探訪 0.03241853144610034
frontlady 0.031703533410599186
人物交差点 0.03158046670060996
同好同志 0.031576235062511546
章連載 0.031576235062511546
mybooks 0.031576235062511546
sports 0.031576235062511546
囲碁将棋 0.031446364857414345
heroine 0.031446364857414345
連載 0.0314111361535304
百景 0.031178477908232943
mystery 0.03104022835390282
今月 0.030643124925434403
vip 0.03060669175748149
豪族 0.030455429331279284
大阪通信 0.03030052167871932
韃靼疾風 0.03030052167871932
ブーちゃん 0.03014178876183365
風土 0.03011119527068141
録連載 0.029812057178955874
ホットライン 0.029812057178955874
東風西風 0.029791923162412127
アメリカ契約 0.029640624179224213
英語入門 0.029640624179224213
地方紙が 0.029464493805144223
わが読書 0.029283401364812712
短評 0.029097059143454722
情報だ 0.028905153653459022
湖水誕生 0.028707342461155767
白夜秋思 0.028707342461155767
家庭料理 0.028503250509672208
月表 0.028375457362007372
中央公論整理 0.028335219021119865
吉冨勝 0.028292465838677658
日本 0.028257024597029275
白夜連載 0.02807453457827594
も談話 0.0280745345