In [1]:
from math import log


def compute_tdidf_score(tokenized_words):
    """

    :param tokenized_words:
    :return: list of tf_idf score of each word
    """
    tf_idf_score = []

    # Number of sentences
    number_of_sentences = len(tokenized_words)

    for words in tokenized_words:
        # Total words in sentence
        sentence_length = len(words)

        temp_list = []

        for word in set(words):
            # Number of a word in sentence
            word_count = words.count(word)

            # TF score
            tf_score = word_count / sentence_length

            # Number of docs that contains 'word'
            docs_contains_word = sum([word in _words for _words in tokenized_words])

            # IDF score
            idf_score = log(number_of_sentences / docs_contains_word)

            # Calculate TF_IDF score
            temp_data = {
                'score': tf_score * idf_score,
                'word': word
            }

            temp_list.append(temp_data)

        tf_idf_score.append(temp_list)

    return tf_idf_score

In [11]:
def get_feature_names(tokenized_words):
    feature_names = set()
    for words in tokenized_words:
        for word in words:
            feature_names.add(word)
    return list(feature_names)

In [2]:
li = [['2月',
       '2728',
       '日',
       'の',
       '米朝首脳会談',
       'で',
       '、',
       'トランプ',
       '米大統領',
       'が',
       '北朝鮮',
       'の',
       '金正恩',
       'キム・ジョンウン',
       '朝鮮労働党委員長',
       'に',
       '日本人拉致',
       '問題',
       'を',
       '提起',
       'する',
       'た',
       'の',
       'は',
       '、',
       '初日',
       'に',
       '行う',
       'れる',
       'た',
       '1',
       '対',
       '1',
       'の',
       '会談',
       'の',
       '冒頭',
       'だ',
       'た',
       'こと',
       'が',
       'わかる',
       'た'],
      ['複数', 'の', '日本政府', '関係者', 'が', '明らか', 'に', 'する', 'た'],
      ['安倍首相',
       'は',
       '2月20日',
       'の',
       'トランプ',
       '氏',
       'と',
       'の',
       '電話会談',
       'で',
       '、',
       '拉致問題',
       'を',
       '正',
       '恩',
       '氏',
       'に',
       '提起',
       'する',
       'よう',
       '要請',
       'する',
       'た'],
      ['ドナルド・トランプ',
       'の',
       '発言',
       'は',
       '、',
       'これ',
       'に',
       '配慮',
       'する',
       'た',
       'もの',
       'と',
       'みる',
       'られる'],
      ['正',
       '恩氏',
       'は',
       '核',
       '・',
       'ミサイル',
       '問題',
       'が',
       '最初',
       'の',
       '議題',
       'と',
       '想定',
       'する',
       'て',
       'いる',
       'た',
       'の',
       'か',
       '、',
       'その',
       '場',
       'で',
       '「',
       '驚く',
       'た',
       '表情',
       '」',
       'を',
       '見せる',
       'た',
       'という'],
      ['ドナルド・トランプ',
       'は',
       '1',
       '対',
       '1',
       'の',
       '会談',
       'に',
       '続く',
       '、',
       '27日',
       'の',
       '夕食',
       '会',
       'で',
       'も',
       '拉致問題',
       'を',
       '取り上げる',
       'た'],
      ['日本政府',
       'は',
       '「',
       '首相',
       'の',
       '注文',
       '通り',
       '」(',
       '関係者',
       ')',
       'と',
       '歓迎',
       'する',
       'て',
       'いる'],
      ['政府',
       'は',
       '日',
       '米',
       '連携',
       'を',
       'テコ',
       'に',
       '日朝',
       'の',
       '首脳',
       'による',
       '直接',
       '対話',
       'に',
       'つなげる',
       '、',
       '拉致問題',
       'を',
       '打開',
       'する',
       'たい',
       '考え',
       'だ']]

In [10]:
for index, tf_idf_scores in enumerate(compute_tdidf_score(li)):
    for tf_idf_score in tf_idf_scores:
        print(f"{index} {tf_idf_score['word']} {tf_idf_score['score']}")

0 提起 0.0322394037469742
0 の 0.0
0 トランプ 0.0322394037469742
0 わかる 0.04835910562046129
0 こと 0.04835910562046129
0 行う 0.04835910562046129
0 2月 0.04835910562046129
0 は 0.0031053812238261065
0 対 0.0322394037469742
0 を 0.010930316959203153
0 北朝鮮 0.04835910562046129
0 米大統領 0.04835910562046129
0 初日 0.04835910562046129
0 日 0.0322394037469742
0 た 0.02676112301877031
0 が 0.045619965256359356
0 日本人拉致 0.04835910562046129
0 、 0.013380561509385155
0 する 0.0031053812238261065
0 会談 0.0322394037469742
0 金正恩 0.04835910562046129
0 だ 0.0322394037469742
0 冒頭 0.04835910562046129
0 朝鮮労働党委員長 0.04835910562046129
0 キム・ジョンウン 0.04835910562046129
0 で 0.0161197018734871
0 に 0.013380561509385155
0 れる 0.04835910562046129
0 2728 0.04835910562046129
0 1 0.0644788074939484
0 米朝首脳会談 0.04835910562046129
0 問題 0.0322394037469742
1 関係者 0.15403270679109896
1 日本政府 0.15403270679109896
1 が 0.10898102811241402
1 た 0.03196467471686454
1 の 0.0
1 する 0.014836821402724729
1 複数 0.2310490601866484
1 に 0.03196467471686454
1 明らか 0.2310490601