In [4]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer

In [5]:
def read_csv_column(csv_path, column_name):
    df = pd.read_csv(csv_path, encoding='utf-8', low_memory=False)
    return df[column_name].tolist()

def sort_coo(coo_matrix):
    tuples = zip(coo_matrix.col, coo_matrix.data)
    return sorted(tuples, key=lambda x: (x[1], x[0]), reverse=True)

def extract_topn_from_vector(feature_name_list, sorted_item_list, topn):
    """
    get the feature names and tf-idf score of top n items
    """

    # use only topn items from vector
    sorted_item_list = sorted_item_list[:topn]

    score_vals = []
    feature_vals = []

    # word index and corresponding tf-idf score
    for idx, score in sorted_item_list:

        #keep track of feature name and its corresponding score
        score_vals.append(round(score, 3))
        feature_vals.append(feature_name_list[idx])

    # create a tuples of feature,score
    # results = zip(feature_vals,score_vals)
    results= {}
    for idx in range(len(feature_vals)):
        results[feature_vals[idx]]=score_vals[idx]

    return results

In [7]:
# get the weibo contents
weibo_contents = read_csv_column('../dataset/trump/preprocessed_v3.csv', '微博正文')

# ignore words that appear in 75% of documents
cv=CountVectorizer(max_df=0.75, max_features=10000)
word_count_vector=cv.fit_transform(weibo_contents)

In [8]:
tfidf_transformer=TfidfTransformer(smooth_idf=True, use_idf=True)
tfidf_transformer.fit(word_count_vector)
feature_names=cv.get_feature_names()

In [9]:
for i in range(10):
    if i < 9:
        index = '0' + str(i + 1)
    else:
        index = str(i + 1)
    # get the document that we want to extract keywords from
    trump_content = read_csv_column('../dataset/trump/trump' + index + '.csv', '微博正文')
    item = ''
    for i in range(len(trump_content)):
        item = item + trump_content[i]
    # generate tf-idf for the given document
    tf_idf_vector = tfidf_transformer.transform(cv.transform([item]))
    # sort the tf-idf vectors by descending order of scores
    sorted_items = sort_coo(tf_idf_vector.tocoo())
    # extract only the top n; n here is 20
    keywords = extract_topn_from_vector(feature_names, sorted_items, 20)
    # now print the results
    print(index + '月')
    for k in keywords:
        print(k, keywords[k])

01月
伊朗 0.564
美国 0.308
伊拉克 0.174
中东 0.158
协议 0.141
弹劾 0.136
中国 0.135
总统 0.133
袭击 0.131
美军 0.124
苏莱曼尼 0.122
1月 0.116
北约 0.084
达沃斯 0.084
世界 0.081
参议院 0.079
战争 0.076
国家 0.074
经济 0.071
时间 0.069
02月
美国 0.423
印度 0.271
中国 0.243
总统 0.193
2月 0.146
疫情 0.131
佩洛西 0.124
华为 0.116
国家 0.116
发动机 0.116
政府 0.115
弹劾 0.109
咨文 0.105
国情 0.103
美元 0.103
病毒 0.096
国会 0.078
寄生虫 0.078
弹劾案 0.078
贸易 0.077
03月
美国 0.382
病毒 0.294
疫情 0.274
中国 0.233
新冠 0.218
总统 0.156
肺炎 0.152
确诊 0.135
经济 0.133
3月 0.123
物资 0.12
死亡 0.11
检测 0.108
病例 0.101
时间 0.098
纽约 0.092
熔断 0.092
国家 0.091
美股 0.089
人数 0.085
04月
美国 0.465
疫情 0.267
中国 0.207
世卫 0.183
新冠 0.173
组织 0.17
病毒 0.162
4月 0.136
总统 0.132
政府 0.124
肺炎 0.118
口罩 0.116
死亡 0.112
国家 0.105
经济 0.1
病例 0.098
确诊 0.092
世界 0.092
白宫 0.088
记者 0.088
05月
美国 0.463
中国 0.296
新冠 0.188
病毒 0.186
疫情 0.184
疫苗 0.156
总统 0.139
白宫 0.133
5月 0.13
政府 0.13
组织 0.124
死亡 0.113
研发 0.111
1月 0.109
世卫 0.096
口罩 0.094
11日 0.088
世界 0.084
奥巴马 0.084
时间 0.083
06月
美国 0.476
总统 0.203
中国 0.182
6月 0.157
警察 0.131
政府 0.13
竞选 0.128
白宫 0.125
疫