In [1]:
import MeCab
token = MeCab.Tagger("-Ochasen -d /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd")

from glob import glob
import pandas as pd

from sklearn.feature_extraction.text import TfidfVectorizer

In [2]:
file = glob('data_set/*.csv')[0]
df = pd.read_csv(file)['0']
corpus = list(df)
title = file.strip('data_set/')

In [3]:
def extract(text):
    words = []

    # 単語の特徴リストを生成
    node = token.parseToNode(text)

    while node:
        # 品詞情報(node.feature)が名詞ならば
        if node.feature.split(",")[0] == u"名詞":
            # 単語(node.surface)をwordsに追加
            words.append(node.surface)
        node = node.next

    # 半角スペース区切りで文字列を結合
    text_result = ' '.join(words)
    return text_result

In [4]:
docs = []

for i in list(df):
    text = extract(i)
    docs.append(text)

print(docs)

['', '日本 ボイコット', '日本 対応 注目 首相 国益 対応 云々 いかが もの 外交 ボイコット 各国 国益 犠牲 人権 重視 建前 決断', '外交的 発展 普通に 五輪 自体 ボイコット もの', '昔 日本人 の 世界中 風見鶏 非難 こと', '嘘 バッハ お前 関心 金', 'へっぽこ 岸田 高市 俺 中韓 国交断絶', '親中派 林 外相 事なかれ主義 岸田 総理 気 高市 議員 外交 ボイコット 支持 アメリカ オーストラリア カナダ イギリス 表明', 'みんな 世界 北京五輪', 'よそ ボイコット ボイコット これ 最悪', '五輪 存在意義 コロナ 中 大騒ぎ 開催 わが国 東京五輪 なん の', '日本ま', '中国 可哀想 仕方', '揚げ足 対抗措置 対抗措置 ただ 悪循環 状況 テレビ オリンピック', '日本 パンダ ついで', '人権 弾圧 侵略 よう 国 平和 祭典 言語道断 親中 岸田 得意 謝 謝', '武漢', '日本 首相 ウイグル 人達 人権 自国 国益 目 あたり 立憲 共産党 指摘 の 1番 反応 そう 事案', 'どっちつかず 風見鶏 日本政府 ウンザリ', '我が国 大胆 事', 'ボイコット 表明 遅れ 人権 意識 低い 世界中 表明 同然 日本 即刻 ボイコット 表明', '決断 首相 外務大臣 交代', '国 オリンピック の 政府 姿勢 ダメ', '決断 岸田 総理 諸国 外交 ボイコット 日本 右 五輪後 中国 対応 の', '岸田 表明 アメリカ', 'これ 通り 選手 政治家 パフォーマンス 場 外交 無関係 はず', '日本 中国 東京オリンピック 事 貿易 依存度 近所 ボイコット 文部科学大臣 出席', 'ぼったくり 男爵 関心 オリンピック 無事 開催 ＩＯＣ 予定通り 対価 こと', '感染 防止 観点 各国 要人 開会式 渡航 帳じり ん 招待 状 出して みたい', 'ニュージーランド コロナ 理由 事実上 外交 ボイコット 表明 独自 国益 総合的 岸田 お方 世界 西側陣営 一員 韓国 コウモリ ここ 別れ道', '武漢肺炎 発祥地 選手 安全 完全 ボイコット 相当', 'バッハ 我々 関心 の お金 選手 現地 開催 放映権 料 手 の あと 事 興味 政治 的 コ

In [5]:
# モデルを生成
vectorizer = TfidfVectorizer(smooth_idf=False)
X = vectorizer.fit_transform(docs)

# データフレームに表現
for i in docs:
    values = X.toarray()
    feature_names = vectorizer.get_feature_names()
    try:
        df = pd.DataFrame(values, columns = feature_names, index=i)
    except:
        pass
print(df)

0                                              まだまだ増えますよ。
1                                          日本もボイコットしましょう。
2       日本の対応が注目されますが、\n首相の「国益を考えて対応」云々はいかがなものでしょうか？\n...
3       外交的から発展して普通に五輪自体をボイコットでもいいぐらいですね。\n\nまだまだこんなもの...
4                  昔の日本人に戻ったのか？世界中から風見鶏と非難されてたことを思い出してきた。
                              ...                        
2725               アメリカがするから日本もするのではなく、日本独自でしっかりと決めれば良い話。
2726    何故、中国にオミククロンの感染者でない？\n又隠してるのか？オリンピック中止になったら習近平...
2727                                             日本も加わろう!
2728    国益を考えてとはどのように理解してよろしいのでしょうか？首相。人権問題と国益は秤にかけられる...
2729                           政治的中立？\nぼったくり男爵がどの口で言ってんだ？
Name: 0, Length: 2730, dtype: object
