In [1]:
import pandas as pd, MeCab
from glob import glob
from sklearn.feature_extraction.text import TfidfVectorizer
from collections import Counter
# ochasen = MeCab.Tagger("-Ochasen -d /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd")
ochasen = MeCab.Tagger("-Ochasen")
# owakati = MeCab.Tagger("-Owakati -d /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd")
owakati = MeCab.Tagger("-Owakati")

In [2]:
file = glob('data_set/*.csv')[0]
df = pd.read_csv(file)['0']
corpus = list(df)
title = file.strip('data_set/')

In [3]:
title

'北京五輪\u3000外交的ボイコットは4カ国に拡大（テレビ朝日系（ANN）） - Yahoo!ニュース.csv'

In [4]:
def extract(text):
    words = []
    node = ochasen.parseToNode(text)
    while node:
        nsplit = node.feature.split(",")[0]
        # 品詞情報(node.feature)が名詞ならば
        if nsplit == u"名詞"or nsplit ==u"形容詞"or nsplit ==u"動詞":
#             print(node.feature.split(',')[6])
#             print(node.surface)
            # 単語(node.surface)をwordsに追加
            words.append(node.feature.split(',')[6])
        node = node.next
    text_result = ' '.join(words)
    return text_result

In [5]:
docs = []
for i in corpus:
    text = extract(i)
    docs.append(text)

In [5]:
docs

['増える',
 '日本 ボイコット する',
 '日本 対応 注目 する れる 首相 国益 考える 対応 云々 いかが もの 外交 ボイコット 各国 国益 犠牲 する 人権 重視 建前 決断 する いる',
 '外交的 発展 する 普通に 五輪 自体 ボイコット いい もの 終わる',
 '昔 日本人 戻る の 世界中 風見鶏 非難 する れる てる こと 思い出す くる',
 '嘘 つける バッハ お前 関心 金',
 'へっぽこ 岸田 高市 俺 中韓 国交断絶',
 '親中派 林 外相 事なかれ主義 岸田 総理 気 なる 高市 議員 外交 ボイコット 支持 する アメリカ オーストラリア カナダ イギリス 表明 する いる',
 'みんな やる 怖い 世界 やめる 北京五輪',
 'よそ ボイコット する てる ボイコット する とく これ 最悪',
 '五輪 存在意義 問う れる コロナ 中 大騒ぎ する 開催 する わが国 しょぼい いる 東京五輪 なん の 思う',
 '日本間 恥ずかしい',
 '中国 可哀想 仕方',
 '言う 言う 付け上がる 揚げ足 取る れる 対抗措置 対抗措置 呼ぶ ただ 悪循環 状況 なる テレビ オリンピック 見る 思う',
 '日本 続く パンダ ついで 返す しまう',
 '人権 弾圧 侵略 する よう 国 平和 祭典 言語道断 親中 岸田 得意 謝 謝',
 '武漢',
 '日本 首相 ウイグル 人達 人権 自国 国益 目 向う てる あたり 立憲 共産党 指摘 する の 1番 反応 する そう 事案',
 'どっちつかず 風見鶏 日本政府 うんざり する',
 '我が国 大胆 事 できる',
 'ボイコット 表明 遅れ 人権 意識 低位 世界中 表明 する いる 同然 日本 即刻 ボイコット 表明 する',
 '速い 決断 遅い 首相 外務大臣 交代',
 '国 オリンピック やる 言う の 政府 煮える 切る 姿勢 ダメ',
 '決断 できる 岸田 総理 諸国 外交 ボイコット 日本 右 倣う 五輪後 中国 対応 する の',
 '岸田 表明 する アメリカ 見放す れる',
 'これ 通り 選手 行く 良い 政治家 パフォーマンス 場 外交 無関係 はず',
 '日本 中国 東京オリンピック 支える くれる 事

In [6]:
vectorizer = TfidfVectorizer()
x = vectorizer.fit_transform(docs)

In [7]:
values = x.toarray()
feature_names = vectorizer.get_feature_names()
df = pd.DataFrame(values, columns = feature_names)

In [8]:
print(len(df))

2730


In [9]:
df.loc[0,:]

0円        0.0
100       0.0
1000万人    0.0
100m      0.0
100万      0.0
         ... 
黒人奴隷      0.0
黒塗り       0.0
黙る        0.0
黙視        0.0
黙認        0.0
Name: 0, Length: 6530, dtype: float64

In [10]:
for i in df:
    i
df.iloc[df.index.get_loc(max(df.loc[0,:])),0]

0.0

In [11]:
tf_idfs = []
# 行列を転置
for i in range(len(df)):
    df_0 = df.T
    df = df_0.sort_values(by=i, ascending=False)
    print(df_0)
    tf_idfs.append(df_0[i].head(1))

        0     1     2     3     4     5     6     7     8     9     ...  2720  \
0円       0.0   0.0   0.0   0.0   0.0   0.0   0.0   0.0   0.0   0.0  ...   0.0   
100      0.0   0.0   0.0   0.0   0.0   0.0   0.0   0.0   0.0   0.0  ...   0.0   
1000万人   0.0   0.0   0.0   0.0   0.0   0.0   0.0   0.0   0.0   0.0  ...   0.0   
100m     0.0   0.0   0.0   0.0   0.0   0.0   0.0   0.0   0.0   0.0  ...   0.0   
100万     0.0   0.0   0.0   0.0   0.0   0.0   0.0   0.0   0.0   0.0  ...   0.0   
...      ...   ...   ...   ...   ...   ...   ...   ...   ...   ...  ...   ...   
黒人奴隷     0.0   0.0   0.0   0.0   0.0   0.0   0.0   0.0   0.0   0.0  ...   0.0   
黒塗り      0.0   0.0   0.0   0.0   0.0   0.0   0.0   0.0   0.0   0.0  ...   0.0   
黙る       0.0   0.0   0.0   0.0   0.0   0.0   0.0   0.0   0.0   0.0  ...   0.0   
黙視       0.0   0.0   0.0   0.0   0.0   0.0   0.0   0.0   0.0   0.0  ...   0.0   
黙認       0.0   0.0   0.0   0.0   0.0   0.0   0.0   0.0   0.0   0.0  ...   0.0   

        2721  2722  2723  2

KeyError: 1

In [12]:
words = []
for i in df.index:
    words.append(str(tf_idfs[i].index).split("'")[1])

TypeError: list indices must be integers or slices, not str

In [13]:
len(words)

0

In [14]:
c = Counter(words)
c.most_common()

[]

In [15]:
len(c)

0