In [1]:
import re
import MeCab

mecab_tagger = MeCab.Tagger()

text = '''自然言語処理（しぜんげんごしょり、英語: natural language processing、略称：NLP）は、
人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術であり、人工知能と言語学の
一分野である。「計算言語学」（computational linguistics）との類似もあるが、自然言語処理は工学的
な視点からの言語処理をさすのに対して、計算言語学は言語学的視点を重視する手法をさす事が多い[1]。
データベース内の情報を自然言語に変換したり、自然言語の文章をより形式的な（コンピュータが理解し
やすい）表現に変換するといった処理が含まれる。応用例としては予測変換、IMEなどの文字変換が挙げら
れる。自然言語の理解をコンピュータにさせることは、自然言語理解とされている。自然言語理解と、自
然言語処理の差は、意味を扱うか、扱わないかという説もあったが、最近は数理的な言語解析手法（統計
や確率など）が広められた為、パーサ（統語解析器）などの精度や速度が一段と上がり、その意味合いは
違ってきている。もともと自然言語の意味論的側面を全く無視して達成できることは非常に限られている。
このため、自然言語処理には形態素解析と構文解析、文脈解析、意味解析などをSyntaxなど表層的な観点
から解析をする学問であるが、自然言語理解は、意味をどのように理解するかという個々人の理解と推論
部分が主な研究の課題になってきており、両者の境界は意思や意図が含まれるかどうかになってきている。'''
node = mecab_tagger.parseToNode(text)
vocab_list = []

while node:
    word = node.surface
    hinshi = node.feature.split(",")[0]
    if hinshi == "名詞":
        if (not word.isnumeric()) and (not re.match(r'^[\u3040-\u309F]+$', word)):
            # 名詞が数値と平仮名のみの場合は除き、それ以外の名詞を保存
            vocab_list.append(word)
    else:
        pass
    node = node.next

print(vocab_list)


['自然', '言語', '処理', '英語', 'natural', 'language', 'processing', '略称', 'NLP', '人間', '日常', '自然', '言語', 'コンピュータ', '処理', '一連', '技術', '人工', '知能', '言語', '分野', '計算', '言語', 'computational', 'linguistics', '類似', '自然', '言語', '処理', '工学', '視点', '言語', '処理', '計算', '言語', '言語', '視点', '重視', '手法', '事', 'データベース', '情報', '自然', '言語', '変換', '自然', '言語', '文章', '形式', 'コンピュータ', '理解', '表現', '変換', '処理', '応用', '例', '予測', '変換', 'IME', '文字', '変換', '自然', '言語', '理解', 'コンピュータ', '自然', '言語', '理解', '自然', '言語', '理解', '自', '言語', '処理', '差', '意味', '説', '最近', '数理', '言語', '解析', '手法', '統計', '確率', '為', 'パーサ', '統語', '解析', '精度', '速度', '一段', '意味', '自然', '言語', '意味', '論', '側面', '無視', '達成', '自然', '言語', '処理', '形態', '解析', '構文', '解析', '文脈', '解析', '意味', '解析', 'Syntax', '表層', '観点', '解析', '学問', '自然', '言語', '理解', '意味', '理解', '個々', '理解', '推論', '部分', '研究', '課題', '両者', '境界', '意思', '意図']


In [2]:
from sklearn.feature_extraction.text import TfidfVectorizer

# tfidfモデルの作成と学習
tfidf_model = TfidfVectorizer(token_pattern='(?u)\\b\\w+\\b', norm=None)
tfidf_model.fit(vocab_list)


In [3]:
# 対象のテキストをtf-idf値に変換
vocab_text = " ".join(vocab_list)
tfidf_vec = tfidf_model.transform([vocab_text]).toarray()[0]
# 単語: tf-idf値となるdictに変換
tfidf_dict = dict(zip(tfidf_model.get_feature_names_out(), tfidf_vec))
# tf-idf値が正のみの単語を残す
tfidf_dict = {word: num_val for word, num_val in tfidf_dict.items() if num_val > 0}

tfidf_dict


{'computational': 5.182050142641207,
 'ime': 5.182050142641207,
 'language': 5.182050142641207,
 'linguistics': 5.182050142641207,
 'natural': 5.182050142641207,
 'nlp': 5.182050142641207,
 'processing': 5.182050142641207,
 'syntax': 5.182050142641207,
 'コンピュータ': 13.466708886243781,
 'データベース': 5.182050142641207,
 'パーサ': 5.182050142641207,
 '一段': 5.182050142641207,
 '一連': 5.182050142641207,
 '両者': 5.182050142641207,
 '予測': 5.182050142641207,
 '事': 5.182050142641207,
 '人工': 5.182050142641207,
 '人間': 5.182050142641207,
 '例': 5.182050142641207,
 '個々': 5.182050142641207,
 '側面': 5.182050142641207,
 '処理': 26.57029047064921,
 '分野': 5.182050142641207,
 '境界': 5.182050142641207,
 '変換': 17.063037643068206,
 '学問': 5.182050142641207,
 '工学': 5.182050142641207,
 '差': 5.182050142641207,
 '形式': 5.182050142641207,
 '形態': 5.182050142641207,
 '応用': 5.182050142641207,
 '情報': 5.182050142641207,
 '意味': 20.41718926986548,
 '意図': 5.182050142641207,
 '意思': 5.182050142641207,
 '手法': 9.553170069066084,
 '技術': 5.18

In [4]:
import matplotlib.pyplot as plt
from wordcloud import WordCloud

font_path = "/usr/share/fonts/opentype/ipaexfont-gothic/ipaexg.ttf"
wc = WordCloud(background_color="white",width=900, height=500, font_path=font_path).generate_from_frequencies(tfidf_dict)
plt.figure(figsize=(18,10))
plt.axis("off")
plt.imshow(wc)

OSError: cannot open resource