In [23]:
import os
import openpyxl
from pptx import Presentation
from docx import Document

import spacy
from spacy.lang.ja.stop_words import STOP_WORDS
from collections import Counter


In [2]:
# need to run spacy download ja_core_news_sm (eg. with poetry run)
nlp = spacy.load("ja_core_news_sm")

In [3]:

def extract_text_from_excel(file_path):
    """Extracts text from an Excel file."""
    wb = openpyxl.load_workbook(file_path)
    text = ""

    for sheet in wb.worksheets:
        for row in sheet.iter_rows(values_only=True):
            text += " ".join(map(str, row)) + " "

    return text

def extract_text_from_powerpoint(file_path):
    """Extracts text from a PowerPoint file."""
    prs = Presentation(file_path)
    text = ""

    for slide in prs.slides:
        for shape in slide.shapes:
            if hasattr(shape, "text"):
                text += shape.text + " "

    return text

def extract_text_from_word(file_path):
    """Extracts text from a Word file."""
    doc = Document(file_path)
    text = ""

    for paragraph in doc.paragraphs:
        text += paragraph.text + " "

    return text

def process_directory(directory_path):
    """Processes all files in a directory and extracts Japanese words and their frequency."""
    japanese_words_frequency = {}

    for filename in os.listdir(directory_path):
        file_path = os.path.join(directory_path, filename)

        if filename.endswith(".xlsx"):
            text = extract_text_from_excel(file_path)
        elif filename.endswith(".pptx"):
            text = extract_text_from_powerpoint(file_path)
        elif filename.endswith(".docx"):
            text = extract_text_from_word(file_path)
        else:
            continue

        doc = nlp(text)

        for word in doc:
            japanese_words_frequency[word.lemma] = japanese_words_frequency.get(word.lemma, 0) + 1

    return japanese_words_frequency


In [5]:
test_text = "データは現代のビジネスにおいて非常に重要です。効果的なデータ処理とそのアーキテクチャは、企業の成功に不可欠です。特に、API（アプリケーションプログラミングインターフェース）とAnypointプラットフォームを活用することで、データの効率的な管理と統合が可能となります。まず第一に、APIは異なるシステムやアプリケーション間でデータを共有するための効果的な手段です。Anypointプラットフォームは、API管理と統合を容易にする先進的なツールを提供しており、異なるデータソースからの情報をシームレスに統合できます。データソリューションのアーキテクチャは、柔軟性と拡張性を備える必要があります。Anypointはこれらの要件に応えるために設計され、クラウドベースのアプローチを採用しています。これにより、データの迅速な処理と変更に対応することができ、ビジネスの要求に柔軟かつ効果的に対応できます。APIを使用したデータの統合は、リアルタイムでの情報共有を実現し、ビジネスプロセスの迅速な進化に対応します。Anypointプラットフォームの活用により、異なるデータフォーマットやプロトコルに対応することが容易になり、データの標準化と品質の向上が期待できます。セキュリティもまた、データソリューションにおいて不可欠です。APIとAnypointは堅牢なセキュリティメカニズムを提供し、データの機密性や整合性を確保します。これにより、機密情報の漏洩やデータの不正アクセスからビジネスを守ることができます。総じて、APIとAnypointを活用したデータソリューションのアーキテクチャは、ビジネスの競争力を向上させ、迅速な意思決定を可能にします。データの価値を最大限に引き出すためには、効果的なAPI管理と統合が不可欠であり、Anypointプラットフォームはその実現に貢献します。"


In [10]:
import ginza

In [14]:
nlp = spacy.load("ja_ginza")
doc = nlp(test_text)

In [24]:
# Tokenize, remove stopwords, and count word frequencies
word_freq_counter = Counter()
for token in doc:
    if token.text not in STOP_WORDS and token.is_alpha:
        word_freq_counter[token.lemma_] += 1

# Get a list of words sorted by frequency
sorted_words = [(word, freq) for word, freq in word_freq_counter.most_common()]

# Display the sorted list of words and their frequencies
for word, freq in sorted_words:
    print(f"Word: {word}, Frequency: {freq}")

Word: データ, Frequency: 14
Word: API, Frequency: 7
Word: anypoint, Frequency: 7
Word: ビジネス, Frequency: 5
Word: 統合, Frequency: 5
Word: 効果的, Frequency: 4
Word: プラットフォーム, Frequency: 4
Word: 対応, Frequency: 4
Word: アーキテクチャ, Frequency: 3
Word: 不可欠, Frequency: 3
Word: 活用, Frequency: 3
Word: 管理, Frequency: 3
Word: 異なる, Frequency: 3
Word: ソリューション, Frequency: 3
Word: 迅速, Frequency: 3
Word: 処理, Frequency: 2
Word: アプリケーション, Frequency: 2
Word: 可能, Frequency: 2
Word: 容易, Frequency: 2
Word: 提供, Frequency: 2
Word: 実現, Frequency: 2
Word: 向上, Frequency: 2
Word: セキュリティ, Frequency: 2
Word: 現代, Frequency: 1
Word: 非常, Frequency: 1
Word: 重要, Frequency: 1
Word: 企業, Frequency: 1
Word: 成功, Frequency: 1
Word: 特に, Frequency: 1
Word: プログラミング, Frequency: 1
Word: インターフェース, Frequency: 1
Word: 効率的, Frequency: 1
Word: まず, Frequency: 1
Word: 第, Frequency: 1
Word: システム, Frequency: 1
Word: 間, Frequency: 1
Word: 共有, Frequency: 1
Word: 手段, Frequency: 1
Word: 先進的, Frequency: 1
Word: ツール, Frequency: 1
Word: データソース, Frequency: 1

In [21]:
for sent in doc.sents:
    for token in sent:
        print(
            token.i,
            token.orth_,
            token.lemma_,
            token.norm_,
            token.morph.get("Reading"),
            token.pos_,
            token.morph.get("Inflection"),
            token.tag_,
            token.dep_,
            token.head.i,
        )
    print('EOS')

0 データ データ データ ['データ'] NOUN [] 名詞-普通名詞-一般 nsubj 10
1 は は は ['ハ'] ADP [] 助詞-係助詞 case 0
2 現代 現代 現代 ['ゲンダイ'] NOUN [] 名詞-普通名詞-副詞可能 nmod 4
3 の の の ['ノ'] ADP [] 助詞-格助詞 case 2
4 ビジネス ビジネス ビジネス ['ビジネス'] NOUN [] 名詞-普通名詞-一般 obl 10
5 に に に ['ニ'] ADP [] 助詞-格助詞 case 4
6 おい おく おく ['オイ'] VERB ['五段-カ行;連用形-イ音便'] 動詞-一般 fixed 5
7 て て て ['テ'] SCONJ [] 助詞-接続助詞 fixed 5
8 非常 非常 非常 ['ヒジョウ'] ADJ [] 形状詞-一般 advcl 10
9 に だ だ ['ニ'] AUX ['助動詞-ダ;連用形-ニ'] 助動詞 aux 8
10 重要 重要 重要 ['ジュウヨウ'] ADJ [] 形状詞-一般 ROOT 10
11 です です です ['デス'] AUX ['助動詞-デス;終止形-一般'] 助動詞 aux 10
12 。 。 。 ['。'] PUNCT [] 補助記号-句点 punct 10
EOS
13 効果的 効果的 効果的 ['コウカテキ'] ADJ [] 名詞-普通名詞-形状詞可能 acl 16
14 な だ だ ['ナ'] AUX ['助動詞-ダ;連体形-一般'] 助動詞 cop 13
15 データ データ データ ['データ'] NOUN [] 名詞-普通名詞-一般 compound 16
16 処理 処理 処理 ['ショリ'] NOUN [] 名詞-普通名詞-サ変可能 nmod 19
17 と と と ['ト'] ADP [] 助詞-格助詞 case 16
18 その その 其の ['ソノ'] DET [] 連体詞 det 19
19 アーキテクチャ アーキテクチャ アーキテクチャー ['アーキテクチャ'] NOUN [] 名詞-普通名詞-一般 nsubj 26
20 は は は ['ハ'] ADP [] 助詞-係助詞 case 19
21 、 、 、 ['、'] PUNCT [] 補助記号-読点 punct 19
