In [22]:
import os
import pandas as pd
import MeCab
from collections import Counter

# ユーザーに名前を入力させる
name = input("対象者の名前を入力してください: ")

# ファイルのパス設定
input_alpha_path = f"./TalkData/alpha_{name}.csv"
input_beta_path = f"./TalkData/beta_{name}.csv"

output_alpha_path = f"./Analyzed/MorphologicalAnalysis/morphorogicalcalAnalyzed_alpha_{name}_frequent_words.csv"
output_beta_path = f"./Analyzed/MorphologicalAnalysis/morphologicalAnalyzed_beta_{name}_frequent_words.csv"

# データの読み込み
if not os.path.exists(input_alpha_path) or not os.path.exists(input_beta_path):
    raise FileNotFoundError("指定された名前のデータが見つかりません。")

alpha_df = pd.read_csv(input_alpha_path)
beta_df = pd.read_csv(input_beta_path)

print(f"{name} のデータを読み込みました。")

# MeCabの初期化
tagger = MeCab.Tagger("-Owakati")

# 形態素解析を適用する関数
def tokenize_text(text):
    if pd.isna(text):
        return ""
    return tagger.parse(text).strip()

# データに形態素解析を適用
alpha_df["Tokenized"] = alpha_df["Detail"].apply(tokenize_text)
beta_df["Tokenized"] = beta_df["Detail"].apply(tokenize_text)

print("形態素解析を適用しました。")

# ストップワード（不要な単語のリスト）
stopwords = set(["は", "が", "の", "です", "ます", "を", "に", "で", "と", "も", "ない", "し", "た", "な", "その"])

# 頻出単語を集計する関数
def count_frequent_words(df):
    all_words = []
    for text in df["Tokenized"]:
        words = text.split()
        words = [word for word in words if word not in stopwords]
        all_words.extend(words)

    return Counter(all_words)

# 頻出単語を取得
alpha_word_counts = count_frequent_words(alpha_df)
beta_word_counts = count_frequent_words(beta_df)

print("頻出単語を集計しました。")

# 頻出単語の上位50単語をデータフレームに変換
alpha_word_df = pd.DataFrame(alpha_word_counts.most_common(50), columns=["Word", "Count"])
beta_word_df = pd.DataFrame(beta_word_counts.most_common(50), columns=["Word", "Count"])

# 結果を保存
alpha_word_df.to_csv(output_alpha_path, index=False, encoding="utf-8-sig")
beta_word_df.to_csv(output_beta_path, index=False, encoding="utf-8-sig")

print(f"結果を {output_alpha_path} に保存しました。")
print(f"結果を {output_beta_path} に保存しました。")


Abe のデータを読み込みました。
形態素解析を適用しました。
頻出単語を集計しました。
結果を ./Analyzed/MorphologicalAnalysis/morphorogicalcalAnalyzed_alpha_Abe_frequent_words.csv に保存しました。
結果を ./Analyzed/MorphologicalAnalysis/morphologicalAnalyzed_beta_Abe_frequent_words.csv に保存しました。


In [23]:
import os
import pandas as pd
import MeCab
from collections import Counter

# ユーザーに名前を入力させる
name = input("対象者の名前を入力してください: ")

# ファイルのパス設定
input_alpha_path = f"./TalkData/alpha_{name}.csv"
input_beta_path = f"./TalkData/beta_{name}.csv"

output_alpha_path = f"./Analyzed/MorphologicalAnalysis/morphorogicalcalAnalyzed_alpha_{name}_frequent_words.csv"
output_beta_path = f"./Analyzed/MorphologicalAnalysis/morphologicalAnalyzed_beta_{name}_frequent_words.csv"

# データの読み込み
if not os.path.exists(input_alpha_path) or not os.path.exists(input_beta_path):
    raise FileNotFoundError("指定された名前のデータが見つかりません。")

alpha_df = pd.read_csv(input_alpha_path)
beta_df = pd.read_csv(input_beta_path)

print(f"{name} のデータを読み込みました。")

# MeCabの初期化
tagger = MeCab.Tagger("-Owakati")

# 形態素解析を適用する関数
def tokenize_text(text):
    if pd.isna(text):
        return ""
    return tagger.parse(text).strip()

# データに形態素解析を適用
alpha_df["Tokenized"] = alpha_df["Detail"].apply(tokenize_text)
beta_df["Tokenized"] = beta_df["Detail"].apply(tokenize_text)

print("形態素解析を適用しました。")

# ストップワード（不要な単語のリスト）
stopwords = set(["は", "が", "の", "です", "ます", "を", "に", "で", "と", "も", "ない", "し", "た", "な", "その"])

# 頻出単語を集計する関数
def count_frequent_words(df):
    all_words = []
    for text in df["Tokenized"]:
        words = text.split()
        words = [word for word in words if word not in stopwords]
        all_words.extend(words)

    return Counter(all_words)

# 頻出単語を取得
alpha_word_counts = count_frequent_words(alpha_df)
beta_word_counts = count_frequent_words(beta_df)

print("頻出単語を集計しました。")

# 頻出単語の上位50単語をデータフレームに変換
alpha_word_df = pd.DataFrame(alpha_word_counts.most_common(50), columns=["Word", "Count"])
beta_word_df = pd.DataFrame(beta_word_counts.most_common(50), columns=["Word", "Count"])

# 結果を保存
alpha_word_df.to_csv(output_alpha_path, index=False, encoding="utf-8-sig")
beta_word_df.to_csv(output_beta_path, index=False, encoding="utf-8-sig")

print(f"結果を {output_alpha_path} に保存しました。")
print(f"結果を {output_beta_path} に保存しました。")

Abe のデータを読み込みました。
形態素解析を適用しました。
頻出単語を集計しました。
結果を ./Analyzed/MorphologicalAnalysis/morphorogicalcalAnalyzed_alpha_Abe_frequent_words.csv に保存しました。
結果を ./Analyzed/MorphologicalAnalysis/morphologicalAnalyzed_beta_Abe_frequent_words.csv に保存しました。


In [24]:
import os
import pandas as pd
import MeCab
from sklearn.feature_extraction.text import CountVectorizer
from gensim import corpora, models

# ユーザーに名前を入力させる
name = input("対象者の名前を入力してください: ")

# ファイルのパス設定
input_alpha_path = f"./TalkData/alpha_{name}.csv"
input_beta_path = f"./TalkData/beta_{name}.csv"

output_alpha_path = f"./Analyzed/LDA/lda_alpha_{name}.csv"
output_beta_path = f"./Analyzed/LDA/lda_beta_{name}.csv"

# データの読み込み
if not os.path.exists(input_alpha_path) or not os.path.exists(input_beta_path):
    raise FileNotFoundError("指定された名前のデータが見つかりません。")

alpha_df = pd.read_csv(input_alpha_path)
beta_df = pd.read_csv(input_beta_path)

print(f"{name} のデータを読み込みました。")

# MeCabの初期化
tagger = MeCab.Tagger("-Owakati")

# 形態素解析を適用する関数
def tokenize_text(text):
    if pd.isna(text):
        return ""
    return tagger.parse(text).strip()

# データに形態素解析を適用
alpha_df["Tokenized"] = alpha_df["Detail"].apply(tokenize_text)
beta_df["Tokenized"] = beta_df["Detail"].apply(tokenize_text)

print("形態素解析を適用しました。")

# トピック数を設定
num_topics = 3

# トピックモデリングを実行する関数
def perform_lda(df, num_topics):
    vectorizer = CountVectorizer()
    X = vectorizer.fit_transform(df["Tokenized"])

    # 単語リストを取得
    words = vectorizer.get_feature_names_out()

    # LDAの実行
    lda_model = models.LdaModel(corpus=[[(i, int(X[j, i])) for i in range(X.shape[1])] for j in range(X.shape[0])],
                                id2word=dict(enumerate(words)),
                                num_topics=num_topics,
                                random_state=42)

    return lda_model, words

# LDAを適用
alpha_lda, alpha_words = perform_lda(alpha_df, num_topics)
beta_lda, beta_words = perform_lda(beta_df, num_topics)

print("トピックモデリングを実行しました。")

# トピックごとの単語を取得
def get_topic_words(lda_model, words, num_words=10):
    topics = []
    for topic_id in range(num_topics):
        topic_terms = lda_model.get_topic_terms(topic_id, num_words)
        topic_words = [words[word_id] for word_id, _ in topic_terms]
        topics.append(", ".join(topic_words))
    return topics

alpha_topics = get_topic_words(alpha_lda, alpha_words)
beta_topics = get_topic_words(beta_lda, beta_words)

# トピックの結果を保存
alpha_topic_df = pd.DataFrame({"Topic": range(1, num_topics + 1), "Top Words": alpha_topics})
beta_topic_df = pd.DataFrame({"Topic": range(1, num_topics + 1), "Top Words": beta_topics})

alpha_topic_df.to_csv(output_alpha_path, index=False, encoding="utf-8-sig")
beta_topic_df.to_csv(output_beta_path, index=False, encoding="utf-8-sig")

print(f"結果を {output_alpha_path} に保存しました。")
print(f"結果を {output_beta_path} に保存しました。")


ModuleNotFoundError: No module named 'numpy.strings'