In [22]:
import os
import pandas as pd
import MeCab
from collections import Counter

# ユーザーに名前を入力させる
name = input("対象者の名前を入力してください: ")

# ファイルのパス設定
input_alpha_path = f"./TalkData/alpha_{name}.csv"
input_beta_path = f"./TalkData/beta_{name}.csv"

output_alpha_path = f"./Analyzed/MorphologicalAnalysis/morphorogicalcalAnalyzed_alpha_{name}_frequent_words.csv"
output_beta_path = f"./Analyzed/MorphologicalAnalysis/morphologicalAnalyzed_beta_{name}_frequent_words.csv"

# データの読み込み
if not os.path.exists(input_alpha_path) or not os.path.exists(input_beta_path):
    raise FileNotFoundError("指定された名前のデータが見つかりません。")

alpha_df = pd.read_csv(input_alpha_path)
beta_df = pd.read_csv(input_beta_path)

print(f"{name} のデータを読み込みました。")

# MeCabの初期化
tagger = MeCab.Tagger("-Owakati")

# 形態素解析を適用する関数
def tokenize_text(text):
    if pd.isna(text):
        return ""
    return tagger.parse(text).strip()

# データに形態素解析を適用
alpha_df["Tokenized"] = alpha_df["Detail"].apply(tokenize_text)
beta_df["Tokenized"] = beta_df["Detail"].apply(tokenize_text)

print("形態素解析を適用しました。")

# ストップワード（不要な単語のリスト）
stopwords = set(["は", "が", "の", "です", "ます", "を", "に", "で", "と", "も", "ない", "し", "た", "な", "その"])

# 頻出単語を集計する関数
def count_frequent_words(df):
    all_words = []
    for text in df["Tokenized"]:
        words = text.split()
        words = [word for word in words if word not in stopwords]
        all_words.extend(words)

    return Counter(all_words)

# 頻出単語を取得
alpha_word_counts = count_frequent_words(alpha_df)
beta_word_counts = count_frequent_words(beta_df)

print("頻出単語を集計しました。")

# 頻出単語の上位50単語をデータフレームに変換
alpha_word_df = pd.DataFrame(alpha_word_counts.most_common(50), columns=["Word", "Count"])
beta_word_df = pd.DataFrame(beta_word_counts.most_common(50), columns=["Word", "Count"])

# 結果を保存
alpha_word_df.to_csv(output_alpha_path, index=False, encoding="utf-8-sig")
beta_word_df.to_csv(output_beta_path, index=False, encoding="utf-8-sig")

print(f"結果を {output_alpha_path} に保存しました。")
print(f"結果を {output_beta_path} に保存しました。")


Abe のデータを読み込みました。
形態素解析を適用しました。
頻出単語を集計しました。
結果を ./Analyzed/MorphologicalAnalysis/morphorogicalcalAnalyzed_alpha_Abe_frequent_words.csv に保存しました。
結果を ./Analyzed/MorphologicalAnalysis/morphologicalAnalyzed_beta_Abe_frequent_words.csv に保存しました。


In [23]:
import os
import pandas as pd
import MeCab
from collections import Counter

# ユーザーに名前を入力させる
name = input("対象者の名前を入力してください: ")

# ファイルのパス設定
input_alpha_path = f"./TalkData/alpha_{name}.csv"
input_beta_path = f"./TalkData/beta_{name}.csv"

output_alpha_path = f"./Analyzed/MorphologicalAnalysis/morphorogicalcalAnalyzed_alpha_{name}_frequent_words.csv"
output_beta_path = f"./Analyzed/MorphologicalAnalysis/morphologicalAnalyzed_beta_{name}_frequent_words.csv"

# データの読み込み
if not os.path.exists(input_alpha_path) or not os.path.exists(input_beta_path):
    raise FileNotFoundError("指定された名前のデータが見つかりません。")

alpha_df = pd.read_csv(input_alpha_path)
beta_df = pd.read_csv(input_beta_path)

print(f"{name} のデータを読み込みました。")

# MeCabの初期化
tagger = MeCab.Tagger("-Owakati")

# 形態素解析を適用する関数
def tokenize_text(text):
    if pd.isna(text):
        return ""
    return tagger.parse(text).strip()

# データに形態素解析を適用
alpha_df["Tokenized"] = alpha_df["Detail"].apply(tokenize_text)
beta_df["Tokenized"] = beta_df["Detail"].apply(tokenize_text)

print("形態素解析を適用しました。")

# ストップワード（不要な単語のリスト）
stopwords = set(["は", "が", "の", "です", "ます", "を", "に", "で", "と", "も", "ない", "し", "た", "な", "その"])

# 頻出単語を集計する関数
def count_frequent_words(df):
    all_words = []
    for text in df["Tokenized"]:
        words = text.split()
        words = [word for word in words if word not in stopwords]
        all_words.extend(words)

    return Counter(all_words)

# 頻出単語を取得
alpha_word_counts = count_frequent_words(alpha_df)
beta_word_counts = count_frequent_words(beta_df)

print("頻出単語を集計しました。")

# 頻出単語の上位50単語をデータフレームに変換
alpha_word_df = pd.DataFrame(alpha_word_counts.most_common(50), columns=["Word", "Count"])
beta_word_df = pd.DataFrame(beta_word_counts.most_common(50), columns=["Word", "Count"])

# 結果を保存
alpha_word_df.to_csv(output_alpha_path, index=False, encoding="utf-8-sig")
beta_word_df.to_csv(output_beta_path, index=False, encoding="utf-8-sig")

print(f"結果を {output_alpha_path} に保存しました。")
print(f"結果を {output_beta_path} に保存しました。")

Abe のデータを読み込みました。
形態素解析を適用しました。
頻出単語を集計しました。
結果を ./Analyzed/MorphologicalAnalysis/morphorogicalcalAnalyzed_alpha_Abe_frequent_words.csv に保存しました。
結果を ./Analyzed/MorphologicalAnalysis/morphologicalAnalyzed_beta_Abe_frequent_words.csv に保存しました。


In [46]:
stopwords = {'いる', 'かも', '「', 'あり', 'とか', 'ので', 'か', 'あれ', 'た', 'で', 'です', 'を', 'てる', 'かす', 'なる', 'ませ', 'ない', 'たり', 'も', 'し', '。', 'でも', 'なら', 'がら', 'ん', 'ながら', 'なり', 'こと', '！', 'は', 'ある', 'それ', 'みる', '」', 'な', 'ば', 'しれ', 'が', 'ます', '中', '、', 'ね', ':', '？', 'や', 'だ', 'カス', 'よ', 'nn', 'やっ', '間', 'に', 'の', '，', '.', 'なっ', 'けど', 'できる', 'って', 'する', '．', 'wは', 'と', 'て', 'から', 'いい', '：'}

In [47]:
while True:
    word = input("省きたい単語を入力してください（何も入力せずにEnterで終了）: ")
    if word == "":
        break
    stopwords.add(word)

print("作成した省くセット:", stopwords)

作成した省くセット: {'でしょ', 'でき', 'か', 'た', 'で', 'てる', 'かす', 'なく', 'ませ', 'し', 'なら', 'がら', 'なり', 'ながら', 'い', 'こと', 'ある', 'は', 'さ', '」', 'しれ', 'どう', 'そう', ':', 'だ', 'やっ', 'よ', 'だっ', '間', 'の', '.', 'それとも', 'よう', 'まだ', 'できる', '．', 'wは', 'と', 'ば', '「', 'て', 'から', 'という', 'いる', 'かも', 'あり', 'とか', 'とき', 'ので', 'あれ', 'です', 'を', 'なる', 'だけ', 'ない', 'たり', 'も', 'でも', '。', 'どんな', 'ん', '！', 'それ', 'みる', 'ため', 'な', 'あっ', 'たら', 'が', 'ます', 'また', '中', 'など', '、', 'まし', 'ね', '？', 'や', 'カス', 'あと', 'nn', 'に', 'う', 'み', '，', 'なっ', 'けど', 'せよ', 'って', 'する', 'より', 'でる', 'れ', 'いい', '：'}


In [57]:
import os
import pandas as pd
import MeCab
from gensim import corpora, models

# ユーザーに名前を入力させる
name = input("対象者の名前を入力してください: ")

# ファイルのパス設定
input_alpha_path = f"./TalkData/alpha_{name}.csv"
input_beta_path = f"./TalkData/beta_{name}.csv"

output_alpha_path = f"./Analyzed/LDA/lda_alpha_{name}.csv"
output_beta_path = f"./Analyzed/LDA/lda_beta_{name}.csv"

# データの読み込み
if not os.path.exists(input_alpha_path) or not os.path.exists(input_beta_path):
    raise FileNotFoundError("指定された名前のデータが見つかりません。")

alpha_df = pd.read_csv(input_alpha_path)
beta_df = pd.read_csv(input_beta_path)

print(f"{name} のデータを読み込みました。")

# MeCabの初期化
# (辞書パスが異なる場合は適宜 -r /opt/homebrew/etc/mecabrc -d の指定を変更)
tagger = MeCab.Tagger("-Owakati -r /opt/homebrew/etc/mecabrc")

# 形態素解析を適用する関数
def tokenize_text(text):
    """文字列を分かち書きし、空白区切り文字列として返す"""
    if pd.isna(text):
        return ""
    return tagger.parse(text).strip()

# データに形態素解析を適用
alpha_df["Tokenized"] = alpha_df["Detail"].apply(tokenize_text)
beta_df["Tokenized"] = beta_df["Detail"].apply(tokenize_text)

print("形態素解析を適用しました。")

# トピック数を設定
num_topics = 3

# トピックモデリング（Gensimのみ）を実行する関数
def perform_lda(df, num_topics):
    # df["Tokenized"] は空白区切り文字列なので、split()してリスト化
    texts = []
    for doc in df["Tokenized"]:
        tokens = doc.split()
        # ストップワード除外
        filtered_tokens = [t for t in tokens if t not in stopwords]
        texts.append(filtered_tokens)

    # GensimのDictionaryを作成（単語→IDマッピング）
    dictionary = corpora.Dictionary(texts)

    # doc2bowで、各ドキュメントを (単語ID, 出現回数) のリストに変換
    corpus = [dictionary.doc2bow(text) for text in texts]

    # LDAモデルを学習
    lda_model = models.LdaModel(
        corpus=corpus,
        id2word=dictionary,
        num_topics=num_topics,
        random_state=42
    )

    return lda_model, dictionary

# LDAを適用
alpha_lda, alpha_dict = perform_lda(alpha_df, num_topics)
beta_lda, beta_dict = perform_lda(beta_df, num_topics)

print("トピックモデリングを実行しました。")

# トピックごとの単語を取得
def get_topic_words(lda_model, dictionary, num_words=10):
    topics = []
    for topic_id in range(num_topics):
        # topic_terms は [(word_id, 出現確率), ... ] の形
        topic_terms = lda_model.get_topic_terms(topic_id, num_words)
        # dictionary[word_id] を用いてID→単語に変換
        topic_words = [dictionary[word_id] for word_id, _ in topic_terms]
        topics.append(", ".join(topic_words))
    return topics

alpha_topics = get_topic_words(alpha_lda, alpha_dict)
beta_topics  = get_topic_words(beta_lda,  beta_dict)

# トピックの結果を保存
alpha_topic_df = pd.DataFrame({
    "Topic": range(1, num_topics + 1),
    "Top Words": alpha_topics
})
beta_topic_df = pd.DataFrame({
    "Topic": range(1, num_topics + 1),
    "Top Words": beta_topics
})

alpha_topic_df.to_csv(output_alpha_path, index=False, encoding="utf-8-sig")
beta_topic_df.to_csv(output_beta_path, index=False, encoding="utf-8-sig")

print(f"結果を {output_alpha_path} に保存しました。")
print(f"結果を {output_beta_path} に保存しました。")


Suto のデータを読み込みました。
形態素解析を適用しました。
トピックモデリングを実行しました。
結果を ./Analyzed/LDA/lda_alpha_Suto.csv に保存しました。
結果を ./Analyzed/LDA/lda_beta_Suto.csv に保存しました。


In [94]:
import pandas as pd
alpha_data = pd.read_csv("./Evaluation/data_alpha.csv")
beta_data = pd.read_csv("./Evaluation/data_beta.csv")


In [95]:
alpha_data = alpha_data[['name', 'thoughtfulness']]
alpha_data = alpha_data[['name', 'thoughtfulness']].rename(columns={'thoughtfulness': 'thoughtfulness_a'})
alpha_data

Unnamed: 0,name,thoughtfulness_a
0,酒井,3.0
1,二村,3.0
2,パン,3.0
3,尾山,6.0
4,藤本,3.0
5,塩尻,5.0
6,安倍,4.0
7,平岡,3.0
8,森,5.0
9,須藤,2.0


In [96]:
beta_data = beta_data[['name', 'thoughtfulness']]
beta_data = beta_data[['name', 'thoughtfulness']].rename(columns={'thoughtfulness': 'thoughtfulness_b'})
beta_data

Unnamed: 0,name,thoughtfulness_b
0,酒井,4
1,二村,6
2,パン,4
3,尾山,6
4,藤本,4
5,塩尻,5
6,安倍,3
7,平岡,5
8,森,6
9,須藤,5


In [89]:
data = pd.concat([alpha_data.set_index('name'), beta_data.set_index('name')],axis=1).reset_index()

In [97]:
data['thoughtfulness_a'] = data['thoughtfulness_a'].astype(int)

In [98]:
data

Unnamed: 0,name,thoughtfulness_a,thoughtfulness_b
0,酒井,3,4
1,二村,3,6
2,パン,3,4
3,尾山,6,6
4,藤本,3,4
5,塩尻,5,5
6,安倍,4,3
7,平岡,3,5
8,森,5,6
9,須藤,2,5
