In [24]:
import MeCab, os
import pandas as pd

# tagger = mecab.Tagger("-Owakati")
tagger = MeCab.Tagger("-Owakati -r /opt/homebrew/etc/mecabrc")

In [25]:
input_alpha_filename = 'alpha_Koga.csv'
input_beta_filename = 'beta_Koga.csv'

alpha_path = os.path.join('./TalkData', input_alpha_filename)
beta_path = os.path.join('./TalkData', input_beta_filename)

alpha_data = pd.read_csv(alpha_path)
beta_data = pd.read_csv(beta_path)

In [26]:
def calculate_unique_words(text):
    words = tagger.parse(text).strip().split()
    return len(set(words))

In [27]:
alpha_data['UniqueWords'] = alpha_data['Detail'].apply(calculate_unique_words)
beta_data['UniqueWords'] = beta_data['Detail'].apply(calculate_unique_words)

In [28]:
alpha_avg = alpha_data["UniqueWords"].mean()
beta_avg = beta_data["UniqueWords"].mean()

In [29]:
average_unique_alpha_words = alpha_data.groupby('Speaker')['UniqueWords'].mean()
print(average_unique_alpha_words)
average_unique_beta_words = beta_data.groupby('Speaker')['UniqueWords'].mean()
print(average_unique_beta_words)

Speaker
AI      58.600000
User    19.111111
Name: UniqueWords, dtype: float64
Speaker
AI      54.2
User    22.0
Name: UniqueWords, dtype: float64


In [30]:
beta_data

Unnamed: 0,Speaker,Detail,UniqueWords
0,AI,今日は相当活動的だったみたいね！歩数も平均よりずっと高くて、カロリーもたくさん消費しているし...,50
1,User,今日は朝に筋トレをして、そのまま寝たかな。昼前に起きて、友達とキャッチボールを夕方にしたよ,24
2,AI,朝から筋トレとは元気だね！その後にゆっくり休めて良かったね。友達とキャッチボールも楽しそう！...,53
3,User,運動した日って心拍数は高くなるん？今夜はまたジムに行くぜ。明日は夕方まで研究して、それからハ...,32
4,AI,運動すると心拍数が高くなるのは普通だよ。特に筋トレやキャッチボールみたいなアクティブな活動を...,81
5,User,なるほどね、落ち着いた後でもその日に運動してれば心拍数って上がるんやね。ありがとー。ハンドサ...,31
6,AI,そうだね、運動の影響で心拍数はしばらく高めに保たれることがあるよ。体がエネルギーを使って回復...,67
7,User,ありがとう,1
8,AI,いつでもどういたしまして！また何かあったらいつでも話してね。楽しい夜を過ごしてね！,20


In [31]:
# 必要なパッケージをインポート
import pandas as pd
beta_data_with_average = beta_data.copy()
# 平均値の行をデータフレームとして作成
average_rows = pd.DataFrame([
    {'Speaker': 'AI Average', 'Detail': 'Mean Unique Words', 'UniqueWords': average_unique_beta_words['AI']},
    {'Speaker': 'User Average', 'Detail': 'Mean Unique Words', 'UniqueWords': average_unique_beta_words['User']}
])

# 元のデータと平均値を結合
beta_data_with_average = pd.concat([beta_data, average_rows], ignore_index=True)

# 結果をCSVとして保存
beta_data_with_average.to_csv('./AnalyzedData/analyzed_beta_Hiraoka.csv', index=False, encoding='utf-8-sig')

# 確認用
beta_data_with_average


Unnamed: 0,Speaker,Detail,UniqueWords
0,AI,今日は相当活動的だったみたいね！歩数も平均よりずっと高くて、カロリーもたくさん消費しているし...,50.0
1,User,今日は朝に筋トレをして、そのまま寝たかな。昼前に起きて、友達とキャッチボールを夕方にしたよ,24.0
2,AI,朝から筋トレとは元気だね！その後にゆっくり休めて良かったね。友達とキャッチボールも楽しそう！...,53.0
3,User,運動した日って心拍数は高くなるん？今夜はまたジムに行くぜ。明日は夕方まで研究して、それからハ...,32.0
4,AI,運動すると心拍数が高くなるのは普通だよ。特に筋トレやキャッチボールみたいなアクティブな活動を...,81.0
5,User,なるほどね、落ち着いた後でもその日に運動してれば心拍数って上がるんやね。ありがとー。ハンドサ...,31.0
6,AI,そうだね、運動の影響で心拍数はしばらく高めに保たれることがあるよ。体がエネルギーを使って回復...,67.0
7,User,ありがとう,1.0
8,AI,いつでもどういたしまして！また何かあったらいつでも話してね。楽しい夜を過ごしてね！,20.0
9,AI Average,Mean Unique Words,54.2


In [32]:
# 必要なパッケージをインポート
import pandas as pd
import os

# 元ファイル名
input_filename = input_alpha_filename
# 保存フォルダ
output_folder = "./AnalyzedData"
# 元ファイル名から "Hiraoka" 部分を抽出
base_name = os.path.splitext(input_filename)[0]  # 拡張子を除く ("alpha_Hiraoka")
name_part = base_name.split('_')[-1]  # 最後の部分 ("Hiraoka")
# 保存ファイル名を生成
output_filename = f"analyzed_alpha_{name_part}.csv"
output_path = os.path.join(output_folder, output_filename)

alpha_data_with_average = alpha_data.copy()
# 平均値の行をデータフレームとして作成
average_rows = pd.DataFrame([
    {'Speaker': 'AI Average', 'Detail': 'Mean Unique Words', 'UniqueWords': average_unique_alpha_words['AI']},
    {'Speaker': 'User Average', 'Detail': 'Mean Unique Words', 'UniqueWords': average_unique_alpha_words['User']}
])

# 元のデータと平均値を結合
alpha_data_with_average = pd.concat([alpha_data, average_rows], ignore_index=True)

# 保存
os.makedirs(output_folder, exist_ok=True)  # フォルダがない場合は作成
alpha_data_with_average.to_csv(output_path, index=False, encoding='utf-8-sig')

# 確認用
alpha_data_with_average


Unnamed: 0,Speaker,Detail,UniqueWords
0,AI,よし！じゃあ、まずは最近の体調どう？疲れやストレスたまってない？💡💆‍♂️,20.0
1,User,そうだね，論文の執筆に疲れているよ,12.0
2,AI,お疲れさま！論文執筆ってめっちゃ頭使うし、集中しすぎて気づいたら体バキバキになってたりしない...,48.0
3,User,筋トレはしてるけど論文が忙しくてあまりできてないな，音楽を聴くのが好きかな,20.0
4,AI,おお、筋トレやってるのはいいね！でも論文で忙しいと、なかなか時間とれないよな💦 短時間でもい...,56.0
5,User,集中したい時はクラシックとかを聴くかな,11.0
6,AI,クラシックいいね！🎻✨ 静かでリズムが安定してるから、集中力を高めるのにぴったりだよね。モー...,54.0
7,User,割と昔のクラシックというよりは，現代のクラシックを聴くことが多いかな．ルドヴィコエイナウディ...,23.0
8,AI,ルドヴィコ・エイナウディいいね！🎹✨ 現代クラシックのピアノ曲って、シンプルだけど感情がこも...,57.0
9,User,うん，めっちゃいい．エナジードリンク結構飲むかな．後は紅茶とか,15.0


In [33]:
# 必要なパッケージをインポート
import pandas as pd
import os

# 元ファイル名
input_filename = input_beta_filename
# 保存フォルダ
output_folder = "./AnalyzedData"
# 元ファイル名から "Hiraoka" 部分を抽出
base_name = os.path.splitext(input_filename)[0]  # 拡張子を除く ("alpha_Hiraoka")
name_part = base_name.split('_')[-1]  # 最後の部分 ("Hiraoka")
# 保存ファイル名を生成
output_filename = f"analyzed_beta_{name_part}.csv"
output_path = os.path.join(output_folder, output_filename)

beta_data_with_average = beta_data.copy()
# 平均値の行をデータフレームとして作成
average_rows = pd.DataFrame([
    {'Speaker': 'AI Average', 'Detail': 'Mean Unique Words', 'UniqueWords': average_unique_beta_words['AI']},
    {'Speaker': 'User Average', 'Detail': 'Mean Unique Words', 'UniqueWords': average_unique_beta_words['User']}
])

# 元のデータと平均値を結合
beta_data_with_average = pd.concat([beta_data, average_rows], ignore_index=True)

# 保存
os.makedirs(output_folder, exist_ok=True)  # フォルダがない場合は作成
beta_data_with_average.to_csv(output_path, index=False, encoding='utf-8-sig')

# 確認用
beta_data_with_average


Unnamed: 0,Speaker,Detail,UniqueWords
0,AI,今日は相当活動的だったみたいね！歩数も平均よりずっと高くて、カロリーもたくさん消費しているし...,50.0
1,User,今日は朝に筋トレをして、そのまま寝たかな。昼前に起きて、友達とキャッチボールを夕方にしたよ,24.0
2,AI,朝から筋トレとは元気だね！その後にゆっくり休めて良かったね。友達とキャッチボールも楽しそう！...,53.0
3,User,運動した日って心拍数は高くなるん？今夜はまたジムに行くぜ。明日は夕方まで研究して、それからハ...,32.0
4,AI,運動すると心拍数が高くなるのは普通だよ。特に筋トレやキャッチボールみたいなアクティブな活動を...,81.0
5,User,なるほどね、落ち着いた後でもその日に運動してれば心拍数って上がるんやね。ありがとー。ハンドサ...,31.0
6,AI,そうだね、運動の影響で心拍数はしばらく高めに保たれることがあるよ。体がエネルギーを使って回復...,67.0
7,User,ありがとう,1.0
8,AI,いつでもどういたしまして！また何かあったらいつでも話してね。楽しい夜を過ごしてね！,20.0
9,AI Average,Mean Unique Words,54.2


## Word len分析

In [23]:
import pandas as pd
import glob

def countWordsLen(path):
    csv_files = glob.glob(path)
    for file in csv_files:
        df = pd.read_csv(file)
        
        len_list = []
        for text in df["Detail"]:
            words_len = len(text)
            len_list.append(words_len)
            
        df["WordsLen"] = len_list
    
        df.to_csv(file, index=False, encoding='utf-8-sig')
        print(f"上書き保存しました: {file}")
            
path = "../../Analyzed/AnalyzedData/analyzed_*_*.csv"
countWordsLen(path)

#### Column移動

In [7]:
import pandas as pd

# CSVファイルを読み込む
file_path = "/Users/john/Programs/University/Study/Analytics/Analyzed/AnalyzedData/analyzed_alpha_Abe.csv"
df = pd.read_csv(file_path)

# 'WordsLen'列を2番目の位置に移動
cols = df.columns.tolist()
cols.insert(2, cols.pop(cols.index('WordsLen')))
df = df[cols]

# 結果を保存
df.to_csv(file_path, index=False, encoding='utf-8-sig')
print(f"上書き保存しました: {file_path}")

上書き保存しました: /Users/john/Programs/University/Study/Analytics/Analyzed/AnalyzedData/analyzed_alpha_Abe.csv


#### df check

In [9]:
file = "../../Analyzed/AnalyzedData/analyzed_alpha_Abe.csv"
df = pd.read_csv(file)
df


Unnamed: 0,Speaker,Detail,WordsLen,UniqueWords,JLPTLevel,Sentiment-tabularisai,Sentiment-tabularisai-score,Sentiment-lxyuan,Sentiment-lxyuan-score,Sentiment-Christian,Sentiment-Christian-score
0,AI,こんにちは！最近、体の調子はどうですか？何か運動やリラクゼーションの活動をしていますか？それ...,74,36.0,3.0,Very Negative,0.398403,positive,0.401744,positive,0.998923
1,User,最近は起きた時に寝ても寝ても眠い感じがする,21,13.0,2.0,Negative,0.3383,negative,0.461021,positive,0.896546
2,AI,それはちょっと大変そうですね。睡眠の質が落ちている可能性があるかもしれませんね。寝る前の環境...,138,57.0,2.0,Very Negative,0.561873,negative,0.730563,neutral,0.999262
3,User,スマホを見てしまうことなどは前からあったけど，前よりも疲れている感じがするんだよね,41,25.0,2.0,Neutral,0.469847,negative,0.773605,neutral,0.969296
4,AI,疲れが溜まっていると感じるときは、やっぱり体も心も重くなりますよね。スマホの光が睡眠の質を下...,274,90.0,2.0,Neutral,0.339138,positive,0.517148,neutral,0.800267
5,User,散歩するのに家の周りが面白くないんだけど，散歩が面白くなるアイデアが欲しいんだよな,41,18.0,2.0,Neutral,0.39768,positive,0.45657,neutral,0.965423
6,AI,散歩をもっと楽しくするアイデア、いくつか提案しますね！ポッドキャストやオーディオブックを聴く...,449,126.0,3.0,Positive,0.645495,positive,0.766437,positive,0.998347
7,AI Average,Mean Unique Words,17,77.25,3.0,Neutral,0.424112,positive,0.511583,positive,0.99409
8,User Average,Mean Unique Words,17,18.666667,3.0,Neutral,0.424112,positive,0.511583,positive,0.99409
