# 要約 
このJupyter Notebookは、Kaggleコンペティション「LMSYS - Chatbot Arena」において、大規模言語モデル（LLM）によって生成されたチャット応答の優劣を予測するための機械学習モデルを構築することを目的としています。具体的には、モデルが異なる応答の中でどちらがユーザーに好まれるかを予測し、データセットの特徴量作成やモデルのトレーニング・評価を行っています。

### 問題の概要
コンペティションでは、2つの異なるチャットボット（モデルAおよびモデルB）が生成した応答が与えられ、その中でどちらが好まれるかを予測することが求められています。データセットには、これらの応答や、それに対するユーザーの好み（勝者）が含まれています。

### 使用される手法とライブラリ
1. **データの読み込みと前処理**
   - `pandas`を用いてデータセットを読み込み、基本的な情報を確認する。
   - 各応答の特徴量を生成するために、句読点の数、言葉の多様性（ユニークな単語数）、ストップワードの比率、応答の長さ、先頭文字の大文字チェックなどの計算を行う。

2. **特徴量エンコード**
   - `OneHotEncoder`や`LabelEncoder`を使った勝者やモデル名のエンコード。
   - 機械学習モデルに適した形にデータを加工。

3. **機械学習モデルの構築**
   - `train_test_split`でデータを訓練セットとテストセットに分割し、`StandardScaler`を使用してデータの標準化を行う。
   - `RandomForestClassifier`を利用してモデルをトレーニングし、テストセットに対して予測を行い、混同行列や分類レポートで評価。

4. **感情分析**
   - `TextBlob`ライブラリを使用して、応答の感情分析を行い、感情スコアやエラーカウントを新しい特徴量として追加。

5. **結果の保存**
   - 最終的な応答や勝者モデルを含むデータをCSVファイルとしてエクスポートし、勝者モデルに基づく集計を行う。

このNotebookでは、様々な特徴量エンジニアリングや機械学習手法をインタラクティブに駆使することで、モデルの性能を向上させ、チャットボットの応答に対するユーザーの好みを予測するタスクに取り組んでいます。

---


# 用語概説 
以下に、Jupyter Notebookで使用されている用語や手法の中から、初心者がつまずきそうな専門用語について簡単に解説します。一般的な知識はあると仮定していますが、具体的なドメイン知識や実務経験が少ない参加者向けの解説にしています。

1. **TfidfVectorizer**:
   - テキストデータの数値化手法の一つで、単語の出現頻度と逆文書頻度を組み合わせて特徴量を生成します。文書中での重要語の重み付けがなされるため、情報検索や文書分類において効果的です。

2. **ColumnTransformer**:
   - データ前処理のためのツールで、異なる種類の特徴量に対して異なる変換を適用することができます。例えば、数値データには標準化を行い、テキストデータにはそのまま通過させるといった処理が可能です。

3. **Pipeline**:
   - 機械学習フロー全体（データ前処理からモデルの訓練まで）を一つのオブジェクトにまとめる手法です。これにより、モデルの再利用が容易になり、コードがスッキリします。

4. **StandardScaler**:
   - 数値データの前処理に使われ、データの平均を0、標準偏差を1に変換します。この正規化により、異なるスケールの特徴量が同等に扱われるようになります。

5. **混同行列 (Confusion Matrix)**:
   - 分類モデルの予測結果を整理した表で、各クラスの予測と実際のラベルの対比を示します。モデルの性能評価に役立ち、正確さ、適合率、再現率などの指標を計算するための基礎となります。

6. **LabelEncoder**:
   - カテゴリカルデータを整数に変換する工具で、モデルが理解できるようにするために用いられます。ただし、順序情報を持たないカテゴリに同じスペースを与えてしまうため、注意が必要です。

7. **OneHotEncoder**:
   - カテゴリデータをバイナリ特徴量に変換する手法で、各カテゴリを独立したビットとして表現します。これにより、モデルは各カテゴリを同等に扱うことができます。

8. **感情分析 (Sentiment Analysis)**:
   - テキストデータの感情的なトーンを解析する手法で、ポジティブ、ネガティブ、ニュートラルなどの感情を特定します。特に顧客のフィードバックやレビュー分析に利用されます。

9. **Polars**:
   - 高速なデータフレームライブラリで、特に大規模データセットの処理に優れています。Pandasに似たAPIを持ちますが、処理速度が向上しているため、大規模なデータ分析に向いています。

10. **訓練セット (Training Set) とテストセット (Test Set)**:
    - 機械学習モデルの評価において、モデルの訓練に用いるデータセットを訓練セットと呼び、モデルの性能を評価するために使うデータセットをテストセットと呼びます。通常、全データセットは9:1や8:2の割合で分割されます。

11. **応答の多様性 (Response Diversity)**:
    - チャットボットの応答がどれだけ多様でユニークなものかを示す指標で、ユーザーの興味を引くためには高い多様性が求められます。

12. **過度な冗長性 (Redundancy)**:
    - モデルの応答が無駄に重複している状態を指し、ユーザーの関心を失わせる可能性があります。機械学習モデルにおいては、応答が単なる繰り返しにならないように努めることが重要です。

これらの用語は、特定の技術や手法における理解を深め、実際のデータ処理やモデル訓練時に役立つ基礎的な概念を提供します。

---


In [None]:
# この Python 3 環境には、多くの便利な分析ライブラリがインストールされています
# これは kaggle/python Docker イメージによって定義されています: https://github.com/kaggle/docker-python
# たとえば、以下のいくつかの便利なパッケージをロードします

import numpy as np # 線形代数
import pandas as pd # データ処理、CSVファイルの入出力 (例: pd.read_csv)

# 入力データファイルは読み取り専用の "../input/" ディレクトリにあります
# 例えば、これを実行すると（実行ボタンをクリックするか、Shift + Enterを押すことで）、入力ディレクトリ内のすべてのファイルがリストされます

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# 現在のディレクトリ (/kaggle/working/) に最大20GBのデータを書き込むことができ、
# 「すべてを保存して実行」オプションでバージョンを作成すると、その結果が保存されます
# 一時ファイルを /kaggle/temp/ に書き込むこともできますが、
# 現在のセッション外では保存されません

In [None]:
import pandas as pd

# データセットを読み込む
df = pd.read_csv('/kaggle/input/lmsys-chatbot-arena/train.csv')

# データセットの最初の数行を確認する
df.head()

In [None]:
import pandas as pd
from textblob import TextBlob
import string

In [None]:
from sklearn.preprocessing import OneHotEncoder

# 各モデルの応答に含まれる句読点の数を特徴量として追加する
df['response_a_punctuation_count'] = df['response_a'].apply(lambda x: sum([1 for char in x if char in string.punctuation]))
df['response_b_punctuation_count'] = df['response_b'].apply(lambda x: sum([1 for char in x if char in string.punctuation]))

# 言葉の多様性を示す特徴量を追加する
df['response_a_unique_words'] = df['response_a'].apply(lambda x: len(set(x.split())))
df['response_b_unique_words'] = df['response_b'].apply(lambda x: len(set(x.split())))

# ストップワードの比率を示す特徴量を追加する（例としてストップワードリストを使用）
stop_words = set(['the', 'and', 'is', 'in', 'at', 'of', 'it', 'to'])
df['response_a_stop_words_ratio'] = df['response_a'].apply(lambda x: len([word for word in x.lower().split() if word in stop_words]) / len(x.split()))
df['response_b_stop_words_ratio'] = df['response_b'].apply(lambda x: len([word for word in x.lower().split() if word in stop_words]) / len(x.split()))

# 文の最初の文字が大文字であるかを示す特徴量を追加する
df['response_a_startswith_upper'] = df['response_a'].apply(lambda x: 1 if x[0].isupper() else 0)
df['response_b_startswith_upper'] = df['response_b'].apply(lambda x: 1 if x[0].isupper() else 0)

# 応答の長さとその差を示す特徴量を追加する
df['response_a_length'] = df['response_a'].apply(len)
df['response_b_length'] = df['response_b'].apply(len)
df['response_length_difference'] = df['response_a_length'] - df['response_b_length']

# 勝者モデルの列を追加する
df['winner'] = df.apply(lambda row: 'model_a' if row['winner_model_a'] == 1 else 'model_b' if row['winner_model_b'] == 1 else 'tie', axis=1)

# モデル名の列を追加する
df['model_name'] = df.apply(lambda row: row['model_a'] if row['winner'] == 'model_a' else row['model_b'] if row['winner'] == 'model_b' else '', axis=1)

# One-hotエンコーディングを実施する
encoder = OneHotEncoder()
winner_encoded = encoder.fit_transform(df[['winner']])

# エンコードされた列をデータフレームに追加する
df_encoded = pd.concat([df, pd.DataFrame(winner_encoded.toarray(), columns=encoder.categories_[0])], axis=1)

# 結果を表示する

In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix

# データセットを準備するための関数
def prepare_data_for_ml(df):
    # 句読点のカウントを行う関数
    def count_punctuation(text):
        return sum(1 for char in str(text) if char in '.,;:?')

    # 新しい列を追加する
    df['response_a_punctuation_count'] = df['response_a'].apply(count_punctuation)
    df['response_b_punctuation_count'] = df['response_b'].apply(count_punctuation)
    df['response_b_startswith_upper'] = df['response_b'].apply(lambda x: int(str(x)[0].isupper()))
    df['response_a_length'] = df['response_a'].str.len() # 応答の長さを計算
    df['response_b_length'] = df['response_b'].str.len() # 応答の長さを計算
    df['response_length_difference'] = abs(df['response_a_length'] - df['response_b_length']) # 応答の長さの絶対差を計算

    # 勝者のエンコードされた列を作成
    le = LabelEncoder()
    df['winner_encoded'] = le.fit_transform(df['winner']) # 勝者情報を数値でエンコードする

    # モデル名の列を作成
    df['model_name'] = np.where(df['winner_model_a'] == 1, df['model_a'], df['model_b']) # 勝ったモデルを表示

    # カテゴリ変数をエンコードする
    categorical_columns = ['model_a', 'model_b', 'model_name']
    for col in categorical_columns:
        le = LabelEncoder()
        df[f'{col}_encoded'] = le.fit_transform(df[col]) # カテゴリ変数を数値にエンコードする

    # ブール値を0と1に変換
    df['model_a_win'] = df['winner'] == 'model_a'
    df['model_b_win'] = df['winner'] == 'model_b'
    df['winner_tie'] = df['winner'] == 'tie'
    df['tie'] = df['winner'] == 'tie'

    boolean_columns = ['response_b_startswith_upper', 'model_a_win', 'model_b_win', 'winner_tie', 'tie']
    for col in boolean_columns:
        df[col] = df[col].astype(int) # ブール値を整数に変換

    return df

# データセットを準備する
prepared_df = prepare_data_for_ml(df)

# 必要な列を選択し、欠損列を確認する
columns_to_keep = [
    'id', 'model_a', 'model_b', 'prompt', 'response_a', 'response_b',
    'winner', 'model_a_win', 'model_b_win', 'winner_tie',
    'response_a_punctuation_count', 'response_b_punctuation_count',
    'response_b_startswith_upper', 'response_a_length', 'response_b_length',
    'response_length_difference', 'winner_encoded',
    'model_name', 'tie', 'model_a_encoded', 'model_b_encoded', 'model_name_encoded'
]

prepared_df = prepared_df[columns_to_keep]

In [None]:
prepared_df.head()

In [None]:
# データを準備する
X = prepared_df[['response_a_punctuation_count', 'response_b_punctuation_count',
        'response_a_startswith_upper', 'response_b_startswith_upper',
        'response_a_length', 'response_b_length', 'response_length_difference']]
y = prepared_df['winner_encoded']  # LabelEncodedを使用してエンコードされたターゲット変数

# データをトレーニングセットとテストセットに分割する
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# データを標準化する
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train) # トレーニングデータを標準化
X_test_scaled = scaler.transform(X_test) # テストデータを標準化

# モデルをトレーニングする
model = RandomForestClassifier(random_state=42)
model.fit(X_train_scaled, y_train) # モデルをトレーニングデータでフィット

# モデルを使用して予測を行う
y_pred = model.predict(X_test_scaled) # テストデータで予測を行う

# 結果を評価する
print("混同行列:\n", confusion_matrix(y_test, y_pred)) # 混合の行列を显示
print("\n分類レポート:\n", classification_report(y_test, y_pred, target_names=['model_a', 'model_b', 'tie'])) # 各モデルのパフォーマンスを表示

In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix

# データセットを準備するための関数
def prepare_data_for_ml(df):
    # 句読点のカウントを行う関数
    def count_punctuation(text):
        return sum(1 for char in str(text) if char in '.,;!?') # 句読点の種類を数えます

    # 新しい列を追加する
    df['response_a_punctuation_count'] = df['response_a'].apply(count_punctuation) # モデルAの応答の句読点数
    df['response_b_punctuation_count'] = df['response_b'].apply(count_punctuation) # モデルBの応答の句読点数
    df['response_b_startswith_upper'] = df['response_b'].apply(lambda x: int(str(x)[0].isupper())) # モデルBの応答が大文字で始まるか
    df['response_a_startswith_upper'] = df['response_a'].apply(lambda x: int(str(x)[0].isupper())) # モデルAの応答が大文字で始まるか
    df['response_a_length'] = df['response_a'].str.len() # モデルAの応答の長さ
    df['response_b_length'] = df['response_b'].str.len() # モデルBの応答の長さ
    df['response_length_difference'] = abs(df['response_a_length'] - df['response_b_length']) # 長さの絶対値の差を計算

    # 勝者のエンコードされた列を作成
    le = LabelEncoder()
    df['winner_encoded'] = le.fit_transform(df['winner']) # 勝者をエンコードする

    # モデル名の列を作成
    df['model_name'] = np.where(df['winner_model_a'] == 1, df['model_a'], df['model_b']) # 勝者モデルの名前をつける

    # カテゴリ変数をエンコードする
    categorical_columns = ['model_a', 'model_b', 'model_name']
    for col in categorical_columns:
        le = LabelEncoder()
        df[f'{col}_encoded'] = le.fit_transform(df[col]) # カテゴリ変数を数値にエンコード

    # ブール値を0と1に変換
    df['model_a_win'] = df['winner'] == 'model_a' # モデルAが勝つ場合
    df['model_b_win'] = df['winner'] == 'model_b' # モデルBが勝つ場合
    df['winner_tie'] = df['winner'] == 'tie' # 引き分けかどうか
    df['tie'] = df['winner'] == 'tie' # 引き分けかどうかを示す

    boolean_columns = ['response_b_startswith_upper', 'response_a_startswith_upper', 'model_a_win', 'model_b_win', 'winner_tie', 'tie']
    for col in boolean_columns:
        df[col] = df[col].astype(int) # ブール値を整数型に変換

    return df

# データセットを準備する
prepared_df = prepare_data_for_ml(df)

# 必要な列を選択し、欠損列を確認する
columns_to_keep = [
    'id', 'model_a', 'model_b', 'prompt', 'response_a', 'response_b',
    'winner', 'model_a_win', 'model_b_win', 'winner_tie',
    'response_a_punctuation_count', 'response_b_punctuation_count',
    'response_b_startswith_upper', 'response_a_startswith_upper',  # response_a_startswith_upper を追加
    'response_a_length', 'response_b_length',
    'response_length_difference', 'winner_encoded',
    'model_name', 'tie', 'model_a_encoded', 'model_b_encoded', 'model_name_encoded'
]

prepared_df = prepared_df[columns_to_keep]

# データを準備する
X = prepared_df[['response_a_punctuation_count', 'response_b_punctuation_count',
        'response_a_startswith_upper', 'response_b_startswith_upper',
        'response_a_length', 'response_b_length', 'response_length_difference']]
y = prepared_df['winner_encoded']  # LabelEncodedを使用してエンコードされたターゲット変数

# データをトレーニングセットとテストセットに分割する
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# データを標準化する
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train) # トレーニングデータを標準化
X_test_scaled = scaler.transform(X_test) # テストデータを標準化

# モデルをトレーニングする
model = RandomForestClassifier(random_state=42)
model.fit(X_train_scaled, y_train) # モデルをトレーニングデータで適合

# モデルを使用して予測を行う
y_pred = model.predict(X_test_scaled) # テストデータで予測を行う

# 結果を評価する
print("混同行列:\n", confusion_matrix(y_test, y_pred)) # 混合行列を表示
print("\n分類レポート:\n", classification_report(y_test, y_pred, target_names=['model_a', 'model_b', 'tie'])) # モデルのパフォーマンスを表示

In [None]:
df['winner']  # 勝者の列を表示する

In [None]:
import pandas as pd
import numpy as np
import string
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.ensemble import RandomForestClassifier
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.impute import SimpleImputer

In [None]:
# 勝者モデルをエンコードする
label_encoder = LabelEncoder()
df['winner_encoded'] = label_encoder.fit_transform(df['winner']) # 勝者のラベルを数値にエンコードする

# 数値特徴量とテキスト特徴量の列を分ける
numeric_features = [
    'response_a_punctuation_count', 'response_b_punctuation_count',
    'response_a_unique_words', 'response_b_unique_words',
    'response_a_stop_words_ratio', 'response_b_stop_words_ratio',
    'response_a_length', 'response_b_length', 'response_length_difference'
]

text_features = ['prompt', 'response_a', 'response_b']

# ColumnTransformerを作成する
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), numeric_features), # 数値特徴量を標準化する
        ('text', 'passthrough', text_features)  # テキスト特徴量はそのまま通過させる
    ])

# データをX（特徴量）とy（ターゲット変数）に分ける
X = df[numeric_features + text_features]
y = df['winner_encoded']

# トレーニングセットとテストセットを作成する
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# パイプラインを作成する
pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('classifier', RandomForestClassifier(random_state=42)) # ランダムフォレストモデルを使用する
])

# モデルを訓練する
pipeline.fit(X_train, y_train)

# テストセットでモデルを評価する
accuracy = pipeline.score(X_test, y_test)
print(f"モデルの精度: {accuracy}") # モデルの精度を表示する

In [None]:
import pandas as pd

# CSVファイルを読み込む
train_df = pd.read_csv('/kaggle/input/lmsys-chatbot-arena/train.csv')
test_df = pd.read_csv('/kaggle/input/lmsys-chatbot-arena/test.csv')

# データを結合する
df = pd.concat([train_df, test_df], ignore_index=True)

# 結果を確認する
df.head() # 結合したデータの最初の数行を表示する

In [None]:
df.shape # データフレームの形状を表示する

In [None]:
len(df.id) # データフレームのIDの数を表示する

In [None]:
df.info() # データフレームの情報を表示する

In [None]:
winner_counts = {
    'model_a': df['winner_model_a'].value_counts(), # model_aの勝者数をカウントする
    'model_b': df['winner_model_b'].value_counts(), # model_bの勝者数をカウントする
    'tie': df['winner_tie'].sum() # 引き分けの合計をカウントする
}

print(winner_counts) # 勝者のカウントを表示する

In [None]:
# winner_model_aとwinner_model_bがともに0である行をフィルタリングする
zero_winner_df = df[(df['winner_model_a'] == 1.0) & (df['winner_model_b'] == 1.0)].astype("float64")

In [None]:
# winner_model_aが1である行をフィルタリングする
model_a_winner_df = df[df['winner_model_a'] == 1.0]

# winner_model_bが1である行をフィルタリングする
model_b_winner_df = df[df['winner_model_b'] == 1.0]

# 1である行におけるmodel_aとmodel_bの最も多く出現する値を取得する
model_a_counts = model_a_winner_df['model_a'].value_counts() # model_aの出現回数をカウント
model_b_counts = model_b_winner_df['model_b'].value_counts() # model_bの出現回数をカウント

print("model_aの最も多く出現する値 (combined):")
print(model_a_counts.head()) # model_aで最も多く出現する値の上位を表示

print("\nmodel_bの最も多く出現する値 (combined):")
print(model_b_counts.head()) # model_bで最も多く出現する値の上位を表示

In [None]:
# model_a列での最も多く出現する応答を取得する
response_a_counts = model_a_winner_df['response_a'].value_counts() # model_aの応答の出現回数をカウント
response_b_counts = model_b_winner_df['response_b'].value_counts() # model_bの応答の出現回数をカウント

In [None]:
# response_a列での最も多く出現する応答を取得し、勝者モデルに基づいてグループ分けする
response_a_counts_df = model_a_winner_df.groupby(['model_a', 'prompt']).size().reset_index(name='count') # model_aの応答をグループ化
# response_b列での最も多く出現する応答を取得し、勝者モデルに基づいてグループ分けする
response_b_counts_df = model_b_winner_df.groupby(['model_b', 'prompt']).size().reset_index(name='count') # model_bの応答をグループ化

print("response_aの最も多く出現する値 (combined):")
print(response_a_counts_df.head()) # model_aの最も多く出現する応答の上位を表示

print("\nresponse_bの最も多く出現する値 (combined):")
print(response_b_counts_df.head()) # model_bの最も多く出現する応答の上位を表示

In [None]:
response_a_counts_df # model_aの応答の出現回数データフレームを表示する

In [None]:
top_models = ['gpt-4-1106-preview', 'gpt-4-0613', 'gpt-3.5-turbo-0613', 'gpt-4-0314'] # 最も高性能なモデルのリスト

In [None]:
# 各モデルの最も多く出現する10の応答を取得する
for model in top_models:
    print(f"\nモデル: {model} - 最も多く出現する10の応答 (response_a):")
    top_responses_a = response_a_counts_df[response_a_counts_df['model_a'] == model].sort_values(by='count', ascending=False).head(10) # 出現回数でソートして上位10を取得
    print(top_responses_a)

    print(f"\nモデル: {model} - 最も多く出現する10の応答 (response_b):")
    top_responses_b = response_b_counts_df[response_b_counts_df['model_b'] == model].sort_values(by='count', ascending=False).head(10) # 出現回数でソートして上位10を取得
    print(top_responses_b)

In [None]:
# 勝者モデルの名前を決定し、新しい列を作成する関数
def determine_winner(row):
    if row['winner_model_a'] == 1.0:
        return row['model_a'] # model_aが勝者の場合
    elif row['winner_model_b'] == 1.0:
        return row['model_b'] # model_bが勝者の場合
    else:
        return 'tie' # 引き分けの場合

# 勝者列を作成する
df['winner'] = df.apply(determine_winner, axis=1)

# promptとwinner列のみを取得し、グループ化する
grouped_df = df[['prompt', 'winner']].groupby('prompt')['winner'].apply(list).reset_index() # 各promptに対する勝者をリスト化する

# CSVとして出力する
grouped_df.to_csv('prompt_winners.csv', index=False) # 結果をCSVファイルとして保存する

print("CSVファイルが正常に作成されました: 'prompt_winners.csv'") # メッセージ表示

In [None]:
prompt = pd.read_csv("/kaggle/working/prompt_winners.csv") # 作成したCSVファイルを読み込む
prompt.groupby("winner").count().reset_index().head(20) # 勝者ごとのカウントを表示する

In [None]:
# 勝者モデルに基づいてpromptをグループ化し、最も多く出現するものを見つける
winner_counts = prompt.explode('winner').groupby('winner').size().reset_index(name='count') # 各勝者の出現回数を集計する
winner_counts = winner_counts.sort_values(by='count', ascending=False) # 出現回数でソートする

# CSVとして出力する
winner_counts.to_csv('prompt_top_winners.csv', index=False) # 出現回数をCSVファイルとして保存する

print("CSVファイルが正常に作成されました: 'prompt_top_winners.csv'") # メッセージ表示

In [None]:
winner_counts.head(20) # 出現回数の上位20を表示する

In [None]:
# promptと勝者モデルの情報で出力を作成する
prompt_winners = df.groupby(['winner', 'prompt']).sum().reset_index() # 勝者とpromptでグループ化

prompt_winners # 結果を表示する

In [None]:
top_prompt = pd.read_csv("/kaggle/working/prompt_top_winners.csv") # 先程作成したCSVファイルを読み込む
top_prompt.head(20) # 最も多く出現する勝者の情報を表示する

In [None]:
# 'tie'の場合のresponse_aとresponse_bの値をグループ化して出力する
tie_responses = df[df['winner'] == 'tie'].groupby(['response_a', 'response_b']).sum().reset_index()[['response_a', 'response_b',"prompt"]] # 引き分けの応答をグループ化

tie_responses # 引き分けの応答を表示する

In [None]:
def determine_winner_and_loser(row):
    if row['winner_model_a'] == 1.0:
        winner = row['model_a'] # 勝者はmodel_a
        loser = row['model_b'] # 敗者はmodel_b
        winner_response = row['response_a'] # 勝者の応答はresponse_a
        loser_response = row['response_b'] # 敗者の応答はresponse_b
    elif row['winner_model_b'] == 1.0:
        winner = row['model_b'] # 勝者はmodel_b
        loser = row['model_a'] # 敗者はmodel_a
        winner_response = row['response_b'] # 勝者の応答はresponse_b
        loser_response = row['response_a'] # 敗者の応答はresponse_a
    else:
        winner = 'tie' # 引き分けの場合
        loser = 'tie' # 敗者も引き分け
        winner_response = '' # 勝者の応答は空
        loser_response = '' # 敗者の応答も空
    
    return pd.Series([winner, loser, len(winner_response), len(loser_response)], index=['winner', 'loser', 'winner_response_length', 'loser_response_length'])

# 勝者と敗者の列を作成する
winner_loser_lengths = df.apply(determine_winner_and_loser, axis=1) # 勝者と敗者の情報を取得

# 以前のデータフレームに追加して新しいデータフレームを作成する
prompt_df = pd.concat([df[['prompt']], winner_loser_lengths], axis=1) # promptと勝者・敗者情報を結合する

prompt_df.head(20) # 結果を表示する

In [None]:
# CSVファイルを読み込む
train_df = pd.read_csv('/kaggle/input/lmsys-chatbot-arena/train.csv')
test_df = pd.read_csv('/kaggle/input/lmsys-chatbot-arena/test.csv')

# データを結合する
df = pd.concat([train_df, test_df], ignore_index=True) # トレーニングデータとテストデータを結合する

In [None]:
train_df # トレーニングデータフレームを表示する

In [None]:
df # 結合されたデータフレームを表示する

In [None]:
# Polars DataFrameを作成する
import polars as pl
from textblob import TextBlob
import numpy as np

In [None]:
import polars as pl
import numpy as np
from textblob import TextBlob

# Polars DataFrameを作成する
df = pl.DataFrame(df)

# 感情分析とエラー数カウントの関数を定義
def batch_analyze_sentiment(texts):
    return np.array([TextBlob(text).sentiment.polarity for text in texts]) # 各テキストの感情極性を取得

def batch_count_errors(texts):
    return np.array([text.lower().count('error') for text in texts]) # 各テキストでの"error"の数をカウント
    
# 新しい列を作成する
df = df.with_columns([
    pl.col('response_a').str.lengths().alias('response_a_length'), # response_aの長さを計算
    pl.col('response_b').str.lengths().alias('response_b_length'), # response_bの長さを計算
    (pl.col('response_a').str.lengths() - pl.col('response_b').str.lengths()).abs().alias('response_length_difference'), # 長さの差を正の絶対値にする
])

# 感情分析とエラー数計数のために最初の100行を処理
if len(df) > 0:
    n_rows = min(100, len(df)) # 処理する行数を決定
    
    sentiment_a = batch_analyze_sentiment(df['response_a'].head(n_rows).to_numpy()) # response_aの感情分析
    sentiment_b = batch_analyze_sentiment(df['response_b'].head(n_rows).to_numpy()) # response_bの感情分析
    errors_a = batch_count_errors(df['response_a'].head(n_rows).to_numpy()) # response_aのエラー数をカウント
    errors_b = batch_count_errors(df['response_b'].head(n_rows).to_numpy()) # response_bのエラー数をカウント

    # 新しい列を追加
    df = df.with_columns([
        pl.Series('sentiment_a', sentiment_a).extend(pl.Series([None] * (len(df) - n_rows))), # sentiment_aの列を追加
        pl.Series('sentiment_b', sentiment_b).extend(pl.Series([None] * (len(df) - n_rows))), # sentiment_bの列を追加
        pl.Series('errors_a', errors_a).extend(pl.Series([None] * (len(df) - n_rows))), # errors_aの列を追加
        pl.Series('errors_b', errors_b).extend(pl.Series([None] * (len(df) - n_rows))), # errors_bの列を追加
    ])

# 勝者と敗者の列を作成する（古いバージョンとの互換性）
df = df.with_columns([
    pl.when(pl.col('sentiment_a') > pl.col('sentiment_b')) # sentiment_aが大きければ
      .then(pl.col('response_a')) # winner_sentimentはresponse_a
      .when(pl.col('sentiment_a') <= pl.col('sentiment_b')) # sentiment_aが小さければ
      .then(pl.col('response_b')) # winner_sentimentはresponse_b
      .alias('winner_sentiment'), # 列名を設定
    pl.when(pl.col('sentiment_a') < pl.col('sentiment_b')) # sentiment_aが小さければ
      .then(pl.col('response_a')) # loser_sentimentはresponse_a
      .when(pl.col('sentiment_a') >= pl.col('sentiment_b')) # sentiment_aが大きければ
      .then(pl.col('response_b')) # loser_sentimentはresponse_b
      .alias('loser_sentiment') # 列名を設定
])

df # 結果を表示する