almost weekly useful materials - 03/13 - #148

GENZITSU · 2024-03-06T00:41:35Z

No description provided.

GENZITSU · 2024-03-08T12:10:22Z

独立成分分析（ICA）を使ってText Embeddingを分析してみた

解釈性の高い次元圧縮手法であるICAを元論文の単語ではなく文章に用いて文章のカテゴリングをしている記事

概要

景気ウォッチャーの「街角の景況感を判断するためのアンケート調査」データを対象に実施

OpenAIの「text-embedding-3-small」を利用

FastICAを用いて成分を抽出

# パラメータは論文内で指定されているものを参考にICAが収束したものを選択
ica = FastICA(n_components=n_components, random_state=42, max_iter=10000, tol=1e-3)
embeds_ica = ica.fit_transform(embeds)

df_ica = pd.DataFrame(embeds_ica)
skewness = skew(df_ica)
# 今回は正方向の独立成分を扱うため、歪度の大きい向きを正方向にしたい
# そこで、論文に従って歪度が負の軸を反転させている
df_ica *= np.sign(skewness)
df_ica.shape
>> (14818, 30)

独立成分の値に閾値を設けてカテゴリラベルを付与

そこからgpt-3.5-turboを用いて各カテゴリのラベル名を推定させる

また付与したラベルを用いて対応分析などをすることで、どのカテゴリがどれに影響を与えいるかの分析が可能

出典

GENZITSU · 2024-03-08T12:30:23Z

GPT開発の悩みの種「速度」「精度」「評価」の壁をどう超えるか

MSのGAMOさんのスライド

勉強になったところ

出典

GPT開発の悩みの種「速度」「精度」「評価」の壁をどう超えるか

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

almost weekly useful materials - 03/13 - #148

almost weekly useful materials - 03/13 - #148

GENZITSU commented Mar 6, 2024

GENZITSU commented Mar 8, 2024 •

edited

GENZITSU commented Mar 8, 2024 •

edited

almost weekly useful materials - 03/13 - #148

almost weekly useful materials - 03/13 - #148

Comments

GENZITSU commented Mar 6, 2024

GENZITSU commented Mar 8, 2024 • edited

独立成分分析（ICA）を使ってText Embeddingを分析してみた

概要

コメント

出典

GENZITSU commented Mar 8, 2024 • edited

GPT開発の悩みの種「速度」「精度」「評価」の壁をどう超えるか

勉強になったところ

コメント

出典

GENZITSU commented Mar 8, 2024 •

edited

GENZITSU commented Mar 8, 2024 •

edited