In [None]:
# 必要なライブラリをインポート
import numpy as np
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression, Ridge

import torch
import torch.nn.functional as F

from torch import Tensor
from transformers import AutoTokenizer, AutoModel

from typing_extensions import Self

# LIMEをインポート
from lime import lime_text
from lime.lime_text import LimeTextExplainer

# e5 embeddings を初期化
# d = e5.load("xl/bert-base-uncased-3-embeddings")
tokenizer = AutoTokenizer.from_pretrained("intfloat/multilingual-e5-large")
model = AutoModel.from_pretrained("intfloat/multilingual-e5-large")

# テキストデータをロード
texts = [
    "This is a great movie.",
    "The acting was terrible in this film.",
    "I loved the soundtrack of this picture.",
    # ...他のテキストデータ
]

# ターゲット変数をロード (分類の場合はクラスラベル、回帰の場合は数値など)
targets = [1, 0, 1, ...]

# パイプラインを構築 (embeddingとモデル)
pipe = Pipeline(
    [
        ("embed", d.embed),
        ("model", LogisticRegression()),  # 分類の場合
        # ('model', Ridge())  # 回帰の場合
    ]
)

# モデルを学習
pipe.fit(texts, targets)

# LIMEのインスタンスを作成
explainer = LimeTextExplainer(class_names=["Negative", "Positive"])  # 分類の場合

# テキストごとに解釈性を分析
for text in texts[:5]:  # 先頭5件を例として使用
    exp = explainer.explain_instance(text, pipe.predict_proba, num_features=6)
    print(f"Text: {text}")
    print(exp.as_list())
    print("\n")