## AzureOpenAIのセットアップ 

In [4]:
from openai import AzureOpenAI

client = AzureOpenAI(
    api_key="",
    api_version="2024-06-01",
    azure_endpoint=""    
)

## 文章をベクトル化する関数の作成

In [14]:
def get_embeddings(text: str):
    # 3072 次元にテキストを埋め込む
    embedding_response = client.embeddings.create(
        input=text,
        model="text-embedding-3-large"
    )
    return embedding_response.data[0].embedding

## 実際に文章をベクトル化してみる

In [None]:
import pandas as pd

# ニュースタイトルのリスト
news_title_list = [
    # 不動産市場に関するニュース
    "東京の不動産市場、2024年の成長予測発表",
    "2024年、東京の不動産価格が急騰する見込み",
    "新たな報告書によると、東京の不動産市場が成長中",
    # AI に関するニュース
    "AI技術の進化、次世代ロボットが登場",
    "AI とロボット技術の進化、2025年の未来予測",
    # 気候変動に関するニュース
    "気候変動による海面上昇、2025年までに深刻化",
]

df_embeddings = pd.DataFrame([get_embeddings(title) for title in news_title_list])
df_embeddings

## ベクトルから t-SNE で次元削減して可視化

In [None]:
# t-sne で次元削減して可視化
from sklearn.manifold import TSNE
import matplotlib.pyplot as plt

tsne = TSNE(n_components=2, random_state=0, perplexity=2)
tsne_embeddings = tsne.fit_transform(df_embeddings)

plt.figure(figsize=(10, 10))
plt.scatter(tsne_embeddings[:, 0], tsne_embeddings[:, 1], s=200)
for i, title in enumerate(news_title_list):
    plt.annotate(title, (tsne_embeddings[i, 0], tsne_embeddings[i, 1]), fontsize=16)
plt.show()