Search 이외 임베딩 활용 방법을 알려 드립니다
- ABC news topic modeling
    - Clustering
    - 정보의 다양성 측정
    - Outlier detection

    
=> VectorDB에 저장하고자 하는 컨텐츠에 대한 검수 및 전처리

---

In [None]:
import pandas as pd
import os
import json
import openai
from openai import OpenAI
import numpy as np
from tqdm.notebook import tqdm, trange
from sklearn.cluster import KMeans
from utils import create_embeddings

# initialize openai
os.environ['OPENAI_API_KEY']= "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"
openai.api_key = os.environ["OPENAI_API_KEY"]

# How To (ABC News)

## 1. Clustering
- 2020년에 어떤 주제들의 뉴스들이 있었을까?
##### => __각 문서의 주제 탐색 / 유사 문서 그룹핑__

In [None]:
df = pd.read_csv("abcnews_2020.csv")

(비용 발생 주의) batch 별로 embedding화

In [None]:
batch_size = 2000
headline_emb = list()

headline = df['headline_text'].tolist()

for i in trange(0, len(headline), batch_size):
    i_end = min(len(headline), i+batch_size)
    data_batch = headline[i:i_end]

    tmp_emb = create_embeddings(data_batch)
    headline_emb.extend(tmp_emb)

In [None]:
df['headline_emb'] = headline_emb

In [None]:
# df.head()

In [None]:
# df.to_csv("abcnews_2020_emb.csv", index=False)

k-means를 활용하여 주요 토픽별 cluster 생성

<img src="https://static.javatpoint.com/tutorial/machine-learning/images/k-means-clustering-algorithm-in-machine-learning.png" width="500" height="300"/>
<br>
출처 : https://static.javatpoint.com/tutorial/machine-learning/images/k-means-clustering-algorithm-in-machine-learning.png

In [None]:
df = pd.read_csv("abcnews_2020_emb.csv")

In [None]:
df.head()

In [None]:
type(df.loc[0, 'headline_emb'])

In [None]:
df['headline_emb'] = df['headline_emb'].apply(json.loads)

In [None]:
type(df.loc[0, 'headline_emb'])

In [None]:
df.head(2)

In [None]:
clusters = KMeans(n_clusters=15, random_state=0).fit_predict(df['headline_emb'].tolist())
df['cluster'] = clusters

In [None]:
df.head(2)

In [None]:
df.loc[df['cluster']==1]

## 2. 정보의 다양성 (Diversity) 측정

- 각 클러스터 내에 있는 뉴스들은 얼마나 유사한 정보를 담고 있을까?

In [None]:
from sklearn.metrics.pairwise import cosine_similarity

def calculate_diversity(df, column_name):
    """
    Calculates the diversity of a set of embeddings based on cosine distance.
    
    :param embeddings: NumPy array of embeddings
    :return: The average cosine distance between embeddings, higher means more diverse
    """
    # 각각의 임베딩끼리 모두 pairwise cosine similarity를 계산
    embeddings = np.vstack(df[column_name])
    cosine_sim = cosine_similarity(embeddings)
    
    # self-comparisons (diagonal elements)를 제외하고 cosine similarity 계산
    np.fill_diagonal(cosine_sim, np.nan) # 본인과의 similarity는 제외
    avg_distance = np.nanmean(cosine_sim)
    
    return cosine_sim, avg_distance


In [None]:
dist, avg = calculate_diversity(df, 'headline_emb')

In [None]:
avg

In [None]:
diversity_score = {k:calculate_diversity(df.loc[df['cluster']==k], 'headline_emb')[1] for k in range(0, 15)}

In [None]:
diversity_score

In [None]:
df.loc[df['cluster']==7]

## 4. Outlier detection
- 각 클러스터 내에 속하지 않는 정보들이 있을까?

<img src="https://miro.medium.com/v2/resize:fit:725/1*y3wXEId0poYUIzCD3HBh4w.png"/>
<br>
출처 : https://miro.medium.com/v2/resize:fit:725/1*y3wXEId0poYUIzCD3HBh4w.png

In [None]:
from sklearn.ensemble import IsolationForest

In [None]:
cluster = df.loc[df['cluster']==10]

In [None]:
iso_forest = IsolationForest(contamination=0.05)  # Adjust contamination as needed
anomalies = iso_forest.fit_predict(cluster['headline_emb'].tolist())

anomalous_headlines = np.array(cluster['headline_text'].tolist())[anomalies == -1]
# print("Anomalous Headlines:", anomalous_headlines)

In [None]:
anomalies

In [None]:
anomalous_headlines

단순히 텍스트를 embedding화 하는 것에서 더 나아가, <br>
텍스트를 특징별로 묶거나 유관하지 않다고 판단되는 텍스트는 제외하는 등, 컨텐츠 자체를 preprocessing/탐색 하는데에 활용 가능

--END--