In [13]:
!pip install openai



In [12]:
import openai
import pandas as pd
import numpy as np
import os

# OpenAI API 키 설정
os.environ['OPENAI_API_KEY'] = ""
openai.api_key = os.environ['OPENAI_API_KEY']

# CSV 파일 경로
file_path = "lecture_embedding.csv"

# 데이터 읽기
df = pd.read_csv(file_path)

# 임베딩 생성 함수
def get_openai_embedding(text):
    """OpenAI API를 사용해 텍스트 임베딩 생성"""
    try:
        response = openai.Embedding.create(
            model="text-embedding-ada-002",  # 최신 임베딩 모델
            input=text
        )
        return response['data'][0]['embedding']  # 새로운 방식으로 임베딩 반환
    except Exception as e:
        print(f"임베딩 생성 오류: {e}")
        return None

# 결과 저장 딕셔너리
embedding_results = {
    "ids": [],
    "embeddings": []
}

# 데이터프레임 순회하며 임베딩 생성
for index, row in df.iterrows():
    mcode = row['mcode']  # ID 컬럼
    l_title = str(row['l_title']).strip()  # 제목 컬럼
    u_title = str(row['u_title']).strip()  # 부제목 컬럼

    # 두 컬럼의 텍스트 결합
    combined_text = f"{l_title} {u_title}"

    # 현재 처리 중인 텍스트 출력
    print(f"Processing index {index}: {combined_text}")

    # 임베딩 생성
    embedding = get_openai_embedding(combined_text)
    if embedding:
        embedding_results["ids"].append(mcode)
        embedding_results["embeddings"].append(embedding)
        print(f"Embedding for index {index} generated successfully.")
    else:
        print(f"Embedding for index {index} failed.")

# 결과 저장
output_file = "lecture_embeddings_openai.npy"
np.save(output_file, embedding_results)
print(f"임베딩 결과가 {output_file}에 저장되었습니다.")


Processing index 0: ['1, 2, 3, 4, 5 알아보기'] ['1. 9까지의 수']
Embedding for index 0 generated successfully.
Processing index 1: ['6, 7, 8, 9 알아보기'] ['1. 9까지의 수']
Embedding for index 1 generated successfully.
Processing index 2: ['순서 알아보기/수의 순서 알아보기'] ['1. 9까지의 수']
Embedding for index 2 generated successfully.
Processing index 3: ['1만큼 더 큰 수와 1만큼 더 작은 수/수의 크기 비교하기'] ['1. 9까지의 수']
Embedding for index 3 generated successfully.
Processing index 4: ['1, 2, 3, 4, 5를 알아볼까요'] ['1. 9까지의 수']
Embedding for index 4 generated successfully.
Processing index 5: ['6, 7, 8, 9를 알아볼까요'] ['1. 9까지의 수']
Embedding for index 5 generated successfully.
Processing index 6: ['순서를 알아볼까요'] ['1. 9까지의 수']
Embedding for index 6 generated successfully.
Processing index 7: ['수의 순서를 알아볼까요'] ['1. 9까지의 수']
Embedding for index 7 generated successfully.
Processing index 8: ['1만큼 더 큰 수와 1만큼 더 작은 수를 알아볼까요'] ['1. 9까지의 수']
Embedding for index 8 generated successfully.
Processing index 9: ['수의 크기를 비교해 볼까요'] ['1. 9까지의 수']
Embedding for

In [21]:
import numpy as np

# 저장된 파일 로드
embeddings = np.load('lecture_embeddings_openai.npy', allow_pickle=True)

# 데이터 내용 출력
print(f"데이터 타입: {type(embeddings)}")
print(f"데이터 내용: {embeddings}")


데이터 타입: <class 'numpy.ndarray'>
데이터 내용: {'ids': ['T1ME11U01001', 'T1ME11U01002', 'T1ME11U01003', 'T1ME11U01004', 'T1ME11U01006', 'T1ME11U01007', 'T1ME11U01008', 'T1ME11U01009', 'T1ME11U01010', 'T1ME11U01012', 'T1ME11U01064', 'T1ME11U02001', 'T1ME11U02002', 'T1ME11U02003', 'T1ME11U02008', 'T1ME11U03001', 'T1ME11U03002', 'T1ME11U03003', 'T1ME11U03004', 'T1ME11U03005', 'T1ME11U03006', 'T1ME11U03007', 'T1ME11U03008', 'T1ME11U04001', 'T1ME11U04002', 'T1ME11U04003', 'T1ME11U04004', 'T1ME11U05001', 'T1ME11U05002', 'T1ME11U05003', 'T1ME11U05004', 'T1ME11U05005', 'T1ME21U01001', 'T1ME21U01002', 'T1ME21U01003', 'T1ME21U01004', 'T1ME21U01006', 'T1ME21U01007', 'T1ME21U01008', 'T1ME21U01009', 'T1ME21U01010', 'T1ME21U01011', 'T1ME21U02001', 'T1ME21U02002', 'T1ME21U02003', 'T1ME21U02004', 'T1ME21U03001', 'T1ME21U03002', 'T1ME21U03003', 'T1ME21U03004', 'T1ME21U03005', 'T1ME21U03006', 'T1ME21U03007', 'T1ME21U04001', 'T1ME21U04002', 'T1ME21U05001', 'T1ME21U05002', 'T1ME21U06001', 'T1ME21U06002', 'T1ME21

In [26]:
import numpy as np

# 저장된 .npy 파일 불러오기
file_path = "lecture_embeddings_openai.npy"  # 저장된 파일 경로
embedding_dict = np.load(file_path, allow_pickle=True).item()  # 딕셔너리로 로드

# 전체 데이터 확인
print(f"총 임베딩 개수: {len(embedding_dict)}")

# 특정 인덱스의 임베딩 가져오기
index = 'T1ME11U03006'  # 확인하려는 인덱스
embedding = embedding_dict.get(index, None)

if embedding is not None:
    print(f"Index {index}의 임베딩 크기: {embedding.shape}")
    print(f"Index {index}의 임베딩 값:\n{embedding}")
else:
    print(f"Index {index}에 해당하는 임베딩이 없습니다.")


총 임베딩 개수: 2
Index T1ME11U03006에 해당하는 임베딩이 없습니다.


In [28]:
import numpy as np

# 저장된 파일 로드
file_path = "lecture_embeddings_openai.npy"
data = np.load(file_path, allow_pickle=True)

# 딕셔너리로 변환
data_dict = data.item()

# ids와 embeddings 분리
ids = data_dict['ids']
embeddings = data_dict['embeddings']

# 데이터 확인
print(f"총 ID 개수: {len(ids)}")
print(f"임베딩 개수: {len(embeddings)}")
print(f"임베딩 차원: {len(embeddings[0]) if embeddings else 'No embeddings available'}")

# 특정 ID의 임베딩 확인
target_id = "T1ME11U01002"  # 원하는 ID
if target_id in ids:
    index = ids.index(target_id)  # ID에 해당하는 인덱스
    print(f"ID {target_id}의 임베딩:\n{embeddings[index]}")
else:
    print(f"ID {target_id}에 해당하는 임베딩이 없습니다.")



총 ID 개수: 60
임베딩 개수: 60
임베딩 차원: 1536
ID T1ME11U01002의 임베딩:
[-0.011153735220432281, -0.02023845538496971, 0.019903333857655525, -0.021884925663471222, -0.021229250356554985, 0.019801339134573936, -0.03278367593884468, -0.01607128605246544, -0.03596004843711853, 0.001192050869576633, -0.008545611053705215, 0.013026047497987747, -0.03520238399505615, -0.0018440817948430777, 0.007999217137694359, 0.024755317717790604, 0.006287180352956057, -0.014126121066510677, -0.01436653546988964, -0.011547138914465904, -0.01709122210741043, 0.007372684311121702, -0.005121538415551186, -0.00105089892167598, -0.016085857525467873, 0.006982923019677401, 0.0036790568847209215, -0.01894167996942997, -0.010308644734323025, 0.002708295825868845, 0.03141404688358307, -0.017353491857647896, -0.006505738478153944, -0.0264163576066494, -0.010753045789897442, 0.019553640857338905, -0.007296189200133085, -0.003668128978461027, 0.026226939633488655, -0.0030270260758697987, 0.010636481456458569, -0.008013787679374218,

In [30]:
import numpy as np
from sklearn.decomposition import PCA

# 1. 임베딩 데이터 로드
file_path = "lecture_embeddings_openai.npy"
data = np.load(file_path, allow_pickle=True).item()

# 2. 임베딩 데이터 추출
embeddings = np.array(data['embeddings'])  # 임베딩 배열
print(f"임베딩 shape: {embeddings.shape}")

# 3. PCA 수행
pca = PCA()
pca.fit(embeddings)

# 4. 설명 분산 비율 계산
explained_variance_ratio = pca.explained_variance_ratio_
cumulative_variance = np.cumsum(explained_variance_ratio)

# 5. 90% 이상의 누적 분산을 설명하는 최소 차원 수 계산
optimal_dimension_90 = np.argmax(cumulative_variance >= 0.9) + 1

# 결과 출력
print(f"누적 분산: {cumulative_variance}")
print(f"90% 이상의 누적 분산을 설명하는 차원 수: {optimal_dimension_90}")


임베딩 shape: (60, 1536)
누적 분산: [0.18768156 0.33489173 0.42774121 0.48989782 0.53872973 0.58394079
 0.62089452 0.65414009 0.6864327  0.71567995 0.74002044 0.76091274
 0.7788387  0.79559183 0.81127477 0.82586709 0.83957769 0.85172003
 0.86300317 0.87342615 0.88306397 0.89226097 0.90007657 0.90773041
 0.91476728 0.92108599 0.92721616 0.93302301 0.93868172 0.94410099
 0.94913444 0.95388169 0.95818598 0.96208492 0.96587994 0.96928426
 0.97232067 0.9752326  0.97768061 0.98004194 0.98228336 0.98447578
 0.98628547 0.98800966 0.98955715 0.99095224 0.99224421 0.99338245
 0.99445868 0.99547581 0.99639421 0.99720882 0.99800202 0.99855377
 0.99898984 0.99934017 0.99965657 0.99986916 1.         1.        ]
90% 이상의 누적 분산을 설명하는 차원 수: 23


In [32]:
from sklearn.decomposition import PCA
import numpy as np
from sklearn.preprocessing import normalize

# 1. 임베딩 딕셔너리 로드
embeddings_dict = np.load("lecture_embeddings_openai.npy", allow_pickle=True).item()

# 2. 데이터 추출
f_mchapter_ids = embeddings_dict['ids']  # 키: ID 리스트
embeddings = np.array(embeddings_dict['embeddings'])  # 값: 임베딩 배열
print(f"원본 임베딩 shape: {embeddings.shape}")

# 3. 정규화 (L2 정규화)
normalized_embeddings = normalize(embeddings, axis=1)  # 각 행을 정규화
print(f"정규화된 임베딩 shape: {normalized_embeddings.shape}")

# 4. PCA 적용 (23차원으로 축소)
pca = PCA(n_components=23)
final_reduced_embeddings = pca.fit_transform(normalized_embeddings)
print(f"PCA 적용 후 임베딩 shape: {final_reduced_embeddings.shape}")

# 5. 축소된 데이터 저장
output_file = "reduced_lecture_embeddings_23.npy"
np.save(output_file, {"ids": f_mchapter_ids, "embeddings": final_reduced_embeddings.tolist()})
print(f"PCA 적용 후 23차원으로 축소된 결과를 {output_file}에 저장했습니다.")

# 6. 저장된 데이터 확인
node_features = np.load(output_file, allow_pickle=True).item()
print("축소된 데이터 타입:", type(node_features))
print("데이터의 키:", node_features.keys())
print("첫 번째 중단원의 임베딩:", node_features['embeddings'][0])


원본 임베딩 shape: (60, 1536)
정규화된 임베딩 shape: (60, 1536)
PCA 적용 후 임베딩 shape: (60, 23)
PCA 적용 후 23차원으로 축소된 결과를 reduced_lecture_embeddings_23.npy에 저장했습니다.
축소된 데이터 타입: <class 'dict'>
데이터의 키: dict_keys(['ids', 'embeddings'])
첫 번째 중단원의 임베딩: [-0.13858413606340947, -0.09395869190764769, -0.1142457569781688, 0.08082359630883164, -0.06381934058492253, -0.019941505417812755, 0.08208730571371921, 0.08218727493139667, 0.1058757105164456, 0.07834404066749626, -0.13062563050260578, -0.021516030562426527, 0.025965099444126487, -0.012143636865225894, 0.027123614807393757, -0.01704841803582545, 0.0011397782325474274, -0.020355168618992482, -0.018303428865300092, 0.046888047167228254, -0.024920956483559246, -0.005597129296978141, -0.04249061784042566]
