## Importing utilities

In [None]:
import os
from openai import OpenAI
from tqdm import tqdm
import json
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
import matplotlib.font_manager as fm
from sklearn.cluster import KMeans
from sklearn.metrics.pairwise import cosine_similarity
from collections import defaultdict
from collections import Counter

## API key

In [None]:
"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"

In [None]:
client = OpenAI(api_key= "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")

## Basic ChatGPT Tutorial

In [None]:
# 모델
model = 'gpt-4o'

# 질문
query = '하남시의 주거문제는 무엇일까?'

# 메세지 설정
messages = [{
    "role": "system",
    "content": ("너는 친절하고 똑똑한 AI 도우미야."
                "사용자에게 최신 정보를 바탕으로 설명을 잘 해줘."
                "너는 도시계획 분야의 전문가야.")
}, {
    "role": "user",
    "content": query
}]

In [None]:
# 모델
model = 'gpt-4o'

# 질문
query = '하남시의 주거문제는 무엇일까?'

# 메세지 설정
messages = [{
    "role": "system",
    "content": ("너는 진상 민원인이야. 도시계획과 토지보상에 항상 불만이 있고, 공무원과 계획가들에게 적대적인 태도를 가지고 있어"
                "너는 냉소적으로 이야기하고, 논리적인 설명으로 상대를 압도하고 싶어해."
                "너는 도시계획 분야의 전문가야.")
}, {
    "role": "user",
    "content": query
}]

In [None]:
response = client.chat.completions.create(
    model = model,
    messages = messages,
    temperature = 0.9,
    n = 3,    
)

In [None]:
for i, choice in enumerate(response.choices):
    print(f"📝 응답 {i+1}번")
    print("-" * 40)
    print(choice.message.content.strip())  # 응답 내용
    print("=" * 40 + "\n")  # 구분선

## RAG(Retrieval-augmented generation) tutorial

### Embedding

In [None]:
# ✅ 1. TXT 파일들이 있는 폴더 경로 설정
txt_folder = r"C:\Users\nwj07\Desktop\Jn\국토연구원\전문연구모임-ChatGPT\survey\txt"  # ← 여기에 실제 경로 입력

# ✅ 2. 폴더 내 모든 .txt 파일 읽어서 하나의 문자열로 합치기
full_text = ""
for filename in os.listdir(txt_folder):
    if filename.lower().endswith(".txt"):
        filepath = os.path.join(txt_folder, filename)
        with open(filepath, "r", encoding="utf-8") as f:
            full_text += f.read() + "\n"

# ✅ 3. '사회자' 기준으로 텍스트를 분할
raw_chunks = full_text.split("사회자")
chunks = [("사회자" + chunk).strip() for chunk in raw_chunks if chunk.strip()]

print(f"📄 총 {len(chunks)}개의 청크가 생성되었습니다.")

# ✅ 4. 각 청크에 대해 임베딩 생성
embedding_model = "text-embedding-ada-002"
embeddings = []

for i, chunk in tqdm(enumerate(chunks), total=len(chunks), desc="🔍 임베딩 중"):
    try:
        response = client.embeddings.create(
            model=embedding_model,
            input=chunk[:15000]  # 8191 토큰 한도 고려하여 자름
        )
        embedding = response.data[0].embedding
        embeddings.append({
            "chunk_index": i,
            "text": chunk,
            "embedding": embedding
        })
    except Exception as e:
        print(f"❌ 청크 {i} 임베딩 실패: {e}")

# ✅ 5. 결과 저장
output_path = r"C:\Users\nwj07\Desktop\Jn\국토연구원\전문연구모임-ChatGPT\survey\txt\chunk_embeddings.json"
with open(output_path, "w", encoding="utf-8") as f:
    json.dump(embeddings, f, indent=2, ensure_ascii=False)

print(f"\n✅ 임베딩 완료: {len(embeddings)}개의 청크가 저장되었습니다 → {output_path}")

### Clustering & Visualization

In [None]:
# ✅ 1. 임베딩 자료 불러오기(Optional)

with open(r"C:\Users\nwj07\Desktop\Jn\국토연구원\전문연구모임-ChatGPT\survey\txt\chunk_embeddings.json", "r", encoding="utf-8") as f:
    embeddings = json.load(f)

vectors = [item["embedding"] for item in embeddings]
labels = [f"청크 {item['chunk_index']}" for item in embeddings]

# ✅ 2. 클러스터 수 설정 (원하는 개수로 조절 가능)
n_clusters = 5
kmeans = KMeans(n_clusters=n_clusters, random_state=42)
cluster_ids = kmeans.fit_predict(vectors)

# ✅ 3. 클러스터 ID 저장
for i, item in enumerate(embeddings):
    item["cluster_id"] = int(cluster_ids[i])  # JSON 직렬화를 위해 int 처리

# ✅ 4. 저장
with open(r"C:\Users\nwj07\Desktop\Jn\국토연구원\전문연구모임-ChatGPT\survey\txt\clustered_chunk_embeddings.json", "w", encoding="utf-8") as f:
    json.dump(embeddings, f, indent=2, ensure_ascii=False)

# ✅ 5. PCA로 2차원 축소
pca = PCA(n_components=2)
reduced = pca.fit_transform(vectors)

# ✅ 6. 시각화

plt.rcParams['font.family'] = 'Malgun Gothic' # 한글 폰트 설정
plt.rcParams['axes.unicode_minus'] = False

plt.figure(figsize=(12, 8))
scatter = plt.scatter(reduced[:, 0], reduced[:, 1], c=cluster_ids, cmap='tab10', alpha=0.7)

# 청크 이름 라벨 표시
for i, label in enumerate(labels):
    plt.annotate(label, (reduced[i, 0], reduced[i, 1]), fontsize=6, alpha=0.5)

# 범례 및 그래프 설정
plt.title("📊 텍스트 청크 임베딩 클러스터 시각화 (PCA + KMeans)")
plt.xlabel("PCA 1")
plt.ylabel("PCA 2")
plt.grid(True)
plt.colorbar(scatter, label="클러스터 ID")
plt.tight_layout()
plt.show()

### Summurizing clustering results

In [None]:
# ✅ 클러스터별 텍스트 모으기
clusters = defaultdict(list)
for item in embeddings:
    cluster_id = item.get("cluster_id")
    if cluster_id is not None:
        clusters[cluster_id].append(item["text"])

# ✅ GPT를 이용한 클러스터 요약
summaries = {}
for cluster_id, texts in clusters.items():
    selected = texts[:10]  # 긴 경우 첫 10개만 요약 대상
    joined = "\n\n".join(selected)
    prompt = f"""다음은 동일한 주제를 가진 텍스트 청크들입니다. 이 클러스터의 핵심 주제를 명확하고 간결하게 요약해 주세요:\n\n{joined}"""

    try:
        response = client.chat.completions.create(
            model="gpt-4o",
            messages=[
                {"role": "system", "content": "너는 친절하고 똑똑한 AI 도우미야."
                                                "사용자에게 최신 정보를 바탕으로 설명을 잘 해줘."
                                                "너는 도시계획 분야의 전문가야."},
                {"role": "user", "content": prompt}
            ],
            temperature=0.5
        )
        summaries[cluster_id] = response.choices[0].message.content.strip()
    except Exception as e:
        summaries[cluster_id] = f"요약 실패: {e}"

# ✅ 결과 출력
for cid, summary in summaries.items():
    print(f"\n🔷 클러스터 {cid} 요약:\n{summary}\n")


### RAG-based ChatGPT tutorial

In [None]:
# ✅ 0. 저장된 문서 임베딩 불러오기
with open(r"C:\Users\nwj07\Desktop\Jn\국토연구원\전문연구모임-ChatGPT\survey\txt\clustered_chunk_embeddings.json", "r", encoding="utf-8") as f:
    documents = json.load(f)

In [None]:

# ✅ 1. 모델 및 질문 설정
model = "gpt-4o"
query = "하남시의 주거문제는 무엇일까?"

# ✅ 2. 질문을 임베딩으로 변환
query_embedding = client.embeddings.create(
    model="text-embedding-ada-002",
    input=query
).data[0].embedding

# ✅ 3. 유사도 계산
scored = []
for doc in documents:
    similarity = cosine_similarity([query_embedding], [doc["embedding"]])[0][0]
    scored.append((similarity, doc))

# ✅ 4. 상위 20개 청크 선택
top_docs = sorted(scored, key=lambda x: x[0], reverse=True)[:20]
context_chunks = "\n\n".join([doc["text"] for _, doc in top_docs])

# ✅ 5. 메시지 구성
messages = [
    {
        "role": "system",
        "content": (
            "너는 친절하고 똑똑한 AI 도우미야. "
            "사용자에게 최신 정보를 바탕으로 설명을 잘 해줘. "
            "너는 도시계획 분야의 전문가야."
        )
    },
    {
        "role": "user",
        "content": f"다음 문서들을 참고해서 질문에 대답해줘:\n\n{context_chunks}\n\n질문: {query}"
    }
]

# ✅ 6. GPT 응답 생성
response = client.chat.completions.create(
    model=model,
    messages=messages,
    temperature=0.3,
    n=3
)

# ✅ 7. 결과 출력
for i, choice in enumerate(response.choices):
    print(f"📝 응답 {i+1}번")
    print("-" * 40)
    print(choice.message.content.strip())  # 응답 내용
    print("=" * 40 + "\n")  # 구분선

## Bonus: Image generation

In [None]:
img_response = client.images.generate(
    model='dall-e-3',
    prompt='15분도시의 개념을 적용한 도시를 평면도로 만들어줄래?',
    size='1024x1024',
    quality='standard',
    n=1
)

img_url = img_response.data[0].url

print(img_url)