In [32]:
import pandas as pd
from openai import OpenAI
from sqlalchemy import create_engine, Column, String, MetaData, Table
from pgvector.sqlalchemy import Vector
import os
from dotenv import load_dotenv

load_dotenv()
client = OpenAI(api_key=os.getenv("OPENAI_API_KEY"))
# CSV 읽기
df = pd.read_csv("./국토교통부_전국 법정동_20250415.csv")

# 조건 1: 시군구명은 NaN이 아니고, 읍면동명은 NaN
filtered_df = df[df["읍면동명"].isna()]

# 시도 코드 / 시군구 코드 추출
filtered_df["시도코드"] = filtered_df["법정동코드"].astype(str).str[:2]
filtered_df["시군구코드"] = filtered_df["법정동코드"].astype(str).str[2:5]

# 조건 2: 서울, 부산, 제주, 인천, 강릉만 남기기
keep_sido = ["서울특별시", "부산광역시", "제주특별자치도", "인천광역시"]
keep_sigungu = ["강릉시"]

final_df = filtered_df[
    (filtered_df["시도명"].isin(keep_sido)) |
    (filtered_df["시군구명"].isin(keep_sigungu))
]
# print(final_df)
# 시도명과 시군구명 합치기
final_df["시도_시군구"] = final_df["시도명"].fillna("") + " " + final_df["시군구명"].fillna("")

# 필요한 컬럼 순서대로 재배치
final_df = final_df[["시도코드", "시군구코드", "시도_시군구"]]
print(final_df)

      시도코드 시군구코드        시도_시군구
0       11   000        서울특별시 
1       11   110     서울특별시 종로구
94      11   140      서울특별시 중구
179     11   170     서울특별시 용산구
229     11   200     서울특별시 성동구
...    ...   ...           ...
11496   42   150       강원도 강릉시
46294   50   000      제주특별자치도 
46295   50   110   제주특별자치도 제주시
46433   50   130  제주특별자치도 서귀포시
46719   51   150   강원특별자치도 강릉시

[65 rows x 3 columns]


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  filtered_df["시도코드"] = filtered_df["법정동코드"].astype(str).str[:2]
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  filtered_df["시군구코드"] = filtered_df["법정동코드"].astype(str).str[2:5]
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  final_df["시도_시군구"] = final_df["시도명"].fillna("") + " " + final_df["시군구명"].fill

In [33]:
# 2. OpenAI 임베딩 생성
embeddings = []
for text in final_df["시도_시군구"]:
    response = client.embeddings.create(
        model="text-embedding-3-small",
        input=text
    )
    embeddings.append(response.data[0].embedding)

# 3. PostgreSQL 저장 (pgvector)
metadata = MetaData()
dimension = len(embeddings[0])

table = Table(
    "regions",
    metadata,
    Column("시도코드", String),
    Column("시군구코드", String),
    Column("시도_시군구", String),
    Column("임베딩", Vector(dimension))
)



# engine = create_engine("postgresql+psycopg2://username:password@localhost:5432/dbname")
# metadata.create_all(engine)

# with engine.connect() as conn:
#     for i, row in final_df.iterrows():
#         conn.execute(
#             table.insert().values(
#                 시도코드=row["시도코드"],
#                 시군구코드=row["시군구코드"],
#                 시도_시군구=row["시도_시군구"],
#                 임베딩=embeddings[i]
#             )
#         )


In [34]:
import numpy as np
import faiss

embeddings = np.array(embeddings).astype("float32")

dimension = embeddings.shape[1]
index = faiss.IndexFlatL2(dimension)
index.add(embeddings)

query = "부산"
query_emb = client.embeddings.create(
    model="text-embedding-3-small",
    input=query
).data[0].embedding
query_emb = np.array([query_emb], dtype="float32")

# FAISS 검색
D, I = index.search(query_emb, k=3)
print("\n[검색어]", query)
for rank, idx in enumerate(I[0]):
    print(f"{rank+1}위: {final_df.iloc[idx]['시도_시군구']} (거리: {D[0][rank]:.4f})")


[검색어] 부산
1위: 부산광역시  (거리: 0.6525)
2위: 부산광역시 남구 (거리: 0.8496)
3위: 부산광역시 연제구 (거리: 0.8869)
