In [1]:
import pandas as pd
from openai import OpenAI
from sqlalchemy import create_engine, Column, String, MetaData, Table
from pgvector.sqlalchemy import Vector
import os
from dotenv import load_dotenv

load_dotenv()
client = OpenAI(api_key=os.getenv("OPENAI_API_KEY"))
# CSV 읽기
df = pd.read_csv("./국토교통부_전국 법정동_20250415.csv")

# 조건 1: 시군구명은 NaN이 아니고, 읍면동명은 NaN
filtered_df = df[df["읍면동명"].isna()]

# 시도 코드 / 시군구 코드 추출
filtered_df["시도코드"] = filtered_df["법정동코드"].astype(str).str[:2]
filtered_df["시군구코드"] = filtered_df["법정동코드"].astype(str).str[2:5]

# 조건 2: 서울, 부산, 제주, 인천, 강릉만 남기기
keep_sido = ["서울특별시", "부산광역시", "제주특별자치도", "인천광역시"]
keep_sigungu = ["강릉시"]

final_df = filtered_df[
    (filtered_df["시도명"].isin(keep_sido)) |
    (filtered_df["시군구명"].isin(keep_sigungu))
]
# print(final_df)
# 시도명과 시군구명 합치기
final_df["시도_시군구"] = final_df["시도명"].fillna("") + " " + final_df["시군구명"].fillna("")

# 필요한 컬럼 순서대로 재배치
final_df = final_df[["시도코드", "시군구코드", "시도_시군구"]]

final_df = final_df.reset_index(drop=True)
print(final_df)

   시도코드 시군구코드        시도_시군구
0    11   000        서울특별시 
1    11   110     서울특별시 종로구
2    11   140      서울특별시 중구
3    11   170     서울특별시 용산구
4    11   200     서울특별시 성동구
..  ...   ...           ...
60   42   150       강원도 강릉시
61   50   000      제주특별자치도 
62   50   110   제주특별자치도 제주시
63   50   130  제주특별자치도 서귀포시
64   51   150   강원특별자치도 강릉시

[65 rows x 3 columns]


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  filtered_df["시도코드"] = filtered_df["법정동코드"].astype(str).str[:2]
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  filtered_df["시군구코드"] = filtered_df["법정동코드"].astype(str).str[2:5]
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  final_df["시도_시군구"] = final_df["시도명"].fillna("") + " " + final_df["시군구명"].fill

In [3]:
from sqlalchemy import create_engine, MetaData, Table, Column, String
from pgvector.sqlalchemy import Vector

engine = create_engine("postgresql+psycopg2://postgres:1234@localhost:5432/postgres")

metadata = MetaData()

embeddings = []
for text in final_df["시도_시군구"]:
    response = client.embeddings.create(
        model="text-embedding-3-small",
        input=text
    )
    embeddings.append(response.data[0].embedding)

dimension = len(embeddings[0])

table = Table(
    "city_regions",
    metadata,
    Column("city_code1", String),
    Column("city_code2", String),
    Column("city_str", String),
    Column("embedding", Vector(dimension))
)

metadata.create_all(engine)

# 5. 데이터 삽입
with engine.connect() as conn:
    for i, row in final_df.iterrows():
        print(i, row)
        # conn.execute(
        #     table.insert().values(
        #         city_code1=row["city_code1"],
        #         city_code2=row["city_code2"],
        #         city_str=row["city_str"],
        #         embedding=embeddings[i]
        #     )
        # )


0 시도코드          11
시군구코드        000
시도_시군구    서울특별시 
Name: 0, dtype: object
1 시도코드             11
시군구코드           110
시도_시군구    서울특별시 종로구
Name: 1, dtype: object
2 시도코드            11
시군구코드          140
시도_시군구    서울특별시 중구
Name: 2, dtype: object
3 시도코드             11
시군구코드           170
시도_시군구    서울특별시 용산구
Name: 3, dtype: object
4 시도코드             11
시군구코드           200
시도_시군구    서울특별시 성동구
Name: 4, dtype: object
5 시도코드             11
시군구코드           215
시도_시군구    서울특별시 광진구
Name: 5, dtype: object
6 시도코드              11
시군구코드            230
시도_시군구    서울특별시 동대문구
Name: 6, dtype: object
7 시도코드             11
시군구코드           260
시도_시군구    서울특별시 중랑구
Name: 7, dtype: object
8 시도코드             11
시군구코드           290
시도_시군구    서울특별시 성북구
Name: 8, dtype: object
9 시도코드             11
시군구코드           305
시도_시군구    서울특별시 강북구
Name: 9, dtype: object
10 시도코드             11
시군구코드           320
시도_시군구    서울특별시 도봉구
Name: 10, dtype: object
11 시도코드             11
시군구코드           350
시도_시군구    서울특별시 노원구
Name: 11,

In [4]:
# from sqlalchemy import insert

# with engine.connect() as conn:
#     for (idx, row), embedding in zip(final_df.iterrows(), embeddings):
#         stmt = insert(table).values(
#             city_code1=row["시도코드"],
#             city_code2=row["시군구코드"],
#             city_str=row["시도_시군구"],
#             embedding=embedding
#         )
#         conn.execute(stmt)
#     conn.commit()

In [5]:
with engine.connect() as conn:
    result = conn.execute(table.select())
    for row in result:
        print(row)

engine.url

('11', '000', '서울특별시 ', array([-0.00659805, -0.04303442,  0.01832325, ...,  0.00422126,
       -0.02388933, -0.0269899 ], shape=(1536,), dtype=float32))
('11', '110', '서울특별시 종로구', array([ 0.00055065, -0.00335936,  0.0020389 , ..., -0.0191235 ,
       -0.01945746, -0.00555425], shape=(1536,), dtype=float32))
('11', '140', '서울특별시 중구', array([ 0.00986113, -0.03281726,  0.00464704, ..., -0.01270517,
       -0.04146458, -0.04624895], shape=(1536,), dtype=float32))
('11', '170', '서울특별시 용산구', array([ 0.01824048, -0.03199277,  0.0034141 , ...,  0.00174061,
       -0.01034778, -0.00957098], shape=(1536,), dtype=float32))
('11', '200', '서울특별시 성동구', array([ 0.03929863, -0.03675556, -0.01864306, ...,  0.01073943,
       -0.02940079, -0.00168318], shape=(1536,), dtype=float32))
('11', '215', '서울특별시 광진구', array([-0.01918794, -0.02347595, -0.0076977 , ..., -0.02414257,
       -0.01771056, -0.01866545], shape=(1536,), dtype=float32))
('11', '230', '서울특별시 동대문구', array([ 0.01463334, -0.05049583,  0.0058

postgresql+psycopg2://postgres:***@localhost:5432/postgres

In [6]:
import numpy as np
import faiss

embeddings = np.array(embeddings).astype("float32")

dimension = embeddings.shape[1]
index = faiss.IndexFlatL2(dimension)
index.add(embeddings)

query = "부산 맛집 추천해줘."
query_emb = client.embeddings.create(
    model="text-embedding-3-small",
    input=query
).data[0].embedding
query_emb = np.array([query_emb], dtype="float32")

# FAISS 검색
D, I = index.search(query_emb, k=3)
print("\n[검색어]", query)
for rank, idx in enumerate(I[0]):
    print(f"{rank+1}위: {final_df.iloc[idx]['시도_시군구']} (거리: {D[0][rank]:.4f})")


[검색어] 부산 맛집 추천해줘.
1위: 부산광역시  (거리: 1.0685)
2위: 부산광역시 남구 (거리: 1.0717)
3위: 부산광역시 중구 (거리: 1.1368)
