# Neo4j와 LangChain을 활용한 ETF 상품 추천

---

## 1. Neo4J Desktop 환경 설정

- **Neo4j Desktop 소개**:
    - Neo4j 작업을 위한 클라이언트 애플리케이션
    - 로컬 환경에서 Neo4j를 학습하고 실험하는 데 필요한 모든 것을 포함함
    - 사용자의 컴퓨터 리소스가 허용하는 한 **여러 로컬 데이터베이스**를 생성할 수 있음
    - **Enterprise Edition 라이센스**: 단, 개발자 개인에 대해서는 1개 계정을 테스트 목적으로 지원

- **다운로드 및 설치**: https://neo4j.com/deployment-center/?desktop-gdb
    - Neo4J 5.24.0 선택
    - 새 프로젝트 생성 및 DBMS 추가

- **APOC 플러그인 설정**: 
    - APOC 플러그인을 설치하려는 데이터베이스가 있는 프로젝트(Graph DBMS)를 선택
    - Graph DBMS 메뉴 클릭하고, APOC 플러그인(Plugin) 설치

- **설정 파일 수정**: 데이터베이스를 중지한 상태에서 데이터베이스 카드의 오른쪽에 있는 `...` (메뉴) 버튼을 클릭

    - 메뉴에서 **Settings** 선택하고 다음 내용을 추가 (`neo4j.conf` 파일)
        ```
        dbms.security.procedures.unrestricted=apoc.meta.*,apoc.*
        ```

In [1]:
import os
from dotenv import load_dotenv

# 환경 변수 로드
load_dotenv()

True

In [2]:
from langchain_neo4j import Neo4jGraph

# Neo4j Desktop 연결 설정
graph = Neo4jGraph(
    url=os.getenv("NEO4J_URI"),
    username=os.getenv("NEO4J_USERNAME"),
    password=os.getenv("NEO4J_PASSWORD"),
    database=os.getenv("NEO4J_DATABASE"),
    enhanced_schema=True
)

In [3]:
# 테스트 쿼리 실행 
cypher_query = """
MATCH (n) 
RETURN count(n) AS node_count
"""

graph.query(cypher_query)

[{'node_count': 0}]

In [4]:
def reset_database(graph):
    """
    APOC 없이 데이터베이스 초기화하기
    """
    # 모든 노드와 관계 삭제
    graph.query("MATCH (n) DETACH DELETE n")
    
    # 모든 제약조건 삭제
    constraints = graph.query("SHOW CONSTRAINTS")
    for constraint in constraints:
        constraint_name = constraint.get("name")
        if constraint_name:
            graph.query(f"DROP CONSTRAINT {constraint_name}")
    
    # 모든 인덱스 삭제
    indexes = graph.query("SHOW INDEXES")
    for index in indexes:
        index_name = index.get("name")
        index_type = index.get("type")
        if index_name and index_type != "CONSTRAINT":
            graph.query(f"DROP INDEX {index_name}")
    
    print("데이터베이스가 초기화되었습니다.")

# 데이터베이스 초기화
reset_database(graph)

데이터베이스가 초기화되었습니다.


---

## 2. **Knowledge Graph 구축**

### 2.1 ETF 데이터 전처리


#### 1) **데이터셋 준비**

| 필드명 | 설명 |
|-------|------|
| `id` | 고유 식별자 |
| `korean_name` | 한글명 |
| `english_name` | 영문명 |
| `code` | 종목코드 |
| `listing_date` | 상장일 |
| `fund_type` | 펀드형태 |
| `index_name` | 기초지수명 |
| `tracking_multiplier` | 추적배수 |
| `management_company` | 자산운용사 |
| `ap_company` | 지정참가회사(AP) |
| `total_fee` | 총보수(%) |
| `tax_type` | 과세유형 |
| `website` | 홈페이지 |
| `base_market` | 기초 시장 |
| `base_asset` | 기초 자산 |
| `basic_info` | 기본 정보 |
| `investment_notice` | 투자유의사항 |

In [6]:
# ETF 데이터 (CSV에서 로드)
import pandas as pd

# CSV 파일 로드
df = pd.read_csv("data/etf_info_cleaned.csv", encoding="utf-8")

# 데이터 형태 확인
print(f"데이터 형태: {df.shape}")

# 데이터 샘플 확인
df.head(2)

데이터 형태: (200, 17)


Unnamed: 0,id,korean_name,english_name,code,listing_date,fund_type,index_name,tracking_multiplier,management_company,ap_company,total_fee,tax_type,website,base_market,base_asset,basic_info,investment_notice
0,ETF471760,TIGER AI반도체핵심공정,TIGER AI Semiconductor Core Tech,471760,2023-11-21,수익증권형,iSelect AI반도체핵심공정지수,1.0,미래에셋자산운용,미래에셋|NH|키움|하이|BNK|한국|이베스트|대신|유진|신영|DB|신한|삼성|메리츠,0.45,비과세,http://www.tigeretf.com,국내|코스피|코스닥,주식|업종섹터|업종테마,"- 이 ETF는 국내에 상장된 주식을 주된 투자대상자산으로 하며, “iSelect ...",- 이 ETF의 수익률은 보수 또는 비용 등 이 ETF의 순자산가치에 부의 영향을 ...
1,ETF490090,TIGER 미국AI빅테크10,TIGER US AI BIG TECH 10,490090,2024-08-27,수익증권형,KEDI 미국AI빅테크10 지수(PR),1.0,미래에셋자산운용,미래에셋|메리츠|키움|한국|신한,0.3,배당소득세(보유기간과세),http://www.tigeretf.com,해외|북미|미국,주식|업종섹터|업종테마,- 이 투자신탁은 KEDI(Korea Economic Daily Index)에서 발...,- 이 ETF의 수익률은 보수 또는 비용 등 이 ETF의 순자산가치에 부의 영향을 ...


#### 2) **ETF 속성에서 고유명사/카테고리 추출**

- ETF 데이터에서 엔티티 추출하는 함수

In [7]:
from langchain_core.prompts import ChatPromptTemplate
from langchain_openai import ChatOpenAI
from pydantic import BaseModel, Field
from typing import List, Dict, Any, Optional, Union
from tqdm import tqdm
import pandas as pd

# ETF에서 고유명사와 카테고리 추출을 위한 Pydantic 모델 정의
class ETFEntities(BaseModel):
    """ETF 상품에서 추출한 고유명사와 카테고리 정보"""
    companies: Optional[List[str]] = Field(default=None, description="ETF에 포함된 회사/기업 이름")
    sectors: Optional[List[str]] = Field(default=None, description="ETF가 속한 산업 섹터")
    technologies: Optional[List[str]] = Field(default=None, description="ETF 관련 기술 키워드")
    markets: Optional[List[str]] = Field(default=None, description="ETF 관련 시장/지역")
    asset_classes: Optional[List[str]] = Field(default=None, description="ETF 자산 클래스(주식, 채권, 원자재 등)")
    investment_themes: Optional[List[str]] = Field(default=None, description="ETF 투자 테마(AI, 친환경, 메타버스 등)")


def extract_entities_from_etf(row: pd.Series) -> ETFEntities:
    """
    ETF 메타데이터에서 고유명사와 카테고리를 추출합니다.
    
    Args:
        row (pd.Series): ETF 데이터 행
    
    Returns:
        ETFEntities: 추출된 고유명사와 카테고리 목록
    """
    # 프롬프트 템플릿 정의
    prompt = ChatPromptTemplate.from_messages([
        ("system", """ETF 상품의 고유명사와 카테고리 추출 전문가입니다. 
        제공된 ETF 상품 정보에서 다음 항목들을 정확하게 리스트로 추출하세요:
        
        추출 가이드라인:
        - companies: ETF에 포함된 또는 관련된 회사/기업 이름. 
        - sectors: ETF가 속한 산업 섹터(IT, 금융, 헬스케어 등)
        - technologies: ETF 관련 기술 키워드(AI, 블록체인, 클라우드 등)
        - markets: ETF 관련 시장/지역(국내, 미국, 아시아 등)
        - asset_classes: ETF 자산 클래스(주식, 채권, 원자재 등)
        - investment_themes: ETF 투자 테마(AI, 친환경, 메타버스 등)
        
        각 항목은 개별 리스트에 담아야 하며, 명확한 증거가 있는 항목만 포함하세요.
        ETF 이름, 설명, 기초 지수 등에서 관련 정보를 파악하세요.
        항목이 없는 경우 빈 리스트를 반환하세요.
        """),
        ("human", """다음 ETF 상품에서 고유명사와 카테고리를 추출하세요:
        
        ETF ID: {id}
        한글명: {korean_name}
        영문명: {english_name}
        종목코드: {code}
        상장일: {listing_date}
        펀드형태: {fund_type}
        기초지수명: {index_name}
        기초 시장: {base_market}
        기초 자산: {base_asset}
        기본 정보: {basic_info}
        """)
    ])

    # LLM 및 체인 설정
    llm = ChatOpenAI(model="gpt-4.1", temperature=0)    
    
    # 구조화된 출력을 위해 Pydantic 모델과 연결
    llm_with_structured_output = llm.with_structured_output(ETFEntities)
    
    # 프롬프트와 LLM을 연결하는 체인 구성
    chain = prompt | llm_with_structured_output
    
    # 엔티티 추출 시도
    try:
        # 데이터 행에서 필드 추출
        base_market_str = row['base_market'] if 'base_market' in row else ""
        base_asset_str = row['base_asset'] if 'base_asset' in row else ""
        basic_info = row['basic_info'] if 'basic_info' in row else ""
        
        # LLM을 통해 엔티티 추출
        entities = chain.invoke({
            "id": row['id'] if 'id' in row else "",
            "korean_name": row['korean_name'] if 'korean_name' in row else "",
            "english_name": row['english_name'] if 'english_name' in row else "",
            "code": row['code'] if 'code' in row else "",
            "listing_date": row['listing_date'] if 'listing_date' in row else "",
            "fund_type": row['fund_type'] if 'fund_type' in row else "",
            "index_name": row['index_name'] if 'index_name' in row else "",
            "base_market": base_market_str,
            "base_asset": base_asset_str,
            "basic_info": basic_info
        })
        
        return entities
    except Exception as e:
        # 에러 발생 시 로그 출력 및 빈 엔티티 반환
        print(f"ETF 엔티티 추출 중 오류 발생: {e}")
        return ETFEntities(
            companies=[],
            sectors=[],
            technologies=[],
            markets=[],
            asset_classes=[],
            investment_themes=[]
        )
    
# 첫 번째 ETF 행에서 엔티티 추출
first_row = df.iloc[0]
entities = extract_entities_from_etf(first_row)

entities

ETFEntities(companies=[], sectors=['반도체', 'IT'], technologies=['AI', '자연어처리'], markets=['국내', '코스피', '코스닥'], asset_classes=['주식'], investment_themes=['AI'])

- 모든 ETF에서 엔티티 추출 (gpt-4.1 사용)

In [8]:
# 모든 ETF에서 엔티티 추출하는 함수
def extract_all_entities(df):
    """
    모든 ETF에서 엔티티를 추출하고 결과를 저장합니다.
    
    Args:
        df (pd.DataFrame): ETF 데이터프레임
        
    Returns:
        dict: ETF ID를 키로, 추출된 엔티티를 값으로 하는 딕셔너리
    """
    all_entities = {}
    
    # 모든 ETF에 대해 엔티티 추출
    for idx, row in tqdm(df.iterrows()):
        etf_id = row['id']
        entities = extract_entities_from_etf(row)
        all_entities[etf_id] = entities
    
    return all_entities

# 모든 ETF에서 엔티티 추출
all_etf_entities = extract_all_entities(df)

86it [02:16,  2.11s/it]

ETF 엔티티 추출 중 오류 발생: Error code: 429 - {'error': {'message': 'Rate limit reached for gpt-4.1 in organization org-45Vx69q5JTZFFAJ5OwuH6SOj on tokens per min (TPM): Limit 30000, Used 29532, Requested 738. Please try again in 540ms. Visit https://platform.openai.com/account/rate-limits to learn more.', 'type': 'tokens', 'param': None, 'code': 'rate_limit_exceeded'}}


94it [02:31,  2.09s/it]

ETF 엔티티 추출 중 오류 발생: Error code: 429 - {'error': {'message': 'Rate limit reached for gpt-4.1 in organization org-45Vx69q5JTZFFAJ5OwuH6SOj on tokens per min (TPM): Limit 30000, Used 29778, Requested 544. Please try again in 644ms. Visit https://platform.openai.com/account/rate-limits to learn more.', 'type': 'tokens', 'param': None, 'code': 'rate_limit_exceeded'}}


116it [03:18,  1.94s/it]

ETF 엔티티 추출 중 오류 발생: Error code: 429 - {'error': {'message': 'Rate limit reached for gpt-4.1 in organization org-45Vx69q5JTZFFAJ5OwuH6SOj on tokens per min (TPM): Limit 30000, Used 29604, Requested 525. Please try again in 258ms. Visit https://platform.openai.com/account/rate-limits to learn more.', 'type': 'tokens', 'param': None, 'code': 'rate_limit_exceeded'}}


129it [03:46,  2.09s/it]

ETF 엔티티 추출 중 오류 발생: Error code: 429 - {'error': {'message': 'Rate limit reached for gpt-4.1 in organization org-45Vx69q5JTZFFAJ5OwuH6SOj on tokens per min (TPM): Limit 30000, Used 29713, Requested 573. Please try again in 572ms. Visit https://platform.openai.com/account/rate-limits to learn more.', 'type': 'tokens', 'param': None, 'code': 'rate_limit_exceeded'}}


178it [05:37,  2.02s/it]

ETF 엔티티 추출 중 오류 발생: Error code: 429 - {'error': {'message': 'Rate limit reached for gpt-4.1 in organization org-45Vx69q5JTZFFAJ5OwuH6SOj on tokens per min (TPM): Limit 30000, Used 29661, Requested 607. Please try again in 536ms. Visit https://platform.openai.com/account/rate-limits to learn more.', 'type': 'tokens', 'param': None, 'code': 'rate_limit_exceeded'}}


193it [06:09,  2.15s/it]

ETF 엔티티 추출 중 오류 발생: Error code: 429 - {'error': {'message': 'Rate limit reached for gpt-4.1 in organization org-45Vx69q5JTZFFAJ5OwuH6SOj on tokens per min (TPM): Limit 30000, Used 29474, Requested 534. Please try again in 16ms. Visit https://platform.openai.com/account/rate-limits to learn more.', 'type': 'tokens', 'param': None, 'code': 'rate_limit_exceeded'}}


200it [06:24,  1.92s/it]


In [9]:
print(f"추출된 엔티티 수: {len(all_etf_entities)}")
print(f"첫 번째 ETF의 엔티티: {all_etf_entities[list(all_etf_entities.keys())[0]]}")

추출된 엔티티 수: 200
첫 번째 ETF의 엔티티: companies=[] sectors=['반도체', 'IT'] technologies=['AI', '자연어처리'] markets=['국내', '코스피', '코스닥'] asset_classes=['주식'] investment_themes=['AI', '반도체']


In [11]:
# 추출한 엔티티를 별도로 저장
import pickle 
with open('data/all_etf_entities.pkl', 'wb') as f:
    pickle.dump(all_etf_entities, f)

- 모든 엔티티에 대한 통계 처리

In [12]:
from pydantic import BaseModel, Field
from typing import List, Dict, Any, Optional

# ETF에서 고유명사와 카테고리 추출을 위한 Pydantic 모델 정의
class ETFEntities(BaseModel):
    """ETF 상품에서 추출한 고유명사와 카테고리 정보"""
    companies: Optional[List[str]] = Field(default=None, description="ETF에 포함된 회사/기업 이름")
    sectors: Optional[List[str]] = Field(default=None, description="ETF가 속한 산업 섹터")
    technologies: Optional[List[str]] = Field(default=None, description="ETF 관련 기술 키워드")
    markets: Optional[List[str]] = Field(default=None, description="ETF 관련 시장/지역")
    asset_classes: Optional[List[str]] = Field(default=None, description="ETF 자산 클래스(주식, 채권, 원자재 등)")
    investment_themes: Optional[List[str]] = Field(default=None, description="ETF 투자 테마(AI, 친환경, 메타버스 등)")

In [14]:
# 추출한 엔티티를 로드
import pickle
with open('data/all_etf_entities.pkl', 'rb') as f:
    etf_entities = pickle.load(f)

print(f"로드된 엔티티 수: {len(etf_entities)}")
print(f"첫 번째 ETF의 엔티티: {etf_entities[list(etf_entities.keys())[0]]}")

로드된 엔티티 수: 200
첫 번째 ETF의 엔티티: companies=[] sectors=['반도체', 'IT'] technologies=['AI', '자연어처리'] markets=['국내', '코스피', '코스닥'] asset_classes=['주식'] investment_themes=['AI', '반도체']


In [15]:
# 엔티티 통계 수집 함수
def collect_entity_statistics(all_entities):
    """
    추출된 모든 엔티티에서 통계를 수집합니다.
    
    Args:
        all_entities (dict): ETF ID를 키로, 추출된 엔티티를 값으로 하는 딕셔너리
        
    Returns:
        dict: 엔티티 유형별 통계 정보
    """
    # 엔티티 유형별 통계 초기화
    stats = {
        'companies': set(),
        'sectors': set(),
        'technologies': set(),
        'markets': set(),
        'asset_classes': set(),
        'investment_themes': set()
    }
    
    # 모든 ETF의 엔티티 수집
    for etf_id, entities in all_entities.items():
        for entity_type in stats.keys():
            entity_list = getattr(entities, entity_type, [])
            stats[entity_type].update(entity_list)
    
    # set을 list로 변환
    for key in stats:
        stats[key] = sorted(list(stats[key]))
    
    return stats

# 엔티티 통계 수집
entity_stats = collect_entity_statistics(etf_entities)

# 결과 출력
for entity_type, entities in entity_stats.items():
    print(f"{entity_type}: {len(entities)}개")
    print(f"  {', '.join(entities)}")

companies: 80개
  AMD, Alibaba, Alphabet, Amazon, Apple, Baidu, Benchmark Investments, LLC, Bloomberg, Bloomberg Index Services Limited, CSI(China Securities Index co.,Ltd), China Securities Index Co., Ltd, DeepSearch, FnGuide, Google, ICE Data Indices, IGIS, Intel, KEDI, KEDI(한국경제신문), KIS, KIS Pricing, KIS 채권평가, KIS자산평가, KIS채권평가(주), KIS채권평가㈜, KRX, MS, MSCI, MSCI Inc., Meta Platforms, Microsoft, Morningstar, Morningstar, Inc., NASDAQ, NASDAQ Inc., NASDAQ OMX Group, NASDAQ, Inc., NH투자증권, NVIDIA, NYSE, Nasdaq, Netflix, Nikkei Inc., S&P Dow Jones, S&P Dow Jones Indices, S&P Dow Jones Indices LLC, S&P Dow Jones Indices, LLC, SK하이닉스, STOXX Limited, Solactive AG, Standard & Poor's, TIMEFOLIO 자산운용, Tesla, The Bank of New York Mellon, iShares, 금융투자협회, 나스닥증권거래소(NASDAQ), 뉴욕상업거래소(NYSE), 다우존스, 대만증권거래소, 매일경제신문, 메리츠증권, 미국 재무부, 미래에셋증권, 삼성그룹, 삼성액티브자산운용, 시카고상업거래소(CME), 에셋플러스, 에프앤가이드, 에프앤가이드(FnGuide), 와이즈에프엔, 키움증권, 타임폴리오자산운용, 한국거래소, 한국경제신문, 한국경제신문사, 한국자산평가, 한국자산평가사, 한국투자밸류자산운용, 한화자산운용
sectors: 85개
  2차전지

In [16]:
# ETF 데이터프레임에 엔티티 정보 추가

df_with_entities = df.copy()
for etf_id, entities in etf_entities.items():
    # 해당 ETF 행 찾기
    idx = df_with_entities[df_with_entities['id'] == etf_id].index
    if len(idx) > 0:
        # 엔티티 정보 추가 - 배열을 |로 결합하여 문자열로 저장
        df_with_entities.loc[idx[0], 'extracted_companies'] = '|'.join(entities.companies) if entities.companies else ''
        df_with_entities.loc[idx[0], 'extracted_sectors'] = '|'.join(entities.sectors) if entities.sectors else ''
        df_with_entities.loc[idx[0], 'extracted_technologies'] = '|'.join(entities.technologies) if entities.technologies else ''
        df_with_entities.loc[idx[0], 'extracted_markets'] = '|'.join(entities.markets) if entities.markets else ''
        df_with_entities.loc[idx[0], 'extracted_asset_classes'] = '|'.join(entities.asset_classes) if entities.asset_classes else ''
        df_with_entities.loc[idx[0], 'extracted_investment_themes'] = '|'.join(entities.investment_themes) if entities.investment_themes else ''

# 엔티티가 추가된 ETF 데이터 확인
df_with_entities.head()

Unnamed: 0,id,korean_name,english_name,code,listing_date,fund_type,index_name,tracking_multiplier,management_company,ap_company,...,base_market,base_asset,basic_info,investment_notice,extracted_companies,extracted_sectors,extracted_technologies,extracted_markets,extracted_asset_classes,extracted_investment_themes
0,ETF471760,TIGER AI반도체핵심공정,TIGER AI Semiconductor Core Tech,471760,2023-11-21,수익증권형,iSelect AI반도체핵심공정지수,1.0,미래에셋자산운용,미래에셋|NH|키움|하이|BNK|한국|이베스트|대신|유진|신영|DB|신한|삼성|메리츠,...,국내|코스피|코스닥,주식|업종섹터|업종테마,"- 이 ETF는 국내에 상장된 주식을 주된 투자대상자산으로 하며, “iSelect ...",- 이 ETF의 수익률은 보수 또는 비용 등 이 ETF의 순자산가치에 부의 영향을 ...,,반도체|IT,AI|자연어처리,국내|코스피|코스닥,주식,AI|반도체
1,ETF490090,TIGER 미국AI빅테크10,TIGER US AI BIG TECH 10,490090,2024-08-27,수익증권형,KEDI 미국AI빅테크10 지수(PR),1.0,미래에셋자산운용,미래에셋|메리츠|키움|한국|신한,...,해외|북미|미국,주식|업종섹터|업종테마,- 이 투자신탁은 KEDI(Korea Economic Daily Index)에서 발...,- 이 ETF의 수익률은 보수 또는 비용 등 이 ETF의 순자산가치에 부의 영향을 ...,,,AI|Large Language Model,미국|북미|해외,주식,AI
2,ETF139240,TIGER 200철강소재,TIGER 200 STEEL&,139240,2011-04-06,수익증권형,코스피 200 철강/소재,1.0,미래에셋자산운용,현대|미래에셋,...,국내|코스피,주식|업종섹터|철강소재,"이 ETF는 국내 주식을 주된 투자대상자산으로 하며, “코스피 200 철강소재 지수...","기초지수 수익률 추종을 위한 최적화(optimization) 과정, 해당 펀드와 관...",,철강소재,,국내|코스피,주식,
3,ETF346000,HANARO KAP초장기국고채,HANARO KAP Ultra Long-term KTB,346000,2020-01-16,수익증권형,KAP 초장기 국고채 지수 (총수익),1.0,엔에이치아문디자산운용,키움|미래에셋|유진|NH,...,국내|주식외,채권|국공채|장기,"이 ETF는 국내 채권을 주된 투자대상자산으로 하며, KAP 초장기국고채지수를 기초...",이 ETF는 운용실적에 따라 손익이 결정되는 실적배당상품으로 예금자보호법에 따라 보...,한국자산평가,금융,,국내,채권|국공채,
4,ETF241180,TIGER 일본니케이225,TIGER NIKKEI225,241180,2016-03-31,수익증권형,Nikkei 225,1.0,미래에셋자산운용,한국|대신,...,해외|아시아|일본,주식|시장대표,"이 ETF는 일본 주식을 주된 투자대상자산으로 하며, ""니케이 225 지수"" 수익률...",이 ETF의 수익률은 보수 또는 비용 등 이 ETF의 순자산가치에 부의 영향을 미치...,Nikkei Inc.,,,일본|아시아|해외,주식,


In [18]:
# 데이터프레임 저장
df_with_entities.to_csv("data/etf_with_extracted_entities.csv", index=False, encoding='utf-8-sig')

### 2.2 KG 온톨로지 구현

#### 1) **스키마 정의**

- **노드 유형**:
  - ETF: 상장지수펀드 정보를 담는 노드 (id, 이름, 코드, 상장일 등 속성 포함)
  - AssetManager: 자산운용사 정보를 담는 노드 (이름, 관리 ETF 수 등 속성 포함)
  - Sector: 산업 섹터 정보 노드 (예: AI 프로세스칩, 시스템 반도체)
  - Technology: 기술 정보 노드 (예: AI, 자연어처리)
  - Market: 시장 정보 노드 (예: 국내, 해외, 코스피)
  - AssetClass: 자산 유형 노드 (예: 주식, 채권)
  - InvestmentTheme: 투자 테마 노드 (예: AI)

- **관계 유형**:
  - MANAGED_BY: ETF와 자산운용사 간의 관계 (ETF → AssetManager)
  - FOCUSES_ON: ETF와 섹터/기술/테마 간의 관계 (ETF → Sector/Technology/InvestmentTheme)
  - INVESTS_IN: ETF와 시장/자산유형 간의 관계 (ETF → Market/AssetClass)

In [20]:
# 데이터프레임 로드
import pandas as pd
df_with_entities = pd.read_csv("data/etf_with_extracted_entities.csv", encoding='utf-8-sig')

df_with_entities.head()

Unnamed: 0,id,korean_name,english_name,code,listing_date,fund_type,index_name,tracking_multiplier,management_company,ap_company,...,base_market,base_asset,basic_info,investment_notice,extracted_companies,extracted_sectors,extracted_technologies,extracted_markets,extracted_asset_classes,extracted_investment_themes
0,ETF471760,TIGER AI반도체핵심공정,TIGER AI Semiconductor Core Tech,471760,2023-11-21,수익증권형,iSelect AI반도체핵심공정지수,1.0,미래에셋자산운용,미래에셋|NH|키움|하이|BNK|한국|이베스트|대신|유진|신영|DB|신한|삼성|메리츠,...,국내|코스피|코스닥,주식|업종섹터|업종테마,"- 이 ETF는 국내에 상장된 주식을 주된 투자대상자산으로 하며, “iSelect ...",- 이 ETF의 수익률은 보수 또는 비용 등 이 ETF의 순자산가치에 부의 영향을 ...,,반도체|IT,AI|자연어처리,국내|코스피|코스닥,주식,AI|반도체
1,ETF490090,TIGER 미국AI빅테크10,TIGER US AI BIG TECH 10,490090,2024-08-27,수익증권형,KEDI 미국AI빅테크10 지수(PR),1.0,미래에셋자산운용,미래에셋|메리츠|키움|한국|신한,...,해외|북미|미국,주식|업종섹터|업종테마,- 이 투자신탁은 KEDI(Korea Economic Daily Index)에서 발...,- 이 ETF의 수익률은 보수 또는 비용 등 이 ETF의 순자산가치에 부의 영향을 ...,,,AI|Large Language Model,미국|북미|해외,주식,AI
2,ETF139240,TIGER 200철강소재,TIGER 200 STEEL&,139240,2011-04-06,수익증권형,코스피 200 철강/소재,1.0,미래에셋자산운용,현대|미래에셋,...,국내|코스피,주식|업종섹터|철강소재,"이 ETF는 국내 주식을 주된 투자대상자산으로 하며, “코스피 200 철강소재 지수...","기초지수 수익률 추종을 위한 최적화(optimization) 과정, 해당 펀드와 관...",,철강소재,,국내|코스피,주식,
3,ETF346000,HANARO KAP초장기국고채,HANARO KAP Ultra Long-term KTB,346000,2020-01-16,수익증권형,KAP 초장기 국고채 지수 (총수익),1.0,엔에이치아문디자산운용,키움|미래에셋|유진|NH,...,국내|주식외,채권|국공채|장기,"이 ETF는 국내 채권을 주된 투자대상자산으로 하며, KAP 초장기국고채지수를 기초...",이 ETF는 운용실적에 따라 손익이 결정되는 실적배당상품으로 예금자보호법에 따라 보...,한국자산평가,금융,,국내,채권|국공채,
4,ETF241180,TIGER 일본니케이225,TIGER NIKKEI225,241180,2016-03-31,수익증권형,Nikkei 225,1.0,미래에셋자산운용,한국|대신,...,해외|아시아|일본,주식|시장대표,"이 ETF는 일본 주식을 주된 투자대상자산으로 하며, ""니케이 225 지수"" 수익률...",이 ETF의 수익률은 보수 또는 비용 등 이 ETF의 순자산가치에 부의 영향을 미치...,Nikkei Inc.,,,일본|아시아|해외,주식,


#### 2) **제약조건 설정**

In [21]:
# Neo4j 데이터베이스에 Cypher 쿼리를 사용하여 제약조건 설정
# 제약조건은 노드의 특정 속성이 고유(UNIQUE)하도록 보장하여 데이터 중복을 방지함
constraints = [
    # ETF 노드의 id 속성이 고유하도록 제약조건 설정
    # 이를 통해 동일한 id를 가진 ETF가 중복 저장되는 것을 방지
    "CREATE CONSTRAINT IF NOT EXISTS FOR (e:ETF) REQUIRE e.id IS UNIQUE",
    
    # AssetManager 노드의 id 속성이 고유하도록 제약조건 설정
    # 동일한 id의 자산운용사가 여러 번 생성되는 것을 방지
    "CREATE CONSTRAINT IF NOT EXISTS FOR (c:AssetManager) REQUIRE c.id IS UNIQUE",
    
    # Sector 노드의 id 속성이 고유하도록 제약조건 설정
    # 동일한 id의 섹터가 중복 생성되는 것을 방지
    "CREATE CONSTRAINT IF NOT EXISTS FOR (s:Sector) REQUIRE s.id IS UNIQUE",
    
    # Technology 노드의 id 속성이 고유하도록 제약조건 설정
    # 동일한 id의 기술이 중복 생성되는 것을 방지
    "CREATE CONSTRAINT IF NOT EXISTS FOR (t:Technology) REQUIRE t.id IS UNIQUE",
    
    # Market 노드의 id 속성이 고유하도록 제약조건 설정
    # 동일한 id의 시장이 중복 생성되는 것을 방지
    "CREATE CONSTRAINT IF NOT EXISTS FOR (m:Market) REQUIRE m.id IS UNIQUE",
    
    # AssetClass 노드의 id 속성이 고유하도록 제약조건 설정
    # 동일한 id의 자산 클래스가 중복 생성되는 것을 방지
    "CREATE CONSTRAINT IF NOT EXISTS FOR (a:AssetClass) REQUIRE a.id IS UNIQUE",
    
    # InvestmentTheme 노드의 id 속성이 고유하도록 제약조건 설정
    # 동일한 id의 투자 테마가 중복 생성되는 것을 방지
    "CREATE CONSTRAINT IF NOT EXISTS FOR (i:InvestmentTheme) REQUIRE i.id IS UNIQUE",
]

# 정의된 모든 제약조건을 순회하며 Neo4j 데이터베이스에 적용
# graph.query() 메서드를 사용하여 각 Cypher 쿼리를 실행
for constraint in constraints:
    graph.query(constraint)

In [22]:
from langchain_neo4j.graphs.graph_document import GraphDocument, Node, Relationship
from langchain_core.documents import Document
from tqdm import tqdm
import pandas as pd
import numpy as np

# 중복 노드 생성을 방지하기 위한 딕셔너리 초기화
node_dict = {}  # 노드 ID를 키로 사용하여 생성된 노드 객체를 저장

# 노드 간 관계를 저장할 리스트 초기화
relationships = []

# ETF 데이터프레임을 순회하며 그래프 구조로 변환
for _, row in tqdm(df_with_entities.iterrows(), total=len(df_with_entities), desc="ETF 온톨로지 구축 중"):
    # ETF ID 생성
    etf_id = row['id']
    
    # ETF 노드 생성 (이미 존재하는지 확인하여 중복 방지)
    if etf_id not in node_dict:
        # ETF 노드 속성 설정
        etf_properties = {
            "id": etf_id,
            "name": row['korean_name'],
            "english_name": row['english_name'],
            "code": row['code'],
            "listing_date": row['listing_date'],
            "fund_type": row['fund_type'],
            "total_fee": row['total_fee'],
            "website": row['website'],
            "basic_info": row['basic_info'],
            "investment_notice": row['investment_notice'],
            "index_name": row['index_name'],
            "tracking_multiplier": row['tracking_multiplier'],
            "ap_company": row['ap_company'],
            "tax_type": row['tax_type'],
            "base_market": row['base_market'],
            "base_asset": row['base_asset'],
        }
        
        # ETF 노드 객체 생성
        etf_node = Node(
            id=etf_id,
            type="ETF",  # 노드 유형 지정
            properties=etf_properties
        )
        
        # 생성된 ETF 노드를 딕셔너리에 저장
        node_dict[etf_id] = etf_node
    
    # 자산운용사 노드 생성 및 연결
    if 'management_company' in row and pd.notna(row['management_company']):
        company_name = row['management_company']
        company_id = f"company-{company_name}"
        
        # 자산운용사 노드가 아직 생성되지 않았다면 새로 생성
        if company_id not in node_dict:
            company_node = Node(
                id=company_id,
                type="AssetManager",
                properties={"name": company_name}
            )
            node_dict[company_id] = company_node
        
        # ETF와 자산운용사 간의 'MANAGED_BY' 관계 생성 (ETF → AssetManager)
        relationships.append(
            Relationship(
                source=node_dict[etf_id],
                target=node_dict[company_id],
                type="MANAGED_BY",
                properties={}
            )
        )
    
    # 섹터 노드 생성 및 연결
    if 'extracted_sectors' in row and pd.notna(row['extracted_sectors']):
        sectors = str(row['extracted_sectors']).split('|')
        for sector in sectors:
            if not sector:
                continue
            sector_id = f"sector-{sector}"
            
            # 섹터 노드가 아직 생성되지 않았다면 새로 생성
            if sector_id not in node_dict:
                sector_node = Node(
                    id=sector_id,
                    type="Sector",
                    properties={"name": sector}
                )
                node_dict[sector_id] = sector_node
            
            # ETF와 섹터 간의 'FOCUSES_ON' 관계 생성 (ETF → Sector)
            relationships.append(
                Relationship(
                    source=node_dict[etf_id],
                    target=node_dict[sector_id],
                    type="FOCUSES_ON",
                    properties={}
                )
            )
    
    # 기술 노드 생성 및 연결
    if 'extracted_technologies' in row and pd.notna(row['extracted_technologies']):
        technologies = str(row['extracted_technologies']).split('|')
        for tech in technologies:
            if not tech:
                continue
            tech_id = f"tech-{tech}"
            
            # 기술 노드가 아직 생성되지 않았다면 새로 생성
            if tech_id not in node_dict:
                tech_node = Node(
                    id=tech_id,
                    type="Technology",
                    properties={"name": tech}
                )
                node_dict[tech_id] = tech_node
            
            # ETF와 기술 간의 'FOCUSES_ON' 관계 생성 (ETF → Technology)
            relationships.append(
                Relationship(
                    source=node_dict[etf_id],
                    target=node_dict[tech_id],
                    type="FOCUSES_ON",
                    properties={}
                )
            )
    
    # 시장 노드 생성 및 연결
    if 'extracted_markets' in row and pd.notna(row['extracted_markets']):
        markets = str(row['extracted_markets']).split('|')
        for market in markets:
            if not market:
                continue
            market_id = f"market-{market}"
            
            # 시장 노드가 아직 생성되지 않았다면 새로 생성
            if market_id not in node_dict:
                market_node = Node(
                    id=market_id,
                    type="Market",
                    properties={"name": market}
                )
                node_dict[market_id] = market_node
            
            # ETF와 시장 간의 'INVESTS_IN' 관계 생성 (ETF → Market)
            relationships.append(
                Relationship(
                    source=node_dict[etf_id],
                    target=node_dict[market_id],
                    type="INVESTS_IN",
                    properties={}
                )
            )
    
    # 자산 유형 노드 생성 및 연결
    if 'extracted_asset_classes' in row and pd.notna(row['extracted_asset_classes']):
        asset_classes = str(row['extracted_asset_classes']).split('|')
        for asset_class in asset_classes:
            if not asset_class:
                continue
            asset_id = f"asset-{asset_class}"
            
            # 자산 유형 노드가 아직 생성되지 않았다면 새로 생성
            if asset_id not in node_dict:
                asset_node = Node(
                    id=asset_id,
                    type="AssetClass",
                    properties={"name": asset_class}
                )
                node_dict[asset_id] = asset_node
            
            # ETF와 자산 유형 간의 'INVESTS_IN' 관계 생성 (ETF → AssetClass)
            relationships.append(
                Relationship(
                    source=node_dict[etf_id],
                    target=node_dict[asset_id],
                    type="INVESTS_IN",
                    properties={}
                )
            )
    
    # 투자 테마 노드 생성 및 연결
    if 'extracted_investment_themes' in row and pd.notna(row['extracted_investment_themes']):
        themes = str(row['extracted_investment_themes']).split('|')
        for theme in themes:
            if not theme:
                continue
            theme_id = f"theme-{theme}"
            
            # 투자 테마 노드가 아직 생성되지 않았다면 새로 생성
            if theme_id not in node_dict:
                theme_node = Node(
                    id=theme_id,
                    type="InvestmentTheme",
                    properties={"name": theme}
                )
                node_dict[theme_id] = theme_node
            
            # ETF와 투자 테마 간의 'FOCUSES_ON' 관계 생성 (ETF → InvestmentTheme)
            relationships.append(
                Relationship(
                    source=node_dict[etf_id],
                    target=node_dict[theme_id],
                    type="FOCUSES_ON",
                    properties={}
                )
            )

# 노드 딕셔너리에서 모든 노드 객체를 리스트 형태로 추출
nodes = list(node_dict.values())

# GraphDocument 객체 생성
graph_doc = GraphDocument(
    nodes=nodes,
    relationships=relationships
)

# 생성된 GraphDocument를 Neo4j 데이터베이스에 저장
graph.add_graph_documents([graph_doc])

print(f"총 노드 수: {len(node_dict)}")
print(f"총 관계 수: {len(relationships)}")
print("ETF 온톨로지 구축 완료!")

ETF 온톨로지 구축 중: 100%|██████████| 200/200 [00:00<00:00, 14264.16it/s]


총 노드 수: 529
총 관계 수: 1297
ETF 온톨로지 구축 완료!


In [23]:
# Neo4j 데이터베이스의 현재 스키마 정보를 새로고침하여 최신 상태로 업데이트
graph.refresh_schema()
print(graph.schema)

Node properties:
- **ETF**
  - `id`: STRING Example: "ETF471760"
  - `website`: STRING Example: "http://www.tigeretf.com"
  - `code`: INTEGER Min: 69500, Max: 499150
  - `basic_info`: STRING Example: "- 이 ETF는 국내에 상장된 주식을 주된 투자대상자산으로 하며, “iSelect AI반도"
  - `tracking_multiplier`: FLOAT Min: 1.0, Max: 2.0
  - `fund_type`: STRING Available options: ['수익증권형']
  - `english_name`: STRING Example: "TIGER AI Semiconductor Core Tech"
  - `base_asset`: STRING Example: "주식|업종섹터|업종테마"
  - `tax_type`: STRING Available options: ['비과세', '배당소득세(보유기간과세)', '배당소득세(해외주식투자전용ETF)', '배당소득세(분리과세부동산ETF)']
  - `ap_company`: STRING Example: "미래에셋|NH|키움|하이|BNK|한국|이베스트|대신|유진|신영|DB|신한|삼성|메리츠"
  - `total_fee`: FLOAT Min: 0.0099, Max: 0.99
  - `name`: STRING Example: "TIGER AI반도체핵심공정"
  - `base_market`: STRING Example: "국내|코스피|코스닥"
  - `listing_date`: STRING Example: "2023-11-21"
  - `investment_notice`: STRING Example: "- 이 ETF의 수익률은 보수 또는 비용 등 이 ETF의 순자산가치에 부의 영향을 미치는 "
  - `index_name`: STRING Example: "iSelect AI

In [24]:
# AI 관련 ETF 검색 예시
cypher_query = """
// ETF 노드와 Technology 노드 간의 FOCUSES_ON 관계를 가진 패턴 매칭
MATCH (e:ETF)-[:FOCUSES_ON]->(t:Technology)
// 기술 이름에 'AI' 또는 '인공지능'이 포함된 노드만 필터링
WHERE t.name CONTAINS 'AI' OR t.name CONTAINS '인공지능'
// ETF의 id, 이름, 영문 이름, 코드 정보 반환
RETURN e.id, e.name, e.english_name, e.code
// 이름을 기준으로 오름차순 정렬
ORDER BY e.name
"""
# Neo4j 데이터베이스에 쿼리 실행
result = graph.query(cypher_query)

# 결과 출력
for row in result:
    print(row)

{'e.id': 'ETF407160', 'e.name': 'KCGI 테크미디어텔레콤액티브', 'e.english_name': 'KCGI TMT Active', 'e.code': 407160}
{'e.id': 'ETF483280', 'e.name': 'KODEX 미국AI테크TOP10타겟커버드콜', 'e.english_name': 'KODEX US AI TECH 10 TARGET COVERED CALL', 'e.code': 483280}
{'e.id': 'ETF479620', 'e.name': 'SOL 미국AI반도체칩메이커', 'e.english_name': 'SOL US AI Semiconductor Chip Makers', 'e.code': 479620}
{'e.id': 'ETF481180', 'e.name': 'SOL 미국AI소프트웨어', 'e.english_name': 'SOL US AI Software', 'e.code': 481180}
{'e.id': 'ETF481180', 'e.name': 'SOL 미국AI소프트웨어', 'e.english_name': 'SOL US AI Software', 'e.code': 481180}
{'e.id': 'ETF486450', 'e.name': 'SOL 미국AI전력인프라', 'e.english_name': 'SOL US AI Electric Power Infrastructure', 'e.code': 486450}
{'e.id': 'ETF471760', 'e.name': 'TIGER AI반도체핵심공정', 'e.english_name': 'TIGER AI Semiconductor Core Tech', 'e.code': 471760}
{'e.id': 'ETF464310', 'e.name': 'TIGER 글로벌AI&로보틱스 INDXX', 'e.english_name': 'TIGER Global AI & Robotics', 'e.code': 464310}
{'e.id': 'ETF491010', 'e.name': 'TIGER 글

In [25]:
# 특정 섹터와 기술을 모두 포함하는 ETF 검색 예시
cypher_query = """
// ETF 노드와 Sector, Technology 노드 간의 관계 매칭
MATCH (e:ETF)-[:FOCUSES_ON]->(s:Sector), (e)-[:FOCUSES_ON]->(t:Technology)
// 반도체 섹터와 AI 기술을 가진 ETF 필터링
WHERE s.name = '반도체' AND t.name = 'AI'
// ETF 정보와 관련 섹터, 기술 반환
RETURN e.name, e.code, s.name AS sector, t.name AS technology
"""
# 쿼리 실행
result = graph.query(cypher_query)

# 결과 출력
for row in result:
    print(row)

{'e.name': 'TIGER AI반도체핵심공정', 'e.code': 471760, 'sector': '반도체', 'technology': 'AI'}
{'e.name': 'KCGI 테크미디어텔레콤액티브', 'e.code': 407160, 'sector': '반도체', 'technology': 'AI'}


In [26]:
# 특정 ETF와 유사한 ETF 추천 예시 (같은 섹터나 기술을 공유하는 ETF)
# 'TIGER AI반도체핵심공정' ETF와 공통 속성(섹터 또는 기술)을 공유하는 다른 ETF를 찾는 쿼리
cypher_query = """
// 기준 ETF와 다른 ETF 간의 공통 노드(섹터 또는 기술) 찾기
MATCH (e1:ETF {name: 'TIGER AI반도체핵심공정'})-[:INVESTS_IN|FOCUSES_ON]->(node)<-[:INVESTS_IN|FOCUSES_ON]-(e2:ETF)
// 자기 자신은 제외
WHERE e1 <> e2
// 유사 ETF 정보, 공통 속성 유형, 속성 이름 반환
RETURN e2.name AS similar_etf, e2.code AS code, 
       LABELS(node)[0] AS common_attribute, node.name AS attribute_name
// 5개 결과만 표시
LIMIT 5
"""
# Neo4j 데이터베이스에 쿼리 실행
result = graph.query(cypher_query)
# 결과 출력
for row in result:
    print(row)

{'similar_etf': 'KODEX 시스템반도체', 'code': 395160, 'common_attribute': 'Sector', 'attribute_name': '반도체'}
{'similar_etf': 'HANARO 반도체핵심공정주도주', 'code': 476260, 'common_attribute': 'Sector', 'attribute_name': '반도체'}
{'similar_etf': 'UNICORN SK하이닉스밸류체인액티브', 'code': 494220, 'common_attribute': 'Sector', 'attribute_name': '반도체'}
{'similar_etf': 'RISE 비메모리반도체액티브', 'code': 388420, 'common_attribute': 'Sector', 'attribute_name': '반도체'}
{'similar_etf': 'KCGI 테크미디어텔레콤액티브', 'code': 407160, 'common_attribute': 'Sector', 'attribute_name': '반도체'}


#### 3) **전문(Full-Text) 검색 인덱스 설정**

- 전문 검색 인덱스는 텍스트를 단어(토큰)로 분리
- ETF 노드의 korean_name, english_name 속성에 대한 전문 검색 인덱스 생성

In [None]:
# ETF 노드의 name과 english_name 속성에 대한 전문 검색 인덱스 생성
# CREATE FULLTEXT INDEX: 전문 검색(Full-Text Search)을 위한 인덱스를 생성하는 Cypher 명령어
# etf_name_fulltext: 생성할 인덱스의 이름으로, 나중에 이 이름으로 인덱스를 참조할 수 있음
# IF NOT EXISTS: 동일한 이름의 인덱스가 이미 존재하는 경우 오류 없이 건너뜀
# FOR (e:ETF): ETF 라벨을 가진 모든 노드에 대해 인덱스 적용
# ON EACH [e.name, e.english_name]: 각 ETF 노드의 korean_name과 english_name 속성을 인덱싱
etf_fulltext_index_query = """
// 전문 검색을 위한 인덱스 생성
// ETF 노드의 name과 english_name 속성에 대해 인덱싱
// 이미 존재하는 경우 오류 없이 건너뜀
CREATE FULLTEXT INDEX etf_name_fulltext IF NOT EXISTS 
FOR (e:ETF) ON EACH [e.name, e.english_name]
"""
graph.query(etf_fulltext_index_query)

In [None]:
# 인덱스 생성 확인
graph.query("SHOW FULLTEXT INDEXES")

In [None]:
# 전문 검색 테스트: AI 관련 ETF 검색
cypher_query = """
// 전문 검색 인덱스를 사용하여 ETF 노드 검색
CALL db.index.fulltext.queryNodes("etf_name_fulltext", $search_term)
// 검색된 노드와 관련도 점수 반환
YIELD node, score
// 결과 반환: ETF ID, 이름, 영문 이름, 검색 관련도 점수
RETURN node.id AS ETF_ID, node.name AS ETF_Name, 
       node.english_name AS ETF_English_Name, score AS SearchRelevance
// 검색 관련도 점수 기준으로 내림차순 정렬
ORDER BY SearchRelevance DESC
// 상위 5개 결과만 표시
LIMIT 5
"""
results = graph.query(cypher_query, params={"search_term": "ai"})

for result in results:
    print(f"{result['ETF_Name']} ({result['ETF_English_Name']}) - 관련도: {result['SearchRelevance']}")
print()

In [None]:
# 전문 검색과 그래프 탐색 결합: AI 관련 ETF와 연결된 기술 찾기
cypher_query = """
// 전문 검색 인덱스를 사용하여 'AI'가 포함된 ETF 노드 검색
CALL db.index.fulltext.queryNodes("etf_name_fulltext", $search_term)
YIELD node as etf, score

// 검색된 ETF 노드에서 FOCUSES_ON 관계를 통해 연결된 Technology 노드 찾기
MATCH (etf)-[:FOCUSES_ON]->(tech:Technology)

// 결과 반환: ETF 이름, 검색 관련도 점수, 연결된 기술 목록
RETURN etf.name AS ETF_Name, score AS SearchRelevance, 
       collect(tech.name) AS RelatedTechnologies

// 검색 관련도 점수 기준으로 내림차순 정렬하고 상위 5개만 반환
ORDER BY SearchRelevance DESC
LIMIT 5
"""
results = graph.query(cypher_query, params={"search_term": "AI"})

for result in results:
    print(f"{result['ETF_Name']} (관련도: {result['SearchRelevance']})")
    if result['RelatedTechnologies']:
        print(f"  관련 기술: {', '.join(result['RelatedTechnologies'])}")
    else:
        print("  관련 기술 정보 없음")
    print()

In [None]:
# 전문 검색 한글 테스트: '신재생 에너지' 관련 ETF 검색
cypher_query = """
// 전문 검색 인덱스를 사용하여 ETF 노드 검색
CALL db.index.fulltext.queryNodes("etf_name_fulltext", $search_term)
// 검색된 노드와 관련도 점수 반환
YIELD node, score
// 결과 반환: ETF ID, 이름, 영문 이름, 검색 관련도 점수
RETURN node.id AS ETF_ID, node.name AS ETF_Name, 
       node.english_name AS ETF_English_Name, score AS SearchRelevance
// 검색 관련도 점수 기준으로 내림차순 정렬
ORDER BY SearchRelevance DESC
// 상위 5개 결과만 표시
LIMIT 5
"""
results = graph.query(cypher_query, params={"search_term": "신재생 에너지"})

for result in results:
    print(f"{result['ETF_Name']} ({result['ETF_English_Name']}) - 관련도: {result['SearchRelevance']}")
    print()

In [27]:
# 한국어를 지원하는 토크나이저를 적용하여 인덱스 생성 (기존 인덱스 삭제 후 생성)
# 먼저 기존 인덱스 삭제
cypher_query = """
DROP INDEX etf_name_fulltext IF EXISTS
"""
graph.query(cypher_query)

[]

In [28]:
# 한국어의 경우 cjk(Chinese, Japanese, Korean)가 통합된 analyzer를 지원
# 추가로 eventually_consistent 옵션을 사용하여 인덱스 성능 향상
cypher_query = """
CREATE FULLTEXT INDEX etf_name_fulltext IF NOT EXISTS
FOR (e:ETF) ON EACH [e.name, e.english_name]
OPTIONS {
  indexConfig: {
    `fulltext.analyzer`: 'cjk',
    `fulltext.eventually_consistent`: true
  }
}
"""
graph.query(cypher_query)

[]

In [29]:
# 인덱스 생성 확인
graph.query("SHOW FULLTEXT INDEXES")

[{'id': 14,
  'name': 'etf_name_fulltext',
  'state': 'ONLINE',
  'populationPercent': 100.0,
  'type': 'FULLTEXT',
  'entityType': 'NODE',
  'labelsOrTypes': ['ETF'],
  'properties': ['name', 'english_name'],
  'indexProvider': 'fulltext-1.0',
  'owningConstraint': None,
  'lastRead': None,
  'readCount': None}]

In [30]:
# 전문 검색 한글 테스트: '신재생 에너지' 관련 ETF 검색 (cjk analyzer로 한국어 지원)
cypher_query = """
// 전문 검색 인덱스를 사용하여 ETF 노드 검색
CALL db.index.fulltext.queryNodes("etf_name_fulltext", $search_term)
// 검색된 노드와 관련도 점수 반환
YIELD node, score
// 결과 반환: ETF ID, 이름, 영문 이름, 검색 관련도 점수
RETURN node.id AS ETF_ID, node.name AS ETF_Name, 
       node.english_name AS ETF_English_Name, score AS SearchRelevance
// 검색 관련도 점수 기준으로 내림차순 정렬
ORDER BY SearchRelevance DESC
// 상위 5개 결과만 표시
LIMIT 5
"""
results = graph.query(cypher_query, params={"search_term": "신재생 에너지"})

for result in results:
    print(f"{result['ETF_Name']} ({result['ETF_English_Name']}) - 관련도: {result['SearchRelevance']}")
print()

KODEX K-신재생에너지액티브 (KODEX K-Renewable Energy Active) - 관련도: 5.904680252075195



---

### 2.3 **Text2cypher 이용한 ETF 추천**

#### 1) **스키마 정보 확인**

- LLM이 Cypher 쿼리를 생성하려면 그래프 데이터베이스의 스키마 정보가 필요

In [31]:
# 기본 스키마 정보 확인
graph.refresh_schema()
print(graph.schema)

Node properties:
- **ETF**
  - `id`: STRING Example: "ETF471760"
  - `website`: STRING Example: "http://www.tigeretf.com"
  - `code`: INTEGER Min: 69500, Max: 499150
  - `basic_info`: STRING Example: "- 이 ETF는 국내에 상장된 주식을 주된 투자대상자산으로 하며, “iSelect AI반도"
  - `tracking_multiplier`: FLOAT Min: 1.0, Max: 2.0
  - `fund_type`: STRING Available options: ['수익증권형']
  - `english_name`: STRING Example: "TIGER AI Semiconductor Core Tech"
  - `base_asset`: STRING Example: "주식|업종섹터|업종테마"
  - `tax_type`: STRING Available options: ['비과세', '배당소득세(보유기간과세)', '배당소득세(해외주식투자전용ETF)', '배당소득세(분리과세부동산ETF)']
  - `ap_company`: STRING Example: "미래에셋|NH|키움|하이|BNK|한국|이베스트|대신|유진|신영|DB|신한|삼성|메리츠"
  - `total_fee`: FLOAT Min: 0.0099, Max: 0.99
  - `name`: STRING Example: "TIGER AI반도체핵심공정"
  - `base_market`: STRING Example: "국내|코스피|코스닥"
  - `listing_date`: STRING Example: "2023-11-21"
  - `investment_notice`: STRING Example: "- 이 ETF의 수익률은 보수 또는 비용 등 이 ETF의 순자산가치에 부의 영향을 미치는 "
  - `index_name`: STRING Example: "iSelect AI

#### 2) **GraphCypherQAChain 설정**

- `GraphCypherQAChain`은 LangChain에서 제공하는 체인으로, 자연어 질문을 Cypher 쿼리로 변환하고 그 결과를 바탕으로 답변을 생성

- 작동 과정:
    1. 사용자의 자연어 질문 입력
    2. LLM을 사용하여 질문을 Cypher 쿼리로 변환
    3. 생성된 Cypher 쿼리를 Neo4j 데이터베이스에 실행
    4. 쿼리 결과를 LLM에 전달하여 자연어 답변 생성

- 주요 구성 요소
    - `cypher_generation_chain`: 자연어를 Cypher 쿼리로 변환하는 체인
    - `qa_chain`: 쿼리 결과를 바탕으로 답변을 생성하는 체인
    - `graph`: Neo4j 그래프 데이터베이스 연결 객체
    - `graph_schema`: 그래프 데이터베이스의 스키마 정보

In [36]:
from langchain_neo4j import GraphCypherQAChain
from langchain_openai import ChatOpenAI

# LLM 모델 설정
llm = ChatOpenAI(model="gpt-5-nano", temperature=0)

# GraphCypherQAChain 생성
cypher_chain = GraphCypherQAChain.from_llm(
    llm=llm,
    graph=graph,  
    validate_cypher=True,  # Cypher 쿼리 유효성 검사
    return_intermediate_steps=True,  # 중간 단계 결과 반환
    allow_dangerous_requests=True,  # DB에 영향을 줄 수 있음을 인지하고 쿼리 실행을 허용
    cypher_kwargs={"timeout": 60},  # Cypher 쿼리 실행 시간 제한
    top_k=5  # 반환할 최대 결과 수
)

In [37]:
# 예시 질문 쿼리
cypher_chain.invoke({"query": "글로벌 인프라에 투자하는 ETF는 무엇인가요?"})

{'query': '글로벌 인프라에 투자하는 ETF는 무엇인가요?',
 'result': 'TIGER S&P글로벌인프라(합성)와 RISE 글로벌데이터센터리츠(합성)가 글로벌 인프라에 투자하는 ETF입니다.',
 'intermediate_steps': [{'query': "MATCH (e:ETF)\nOPTIONAL MATCH (e)-[:INVESTS_IN]->(mk:Market)\nOPTIONAL MATCH (e)-[:FOCUSES_ON]->(sec:Sector)\nOPTIONAL MATCH (e)-[:FOCUSES_ON]->(tech:Technology)\nOPTIONAL MATCH (e)-[:FOCUSES_ON]->(theme:InvestmentTheme)\nWITH e, collect(DISTINCT mk.name) AS markets, collect(DISTINCT sec.name) AS sectors, collect(DISTINCT tech.name) AS technologies, collect(DISTINCT theme.name) AS themes\nWHERE any(n IN markets WHERE toLower(n) CONTAINS 'global' OR toLower(n) CONTAINS '글로벌')\n   OR any(n IN sectors WHERE toLower(n) CONTAINS '인프라' OR toLower(n) CONTAINS 'infra')\n   OR any(n IN technologies WHERE toLower(n) CONTAINS '인프라' OR toLower(n) CONTAINS 'infra')\n   OR any(n IN themes WHERE toLower(n) CONTAINS '인프라' OR toLower(n) CONTAINS 'infra')\nRETURN DISTINCT e.id AS ETF_id, e.name AS ETF_name, markets, sectors, technologies, themes"},
  {'c

In [42]:
from langchain.prompts import PromptTemplate
from langchain_neo4j import GraphCypherQAChain
from langchain_openai import ChatOpenAI

CYPHER_GENERATION_TEMPLATE = """
당신은 질문을 Cypher로 번역하는 Neo4j 전문가입니다.
스키마: {schema}

중요사항: 
- Cypher 쿼리에서 APOC 함수를 사용하지 마세요!
- 전문 검색을 위해서는 반드시 "etf_name_fulltext" 인덱스 이름만 사용하세요
- 전문 검색의 올바른 형식은 다음과 같습니다:
  CALL db.index.fulltext.queryNodes("etf_name_fulltext", "검색어")
  YIELD node, score
- 펀드 이름이나 ETF 이름에서 키워드를 검색할 때는 항상 전문 검색을 사용하세요
- "RETURN *" 또는 "RETURN DISTINCT *"를 변수 없이 사용하지 마세요
- 항상 "RETURN node.name, node.code"와 같이 명시적인 반환 변수를 지정하세요
- 모든 MATCH 패턴에는 최소한 하나의 변수가 정의되어 있어야 합니다
- RETURN 문에서 사용하기 전에 항상 변수를 정의하세요
- 변수 이름은 소문자로 사용하고 이름 지정에 일관성을 유지하세요
- 전문 검색 쿼리는 반드시 다음과 같은 형식으로 작성하세요:
  CALL db.index.fulltext.queryNodes("etf_name_fulltext", "검색어")
  YIELD node, score
  RETURN node.name AS ETF_Name, node.english_name AS ETF_English_Name, score AS SearchRelevance

질문: {question}
"""

cypher_prompt = PromptTemplate(
    template=CYPHER_GENERATION_TEMPLATE,
    input_variables=["schema", "question"],
)

# ETF QA를 위한 응답 생성 프롬프트
QA_TEMPLATE = """
당신은 ETF 데이터베이스 분석 전문가로서 ETF 데이터에 대한 명확하고 간결한 정보를 한국어로 제공합니다.

질문: {question}
검색 결과: {context}

응답 가이드라인:
- 검색 결과에서 핵심 정보를 요약하세요
- ETF 데이터에 대한 명확하고 객관적인 개요를 제공하세요
- 전문적이고 유익한 톤을 사용하세요
- ETF 데이터의 중요한 패턴이나 추세를 강조하세요
- 컨텍스트가 부족하거나 근거가 없을 경우 정보가 부족하다고 명확히 언급하세요
- 추측이나 개인적인 해석은 피하세요
- 데이터베이스에서 관련 정보를 찾을 수 없는 경우, 정확한 정보를 제공할 수 없다고 명시하세요

응답 형식:
- 간략한 발견 요약으로 시작하세요
- 여러 ETF가 발견된 경우 간결한 개요를 제공하세요
- 가독성을 위해 글머리 기호나 짧은 단락을 사용하세요
- 상장일, 수수료율, 투자 테마, 시장 등과 같은 관련 세부 정보를 포함하세요
- 수치 데이터나 기술 용어를 쉽게 이해할 수 있는 언어로 번역하세요

응답 구조 예시:
"분석 결과: [주요 발견 사항 요약]

주요 특징:
- [첫 번째 중요한 통찰]
- [두 번째 중요한 통찰]

추가 정보: [필요한 경우 추가 설명]"
"""

qa_prompt = PromptTemplate(
    template=QA_TEMPLATE,
    input_variables=["question", "context"],
)

# LLM 모델 설정
llm = ChatOpenAI(model="gpt-5", temperature=0)

# GraphCypherQAChain 생성
cypher_chain = GraphCypherQAChain.from_llm(
    llm=llm,
    graph=graph,
    cypher_prompt=cypher_prompt,  # 커스텀 프롬프트 설정
    qa_prompt=qa_prompt,  # 커스텀 QA 프롬프트 설정
    validate_cypher=True,  # Cypher 쿼리 유효성 검사
    return_intermediate_steps=True,  # 중간 단계 결과 반환
    allow_dangerous_requests=True,  # DB에 영향을 줄 수 있음을 인지하고 쿼리 실행을 허용
    cypher_kwargs={"timeout": 60},  # Cypher 쿼리 실행 시간 제한
    top_k=5  # 반환할 최대 결과 수
)

In [43]:
# 예시 질문 쿼리
cypher_chain.invoke({"query": "글로벌 인프라에 투자하는 ETF는 무엇인가요?"})

{'query': '글로벌 인프라에 투자하는 ETF는 무엇인가요?',
 'result': '분석 결과: 검색된 데이터에서는 글로벌 인프라에 투자하는 ETF로 1종이 확인되었습니다.\n\n주요 특징:\n- ETF명: TIGER S&P글로벌인프라(합성)\n- 영문명: TIGER SYNTH-S&P GLOBAL INFRASTRUCTURE\n- 투자 테마: S&P 글로벌 인프라 관련 지수에 연동된 상품으로, 글로벌 인프라 섹터에 대한 분산 노출 제공이 목적임을 상품명에서 확인할 수 있습니다.\n- 복제 방식: 명칭의 ‘합성’ 표기로 보아 파생상품을 활용한 합성복제 구조로 추정됩니다.\n\n정보 한계:\n- 상장일, 총보수(수수료), 상장시장, 배당 정책, 환헤지 여부 등 핵심 세부 정보는 제공된 데이터에 포함되어 있지 않습니다. 따라서 해당 항목에 대해 정확한 정보를 제시할 수 없습니다.\n\n추가 정보:\n- 필요하시면 상장시장, 보수, 지수 상세 구성(산업·국가 비중), 분배금 이력, 거래량/스프레드 등 추가 메트릭 확인을 위한 확장 검색을 진행하겠습니다.',
 'intermediate_steps': [{'query': 'CALL db.index.fulltext.queryNodes("etf_name_fulltext", \'("글로벌" AND (인프라 OR 인프라스트럭처 OR 사회기반시설)) OR "글로벌인프라" OR "global infrastructure" OR "global infra"\')\nYIELD node, score\nRETURN node.name AS ETF_Name, node.english_name AS ETF_English_Name, score AS SearchRelevance\nORDER BY score DESC'},
  {'context': [{'ETF_Name': 'TIGER S&P글로벌인프라(합성)',
     'ETF_English_Name': 'TIGER SYNTH-S&P GLOBAL INFRASTRUCTURE',
     'Search

#### 3) **Few-shot Prompt**

In [47]:
from langchain_core.example_selectors import SemanticSimilarityExampleSelector
from langchain_openai import OpenAIEmbeddings
from langchain_neo4j import Neo4jVector

# ETF 관련 few-shot 예제
ETF_EXAMPLES = [
    {
        "question": "인공지능 기술에 투자하는 ETF는 무엇인가요?",
        "query": "MATCH (e:ETF)-[:FOCUSES_ON]->(t:Technology {name: '인공지능'}) RETURN e.korean_name, e.code, e.basic_info LIMIT 5",
    },
    {
        "question": "미래에셋자산운용에서 관리하는 ETF 중 해외 시장에 투자하는 것은?",
        "query": "MATCH (e:ETF)-[:MANAGED_BY]->(:AssetManager {name: '미래에셋자산운용'}), (e)-[:INVESTS_IN]->(:Market {name: '해외'}) RETURN e.korean_name, e.code, e.base_market LIMIT 5",
    },
    {
        "question": "총 보수가 0.5% 미만인 주식형 ETF는 무엇인가요?",
        "query": "MATCH (e:ETF)-[:INVESTS_IN]->(:AssetClass {name: '주식'}) WHERE e.total_fee < 0.5 RETURN e.korean_name, e.code, e.total_fee ORDER BY e.total_fee ASC LIMIT 5",
    },
    {
        "question": "신재생에너지 테마 ETF 중 상장일이 가장 최근인 것은?",
        "query": "MATCH (e:ETF)-[:FOCUSES_ON]->(:InvestmentTheme {name: '신재생에너지'}) RETURN e.korean_name, e.code, e.listing_date ORDER BY e.listing_date DESC LIMIT 5",
    },
    {
        "question": "반도체 섹터에 투자하는 ETF 중 총 보수가 가장 낮은 것은?",
        "query": "MATCH (e:ETF)-[:BELONGS_TO]->(:Sector {name: '반도체'}) RETURN e.korean_name, e.code, e.total_fee ORDER BY e.total_fee ASC LIMIT 5",
    },
    {
        "question": "레버리지(추적배수 2배) ETF 중 국내 시장에 투자하는 것은?",
        "query": "MATCH (e:ETF)-[:INVESTS_IN]->(:Market {name: '국내'}) WHERE e.tracking_multiplier = 2.0 RETURN e.korean_name, e.code, e.tracking_multiplier LIMIT 5",
    },
    {
        "question": "원자력 테마에 투자하는 ETF 중 상장일이 가장 오래된 것은?",
        "query": "MATCH (e:ETF)-[:FOCUSES_ON]->(:InvestmentTheme {name: '원자력'}) RETURN e.korean_name, e.code, e.listing_date ORDER BY e.listing_date ASC LIMIT 5",
    },
    {
        "question": "비과세 혜택이 있는 ETF 중 해외 주식에 투자하는 것은?",
        "query": "MATCH (e:ETF)-[:INVESTS_IN]->(:AssetClass {name: '주식'}), (e)-[:INVESTS_IN]->(:Market {name: '해외'}) WHERE e.tax_type = '비과세' RETURN e.korean_name, e.code, e.tax_type LIMIT 5",
    },
    {
        "question": "교보악사자산운용에서 관리하는 ETF는 무엇인가요?",
        "query": "MATCH (e:ETF)-[:MANAGED_BY]->(:AssetManager {name: '교보악사자산운용'}) RETURN e.korean_name, e.code, e.fund_type LIMIT 5",
    },
    {
        "question": "통화 자산에 투자하는 ETF 중 총 보수가 가장 낮은 것은?",
        "query": "MATCH (e:ETF)-[:INVESTS_IN]->(:AssetClass {name: '통화'}) RETURN e.korean_name, e.code, e.total_fee ORDER BY e.total_fee ASC LIMIT 5",
    },
    {
        "question": "시스템 반도체와 AI 기술 모두에 투자하는 ETF는 무엇인가요?",
        "query": "MATCH (e:ETF)-[:BELONGS_TO]->(s:Sector {name: '시스템 반도체'}), (e)-[:FOCUSES_ON]->(t:Technology {name: 'AI'}) RETURN e.korean_name, e.code, s.name AS sector, t.name AS technology LIMIT 5",
    },
    {
        "question": "전문 검색으로 인공지능 관련 ETF를 찾고 관련도 점수를 알려주세요.",
        "query": "CALL db.index.fulltext.queryNodes('etf_name_fulltext', 'AI') YIELD node, score RETURN node.korean_name AS ETF_Name, node.english_name AS ETF_English_Name, score AS SearchRelevance ORDER BY SearchRelevance DESC LIMIT 5",
    },
    {
        "question": "AI 관련 ETF와 연결된 기술들을 모두 찾아주세요.",
        "query": "CALL db.index.fulltext.queryNodes('etf_name_fulltext', 'AI') YIELD node as etf, score MATCH (etf)-[:FOCUSES_ON]->(tech:Technology) RETURN etf.korean_name AS ETF_Name, score AS SearchRelevance, collect(tech.name) AS RelatedTechnologies ORDER BY SearchRelevance DESC LIMIT 5",
    },
    {
        "question": "인버스 ETF 중 거래량이 가장 많은 것은?",
        "query": "MATCH (e:ETF) WHERE e.tracking_multiplier < 0 RETURN e.korean_name, e.code, e.trading_volume ORDER BY e.trading_volume DESC LIMIT 5",
    },
    {
        "question": "배당수익률이 3% 이상인 ETF 중 국내 시장에 투자하는 것은?",
        "query": "MATCH (e:ETF)-[:INVESTS_IN]->(:Market {name: '국내'}) WHERE e.dividend_yield >= 3.0 RETURN e.korean_name, e.code, e.dividend_yield ORDER BY e.dividend_yield DESC LIMIT 5",
    }
] 


# 시맨틱 유사성 기반 예제 선택기 생성
example_selector = SemanticSimilarityExampleSelector.from_examples(
    ETF_EXAMPLES, 
    OpenAIEmbeddings(model="text-embedding-3-small"), 
    Neo4jVector, 
    k=3,  # 가장 유사한 3개의 예제 선택
    input_keys=["question"],
    url=os.environ["NEO4J_URI"],
    username=os.environ["NEO4J_USERNAME"],
    password=os.environ["NEO4J_PASSWORD"],
    database=os.environ["NEO4J_DATABASE"],  # Neo4j 데이터베이스 이름
)


# 예제 선택기 테스트
example_selector.select_examples({"question": "전문 검색으로 AI 관련 ETF를 찾아서 정리해주세요."})

[{'query': "CALL db.index.fulltext.queryNodes('etf_name_fulltext', 'AI') YIELD node, score RETURN node.korean_name AS ETF_Name, node.english_name AS ETF_English_Name, score AS SearchRelevance ORDER BY SearchRelevance DESC LIMIT 5",
  'question': '전문 검색으로 인공지능 관련 ETF를 찾고 관련도 점수를 알려주세요.'},
 {'query': "CALL db.index.fulltext.queryNodes('etf_name_fulltext', 'AI') YIELD node as etf, score MATCH (etf)-[:FOCUSES_ON]->(tech:Technology) RETURN etf.korean_name AS ETF_Name, score AS SearchRelevance, collect(tech.name) AS RelatedTechnologies ORDER BY SearchRelevance DESC LIMIT 5",
  'question': 'AI 관련 ETF와 연결된 기술들을 모두 찾아주세요.'},
 {'query': "MATCH (e:ETF)-[:BELONGS_TO]->(s:Sector {name: '시스템 반도체'}), (e)-[:FOCUSES_ON]->(t:Technology {name: 'AI'}) RETURN e.korean_name, e.code, s.name AS sector, t.name AS technology LIMIT 5",
  'question': '시스템 반도체와 AI 기술 모두에 투자하는 ETF는 무엇인가요?'}]

In [48]:
load_dotenv()

True

In [49]:
from langchain_core.prompts import PromptTemplate
from langchain_core.output_parsers import StrOutputParser

# Few-shot 예제 포맷팅 함수 정의
def format_few_shot_examples(examples):
    return "\n\n".join([
        f"Question: {ex['question']}\nCypher query: {ex['query']}"
        for ex in examples
    ])

# Cypher 쿼리 생성을 위한 프롬프트 템플릿 정의
CYPHER_TEMPLATE = """
당신은 질문을 Cypher로 번역하는 Neo4j 전문가입니다.
스키마: {schema}

중요사항: 
- Cypher 쿼리에서 APOC 함수를 사용하지 마세요!
- 전문 검색을 위해서는 반드시 "'etf_name_fulltext'" 인덱스 이름만 사용하세요
- 전문 검색의 올바른 형식은 다음과 같습니다:
  CALL db.index.fulltext.queryNodes("etf_name_fulltext", "검색어")
  YIELD node, score
- 펀드 이름이나 ETF 이름에서 키워드를 검색할 때는 항상 전문 검색을 사용하세요
- "RETURN *" 또는 "RETURN DISTINCT *"를 변수 없이 사용하지 마세요
- 항상 "RETURN node.name, node.code"와 같이 명시적인 반환 변수를 지정하세요
- 모든 MATCH 패턴에는 최소한 하나의 변수가 정의되어 있어야 합니다
- RETURN 문에서 사용하기 전에 항상 변수를 정의하세요
- 변수 이름은 소문자로 사용하고 이름 지정에 일관성을 유지하세요
- 전문 검색 쿼리는 반드시 다음과 같은 형식으로 작성하세요:
  CALL db.index.fulltext.queryNodes("etf_name_fulltext", "검색어")
  YIELD node, score
  RETURN node.name AS ETF_Name, node.english_name AS ETF_English_Name, score AS SearchRelevance

Few-shot Examples:
{few_shot_examples}

Question: {question}
Cypher query:
"""

CYPHER_GENERATION_PROMPT = PromptTemplate(
    input_variables=["schema", "question", "few_shot_examples"], 
    template=CYPHER_TEMPLATE
)

# Text2Cypher 체인 생성
text2cypher_chain = (
    {
        "question": lambda x: x["question"],
        "schema": lambda x: graph.schema,
        "few_shot_examples": lambda x: format_few_shot_examples(
            example_selector.select_examples({"question": x["question"]})
        )
    }
    | CYPHER_GENERATION_PROMPT 
    | llm 
    | StrOutputParser()
)

# Text2Cypher 체인 테스트
cypher_query = text2cypher_chain.invoke({"question": "전문 검색으로 AI 관련 ETF를 찾고 관련도 점수를 알려주세요."})
print(f"Cypher query: {cypher_query}")

# 쿼리 실행
result = graph.query(cypher_query)
print(result)

Cypher query: CALL db.index.fulltext.queryNodes('etf_name_fulltext', 'AI')
YIELD node, score
RETURN node.name AS ETF_Name, node.english_name AS ETF_English_Name, score AS SearchRelevance
ORDER BY SearchRelevance DESC
LIMIT 5
[{'ETF_Name': 'TIGER 글로벌AI&로보틱스 INDXX', 'ETF_English_Name': 'TIGER Global AI & Robotics', 'SearchRelevance': 1.378050684928894}, {'ETF_Name': 'SOL 미국AI소프트웨어', 'ETF_English_Name': 'SOL US AI Software', 'SearchRelevance': 1.378050684928894}, {'ETF_Name': 'TIGER 글로벌AI인프라액티브', 'ETF_English_Name': 'TIGER GLOBAL AI INFRA ACTIVE', 'SearchRelevance': 1.2547351121902466}, {'ETF_Name': 'TIGER 글로벌온디바이스AI', 'ETF_English_Name': 'TIGER GLOBAL ON DEVICE AI ETF', 'SearchRelevance': 1.2547351121902466}, {'ETF_Name': 'TIGER AI반도체핵심공정', 'ETF_English_Name': 'TIGER AI Semiconductor Core Tech', 'SearchRelevance': 1.2547351121902466}]


In [50]:
from langchain_neo4j import GraphCypherQAChain
from langchain_openai import ChatOpenAI


# LLM 모델 설정
llm = ChatOpenAI(model="gpt-5", temperature=0)

# 커스텀 프롬프트 적용 GraphCypherQAChain 생성
cypher_qa_chain = GraphCypherQAChain.from_llm(
    llm=llm,
    graph=graph,
    verbose=True,
    
    allow_dangerous_requests=True,
    return_intermediate_steps=True,
    
    # few_shot_examples 처리를 위한 cypher_llm_chain_kwargs 설정
    cypher_llm_chain_kwargs={
        "llm": llm,
        "prompt": CYPHER_GENERATION_PROMPT
    }
)

# 쿼리 실행 함수
def query_graph(question):
    # 쿼리 실행
    result = cypher_qa_chain.invoke({
        "query": question,
        "few_shot_examples": format_few_shot_examples(
            example_selector.select_examples({"question": question})
        )
    })
    return result

# 예시 쿼리 테스트
question = "미래에셋자산운용에서 운용하는 ETF는 무엇인가요??"
result = query_graph(question)




[1m> Entering new GraphCypherQAChain chain...[0m
Generated Cypher:
[32;1m[1;3mMATCH (am:AssetManager {name: "미래에셋자산운용"})<-[:MANAGED_BY]-(e:ETF)
RETURN e.id AS etfId, e.name AS name, e.code AS code, e.english_name AS englishName, e.listing_date AS listingDate
ORDER BY name;[0m
Full Context:
[32;1m[1;3m[{'etfId': 'ETF139270', 'name': 'TIGER 200금융', 'code': 139270, 'englishName': 'TIGER 200 FINANCIALS', 'listingDate': '2011-04-06'}, {'etfId': 'ETF227550', 'name': 'TIGER 200산업재', 'code': 227550, 'englishName': 'TIGER 200 INDUSTRIALS', 'listingDate': '2015-09-23'}, {'etfId': 'ETF252710', 'name': 'TIGER 200선물인버스2X', 'code': 252710, 'englishName': 'TIGER 200 Futures Inverse 2X', 'listingDate': '2016-09-22'}, {'etfId': 'ETF139240', 'name': 'TIGER 200철강소재', 'code': 139240, 'englishName': 'TIGER 200 STEEL&', 'listingDate': '2011-04-06'}, {'etfId': 'ETF315270', 'name': 'TIGER 200커뮤니케이션서비스', 'code': 315270, 'englishName': 'TIGER 200CS', 'listingDate': '2019-01-15'}, {'etfId': 'ETF480260',

In [51]:
# 결과 출력
for k, v in result.items():
    print(f"{k}:\n{v}")
    print("-" * 100)

query:
미래에셋자산운용에서 운용하는 ETF는 무엇인가요??
----------------------------------------------------------------------------------------------------
few_shot_examples:
Question: 미래에셋자산운용에서 관리하는 ETF 중 해외 시장에 투자하는 것은?
Cypher query: MATCH (e:ETF)-[:MANAGED_BY]->(:AssetManager {name: '미래에셋자산운용'}), (e)-[:INVESTS_IN]->(:Market {name: '해외'}) RETURN e.korean_name, e.code, e.base_market LIMIT 5

Question: 교보악사자산운용에서 관리하는 ETF는 무엇인가요?
Cypher query: MATCH (e:ETF)-[:MANAGED_BY]->(:AssetManager {name: '교보악사자산운용'}) RETURN e.korean_name, e.code, e.fund_type LIMIT 5

Question: 총 보수가 0.5% 미만인 주식형 ETF는 무엇인가요?
Cypher query: MATCH (e:ETF)-[:INVESTS_IN]->(:AssetClass {name: '주식'}) WHERE e.total_fee < 0.5 RETURN e.korean_name, e.code, e.total_fee ORDER BY e.total_fee ASC LIMIT 5
----------------------------------------------------------------------------------------------------
result:
다음 ETF입니다:
- TIGER 200금융 (139270)
- TIGER 200산업재 (227550)
- TIGER 200선물인버스2X (252710)
- TIGER 200철강소재 (139240)
- TIGER 200커뮤니케이션서비스 (315

In [52]:
from langchain_neo4j import GraphCypherQAChain
from langchain_core.prompts import ChatPromptTemplate

# ETF 추천을 위한 프롬프트 템플릿 정의
ETF_RECOMMENDATION_TEMPLATE = """
당신은 ETF 데이터베이스 분석 전문가로서 ETF 데이터에 대한 명확하고 간결한 정보를 한국어로 제공합니다.

질문: {question}
검색 결과: {context}

응답 가이드라인:
- 검색 결과에서 핵심 정보를 요약하세요
- ETF 데이터에 대한 명확하고 객관적인 개요를 제공하세요
- 전문적이고 유익한 톤을 사용하세요
- ETF 데이터의 중요한 패턴이나 추세를 강조하세요
- 컨텍스트가 부족하거나 근거가 없을 경우 정보가 부족하다고 명확히 언급하세요
- 추측이나 개인적인 해석은 피하세요
- 데이터베이스에서 관련 정보를 찾을 수 없는 경우, 정확한 정보를 제공할 수 없다고 명시하세요

응답 형식:
- 간략한 발견 요약으로 시작하세요
- 여러 ETF가 발견된 경우 간결한 개요를 제공하세요
- 가독성을 위해 글머리 기호나 짧은 단락을 사용하세요
- 상장일, 수수료율, 투자 테마, 시장 등과 같은 관련 세부 정보를 포함하세요
- 수치 데이터나 기술 용어를 쉽게 이해할 수 있는 언어로 번역하세요

응답 구조 예시:
"분석 결과: [주요 발견 사항 요약]

주요 특징:
- [첫 번째 중요한 통찰]
- [두 번째 중요한 통찰]

추가 정보: [필요한 경우 추가 설명]"
"""

# ETF 추천 프롬프트 템플릿 생성
etf_recommendation_prompt = ChatPromptTemplate.from_template(ETF_RECOMMENDATION_TEMPLATE)


# ETF 추천을 위한 GraphCypherQAChain 생성
etf_qa_chain = GraphCypherQAChain.from_llm(
    llm=llm,
    graph=graph,  
    verbose=True,
    cypher_prompt=CYPHER_GENERATION_PROMPT,
    qa_prompt=etf_recommendation_prompt,
    validate_cypher=True,
    return_intermediate_steps=True,
    allow_dangerous_requests=True,
    top_k=5,
    return_direct=False,
    
    # few_shot_examples 처리를 위한 cypher_llm_chain_kwargs 설정
    cypher_llm_chain_kwargs={
        "llm": llm,
        "prompt": CYPHER_GENERATION_PROMPT
    }
)

# 쿼리 실행 함수
def query_graph(question):
    # 쿼리 실행
    result = etf_qa_chain.invoke({
        "query": question,
        "few_shot_examples": format_few_shot_examples(
            example_selector.select_examples({"question": question})
        )
    })
    return result

# 예시 쿼리 테스트
question = "전문 검색으로 AI 관련 ETF를 찾고 관련도 점수를 알려주세요."
result = query_graph(question)



[1m> Entering new GraphCypherQAChain chain...[0m
Generated Cypher:
[32;1m[1;3mCALL db.index.fulltext.queryNodes('etf_name_fulltext', 'AI')
YIELD node, score
RETURN node.name AS ETF_Name, node.english_name AS ETF_English_Name, score AS SearchRelevance
ORDER BY SearchRelevance DESC
LIMIT 5[0m
Full Context:
[32;1m[1;3m[{'ETF_Name': 'TIGER 글로벌AI&로보틱스 INDXX', 'ETF_English_Name': 'TIGER Global AI & Robotics', 'SearchRelevance': 1.378050684928894}, {'ETF_Name': 'SOL 미국AI소프트웨어', 'ETF_English_Name': 'SOL US AI Software', 'SearchRelevance': 1.378050684928894}, {'ETF_Name': 'TIGER 글로벌AI인프라액티브', 'ETF_English_Name': 'TIGER GLOBAL AI INFRA ACTIVE', 'SearchRelevance': 1.2547351121902466}, {'ETF_Name': 'TIGER 글로벌온디바이스AI', 'ETF_English_Name': 'TIGER GLOBAL ON DEVICE AI ETF', 'SearchRelevance': 1.2547351121902466}, {'ETF_Name': 'TIGER AI반도체핵심공정', 'ETF_English_Name': 'TIGER AI Semiconductor Core Tech', 'SearchRelevance': 1.2547351121902466}][0m

[1m> Finished chain.[0m


In [55]:
print(result['result'])

분석 결과: AI 관련 ETF 5종이 식별되었으며, 관련도 점수는 상위(약 1.378)와 차상위(약 1.255) 두 구간으로 군집됩니다.

주요 특징:
- 모두 AI 핵심·연관 서브테마(로보틱스, 소프트웨어, 인프라, 온디바이스, 반도체)를 직접적으로 명시
- 발행사 측면에서 TIGER 계열 4종, SOL 1종으로 특정 브랜드 편중
- 최상위 관련도는 글로벌 AI&로보틱스, 미국 AI 소프트웨어 테마에 해당

ETF별 요약(관련도 점수):
- TIGER 글로벌AI&로보틱스 INDXX (TIGER Global AI & Robotics): 1.378
- SOL 미국AI소프트웨어 (SOL US AI Software): 1.378
- TIGER 글로벌AI인프라액티브 (TIGER GLOBAL AI INFRA ACTIVE): 1.255
- TIGER 글로벌온디바이스AI (TIGER GLOBAL ON DEVICE AI ETF): 1.255
- TIGER AI반도체핵심공정 (TIGER AI Semiconductor Core Tech): 1.255

추가 정보:
- 상장일, 총보수/수수료, 상장시장, 추종지수 등 세부 항목은 제공된 데이터에 없습니다(정보 부족). 해당 항목 확인을 위해서는 추가 데이터가 필요합니다.
- 관련도 점수는 검색 엔진의 유사도 지표로 해석되며, 투자 적합성이나 성과를 보장하지 않습니다.


In [54]:
print(result['intermediate_steps'])

[{'query': "CALL db.index.fulltext.queryNodes('etf_name_fulltext', 'AI')\nYIELD node, score\nRETURN node.name AS ETF_Name, node.english_name AS ETF_English_Name, score AS SearchRelevance\nORDER BY SearchRelevance DESC\nLIMIT 5"}, {'context': [{'ETF_Name': 'TIGER 글로벌AI&로보틱스 INDXX', 'ETF_English_Name': 'TIGER Global AI & Robotics', 'SearchRelevance': 1.378050684928894}, {'ETF_Name': 'SOL 미국AI소프트웨어', 'ETF_English_Name': 'SOL US AI Software', 'SearchRelevance': 1.378050684928894}, {'ETF_Name': 'TIGER 글로벌AI인프라액티브', 'ETF_English_Name': 'TIGER GLOBAL AI INFRA ACTIVE', 'SearchRelevance': 1.2547351121902466}, {'ETF_Name': 'TIGER 글로벌온디바이스AI', 'ETF_English_Name': 'TIGER GLOBAL ON DEVICE AI ETF', 'SearchRelevance': 1.2547351121902466}, {'ETF_Name': 'TIGER AI반도체핵심공정', 'ETF_English_Name': 'TIGER AI Semiconductor Core Tech', 'SearchRelevance': 1.2547351121902466}]}]
