In [None]:
!pip install sqlalchemy psycopg2-binary openai feedparser requests beautifulsoup4 langchain faiss-cpu langchain_openai langchain_community

Collecting psycopg2-binary
  Downloading psycopg2_binary-2.9.11-cp312-cp312-manylinux2014_x86_64.manylinux_2_17_x86_64.whl.metadata (4.9 kB)
Collecting feedparser
  Downloading feedparser-6.0.12-py3-none-any.whl.metadata (2.7 kB)
Collecting faiss-cpu
  Downloading faiss_cpu-1.13.1-cp310-abi3-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl.metadata (7.6 kB)
Collecting langchain_openai
  Downloading langchain_openai-1.1.3-py3-none-any.whl.metadata (2.6 kB)
Collecting langchain_community
  Downloading langchain_community-0.4.1-py3-none-any.whl.metadata (3.0 kB)
Collecting sgmllib3k (from feedparser)
  Downloading sgmllib3k-1.0.0.tar.gz (5.8 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting langchain-classic<2.0.0,>=1.0.0 (from langchain_community)
  Downloading langchain_classic-1.0.0-py3-none-any.whl.metadata (3.9 kB)
Collecting requests
  Downloading requests-2.32.5-py3-none-any.whl.metadata (4.9 kB)
Collecting dataclasses-json<0.7.0,>=0.6.7 (from langchain_community)


# 펑션콜링을 위한 함수 작성

## 뉴스 DB

In [None]:
from google.colab import userdata
import os

os.environ["OPENAI_API_KEY"] = userdata.get("OPENAI_API_KEY")

In [None]:
from langchain_openai import OpenAIEmbeddings
from langchain_community.vectorstores import FAISS, Chroma
from langchain_core.documents import Document


# 임베딩 모델 로드
news_emb = OpenAIEmbeddings(model="text-embedding-3-large")

In [None]:
DB_PATH = "/content/drive/MyDrive/금융 챗봇 에이전트/뉴스 데이터/crypto_news_db"

db = FAISS.load_local(
    DB_PATH,
    news_emb,
    allow_dangerous_deserialization=True
)

## 뉴스 함수

In [None]:
def get_crypto_news(query, top_k=5):
    results = db.similarity_search(query, k=top_k)

    return [
        {
            "title": r.metadata["title"],
            "url": r.metadata["url"],
            "published_at": r.metadata["published_at"],
            "summary": r.page_content
        }
        for r in results
    ]

## 마켓 API

In [None]:
import requests

BASE = "https://api.coingecko.com/api/v3"

In [None]:
# 공용 요청 함수
def cg_get(endpoint, params=None):
    r = requests.get(f"{BASE}{endpoint}", params=params, timeout=10)
    r.raise_for_status()
    return r.json()

In [None]:
# 메이저 코인 매핑
MAJOR_SYMBOL_MAP = {
    # 비트코인
    "btc": "bitcoin",
    "bitcoin": "bitcoin",
    "비트코인": "bitcoin",

    # 이더리움
    "eth": "ethereum",
    "ethereum": "ethereum",
    "이더리움": "ethereum",

    # 테더
    "usdt": "tether",
    "tether": "tether",
    "테더" : "tether",

    # BNB
    "bnb": "binancecoin",
    "바이낸스코인": "binancecoin",

    # 솔라나
    "sol": "solana",
    "solana": "solana",
    "솔라나": "solana",

    # 리플
    "xrp": "ripple",
    "ripple": "ripple",
    "리플": "ripple",

    # USDC
    "usdc": "usd-coin",

    # 에이다
    "ada": "cardano",
    "cardano": "cardano",
    "에이다": "cardano",

    # 도지
    "doge": "dogecoin",
    "dogecoin": "dogecoin",
    "도지": "dogecoin",
    "도지코인": "dogecoin",

    # 톤
    "ton": "toncoin",
    "toncoin": "toncoin",
    "톤코인": "toncoin",

    # 아발란체
    "avax": "avalanche-2",
    "아발란체" : "avalanche-2",

    # 트론
    "trx": "tron",
    "tron": "tron",
    "트론": "tron",

    # 체인링크
    "link": "chainlink",
    "chainlink": "chainlink",
    "체인링크": "chainlink",

    # 폴카닷
    "dot": "polkadot",
    "polkadot": "polkadot",
    "폴카닷": "polkadot",

    # 비트코인 캐시
    "bch": "bitcoin-cash",
    "bitcoin cash": "bitcoin-cash",
    "비트코인 캐시": "bitcoin-cash",

    # 라이트코인
    "ltc": "litecoin",
    "litecoin": "litecoin",
    "라이트 코인" : "litecoin",

    # 폴리곤 / 매틱
    "matic": "matic-network",
    "polygon": "matic-network",
    "폴리곤": "matic-network",
    "매틱": "matic-network",

    # 유니스왑
    "uni": "uniswap",
    "유니스왑" : "uniswap",

    # 이더리움 클래식
    "etc": "ethereum-classic",
    "이더리움 클래식" : "ethereum-classic",

    # 스택스
    "stx": "stacks",
    "스택스" : "stacks",

    # 옵티미즘
    "op": "optimism",
    "옵티미즘" : "optimism",

    # 아비트럼
    "arb": "arbitrum",
    "아비트럼" : "arbitrum",

    # 인젝티브
    "inj": "injective-protocol",
    "인젝티브" : "injective-protocol",

    # 앱토스
    "apt": "aptos",
    "앱토스" : "aptos",

    # 수이
    "sui": "sui",
    "수이": "sui",

    # 세이
    "sei": "sei-network",
    "세이": "sei-network",

    # 페페
    "pepe": "pepe",
    "페페": "pepe",

    # 시바이누
    "shib": "shiba-inu",
    "shiba": "shiba-inu",
    "shiba inu": "shiba-inu",
    "시바": "shiba-inu",
    "시바이누": "shiba-inu",

    # dogwifhat
    "wif": "dogwifcoin",
    "dogwifhat": "dogwifcoin",
    "도지" : "dogwifcoin",
    "도지코인" : "dogwifcoin",
    "도지 코인" : "dogwifcoin",

    # bonk
    "bonk": "bonk",
}


In [None]:
# id 변환
import re

def normalize_symbol(text: str) -> str:
    """
    사용자의 자연어 문장에서 코인 심볼/이름을 뽑아서
    CoinGecko id로 변환
    """

    lower = text.lower()

    # 1단계: 완전 일치(문장 전체가 코인명인 경우)
    if lower in MAJOR_SYMBOL_MAP:
        return MAJOR_SYMBOL_MAP[lower]

    # 2단계: 단어 단위로 쪼개서 찾기 (BTC, 비트코인, solana 등)
    tokens = re.findall(r"[a-z0-9\-]+|[가-힣]+", lower)

    for t in tokens:
        if t in MAJOR_SYMBOL_MAP:
            return MAJOR_SYMBOL_MAP[t]

    # 여기까지 못 찾으면 에러
    raise ValueError(f"지원하지 않는 코인입니다: {text}")


## 마켓 함수

In [None]:
# 단일 코인 가격
def get_price(symbol):
    data = cg_get(
        "/coins/markets",
        params={
            "vs_currency":"usd",
            "ids":symbol
        }
    )

    if not data:
        raise ValueError(f"No CoinGecko response for symbol: {symbol}")

    d = data[0]

    return {
        "symbol": d["symbol"].upper(),
        "name": d["name"],
        "price_usd": d["current_price"],
        "change_24h": d["price_change_percentage_24h"],
        "market_cap": d["market_cap"],
        "rank": d["market_cap_rank"],
    }


In [None]:
# 24시간 통계
def get_24h_stats(symbol = 'bitcoin'):
    data = cg_get(
        "/coins/markets",
        params = {
            "vs_currency" : "usd",
            "ids" : symbol,
        }
    )[0]

    return {
        "symbol": data["symbol"].upper(),
        "open": data["current_price"] / (1 + data["price_change_percentage_24h"]/100),
        "high_24h": data["high_24h"],
        "low_24h": data["low_24h"],
        "close": data["current_price"],
        "change_percent": data["price_change_percentage_24h"],
        "volume_24h": data["total_volume"]
    }

In [None]:
# 다종목 비교
def compare_symbols(symbols):
    ids = ",".join(symbols)

    results = cg_get(
        "/coins/markets",
        params = {
            "vs_currency" : "usd",
            "ids" : ids
        }
    )

    return [
        {
            "symbol": c["symbol"].upper(),
            "price": c["current_price"],
            "change_24h": c["price_change_percentage_24h"],
            "rank": c["market_cap_rank"]
        }
        for c in results
    ]


In [None]:
# 급등락 종목
def get_top_movers(top_n=5):

    results = cg_get(
        "/coins/markets",
        params={
            "vs_currency": "usd",
            "order": "price_change_percentage_24h_desc",
            "per_page": top_n,
            "page": 1
        }
    )

    return [
        {
            "symbol": c["symbol"].upper(),
            "name": c["name"],
            "price": c["current_price"],
            "change_24h": c["price_change_percentage_24h"]
        }
        for c in results
    ]


In [None]:
# 시총 + 랭킹

def get_market_cap(symbol="bitcoin"):
    data = cg_get(
        "/coins/markets",
        params={
            "vs_currency":"usd",
            "ids":symbol
        }
    )[0]

    return {
        "symbol": data["symbol"].upper(),
        "name": data["name"],
        "market_cap": data["market_cap"],
        "rank": data["market_cap_rank"],
        "volume_24h": data["total_volume"]
    }


In [None]:
# 트랜딩
def get_trending_coins():

    coins = cg_get("/search/trending")["coins"]

    return [
        {
            "symbol": c["item"]["symbol"],
            "name": c["item"]["name"],
            "rank": c["item"]["market_cap_rank"]
        }
        for c in coins
    ]


In [None]:
# 종합 시장 스냅샷
def get_market_snapshot():

    global_data = cg_get("/global")["data"]

    top_movers = get_top_movers(5)

    return {
        "global_market":{
            "total_market_cap_usd": global_data["total_market_cap"]["usd"],
            "total_volume_24h_usd": global_data["total_volume"]["usd"],
            "btc_dominance": global_data["market_cap_percentage"]["btc"]
        },
        "top_movers": top_movers
    }


## 코인 용어 함수

In [None]:
from langchain_community.vectorstores import FAISS
from langchain_openai import OpenAIEmbeddings

term_emb = OpenAIEmbeddings(model = "text-embedding-3-large")

crypto_words_db = FAISS.load_local(
    "/content/drive/MyDrive/금융 챗봇 에이전트/가상화폐 용어/crypto_words_db (1)",
    term_emb,
    allow_dangerous_deserialization=True
)


In [None]:
# 코인 용어
def search_crypto_term(query, top_k=3):
    results = crypto_words_db.similarity_search(query, k=top_k)

    return [
        {
            "term": r.metadata.get("term", None),
            "category": r.metadata.get("category", None),
            "definition": r.page_content
        }
        for r in results
    ]

## 포트폴리오 & 히스토리 DB

In [None]:
# import psycopg2


# conn = psycopg2.connect(
#     host="35.223.142.163",
#     port=5432,
#     database="postgres",
#     user="writer",
#     password='zY%dplKT4XeTnH$f'
# )

# print("연결 성공")

# conn.close()

In [None]:
# DATABASE_URL = "postgresql+psycopg2://writer:%23B%3Bi%257aZqV%3A%3Bc08N@35.223.142.163:5432/postgres"

# from sqlalchemy import create_engine
# from sqlalchemy.orm import sessionmaker

# engine = create_engine(DATABASE_URL)
# SessionLocal = sessionmaker(bind=engine)

In [None]:
# from sqlalchemy import create_engine, Column, BigInteger, Text, JSON, Integer, String, DateTime
# from sqlalchemy.dialects.postgresql import JSONB
# from sqlalchemy.orm import declarative_base

# Base = declarative_base()

# class TradingHistory(Base):
#     __tablename__ = "trading_history"
#     __table_args__ = {"schema": "Users2"}
#     id = Column(BigInteger, primary_key=True, autoincrement=True, comment="내부 식별자 Insert 순서 == 타임 테이블")

#     userid = Column(Text, comment="유저 아이디")

#     trade_number = Column(BigInteger, comment="거래 번호")

#     time = Column(DateTime(timezone=True), comment="거래 시간")

#     why = Column(JSONB, comment="코인 포지션 사유")

#     position = Column(JSONB, comment="코인 포지션")

#     average = Column(JSONB, comment="코인 평단가")

#     available = Column(BigInteger, comment="이용 가능 금액")

#     owner_coin = Column(JSONB, comment="보유 코인")

#     total_asset = Column(BigInteger, comment="총 자산")

#     trade = Column(JSONB, comment="거래 정보")



# # 유저 정보
# class UserInformation(Base):
#     __tablename__ = "user_information"
#     __table_args__ = {"schema": "Users2"}
#     id = Column(BigInteger, primary_key=True, autoincrement=True, comment="내부 식별자 Insert 순서 == 타임 테이블")

#     userid = Column(Text, comment="유저 아이디")

#     userinfo = Column(JSONB, comment="유저 정보")

#     usercustom = Column(JSONB, comment="커스텀 정보")

#     money = Column(JSONB, comment="돈 관련")

#     key = Column(JSONB, comment="엑세스 키")

# print("테이블 생성 완료!")

## 포트폴리오 & 히스토리 DB 함수


In [None]:
def get_user_profile(userid: str):
    db = SessionLocal()
    try:
        row = (
            db.query(UserInformation)
            .filter(UserInformation.userid == userid)
            .order_by(UserInformation.id.desc())
            .first()
        )

        if not row:
            return {"error": "User not found"}

        result = row.__dict__.copy()
        result.pop("_sa_instance_state", None)

        # API 키는 절대 LLM에 노출 금지
        if "key" in result:
            result["key"] = "ENCRYPTED"

        return result

    finally:
        db.close()


In [None]:
def get_latest_strategy(userid: str, limit: int = 5):
    db = SessionLocal()
    try:
        rows = (
            db.query(TradingHistory)
            .filter(TradingHistory.userid == userid)
            .order_by(TradingHistory.id.desc())
            .limit(limit)
            .all()
        )

        if not rows:
            return {"error": "No strategy history found"}

        results = []
        for r in rows:
            item = r.__dict__.copy()
            item.pop("_sa_instance_state", None)
            results.append(item)

        return results

    finally:
        db.close()


In [None]:
from datetime import timedelta

def get_strategy_by_date(userid: str, start_date=None, end_date=None):
    db = SessionLocal()
    try:
        query = db.query(TradingHistory).filter(TradingHistory.userid == userid)

        # 날짜 지정이 안되면 오류 처리
        if not start_date:
            return {"error": "start_date is required for date-based queries"}

        # 하루 조회: end_date 자동 생성
        if start_date and not end_date:
            end_date = start_date + timedelta(days=1)

        # 문자열이면 datetime으로 변환 (ISO8601 가정)
        if isinstance(start_date, str):
            start_date = datetime.fromisoformat(start_date)

        if end_date is None:
            end_date = start_date + timedelta(days=1)
        elif isinstance(end_date, str):
            end_date = datetime.fromisoformat(end_date)

        # 날짜 범위 필터 적용
        query = query.filter(
            TradingHistory.time >= start_date,
            TradingHistory.time < end_date
        ).order_by(TradingHistory.time.asc())

        rows = query.all()

        if not rows:
            return {"error": "No strategy history found in selected date range"}

        results = []
        for r in rows:
            item = r.__dict__.copy()
            item.pop("_sa_instance_state", None)
            results.append(item)

        return results

    finally:
        db.close()


# 함수 명세 작성

In [None]:
tools = [

# ------------------------
#  MARKET DATA TOOLS
# ------------------------

{
"type":"function",
"function":{
"name":"get_price",
"description":"Get real-time crypto price and market cap",
"parameters":{
"type":"object",
"properties":{
"symbol":{"type":"string"}
},
"required":["symbol"]
}
}
},

{
"type":"function",
"function":{
"name":"get_24h_stats",
"description":"Get 24-hour trading statistics",
"parameters":{
"type":"object",
"properties":{
"symbol":{"type":"string"}
},
"required":["symbol"]
}
}
},

{
"type":"function",
"function":{
"name":"compare_symbols",
"description":"Compare multiple coins",
"parameters":{
"type":"object",
"properties":{
"symbols":{
"type":"array",
"items":{"type":"string"}
}
},
"required":["symbols"]
}
}
},

{
"type":"function",
"function":{
"name":"get_top_movers",
"description":"Get top price gainers",
"parameters":{
"type":"object",
"properties":{
"top_n":{"type":"integer","default":5}
}
}
}
},

{
"type":"function",
"function":{
"name":"get_market_cap",
"description":"Get market capitalization data",
"parameters":{
"type":"object",
"properties":{
"symbol":{"type":"string"}
},
"required":["symbol"]
}
}
},

{
"type":"function",
"function":{
"name":"get_trending_coins",
"description":"Get trending coins",
"parameters":{
"type":"object",
"properties":{}
}
}
},

{
"type":"function",
"function":{
"name":"get_market_snapshot",
"description":"Get overall crypto market snapshot",
"parameters":{
"type":"object",
"properties":{}
}
}
},

# ------------------------
#  NEWS TOOL (RAG)
# ------------------------

{
"type":"function",
"function":{
"name":"get_crypto_news",
"description":"Search latest crypto news from RAG DB",
"parameters":{
"type":"object",
"properties":{
"query":{"type":"string"},
"top_k":{"type":"integer","default":5}
},
"required":["query"]
}
}
},

# ------------------------
#  ECONOMIC TERM TOOL (RAG)
# ------------------------

{
"type":"function",
"function":{
"name":"search_crypto_term",
"description":"Search crypto/economic terminology definitions from RAG database",
"parameters":{
"type":"object",
"properties":{
"query":{"type":"string"},
"top_k":{"type":"integer","default":3}
},
"required":["query"]
}
}
},

# ------------------------
#  PORTFOLIO DB TOOLS
# ------------------------

# 1) USER PROFILE 조회
{
"type":"function",
"function":{
"name":"get_user_profile",
"description":"Fetch full user profile from portfolio DB",
"parameters":{
"type":"object",
"properties":{
"userid":{"type":"string"}
},
"required":["userid"]
}
}
},

# 2) 최신 N개 전략 조회
{
"type":"function",
"function":{
"name":"get_latest_strategy",
"description":"Fetch the latest N trading strategy records",
"parameters":{
"type":"object",
"properties":{
"userid":{"type":"string"},
"limit":{"type":"integer","default":5}
},
"required":["userid"]
}
}
},

# 3) 날짜 기반 조회
{
"type":"function",
"function":{
"name":"get_strategy_by_date",
"description":"Fetch trading history filtered by date or date range.",
"parameters":{
"type":"object",
"properties":{
"userid":{"type":"string"},
"start_date":{
"type":"string",
"format":"date-time",
"description":"ISO8601 start date"
},
"end_date":{
"type":"string",
"format":"date-time",
"description":"ISO8601 end date (optional)"
}
},
"required":["userid", "start_date"]
}
}
}

]


# 각 함수의 반환 포맷

In [None]:
tools_return_format = [

    # -----------------------------
    # Crypto / Market Information
    # -----------------------------
    {
        "function_name": "get_crypto_news",
        "result_columns_format": {
            "title": "string",
            "url": "string",
            "published_at": "string(ISO8601)",
            "summary": "string"
        }
    },
    {
        "function_name": "search_crypto_term",
        "result_columns_format": {
            "term": "string or null",
            "category": "string or null",
            "definition": "string"
        }
    },
    {
        "function_name": "get_price",
        "result_columns_format": {
            "symbol": "string",
            "name": "string",
            "price_usd": "number",
            "change_24h": "number(percent)",
            "market_cap": "number",
            "rank": "integer"
        }
    },
    {
        "function_name": "get_24h_stats",
        "result_columns_format": {
            "symbol": "string",
            "open": "number",
            "high_24h": "number",
            "low_24h": "number",
            "close": "number",
            "change_percent": "number(percent)",
            "volume_24h": "number"
        }
    },
    {
        "function_name": "compare_symbols",
        "result_columns_format": {
            "symbol": "string",
            "price": "number",
            "change_24h": "number(percent)",
            "rank": "integer"
        }
    },
    {
        "function_name": "get_top_movers",
        "result_columns_format": {
            "symbol": "string",
            "name": "string",
            "price": "number",
            "change_24h": "number(percent)"
        }
    },
    {
        "function_name": "get_market_cap",
        "result_columns_format": {
            "symbol": "string",
            "name": "string",
            "market_cap": "number",
            "rank": "integer",
            "volume_24h": "number"
        }
    },
    {
        "function_name": "get_trending_coins",
        "result_columns_format": {
            "symbol": "string",
            "name": "string",
            "rank": "integer"
        }
    },
    {
        "function_name": "get_market_snapshot",
        "result_columns_format": {
            "global_market": {
                "total_market_cap_usd": "number",
                "total_volume_24h_usd": "number",
                "btc_dominance": "number(percent)"
            },
            "top_movers": "list(dict[symbol: string, name: string, price: number, change_24h: number])"
        }
    },

    # -----------------------------
    # User / Portfolio
    # -----------------------------
    {
        "function_name": "get_user_profile",
        "result_columns_format": {
            "userid": "string",
            "userinfo": "json",
            "usercustom": "json",
            "money": "json",
            "key": "string(ENCRYPTED)"
        }
    },
    {
        "function_name": "get_latest_strategy",
        "result_columns_format": {
            "userid": "string",
            "trade_number": "integer",
            "time": "string(ISO8601)",
            "why": "json",
            "position": "json",
            "average": "json",
            "available": "integer",
            "owner_coin": "json",
            "total_asset": "integer",
            "trade": "json"
        }
    },
    {
        "function_name": "get_strategy_by_date",
        "result_columns_format": {
            "userid": "string",
            "trade_number": "integer",
            "time": "string(ISO8601)",
            "why": "json",
            "position": "json",
            "average": "json",
            "available": "integer",
            "owner_coin": "json",
            "total_asset": "integer",
            "trade": "json"
        }
    }
]


# 학습 데이터 제작

In [None]:
question_topics = [
    "특정 코인 관련 최신 뉴스 조회",
    "시장 이슈 기반 크립토 뉴스 조회",
    "규제·ETF·해킹 관련 뉴스 조회",
    "특정 키워드 기반 암호화폐 뉴스 검색",
    "단일 코인 현재 가격 조회",
    "단일 코인 24시간 등락률 조회",
    "단일 코인 시가총액 및 순위 조회",
    "단일 코인 24시간 고가·저가 조회",
    "여러 코인 가격 비교",
    "여러 코인 24시간 변동률 비교",
    "여러 코인 시가총액 순위 비교",
    "24시간 급등 코인 조회",
    "현재 트렌딩 코인 조회",
    "전체 암호화폐 시장 요약 조회",
    "비트코인 도미넌스 확인",
    "암호화폐 용어 정의 조회",
    "경제·금융 개념 설명 요청",
    "투자 심리 용어 설명 요청",
    "시장 지표 관련 용어 설명",
    "내 사용자 프로필 정보 조회",
    "내 계정 설정 정보 조회",
    "내 자산 관련 기본 정보 조회",
    "최근 자동매매 전략 조회",
    "최근 N개의 거래 전략 조회",
    "최근 매매 내역 요약 요청",
    "오늘 거래 내역 조회",
    "어제 거래 내역 조회",
    "지난주 거래 내역 조회",
    "특정 날짜 거래 내역 조회",
    "특정 기간 거래 내역 조회",
]


In [None]:
unsupported_scenarios = [
    "특정 코인 매수 여부 판단 요청",
    "특정 코인 매도 시점 추천",
    "가격 상승/하락 예측 요청",
    "단기·중기·장기 투자 전략 추천",
    "수익률 보장 요청",
    "포트폴리오 리밸런싱 제안",
    "리스크 관리 전략 설계 요청",
    "자동매매 시작 요청",
    "자동매매 중지 요청",
    "특정 코인 매수 실행 요청",
    "특정 코인 매도 실행 요청",
    "주문 취소 요청",
    "거래 수량 변경 요청",
    "API 키 생성 요청",
    "API 키 변경 요청",
    "API 키 삭제 요청",
    "계정 비밀번호 변경",
    "보안 설정 변경",
    "계정 삭제 요청",
    "보유 자산 직접 수정 요청",
    "잔고 수동 변경 요청",
    "거래 기록 삭제 요청",
    "거래 기록 수정 요청",
    "과거 거래 롤백 요청",
    "포트폴리오 수익률 계산",
    "누적 수익률 그래프 요청",
    "MDD(Max Drawdown) 계산",
    "샤프 지수 계산",
    "변동성 지표 계산",
    "백테스트 실행 요청",
    "온체인 데이터 분석 요청",
    "거래소별 호가창 분석",
    "고래 지갑 추적 요청",
    "기관 투자자 동향 분석",
    "펀딩비 분석 요청",
    "내 투자 성향 분석 요청",
    "나에게 맞는 코인 추천",
    "위험 성향 기반 전략 추천",
    "암호화폐 세금 계산",
    "양도소득세 신고 방법",
    "국가별 규제 법률 해석",
    "법적 책임 여부 판단",
    "날씨 질문",
    "연애 상담",
    "심리 상담",
    "건강 상담",
    "취업 상담",
    "프로그래밍 디버깅 요청",
    "일반 상식 질문",

]


#### 일상 대화 시나리오

In [None]:
import pandas as pd
question_df = pd.read_csv('https://raw.githubusercontent.com/songys/Chatbot_data/master/ChatbotData.csv')
question_df.head()

Unnamed: 0,Q,A,label
0,12시 땡!,하루가 또 가네요.,0
1,1지망 학교 떨어졌어,위로해 드립니다.,0
2,3박4일 놀러가고 싶다,여행은 언제나 좋죠.,0
3,3박4일 정도 놀러가고 싶다,여행은 언제나 좋죠.,0
4,PPL 심하네,눈살이 찌푸려지죠.,0


In [None]:
question_df = question_df.drop_duplicates(subset='Q')

In [None]:
chit_chat_question = question_df['Q'].to_list()

In [None]:
questions = ['"' + question +'"과 같은 사용자의 단순한 잡담' for question in chit_chat_question]

In [None]:
questions[:5]

['"12시 땡!"과 같은 사용자의 단순한 잡담',
 '"1지망 학교 떨어졌어"과 같은 사용자의 단순한 잡담',
 '"3박4일 놀러가고 싶다"과 같은 사용자의 단순한 잡담',
 '"3박4일 정도 놀러가고 싶다"과 같은 사용자의 단순한 잡담',
 '"PPL 심하네"과 같은 사용자의 단순한 잡담']

In [None]:
unsupported_scenarios += questions

#### 날짜 랜덤

In [None]:
from datetime import datetime, timedelta
import random
def generate_random_date():
    start_date = datetime(2023, 1, 1)
    end_date = datetime(2025, 12, 31)
    delta_days = (end_date - start_date).days
    random_days = random.randint(0, delta_days)
    random_date = start_date + timedelta(days=random_days)
    return random_date.strftime('%Y-%m-%d')

# 예시 출력
print(generate_random_date())

2023-08-27


In [None]:
SYSTEM_PROMPT = """
    당신은 가상자산 정보 서비스의 AI 마켓 어시스턴트를 파인튜닝하기 위한
    function calling 학습 데이터를 생성해야 합니다.

    1. - 당신의 역할은 투자 판단이나 거래 실행이 아닌, 정보 제공 전용 AI입니다.
    - 가상자산 가격, 시장 지표, 뉴스, 용어 설명, 사용자 포트폴리오 및 전략 기록 조회만 수행합니다.
    - 멀티턴 대화 맥락을 유지하며 function calling을 정확히 수행해야 합니다.

    2. 처리 불가능한 요청에 대해서는
    - 투자 조언 불가
    - 실행 불가
    - 다른 사용자의 정보 요청
    - 담당자 전달 또는 안내 불가 사유 설명을 명확히 하세요.

    3. 멀티턴 대화에서 이전에 했던 대화 내용을 계속 끌고가는 양상을 보여주십시오. 질문마다 주제를 다르게 하는 것은 지양하세요.

    4. 이전 대화 맥락을 유지하세요.

    5. 출력 형식: 다음과 같이 '(role) 내용' 순으로 생성하며, 각 대화는 줄바꿈('\n')으로 구분하세요.
    실제 사용자와 AI 상담사 간의 자연스러운 구어체 멀티턴 대화로 작성하며, 전체 대화는 6~12턴으로 구성하세요.

    [고객 ID] 고객 ID
    [대화날짜] 대화날짜

    (고객) 고객 발화
    (AI 상담사) AI 상담사 응답
    (function_call) list(dict) 형식
    - 각 dict에는 다음 키를 포함해야 합니다:
    - name: 호출할 함수 이름 (string)
    - arguments: 함수 인자 (dict)

    (function_response)
    - function 실행 결과를 list(dict) 형식으로 반환
    - 반환 데이터는 실제 값이 아닌 가상 데이터여도 무방하나,
    tools_return_format에 정의된 컬럼 구조를 반드시 따르세요.


    6. AI 에이전트는 다음과 같은 역할과 능력을 가집니다.

    - AI 에이전트는 가상자산 시장 정보, 뉴스, 용어 설명, 가격 데이터, 그리고 사용자의 포트폴리오/전략 기록을 조회하여 응답할 수 있습니다.
    - 이를 위해 사용자의 질문에 따라 하나 이상의 tools(function calls)을 선택하여 멀티턴 대화를 통해 정보를 제공합니다.
    - 예를 들어 사용자가 특정 코인의 가격이나 24시간 변동성을 묻는 경우, get_price 또는 get_24h_stats 함수를 호출할 수 있습니다.
    - 사용자가 자신의 과거 매매 전략이나 자산 변화를 묻는 경우, userid를 기반으로 get_latest_strategy 또는 get_strategy_by_date 함수를 호출해야 합니다.
    - 대화를 종료하기 전에는 반드시'추가로 궁금하신 가상자산 정보가 있으신가요?' 라고 질문하십시오.
    - 사용자가 AI의 정체를 묻는 경우, 다음과 같이 답변하십시오.
    '저는 가상자산 시장 정보와 포트폴리오 기록 조회를 도와주는 AI 에이전트입니다.'

    7. AI 에이전트는 주어진 tools 범위 내에서만 행동할 수 있습니다.
    **아래와 같은 행위는 절대로 해서는 안 됩니다.**

    - 특정 코인의 매수/매도 타이밍, 수익 보장, 가격 예측, 투자 추천을 직접적으로 제공해서는 안 됩니다.
    - 사용자의 실제 자산을 대신 운용하거나 거래를 실행하는 것처럼 말해서는 안 됩니다.
    - 제공되지 않은 데이터나 존재하지 않는 정보를 지어내어 응답해서는 안 됩니다.
    - tools로 처리할 수 없는 요청(투자 조언, 개인적 의견, 예측 요구 등)에 대해서는
    '해당 요청은 제공 가능한 정보 범위를 벗어납니다. 저는 시장 정보와 기록 조회만 도와드릴 수 있습니다.'라고 명확히 거절하십시오.

    - 가상자산 시장 정보와 무관한 질문(일상 대화, 개인적인 질문 등)에 대해서는
    '죄송하지만, 해당 질문에는 답변할 수 없습니다.' 라고 응답하십시오.

    ### 학습 데이터 생성 시 주의 사항

    8. 사용자가 자신의 전략이나 포트폴리오 기록을 조회할 때에는 날짜 표현을 포함한 질문을 자연스럽게 사용한다고 가정하십시오.

    - 사용자가 '어제', '오늘', '지난주', '최근 7일'과 같은 상대적 날짜 표현을 사용할 경우,
    이를 ISO8601 형식의 날짜(start_date, end_date)로 변환하여 get_strategy_by_date 함수를 호출하십시오.

    - 사용자가 특정 날짜(예: 2025-05-01)를 언급한 경우,
    해당 날짜 하루 범위를 조회하도록 start_date는 해당 날짜 00:00, end_date는 다음날 00:00으로 설정하십시오.

    - 사용자가 날짜를 전혀 언급하지 않고 '최근 전략', '요즘 매매 기록'과 같이 질문할 경우,
    get_latest_strategy 함수를 사용하십시오.

    - 존재하지 않는 전략 기록이나 데이터가 조회된 경우,
    그럴듯한 내용을 지어내지 말고 '해당 기간에는 전략 기록이 없습니다.' 라고 응답하십시오.

    - trade_number는 해당 사용자(userid)의 누적 매매 순서를 의미합니다.
    - 아직 실제 매매가 한 번도 발생하지 않은 경우 trade_number는 반드시 0입니다.
    - 이후 매매 기록은 시간 순서에 따라 1, 2, 3, 4 … 로 증가합니다.
    - 날짜가 변경 된다해서 0으로 초기화되지 않고 누적으로 쌓입니다.

"""
example_prompt = """
    ### function_call 작성 규칙 (예시)

    **예시 1**
    [사용자 ID] U102
    [대화날짜] 2025-04-21

    (사용자) 비트코인 요즘 무슨 뉴스 있어?
    (AI) 최근 비트코인 관련 뉴스를 조회해볼게요.
    (function_call) [{"name":"get_crypto_news","arguments":{"query":"비트코인","top_k":3}}]
    (function_response)
    [
    {"title":"BTC ETF 자금 유입 증가","url":"news.com/1","published_at":"2025-04-20","summary":"기관 자금 유입 확대"},
    {"title":"비트코인 해시레이트 사상 최고","url":"news.com/2","published_at":"2025-04-19","summary":"네트워크 안정성 강화"}
    ]

    (AI) 최근에는 ETF 자금 유입 증가와 네트워크 안정성 관련 뉴스가 있었습니다.

    (사용자) 그럼 지금 가격도 알려줘
    (AI) 현재 가격을 조회해볼게요.
    (function_call) [{"name":"get_price","arguments":{"symbol":"bitcoin"}}]
    (function_response)
    {"symbol":"BTC","name":"Bitcoin","price_usd":68420,"change_24h":1.8,"market_cap":1340000000000,"rank":1}

    (AI) 현재 비트코인 가격은 약 $68,420이며, 24시간 기준 1.8% 상승했습니다.

    (사용자) 지금 사도 될까?
    (AI) 해당 요청은 투자 판단에 해당하며, 저는 정보 제공만 가능합니다.
    가격·뉴스·지표 정보는 제공할 수 있지만 매수/매도 판단은 지원하지 않습니다.

    추가로 궁금하신 가상자산 정보가 있으신가요?

    **예시 2**
    [사용자 ID] U004
    [대화날짜] 2025-04-18

    (사용자) 요즘 뜨는 코인 뭐 있어?
    (AI) 현재 트렌딩 코인을 확인해볼게요.
    (function_call) [{"name":"get_trending_coins","arguments":{}}]
    (function_response)
    [
    {"symbol":"WIF","name":"dogwifhat","rank":45},
    {"symbol":"PEPE","name":"Pepe","rank":38}
    ]

    (AI) 현재 dogwifhat, PEPE 등이 많이 검색되고 있습니다.

    (사용자) 그럼 솔라나랑 이더리움 비교해줘
    (AI) 두 코인을 비교해볼게요.
    (function_call) [{"name":"compare_symbols","arguments":{"symbols":["solana","ethereum"]}}]
    (function_response)
    [
    {"symbol":"SOL","price":182,"change_24h":3.2,"rank":5},
    {"symbol":"ETH","price":3520,"change_24h":1.1,"rank":2}
    ]


    (AI) 솔라나는 변동성이 크고, 이더리움은 상대적으로 안정적인 흐름을 보이고 있습니다.

    (사용자) 내 예전 전략 기록도 볼 수 있어?
    (AI) 최근 전략 기록을 조회해볼게요.
    (function_call) [{"name":"get_latest_strategy","arguments":{"userid":"U004","limit":3}}]
    (function_response)
    [
    {
        "userid":"U004",
        "trade_number":3,
        "time":"2025-01-29T08:30:00Z",
        "why":{"signal":"RSI 과매수"},
        "position":{"ETH":"HOLD"},
        "average":{},
        "available":4200,
        "owner_coin":{"ETH":1.2},
        "total_asset":18400,
        "trade":{}
    }
]

    (AI) 최근에는 비트코인 관망 전략을 유지하신 기록이 있습니다.

    (사용자) 다른 사람 전략 기록도 보여줘?
    (AI) 다른 사람의 정보는 확인할 수 없습니다.

    추가로 궁금하신 가상자산 정보가 있으신가요?


    **예시 3**
    [사용자 ID] U102
    [대화날짜] 2025-04-21

    (사용자) 비트코인 요즘 무슨 뉴스 있어?
    (AI) 최근 비트코인 관련 뉴스를 조회해볼게요.
    (function_call) [{"name":"get_crypto_news","arguments":{"query":"비트코인","top_k":3}}]
    (function_response)
    [
    {"title":"BTC ETF 자금 유입 증가","url":"news.com/1","published_at":"2025-04-20","summary":"기관 자금 유입 확대"},
    {"title":"비트코인 해시레이트 사상 최고","url":"news.com/2","published_at":"2025-04-19","summary":"네트워크 안정성 강화"}
    ]

    (AI) 최근에는 ETF 자금 유입 증가와 네트워크 안정성 관련 뉴스가 있었습니다.

    (사용자) 샤프 지수가 뭐야?
    (AI) 해당 용어를 설명해볼게요.
    (function_call)
    [{"name":"search_crypto_term","arguments":{"query":"샤프 지수","top_k":1}}]
    (function_response)
    [
    {
        "term":"샤프 지수",
        "category":"투자 지표",
        "definition":"위험 대비 수익률을 측정하는 지표로, 수익률에서 무위험 수익률을 뺀 값을 변동성으로 나눈 값입니다."
    }
    ]
    (AI) 샤프 지수는 위험 대비 수익률을 평가할 때 사용하는 지표입니다.

    추가로 궁금하신 가상자산 정보가 있으신가요?

    **예시 4**
    [사용자 ID] U078
    [대화날짜] 2025-04-26

    (사용자) 지금 전체 시장 분위기 어때?
    (AI) 현재 시장 스냅샷을 확인해볼게요.
    (function_call) [{"name":"get_market_snapshot","arguments":{}}]
    (function_response)
    {
    "global_market":{
    "total_market_cap_usd":2100000000000,
    "total_volume_24h_usd":98000000000,
    "btc_dominance":52.3
    },
    "top_movers":[
    {"symbol":"SOL","price":185,"change_24h":4.1},
    {"symbol":"ARB","price":1.32,"change_24h":6.5}
    ]
    }

    (AI) 현재 전체 시총은 약 2.1조 달러이며, 비트코인 점유율은 52% 수준입니다.

    (사용자) 이더리움 시총은 얼마야?
    (AI) 이더리움 시총을 조회해볼게요.
    (function_call) [{"name":"get_market_cap","arguments":{"symbol":"ethereum"}}]
    (function_response)
    {"symbol":"ETH","name":"Ethereum","market_cap":425000000000,"rank":2,"volume_24h":18000000000}

    (AI) 이더리움은 현재 시총 2위이며 약 4,250억 달러 규모입니다.

    (사용자) 근데 너 오늘 점심 뭐 먹었어?
    (AI) 저는 AI로서 개인적인 일상이나 식사는 존재하지 않습니다.
    가상자산 시장 정보와 데이터 관련 질문만 도와드릴 수 있습니다.

    추가로 궁금하신 가상자산 정보가 있으신가요?

    **예시5 **
    [사용자 ID] U555
    [대화날짜] 2025-05-10

    (사용자) 비트코인 24시간 흐름 알려줘
    (AI) 최근 24시간 지표를 조회해볼게요.
    (function_call) [{"name":"get_24h_stats","arguments":{"symbol":"bitcoin"}}]
    (function_response)
    {"symbol":"BTC","open":67000,"high_24h":69000,"low_24h":66500,"close":68420,"change_percent":2.1,"volume_24h":32000000000}

    (AI) 24시간 기준으로 고점은 69,000달러, 저점은 66,500달러였습니다.

    (사용자) 이더리움이랑 비교하면 어때?
    (AI) 두 코인을 비교해볼게요.
    (function_call) [{"name":"compare_symbols","arguments":{"symbols":["bitcoin","ethereum"]}}]
    (function_response)
    [
    {"symbol":"BTC","price":68420,"change_24h":2.1,"rank":1},
    {"symbol":"ETH","price":3520,"change_24h":1.0,"rank":2}
    ]

    (AI) 비트코인이 상대적으로 더 강한 변동성을 보였습니다.

    (사용자) 그럼 지난주 내 전략 기록도 보여줘
    (AI) 날짜 기준으로 전략 기록을 조회해볼게요.
    (function_call)
    [{"name":"get_strategy_by_date","arguments":{"userid":"U555","start_date":"2025-05-03","end_date":"2025-05-10"}}]
    (function_response)
    [
    {"time":"2025-05-05","position":{"ETH":"BUY"},"total_asset":95000},
    {"time":"2025-05-08","position":{"ETH":"HOLD"},"total_asset":98000}
    ]

    (AI) 지난주에는 이더리움 중심 전략을 유지하신 기록이 있습니다.

    추가로 궁금하신 가상자산 정보가 있으신가요?

"""


In [None]:
def build_request_prompt(
    user_id: str,
    chat_date: str,
    question_topics: list,
    unsupported_topic: str,
    tools,
    tools_return_format
):

    return f"""
[사용자 ID] {user_id}
[대화날짜] {chat_date}

[사용 가능한 tools]
{tools}

[각 tool 반환 포맷]
{tools_return_format}

[필수 포함 주제 2개]
- {question_topics[0]}
- {question_topics[1]}

[필수 포함 불가 요청 1개]
- {unsupported_topic}

[출력 형식]
다음과 같이 '(role) 내용' 순으로 생성하며, 각 대화는 줄바꿈('\n')으로 구분하세요.
실제 사용자와 AI 상담사 간의 자연스러운 구어체 멀티턴 대화로 작성하며, 전체 대화는 6~12턴으로 구성하세요.

고객 ID] 고객 ID
[대화날짜] 대화날짜

(고객) 고객 발화
(AI 상담사) AI 상담사 응답
(function_call) list(dict) 형식
- 각 dict에는 다음 키를 포함해야 합니다:
- name: 호출할 함수 이름 (string)
- arguments: 함수 인자 (dict)

(function_response)
- function 실행 결과를 list(dict) 형식으로 반환
- 반환 데이터는 실제 값이 아닌 가상 데이터여도 무방하나,
tools_return_format에 정의된 컬럼 구조를 반드시 따르세요.
"""


In [None]:
from openai import OpenAI, APIError, RateLimitError, APIConnectionError
import random
import time

client = OpenAI()

def make_function_calling_data(
    tools,
    user_ids,
    tools_return_format,
    question_topics,
    unsupported_scenarios
):
    user_id = random.choice(user_ids)
    topics = random.sample(question_topics, 2)
    unsupported = random.choice(unsupported_scenarios)
    chat_date = generate_random_date()

    request_prompt = build_request_prompt(
        user_id=user_id,
        chat_date=chat_date,
        question_topics=topics,
        unsupported_topic=unsupported,
        tools=tools,
        tools_return_format=tools_return_format
    )

    try:
        response = client.chat.completions.create(
            model="gpt-4o",
            messages=[
                {"role": "system", "content": SYSTEM_PROMPT},
                {"role": "user", "content": request_prompt + example_prompt}
            ],
            temperature=0.4
        )
        return response.choices[0].message.content

    except RateLimitError as e:
        print("⏳ Rate limit 발생 → 15초 대기")
        time.sleep(15)
        return None

    except APIError as e:
        print(f"API Error: {e}")
        return None

    except APIConnectionError as e:
        print(f"Connection Error: {e}")
        return None


In [None]:
from tqdm import tqdm
user_ids = ['U001', 'U002', 'U003', 'U004', 'U005', 'U006', 'U007', 'U008', 'U009', 'U010']

result_lst = []
# 다섯 번 정도 생성

for _ in tqdm(range(5)):
    data = make_function_calling_data(
        tools=tools,
        user_ids=user_ids,
        tools_return_format=tools_return_format,
        question_topics=question_topics,
        unsupported_scenarios=unsupported_scenarios
    )
    if data:
        result_lst.append(data)

100%|██████████| 5/5 [01:34<00:00, 18.94s/it]


In [None]:
# 첫번째 데이터
print(result_lst[0])

[고객 ID] U005
[대화날짜] 2024-09-06

(고객) 이더리움 관련 최신 뉴스가 뭐가 있나요?
(AI 상담사) 이더리움 관련 최신 뉴스를 조회해볼게요.
(function_call) [{"name":"get_crypto_news","arguments":{"query":"이더리움","top_k":3}}]
(function_response)
[
    {"title":"이더리움 2.0 업그레이드 완료","url":"news.com/eth_upgrade","published_at":"2024-09-05","summary":"이더리움 2.0 업그레이드가 성공적으로 완료되었습니다."},
    {"title":"DeFi 시장에서 이더리움의 역할","url":"news.com/defi_eth","published_at":"2024-09-04","summary":"DeFi 시장에서 이더리움의 중요성이 더욱 부각되고 있습니다."}
]

(AI 상담사) 최근에는 이더리움 2.0 업그레이드 완료와 DeFi 시장에서의 이더리움 역할에 대한 뉴스가 있었습니다.

(고객) 이더리움 시가총액과 순위도 알려줘.
(AI 상담사) 이더리움의 시가총액과 순위를 조회해볼게요.
(function_call) [{"name":"get_market_cap","arguments":{"symbol":"ethereum"}}]
(function_response)
{"symbol":"ETH","name":"Ethereum","market_cap":500000000000,"rank":2,"volume_24h":20000000000}

(AI 상담사) 이더리움은 현재 시가총액 2위이며, 약 5,000억 달러 규모입니다.

(고객) 최근 내 매매 전략 기록 좀 보여줘.
(AI 상담사) 최근 전략 기록을 조회해볼게요.
(function_call) [{"name":"get_latest_strategy","arguments":{"userid":"U005","limit":3}}]
(function_respons

In [None]:
# 첫번째 데이터
print(result_lst[2])

[고객 ID] U008
[대화날짜] 2025-11-04

(고객) 요즘 내 매매 내역 좀 볼 수 있을까?
(AI 상담사) 최근 매매 내역을 조회해볼게요.
(function_call) [{"name":"get_latest_strategy","arguments":{"userid":"U008","limit":5}}]
(function_response)
[
    {
        "userid":"U008",
        "trade_number":10,
        "time":"2025-11-03T14:00:00Z",
        "why":{"signal":"MACD 골든크로스"},
        "position":{"BTC":"BUY"},
        "average":{},
        "available":5000,
        "owner_coin":{"BTC":0.1},
        "total_asset":15000,
        "trade":{}
    },
    {
        "userid":"U008",
        "trade_number":9,
        "time":"2025-10-30T16:00:00Z",
        "why":{"signal":"RSI 과매수"},
        "position":{"ETH":"SELL"},
        "average":{},
        "available":10000,
        "owner_coin":{"ETH":0.5},
        "total_asset":14500,
        "trade":{}
    }
]

(AI 상담사) 최근에는 비트코인을 매수하셨고, 그 전에 이더리움을 매도하신 기록이 있습니다.

(고객) 비트코인 24시간 등락률도 궁금해.
(AI 상담사) 비트코인의 최근 24시간 등락률을 조회해볼게요.
(function_call) [{"name":"get_24h_stats","arguments":{"symbol":"bitcoin"}}

In [None]:
# 이제 400건 정도 생성해보겠습니다.

result_lst = []

for _ in tqdm(range(400)):
    data = make_function_calling_data(
        tools=tools,
        user_ids=user_ids,
        tools_return_format=tools_return_format,
        question_topics=question_topics,
        unsupported_scenarios=unsupported_scenarios
    )
    if data:
        result_lst.append(data)

  7%|▋         | 28/400 [04:53<1:08:33, 11.06s/it]

⏳ Rate limit 발생 → 15초 대기


  9%|▉         | 36/400 [06:16<58:23,  9.62s/it]

⏳ Rate limit 발생 → 15초 대기


 12%|█▏        | 47/400 [08:13<1:01:01, 10.37s/it]

⏳ Rate limit 발생 → 15초 대기


 50%|█████     | 200/400 [37:51<37:51, 11.36s/it]

⏳ Rate limit 발생 → 15초 대기


100%|██████████| 400/400 [1:17:23<00:00, 11.61s/it]


In [None]:
print(result_lst[10])

[고객 ID] U006
[대화날짜] 2023-02-10

(고객) 요즘 비트코인 24시간 고가랑 저가가 어떻게 돼?
(AI 상담사) 비트코인의 최근 24시간 고가와 저가를 조회해볼게요.
(function_call) [{"name":"get_24h_stats","arguments":{"symbol":"bitcoin"}}]
(function_response)
{"symbol":"BTC","open":45000,"high_24h":46000,"low_24h":44000,"close":45500,"change_percent":1.1,"volume_24h":28000000000}

(AI 상담사) 비트코인의 24시간 고가는 46,000달러, 저가는 44,000달러입니다.

(고객) 그럼 최근에 급등한 코인도 알려줘.
(AI 상담사) 최근 급등한 코인을 확인해볼게요.
(function_call) [{"name":"get_top_movers","arguments":{"top_n":5}}]
(function_response)
[
{"symbol":"DOGE","name":"Dogecoin","price":0.35,"change_24h":15.2},
{"symbol":"ADA","name":"Cardano","price":1.5,"change_24h":12.8},
{"symbol":"SOL","name":"Solana","price":150,"change_24h":10.5}
]

(AI 상담사) 최근 24시간 동안 Dogecoin, Cardano, Solana가 급등했습니다.

(고객) 내 최근 전략 기록도 볼 수 있어?
(AI 상담사) 최근 전략 기록을 조회해볼게요.
(function_call) [{"name":"get_latest_strategy","arguments":{"userid":"U006","limit":3}}]
(function_response)
[
{"userid":"U006","trade_number":5,"time":"2023-02-08T10:00:00Z"

In [None]:
print(result_lst[15])

[고객 ID] U002
[대화날짜] 2023-03-10

(고객) 지난주 내 거래 내역 좀 알려줘.
(AI 상담사) 지난주 거래 내역을 조회해볼게요.
(function_call) [{"name":"get_strategy_by_date","arguments":{"userid":"U002","start_date":"2023-02-27T00:00:00Z","end_date":"2023-03-06T00:00:00Z"}}]
(function_response) 
[
    {"userid":"U002","trade_number":12,"time":"2023-03-01T10:30:00Z","why":{"signal":"MACD 상승 교차"},"position":{"BTC":"BUY"},"average":{"BTC":45000},"available":5000,"owner_coin":{"BTC":0.1},"total_asset":9500,"trade":{"BTC":4500}},
    {"userid":"U002","trade_number":13,"time":"2023-03-04T14:00:00Z","why":{"signal":"RSI 과매수"},"position":{"BTC":"SELL"},"average":{"BTC":46000},"available":9500,"owner_coin":{"BTC":0},"total_asset":9500,"trade":{"BTC":4600}}
]

(AI 상담사) 지난주에는 비트코인을 매수 후 매도하신 기록이 있습니다. 매수는 MACD 상승 교차 신호에 따라, 매도는 RSI 과매수 신호에 따라 이루어졌습니다.

(고객) 내 사용자 프로필 정보도 볼 수 있어?
(AI 상담사) 사용자 프로필 정보를 조회해볼게요.
(function_call) [{"name":"get_user_profile","arguments":{"userid":"U002"}}]
(function_response) 
[
    {"userid":"U002","userinfo":{

In [None]:
print(result_lst[21])

[고객 ID] U008
[대화날짜] 2025-06-07

(고객) 최근에 내 계정 설정 정보 좀 볼 수 있어?
(AI 상담사) 네, 계정 설정 정보를 조회해드릴게요.
(function_call) [{"name":"get_user_profile","arguments":{"userid":"U008"}}]
(function_response) [{"userid":"U008","userinfo":{"name":"John Doe","email":"johndoe@example.com"},"usercustom":{"preferences":{"language":"Korean","theme":"dark"}},"money":{"currency":"USD","balance":10000},"key":"ENCRYPTED_KEY"}]

(AI 상담사) 현재 계정 설정 정보는 다음과 같습니다: 이름은 John Doe, 이메일은 johndoe@example.com, 선호 언어는 한국어, 테마는 다크 모드로 설정되어 있습니다. 계정 잔액은 10,000 USD입니다.

(고객) 시장 지표 관련 용어 설명 좀 해줘. 예를 들어 RSI가 뭐야?
(AI 상담사) RSI에 대해 설명해드릴게요.
(function_call) [{"name":"search_crypto_term","arguments":{"query":"RSI","top_k":1}}]
(function_response) [{"term":"RSI","category":"기술적 지표","definition":"RSI는 상대 강도 지수로, 과매수 및 과매도 상태를 평가하는 데 사용됩니다. 0에서 100 사이의 값을 가지며, 일반적으로 70 이상은 과매수, 30 이하는 과매도로 간주됩니다."}]

(AI 상담사) RSI는 상대 강도 지수로, 과매수 및 과매도 상태를 평가하는 데 사용됩니다. 0에서 100 사이의 값을 가지며, 일반적으로 70 이상은 과매수, 30 이하는 과매도로 간주됩니다.

(고객) 지난주 내 매매 전략 기록도 좀 보여줘.
(AI

In [None]:
print(result_lst[26])

[고객 ID] U004
[대화날짜] 2024-05-13

(고객) 요즘 뜨는 코인 뭐 있어?
(AI 상담사) 현재 트렌딩 코인을 확인해볼게요.
(function_call) [{"name":"get_trending_coins","arguments":{}}]
(function_response) [{"symbol":"DOGE","name":"Dogecoin","rank":10},{"symbol":"SHIB","name":"Shiba Inu","rank":15}]

(AI 상담사) 현재 Dogecoin과 Shiba Inu가 많이 검색되고 있습니다.

(고객) 그럼 이더리움과 비트코인 시가총액 비교해줘.
(AI 상담사) 두 코인의 시가총액을 비교해볼게요.
(function_call) [{"name":"compare_symbols","arguments":{"symbols":["ethereum","bitcoin"]}}]
(function_response) [{"symbol":"ETH","price":3500,"change_24h":2.5,"rank":2},{"symbol":"BTC","price":58000,"change_24h":1.5,"rank":1}]

(AI 상담사) 비트코인이 시가총액 1위로, 이더리움보다 높은 시총을 유지하고 있습니다.

(고객) 최근 비트코인 관련 뉴스도 궁금해.
(AI 상담사) 비트코인 관련 최신 뉴스를 찾아볼게요.
(function_call) [{"name":"get_crypto_news","arguments":{"query":"비트코인","top_k":3}}]
(function_response) [{"title":"비트코인 ETF 승인 소식","url":"news.com/bitcoin-etf","published_at":"2024-05-12","summary":"비트코인 ETF가 승인되었다는 소식이 전해졌습니다."},{"title":"비트코인 채굴 난이도 상승","url":"news.com/bitcoin-mining","published_

# 파싱 및 전처리

In [None]:
import ast
import json
def parse_metadata(text: str):
    """고객 ID와 대화날짜 추출"""
    customer_id_match = re.search(r'\[고객 ID\]\s*(.+)', text)
    date_match = re.search(r'\[대화날짜\]\s*([\d\-]+)', text)
    customer_id = customer_id_match.group(1) if customer_id_match else None
    date = date_match.group(1) if date_match else None
    return customer_id, date

def parse_to_qwen_format(text: str):
    messages = []
    pattern = re.compile(r'\((고객|AI 상담사|function_call|function_response)\)\s*(.+?)(?=\n\(|\Z)', re.DOTALL)

    last_role = None  # 직전 메시지의 역할 추적

    for match in pattern.finditer(text.strip()):
        role_type, content = match.groups()
        content = content.strip()

        if role_type == "고객":
            messages.append({
                "role": "user",
                "content": content
            })
            last_role = "user"

        elif role_type == "AI 상담사":
            messages.append({
                "role": "assistant",
                "content": content
            })
            last_role = "assistant"

        elif role_type == "function_call":
            try:
                calls = ast.literal_eval(content)
                # 직전 assistant 메시지 제거
                if last_role == "assistant":
                    messages.pop()
                for call in calls:
                    messages.append({
                        "role": "assistant",
                        "content": f"<tool_call>\n{json.dumps(call, ensure_ascii=False)}\n</tool_call>"
                    })
                last_role = "assistant"
            except Exception as e:
                raise ValueError(f"[function_call 파싱 실패] 원본: {content}\n오류: {e}")

        elif role_type == "function_response":
            try:
                parsed = ast.literal_eval(content)
                payload = json.dumps(parsed, ensure_ascii=False)
                messages.append({
                    "role": "user",
                    "content": f"<tool_response>\n{payload}\n</tool_response>"
                })
                last_role = "user"
            except Exception as e:
                raise ValueError(f"[function_response 파싱 실패] 원본: {content}\n오류: {e}")

    return messages

In [None]:
cid, date = parse_metadata(result_lst[10])

print('cid :', cid)
print('date:', date)
print('--' * 50)
parse_to_qwen_format(result_lst[10])

cid : U006
date: 2023-02-10
----------------------------------------------------------------------------------------------------


[{'role': 'user', 'content': '요즘 비트코인 24시간 고가랑 저가가 어떻게 돼?'},
 {'role': 'assistant',
  'content': '<tool_call>\n{"name": "get_24h_stats", "arguments": {"symbol": "bitcoin"}}\n</tool_call>'},
 {'role': 'user',
  'content': '<tool_response>\n{"symbol": "BTC", "open": 45000, "high_24h": 46000, "low_24h": 44000, "close": 45500, "change_percent": 1.1, "volume_24h": 28000000000}\n</tool_response>'},
 {'role': 'assistant', 'content': '비트코인의 24시간 고가는 46,000달러, 저가는 44,000달러입니다.'},
 {'role': 'user', 'content': '그럼 최근에 급등한 코인도 알려줘.'},
 {'role': 'assistant',
  'content': '<tool_call>\n{"name": "get_top_movers", "arguments": {"top_n": 5}}\n</tool_call>'},
 {'role': 'user',
  'content': '<tool_response>\n[{"symbol": "DOGE", "name": "Dogecoin", "price": 0.35, "change_24h": 15.2}, {"symbol": "ADA", "name": "Cardano", "price": 1.5, "change_24h": 12.8}, {"symbol": "SOL", "name": "Solana", "price": 150, "change_24h": 10.5}]\n</tool_response>'},
 {'role': 'assistant',
  'content': '최근 24시간 동안 Dogecoin, Car

# 데이터프레임으로 만들기

In [None]:
cids = []
dates = []
messages = []
for sample in result_lst:
  try:
    cid, date = parse_metadata(sample)
    message = parse_to_qwen_format(sample)
    cids.append(cid)
    dates.append(date)
    messages.append(message)
  except:
    continue

In [None]:
tools_lst = [tools] * len(messages)

In [None]:
df = pd.DataFrame({
    'tools': tools_lst,
    'cid': cids,
    'dates': dates,
    'messages': messages
})

In [None]:
df

Unnamed: 0,tools,cid,dates,messages
0,"[{'type': 'function', 'function': {'name': 'ge...",U004,2023-07-25,"[{'role': 'user', 'content': '비트코인 요즘 무슨 뉴스 있어..."
1,"[{'type': 'function', 'function': {'name': 'ge...",U002,2025-07-26,"[{'role': 'user', 'content': '요즘 비트코인 가격이 어떻게 ..."
2,"[{'type': 'function', 'function': {'name': 'ge...",U008,2025-01-20,"[{'role': 'user', 'content': '안녕하세요, 2025년 1월 ..."
3,"[{'type': 'function', 'function': {'name': 'ge...",U001,2024-12-24,"[{'role': 'user', 'content': '요즘 비트코인 24시간 고가랑..."
4,"[{'type': 'function', 'function': {'name': 'ge...",U009,2025-04-29,"[{'role': 'user', 'content': '요즘 뜨는 코인 뭐 있어?'}..."
...,...,...,...,...
379,"[{'type': 'function', 'function': {'name': 'ge...",U006,2023-11-12,"[{'role': 'user', 'content': '이더리움 시가총액과 순위가 어..."
380,"[{'type': 'function', 'function': {'name': 'ge...",U001,2025-11-08,"[{'role': 'user', 'content': '요즘 뜨는 코인 뭐 있어?'}..."
381,"[{'type': 'function', 'function': {'name': 'ge...",U005,2024-11-26,"[{'role': 'user', 'content': '요즘 비트코인 24시간 고가 ..."
382,"[{'type': 'function', 'function': {'name': 'ge...",U007,2023-12-31,"[{'role': 'user', 'content': '요즘 비트코인 도미넌스가 어떻..."


In [None]:
len(df)

384

# 시스템 프롬프트 만들기

In [None]:
tools

[{'type': 'function',
  'function': {'name': 'get_price',
   'description': 'Get real-time crypto price and market cap',
   'parameters': {'type': 'object',
    'properties': {'symbol': {'type': 'string'}},
    'required': ['symbol']}}},
 {'type': 'function',
  'function': {'name': 'get_24h_stats',
   'description': 'Get 24-hour trading statistics',
   'parameters': {'type': 'object',
    'properties': {'symbol': {'type': 'string'}},
    'required': ['symbol']}}},
 {'type': 'function',
  'function': {'name': 'compare_symbols',
   'description': 'Compare multiple coins',
   'parameters': {'type': 'object',
    'properties': {'symbols': {'type': 'array', 'items': {'type': 'string'}}},
    'required': ['symbols']}}},
 {'type': 'function',
  'function': {'name': 'get_top_movers',
   'description': 'Get top price gainers',
   'parameters': {'type': 'object',
    'properties': {'top_n': {'type': 'integer', 'default': 5}}}}},
 {'type': 'function',
  'function': {'name': 'get_market_cap',
   '

In [None]:
import json
import random

def generate_qwen_system_prompt(tools: list, cid: str, current_date: str = "2024-09-30") -> str:
    header = """당신은 가상 자산 챗봇 상담사입니다. 성심성의껏 상담하십시오.

로그인한 사용자의 현재 ID: %s
오늘 날짜: %s

# Tools

You may call one or more functions to assist with the user query.

You are provided with function signatures within <tools></tools> XML tags:
<tools>
""" % (cid, current_date)

    shuffled_tools = tools[:]
    random.shuffle(shuffled_tools)

    tool_defs = ""
    for tool in shuffled_tools:
        fn = tool["function"]

        entry = {
            "type": "function",
            "function": {
                "name": fn["name"],
                "description": fn["description"],
                "parameters": fn["parameters"]
            }
        }
        tool_defs += json.dumps(entry, ensure_ascii=False) + "\n"

    footer = """</tools>

For each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:
<tool_call>
{"name": <function-name>, "arguments": <args-json-object>}
</tool_call>"""

    return header + tool_defs + footer

In [None]:
cids = df['cid'].to_list()
today_dates = df['dates'].to_list()

In [None]:
system_prompts = []
for cid, today_date in zip(cids, today_dates):
  system_prompts.append(generate_qwen_system_prompt(tools, cid, today_date))

In [None]:
# 5번 데이터의 시스템 프롬프트
print(system_prompts[5])

당신은 가상 자산 챗봇 상담사입니다. 성심성의껏 상담하십시오.

로그인한 사용자의 현재 ID: U009
오늘 날짜: 2024-02-10

# Tools

You may call one or more functions to assist with the user query.

You are provided with function signatures within <tools></tools> XML tags:
<tools>
{"type": "function", "function": {"name": "get_24h_stats", "description": "Get 24-hour trading statistics", "parameters": {"type": "object", "properties": {"symbol": {"type": "string"}}, "required": ["symbol"]}}}
{"type": "function", "function": {"name": "get_top_movers", "description": "Get top price gainers", "parameters": {"type": "object", "properties": {"top_n": {"type": "integer", "default": 5}}}}}
{"type": "function", "function": {"name": "get_market_snapshot", "description": "Get overall crypto market snapshot", "parameters": {"type": "object", "properties": {}}}}
{"type": "function", "function": {"name": "get_strategy_by_date", "description": "Fetch trading history filtered by date or date range.", "parameters": {"type": "object", "properties": 

In [None]:
# 5번 데이터의 멀티턴
df['messages'][5]

[{'role': 'user', 'content': '지난주 내 거래 내역 좀 볼 수 있을까?'},
 {'role': 'assistant',
  'content': '<tool_call>\n{"name": "get_strategy_by_date", "arguments": {"userid": "U009", "start_date": "2024-02-03T00:00:00Z", "end_date": "2024-02-10T00:00:00Z"}}\n</tool_call>'},
 {'role': 'user',
  'content': '<tool_response>\n[{"userid": "U009", "trade_number": 12, "time": "2024-02-04T10:15:00Z", "position": {"BTC": "BUY"}, "total_asset": 150000}, {"userid": "U009", "trade_number": 13, "time": "2024-02-06T14:30:00Z", "position": {"ETH": "SELL"}, "total_asset": 145000}]\n</tool_response>'},
 {'role': 'assistant',
  'content': '지난주에는 비트코인을 매수하고, 이더리움을 매도하신 기록이 있습니다. 총 자산은 약 145,000달러로 기록되어 있습니다.'},
 {'role': 'user', 'content': '2024년 2월 5일 거래 내역도 궁금해.'},
 {'role': 'assistant',
  'content': '<tool_call>\n{"name": "get_strategy_by_date", "arguments": {"userid": "U009", "start_date": "2024-02-05T00:00:00Z", "end_date": "2024-02-06T00:00:00Z"}}\n</tool_call>'},
 {'role': 'user', 'content': '<tool_response>\

In [None]:
df['system_prompt'] = system_prompts

In [None]:
df

Unnamed: 0,tools,cid,dates,messages,system_prompt
0,"[{'type': 'function', 'function': {'name': 'ge...",U004,2023-07-25,"[{'role': 'user', 'content': '비트코인 요즘 무슨 뉴스 있어...",당신은 가상 자산 챗봇 상담사입니다. 성심성의껏 상담하십시오.\n\n로그인한 사용자...
1,"[{'type': 'function', 'function': {'name': 'ge...",U002,2025-07-26,"[{'role': 'user', 'content': '요즘 비트코인 가격이 어떻게 ...",당신은 가상 자산 챗봇 상담사입니다. 성심성의껏 상담하십시오.\n\n로그인한 사용자...
2,"[{'type': 'function', 'function': {'name': 'ge...",U008,2025-01-20,"[{'role': 'user', 'content': '안녕하세요, 2025년 1월 ...",당신은 가상 자산 챗봇 상담사입니다. 성심성의껏 상담하십시오.\n\n로그인한 사용자...
3,"[{'type': 'function', 'function': {'name': 'ge...",U001,2024-12-24,"[{'role': 'user', 'content': '요즘 비트코인 24시간 고가랑...",당신은 가상 자산 챗봇 상담사입니다. 성심성의껏 상담하십시오.\n\n로그인한 사용자...
4,"[{'type': 'function', 'function': {'name': 'ge...",U009,2025-04-29,"[{'role': 'user', 'content': '요즘 뜨는 코인 뭐 있어?'}...",당신은 가상 자산 챗봇 상담사입니다. 성심성의껏 상담하십시오.\n\n로그인한 사용자...
...,...,...,...,...,...
379,"[{'type': 'function', 'function': {'name': 'ge...",U006,2023-11-12,"[{'role': 'user', 'content': '이더리움 시가총액과 순위가 어...",당신은 가상 자산 챗봇 상담사입니다. 성심성의껏 상담하십시오.\n\n로그인한 사용자...
380,"[{'type': 'function', 'function': {'name': 'ge...",U001,2025-11-08,"[{'role': 'user', 'content': '요즘 뜨는 코인 뭐 있어?'}...",당신은 가상 자산 챗봇 상담사입니다. 성심성의껏 상담하십시오.\n\n로그인한 사용자...
381,"[{'type': 'function', 'function': {'name': 'ge...",U005,2024-11-26,"[{'role': 'user', 'content': '요즘 비트코인 24시간 고가 ...",당신은 가상 자산 챗봇 상담사입니다. 성심성의껏 상담하십시오.\n\n로그인한 사용자...
382,"[{'type': 'function', 'function': {'name': 'ge...",U007,2023-12-31,"[{'role': 'user', 'content': '요즘 비트코인 도미넌스가 어떻...",당신은 가상 자산 챗봇 상담사입니다. 성심성의껏 상담하십시오.\n\n로그인한 사용자...


In [None]:
df[df["cid"].isna()]

Unnamed: 0,tools,cid,dates,messages,system_prompt


In [None]:
df["cid"].loc[372] = "U009"

You are setting values through chained assignment. Currently this works in certain cases, but when using Copy-on-Write (which will become the default behaviour in pandas 3.0) this will never work to update the original DataFrame or Series, because the intermediate object on which we are setting values will behave as a copy.
A typical example is when you are setting values in a column of a DataFrame, like:

df["col"][row_indexer] = value

Use `df.loc[row_indexer, "col"] = values` instead, to perform the assignment in a single step and ensure this keeps updating the original `df`.

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

  df["cid"].loc[372] = "U009"


In [None]:
df.loc[372]

Unnamed: 0,372
tools,"[{'type': 'function', 'function': {'name': 'ge..."
cid,U009
dates,2024-03-26
messages,"[{'role': 'user', 'content': '요즘 규제나 ETF, 해킹 관..."
system_prompt,당신은 가상 자산 챗봇 상담사입니다. 성심성의껏 상담하십시오.\n\n로그인한 사용자...


In [None]:
df.to_csv("crypto-function_calling_datasets.csv", index=False, encoding="utf-8-sig")


# 허깅 페이스 업로드

In [None]:
!pip install datasets



In [None]:
import datasets
dataset = datasets.Dataset.from_pandas(df)

In [None]:
from huggingface_hub import login, HfApi

# 2) 업로드
dataset.push_to_hub("HJUNN/crypto_function_calling_datasets")

CommitInfo(commit_url='https://huggingface.co/datasets/HJUNN/crypto_function_calling_datasets/commit/059a8f5a4138579a3802000707ce491723c89f81', commit_message='Upload dataset', commit_description='', oid='059a8f5a4138579a3802000707ce491723c89f81', pr_url=None, repo_url=RepoUrl('https://huggingface.co/datasets/HJUNN/crypto_function_calling_datasets', endpoint='https://huggingface.co', repo_type='dataset', repo_id='HJUNN/crypto_function_calling_datasets'), pr_revision=None, pr_num=None)