In [1]:
from dotenv import load_dotenv
import os
# .env 파일을 불러와서 환경 변수로 설정
load_dotenv()

OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")
print(OPENAI_API_KEY[:10])

gsk_t3ZxLr


#### 1. CommaSeparatedListOutputParser

In [2]:
from langchain_core.output_parsers import CommaSeparatedListOutputParser
from langchain_core.prompts import PromptTemplate
from langchain_openai import ChatOpenAI
import csv

# 콤마로 구분된 리스트 출력 파서 초기화
output_parser = CommaSeparatedListOutputParser()

# 출력 형식 지침 가져오기
format_instructions = output_parser.get_format_instructions()
print(format_instructions)

Your response should be a list of comma separated values, eg: `foo, bar, baz` or `foo,bar,baz`


In [3]:

# 프롬프트 템플릿 설정
prompt = PromptTemplate(
    template="List five {subject}.\n{format_instructions}",
    input_variables=["subject"],
    partial_variables={"format_instructions": format_instructions},
)

# OpenAI 모델 설정
#model = ChatOpenAI(model="gpt-3.5-turbo", temperature=0)
llm = ChatOpenAI(
    base_url="https://api.groq.com/openai/v1",  # Groq API 엔드포인트
    #model="meta-llama/llama-4-scout-17b-16e-instruct",  # Spring AI와 동일한 모델
    model="moonshotai/kimi-k2-instruct-0905",
    #model="openai/gpt-oss-120b",
    temperature=0.7
)


In [4]:

# 프롬프트, 모델, 출력 파서를 연결하여 체인 생성
chain = prompt | llm | output_parser

# "AI 관련 기술"에 대한 체인 호출 실행
result = chain.invoke({"subject": "AI 관련 기술"})

# 쉼표로 구분된 리스트 출력
print("AI 관련 기술 목록:")
print(result)

# 결과 활용 예시: CSV 파일로 저장
csv_filename = "../data/ai_technologies.csv"
with open(csv_filename, "w", newline="", encoding="utf-8") as file:
    writer = csv.writer(file)
    writer.writerow(["AI 기술"])  # 헤더 추가
    for item in result:
        writer.writerow([item])

print(f" '{csv_filename}' 파일로 저장 완료!")


AI 관련 기술 목록:
['Machine Learning', 'Deep Learning', 'Natural Language Processing', 'Computer Vision', 'Reinforcement Learning']
 '../data/ai_technologies.csv' 파일로 저장 완료!


#### 2. JsonOutputParser

In [5]:
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import JsonOutputParser
from langchain_openai import ChatOpenAI
import json

# JSON 출력 파서 초기화
parser = JsonOutputParser()

# 프롬프트 템플릿을 설정합니다.
prompt = ChatPromptTemplate.from_messages(
    [
        ("system", "당신은 과학 분야 전문가 AI입니다. 질문에 대해 체계적이고 간결한 답변을 JSON 형식으로 제공하세요."),
        ("user", "#Format: {format_instructions}\n\n#Question: {question}"),
    ]
)

# JSON 출력 형식 지침을 프롬프트에 적용
prompt = prompt.partial(format_instructions=parser.get_format_instructions())

# OpenAI 모델 설정
#llm = ChatOpenAI(model="gpt-3.5-turbo-0125", temperature=0)

# 프롬프트, 모델, 출력 파서를 연결하는 체인 생성
chain = prompt | llm | parser

# 질문 설정 (우주 탐사 관련 질문)
question = "최근 10년간 진행된 주요 우주 탐사 미션 3가지를 알려주세요. \
각 미션의 이름은 `mission_name`에, 목표는 `goal`에, 주관 기관은 `agency`에 담아 주세요."

# 체인 실행 및 JSON 응답 받기
response = chain.invoke({"question": question})

# JSON 데이터 출력
print(json.dumps(response, indent=4, ensure_ascii=False))


[
    {
        "mission_name": "Perseverance",
        "goal": "화성의 고대 생명 흔적 탐색 및 시료 채취",
        "agency": "NASA"
    },
    {
        "mission_name": "Chang'e 4",
        "goal": "달의 남극-아이트켄 분지 착륙 및 탐사",
        "agency": "CNSA"
    },
    {
        "mission_name": "OSIRIS-REx",
        "goal": "소행성 베누에서 시료 채취 및 지구 귀환",
        "agency": "NASA"
    }
]


#### 3. PandasDataFrameOutputParser

In [6]:
import pandas as pd
from langchain.output_parsers import PandasDataFrameOutputParser
from langchain_core.prompts import PromptTemplate
from langchain_openai import ChatOpenAI
import re

# Titanic 데이터셋 로드
df = pd.read_csv('../data/titanic.csv')

# ChatOpenAI 모델 초기화
#llm = ChatOpenAI(temperature=0, model_name="gpt-3.5-turbo")

# Pandas DataFrame Output Parser 설정
parser = PandasDataFrameOutputParser(dataframe=df)

# 형식 지침 출력
format_instructions = parser.get_format_instructions()
print("Format Instructions:\n", format_instructions)

# 프롬프트 템플릿 설정
prompt = PromptTemplate(
    template=""" 
    You are a helpful assistant that interacts with a Pandas DataFrame.
    The DataFrame contains the following columns: {columns}.
    
    Your task is to answer the user's query by generating a command in the following format:
    {format_instructions}
    
    User Query: {query}    
    """,
    input_variables=["query"],
    partial_variables={
        "format_instructions": format_instructions,
        "columns": ", ".join(df.columns)
    },
)

# 체인 생성
chain = prompt | llm | parser

# 모델 응답 받기
try:
    # **Name 열을 표시하십시오.**
    print('Name 컬럼 출력')
    df_query = "Show the Name column"

    parser_output = chain.invoke({"query": df_query})
    print(type(parser_output))
    print(parser_output)

    # **첫번째 행을 표시하십시오.**
    print('첫번째 행 출력')
    df_query2 = "Show first row"

    parser_output2 = chain.invoke({"query": df_query2})
    print(parser_output2)

    #Please tell me the average value of the Fare column.
    print('Farre 컬럼의 평균값 출력')
    df_query3 = "Show me the average value of the Fare column."

    parser_output3 = chain.invoke({"query": df_query3})
    print(parser_output3)

except Exception as e:
    print(f"오류 발생: {e}")


Format Instructions:
 The output should be formatted as a string as the operation, followed by a colon, followed by the column or row to be queried on, followed by optional array parameters.
1. The column names are limited to the possible columns below.
2. Arrays must either be a comma-separated list of numbers formatted as [1,3,5], or it must be in range of numbers formatted as [0..4].
3. Remember that arrays are optional and not necessarily required.
4. If the column is not in the possible columns or the operation is not a valid Pandas DataFrame operation, return why it is invalid as a sentence starting with either "Invalid column" or "Invalid operation".

As an example, for the formats:
1. String "column:num_legs" is a well-formatted instance which gets the column num_legs, where num_legs is a possible column.
2. String "row:1" is a well-formatted instance which gets row 1.
3. String "column:num_legs[1,2]" is a well-formatted instance which gets the column num_legs for rows 1 and 2,

In [7]:
import pandas as pd
from langchain.output_parsers import StructuredOutputParser, ResponseSchema
from langchain_core.prompts import PromptTemplate
from langchain_openai import ChatOpenAI

# OpenAI 모델 초기화
#llm = ChatOpenAI(temperature=0, model_name="gpt-3.5-turbo")
llm = ChatOpenAI(
    api_key=OPENAI_API_KEY,
    base_url="https://api.groq.com/openai/v1",  # Groq API 엔드포인트
    #model="meta-llama/llama-4-scout-17b-16e-instruct",
    model="moonshotai/kimi-k2-instruct-0905",
    temperature=0
)

# 응답 스키마 정의 [{},{},{}]
response_schemas = [
    #ResponseSchema(name="data", description="A list of dictionaries representing table rows."),
    ResponseSchema(name="data", description="테이블 행을 나타내는 딕셔너리들의 리스트"),
]

# Output Parser 설정
parser = StructuredOutputParser.from_response_schemas(response_schemas)

# 프롬프트 템플릿 설정
prompt = PromptTemplate(
    template="""
    당신은 테이블 형태의 데이터를 생성하는 AI 어시스턴트입니다(You are an AI assistant that generates tabular data).
    반드시 다음 스키마를 따르는 JSON 형식으로 데이터를 반환해야 합니다(You must return the data in JSON format that follows this schema):

    {format_instructions}
        
    **User Query:**
    {query}
    """,
    input_variables=["query"],
    partial_variables={"format_instructions": parser.get_format_instructions()},
)

# 체인 생성 (프롬프트 → 모델 → StructuredOutputParser)
chain = prompt | llm | parser

# 실행 함수
def generate_dataframe(user_query):
    try:
        # 모델 호출
        json_response = chain.invoke({"query": user_query})

        # 모델이 반환한 JSON을 Pandas DataFrame으로 변환
        df = pd.DataFrame(json_response["data"])

        # 결과 출력
        print("\n Generated DataFrame:\n")
        return df

    except Exception as e:
        print(f" 오류 발생: {e}")
        return None

In [8]:
# [예제 1] 2024년 상반기 서울 아파트 평균 매매 가격 데이터 생성
print('2024년 상반기 서울 아파트 평균 매매 가격 데이터 생성')
df_seoul_housing = generate_dataframe(
    #"Create a dataset of the average apartment sale prices in Seoul for the first half of 2024 with columns: District (구), Average Price (in KRW), Number of Transactions, and Year-over-Year Change (%)."
    "2024년 상반기 서울 아파트 평균 매매가격 데이터셋을 생성해주세요. 컬럼은 다음과 같습니다: 구(District), 평균가격_억원(Average_Price_100M_KRW), 거래건수(Transactions), 전년동기대비증감률_퍼센트(YoY_Change_Percent). 서울의 25개 구에 대한 현실적인 데이터를 생성해주세요."
)
df_seoul_housing.head()


2024년 상반기 서울 아파트 평균 매매 가격 데이터 생성

 Generated DataFrame:



Unnamed: 0,District,Average_Price_100M_KRW,Transactions,YoY_Change_Percent
0,강남구,37.2,2840,4.8
1,서초구,35.8,2650,5.1
2,용산구,29.5,1920,3.9
3,송파구,27.3,2480,4.2
4,마포구,24.7,2100,3.5


In [9]:
df_seoul_housing

Unnamed: 0,District,Average_Price_100M_KRW,Transactions,YoY_Change_Percent
0,강남구,37.2,2840,4.8
1,서초구,35.8,2650,5.1
2,용산구,29.5,1920,3.9
3,송파구,27.3,2480,4.2
4,마포구,24.7,2100,3.5
5,성동구,22.1,1750,3.0
6,동작구,20.4,1890,2.8
7,광진구,19.8,1650,2.5
8,강동구,19.2,2200,3.3
9,영등포구,18.9,1980,2.7


In [10]:
print('2024년 서울 지하철역별 유동 인구 데이터')
# [예제 2] 2024년 서울 지하철역별 유동 인구 데이터
df_seoul_subway = generate_dataframe(
    #"Generate a dataset of the top 10 busiest subway stations in Seoul in 2024 with columns: Station Name, Line Number, Daily Passenger Volume, and Weekday vs Weekend Ratio."
    "2024년 서울 지하철 승객 이용량이 가장 많은 상위 10개 역의 데이터셋을 생성해주세요. 컬럼은 다음과 같습니다: 역명(Station_Name), 호선(Line_Number), 일평균승객수_만명(Daily_Passengers_10K), 평일대주말비율(Weekday_Weekend_Ratio). 실제 서울 지하철의 주요 역들을 기반으로 현실적인 데이터를 생성해주세요."
)

#if df_seoul_subway is not None:
df_seoul_subway.head()


2024년 서울 지하철역별 유동 인구 데이터

 Generated DataFrame:



Unnamed: 0,Station_Name,Line_Number,Daily_Passengers_10K,Weekday_Weekend_Ratio
0,서울역,1/4/경의중앙,24.3,1.42
1,강남,2/신분당,23.8,1.38
2,신도림,1/2,22.1,1.35
3,홍대입구,2/경의중앙,21.5,1.28
4,신림,2,20.9,1.3


In [11]:
df_seoul_subway

Unnamed: 0,Station_Name,Line_Number,Daily_Passengers_10K,Weekday_Weekend_Ratio
0,서울역,1/4/경의중앙,24.3,1.42
1,강남,2/신분당,23.8,1.38
2,신도림,1/2,22.1,1.35
3,홍대입구,2/경의중앙,21.5,1.28
4,신림,2,20.9,1.3
5,고속터미널,3/7/9,20.4,1.33
6,왕십리,2/5/경의중야,19.7,1.29
7,건대입구,2/7,19.2,1.26
8,사당,2/4,18.8,1.31
9,종로3가,1/3/5,18.5,1.4


In [12]:
print('한국 5대 편의점 브랜드별 2024년 매출 및 점포 수')
# [예제 3] 한국 5대 편의점 브랜드별 2024년 매출 및 점포 수
df_korean_convenience_stores = generate_dataframe(
    #"Create a dataset of the top 5 convenience store brands in Korea in 2024 with columns: Brand Name, Number of Stores, Total Revenue (in billion KRW), and Market Share (%)."
    "2024년 한국의 편의점 브랜드 상위 5개사 데이터셋을 생성해주세요. 컬럼은 다음과 같습니다: 브랜드명(Brand_Name), 점포수(Store_Count), 총매출_조원(Revenue_Trillion_KRW), 시장점유율_퍼센트(Market_Share_Percent). CU, GS25, 세븐일레븐, 이마트24, 미니스톱 등 실제 한국 편의점 브랜드를 기반으로 현실적인 데이터를 생성해주세요."
)
df_korean_convenience_stores.head()

한국 5대 편의점 브랜드별 2024년 매출 및 점포 수

 Generated DataFrame:



Unnamed: 0,Brand_Name,Store_Count,Revenue_Trillion_KRW,Market_Share_Percent
0,CU,15000,12.3,35.2
1,GS25,14000,11.8,33.7
2,세븐일레븐,9500,6.5,18.6
3,이마트24,5000,3.2,9.1
4,미니스톱,2200,1.2,3.4
