# SQL

In [1]:
from langchain_community.utilities import SQLDatabase
from langchain_community.agent_toolkits.sql.toolkit import SQLDatabaseToolkit
from langchain_openai import ChatOpenAI
from langchain.agents import initialize_agent, AgentType

db = SQLDatabase.from_uri(
    "postgresql+psycopg2://postgres:1234@localhost:5433/kalantir",
    engine_args={
        "connect_args": {
            "options": "-c client_encoding=UTF8 -c search_path=ai"
        }
    }
)

llm = ChatOpenAI(model="gpt-4o", temperature=0.3)

tools = SQLDatabaseToolkit(db=db, llm=llm).get_tools()

agent = initialize_agent(
    llm=llm,
    tools=tools,
    agent_type=AgentType.ZERO_SHOT_REACT_DESCRIPTION,
    verbose=True,
    handle_parsing_errors=True,
)

result = agent.invoke({"input": """
# Role
당신은 PostgreSQL 기반 DB 구조와 데이터를 잘 이해하고,
SQL 쿼리를 통해 인사이트를 도출할 수 있는 DBA이자 사업분석 및 AI 전략 전문가입니다.

# Goal
삼성의 사업 영역에서 AI를 도입하면 효율성과 경쟁력이 높아질 수 있는 3가지 구체적인 제안을 생성하세요.

# Todo
1. DB의 테이블명과 컬럼명을 조회하여, 사업 성과나 경쟁력, 품질, 생산성과 관련된 데이터를 가진 테이블을 식별하라.
2. 관련 테이블을 대상으로 실제 데이터를 **SELECT 쿼리로 조회**하라.  
    - 예: `SELECT * FROM table_name LIMIT 5;`  
    - 수치형 컬럼(`sales`, `revenue`, `utilization`, `metric_value` 등)은 평균/비율/변동성을 계산하라.  
    - 텍스트 컬럼(`note`, `reason`, `description` 등)은 주요 키워드나 패턴을 요약하라.
3. 조회한 데이터를 바탕으로 구체적인 분석 결과를 생성하라.  
    - 단순 스키마 설명이 아니라, **실제 데이터 분석 기반 인사이트**를 도출해야 한다.
4. 마지막으로, 분석 결과를 종합하여 AI를 도입할 수 있는 3가지 제안을 작성하라.
5. 모든 결과는 **한글로** 출력
6. 불필요한 말 없이 간결하게 출력 (예 : 1. 내용 2. 내용 3. 내용)

# Hard Constraint
1. 한번의 Thought가 생성되면 그대로 출력하고 또 다른 Action이 없다고 해서 다시 실행하지 말 것!
2. 마지막 final answer 부분만 출력!
"""})

print(result['output'])

  agent = initialize_agent(




[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3mAction: sql_db_list_tables
Action Input: ""[0m
Observation: [38;5;200m[1;3mhbm_capacity_plan_actual, hbm_competitive_gap_snapshot, hbm_customer_qualification, hbm_design_win_pipeline, hbm_process_kpi_monthly[0m
Thought:[32;1m[1;3mAction: sql_db_schema
Action Input: hbm_capacity_plan_actual, hbm_competitive_gap_snapshot, hbm_customer_qualification, hbm_design_win_pipeline, hbm_process_kpi_monthly[0m
Observation: [33;1m[1;3m
CREATE TABLE hbm_capacity_plan_actual (
	capacity_id BIGSERIAL NOT NULL, 
	fab_name TEXT NOT NULL, 
	hbm_generation TEXT NOT NULL, 
	stack_height_tiers TEXT NOT NULL, 
	month_start_date DATE NOT NULL, 
	planned_capacity_k_units INTEGER, 
	actual_output_k_units INTEGER, 
	equipment_utilization_pct NUMERIC(5, 2), 
	oee_percentage NUMERIC(5, 2), 
	primary_constraint_note TEXT, 
	capacity_note TEXT, 
	CONSTRAINT hbm_capacity_plan_actual_pkey PRIMARY KEY (capacity_id)
)

/*
3 rows from hbm_capacity_plan

In [2]:
result['output']

'1. **생산성 향상**: `hbm_capacity_plan_actual` 테이블의 데이터를 분석한 결과, 장비 활용도와 OEE(설비 종합 효율)가 개선될 여지가 있습니다. AI 기반의 예측 모델을 통해 병목 현상을 사전에 감지하고, 생산 계획을 최적화하여 생산성을 높일 수 있습니다.\n\n2. **경쟁력 강화**: `hbm_competitive_gap_snapshot` 테이블에서 삼성과 경쟁사의 성과를 비교한 결과, 특정 지표에서 경쟁사에 뒤처지는 것으로 나타났습니다. AI를 활용하여 실시간으로 경쟁사 데이터를 분석하고, 경쟁력 있는 전략을 수립함으로써 시장 점유율을 높일 수 있습니다.\n\n3. **품질 개선**: `hbm_process_kpi_monthly` 테이블의 공정 데이터를 분석한 결과, 특정 공정 단계에서 온도 및 전력 소비와 관련된 문제가 발견되었습니다. AI를 활용하여 공정 데이터를 실시간으로 모니터링하고, 품질 이상을 조기에 감지하여 품질을 개선할 수 있습니다.'

In [3]:
from qdrant_client import QdrantClient

# Qdrant 서버 접속
client = QdrantClient(url="http://localhost:6333")

# 서버 정상 동작 확인
print(client.get_collections())

collections=[CollectionDescription(name='samsung_external_web'), CollectionDescription(name='kpop_demon_hunters'), CollectionDescription(name='samsung_external_pdf')]


In [4]:
from datetime import datetime

from langchain.schema import Document
from langchain_openai.embeddings import OpenAIEmbeddings
from langchain_community.vectorstores import Qdrant
from langchain.text_splitter import RecursiveCharacterTextSplitter

# 1. 텍스트 쪼개기
splitter = RecursiveCharacterTextSplitter(chunk_size=300, chunk_overlap=50)
chunks = splitter.split_text(result["output"])

# 2. Document로 감싸기
today = datetime.now().strftime("%Y%m%d")# (예: '20251021')

docs = [
    Document(
        page_content=chunk,
        metadata={"source": f"samsung_internal_db_{today}", "chunk_id": i}
    )
    for i, chunk in enumerate(chunks)
]

# 3. 임베딩
embedding = OpenAIEmbeddings(model="text-embedding-3-small")

# 4. Qdrant에 저장
db = Qdrant.from_documents(
    documents=docs,
    embedding=embedding,
    collection_name="samsung_internal_db"
)

In [5]:
db.similarity_search('삼성 ai 도입', k=3)

[Document(metadata={'source': 'samsung_internal_db_20251024', 'chunk_id': 1, '_id': '1eafa11a-ecbd-4796-848e-a64260f7f6ad', '_collection_name': 'samsung_internal_db'}, page_content='2. **경쟁력 강화**: `hbm_competitive_gap_snapshot` 테이블에서 삼성과 경쟁사의 성과를 비교한 결과, 특정 지표에서 경쟁사에 뒤처지는 것으로 나타났습니다. AI를 활용하여 실시간으로 경쟁사 데이터를 분석하고, 경쟁력 있는 전략을 수립함으로써 시장 점유율을 높일 수 있습니다.'),
 Document(metadata={'source': 'samsung_internal_db_20251024', 'chunk_id': 0, '_id': 'e2878cf9-2b81-4462-8584-96569397e0c9', '_collection_name': 'samsung_internal_db'}, page_content='1. **생산성 향상**: `hbm_capacity_plan_actual` 테이블의 데이터를 분석한 결과, 장비 활용도와 OEE(설비 종합 효율)가 개선될 여지가 있습니다. AI 기반의 예측 모델을 통해 병목 현상을 사전에 감지하고, 생산 계획을 최적화하여 생산성을 높일 수 있습니다.'),
 Document(metadata={'source': 'samsung_internal_db_20251024', 'chunk_id': 2, '_id': '34424217-95b5-4b76-ad54-fe9018326f33', '_collection_name': 'samsung_internal_db'}, page_content='3. **품질 개선**: `hbm_process_kpi_monthly` 테이블의 공정 데이터를 분석한 결과, 특정 공정 단계에서 온도 및 전력 소비와 관련된 문제가 발견되었습니다. AI를 활용하여 공정 데이터를 

In [6]:
db.as_retriever().invoke('삼성', k=3)

[Document(metadata={'source': 'samsung_internal_db_20251024', 'chunk_id': 1, '_id': '1eafa11a-ecbd-4796-848e-a64260f7f6ad', '_collection_name': 'samsung_internal_db'}, page_content='2. **경쟁력 강화**: `hbm_competitive_gap_snapshot` 테이블에서 삼성과 경쟁사의 성과를 비교한 결과, 특정 지표에서 경쟁사에 뒤처지는 것으로 나타났습니다. AI를 활용하여 실시간으로 경쟁사 데이터를 분석하고, 경쟁력 있는 전략을 수립함으로써 시장 점유율을 높일 수 있습니다.'),
 Document(metadata={'source': 'samsung_internal_db_20251024', 'chunk_id': 0, '_id': 'e2878cf9-2b81-4462-8584-96569397e0c9', '_collection_name': 'samsung_internal_db'}, page_content='1. **생산성 향상**: `hbm_capacity_plan_actual` 테이블의 데이터를 분석한 결과, 장비 활용도와 OEE(설비 종합 효율)가 개선될 여지가 있습니다. AI 기반의 예측 모델을 통해 병목 현상을 사전에 감지하고, 생산 계획을 최적화하여 생산성을 높일 수 있습니다.'),
 Document(metadata={'source': 'samsung_internal_db_20251024', 'chunk_id': 2, '_id': '34424217-95b5-4b76-ad54-fe9018326f33', '_collection_name': 'samsung_internal_db'}, page_content='3. **품질 개선**: `hbm_process_kpi_monthly` 테이블의 공정 데이터를 분석한 결과, 특정 공정 단계에서 온도 및 전력 소비와 관련된 문제가 발견되었습니다. AI를 활용하여 공정 데이터를 