In [2]:
import pandas as pd
from urllib.parse import quote_plus
from sqlalchemy import create_engine, select
from griptape.drivers.sql.sql_driver import SqlDriver

In [3]:
db_password = ""
encoded_password = quote_plus(db_password)
connection_string = f"postgresql://postgres.winxhexdlkffhwxbxwve:{encoded_password}@aws-0-us-east-2.pooler.supabase.com:5432/postgres"
engine = create_engine(connection_string)


In [4]:
driver = SqlDriver(engine_url=connection_string)

In [5]:
table_schema = driver.get_table_schema("test_table")
table_schema
# %%

"[('発生日付', TIMESTAMP()), ('発生部署', TEXT()), ('グレード', TEXT()), ('トラブル内容', TEXT()), ('発生原因', TEXT()), ('対策', TEXT()), ('損失金額_単位百万円_', DOUBLE_PRECISION(precision=53)), ('原因分類', TEXT())]"

In [21]:
from llama_index.core.indices.struct_store.sql_query import (
    SQLTableRetrieverQueryEngine,
)
from llama_index.core.objects import (
    SQLTableNodeMapping,
    ObjectIndex,
    SQLTableSchema,
)
from llama_index.core import VectorStoreIndex
from llama_index.embeddings.openai import OpenAIEmbedding
from llama_index.core import SQLDatabase
from llama_index.core.schema import TextNode
from llama_index.llms.openai import OpenAI
llm = OpenAI(temperature=0.1, model="gpt-4o")

In [22]:
sql_database = SQLDatabase(engine, include_tables=["test_table"])


In [23]:
from sqlalchemy import Table, Column, MetaData, TIMESTAMP, TEXT, Float

metadata = MetaData()

test_table = Table(
    "test_table",
    metadata,
    Column("発生日付", TIMESTAMP),
    Column("発生部署", TEXT),
    Column("グレード", TEXT),
    Column("トラブル内容", TEXT),
    Column("発生原因", TEXT),
    Column("対策", TEXT),
    Column("損失金額_単位百万円_", Float(precision=53)),  # DOUBLE_PRECISION alias
    Column("原因分類", TEXT),
)


In [44]:
columns = ["グレード", "発生原因", "対策"]
cols_retrievers = {}

for col in columns:
    stmt = select(test_table.c[col]).distinct()
    with engine.connect() as connection:
        values = connection.execute(stmt).fetchall()
    nodes = [TextNode(text=str(val[0])) for val in values]
    
    col_index = VectorStoreIndex(nodes, embed_model=OpenAIEmbedding(model="text-embedding-3-small"))
    cols_retrievers[col] = col_index.as_retriever(similarity_top_k=1)

column_retrievers = {
    "test_table": cols_retrievers
}

with engine.connect() as connection:
    results = connection.execute(select(test_table)).fetchall()

row_nodes = [TextNode(text=str(row)) for row in results]

rows_index = VectorStoreIndex(
    row_nodes, embed_model=OpenAIEmbedding(model="text-embedding-3-small")
)

rows_retrievers = {
    "test_table": rows_index.as_retriever(similarity_top_k=2)
}


table_schema = """
Table Name: test_table

Columns:
- 発生部署: Department where the issue occurred.
- 発生日付: Date of occurrence (format: YYYY-MM-DD).
- グレード: Product or material code involved.
- トラブル内容: Description of the problem or error.
- 発生原因: Identified cause of the problem.
- 対策: Corrective action or fix applied.

Respond only what use answered with clean and responding in japanese only.
"""



table_node_mapping = SQLTableNodeMapping(sql_database)
table_schema_objs = [
    (SQLTableSchema(table_name="test_table", context_str=table_schema))
]
obj_index = ObjectIndex.from_objects(
    table_schema_objs,
    table_node_mapping,
    VectorStoreIndex,
    embed_model=OpenAIEmbedding(model="text-embedding-3-large"),
)
query_engine = SQLTableRetrieverQueryEngine(
    
    sql_database, obj_index.as_retriever(similarity_top_k=10, llm=llm), rows_retrievers=rows_retrievers)


In [45]:
from IPython.display import Markdown, display
response = query_engine.query("2021年4月19日に発生したNFCUDL927-1500におけるトラブルの原因と対策について説明してください。")
display(Markdown(f"<b>{response}</b>"))
display(Markdown(f"<b>{response.metadata["sql_query"]}</b>"))

<b>2021年4月19日に発生したNFCUDL927-1500のトラブルの原因は、充填機で風袋引き異常が発生し、リセット後に充填を開始させた際に秤が搬送ブレードに接触したことで正しい充填量が計測できず、過充填が発生したと推測されます。対策としては、秤とブレードが接触しないように秤上皿の改造を行ったり、異常発生時の処置ルールの再周知や作業標準の改訂などが挙げられます。また、充填機異常が発生した際の処置方法の見直しや運転員への周知なども重要です。</b>

<b>SELECT 発生原因, 対策
FROM test_table
WHERE 発生日付 = '2021-04-19' AND グレード = 'NFCUDL927-1500';</b>

In [14]:
response

Response(response='KICで発生したトラブルは計3件です。内容は、CMS-SB03の0.20um粗大粒子数(LPC)UCL外れ、CMS-WG25にてpHのUCL超え、WahLeeの製品倉庫内での液漏れです。', source_nodes=[NodeWithScore(node=TextNode(id_='b044c58d-ef43-4aa2-9e51-0766414edbb9', embedding=None, metadata={'sql_query': 'SELECT COUNT(*) AS total_troubles, "トラブル内容" \nFROM test_table \nWHERE "発生部署" = \'KIC\' \nGROUP BY "トラブル内容"', 'result': [(1, 'CMS-SB03の0.20um粗大粒子数(LPC)UCL外れが発生。BASDEL #SR18056とSR18057のPre-Qﾊﾞｯﾁとして製造したCMS-SB03 #1J299Zと1K059Zの2ﾛｯﾄで、0.20um LPCが400万個/ml超えのUCL外れ(362万個/ml)。\n'), (1, 'CMS-WG25(#1H051AV）にて、アンモニア投入後及び循環濾過後のpHのUCL超えが発生(UCL:3.09に対して3.15)。'), (1, 'WahLeeの製品倉庫内で、tsmc向けCMS-F1H（ロット1M221AL）のドラム1本の液漏れを発見。')], 'col_keys': ['total_troubles', 'トラブル内容']}, excluded_embed_metadata_keys=['sql_query', 'result', 'col_keys'], excluded_llm_metadata_keys=['sql_query', 'result', 'col_keys'], relationships={}, metadata_template='{key}: {value}', metadata_separator='\n', text="[(1, 'CMS-SB03の0.20um粗大粒子数(LPC)UCL外れが発生。BASDEL #SR18056とSR18057のPre-Qﾊﾞｯﾁとして製造したCMS-SB03 

In [15]:
display(Markdown(f"<b>{response.metadata["sql_query"]}</b>"))

<b>SELECT COUNT(*) AS total_troubles, "トラブル内容" 
FROM test_table 
WHERE "発生部署" = 'KIC' 
GROUP BY "トラブル内容"</b>