## 1. 데이터 로드

1-1. DB Schema 정보 불러오기

In [1]:
import os
from google.colab import drive
drive.mount('/content/drive') # 구글 드라이브 마운트

Mounted at /content/drive


In [2]:
import json
import pandas as pd

In [3]:
dir_val = '/content/drive/MyDrive/Project1/Data/Validation/Tables' # Vaildation Data Set의 DB Schema 정보가 있는 폴더 경로 지정
files = os.listdir(dir_val)

In [4]:
def extract_indexes(df):
    """
    DataFrame에서 스키마 정보를 추출합니다.

    Args:
        df: 스키마 정보를 담고 있는 Pandas DataFrame.

    Returns:
        schema_info: 추출된 스키마 정보를 담은 리스트.
    """
    schema_info = []
    for index, row in df.iterrows():
        schema_info.append({
            "db_id": row['db_id'],
            "table_names_original": row['table_names_original'],
            "column_names_original": row['column_names_original'],
            "column_types": row['column_types']
        })
    return schema_info

In [5]:
df_val = pd.DataFrame()

for filename in os.listdir(dir_val):
  if filename.endswith('.json'):
    filepath = os.path.join(dir_val, filename)
    with open(filepath, 'r') as f:
      data = json.load(f)
      df_temp = pd.DataFrame(data["data"])
      df_val = pd.concat([df_val, df_temp])

In [6]:
df_val.head()

Unnamed: 0,source,db_id,table_names_original,table_names,column_names_original,column_names,column_types,foreign_keys,primary_keys
0,서울특별시,seouldata_healthcare_733,[TB_PHARMACY_OPERATE_INFO],[서울시 약국 운영시간 정보],"[[-1, *], [0, HPID], [0, DUTYADDR], [0, DUTYNA...","[[-1, *], [0, 약국아이디], [0, 주소], [0, 약국명], [0, 대...","[text, text, text, text, text, number, number,...",[],[]
1,서울특별시,seouldata_healthcare_1353,[L_O_C_A_L_D_A_T_A_020302_D_D],[서울시 동대문구 동물약국 인허가 정보],"[[-1, *], [0, OPNSFTEAMCODE], [0, MGTNO], [0, ...","[[-1, *], [0, 개방자치단체코드], [0, 관리번호], [0, 인허가일자]...","[text, number, number, time, number, text, num...",[],[]
2,서울특별시,seouldata_healthcare_1485,[L_O_C_A_L_D_A_T_A_020302_M_P],[서울시 마포구 동물약국 인허가 정보],"[[-1, *], [0, OPNSFTEAMCODE], [0, MGTNO], [0, ...","[[-1, *], [0, 개방자치단체코드], [0, 관리번호], [0, 인허가일자]...","[text, number, number, time, text, text, numbe...",[],[]
3,서울특별시,seouldata_healthcare_2398,[YS_FOOD_COLLECT_CHECK],[서울시 용산구 전체 식품수거검사 현황],"[[-1, *], [0, CGG_CODE], [0, SNT_COB_CODE], [0...","[[-1, *], [0, 시군구코드], [0, 업종코드], [0, 업종명], [0,...","[text, number, number, text, number, text, tex...",[],[]
4,서울특별시,seouldata_healthcare_2088,[L_O_C_A_L_D_A_T_A_072211_J_G],[서울시 중구 식품제조가공업 인허가 정보],"[[-1, *], [0, OPNSFTEAMCODE], [0, MGTNO], [0, ...","[[-1, *], [0, 개방자치단체코드], [0, 관리번호], [0, 인허가취소일...","[text, number, text, text, text, number, text,...",[],[]


In [7]:
# DataFrame에서 스키마 정보 추출
schema_val_info = extract_indexes(df_val)

# 추출된 정보 출력
for schema in schema_val_info:
    print(schema)

{'db_id': 'seouldata_healthcare_733', 'table_names_original': ['TB_PHARMACY_OPERATE_INFO'], 'column_names_original': [[-1, '*'], [0, 'HPID'], [0, 'DUTYADDR'], [0, 'DUTYNAME'], [0, 'DUTYTEL1'], [0, 'DUTYTIME1C'], [0, 'DUTYTIME2C'], [0, 'DUTYTIME3C'], [0, 'DUTYTIME4C'], [0, 'DUTYTIME5C'], [0, 'DUTYTIME6C'], [0, 'DUTYTIME7C'], [0, 'DUTYTIME8C'], [0, 'DUTYTIME1S'], [0, 'DUTYTIME2S'], [0, 'DUTYTIME3S'], [0, 'DUTYTIME4S'], [0, 'DUTYTIME5S'], [0, 'DUTYTIME6S'], [0, 'DUTYTIME7S'], [0, 'DUTYTIME8S'], [0, 'POSTCDN1'], [0, 'POSTCDN2'], [0, 'WGS84LON'], [0, 'WGS84LAT'], [0, 'WORK_DTTM']], 'column_types': ['text', 'text', 'text', 'text', 'text', 'number', 'number', 'number', 'number', 'number', 'number', 'number', 'number', 'number', 'number', 'number', 'number', 'number', 'number', 'number', 'number', 'number', 'number', 'number', 'number', 'time']}
{'db_id': 'seouldata_healthcare_1353', 'table_names_original': ['L_O_C_A_L_D_A_T_A_020302_D_D'], 'column_names_original': [[-1, '*'], [0, 'OPNSFTEAMCO

In [8]:
# 위에서 추출한 schema_info에서 db_id를 key, table_names_original과 column_names_original, column_types를 value로 해서 dictionary를 만듬

schema_val_dict = {}

for schema in schema_val_info:
  db_id = schema['db_id']
  schema_val_dict[db_id] = {
      'table_names_original': schema['table_names_original'][0],
      'column_names_original': [col[1] for col in schema['column_names_original']],
      'column_types': schema['column_types']
  }

In [9]:
for key, value in schema_val_dict.items():
  print(f"Key: {key}")
  print(f"Value: {value}")
  print("-" * 20)

Key: seouldata_healthcare_733
Value: {'table_names_original': 'TB_PHARMACY_OPERATE_INFO', 'column_names_original': ['*', 'HPID', 'DUTYADDR', 'DUTYNAME', 'DUTYTEL1', 'DUTYTIME1C', 'DUTYTIME2C', 'DUTYTIME3C', 'DUTYTIME4C', 'DUTYTIME5C', 'DUTYTIME6C', 'DUTYTIME7C', 'DUTYTIME8C', 'DUTYTIME1S', 'DUTYTIME2S', 'DUTYTIME3S', 'DUTYTIME4S', 'DUTYTIME5S', 'DUTYTIME6S', 'DUTYTIME7S', 'DUTYTIME8S', 'POSTCDN1', 'POSTCDN2', 'WGS84LON', 'WGS84LAT', 'WORK_DTTM'], 'column_types': ['text', 'text', 'text', 'text', 'text', 'number', 'number', 'number', 'number', 'number', 'number', 'number', 'number', 'number', 'number', 'number', 'number', 'number', 'number', 'number', 'number', 'number', 'number', 'number', 'number', 'time']}
--------------------
Key: seouldata_healthcare_1353
Value: {'table_names_original': 'L_O_C_A_L_D_A_T_A_020302_D_D', 'column_names_original': ['*', 'OPNSFTEAMCODE', 'MGTNO', 'APVPERMYMD', 'TRDSTATEGBN', 'TRDSTATENM', 'DTLSTATEGBN', 'DTLSTATENM', 'DCBYMD', 'SITETEL', 'SITEAREA', 'SITE

1-2. lable된 data 불러오기

In [10]:
def merge_json_files_to_dataframe(root_dir):
    """
    Merges all JSON files in subfolders of the root directory into a single DataFrame.

    Args:
        root_dir: The path to the root directory.

    Returns:
        A Pandas DataFrame containing the merged data.
    """
    df = pd.DataFrame()  # Create DataFrame

    for dirpath, dirnames, filenames in os.walk(root_dir):
        for filename in filenames:
            if filename.endswith('.json'):
                filepath = os.path.join(dirpath, filename)
                print(filepath)
                with open(filepath, 'r', encoding='utf-8') as f:
                    try:
                        data = json.load(f)
                        df_temp = pd.DataFrame(data["data"])
                        df = pd.concat([df, df_temp])
                    except json.JSONDecodeError as e:
                        print(f"Error decoding JSON in file: {filepath}")
                        print(f"Error message: {e}")

    return df

In [11]:
# 구글 드라이브 폴더 경로를 지정합니다.
folder_path_val = '/content/drive/MyDrive/Project1/Data/Validation/SQLs'

# JSON 파일을 읽어와 병합합니다.
df2_val = merge_json_files_to_dataframe(folder_path_val)

/content/drive/MyDrive/Project1/Data/Validation/SQLs/2. 공공데이터포털/01. 보건/TEXT_NL2SQL_label_publicdata_healthcare.json
/content/drive/MyDrive/Project1/Data/Validation/SQLs/2. 공공데이터포털/05. 복지/TEXT_NL2SQL_label_publicdata_welfare.json
/content/drive/MyDrive/Project1/Data/Validation/SQLs/2. 공공데이터포털/08. 교육/TEXT_NL2SQL_label_publicdata_education.json
/content/drive/MyDrive/Project1/Data/Validation/SQLs/2. 공공데이터포털/03. 문화／관광/TEXT_NL2SQL_label_publicdata_culture.json
/content/drive/MyDrive/Project1/Data/Validation/SQLs/2. 공공데이터포털/07. 교통/TEXT_NL2SQL_label_publicdata_transportation.json
/content/drive/MyDrive/Project1/Data/Validation/SQLs/2. 공공데이터포털/04. 산업／경제/TEXT_NL2SQL_label_publicdata_industrialeconomic.json
/content/drive/MyDrive/Project1/Data/Validation/SQLs/2. 공공데이터포털/02. 일반행정/TEXT_NL2SQL_label_publicdata_publicadministration.json
/content/drive/MyDrive/Project1/Data/Validation/SQLs/2. 공고

In [12]:
# 병합된 DataFrame을 출력합니다.
print(df2_val.info())

<class 'pandas.core.frame.DataFrame'>
Index: 11026 entries, 0 to 248
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   db_id           11026 non-null  object
 1   utterance_id    11026 non-null  object
 2   hardness        11026 non-null  object
 3   utterance_type  11026 non-null  object
 4   query           11026 non-null  object
 5   utterance       11026 non-null  object
 6   values          11026 non-null  object
 7   cols            11026 non-null  object
dtypes: object(8)
memory usage: 775.3+ KB
None


In [13]:
df2_val = df2_val.dropna(subset=['query'])

df2_val.info()
df2_val.head()

<class 'pandas.core.frame.DataFrame'>
Index: 11026 entries, 0 to 248
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   db_id           11026 non-null  object
 1   utterance_id    11026 non-null  object
 2   hardness        11026 non-null  object
 3   utterance_type  11026 non-null  object
 4   query           11026 non-null  object
 5   utterance       11026 non-null  object
 6   values          11026 non-null  object
 7   cols            11026 non-null  object
dtypes: object(8)
memory usage: 775.3+ KB


Unnamed: 0,db_id,utterance_id,hardness,utterance_type,query,utterance,values,cols
0,publicdata_healthcare_740,Wht_10645,medium,BR04,SELECT CONTACT FROM GYEONGNAM_HEALTH_CLINIC WH...,소재지에 산양읍이 들어가는 보건 진료소의 연락처를 알려줘,[],"[{'token': '연락처', 'start': 23, 'column_index':..."
1,publicdata_healthcare_740,Hch_10647,medium,BR08,"SELECT CITIES, COUNT(HEALTH_CARE_CALL) FROM GY...",시군별 진료소의 개수와 시군을 보여줘,[],"[{'token': '시군', 'start': 13, 'column_index': ..."
2,publicdata_healthcare_740,Wht_10646,easy,BR04,SELECT FAX FROM GYEONGNAM_HEALTH_CLINIC WHERE ...,사천시에 있는 보건 진료소의 팩스 번호를 알려줘,"[{'token': '사천시', 'start': 0, 'column_index': 1}]","[{'token': '팩스 번호', 'start': 16, 'column_index..."
3,publicdata_healthcare_740,Wht_10647,easy,BR04,SELECT CONTACT FROM GYEONGNAM_HEALTH_CLINIC WH...,학림 보건진료소의 연락처를 알려줘,"[{'token': '학림', 'start': 0, 'column_index': 2}]","[{'token': '연락처', 'start': 10, 'column_index':..."
4,publicdata_healthcare_740,Whr_12929,easy,BR03,SELECT LOCATION FROM GYEONGNAM_HEALTH_CLINIC W...,진주시가 아닌 보건 진료소의 소재지를 알려줘,"[{'token': '진주시', 'start': 0, 'column_index': 1}]","[{'token': '소재지', 'start': 16, 'column_index':..."


## 2. Pytorch 데이터 로더 세팅

In [14]:
import torch
from torch.utils.data import Dataset, DataLoader

In [15]:
class SQLDataset(Dataset):
    def __init__(self, df2, schema_dict):
        self.df2 = df2
        self.schema_dict = schema_dict

    def __len__(self):
        return len(self.df2)

    def __getitem__(self, idx):
        row = self.df2.iloc[idx]
        db_id = row['db_id']
        utterance = row['utterance']
        query = row['query']

        if db_id in self.schema_dict:
            table_names = self.schema_dict[db_id]['table_names_original']
            column_names = self.schema_dict[db_id]['column_names_original']
            column_types = self.schema_dict[db_id]['column_types']

            # 여기서 토큰화 및 인코딩 작업을 수행합니다.
            # 예를 들어, utterance, table_names, column_names를 토큰화하고 인덱스로 변환합니다.
            # input_tokens = tokenize_and_encode(utterance, table_names, column_names)

            # 임시로 문자열을 그대로 사용
            input_tokens = f"[CLS]{utterance}[SEP]{table_names}{' '.join(column_names)}"

            # query를 토큰화하고 인덱스로 변환합니다.
            # target_tokens = tokenize_and_encode(query)

            # 임시로 문자열을 그대로 사용
            target_tokens = query

            return input_tokens, target_tokens
        else:
            return None, None

In [16]:
# df2_val과 schema_val_dict을 사용해서 test를 위한 data loader를 생성

test_dataset = SQLDataset(df2_val, schema_val_dict)
test_dataloader = DataLoader(test_dataset, batch_size=8, shuffle=False)  # 테스트는 shuffle하지 않습니다.

In [17]:
# 데이터 로더 사용 예시
for input_tokens, target_tokens in test_dataloader:
    # 모델에 input_tokens를 입력하고 target_tokens를 정답으로 사용하여 test
    print(input_tokens[0])
    print(target_tokens[0])
    break # 예시로 첫 번째 배치만 출력

[CLS]소재지에 산양읍이 들어가는 보건 진료소의 연락처를 알려줘[SEP]GYEONGNAM_HEALTH_CLINIC* CITIES HEALTH_CARE_CALL LOCATION CONTACT FAX MEDICAL_TREATMENT CARE_TIME
SELECT CONTACT FROM GYEONGNAM_HEALTH_CLINIC WHERE LOCATION LIKE '%산양읍%'


## 3. Model Test

In [18]:
# Load model directly
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

# Check if GPU is available, otherwise use CPU
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

In [19]:
# 모델과 토크나이저를 로드합니다.
model_path = '/content/drive/MyDrive/Project1/fine_tuned_mt5-small_model'
model = AutoModelForSeq2SeqLM.from_pretrained(model_path).to(device)
tokenizer = AutoTokenizer.from_pretrained(model_path)

You set `add_prefix_space`. The tokenizer needs to be converted from the slow tokenizers


In [20]:
'''
# 테스트 루프 (예시)
model.eval()  # 모델을 평가 모드로 설정
correct_predictions = 0
total_samples = 0

with torch.no_grad():
    for batch_idx, (input_tokens, target_tokens) in enumerate(test_dataloader):
        inputs = tokenizer(input_tokens, return_tensors="pt", padding=True, truncation=True).to(device)
        targets = tokenizer(target_tokens, return_tensors="pt", padding=True, truncation=True).to(device)

        outputs = model.generate(**inputs)  # generate 함수를 사용하여 SQL 생성

        # 생성된 SQL을 디코딩
        predicted_sqls = tokenizer.batch_decode(outputs, skip_special_tokens=True)

        # 생성된 SQL과 실제 SQL을 비교하여 정확도 계산
        for i in range(len(predicted_sqls)):
            # target_tokens[i]를 토큰화된 상태에서 문자열로 변환
            target_sql = tokenizer.decode(targets.input_ids[i], skip_special_tokens=True)

            # 생성된 SQL과 실제 SQL이 일치하는지 확인
            if predicted_sqls[i] == target_sql:
                correct_predictions += 1

        total_samples += len(predicted_sqls)

        # 중간 과정 정확도 출력
        accuracy = correct_predictions / total_samples
        print(f"Batch {batch_idx + 1}: Accuracy = {accuracy:.4f}")

# 모든 테스트 완료 후 정확도 출력
accuracy = correct_predictions / total_samples
print(f"Overall Accuracy: {accuracy:.4f}")
'''

'\n# 테스트 루프 (예시)\nmodel.eval()  # 모델을 평가 모드로 설정\ncorrect_predictions = 0\ntotal_samples = 0\n\nwith torch.no_grad():\n    for batch_idx, (input_tokens, target_tokens) in enumerate(test_dataloader):\n        inputs = tokenizer(input_tokens, return_tensors="pt", padding=True, truncation=True).to(device)\n        targets = tokenizer(target_tokens, return_tensors="pt", padding=True, truncation=True).to(device)\n\n        outputs = model.generate(**inputs)  # generate 함수를 사용하여 SQL 생성\n\n        # 생성된 SQL을 디코딩\n        predicted_sqls = tokenizer.batch_decode(outputs, skip_special_tokens=True)\n\n        # 생성된 SQL과 실제 SQL을 비교하여 정확도 계산\n        for i in range(len(predicted_sqls)):\n            # target_tokens[i]를 토큰화된 상태에서 문자열로 변환\n            target_sql = tokenizer.decode(targets.input_ids[i], skip_special_tokens=True)\n\n            # 생성된 SQL과 실제 SQL이 일치하는지 확인\n            if predicted_sqls[i] == target_sql:\n                correct_predictions += 1\n\n        total_samples += len(predicted_

In [21]:
def print_query(input_utterance, db_id):
  if db_id in schema_val_dict:
    table_names = schema_val_dict[db_id]['table_names_original']
    column_names = schema_val_dict[db_id]['column_names_original']

    input_tokens = f"[CLS]{input_utterance}[SEP]{table_names}{'[SEP]'.join(column_names)}"

    # 토큰화 및 인코딩
    inputs = tokenizer(input_tokens, return_tensors="pt", padding=True, truncation=True).to(device)

    # 모델 실행
    model.eval()
    with torch.no_grad():
        outputs = model.generate(**inputs)
        predicted_sql = tokenizer.decode(outputs[0], skip_special_tokens=True)

    print("Input Utterance:", input_utterance)
    print("Predicted SQL:", predicted_sql)
  else:
    print(f"DB ID '{db_id}' not found in schema dictionary.")

In [23]:
# df2_val에서 db_id와 utterance쌍을 요소로 가지는 리스트를 생성

db_utterance_list = []
for index, row in df2_val.iterrows():
  db_id = row['db_id']
  utterance = row['utterance']
  db_utterance_list.append((db_id, utterance))

In [24]:
print(db_utterance_list[:5])  # 처음 5개 쌍만 출력

[('publicdata_healthcare_740', '소재지에 산양읍이 들어가는 보건 진료소의 연락처를 알려줘'), ('publicdata_healthcare_740', '시군별 진료소의 개수와 시군을 보여줘'), ('publicdata_healthcare_740', '사천시에 있는 보건 진료소의 팩스 번호를 알려줘'), ('publicdata_healthcare_740', '학림 보건진료소의 연락처를 알려줘'), ('publicdata_healthcare_740', '진주시가 아닌 보건 진료소의 소재지를 알려줘')]


In [25]:
import random

In [27]:
for db_id, input_utterance in random.sample(db_utterance_list, 5):
  print_query(input_utterance, db_id)



Input Utterance: 참조 표준 데이터베이스명이 한국인으로 시작하는 센터의 이름을 중복 없이 찾아줘
Predicted SQL: SELECT DISTINCT CENTER_NMC FROM T_INFO_DB_MAIN
Input Utterance: 50인 미만으로 운영 중인 평균 업체 수가 20인 미만 업체 수 보다 많고 부동산을 담보로 지원받은 업체가 5곳 이상인 연도를 중복 없이 찾아줘
Predicted SQL: SELECT DISTINCT T1.YEAR FROM NUM_SU_CO_KOS
Input Utterance: 위생 업태명이 방문 판매인 업체의 소재지 면적은 얼마야
Predicted SQL: SELECT SITEAREA FROM L_O_C_A_L_D_
Input Utterance: 비고에 청소년이 포함되는 의료기관 시설의 이름을 알려줘
Predicted SQL: SELECT NAME FROM GD_TN_BBS9 WHERE PHONE LIKE 
Input Utterance: 상세 영업 상태명이 영업인 곳의 최종 수정 일자와 사업장명을 보여줘
Predicted SQL: SELECT LASTMODTS, BPLCNM FROM L_O_C_A
