In [1]:
import torch
from peft import AutoPeftModelForCausalLM
from transformers import AutoModelForCausalLM, AutoTokenizer
import pandas as pd

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
model_path = '/home/LLM_para/para_glm4'
lora_path = './final_checkpoint_GLM4_Table_SFT_cropped'
# val_dataset_path = "/home/code/chat_SQL/Dataset/GLM4/ENG_ori/My_idea_dataset/T2Q_GLM4_SFT_val_table.jsonl"

In [3]:
model = AutoPeftModelForCausalLM.from_pretrained(
        lora_path, trust_remote_code= True, device_map='auto')

Loading checkpoint shards: 100%|████████████████████████████████████████████████████████| 10/10 [01:36<00:00,  9.66s/it]


In [4]:
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [5]:
def filter_descibe(sql_statement):
    modified_sql = re.sub(r'(\w+)\s+(INTEGER|int|NUMERIC|INT|REAL|TEXT|DATETIME|datetime|bigint\(?\d*\)?|CHAR\(?\d*\)?|char\(?\d*\)?|varchar2\(?\d*\)|VARCHAR\(?\d*\)|varchar\(?\d*\)|DECIMAL\(?\d*,\s*\d*\)?)', r'\1', sql_statement)
    return  modified_sql

In [6]:
from tqdm import tqdm
import copy
import re

# 获取REF表数据
tab_str = ""
count = 0
df = pd.read_csv("./mydataset_new/table_schema_Reference_cropped.csv", encoding="utf-8")
for index, row in tqdm(df.iterrows(), total=len(df)):
    table_group = row['Reference_group']
    table_group = filter_descibe(table_group)
    table_group = table_group.replace("\r","")
    table_group = table_group.replace("\n","")
    table_group = table_group.replace("  "," ")
    tab_str += table_group + "\n"
    
df = pd.read_csv("./mydataset_new/table_schema_noReference_cropped.csv", encoding="utf-8")
for index, row in tqdm(df.iterrows(), total=len(df)):
    table_group = row['noReference_group']
    table_group = filter_descibe(table_group)
    table_group = table_group.replace("\r", "")
    table_group = table_group.replace("\n", "")
    table_group = table_group.replace("  ", " ")
    tab_str += table_group + "\n"

schema_str = tab_str.strip()
check_token = tokenizer(f"{schema_str}", add_special_tokens=False)
print(len(check_token["input_ids"]))
max_token = 5200

100%|███████████████████████████████████████████████████████████████████████████████| 142/142 [00:00<00:00, 3980.48it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 30/30 [00:00<00:00, 10137.70it/s]

4900





In [7]:
def predict(messages, model, tokenizer):
    device = "cuda"
    text = tokenizer.apply_chat_template(
        messages,
        tokenize=False,
        add_generation_prompt=True
    )
    model_inputs = tokenizer([text], return_tensors="pt").to(device)

    generated_ids = model.generate(
        model_inputs.input_ids,
        max_new_tokens=512
    )
    generated_ids = [
        output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
    ]
    
    response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
    
#     print(response)
     
    return response

# instruction = row['instruction']
# input_value = row['input']
def get_instruction(schema):
    instruction = f" I want you to act as a relation extraction robot for a sample SQL table. You only need to return the tables related to the user's input question. Below are instructions describing the relationship between tables. Please write a response that appropriately completes the request. \n##instruction:{schema}"
    return instruction

def get_input_value(question):
    input_value = f"{question}"
    return input_value

In [8]:
import re
df = pd.read_csv("./mydataset_new/validation_dataset_formatted_cropped.csv",encoding="utf-8")
outer_index = 0
import re
import time
start_time = time.time() 
pattern = re.compile(r'-- Tables: ([\w, ]+);')
results = []
instruction = get_instruction(schema_str)
#  schema_slicing
for index, row in tqdm(df.iterrows(), total=len(df)):
    question = row['question']
    ref_tables = row['correct_tables']
    messages = [
    {"role": "system", "content": f"{instruction}"},
    {"role": "user", "content": f"{question}"}]
    response = predict(messages, model, tokenizer)
    match = re.search(pattern, response)
    if match:
    # 提取匹配的表名字符串
        table_names_str = match.group(1)

        # 使用中文逗号分隔表名，这里我们替换中文逗号为英文逗号并去除空格
    #         table_names = [name.strip() for name in table_names_str.replace('，', ',').split(',')]
        table_names = table_names_str.split(', ')
        # 将table_names整合成一个由英文逗号分隔的字符串
        predict_table = ', '.join(table_names)
        print(f"++++++++++++++++index:{index}++++++++++++++++++++++++")
        print("预测表名：", predict_table)
        print("正确表名：", ref_tables)
        print("############################################")
    else:
        predict_table = "None"
    results.append([ref_tables,predict_table])
end_time = time.time() 
print(len(predict_table))  

  1%|▍                                                                                  | 1/178 [00:04<12:01,  4.08s/it]

++++++++++++++++index:0++++++++++++++++++++++++
预测表名： products, manufacturers
正确表名： products, manufacturers
############################################


  1%|▉                                                                                  | 2/178 [00:05<06:51,  2.34s/it]

++++++++++++++++index:1++++++++++++++++++++++++
预测表名： products
正确表名： products
############################################


  2%|█▍                                                                                 | 3/178 [00:06<05:11,  1.78s/it]

++++++++++++++++index:2++++++++++++++++++++++++
预测表名： manufacturers
正确表名： manufacturers
############################################


  2%|█▊                                                                                 | 4/178 [00:07<04:24,  1.52s/it]

++++++++++++++++index:3++++++++++++++++++++++++
预测表名： manufacturers
正确表名： manufacturers
############################################


  3%|██▎                                                                                | 5/178 [00:08<03:58,  1.38s/it]

++++++++++++++++index:4++++++++++++++++++++++++
预测表名： manufacturers
正确表名： manufacturers
############################################


  3%|██▊                                                                                | 6/178 [00:09<03:46,  1.32s/it]

++++++++++++++++index:5++++++++++++++++++++++++
预测表名： products, manufacturers
正确表名： products, manufacturers
############################################


  4%|███▎                                                                               | 7/178 [00:10<03:34,  1.26s/it]

++++++++++++++++index:6++++++++++++++++++++++++
预测表名： manufacturers
正确表名： manufacturers
############################################


  4%|███▋                                                                               | 8/178 [00:12<03:26,  1.21s/it]

++++++++++++++++index:7++++++++++++++++++++++++
预测表名： products
正确表名： products
############################################


  5%|████▏                                                                              | 9/178 [00:13<03:27,  1.23s/it]

++++++++++++++++index:8++++++++++++++++++++++++
预测表名： student, sportsinfo
正确表名： student, sportsinfo
############################################


  6%|████▌                                                                             | 10/178 [00:14<03:29,  1.25s/it]

++++++++++++++++index:9++++++++++++++++++++++++
预测表名： plays_games, video_games
正确表名： plays_games, video_games
############################################


  6%|█████                                                                             | 11/178 [00:15<03:23,  1.22s/it]

++++++++++++++++index:10++++++++++++++++++++++++
预测表名： video_games
正确表名： video_games
############################################


  7%|█████▌                                                                            | 12/178 [00:16<03:19,  1.20s/it]

++++++++++++++++index:11++++++++++++++++++++++++
预测表名： video_games
正确表名： video_games
############################################


  7%|█████▉                                                                            | 13/178 [00:18<03:16,  1.19s/it]

++++++++++++++++index:12++++++++++++++++++++++++
预测表名： video_games
正确表名： video_games
############################################


  8%|██████▍                                                                           | 14/178 [00:19<03:18,  1.21s/it]

++++++++++++++++index:13++++++++++++++++++++++++
预测表名： sportsinfo, student
正确表名： sportsinfo, student
############################################


  8%|██████▉                                                                           | 15/178 [00:20<03:18,  1.22s/it]

++++++++++++++++index:14++++++++++++++++++++++++
预测表名： student, plays_games
正确表名： student, plays_games
############################################


  9%|███████▎                                                                          | 16/178 [00:21<03:22,  1.25s/it]

++++++++++++++++index:15++++++++++++++++++++++++
预测表名： student, sportsinfo
正确表名： student, sportsinfo
############################################


 10%|███████▊                                                                          | 17/178 [00:22<03:15,  1.22s/it]

++++++++++++++++index:16++++++++++++++++++++++++
预测表名： musical
正确表名： musical
############################################


 10%|████████▎                                                                         | 18/178 [00:24<03:14,  1.22s/it]

++++++++++++++++index:17++++++++++++++++++++++++
预测表名： actor, musical
正确表名： actor, musical
############################################


 11%|████████▊                                                                         | 19/178 [00:25<03:13,  1.21s/it]

++++++++++++++++index:18++++++++++++++++++++++++
预测表名： musical, actor
正确表名： musical, actor
############################################


 11%|█████████▏                                                                        | 20/178 [00:26<03:11,  1.21s/it]

++++++++++++++++index:19++++++++++++++++++++++++
预测表名： actor, musical
正确表名： actor, musical
############################################


 12%|█████████▋                                                                        | 21/178 [00:27<03:05,  1.18s/it]

++++++++++++++++index:20++++++++++++++++++++++++
预测表名： entrepreneur
正确表名： entrepreneur, people
############################################


 12%|██████████▏                                                                       | 22/178 [00:28<03:05,  1.19s/it]

++++++++++++++++index:21++++++++++++++++++++++++
预测表名： entrepreneur, people
正确表名： entrepreneur, people
############################################


 13%|██████████▌                                                                       | 23/178 [00:30<03:00,  1.16s/it]

++++++++++++++++index:22++++++++++++++++++++++++
预测表名： people
正确表名： people
############################################


 13%|███████████                                                                       | 24/178 [00:31<02:57,  1.15s/it]

++++++++++++++++index:23++++++++++++++++++++++++
预测表名： entrepreneur
正确表名： entrepreneur
############################################


 14%|███████████▌                                                                      | 25/178 [00:32<03:07,  1.22s/it]

++++++++++++++++index:24++++++++++++++++++++++++
预测表名： tourist_attractions, visitors, visits
正确表名： tourist_attractions, visitors, visits
############################################


 15%|███████████▉                                                                      | 26/178 [00:33<03:01,  1.19s/it]

++++++++++++++++index:25++++++++++++++++++++++++
预测表名： visits
正确表名： visits
############################################


 15%|████████████▍                                                                     | 27/178 [00:34<03:05,  1.23s/it]

++++++++++++++++index:26++++++++++++++++++++++++
预测表名： locations, tourist_attractions
正确表名： locations, tourist_attractions
############################################


 16%|████████████▉                                                                     | 28/178 [00:36<03:03,  1.22s/it]

++++++++++++++++index:27++++++++++++++++++++++++
预测表名： tourist_attractions
正确表名： tourist_attractions
############################################


 16%|█████████████▎                                                                    | 29/178 [00:37<03:06,  1.25s/it]

++++++++++++++++index:28++++++++++++++++++++++++
预测表名： museums, tourist_attractions
正确表名： museums, tourist_attractions
############################################


 17%|█████████████▊                                                                    | 30/178 [00:38<03:10,  1.28s/it]

++++++++++++++++index:29++++++++++++++++++++++++
预测表名： locations, tourist_attractions
正确表名： locations, tourist_attractions
############################################


 17%|██████████████▎                                                                   | 31/178 [00:39<03:01,  1.23s/it]

++++++++++++++++index:30++++++++++++++++++++++++
预测表名： photos
正确表名： photos
############################################


 18%|██████████████▋                                                                   | 32/178 [00:41<03:02,  1.25s/it]

++++++++++++++++index:31++++++++++++++++++++++++
预测表名： staff, tourist_attractions
正确表名： staff, tourist_attractions
############################################


 19%|███████████████▏                                                                  | 33/178 [00:42<02:55,  1.21s/it]

++++++++++++++++index:32++++++++++++++++++++++++
预测表名： elimination
正确表名： elimination
############################################


 19%|███████████████▋                                                                  | 34/178 [00:43<02:50,  1.18s/it]

++++++++++++++++index:33++++++++++++++++++++++++
预测表名： wrestler
正确表名： wrestler
############################################


 20%|████████████████                                                                  | 35/178 [00:44<02:46,  1.16s/it]

++++++++++++++++index:34++++++++++++++++++++++++
预测表名： wrestler
正确表名： wrestler
############################################


 20%|████████████████▌                                                                 | 36/178 [00:45<02:43,  1.15s/it]

++++++++++++++++index:35++++++++++++++++++++++++
预测表名： elimination
正确表名： elimination
############################################


 21%|█████████████████                                                                 | 37/178 [00:46<02:44,  1.17s/it]

++++++++++++++++index:36++++++++++++++++++++++++
预测表名： user, tip
正确表名： user, tip
############################################


 21%|█████████████████▌                                                                | 38/178 [00:48<02:53,  1.24s/it]

++++++++++++++++index:37++++++++++++++++++++++++
预测表名： category, business, review, user
正确表名： category, business, review, user
############################################


 22%|█████████████████▉                                                                | 39/178 [00:49<02:55,  1.26s/it]

++++++++++++++++index:38++++++++++++++++++++++++
预测表名： category, business, review
正确表名： category, business, review, user
############################################


 22%|██████████████████▍                                                               | 40/178 [00:50<02:55,  1.27s/it]

++++++++++++++++index:39++++++++++++++++++++++++
预测表名： category, business, neighbourhood
正确表名： category, business, neighbourhood
############################################


 23%|██████████████████▉                                                               | 41/178 [00:52<02:51,  1.25s/it]

++++++++++++++++index:40++++++++++++++++++++++++
预测表名： category, business
正确表名： category, business
############################################


 24%|███████████████████▎                                                              | 42/178 [00:53<02:48,  1.24s/it]

++++++++++++++++index:41++++++++++++++++++++++++
预测表名： user, review
正确表名： user, review
############################################


 24%|███████████████████▊                                                              | 43/178 [00:54<02:46,  1.24s/it]

++++++++++++++++index:42++++++++++++++++++++++++
预测表名： category, business
正确表名： category, business
############################################


 25%|████████████████████▎                                                             | 44/178 [00:55<02:48,  1.26s/it]

++++++++++++++++index:43++++++++++++++++++++++++
预测表名： review, business, user
正确表名： user, review
############################################


 25%|████████████████████▋                                                             | 45/178 [00:57<02:49,  1.28s/it]

++++++++++++++++index:44++++++++++++++++++++++++
预测表名： review, business, user
正确表名： review, business, user
############################################


 26%|█████████████████████▏                                                            | 46/178 [00:58<02:46,  1.26s/it]

++++++++++++++++index:45++++++++++++++++++++++++
预测表名： user, tip
正确表名： tip, business, user
############################################


 26%|█████████████████████▋                                                            | 47/178 [00:59<02:43,  1.25s/it]

++++++++++++++++index:46++++++++++++++++++++++++
预测表名： review, business
正确表名： review, business
############################################


 27%|██████████████████████                                                            | 48/178 [01:00<02:40,  1.24s/it]

++++++++++++++++index:47++++++++++++++++++++++++
预测表名： behavior_incident
正确表名： behavior_incident
############################################


 28%|██████████████████████▌                                                           | 49/178 [01:02<02:38,  1.23s/it]

++++++++++++++++index:48++++++++++++++++++++++++
预测表名： student_addresses
正确表名： student_addresses
############################################


 28%|███████████████████████                                                           | 50/178 [01:03<02:35,  1.21s/it]

++++++++++++++++index:49++++++++++++++++++++++++
预测表名： teachers
正确表名： teachers
############################################


 29%|███████████████████████▍                                                          | 51/178 [01:04<02:39,  1.25s/it]

++++++++++++++++index:50++++++++++++++++++++++++
预测表名： detention, students_in_detention
正确表名： students_in_detention
############################################


 29%|███████████████████████▉                                                          | 52/178 [01:05<02:33,  1.22s/it]

++++++++++++++++index:51++++++++++++++++++++++++
预测表名： film
正确表名： film
############################################


 30%|████████████████████████▍                                                         | 53/178 [01:06<02:28,  1.19s/it]

++++++++++++++++index:52++++++++++++++++++++++++
预测表名： film
正确表名： film
############################################


 30%|████████████████████████▉                                                         | 54/178 [01:08<02:29,  1.21s/it]

++++++++++++++++index:53++++++++++++++++++++++++
预测表名： film_market_estimation
正确表名： film_market_estimation
############################################


 31%|█████████████████████████▎                                                        | 55/178 [01:09<02:25,  1.18s/it]

++++++++++++++++index:54++++++++++++++++++++++++
预测表名： film
正确表名： film
############################################


 31%|█████████████████████████▊                                                        | 56/178 [01:10<02:34,  1.27s/it]

++++++++++++++++index:55++++++++++++++++++++++++
预测表名： catalog_contents, catalog_contents_Additional_Attributes
正确表名： catalog_contents, catalog_contents_Additional_Attributes
############################################


 32%|██████████████████████████▎                                                       | 57/178 [01:11<02:29,  1.24s/it]

++++++++++++++++index:56++++++++++++++++++++++++
预测表名： catalog_structure
正确表名： catalog_structure
############################################


 33%|██████████████████████████▋                                                       | 58/178 [01:13<02:24,  1.20s/it]

++++++++++++++++index:57++++++++++++++++++++++++
预测表名： catalogs
正确表名： catalogs
############################################


 33%|███████████████████████████▏                                                      | 59/178 [01:14<02:22,  1.19s/it]

++++++++++++++++index:58++++++++++++++++++++++++
预测表名： catalog_contents
正确表名： catalog_contents
############################################


 34%|███████████████████████████▋                                                      | 60/178 [01:15<02:18,  1.18s/it]

++++++++++++++++index:59++++++++++++++++++++++++
预测表名： airports
正确表名： airports
############################################


 34%|████████████████████████████                                                      | 61/178 [01:16<02:15,  1.16s/it]

++++++++++++++++index:60++++++++++++++++++++++++
预测表名： airports
正确表名： airports
############################################


 35%|████████████████████████████▌                                                     | 62/178 [01:17<02:13,  1.15s/it]

++++++++++++++++index:61++++++++++++++++++++++++
预测表名： airports
正确表名： airports
############################################


 35%|█████████████████████████████                                                     | 63/178 [01:18<02:11,  1.14s/it]

++++++++++++++++index:62++++++++++++++++++++++++
预测表名： airlines
正确表名： airlines
############################################


 36%|█████████████████████████████▍                                                    | 64/178 [01:19<02:10,  1.14s/it]

++++++++++++++++index:63++++++++++++++++++++++++
预测表名： airports
正确表名： airports
############################################


 37%|█████████████████████████████▉                                                    | 65/178 [01:20<02:08,  1.14s/it]

++++++++++++++++index:64++++++++++++++++++++++++
预测表名： airports
正确表名： airports
############################################


 37%|██████████████████████████████▍                                                   | 66/178 [01:22<02:06,  1.13s/it]

++++++++++++++++index:65++++++++++++++++++++++++
预测表名： airlines
正确表名： airlines
############################################


 38%|██████████████████████████████▊                                                   | 67/178 [01:23<02:10,  1.18s/it]

++++++++++++++++index:66++++++++++++++++++++++++
预测表名： airlines, routes
正确表名： airlines, routes
############################################


 38%|███████████████████████████████▎                                                  | 68/178 [01:24<02:07,  1.16s/it]

++++++++++++++++index:67++++++++++++++++++++++++
预测表名： game
正确表名： game
############################################


 39%|███████████████████████████████▊                                                  | 69/178 [01:25<02:08,  1.18s/it]

++++++++++++++++index:68++++++++++++++++++++++++
预测表名： physician, patient
正确表名： physician, patient
############################################


 39%|████████████████████████████████▏                                                 | 70/178 [01:26<02:05,  1.16s/it]

++++++++++++++++index:69++++++++++++++++++++++++
预测表名： department
正确表名： department
############################################


 40%|████████████████████████████████▋                                                 | 71/178 [01:27<02:02,  1.15s/it]

++++++++++++++++index:70++++++++++++++++++++++++
预测表名： procedures
正确表名： procedures
############################################


 40%|█████████████████████████████████▏                                                | 72/178 [01:29<02:08,  1.21s/it]

++++++++++++++++index:71++++++++++++++++++++++++
预测表名： physician, trained_in, procedures
正确表名： procedures, physician, trained_in
############################################


 41%|█████████████████████████████████▋                                                | 73/178 [01:30<02:08,  1.22s/it]

++++++++++++++++index:72++++++++++++++++++++++++
预测表名： physician, prescribes
正确表名： physician, prescribes
############################################


 42%|██████████████████████████████████                                                | 74/178 [01:31<02:03,  1.19s/it]

++++++++++++++++index:73++++++++++++++++++++++++
预测表名： appointment
正确表名： appointment
############################################


 42%|██████████████████████████████████▌                                               | 75/178 [01:32<02:04,  1.21s/it]

++++++++++++++++index:74++++++++++++++++++++++++
预测表名： nurse, on_call
正确表名： nurse, on_call
############################################


 43%|███████████████████████████████████                                               | 76/178 [01:34<02:07,  1.25s/it]

++++++++++++++++index:75++++++++++++++++++++++++
预测表名： procedures, physician, trained_in
正确表名： procedures, physician, trained_in
############################################


 43%|███████████████████████████████████▍                                              | 77/178 [01:35<02:02,  1.21s/it]

++++++++++++++++index:76++++++++++++++++++++++++
预测表名： department
正确表名： department
############################################


 44%|███████████████████████████████████▉                                              | 78/178 [01:36<02:05,  1.26s/it]

++++++++++++++++index:77++++++++++++++++++++++++
预测表名： physician, trained_in, procedures
正确表名： procedures, physician, trained_in
############################################


 44%|████████████████████████████████████▍                                             | 79/178 [01:37<02:00,  1.22s/it]

++++++++++++++++index:78++++++++++++++++++++++++
预测表名： buildings
正确表名： buildings
############################################


 45%|████████████████████████████████████▊                                             | 80/178 [01:39<01:56,  1.19s/it]

++++++++++++++++index:79++++++++++++++++++++++++
预测表名： companies
正确表名： companies
############################################


 46%|█████████████████████████████████████▎                                            | 81/178 [01:40<01:54,  1.18s/it]

++++++++++++++++index:80++++++++++++++++++++++++
预测表名： companies
正确表名： companies
############################################


 46%|█████████████████████████████████████▊                                            | 82/178 [01:41<01:51,  1.16s/it]

++++++++++++++++index:81++++++++++++++++++++++++
预测表名： buildings
正确表名： buildings
############################################


 47%|██████████████████████████████████████▏                                           | 83/178 [01:42<01:49,  1.15s/it]

++++++++++++++++index:82++++++++++++++++++++++++
预测表名： party
正确表名： party
############################################


 47%|██████████████████████████████████████▋                                           | 84/178 [01:43<01:47,  1.15s/it]

++++++++++++++++index:83++++++++++++++++++++++++
预测表名： party
正确表名： party
############################################


 48%|███████████████████████████████████████▏                                          | 85/178 [01:44<01:46,  1.14s/it]

++++++++++++++++index:84++++++++++++++++++++++++
预测表名： party
正确表名： party
############################################


 48%|███████████████████████████████████████▌                                          | 86/178 [01:45<01:48,  1.18s/it]

++++++++++++++++index:85++++++++++++++++++++++++
预测表名： party_events, party
正确表名： party_events, party
############################################


 49%|████████████████████████████████████████                                          | 87/178 [01:47<01:59,  1.32s/it]

++++++++++++++++index:86++++++++++++++++++++++++
预测表名： accelerator_compatible_browser, web_client_accelerator, browser
正确表名： browser, accelerator_compatible_browser, web_client_accelerator
############################################


 49%|████████████████████████████████████████▌                                         | 88/178 [01:48<01:59,  1.32s/it]

++++++++++++++++index:87++++++++++++++++++++++++
预测表名： transactions, transactions_lots
正确表名： transactions, transactions_lots
############################################


 50%|█████████████████████████████████████████                                         | 89/178 [01:50<01:53,  1.28s/it]

++++++++++++++++index:88++++++++++++++++++++++++
预测表名： investors
正确表名： investors
############################################


 51%|█████████████████████████████████████████▍                                        | 90/178 [01:51<01:54,  1.30s/it]

++++++++++++++++index:89++++++++++++++++++++++++
预测表名： lots, transactions_lots
正确表名： lots, transactions_lots
############################################


 51%|█████████████████████████████████████████▉                                        | 91/178 [01:52<01:49,  1.25s/it]

++++++++++++++++index:90++++++++++++++++++++++++
预测表名： transactions
正确表名： transactions
############################################


 52%|██████████████████████████████████████████▍                                       | 92/178 [01:53<01:44,  1.22s/it]

++++++++++++++++index:91++++++++++++++++++++++++
预测表名： university
正确表名： university
############################################


 52%|██████████████████████████████████████████▊                                       | 93/178 [01:54<01:41,  1.20s/it]

++++++++++++++++index:92++++++++++++++++++++++++
预测表名： university
正确表名： university
############################################


 53%|███████████████████████████████████████████▎                                      | 94/178 [01:56<01:39,  1.18s/it]

++++++++++++++++index:93++++++++++++++++++++++++
预测表名： university
正确表名： university
############################################


 53%|███████████████████████████████████████████▊                                      | 95/178 [01:57<01:40,  1.22s/it]

++++++++++++++++index:94++++++++++++++++++++++++
预测表名： university, basketball_match
正确表名： university, basketball_match
############################################


 54%|████████████████████████████████████████████▏                                     | 96/178 [01:58<01:42,  1.25s/it]

++++++++++++++++index:95++++++++++++++++++++++++
预测表名： restaurant, geographic, location
正确表名： restaurant, geographic, location
############################################


 54%|████████████████████████████████████████████▋                                     | 97/178 [01:59<01:41,  1.25s/it]

++++++++++++++++index:96++++++++++++++++++++++++
预测表名： restaurant, location
正确表名： restaurant, location
############################################


 55%|█████████████████████████████████████████████▏                                    | 98/178 [02:01<01:41,  1.27s/it]

++++++++++++++++index:97++++++++++++++++++++++++
预测表名： location, restaurant, geographic
正确表名： location, restaurant, geographic
############################################


 56%|█████████████████████████████████████████████▌                                    | 99/178 [02:02<01:39,  1.26s/it]

++++++++++++++++index:98++++++++++++++++++++++++
预测表名： restaurant, location
正确表名： restaurant, location
############################################


 56%|█████████████████████████████████████████████▌                                   | 100/178 [02:03<01:37,  1.25s/it]

++++++++++++++++index:99++++++++++++++++++++++++
预测表名： restaurant, location
正确表名： restaurant, location
############################################


 57%|█████████████████████████████████████████████▉                                   | 101/178 [02:04<01:37,  1.27s/it]

++++++++++++++++index:100++++++++++++++++++++++++
预测表名： restaurant, location
正确表名： restaurant, location
############################################


 57%|██████████████████████████████████████████████▍                                  | 102/178 [02:06<01:35,  1.25s/it]

++++++++++++++++index:101++++++++++++++++++++++++
预测表名： restaurant, location
正确表名： restaurant, location
############################################


 58%|██████████████████████████████████████████████▊                                  | 103/178 [02:07<01:33,  1.24s/it]

++++++++++++++++index:102++++++++++++++++++++++++
预测表名： restaurant, location
正确表名： restaurant, location
############################################


 58%|███████████████████████████████████████████████▎                                 | 104/178 [02:08<01:31,  1.24s/it]

++++++++++++++++index:103++++++++++++++++++++++++
预测表名： restaurant, location
正确表名： restaurant, location
############################################


 59%|███████████████████████████████████████████████▊                                 | 105/178 [02:09<01:32,  1.27s/it]

++++++++++++++++index:104++++++++++++++++++++++++
预测表名： restaurant, geographic, location
正确表名： restaurant, geographic, location
############################################


 60%|████████████████████████████████████████████████▏                                | 106/178 [02:11<01:32,  1.29s/it]

++++++++++++++++index:105++++++++++++++++++++++++
预测表名： restaurant, geographic, location
正确表名： restaurant, geographic, location
############################################


 60%|████████████████████████████████████████████████▋                                | 107/178 [02:12<01:30,  1.27s/it]

++++++++++++++++index:106++++++++++++++++++++++++
预测表名： restaurant, location
正确表名： restaurant, location
############################################


 61%|█████████████████████████████████████████████████▏                               | 108/178 [02:13<01:27,  1.25s/it]

++++++++++++++++index:107++++++++++++++++++++++++
预测表名： user_profiles
正确表名： user_profiles
############################################


 61%|█████████████████████████████████████████████████▌                               | 109/178 [02:14<01:24,  1.23s/it]

++++++++++++++++index:108++++++++++++++++++++++++
预测表名： user_profiles
正确表名： user_profiles
############################################


 62%|██████████████████████████████████████████████████                               | 110/178 [02:16<01:21,  1.20s/it]

++++++++++++++++index:109++++++++++++++++++++++++
预测表名： weather
正确表名： weather
############################################


 62%|██████████████████████████████████████████████████▌                              | 111/178 [02:17<01:20,  1.21s/it]

++++++++++++++++index:110++++++++++++++++++++++++
预测表名： weather, trip
正确表名： weather, trip
############################################


 63%|██████████████████████████████████████████████████▉                              | 112/178 [02:18<01:20,  1.22s/it]

++++++++++++++++index:111++++++++++++++++++++++++
预测表名： weather, trip
正确表名： trip, weather
############################################


 63%|███████████████████████████████████████████████████▍                             | 113/178 [02:19<01:17,  1.19s/it]

++++++++++++++++index:112++++++++++++++++++++++++
预测表名： trip
正确表名： trip
############################################


 64%|███████████████████████████████████████████████████▉                             | 114/178 [02:20<01:17,  1.20s/it]

++++++++++++++++index:113++++++++++++++++++++++++
预测表名： station, status
正确表名： station, status
############################################


 65%|████████████████████████████████████████████████████▎                            | 115/178 [02:22<01:14,  1.19s/it]

++++++++++++++++index:114++++++++++++++++++++++++
预测表名： trip
正确表名： trip
############################################


 65%|████████████████████████████████████████████████████▊                            | 116/178 [02:23<01:13,  1.18s/it]

++++++++++++++++index:115++++++++++++++++++++++++
预测表名： weather
正确表名： weather
############################################


 66%|█████████████████████████████████████████████████████▏                           | 117/178 [02:24<01:11,  1.17s/it]

++++++++++++++++index:116++++++++++++++++++++++++
预测表名： station
正确表名： station
############################################


 66%|█████████████████████████████████████████████████████▋                           | 118/178 [02:25<01:10,  1.17s/it]

++++++++++++++++index:117++++++++++++++++++++++++
预测表名： trip
正确表名： trip
############################################


 67%|██████████████████████████████████████████████████████▏                          | 119/178 [02:26<01:10,  1.19s/it]

++++++++++++++++index:118++++++++++++++++++++++++
预测表名： station, trip
正确表名： trip
############################################


 67%|██████████████████████████████████████████████████████▌                          | 120/178 [02:27<01:07,  1.17s/it]

++++++++++++++++index:119++++++++++++++++++++++++
预测表名： campuses
正确表名： campuses
############################################


 68%|███████████████████████████████████████████████████████                          | 121/178 [02:29<01:05,  1.16s/it]

++++++++++++++++index:120++++++++++++++++++++++++
预测表名： campuses
正确表名： campuses
############################################


 69%|███████████████████████████████████████████████████████▌                         | 122/178 [02:30<01:04,  1.15s/it]

++++++++++++++++index:121++++++++++++++++++++++++
预测表名： campuses
正确表名： campuses
############################################


 69%|███████████████████████████████████████████████████████▉                         | 123/178 [02:31<01:02,  1.14s/it]

++++++++++++++++index:122++++++++++++++++++++++++
预测表名： campuses
正确表名： campuses
############################################


 70%|████████████████████████████████████████████████████████▍                        | 124/178 [02:32<01:02,  1.16s/it]

++++++++++++++++index:123++++++++++++++++++++++++
预测表名： campuses, degrees
正确表名： campuses, degrees
############################################


 70%|████████████████████████████████████████████████████████▉                        | 125/178 [02:33<01:02,  1.18s/it]

++++++++++++++++index:124++++++++++++++++++++++++
预测表名： faculty, campuses
正确表名： faculty, campuses
############################################


 71%|█████████████████████████████████████████████████████████▎                       | 126/178 [02:34<01:00,  1.16s/it]

++++++++++++++++index:125++++++++++++++++++++++++
预测表名： campuses
正确表名： campuses
############################################


 71%|█████████████████████████████████████████████████████████▊                       | 127/178 [02:35<00:58,  1.15s/it]

++++++++++++++++index:126++++++++++++++++++++++++
预测表名： journalist
正确表名： journalist
############################################


 72%|██████████████████████████████████████████████████████████▏                      | 128/178 [02:37<01:00,  1.21s/it]

++++++++++++++++index:127++++++++++++++++++++++++
预测表名： authors, authorship, papers
正确表名： authors, authorship, papers
############################################


 72%|██████████████████████████████████████████████████████████▋                      | 129/178 [02:38<01:01,  1.25s/it]

++++++++++++++++index:128++++++++++++++++++++++++
预测表名： papers, authorship, inst
正确表名： papers, authorship, inst
############################################


 73%|███████████████████████████████████████████████████████████▏                     | 130/178 [02:39<01:01,  1.28s/it]

++++++++++++++++index:129++++++++++++++++++++++++
预测表名： papers, authorship, inst
正确表名： inst, authorship, papers
############################################


 74%|███████████████████████████████████████████████████████████▌                     | 131/178 [02:41<01:01,  1.30s/it]

++++++++++++++++index:130++++++++++++++++++++++++
预测表名： authors, authorship, papers
正确表名： authors, authorship, papers
############################################


 74%|████████████████████████████████████████████████████████████                     | 132/178 [02:42<01:00,  1.32s/it]

++++++++++++++++index:131++++++++++++++++++++++++
预测表名： authors, authorship, papers
正确表名： inst, authorship, papers
############################################


 75%|████████████████████████████████████████████████████████████▌                    | 133/178 [02:44<00:59,  1.33s/it]

++++++++++++++++index:132++++++++++++++++++++++++
预测表名： authors, authorship, papers
正确表名： authors, authorship, papers
############################################


 75%|████████████████████████████████████████████████████████████▉                    | 134/178 [02:45<00:55,  1.26s/it]

++++++++++++++++index:133++++++++++++++++++++++++
预测表名： furniture
正确表名： furniture
############################################


 76%|█████████████████████████████████████████████████████████████▍                   | 135/178 [02:46<00:54,  1.27s/it]

++++++++++++++++index:134++++++++++++++++++++++++
预测表名： person, personFriend
正确表名： person, personFriend
############################################


 76%|█████████████████████████████████████████████████████████████▉                   | 136/178 [02:47<00:53,  1.27s/it]

++++++++++++++++index:135++++++++++++++++++++++++
预测表名： person, personFriend
正确表名： person, personfriend
############################################


 77%|██████████████████████████████████████████████████████████████▎                  | 137/178 [02:48<00:51,  1.27s/it]

++++++++++++++++index:136++++++++++++++++++++++++
预测表名： person, personFriend
正确表名： person, personFriend
############################################


 78%|██████████████████████████████████████████████████████████████▊                  | 138/178 [02:50<00:49,  1.23s/it]

++++++++++++++++index:137++++++++++++++++++++++++
预测表名： person
正确表名： person
############################################


 78%|███████████████████████████████████████████████████████████████▎                 | 139/178 [02:51<00:46,  1.19s/it]

++++++++++++++++index:138++++++++++++++++++++++++
预测表名： person
正确表名： person
############################################


 79%|███████████████████████████████████████████████████████████████▋                 | 140/178 [02:52<00:44,  1.17s/it]

++++++++++++++++index:139++++++++++++++++++++++++
预测表名： person
正确表名： person
############################################


 79%|████████████████████████████████████████████████████████████████▏                | 141/178 [02:53<00:44,  1.19s/it]

++++++++++++++++index:140++++++++++++++++++++++++
预测表名： personfriend, person
正确表名： personfriend, person
############################################


 80%|████████████████████████████████████████████████████████████████▌                | 142/178 [02:54<00:42,  1.17s/it]

++++++++++++++++index:141++++++++++++++++++++++++
预测表名： person
正确表名： person
############################################


 80%|█████████████████████████████████████████████████████████████████                | 143/178 [02:55<00:40,  1.16s/it]

++++++++++++++++index:142++++++++++++++++++++++++
预测表名： enzyme
正确表名： enzyme
############################################


 81%|█████████████████████████████████████████████████████████████████▌               | 144/178 [02:56<00:38,  1.15s/it]

++++++++++++++++index:143++++++++++++++++++++++++
预测表名： enzyme
正确表名： enzyme
############################################


 81%|█████████████████████████████████████████████████████████████████▉               | 145/178 [02:58<00:37,  1.14s/it]

++++++++++++++++index:144++++++++++++++++++++++++
预测表名： enzyme
正确表名： enzyme
############################################


 82%|██████████████████████████████████████████████████████████████████▍              | 146/178 [02:59<00:38,  1.22s/it]

++++++++++++++++index:145++++++++++++++++++++++++
预测表名： medicine, medicine_enzyme_interaction
正确表名： medicine, medicine_enzyme_interaction
############################################


 83%|██████████████████████████████████████████████████████████████████▉              | 147/178 [03:00<00:38,  1.24s/it]

++++++++++++++++index:146++++++++++++++++++++++++
预测表名： apartment_bookings, apartments
正确表名： apartment_bookings, apartments
############################################


 83%|███████████████████████████████████████████████████████████████████▎             | 148/178 [03:02<00:37,  1.26s/it]

++++++++++++++++index:147++++++++++++++++++++++++
预测表名： apartment_bookings, guests
正确表名： apartment_bookings, guests
############################################


 84%|███████████████████████████████████████████████████████████████████▊             | 149/178 [03:03<00:36,  1.28s/it]

++++++++++++++++index:148++++++++++++++++++++++++
预测表名： apartment_buildings, apartments
正确表名： apartment_buildings, apartments
############################################


 84%|████████████████████████████████████████████████████████████████████▎            | 150/178 [03:04<00:35,  1.28s/it]

++++++++++++++++index:149++++++++++++++++++++++++
预测表名： apartment_bookings, guests
正确表名： apartment_bookings, guests
############################################


 85%|████████████████████████████████████████████████████████████████████▋            | 151/178 [03:05<00:34,  1.29s/it]

++++++++++++++++index:150++++++++++++++++++++++++
预测表名： apartment_facilities, apartments
正确表名： apartment_facilities, apartments
############################################


 85%|█████████████████████████████████████████████████████████████████████▏           | 152/178 [03:07<00:32,  1.24s/it]

++++++++++++++++index:151++++++++++++++++++++++++
预测表名： apartments
正确表名： apartments
############################################


 86%|█████████████████████████████████████████████████████████████████████▌           | 153/178 [03:08<00:30,  1.20s/it]

++++++++++++++++index:152++++++++++++++++++++++++
预测表名： apartments
正确表名： apartments
############################################


 87%|██████████████████████████████████████████████████████████████████████           | 154/178 [03:09<00:28,  1.21s/it]

++++++++++++++++index:153++++++++++++++++++++++++
预测表名： apartment_buildings
正确表名： apartment_buildings
############################################


 87%|██████████████████████████████████████████████████████████████████████▌          | 155/178 [03:10<00:27,  1.18s/it]

++++++++++++++++index:154++++++++++++++++++++++++
预测表名： program
正确表名： program
############################################


 88%|██████████████████████████████████████████████████████████████████████▉          | 156/178 [03:11<00:26,  1.21s/it]

++++++++++++++++index:155++++++++++++++++++++++++
预测表名： program, broadcast
正确表名： program, broadcast
############################################


 88%|███████████████████████████████████████████████████████████████████████▍         | 157/178 [03:12<00:24,  1.19s/it]

++++++++++++++++index:156++++++++++++++++++++++++
预测表名： channel
正确表名： channel
############################################


 89%|███████████████████████████████████████████████████████████████████████▉         | 158/178 [03:14<00:23,  1.17s/it]

++++++++++++++++index:157++++++++++++++++++++++++
预测表名： channel
正确表名： channel
############################################


 89%|████████████████████████████████████████████████████████████████████████▎        | 159/178 [03:15<00:22,  1.19s/it]

++++++++++++++++index:158++++++++++++++++++++++++
预测表名： customer_master_index
正确表名： customer_master_index
############################################


 90%|████████████████████████████████████████████████████████████████████████▊        | 160/178 [03:16<00:21,  1.17s/it]

++++++++++++++++index:159++++++++++++++++++++++++
预测表名： district
正确表名： district
############################################


 90%|█████████████████████████████████████████████████████████████████████████▎       | 161/178 [03:17<00:19,  1.16s/it]

++++++++++++++++index:160++++++++++++++++++++++++
预测表名： district
正确表名： district
############################################


 91%|█████████████████████████████████████████████████████████████████████████▋       | 162/178 [03:18<00:18,  1.15s/it]

++++++++++++++++index:161++++++++++++++++++++++++
预测表名： district
正确表名： district
############################################


 92%|██████████████████████████████████████████████████████████████████████████▏      | 163/178 [03:19<00:17,  1.14s/it]

++++++++++++++++index:162++++++++++++++++++++++++
预测表名： district
正确表名： district
############################################


 92%|██████████████████████████████████████████████████████████████████████████▋      | 164/178 [03:21<00:16,  1.15s/it]

++++++++++++++++index:163++++++++++++++++++++++++
预测表名： gas_station
正确表名： gas_station
############################################


 93%|███████████████████████████████████████████████████████████████████████████      | 165/178 [03:22<00:14,  1.15s/it]

++++++++++++++++index:164++++++++++++++++++++++++
预测表名： company
正确表名： company
############################################


 93%|███████████████████████████████████████████████████████████████████████████▌     | 166/178 [03:23<00:13,  1.15s/it]

++++++++++++++++index:165++++++++++++++++++++++++
预测表名： company
正确表名： company
############################################


 94%|███████████████████████████████████████████████████████████████████████████▉     | 167/178 [03:24<00:13,  1.23s/it]

++++++++++++++++index:166++++++++++++++++++++++++
预测表名： station_company, company, gas_station
正确表名： station_company, company, gas_station
############################################


 94%|████████████████████████████████████████████████████████████████████████████▍    | 168/178 [03:25<00:12,  1.21s/it]

++++++++++++++++index:167++++++++++++++++++++++++
预测表名： festival_detail
正确表名： festival_detail
############################################


 95%|████████████████████████████████████████████████████████████████████████████▉    | 169/178 [03:27<00:10,  1.20s/it]

++++++++++++++++index:168++++++++++++++++++++++++
预测表名： festival_detail
正确表名： festival_detail
############################################


 96%|█████████████████████████████████████████████████████████████████████████████▎   | 170/178 [03:28<00:09,  1.21s/it]

++++++++++++++++index:169++++++++++++++++++++++++
预测表名： building, institution
正确表名： building, institution
############################################


 96%|█████████████████████████████████████████████████████████████████████████████▊   | 171/178 [03:29<00:08,  1.22s/it]

++++++++++++++++index:170++++++++++++++++++++++++
预测表名： building, institution
正确表名： building, institution
############################################


 97%|██████████████████████████████████████████████████████████████████████████████▎  | 172/178 [03:30<00:07,  1.24s/it]

++++++++++++++++index:171++++++++++++++++++++++++
预测表名： roller_coaster
正确表名： roller_coaster
############################################


 97%|██████████████████████████████████████████████████████████████████████████████▋  | 173/178 [03:31<00:06,  1.21s/it]

++++++++++++++++index:172++++++++++++++++++++++++
预测表名： participants
正确表名： participants
############################################


 98%|███████████████████████████████████████████████████████████████████████████████▏ | 174/178 [03:33<00:04,  1.20s/it]

++++++++++++++++index:173++++++++++++++++++++++++
预测表名： mill
正确表名： mill
############################################


 98%|███████████████████████████████████████████████████████████████████████████████▋ | 175/178 [03:34<00:03,  1.18s/it]

++++++++++++++++index:174++++++++++++++++++++++++
预测表名： railway
正确表名： railway
############################################


 99%|████████████████████████████████████████████████████████████████████████████████ | 176/178 [03:35<00:02,  1.16s/it]

++++++++++++++++index:175++++++++++++++++++++++++
预测表名： railway
正确表名： railway
############################################


 99%|████████████████████████████████████████████████████████████████████████████████▌| 177/178 [03:36<00:01,  1.15s/it]

++++++++++++++++index:176++++++++++++++++++++++++
预测表名： book
正确表名： book
############################################


100%|█████████████████████████████████████████████████████████████████████████████████| 178/178 [03:37<00:00,  1.22s/it]

++++++++++++++++index:177++++++++++++++++++++++++
预测表名： book, publication
正确表名： book, publication
############################################
17





In [9]:
new_df = pd.DataFrame(results, columns = ['reference_tables','predicted_tables'])

In [10]:
total_samples = len(new_df)
total_accuracy = 0
filtered_accuracy = 0
total_precision = 0
total_recall = 0
count = 0
for index, row in new_df.iterrows():
#     count+=1
#     print("index:",count)
    if not row['predicted_tables'] or pd.isna(row['predicted_tables']):
        continue
    predicted_tables = row['predicted_tables'].split(",")
    reference_tables = row['reference_tables'].split(",")
    
    # Convert to lowercase and strip whitespace for comparison
    predicted_tables = [x.lower().replace("--","").replace("**","").strip() for x in predicted_tables]
    reference_tables = [x.lower().strip() for x in reference_tables]
    
    # Calculate accuracy
    if set(predicted_tables) == set(reference_tables):
        total_accuracy += 1

    # Calculate precision and recall
    true_positives = len(set(predicted_tables) & set(reference_tables))
    false_positives = len(set(predicted_tables) - set(reference_tables))
    false_negatives = len(set(reference_tables) - set(predicted_tables))

    if true_positives == len(reference_tables):
        filtered_accuracy += 1
    
    if len(predicted_tables) > 0:
        precision = true_positives / (true_positives + false_positives)
        recall = true_positives / (true_positives + false_negatives)
    
    total_precision += precision
    total_recall += recall

# Calculate average precision and recall
avg_precision = total_precision / total_samples
avg_recall = total_recall / total_samples

# Calculate total accuracy
accuracy = total_accuracy / total_samples
filtered_accuracy = filtered_accuracy / total_samples

print("Total Accuracy:", accuracy)
print("Filtered Accuracy:", filtered_accuracy)
print("Average Precision:", avg_precision)
print("Average Recall:", avg_recall)

Total Accuracy: 0.9606741573033708
Filtered Accuracy: 0.9775280898876404
Average Precision: 0.99063670411985
Average Recall: 0.9920411985018726


In [11]:
total_data = len(df['question'])
total_time = end_time - start_time
# print(total_data)
signal_infernece_time = total_time/total_data
print(signal_infernece_time)

1.2234598384814317


In [13]:
new_df.to_csv("pre_DTS_SQL_table.csv", encoding="utf-8")