#### 지역목록 가져오기

In [1]:
import json
import jsonlines

with open("data.json", "r", encoding='utf-8') as file:
    json_data = json.load(file)
    
with jsonlines.open("data.jsonl") as f:
    jsonl_data = list()
    for line in f.iter():
        if line in jsonl_data:
            continue
        else:
            jsonl_data.append(line)
json_data['tzzim_auto_search'] = jsonl_data

locations = list(set([a_dict['location'] for a_dict in json_data['tzzim_auto_search']]))


#### 날짜범위 가공하기

In [2]:
import re
from init import InitValues
init = InitValues()
v = '2024년 11월 15일~2024년 11월 30일'

# 공백제거 후 날짜 찾기
regex = r'\d{4}년\d{2}월\d{2}일'
date_find_result = re.findall(regex, init.remove_space(v))
has_rest = False
has_value_not_correct = False
print(date_find_result)    

# 날짜 이외의 문자열이 있는 경우 수정필요
if isinstance(date_find_result, list) and (len(date_find_result) == 1):
    date_text = date_find_result[0]
    has_rest = init.rest_of_date(init.remove_space(v), date_text)
    if has_rest:
        has_value_not_correct = True
    else:
        pass
elif isinstance(date_find_result, list) and (len(date_find_result) == 2):
    for value, date_text in zip(v.split('~'), date_find_result):
        has_rest = init.rest_of_date(init.remove_space(value), date_text)
        if has_rest:
            has_value_not_correct = True
            break
else:
    has_value_not_correct = True

print(has_value_not_correct)

['2024년11월15일', '2024년11월30일']
False


#### 조건에 맞는 데이터 가져오기

In [1]:
# javascript한수 구현
from data_filter import DataFilter
filter = DataFilter()
result = filter.java_script_func(date = '2024-01-26',
                        club_list = 'raon,cypress',
                        start_time = '9',
                        end_time = '12')       

In [2]:
from pprint import pprint
pprint(result, indent=2, width=300)

[ {'GC_name': '라온', 'course': 'stone', 'day': '2024-01-26', 'frame_list': ['09:05', '11:18', '11:39', '11:46', '11:53', '11:53'], 'location': '제주도'},
  {'GC_name': '라온', 'course': 'lake', 'day': '2024-01-26', 'frame_list': ['09:05', '11:18', '11:39', '11:46', '11:53', '11:53'], 'location': '제주도'},
  {'GC_name': '라온', 'course': 'pine', 'day': '2024-01-26', 'frame_list': ['09:05', '11:18', '11:39', '11:46', '11:53', '11:53'], 'location': '제주도'},
  {'GC_name': '사이프러스', 'course': 'West', 'day': '2024-01-26', 'frame_list': ['11:23', '11:51', '11:58'], 'location': '제주도'}]


In [3]:
json_condition = {'location': 'all',
                  'golf_club_name': 'all', #"라온,사이프러스" 형태로 받을 예정
                  'course': 'all',
                  'start_date': '2024년 01월 26일',
                  'end_date': '2024년 01월 30일', 
                  'start_time': '7시 00분',
                  'end_time': '9시 15분'}

prior_result = filter.prior_processing(json_condition)

In [4]:
from pprint import pprint
pprint(prior_result, indent=2, width=300)

[ {'GC_name': '라온', 'course': 'stone', 'day': '2024-01-26', 'frame_list': ['08:30', '08:37', '08:44', '07:41', '08:37', '08:58', '09:05', '07:34', '07:41', '07:48'], 'location': '제주도'},
  {'GC_name': '라온', 'course': 'lake', 'day': '2024-01-26', 'frame_list': ['08:30', '08:37', '08:44', '07:41', '08:37', '08:58', '09:05', '07:34', '07:41', '07:48'], 'location': '제주도'},
  {'GC_name': '라온', 'course': 'pine', 'day': '2024-01-26', 'frame_list': ['08:30', '08:37', '08:44', '07:41', '08:37', '08:58', '09:05', '07:34', '07:41', '07:48'], 'location': '제주도'},
  {'GC_name': '파인비치', 'course': '파인', 'day': '2024-01-26', 'frame_list': ['09:20', '09:30', '09:40'], 'location': '호남권'},
  {'GC_name': '파인비치', 'course': '비치', 'day': '2024-01-26', 'frame_list': ['09:20', '09:30', '09:40'], 'location': '호남권'},
  {'GC_name': '에버리스', 'course': 'Lake', 'day': '2024-01-26', 'frame_list': ['07:45', '07:52', '07:59', '08:13', '08:20'], 'location': '제주도'},
  {'GC_name': '아난티남해', 'course': 'Out', 'day': '2024-01-26

In [5]:
filtered_result = filter.course_miniute_processing(prior_result, json_condition)

In [6]:
from pprint import pprint
pprint(filtered_result, indent=2, width=300)

[ {'GC_name': '라온', 'course': 'stone', 'day': '2024-01-26', 'frame_list': ['08:30', '08:37', '08:44', '07:41', '08:37', '08:58', '09:05', '07:34', '07:41', '07:48'], 'location': '제주도'},
  {'GC_name': '라온', 'course': 'lake', 'day': '2024-01-26', 'frame_list': ['08:30', '08:37', '08:44', '07:41', '08:37', '08:58', '09:05', '07:34', '07:41', '07:48'], 'location': '제주도'},
  {'GC_name': '라온', 'course': 'pine', 'day': '2024-01-26', 'frame_list': ['08:30', '08:37', '08:44', '07:41', '08:37', '08:58', '09:05', '07:34', '07:41', '07:48'], 'location': '제주도'},
  {'GC_name': '에버리스', 'course': 'Lake', 'day': '2024-01-26', 'frame_list': ['07:45', '07:52', '07:59', '08:13', '08:20'], 'location': '제주도'},
  {'GC_name': '아난티남해', 'course': 'Out', 'day': '2024-01-26', 'frame_list': ['07:45', '07:59'], 'location': '영남권'},
  {'GC_name': '아난티남해', 'course': 'In', 'day': '2024-01-26', 'frame_list': ['07:45', '07:59'], 'location': '영남권'},
  {'GC_name': '사이프러스', 'course': 'West', 'day': '2024-01-26', 'frame_list

#### 코스 프롬프트 엔지니어링

In [None]:
from tzzim import Tzzim
tzzim = Tzzim()
def course_classification(course_description:str, course_list:list):
    instruction = f"""손님이 골프장 예약을 할 때 코스를 '{course_description}'로 하고 싶다고 요청하였습니다.
                    다음 코스명 중, 어떤 코스에 해당하는 지 선택하여 출력형식에 따라 출력해주세요. 출력값만 생성해주세요.
                    
                    코스명: {','.join(course_list)}
                    출력형식: A,B,C
                    
                    출력:\n"""
                    
    raw_answer = tzzim.chatgpt_return(instruction) # template을 사용하지 않음
    return re.sub(r"[^\w\s\d\,]", '', raw_answer)

In [29]:
from tzzim import Tzzim
tzzim = Tzzim()
location_list = ['제주도', '영남권', '호남권']
golf_club_list = ['라온', '아난티남해', '파인비치', '에버리스', '에코랜드', '사이프러스']
course_list = ['stone', 'lake', '파인', 'pine', '비치', 'Lake', '와일드', 'Out', 'In', 'West']

def key_classification(add_dialogue:str):              
    instruction = f"""{add_dialogue}\n 위와 같은 대화가 주어졌을 때 추가된 대화를 사용하여 
                    다음 선택지 중에서 JSON데이터의 value값을 생성해주세요. JSON데이터를 출력하고 출력값만 생성해주세요.

                    JSON 데이터: {{'location': 'null', 'golf_club_name': 'null', 'course': 'null'}}
                    지역 선택지: {','.join(location_list)}
                    골프장명 선택지: {','.join(golf_club_list)}
                    코스 선택지: {','.join(course_list)}
                    
                    여러 선택지를 선택한다면 "A,B,C"의 형식으로 value값을 생성해주세요.
                    추가된 대화에 key값에 해당하는 내용이 없다면 "null"으로 유지해주세요.
					JSON의 value값이 "null"이 아니라면 key값과 value값은 고정입니다.
					JSON의 새로운 key값과 value값은 추가하지 않습니다.
                    코스 선택지에는 영어단어를 한국어로 읽은 표현이 있습니다. 이를 고려하여 영어표현, 한글표현을 모두 생성해주세요.
                    
                    출력:\n"""
                    
    raw_answer = tzzim.chatgpt_return(instruction) # template을 사용하지 않음
    return raw_answer

In [30]:
add_dialogue = """
추가된 대화:
        검색을 완료하였습니다. 골프장, 코스, 시간 등을 선택해주세요.
:골프장은 라온골프장이나 파인비치로 해주고 코스는 소나무가 있는 곳으로 해줘
"""
result = key_classification(add_dialogue.split(':')[-1])
result

'"{\'location\': \'null\', \'golf_club_name\': \'라온,파인비치\', \'course\': \'파인,pine\'}"'

In [10]:
from datetime import datetime, time
a = datetime(2024, 1, 26, 1, 1, 1).time()
b = time(1, 1, 1)
print(type(a))
print(type(b))
print(a == b)


<class 'datetime.time'>
<class 'datetime.time'>
True


In [6]:
print(datetime.now().time())
print(type(datetime.now().time()))

14:20:29.378083
<class 'datetime.time'>


In [11]:
datetime.now().hour

15

In [14]:
a = [{'a':1, 'b':1}, {'a':2, 'b':1}]
import pandas as pd
b = pd.DataFrame(a)
c = (b,'etc')

In [18]:
a[0].values()

dict_values([1, 1])

In [19]:
a = list()
a[-1] = 1
a

IndexError: list assignment index out of range

In [2]:
1 in list()

False

#### 프롬프트 쪼개기

In [2]:
import copy
from datetime import datetime
import re

from tzzim import Tzzim
tzzim = Tzzim()

add_dialogue = """
추가된 대화:
    '네 알겠습니다, 바로 예약 진행하겠습니다. 어떻게 예약을 도와드릴까요?
:27일 제주나 전라도에서 칠거야'
"""

dialogue = f"""
기존 대화:
        ['안녕하세요! 골프예약인공지능 티찜AI입니다. 무엇을 도와드릴까요?\n:골프장 예약할래', '네, 알겠습니다! 현재  푸른하늘님은 6개 골프장의 회원이십니다. 골프장 명단을 알려드릴까요?\n:아니']
{add_dialogue}
"""
# 골프장은 라온으로 해주고 코스는 stone으로 해줘

json_dict = {
  "task": "예약",
  "date": "2024년 01월 27일",
  "location": "제주도",
  "golf_club_name": "null",
  "course": "null",
  "tee_time_for_reservation": "null"
}
json_string = str(json_dict)

choices_dict = {
    'location': ['제주도', '영남권', '호남권'],
    'golf_club_name': ['라온', '아난티남해', '파인비치', '에버리스', '에코랜드', '사이프러스'],
    'course': ['stone', 'lake', '파인', 'pine', '비치', 'Lake', '와일드', 'Out', 'In', 'West']
}

ner_conditions = {'basic': ['추가된 대화에 key값에 해당하는 내용이 없다면 "null"으로 유지해주세요.',
							'JSON의 value값이 "null"이 아니라면 key값과 value값은 고정입니다.',
							'JSON의 새로운 key값과 value값은 추가하지 않습니다.',
        					'특정 key값에 대해 질문했을 때 "상관없다" 등의 답변이 있다면 해당 key에는 "all"을 생성해주세요.'],
                  'classification': ['여러 선택지를 선택한다면 "A|B|C"의 형식으로 value값을 생성해주세요.'],
					'task': [f'"task"키의 경우 {", ".join(["예약", "예약취소", "골프정보"])} 중 하나만 선택하여 value 값으로 생성해주세요.'],
                    'location': ['전라도는 호남권에 속하고, 경상도는 영남권에 속합니다.'],
                    'course': ['코스 선택지에는 영어단어를 한국어로 읽은 표현이 있습니다. 이를 고려하여 영어표현, 한글표현을 모두 생성해주세요.'],
					'date': [f'"date"키의 경우 오늘 날짜인 {datetime.now().strftime("%Y-%m-%d")}에 가까운 날짜로 "yyyy년 mm월 dd일" 형식을 사용하여 value 값으로 생성해주세요.',
							'"date"키의 경우 날짜에 대한 범위를 나타내는 말이 있을 때 "yyyy년 mm월 dd일~yyyy년 mm월 dd일"의 형식으로 값을 생성해주세요.',
							'"date"키의 경우 "초", "초순"등의 표현이 있다면 "yyyy년 mm월 01일~yyyy년 mm월 10일", "중순"이면 "yyyy년 mm월 11일~yyyy년 mm월 20일", "말"이면 "yyyy년 mm월 21일~yyyy년 mm월 30일"의 형식으로 값을 생성해주세요. "말"의 경우, 월에 따라 마지막 날짜가 변동될 수 있습니다.'],
					'tee_time_for_reservation': ['"tee_time_for_reservation"키의 경우 24시간 표기와 "%H시 %M분"형식을 사용하여 value 값으로 생성해주세요.',
												'"tee_time_for_reservation"키의 경우 시간의 범위를 나타내는 말이 있을 때 "%H시 %M분~%H시 %M분"의 형식으로 값을 생성해주세요.',
												'"tee_time_for_reservation"키의 경우 하나의 시간표현이 있다면 "%H-1시 %M분~%H시+1 %M분"의 형식으로 값을 생성해주세요.',
												'"tee_time_for_reservation"키의 경우 "%H시 %M분 이후로"등의 표현이 있다면 "%H시 %M분~23시 59분"의 형식으로, "%H시 이전으로"등의 표현이 있다면 "00시 00분~%H시 %M분"의 형식으로 값을 생성해주세요.']
					}
        
key_instruction = f"""위와 같은 대화가 주어졌을 때 추가된 대화를 사용하여 사용자의 답변에 따라 아래 선택지에서 수정이 필요한 값을 선택해주세요. 출력형식에 따라 출력값만 생성해주세요.
        선택지: {','.join(list(json_dict.keys()))}
        출력형식: A|B|C
        조건 1: 수정이 필요없다면 'null'을 생성해주세요.
        
        출력:\n"""
# ChatGPT결과가 따옴표까지 생성하는 것 조심해야함   
user_prompt = tzzim.template(dialogue, key_instruction)
keys = tzzim.chatgpt_return(user_prompt)
keys = re.sub(r"[^\w\s\d\|]", '', keys)
print('keys: ', keys)


json_generated = dict()
json_classified = dict()

if 'null' in keys:
    pass
else:
    if not keys:
        pass
    else:
        if tzzim.or_delimeter in keys:
            keys = keys.split(tzzim.or_delimeter)
        else:
            keys = [keys]
            
        keys_to_generate = list()
        keys_to_classify = list()

        for a_key in keys:
            if a_key in ['location', 'golf_club_name', 'course']:
                keys_to_classify.append(a_key)
            else:
                keys_to_generate.append(a_key)
                
        print('keys_to_generate: ', keys_to_generate)
        print('keys_to_classify: ', keys_to_classify)
         
        if keys_to_generate:
            prompt_condition_list = ner_conditions['basic']
            for a_key in keys_to_generate:
                if a_key in ner_conditions:
                    prompt_condition_list += ner_conditions[a_key]
            prompt_conditions = '\n\t' + '\n\t'.join(prompt_condition_list)
            temp_dict = {k:v for k, v in json_dict.items() if k in keys_to_generate}
            ner_instruction = '\n\n'.join([f"위와 같은 대화가 주어졌을 때 추가된 대화를 사용하여 아래의 JSON 데이터의 {','.join(keys_to_generate)} key에 해당하는 value값을 업데이트 해주세요. 출력값만 생성해주세요." +\
                                            f"JSON 데이터: {temp_dict}",
                                            prompt_conditions,
                                            "출력:\n"])
            print('ner_instruction: ', ner_instruction)
            user_prompt = tzzim.template(dialogue, ner_instruction)
            json_string_generated = tzzim.chatgpt_return(user_prompt)
            json_generated = tzzim.to_json(json_string_generated)
        else:
            pass
        
        if keys_to_classify:
            prompt_condition_list = ner_conditions['basic'] + ner_conditions['classification']
            choices_list = list()
            for a_key in keys_to_classify:
                if a_key in ner_conditions:
                    prompt_condition_list += ner_conditions[a_key]
                    
                if a_key in choices_dict.keys():
                    choice_phrase = f'{tzzim.json_keyname[a_key]} 선택지: {choices_dict[a_key]}'
                    choices_list.append(choice_phrase)
                
            choices = '\n\t' + '\n\t'.join(choices_list)
            prompt_conditions = '\n\t' + '\n\t'.join(prompt_condition_list)
            temp_dict = {k:v for k, v in json_dict.items() if k in keys_to_classify}
            classify_instruction = '\n\n'.join([f"위와 같은 대화가 주어졌을 때 추가된 대화를 사용하여 다음 선택지 중에서 JSON데이터의 value값을 생성해주세요. JSON데이터를 출력하고 출력값만 생성해주세요." +\
                                            f"JSON 데이터: {temp_dict}",
                                            choices,
                                            prompt_conditions,
                                            "출력:\n"])
            print('classify_instruction: ', classify_instruction)
            user_prompt = tzzim.template(dialogue, classify_instruction)
            json_string_classified = tzzim.chatgpt_return(user_prompt)
            json_classified = tzzim.to_json(json_string_classified)

print('json_generated: ', json_generated)
print('json_classified: ', json_classified)

json_changed = copy.deepcopy(json_dict)
for k, v in json_changed.items():
    if json_generated and k in json_generated:
        for k, v in json_generated.items():
            json_changed[k] = v
    
    if json_classified and k in json_classified:
        for k, v in json_classified.items():
            json_changed[k] = v
print('json_changed: ', json_changed)

keys:  date|location
keys_to_generate:  ['date']
keys_to_classify:  ['location']
ner_instruction:  위와 같은 대화가 주어졌을 때 추가된 대화를 사용하여 아래의 JSON 데이터의 date key에 해당하는 value값을 업데이트 해주세요. 출력값만 생성해주세요.JSON 데이터: {'date': '2024년 01월 27일'}


	추가된 대화에 key값에 해당하는 내용이 없다면 "null"으로 유지해주세요.
	JSON의 value값이 "null"이 아니라면 key값과 value값은 고정입니다.
	JSON의 새로운 key값과 value값은 추가하지 않습니다.
	특정 key값에 대해 질문했을 때 "상관없다" 등의 답변이 있다면 해당 key에는 "all"을 생성해주세요.
	"date"키의 경우 오늘 날짜인 2024-01-28에 가까운 날짜로 "yyyy년 mm월 dd일" 형식을 사용하여 value 값으로 생성해주세요.
	"date"키의 경우 날짜에 대한 범위를 나타내는 말이 있을 때 "yyyy년 mm월 dd일~yyyy년 mm월 dd일"의 형식으로 값을 생성해주세요.
	"date"키의 경우 "초", "초순"등의 표현이 있다면 "yyyy년 mm월 01일~yyyy년 mm월 10일", "중순"이면 "yyyy년 mm월 11일~yyyy년 mm월 20일", "말"이면 "yyyy년 mm월 21일~yyyy년 mm월 30일"의 형식으로 값을 생성해주세요. "말"의 경우, 월에 따라 마지막 날짜가 변동될 수 있습니다.

출력:

classify_instruction:  위와 같은 대화가 주어졌을 때 추가된 대화를 사용하여 다음 선택지 중에서 JSON데이터의 value값을 생성해주세요. JSON데이터를 출력하고 출력값만 생성해주세요.JSON 데이터: {'location': '제주도'}


	지역 선택지: ['제주도', '영남권', '호남권']


	추가된 대화에 key값에 해당하는 내용이 없다면 "null"으로 유

In [10]:
choices_dict = {
    'location':list(),
    'golf_club_name': list(),
    'course': list()
}

for k1, k2 in zip(choices_dict, ['location', 'name', 'course']):
    for a_dict in tzzim.sample_data['tzzim_get_GC_name_list']:
        if k2 == 'course':
            choices_dict[k1] += a_dict[k2]
        else:
            choices_dict[k1].append(a_dict[k2])
    choices_dict[k1] = list(set(choices_dict[k1]))

In [11]:
choices_dict

{'location': ['제주도', '영남권', '호남권'],
 'golf_club_name': ['에코랜드', '에버리스', '파인비치', '아난티남해', '라온', '사이프러스'],
 'course': ['lake',
  '비치',
  'Lake',
  '파인',
  'West',
  'stone',
  'Out',
  'In',
  '와일드',
  'pine']}

In [6]:
from datetime import datetime

start_date_datetime = datetime.strptime('2024년 1월 31일','%Y년 %m월 %d일')
start_date_parse = datetime.strftime(start_date_datetime, '%m월 %d일')
start_date_parse

'01월 31일'

In [2]:
!pip install jamotools

Collecting jamotools
  Using cached jamotools-0.1.10-py2.py3-none-any.whl (13 kB)
Collecting future (from jamotools)
  Using cached future-0.18.3-py3-none-any.whl
Installing collected packages: future, jamotools
Successfully installed future-0.18.3 jamotools-0.1.10


In [3]:
import jamotools
jamotools.split_syllables('안녕')

'ㅇㅏㄴㄴㅕㅇ'

In [20]:
from datetime import datetime
datetime_list = [datetime(2024, 1, 30,21), datetime(2024, 1, 30, 20)]
time_delta_list = [(a_datetime - datetime.now()) for a_datetime in datetime_list]
min(enumerate(time_delta_list), key=lambda x: x[1])

[datetime.timedelta(seconds=565, microseconds=406245), datetime.timedelta(days=-1, seconds=83365, microseconds=406239)]


True

In [43]:
import datetime

# datetime
datetime1 = datetime.datetime.strptime('10:45', '%H:%M')
datetime2 = datetime.datetime.strptime('11:00', '%H:%M')
datetime3 = datetime.datetime.strptime('11:30', '%H:%M')


# timedelta 구하기
time_delta1 = abs(datetime1 - datetime2)
time_delta2 = abs(datetime3 - datetime2)


a_list = [time_delta1, time_delta2]
print(a_list)
sorted(enumerate(a_list), key=lambda x: x[1])[:3]

[datetime.timedelta(seconds=900), datetime.timedelta(seconds=1800)]


[(1, datetime.timedelta(seconds=1800)), (0, datetime.timedelta(seconds=900))]

In [49]:
import re
remove_space = lambda value: re.sub(r'\s+', '', value)
rest_of_date = lambda value_without_space, date_text: value_without_space.replace(date_text, '')

k = 'date'
v = '오늘'

if k == 'date':
    regex = r'\d{4}년\d{2}월\d{2}일'
else:
    regex = r'\d{2}시\d{2}분'
find_date_time:list = re.findall(regex, remove_space(v))
print(find_date_time)
has_rest = False
has_value_not_correct = False
# 날짜 이외의 문자열이 있는 경우 수정필요
if isinstance(find_date_time, list) and (len(find_date_time) == 1):
    date_text = find_date_time[0]
    has_rest = rest_of_date(remove_space(v), date_text)
    if has_rest:
        has_value_not_correct = True
    else:
        pass
elif isinstance(find_date_time, list) and (len(find_date_time) == 2):
    for value, date_text in zip(v.split('~'), find_date_time):
        has_rest = rest_of_date(init.remove_space(value), date_text)
        if has_rest:
            has_value_not_correct = True
            break
else:
    has_value_not_correct = True
    
print(has_value_not_correct)

[]
True
