In [9]:
!pip install psycopg2-binary
!pip install openpyxl

Collecting openpyxl
  Using cached openpyxl-3.1.5-py2.py3-none-any.whl.metadata (2.5 kB)
Collecting et-xmlfile (from openpyxl)
  Using cached et_xmlfile-2.0.0-py3-none-any.whl.metadata (2.7 kB)
Using cached openpyxl-3.1.5-py2.py3-none-any.whl (250 kB)
Using cached et_xmlfile-2.0.0-py3-none-any.whl (18 kB)
Installing collected packages: et-xmlfile, openpyxl
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2/2[0m [openpyxl]1/2[0m [openpyxl]
[1A[2KSuccessfully installed et-xmlfile-2.0.0 openpyxl-3.1.5


<h1>환경변수 설정</h1>

In [5]:
from dotenv import load_dotenv
import os
import psycopg2
import pandas as pd

load_dotenv()

POSTGRE_DB_NAME = os.getenv("POSTGRE_DB_NAME")
POSTGRE_DB_USER = os.getenv("POSTGRE_DB_USER")
POSTGRE_DB_HOST = os.getenv("POSTGRE_DB_HOST")
POSTGRE_DB_PORT = os.getenv("POSTGRE_DB_PORT")
POSTGRE_DB_PASSWORD = os.getenv("POSTGRE_DB_PASSWORD")

# env value check
print(POSTGRE_DB_PORT)

5432


In [6]:
# 기존에 만들어놓은 DB 테스트
conn = psycopg2.connect(
        dbname=POSTGRE_DB_NAME,
        user=POSTGRE_DB_USER,
        host=POSTGRE_DB_HOST,
        port=POSTGRE_DB_PORT,
        password=POSTGRE_DB_PASSWORD
    )

try:
    # 비밀번호 없이 연결
    with conn.cursor() as cursor:        
        cursor = conn.cursor()
        cursor.execute("SELECT * FROM documents;")
        
        result = cursor.fetchall()
        print(f"총 결과 행 수: {len(result)}")

        # 컬럼명 가져오기
        columns = [desc[0] for desc in cursor.description]

        # 데이터프레임 변환
        test_df = pd.DataFrame(result, columns=columns)


except Exception as e:
    print(f"Error: {e}")

finally:
    conn.close()
    print('db 연결 종료!')

test_df

총 결과 행 수: 4
db 연결 종료!


Unnamed: 0,id,title,content,content_tsv
0,1,첫 번째 문서,고양이와 강아지가 친구가 되었습니다.,'강아지':2 '고양이':1 '되':4 '친구':3
1,2,두 번째 문서,강아지는 공기놀이를 좋아합니다.,'강아지':1 '공기':2 '놀이':3 '좋':4
2,3,세 번째 문서,고양이는 나무 위에서 낮잠을 잤습니다.,'고양이':1 '나무':2 '낮잠':4 '위':3 '자':5
3,4,네 번째 문서,삼색고양이와 흰 고양이가 친구가 되었습니다.,"'고양이':2,4 '되':6 '삼색':1 '친구':5 '희':3"


<h1>테이블 생성</h1>

<h1></h1>

In [None]:
conn = psycopg2.connect(
        dbname=POSTGRE_DB_NAME,
        user=POSTGRE_DB_USER,
        host=POSTGRE_DB_HOST,
        port=POSTGRE_DB_PORT,
        password=POSTGRE_DB_PASSWORD
    )

create_table_trag0100 = '''
CREATE TABLE TRAGFILE0100 (
    FILE_SEQ        SERIAL      NOT NULL,
    CLSF_CD         INTEGER,
    TYP_CD          INTEGER,
    FILE_NM         TEXT,
    EXT             VARCHAR(10),
    FILE_PATH       TEXT,
    REGIST_ID       VARCHAR(200),
    REGIST_DT       TIMESTAMP,
    MODIFY_ID       VARCHAR(200),
    MODIFY_DT       TIMESTAMP,
    PRIMARY KEY (FILE_SEQ)
);
'''

# SQL for adding comments (optional)
add_comments_sql = '''
COMMENT ON TABLE TRAGFILE0100 IS '첨부파일';
COMMENT ON COLUMN TRAGFILE0100.FILE_SEQ IS '파일순서';
COMMENT ON COLUMN TRAGFILE0100.CLSF_CD IS '구분코드';
COMMENT ON COLUMN TRAGFILE0100.TYP_CD IS '종류코드';
COMMENT ON COLUMN TRAGFILE0100.FILE_NM IS '파일명';
COMMENT ON COLUMN TRAGFILE0100.EXT IS '확장자';
COMMENT ON COLUMN TRAGFILE0100.FILE_PATH IS '파일위치';
COMMENT ON COLUMN TRAGFILE0100.REGIST_ID IS '등록자ID';
COMMENT ON COLUMN TRAGFILE0100.REGIST_DT IS '등록자일시';
COMMENT ON COLUMN TRAGFILE0100.MODIFY_ID IS '수정자ID';
COMMENT ON COLUMN TRAGFILE0100.MODIFY_DT IS '수정자일시';
'''

# MySQL 전용 문법: DEFAULT CHARSET=utf8mb3 COLLATE=utf8mb3_unicode_ci는 MySQL 문법입니다. PostgreSQL에서는 문자 인코딩과 콜레이션을 테이블 단위로 지정하지 않습니다. 이는 데이터베이스 생성 시 설정됩니다.
# COMMENT 문법: MySQL의 COMMENT는 PostgreSQL에서 지원되지 않습니다. 대신 COMMENT ON 명령어를 별도로 사용하거나, 테이블 생성 시 주석을 생략합니다.
# 데이터 타입: VARCHAR(1000)은 PostgreSQL에서 TEXT로 대체 가능합니다. PostgreSQL에서는 VARCHAR 길이 제한이 없어도 TEXT를 사용하는 경우가 많습니다.
# 인덱스 및 제약조건: ALTER TABLE ... ADD CONSTRAINT PRIMARY KEY는 올바르지만, 테이블 생성 시 PRIMARY KEY를 직접 정의하는 것이 더 간결합니다.


try:
    # 비밀번호 없이 연결
    with conn.cursor() as cursor:        
        cursor = conn.cursor()

        cursor.execute(create_table_trag0100)
        print("테이블 생성 완료!")

        cursor.execute(add_comments_sql)
        print("Comment 추가 완료!")

        conn.commit()

except Exception as e:
    print(f"Error: {e}")
    conn.rollback()

finally:
    conn.close()
    print('db 연결 종료!')

In [None]:
conn = psycopg2.connect(
        dbname=POSTGRE_DB_NAME,
        user=POSTGRE_DB_USER,
        host=POSTGRE_DB_HOST,
        port=POSTGRE_DB_PORT,
        password=POSTGRE_DB_PASSWORD
    )

create_table_trag0102 = '''
CREATE TABLE TRAGFILE0102 (
    PASSAGE_SEQ     SERIAL      NOT NULL,
    FILE_SEQ        INTEGER     NOT NULL,
    CONT            TEXT,
    PAGE_NO_CHST    VARCHAR(200),
    REGIST_ID       VARCHAR(200),
    REGIST_DT       TIMESTAMP,
    MODIFY_ID       VARCHAR(200),
    MODIFY_DT       TIMESTAMP,
    PRIMARY KEY (PASSAGE_SEQ, FILE_SEQ),
    FOREIGN KEY (FILE_SEQ) REFERENCES TRAGFILE0100 (FILE_SEQ)
);
'''

# SQL for adding comments (optional)
add_comments_sql_2 = '''
COMMENT ON TABLE TRAGFILE0102 IS '첨부파일_패시지_결과';
COMMENT ON COLUMN TRAGFILE0102.PASSAGE_SEQ IS '패시지순서';
COMMENT ON COLUMN TRAGFILE0102.FILE_SEQ IS '파일순서';
COMMENT ON COLUMN TRAGFILE0102.CONT IS '내용';
COMMENT ON COLUMN TRAGFILE0102.PAGE_NO_CHST IS '페이지번호';
COMMENT ON COLUMN TRAGFILE0102.REGIST_ID IS '등록자ID';
COMMENT ON COLUMN TRAGFILE0102.REGIST_DT IS '등록자일시';
COMMENT ON COLUMN TRAGFILE0102.MODIFY_ID IS '수정자ID';
COMMENT ON COLUMN TRAGFILE0102.MODIFY_DT IS '수정자일시';
'''



# MySQL 전용 문법: DEFAULT CHARSET=utf8mb3 COLLATE=utf8mb3_unicode_ci는 MySQL 문법입니다. PostgreSQL에서는 문자 인코딩과 콜레이션을 테이블 단위로 지정하지 않습니다. 이는 데이터베이스 생성 시 설정됩니다.
# COMMENT 문법: MySQL의 COMMENT는 PostgreSQL에서 지원되지 않습니다. 대신 COMMENT ON 명령어를 별도로 사용하거나, 테이블 생성 시 주석을 생략합니다.
# 데이터 타입: VARCHAR(1000)은 PostgreSQL에서 TEXT로 대체 가능합니다. PostgreSQL에서는 VARCHAR 길이 제한이 없어도 TEXT를 사용하는 경우가 많습니다.
# 인덱스 및 제약조건: ALTER TABLE ... ADD CONSTRAINT PRIMARY KEY는 올바르지만, 테이블 생성 시 PRIMARY KEY를 직접 정의하는 것이 더 간결합니다.


try:
    # 비밀번호 없이 연결
    with conn.cursor() as cursor:        
        cursor = conn.cursor()

        cursor.execute(create_table_trag0102)
        print("0102 테이블 생성 완료!")

        cursor.execute(add_comments_sql_2)
        print("Comment 추가 완료!")
        
        conn.commit()

except Exception as e:
    print(f"Error: {e}")
    conn.rollback()

finally:
    conn.close()
    print('db 연결 종료!')

In [None]:
conn = psycopg2.connect(
        dbname=POSTGRE_DB_NAME,
        user=POSTGRE_DB_USER,
        host=POSTGRE_DB_HOST,
        port=POSTGRE_DB_PORT,
        password=POSTGRE_DB_PASSWORD
    )


alter_tsvector_sql = '''
ALTER TABLE TRAGFILE0102 ADD COLUMN cont_tsvector TSVECTOR;
'''

index_tsvector_sql = '''
CREATE INDEX TRAGFILE0102_fts_idx ON TRAGFILE0102 USING GIN (cont_tsvector);
'''

try:
    # 비밀번호 없이 연결
    with conn.cursor() as cursor:        
        cursor = conn.cursor()

        cursor.execute(alter_tsvector_sql)
        print("tsvector 열 추가!")

        cursor.execute(index_tsvector_sql)
        print("Comment 추가 완료!")

        conn.commit()

except Exception as e:
    print(f"Error: {e}")
    conn.rollback()

finally:
    conn.close()
    print('db 연결 종료!')

<h1>데이터 삽입</h1>
Postgre 에서 Insert할 때, 집어넣는 데이터는 큰따옴표가 아닌 작은따옴표가 들어간다.
차라리 %s 의 바인딩 방식을 사용하는 편이 낫다.

In [55]:
# 3-0. 많이 사용되는 sql 모음
# =============== SELECT ================
select_0100_all_sql = """
select * from TRAGFILE0100;
"""

select_0102_all_sql = """
select * from TRAGFILE0102;
"""

select_0100_0102_join_sql = """
SELECT TF0.FILE_NM, TF0.FILE_SEQ, TF2S.PASSAGE_SEQ, TF2S.CONT, TF2S.PAGE_NO_CHST
FROM TRAGFILE0100 TF0 
INNER JOIN TRAGFILE0102 TF2S
ON TF0.FILE_SEQ = TF2S.FILE_SEQ
ORDER BY TF0.FILE_SEQ ASC;
"""

select_0100_0102_join_tsvector_sql = """
SELECT TF0.FILE_NM, TF0.FILE_SEQ, TF2S.PASSAGE_SEQ, TF2S.CONT, TF2S.PAGE_NO_CHST, TF2S.CONT_TSVECTOR
FROM TRAGFILE0100 TF0 
INNER JOIN TRAGFILE0102 TF2S
ON TF0.FILE_SEQ = TF2S.FILE_SEQ
ORDER BY TF0.FILE_SEQ ASC;
"""

select_find_one_file_sql = """
SELECT FILE_SEQ
FROM TRAGFILE0100
WHERE REPLACE(TRIM(FILE_NM), ' ', '') = REPLACE(TRIM(%s), ' ', '');
"""

select_count_0102_sql = """
select count(*) from TRAGFILE0102;
"""

# =============== INSERT ================

insert_0102_all_sql = """
INSERT INTO TRAGFILE0102
(PASSAGE_SEQ, FILE_SEQ, CONT, PAGE_NO_CHST) VALUES
(%s, %s, %s, %s);
"""

# =============== DELETE ================
delete_0100_all_sql = """
DELETE FROM TRAGFILE0100;
"""

delete_0102_all_sql = """
DELETE FROM TRAGFILE0102;
"""

In [None]:
df_0100 = pd.read_excel('./data/커스텀_목록테이블 입력데이터_v0.2_20250203.xlsx', skiprows=2)
# df_0100.head(3)

print(len(df_0100))

clsf_cd = list(df_0100['clsf_cd'])
typ_cd = list(df_0100['typ_cd'])
file_name = list(df_0100['FILE_NM'])
ext = list(df_0100['EXT.1'])

print(len(clsf_cd), len(typ_cd), len(file_name), len(ext))

df_0100.head(3)

In [None]:
from datetime import datetime

# 3-1.
# 0100에 기본 데이터 insert
conn = psycopg2.connect(
        dbname=POSTGRE_DB_NAME,
        user=POSTGRE_DB_USER,
        host=POSTGRE_DB_HOST,
        port=POSTGRE_DB_PORT,
        password=POSTGRE_DB_PASSWORD
    )

today = datetime.now().strftime("%y%m%d_%H%M%S")

file_check = ''
change_seq = 0

try:
    with conn.cursor() as cursor:
         # 0) DELETE
        cursor.execute(delete_0100_all_sql)

        for idx in range(len(df_0100)):
            try:
                cursor.execute("INSERT INTO TRAGFILE0100 (CLSF_CD, TYP_CD, FILE_NM, EXT) VALUES (%s, %s, %s, %s)",(clsf_cd[idx], typ_cd[idx], file_name[idx], ext[idx]))

            except Exception as e:
                # 중간에 어떤 에러가 나든, 해당 쿼리는 건너뛰고 다음 idx 진행
                print(f"[에러 발생] idx={idx}")
                print("에러 메시지:", e)
                continue

        # 처리 끝난 후 결과 확인
        cursor.execute(select_0100_all_sql)

        result = cursor.fetchall()
        print(f"총 결과 행 수: {len(result)}")

        # 컬럼명 가져오기
        columns = [desc[0] for desc in cursor.description]

        # 데이터프레임 변환
        df_0100_db_result = pd.DataFrame(result, columns=columns)

        # 변경사항 커밋
        conn.commit()

finally:
    conn.close()


df_0100_db_result.to_excel(f'/Users/ranifarm/python-work/adaptive-rag-public/unit_test/result/db_0100_select_result_{today}.xlsx')
df_0100_db_result.tail(3)


In [None]:
# 3-2. delete -> insert -> select(excel export)
# sql 쿼리는 3-0. 에서 가져옴.
conn = psycopg2.connect(
        dbname=POSTGRE_DB_NAME,
        user=POSTGRE_DB_USER,
        host=POSTGRE_DB_HOST,
        port=POSTGRE_DB_PORT,
        password=POSTGRE_DB_PASSWORD
    )

file_check = ''
change_seq = 0
today = datetime.now().strftime("%y%m%d_%H%M%S")

df_0102 = pd.read_excel('/Users/ranifarm/python-work/adaptive-rag-public/unit_test/data/db_insert_passage_250321.xlsx')

print(f'=====데이터를 읽어들였습니다.===== 데이터프레임의 shape는 {df_0102.shape} 입니다.=======')

try:
    with conn.cursor() as cursor:
         # 0) DELETE
        print('====테이블 초기화 작업을 시작합니다.======')
        cursor.execute(delete_0102_all_sql)

        print('====DELETE 완료, original 테이블에서 이제 조회를 시작합니다.=====')

        for idx in range(len(df_0102)):
            try:
                # file check init
                if idx == 0:
                    file_check = df_0102.at[idx, 'Filename']

                file_name = df_0102.at[idx, 'Filename']
                

                # 1) FILE_SEQ 조회
                cursor.execute(select_find_one_file_sql, (file_name,))
                result = cursor.fetchall()  # 여러 행을 가져옴

                if not result:
                    print(f"[에러] 파일명 '{file_name}'에 해당하는 FILE_SEQ 없음! (idx={idx})")
                    # 파일명을 찾지 못하면 건너뛰고 다음으로
                    continue
                
                # psycopg2는 fetchall 반환할 때 이렇게 반환함 ---> [(10,)]
                code = result[0][0]

                # 2) INSERT 처리
                content_value = df_0102.at[idx, 'Content']
                extracted_pages = df_0102.at[idx, 'ExtractedPages']

                # 같은 파일이면 Passage_seq를 이어가고, 다른 파일이면 0으로 리셋
                if file_check == file_name:
                    cursor.execute(insert_0102_all_sql, (change_seq, code, content_value, extracted_pages))
                    conn.commit()
                    change_seq += 1
                else:
                    file_check = file_name
                    change_seq = 0
                    cursor.execute(insert_0102_all_sql, (change_seq, code, content_value, extracted_pages))
                    conn.commit()
                    change_seq += 1

                print(f'[{idx + 1} 행] : {change_seq}-{code}')

            except Exception as e:
                # 중간에 어떤 에러가 나든, 해당 쿼리는 건너뛰고 다음 idx 진행
                print(f"[에러 발생] idx={idx}, filename={file_name}")
                print("에러 메시지:", e)
                continue

        # 처리 끝난 후 결과 확인
        cursor.execute(select_0100_0102_join_sql)

        result = cursor.fetchall()

        # 컬럼명 가져오기
        columns = [desc[0] for desc in cursor.description]

        # 데이터프레임 변환
        df_db_insert_result = pd.DataFrame(result, columns=columns)

        # 변경사항 커밋
        conn.commit()

finally:
    conn.close()

print(f"첫번째 조회 시 저장된 row 수는=====> {len(df_0102)} 입니다!!")
print(f"최종 조회 시 저장된 row 수는=====>: {len(df_db_insert_result)} 입니다!!")
df_db_insert_result.to_excel(f'/Users/ranifarm/python-work/adaptive-rag-public/unit_test/result/db_0102_select_result_{today}.xlsx')
df_db_insert_result.tail(3)


<h1>키워드 변환 작업</h1>

In [None]:
conn = psycopg2.connect(
        dbname=POSTGRE_DB_NAME,
        user=POSTGRE_DB_USER,
        host=POSTGRE_DB_HOST,
        port=POSTGRE_DB_PORT,
        password=POSTGRE_DB_PASSWORD
    )


update_tsvector_sql = '''
UPDATE TRAGFILE0102 SET cont_tsvector = to_tsvector('korean', cont);
'''

try:
    # 비밀번호 없이 연결
    with conn.cursor() as cursor:        
        cursor = conn.cursor()

        cursor.execute(update_tsvector_sql)
        print('tsvector 업데이트 완료!')

        cursor.execute(select_0100_0102_join_tsvector_sql)

        result = cursor.fetchall()

        # 컬럼명 가져오기
        columns = [desc[0] for desc in cursor.description]

        # 데이터프레임 변환
        df_db_tsvector_result = pd.DataFrame(result, columns=columns)

        # 변경사항 커밋
        conn.commit()

except Exception as e:
    print(f"Error: {e}")
    conn.rollback()

finally:
    conn.close()
    print('db 연결 종료!')


df_db_tsvector_result.to_excel(f'/Users/ranifarm/python-work/adaptive-rag-public/unit_test/result/db_0102_tsvector_result_{today}.xlsx')
df_db_tsvector_result.tail(3)

In [None]:
tsvector = df_db_tsvector_result['cont_tsvector'][0]

"'1':203 '16912':150 '2':10,154 '2000':279 '2000.12.11':77 '2001':79,457 '2001.5.30':277 '2002.7.9':455 '2003':148 '2003.8.22':146 '26794':81 '29452':459 '3':471 '5':7 '7300':281 'aca':555 '가능':194,296,566 '가지':331,402,407,472 '가합':149 '각자':543 '간접':244,425 '감안':120,484 '강도':442 '갖추':392 '같':558 '개인':544 '거의':340 '거치':57 '건강':191 '것':41,73,101,122,271,410,569,584,596,615,624,634 '경영':440,448 '경우':243,285,419,559,574,628 '경쟁력':175 '고대':69,97 '고려':26,198,509,548 '고령자':28 '고법':276 '고연':166 '고용':1,37 '고임금':239,400,487 '공단':287,353 '공정':123,222,272,432,521 '공정성':391 '공헌':290 '과정':17,159 '관계':236 '관련':47,250,428 '관하':54 '구':80 '권고':161 '그':199,216 '극히':349 '근거':631 '근로자':49,183,542,576,594,606 '근무':112,116,184,258,335,341,356,368,468 '근속':135,210,229,361 '기간':113,136,211,230,467,495 '기업':395 '기여':115 '기준':13,34,53,65,91,128,137,212,219,241,323,388,404,435,464,474,515,523 '기하':532 '길':496 '나라':476 '나름':518 '나머지':321 '나이':580 '내':589 '내지':394,399 '너무':577,579 '노인':590,619 '높':489,568 '누':280 '

<h1>검색 테스트</h1>

In [81]:
# 특정 키워드로 입력하여 필터링 검색
conn = psycopg2.connect(
        dbname=POSTGRE_DB_NAME,
        user=POSTGRE_DB_USER,
        host=POSTGRE_DB_HOST,
        port=POSTGRE_DB_PORT,
        password=POSTGRE_DB_PASSWORD
    )


search_tsvector_sql = '''
SELECT cont_tsvector
FROM tragfile0102
WHERE cont_tsvector @@ to_tsquery('korean', '동물');
'''

try:
    # 비밀번호 없이 연결
    with conn.cursor() as cursor:        
        cursor = conn.cursor()

        cursor.execute(search_tsvector_sql)
        print('tsvector 업데이트 완료!')

        result = cursor.fetchall()

        # 컬럼명 가져오기
        columns = [desc[0] for desc in cursor.description]

        # 데이터프레임 변환
        tsvector_search_result = pd.DataFrame(result, columns=columns)

        # 변경사항 커밋
        conn.commit()

except Exception as e:
    print(f"Error: {e}")
    conn.rollback()

finally:
    conn.close()
    print('db 연결 종료!')

print('검색 건수!!! ===> ', len(tsvector_search_result))
tsvector_search_result.tail(3)

tsvector 업데이트 완료!
db 연결 종료!
검색 건수!!! ===>  27


Unnamed: 0,cont_tsvector
24,"'1':16,58,120,142,144,160,168,176,211 '11':20 ..."
25,"'1':37,47,49,66,86,106,164,177,268,272 '2':45,..."
26,"'-13':546 '01':27,163 '012':252 '0121':348 '01..."


In [None]:
# '동물' 이라는 단어가 들어가 있다.
list(tsvector_search_result['cont_tsvector'])[0]

"'1':8,11,19,44,54,56,73,93,113,171,185,210,217,226,241,268,324,340,344,350,353,454,456,467,514,525,550,592,640,747,751,759 '10':273,597,720 '12':351,757 '14':728 '15':283,609,737 '16':310,367,660,680,776 '2':52,63,71,184,219,234,243,275,288,295,312,320,366,395,452,516,552,599,621,636,662,710,739,804,826 '21':297,646 '3':83,91,200,204,250,259,299,315,494,498,561,648,665,736 '34':286,619 '4':103,111,142,221,245,282,518,554 '42':16,389,465,798,820 '43':190,293,391,393,800,802,822,824 '44':330,397,806,828 '45':372,815 '5':1,34,38,123,131,156,211,213,235,237,436,440,480,484,504,506,540,542 '6':139,215,239,512,548 '7':153,173,224,248,266,523,559,590 '8':168 '9':711 '각':21,194,334,469,693 '감독':430,898 '개관':10 '개인':378,386,410,418,845,854,862,870,878,886 '갱신':278,602 '거짓':260,584 '것':700 '게을리':431,899 '경우':434,490,631,833,876,881,902 '계속':363,770 '고기':161 '과':414,415,866,867 '관련':670 '관하':50,67,87,107,127,308,388,426,450,658,678,856,894 '귀책':625 '규정':175,713,722,730,741,817 '그':169,261,381,38

In [None]:
# 사용자의 쿼리가 들어갈 때
# 필자 생각으로는 좀 그렇다.. 차라리 질문을 형태소 분석 시켜서 의미 있는 단어를 and 시키면 어떨까 생각을 해봄
user_query = "동물 보호"
query_condition = ' & '.join(user_query.split())

# 특정 키워드로 입력하여 필터링 검색
conn = psycopg2.connect(
        dbname=POSTGRE_DB_NAME,
        user=POSTGRE_DB_USER,
        host=POSTGRE_DB_HOST,
        port=POSTGRE_DB_PORT,
        password=POSTGRE_DB_PASSWORD
    )


search_tsvector_sql = '''
SELECT cont_tsvector
FROM tragfile0102
WHERE cont_tsvector @@ to_tsquery('korean', %s);
'''

try:
    # 비밀번호 없이 연결
    with conn.cursor() as cursor:        
        cursor = conn.cursor()

        # 두번째 인자를 튜플로 받아야 함.
        cursor.execute(search_tsvector_sql, (query_condition,))
        print('tsvector 업데이트 완료!')

        result = cursor.fetchall()

        # 컬럼명 가져오기
        columns = [desc[0] for desc in cursor.description]

        # 데이터프레임 변환
        tsvector_search_result = pd.DataFrame(result, columns=columns)

        # 변경사항 커밋
        conn.commit()

except Exception as e:
    print(f"Error: {e}")
    conn.rollback()

finally:
    conn.close()
    print('db 연결 종료!')

print('검색 건수!!! ===> ', len(tsvector_search_result))
tsvector_search_result.tail(3)

tsvector 업데이트 완료!
db 연결 종료!
검색 건수!!! ===>  9


Unnamed: 0,cont_tsvector
6,"'02':17 '1':30 '2':2,111,181 '3':88 'emerg':26..."
7,"'1':16,58,120,142,144,160,168,176,211 '11':20 ..."
8,"'-13':546 '01':27,163 '012':252 '0121':348 '01..."


In [79]:
print(tsvector_search_result['cont_tsvector'][0])

'1':8,11,19,44,54,56,73,93,113,171,185,210,217,226,241,268,324,340,344,350,353,454,456,467,514,525,550,592,640,747,751,759 '10':273,597,720 '12':351,757 '14':728 '15':283,609,737 '16':310,367,660,680,776 '2':52,63,71,184,219,234,243,275,288,295,312,320,366,395,452,516,552,599,621,636,662,710,739,804,826 '21':297,646 '3':83,91,200,204,250,259,299,315,494,498,561,648,665,736 '34':286,619 '4':103,111,142,221,245,282,518,554 '42':16,389,465,798,820 '43':190,293,391,393,800,802,822,824 '44':330,397,806,828 '45':372,815 '5':1,34,38,123,131,156,211,213,235,237,436,440,480,484,504,506,540,542 '6':139,215,239,512,548 '7':153,173,224,248,266,523,559,590 '8':168 '9':711 '각':21,194,334,469,693 '감독':430,898 '개관':10 '개인':378,386,410,418,845,854,862,870,878,886 '갱신':278,602 '거짓':260,584 '것':700 '게을리':431,899 '경우':434,490,631,833,876,881,902 '계속':363,770 '고기':161 '과':414,415,866,867 '관련':670 '관하':50,67,87,107,127,308,388,426,450,658,678,856,894 '귀책':625 '규정':175,713,722,730,741,817 '그':169,261,381,384

In [None]:
# 변형 방안 :: 질문을 먼저 to_tsvector 에 넣어서 단어로 만든다.
# 단어를 정제하여 길이가 2이상인 것만 뽑아낸다.
# 그 결과를 검색 조건으로 and 시켜 넣는다.
user_query = "선박예약 좀 하고 싶어"

# 특정 키워드로 입력하여 필터링 검색
conn = psycopg2.connect(
        dbname=POSTGRE_DB_NAME,
        user=POSTGRE_DB_USER,
        host=POSTGRE_DB_HOST,
        port=POSTGRE_DB_PORT,
        password=POSTGRE_DB_PASSWORD
    )


search_tsvector_sql = '''
SELECT to_tsvector('korean', %s);
'''

try:
    # 비밀번호 없이 연결
    with conn.cursor() as cursor:        
        cursor = conn.cursor()

        # 두번째 인자를 튜플로 받아야 함.
        cursor.execute(search_tsvector_sql, (user_query,))
        print('tsvector 업데이트 완료!')

        result = cursor.fetchall()
        print(result)

        # 컬럼명 가져오기
        columns = [desc[0] for desc in cursor.description]

        # 데이터프레임 변환
        tsvector_search_result = pd.DataFrame(result, columns=columns)

        # 변경사항 커밋
        conn.commit()

except Exception as e:
    print(f"Error: {e}")
    conn.rollback()

finally:
    conn.close()
    print('db 연결 종료!')

print('검색 건수!!! ===> ', len(tsvector_search_result))
tsvector_search_result.tail(3)

tsvector 업데이트 완료!
[("'선박':1 '예약':2 '좀':3 '하':4",)]
db 연결 종료!
검색 건수!!! ===>  1


Unnamed: 0,to_tsvector
0,'선박':1 '예약':2 '좀':3 '하':4


In [None]:
# 단어만 추출 (2글자 이상만?) 그리고 다시 검색을 날리면 되지 않을까?
d = result[0][0].split(":")

print([c.split()[-1] for c in d][:-1])
print([k.replace("'","") for k in [c.split()[-1] for c in d][:-1]])


# 이 값을 최종적으로 쿼리에 날려야 할 듯.
final_data = [u for u in [k.replace("'","") for k in [c.split()[-1] for c in d][:-1]] if len(u) >= 2]


["'선박'", "'예약'", "'좀'", "'하'"]
['선박', '예약', '좀', '하']


['선박', '예약']