In [1]:
import pandas as pd
import numpy as np
import torch
from tqdm.auto import tqdm
import random
import os
import re

def reset_seeds(seed):
    random.seed(seed)
    os.environ['PYTHONHASHSEED'] = str(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)
    torch.backends.cudnn.deterministic = True

DATA_PATH = "data/"
SEED = 42

device = 'cuda' if torch.cuda.is_available() else 'cpu'
device

'cuda'

In [4]:
yogi_df = pd.read_csv(f'{DATA_PATH}yogiyo_reviews_jsi.csv')

yogi_df.shape

(18686, 6)

In [5]:
# 요기요 데이터

yogi_df.head()

Unnamed: 0,고객리뷰,별점,맛별점,양별점,배달별점,사장댓글
0,사진보다 실물이 백배 맛있어요~~~~~~ 고기 양도 많아요~~~~~~ 배달시간도 딱...,5,5,5,5.0,"이렇게 저희 매장 찾아주셔서 감사드립니다!!\n\n맛 뿐만 아니라 양도, 서비스도 ..."
1,리뷰가 늦었네요.. 맛있게 잘 먹었습니다. 또 시킬게요!!,5,5,5,5.0,좋은 리뷰 덕분에 기분이 행복해지는 것 같아요😇\n\n고객님께서 맛있다고 말씀 주시...
2,잘 먹었습니다. 다만 주문에 있던 펩시콜라는 받지 못했습니다.,5,5,5,5.0,소중한 식사 시간에 저희 매장을 찾아 주셔서 감사드립니다. \n\n저희를 찾아 주신...
3,굿 말이 필요 없는 메뉴 였습니다,5,5,5,5.0,수 많은 매장들을 헤치고 와주셔서 감사합니다!!\n\n저희 매장의 메뉴를 제대로 즐...
4,맛있어요 양도많구좋음,5,5,5,5.0,수 많은 매장들을 헤치고 와주셔서 감사합니다😂\n\n메뉴 그 자체로 행복을 드리고 ...


In [6]:
for i in range(len(yogi_df[:100])):
    print(i)
    print(yogi_df['고객리뷰'][i])
    print('------------------------------------------------')
    print(yogi_df['사장댓글'][i])

0
사진보다 실물이 백배 맛있어요~~~~~~ 고기 양도 많아요~~~~~~ 배달시간도 딱 맞춰서 보내주셨어요~~~~
------------------------------------------------
이렇게 저희 매장 찾아주셔서 감사드립니다!!

맛 뿐만 아니라 양도, 서비스도 모두 최상의 품질을 드리려고 노력하고 있습니다🙏 모든 직원들이 힘내서 고객님의 마음을 잡기 위해 계속 노력하겠습니다ㅎㅎ

항상 건강 챙기시고, 오늘도 즐거운 하루 보내시길 바라겠습니다❤                                                
1
리뷰가 늦었네요.. 맛있게 잘 먹었습니다. 또 시킬게요!!
------------------------------------------------
좋은 리뷰 덕분에 기분이 행복해지는 것 같아요😇

고객님께서 맛있다고 말씀 주시니 피로가 싹~ 사라지네요! 주방에서 힘든 일도 있고 늘 쉽지만은 않지만, 이런 리뷰 읽을 때 마다 보람차고 다시 시작할 수 있는 거 같습니다^^ 정말 감사드려요ㅎㅎ

오늘도 화이팅 있게 마무리하시길 바라요💪
2
잘 먹었습니다. 다만 주문에 있던 펩시콜라는 받지 못했습니다.
------------------------------------------------
소중한 식사 시간에 저희 매장을 찾아 주셔서 감사드립니다. 

저희를 찾아 주신 만큼 100% 만족감을 드리고 싶었는데 그러지 못한 것 같아 너무 죄송합니다ㅜㅜ 
말씀 주신 부분에 대해서는 주의하여 다음 주문시에는 실수 없도록 꼼꼼하게 확인하겠습니다..!! 

저희 매장을 찾아 주셔서 다시 한번 감사의 말씀드리며, 언제나 행복한 순간들만 가득하시길 바라겠습니다!
3
굿 말이 필요 없는 메뉴 였습니다
------------------------------------------------
수 많은 매장들을 헤치고 와주셔서 감사합니다!!

저희 매장의 메뉴를 제대로 즐기신 거 같아 너무 영광이에요😋 모두 마음에 드셨을까요??전부 정성껏 준비했

In [7]:
# 결측치 확인

yogi_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18686 entries, 0 to 18685
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   고객리뷰    18686 non-null  object 
 1   별점      18686 non-null  int64  
 2   맛별점     18686 non-null  int64  
 3   양별점     18686 non-null  int64  
 4   배달별점    18686 non-null  float64
 5   사장댓글    18686 non-null  object 
dtypes: float64(1), int64(3), object(2)
memory usage: 876.0+ KB


In [8]:
yogi_df['고객리뷰'] = yogi_df.고객리뷰.str.replace('[^a-zA-Z가-힣0-9 .,!?\'\"]', '', regex=True)
yogi_df.고객리뷰

0           사진보다 실물이 백배 맛있어요 고기 양도 많아요 배달시간도 딱 맞춰서 보내주셨어요
1                        리뷰가 늦었네요.. 맛있게 잘 먹었습니다. 또 시킬게요!!
2                      잘 먹었습니다. 다만 주문에 있던 펩시콜라는 받지 못했습니다.
3                                      굿 말이 필요 없는 메뉴 였습니다
4                                             맛있어요 양도많구좋음
                               ...                       
18681                                          맛있게 잘 먹었어요
18682           요청사항을 항상 잘 들어주셨는데 오늘은 못 모셨나봐요 그래도 잘 먹었습니다
18683                                배달 빨라요 맛있게 잘 먹었습니당 !
18684                                              잘 먹었어요
18685    식후감 자주 시키는데 항상 요청사항도 잘들어주시고 맛있고 빨라요 앞으로도 자주 시킬게요
Name: 고객리뷰, Length: 18686, dtype: object

In [9]:
def text_ver_1():    
    for i in range(yogi_df['사장댓글'].shape[0]):
        pat = '저희\s+'
        tmp = re.split(pat, yogi_df['사장댓글'][i])
        if len(tmp) == 1:
            print(f'{i}번 "저희" 없어서 패스')
            pass
        else:
            tmp = re.split('의', tmp[1])
            cnt = 0
            for t in tmp:
                if len(t) == 0:
                    pass
                elif t[0] == ' ':
                    print(f'{i}번 수정완료')
                    break
                elif t[0] == '매':
                    print(f'{i}번 "가게명" 없어서 패스')
                    break
                else:
                    t = t + '의'
                    yogi_df['사장댓글'][i] = yogi_df['사장댓글'][i].replace(t, '')
                    cnt += 1
                    if cnt == len(tmp):
                        print(f'{i}번 수정부분 없음')

In [10]:
def text_ver_2():    
    for i in range(yogi_df['사장댓글'].shape[0]):
        pat = '안녕하세요\s+'
        tmp = re.split(pat, yogi_df['사장댓글'][i])
        if len(tmp) == 1:
            print(f'{i}번 "안녕하세요" 없어서 패스')
            pass
        else:
            tmp = re.split('입니다', tmp[1])
            cnt = 0
            for t in tmp:
                if len(t) == 0:
                    pass
                elif t[0] == ' ':
                    print(f'{i}번 수정완료')
                    break
                else:
                    t = t + '입니다'
                    yogi_df['사장댓글'][i] = yogi_df['사장댓글'][i].replace(t, '')
                    cnt += 1
                    if cnt == len(tmp):
                        print(f'{i}번 수정부분 없음')

In [11]:
def text_ver_3():    
    for i in range(yogi_df['사장댓글'].shape[0]):
        pat = '안녕하세요.\s+'
        tmp = re.split(pat, yogi_df['사장댓글'][i])
        if len(tmp) == 1:
            print(f'{i}번 "안녕하세요." 없어서 패스')
            pass
        else:
            tmp = re.split('입니다.', tmp[1])
            cnt = 0
            for t in tmp:
                if len(t) == 0:
                    pass
                elif t[0] == ' ':
                    print(f'{i}번 수정완료')
                    break
                else:
                    t = t + '입니다.'
                    yogi_df['사장댓글'][i] = yogi_df['사장댓글'][i].replace(t, '')
                    cnt += 1
                    if cnt == len(tmp):
                        print(f'{i}번 수정부분 없음')

In [12]:
def text_remove(text):
    if text == '저희':
        return text_ver_1()
    elif text == '안녕하세요':
        return text_ver_2()
    elif text == '안녕하세요.':
        return text_ver_3()

In [13]:
check_lst = ['저희', '안녕하세요', '안녕하세요.']

for lst in check_lst:
    text_remove(lst)

0번 "가게명" 없어서 패스
1번 "저희" 없어서 패스
2번 "가게명" 없어서 패스
3번 "가게명" 없어서 패스
4번 수정부분 없음
5번 "가게명" 없어서 패스
6번 "가게명" 없어서 패스
7번 "가게명" 없어서 패스
8번 "가게명" 없어서 패스
9번 "가게명" 없어서 패스
10번 "가게명" 없어서 패스
11번 수정부분 없음
12번 "가게명" 없어서 패스
13번 "가게명" 없어서 패스
14번 "가게명" 없어서 패스
15번 "가게명" 없어서 패스
16번 수정완료
17번 "가게명" 없어서 패스
18번 "가게명" 없어서 패스
19번 "가게명" 없어서 패스
20번 "가게명" 없어서 패스
21번 "저희" 없어서 패스
22번 "저희" 없어서 패스
23번 "저희" 없어서 패스
24번 수정부분 없음
25번 수정부분 없음
26번 "가게명" 없어서 패스
27번 "저희" 없어서 패스
28번 "가게명" 없어서 패스
29번 "가게명" 없어서 패스
30번 "저희" 없어서 패스
31번 "저희" 없어서 패스
32번 수정부분 없음
33번 "가게명" 없어서 패스
34번 "가게명" 없어서 패스
35번 "가게명" 없어서 패스
36번 "가게명" 없어서 패스
37번 "가게명" 없어서 패스
38번 "저희" 없어서 패스
39번 "가게명" 없어서 패스
40번 "저희" 없어서 패스
41번 "가게명" 없어서 패스
42번 "가게명" 없어서 패스
43번 "가게명" 없어서 패스
44번 "가게명" 없어서 패스
45번 수정부분 없음
46번 "가게명" 없어서 패스
47번 "가게명" 없어서 패스
48번 "저희" 없어서 패스
49번 "저희" 없어서 패스
50번 "가게명" 없어서 패스
51번 "가게명" 없어서 패스
52번 "가게명" 없어서 패스
53번 "저희" 없어서 패스
54번 수정부분 없음
55번 "가게명" 없어서 패스
56번 "저희" 없어서 패스
57번 수정부분 없음
58번 "가게명" 없어서 패스
59번 "가게명" 없어서 패스
60번 수정완료
61번 "저희" 없어서 패스
62번 "가게명" 없어서 패스
63번 "가게명"

IOPub data rate exceeded.
The Jupyter server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--ServerApp.iopub_data_rate_limit`.

Current values:
ServerApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
ServerApp.rate_limit_window=3.0 (secs)



11382번 수정완료
11383번 수정완료
11384번 수정완료
11385번 수정완료
11386번 수정완료
11387번 수정완료
11388번 수정완료
11389번 수정완료
11390번 수정완료
11391번 수정완료
11392번 수정완료
11393번 수정완료
11394번 수정완료
11395번 수정완료
11396번 수정완료
11397번 수정완료
11398번 "안녕하세요" 없어서 패스
11399번 "안녕하세요" 없어서 패스
11400번 수정완료
11401번 수정완료
11402번 수정완료
11403번 수정완료
11404번 수정완료
11405번 수정완료
11406번 수정완료
11407번 수정완료
11408번 수정완료
11409번 수정완료
11410번 "안녕하세요" 없어서 패스
11411번 "안녕하세요" 없어서 패스
11412번 "안녕하세요" 없어서 패스
11413번 "안녕하세요" 없어서 패스
11414번 "안녕하세요" 없어서 패스
11415번 "안녕하세요" 없어서 패스
11416번 "안녕하세요" 없어서 패스
11417번 "안녕하세요" 없어서 패스
11418번 "안녕하세요" 없어서 패스
11419번 "안녕하세요" 없어서 패스
11420번 "안녕하세요" 없어서 패스
11421번 "안녕하세요" 없어서 패스
11422번 "안녕하세요" 없어서 패스
11423번 "안녕하세요" 없어서 패스
11424번 "안녕하세요" 없어서 패스
11425번 "안녕하세요" 없어서 패스
11426번 "안녕하세요" 없어서 패스
11427번 "안녕하세요" 없어서 패스
11428번 "안녕하세요" 없어서 패스
11429번 "안녕하세요" 없어서 패스
11430번 "안녕하세요" 없어서 패스
11431번 "안녕하세요" 없어서 패스
11432번 "안녕하세요" 없어서 패스
11433번 "안녕하세요" 없어서 패스
11434번 "안녕하세요" 없어서 패스
11435번 "안녕하세요" 없어서 패스
11436번 "안녕하세요" 없어서 패스
11437번 "안녕하세요" 없어서 패스
11438번 "안녕하세요" 없어서 패스
11439번

IOPub data rate exceeded.
The Jupyter server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--ServerApp.iopub_data_rate_limit`.

Current values:
ServerApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
ServerApp.rate_limit_window=3.0 (secs)



In [17]:
# 정규표현식
yogi_df['사장댓글'] = yogi_df.사장댓글.str.replace('[^a-zA-Z가-힣0-9 .,!?\'\"]', '', regex=True)

# 개인ID -> 고객님 변경
yogi_df['replyContent'] = yogi_df.사장댓글.str.replace("\w+님", "고객님", regex=True)
yogi_df['replyContent'] = yogi_df.사장댓글.str.replace("\w+ 님", "고객님", regex=True)

yogi_df.사장댓글

0        이렇게 저희 매장 찾아주셔서 감사드립니다!!맛 뿐만 아니라 양도, 서비스도 모두 최...
1        좋은 리뷰 덕분에 기분이 행복해지는 것 같아요고객님께서 맛있다고 말씀 주시니 피로가...
2        소중한 식사 시간에 저희 매장을 찾아 주셔서 감사드립니다. 저희를 찾아 주신 만큼 ...
3        수 많은 매장들을 헤치고 와주셔서 감사합니다!!저희 매장의 메뉴를 제대로 즐기신 거...
4        수 많은 매장들을 헤치고 와주셔서 감사합니다메뉴 그 자체로 행복을 드리고 싶었는데 ...
                               ...                        
18681                                감사합니다!!! 다음에도 이용해주세용 
18682                                죄송합니다 !! 다음에도 애용해주세용 
18683                                감사합니다!!! 다음에도 이용해주세용 
18684                                감사합니다!!! 다음에도 이용해주세용 
18685                                감사합니다!!! 다음에도 이용해주세용 
Name: 사장댓글, Length: 18686, dtype: object

In [18]:
tmp = {
    'content': yogi_df['고객리뷰'],
    'score': yogi_df['별점'],
    'replyContent': yogi_df['사장댓글']
}

yogi_df = pd.DataFrame(tmp)
yogi_df

Unnamed: 0,content,score,replyContent
0,사진보다 실물이 백배 맛있어요 고기 양도 많아요 배달시간도 딱 맞춰서 보내주셨어요,5,"이렇게 저희 매장 찾아주셔서 감사드립니다!!맛 뿐만 아니라 양도, 서비스도 모두 최..."
1,리뷰가 늦었네요.. 맛있게 잘 먹었습니다. 또 시킬게요!!,5,좋은 리뷰 덕분에 기분이 행복해지는 것 같아요고객님께서 맛있다고 말씀 주시니 피로가...
2,잘 먹었습니다. 다만 주문에 있던 펩시콜라는 받지 못했습니다.,5,소중한 식사 시간에 저희 매장을 찾아 주셔서 감사드립니다. 저희를 찾아 주신 만큼 ...
3,굿 말이 필요 없는 메뉴 였습니다,5,수 많은 매장들을 헤치고 와주셔서 감사합니다!!저희 매장의 메뉴를 제대로 즐기신 거...
4,맛있어요 양도많구좋음,5,수 많은 매장들을 헤치고 와주셔서 감사합니다메뉴 그 자체로 행복을 드리고 싶었는데 ...
...,...,...,...
18681,맛있게 잘 먹었어요,5,감사합니다!!! 다음에도 이용해주세용
18682,요청사항을 항상 잘 들어주셨는데 오늘은 못 모셨나봐요 그래도 잘 먹었습니다,4,죄송합니다 !! 다음에도 애용해주세용
18683,배달 빨라요 맛있게 잘 먹었습니당 !,5,감사합니다!!! 다음에도 이용해주세용
18684,잘 먹었어요,5,감사합니다!!! 다음에도 이용해주세용


In [19]:
# 데이터셋 합병 지점
# df = pd.concat([play_df[:3000], yogi_df[:3000]], axis=0, ignore_index=True)
df = pd.concat([yogi_df[:10000]], axis=0, ignore_index=True)
df

Unnamed: 0,content,score,replyContent
0,사진보다 실물이 백배 맛있어요 고기 양도 많아요 배달시간도 딱 맞춰서 보내주셨어요,5,"이렇게 저희 매장 찾아주셔서 감사드립니다!!맛 뿐만 아니라 양도, 서비스도 모두 최..."
1,리뷰가 늦었네요.. 맛있게 잘 먹었습니다. 또 시킬게요!!,5,좋은 리뷰 덕분에 기분이 행복해지는 것 같아요고객님께서 맛있다고 말씀 주시니 피로가...
2,잘 먹었습니다. 다만 주문에 있던 펩시콜라는 받지 못했습니다.,5,소중한 식사 시간에 저희 매장을 찾아 주셔서 감사드립니다. 저희를 찾아 주신 만큼 ...
3,굿 말이 필요 없는 메뉴 였습니다,5,수 많은 매장들을 헤치고 와주셔서 감사합니다!!저희 매장의 메뉴를 제대로 즐기신 거...
4,맛있어요 양도많구좋음,5,수 많은 매장들을 헤치고 와주셔서 감사합니다메뉴 그 자체로 행복을 드리고 싶었는데 ...
...,...,...,...
9995,먹을때마다 역시 맛있네요 김치찜은 여기서 맨날 먹습니다,5,감사합니다. 양도 더 늘리고 품질도 더 높이고 있습니다. 부족하시지 않게 맛있게...
9996,맛있게 잘먹었습니다,5,토핑폭탄을 방문해주셔서 감사합니다. 자주 이용해주셔서 너무 감사드려요. 더 많이 ...
9997,배달 25분만에왔어여 존맛이네요진짜고기도엄청많고 국물예술이에여!!!꼭시켜드세요 요청...,5,토핑폭탄을 이용해 주셔서 너무 감사드립니다. 바쁜시간에도 저희가게에 리뷰선물까지 주...
9998,새벽에 배고파서 허겁지겁 먹느라 대충 찍었네요 맛있었어요,5,토핑폭탄을 이용해 주셔서 너무 감사드립니다. 바쁜시간에도 저희가게에 리뷰선물까지 주...


In [20]:
# 불필요한 문자 제거

# 고객리뷰 부분
content_list = []
for content in df['content']:
    if isinstance(content, str):
        c_result = re.sub(r'\.{2,}', '.', content)
        c_result = re.sub(r'\,{2,}', ',', c_result)
        c_result = re.sub(r'\~{2,}', '~', c_result)
        c_result = re.sub(r'\!{2,}', '!', c_result)
        c_result = re.sub(r'\?{2,}', '?', c_result)
        c_result = re.sub(' +', ' ', c_result)

        content_list.append(c_result)
    else:
        content_list.append('')

df['content'] = content_list

# 사장댓글 부분
replyContent_list = []
for replyContent in df['replyContent']:
    if isinstance(replyContent, str):
        r_result = re.sub(r'\.{2,}', '.', replyContent)
        r_result = re.sub(r'\,{2,}', ',', r_result)
        r_result = re.sub(r'\~{2,}', '~', r_result)
        r_result = re.sub(r'\!{2,}', '!', r_result)
        r_result = re.sub(r'\?{2,}', '?', r_result)
        r_result = re.sub(r' +', ' ', r_result)

        replyContent_list.append(r_result)
    else:
        replyContent_list.append('')

df['replyContent'] = replyContent_list

df.head()

Unnamed: 0,content,score,replyContent
0,사진보다 실물이 백배 맛있어요 고기 양도 많아요 배달시간도 딱 맞춰서 보내주셨어요,5,"이렇게 저희 매장 찾아주셔서 감사드립니다!맛 뿐만 아니라 양도, 서비스도 모두 최상..."
1,리뷰가 늦었네요. 맛있게 잘 먹었습니다. 또 시킬게요!,5,좋은 리뷰 덕분에 기분이 행복해지는 것 같아요고객님께서 맛있다고 말씀 주시니 피로가...
2,잘 먹었습니다. 다만 주문에 있던 펩시콜라는 받지 못했습니다.,5,소중한 식사 시간에 저희 매장을 찾아 주셔서 감사드립니다. 저희를 찾아 주신 만큼 ...
3,굿 말이 필요 없는 메뉴 였습니다,5,수 많은 매장들을 헤치고 와주셔서 감사합니다!저희 매장의 메뉴를 제대로 즐기신 거 ...
4,맛있어요 양도많구좋음,5,수 많은 매장들을 헤치고 와주셔서 감사합니다메뉴 그 자체로 행복을 드리고 싶었는데 ...


In [21]:
df['replyContent'][16]

'저희 메뉴를 주문해 주셔서 감사합니다. 양이 줄었다고 느끼셨군요. 항상 정량대로 조리하고 있습니다. 그렇지만 의견 남겨 주신 만큼, 저희가 놓쳤거나 개선 할 수 있는 부분은 없는지 검토해 보도록 하겠습니다. 더불어 간에 대한 부분도 포장하기 전에 다시 한번 맛을 확인하고 전달 드릴 수 있도록 하겠습니다. 다음엔 온전한 만족감을 드릴 수 있는 매장 기대해 주세요. 감사합니다. '

In [22]:
shuffled_df = df.sample(frac=1, random_state=SEED)
shuffled_df

Unnamed: 0,content,score,replyContent
6252,오늘도 역시나 맛있게 잘 먹었습니다!,5,헤헤헤헿! 엄지척. 너무 좋아하는 엄지척. 앞으로도 더욱 열심히 만들어볼게요! 앞으...
4684,배달도 빠르고 맛있어요,5,별점 5개와 리뷰를 잊지 않고 남겨주셔서 감사합니다직접 드시는 건데 맛은 당연히 좋...
1731,배달도 빠르고 치킨도 너무 맛있게 잘 먹었습니다,5,저희 청년치킨을 이용해주셔서 감사드립니다맛있는 치킨과 푸짐한 양 신속한 서비스로 보...
4742,푸짐하고 맛있어서 한번씩 생각나요. 잘 먹었어요.,5,감사합니다 푸짐한 사진도 너무 감사해요 다양한 구성에 푸짐함까지 더해져 사랑받는 도...
4521,굴 너무 싱싱하고 맛있네요,5,안녕하세요'' 소중한 고객님!우리 고객님의 맛있다는 말은 언제들어도 기분이 좋네요언...
...,...,...,...
5734,콩나물국 맛있어요 잘 먹었습니다!,5,"고객님, 40여가지 재료로 당일 만든 정성이 가득한 음식입니다. 더욱 노력하겠습니다..."
5191,잘 먹었습니다!,5,명작파스타 입니다. 맛있게 드셨다니 저희도 기분이 좋습니다 정성스런 리뷰도 너무 감...
5390,종종 시켜먹는데 맛있어요!,5,저희 마음 다시 한 번 전해드립니다 저희 올데이파스타 동대문구점은 항상 신선한 재료...
860,맛있게 잘 먹었습니다,5,안녕하세요 별점만점 그리고 따뜻한 리뷰 작성해주셔서 감사합니다. 위생과 청결을 우선...


In [23]:
# from sklearn.model_selection import train_test_split

In [24]:
# train, test = train_test_split(df, test_size=0.3, random_state=SEED)
# train.shape, test.shape

In [25]:
!pip install transformers

Defaulting to user installation because normal site-packages is not writeable
[0m[33mDEPRECATION: distro-info 0.18ubuntu0.18.04.1 has a non-standard version number. pip 23.3 will enforce this behaviour change. A possible replacement is to upgrade to a newer version of distro-info or contact the author to suggest that they release a version with a conforming version number. Discussion can be found at https://github.com/pypa/pip/issues/12063[0m[33m
[0m

In [26]:
model_name = 'EasthShin/Youth_Chatbot_Kogpt2-base'

In [27]:
from transformers import AutoTokenizer, AutoModelForCausalLM

In [28]:
model = AutoModelForCausalLM.from_pretrained(model_name)

In [29]:
tokenizer = AutoTokenizer.from_pretrained(model_name,
                                          bos_token='</s>',
                                          eos_token='</s>',
                                          unk_token='<unk>',
                                          pad_token='<pad>',
                                          mask_token='<mask>',
                                          max_len=1024)

In [30]:
tokenizer.tokenize('오늘 저녁 뭐 먹을래?')

['▁오늘', '▁저녁', '▁뭐', '▁먹을', '래', '?']

In [31]:
tokenizer.eos_token_id

1

In [32]:
text = '오늘 저녁 뭐 먹을래?'
input_ids = tokenizer.encode(text, return_tensors='pt')
input_ids

tensor([[10070, 17969, 46651, 17003,  7383,   406]])

In [33]:
result_ids = model.generate(input_ids,
                            max_length=128, # 생성 최대 길이
                            repetition_penalty=2.0, # 반복 토큰 생성에 대한 패널티, 1보다 큰 수를 줘야함
                            use_cache=True, # 빠른 추론을 위한 캐시 여부
                            do_sample=True, # 확률적 샘플링
                            temperature=0.2, # 소프트맥스 온도
                            top_k=10
                            )
result_ids

tensor([[10070, 17969, 46651, 17003,  7383,   406, 39514,  8022, 22375,  9078,
          7892, 23854,  7890,  6824,  8084,   376,     1]])

In [34]:
result = tokenizer.decode(result_ids[0])
print(result)

2023-08-31 16:51:26.332787: I tensorflow/core/util/port.cc:110] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.
2023-08-31 16:51:26.945169: I tensorflow/core/platform/cpu_feature_guard.cc:182] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 AVX512F AVX512_VNNI FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.


오늘 저녁 뭐 먹을래?저녁에 무엇을 하실 생각이신가요!</s>


In [35]:
tokenizer([text, result], return_tensors='pt', padding=True)

{'input_ids': tensor([[10070, 17969, 46651, 17003,  7383,   406,     3,     3,     3,     3,
             3,     3,     3,     3,     3,     3,     3],
        [10070, 17969, 46651, 17003,  7383,   406, 39514,  8022, 22375,  9078,
          7892, 23854,  7890,  6824,  8084,   376,     1]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])}

In [36]:
class ChatDataset(torch.utils.data.Dataset):
    def __init__(self, df):
        self.content = shuffled_df['content'].tolist()
        self.replyContent = shuffled_df['replyContent'].tolist()
        
    def __len__(self):
        return len(self.content)

    def __getitem__(self, idx):
        return '<q>' + self.content[idx] + '</s><a>' + self.replyContent[idx] + '</s>'

In [37]:
def collate_fn(batch):
    x = tokenizer(batch, return_tensors='pt', padding=True)
    return {'x': x}

In [38]:
dt = ChatDataset(shuffled_df)
dl = torch.utils.data.DataLoader(dt, batch_size=2, collate_fn=collate_fn)
batch = next(iter(dl))
batch

{'x': {'input_ids': tensor([[ 9724,   455,   405, 30899,  7235, 10330,  7055, 11355, 18479,  9443,
           9784,  8017, 16913,  7182,   376,     1,  9724,   439,   405,  8729,
           8729,  8729,     5,   376, 30762,  8360,   389, 12371, 22600, 30762,
           8360,   389, 12634,  7235,  9947, 22805,  9659,  7656,  6866,  8084,
            376, 12634,  7235,  9301,  9599,  9265,  8806,  9134, 18882, 29576,
           7489, 28709,  8084,  9166,  7894,  9267,  9098,  9947, 29918, 11355,
           9021, 28711,  7281,  6872, 16913,  7182, 11474,  7062,  8263, 10091,
          10126, 19272,  9443, 48064,  9075, 10061, 15730,  8702,  7801,  8084,
           8185,  8806,  9301,  8159, 39534, 11001,  9301, 31549,  8109, 34222,
          10873, 10762,  8146,  9481, 16913,  7182,   376, 11336, 10286, 22411,
          10554, 35723, 12298,  7177,  9036, 25474,  7671, 29207,  6992, 15844,
           6872, 16913,  7182,   376,  8330,   387,  7478,  7685, 10403,   428,
            411,   42

In [39]:
model(**batch['x']).logits.shape

torch.Size([2, 164, 51200])

In [40]:
tokenizer.pad_token_id

3

In [41]:
def train_loop(dataloader, model, loss_fn, optimizer, device):
    epoch_loss = 0
    model.train()

    for batch in tqdm(dataloader):
        x = batch['x'].to(device)
        pred = model(**x).logits
        n_class = pred.shape[-1]
        pred = pred[:,:-1]
        pred = pred.reshape(-1, n_class)

        tgt = x['input_ids'][:,1:]
        tgt = tgt.flatten()

        mask = tgt != 3
        tgt = tgt[mask]
        pred = pred[mask]
        loss = loss_fn(pred,tgt)

        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

        epoch_loss += loss.item()

    epoch_loss /= len(dataloader)

    return epoch_loss

In [42]:
batch_size = 4
loss_fn = torch.nn.CrossEntropyLoss()
epochs = 20

In [43]:
import gc

In [None]:
reset_seeds(SEED)

model = AutoModelForCausalLM.from_pretrained(model_name).to(device)
optimizer = torch.optim.Adam(model.parameters(), lr=3e-5)

train_dt = ChatDataset(shuffled_df)
train_dl = torch.utils.data.DataLoader(train_dt, batch_size=batch_size, shuffle=True, collate_fn=collate_fn)

for i in range(epochs):
    train_loss = train_loop(train_dl, model, loss_fn, optimizer, device)
    print(train_loss)

    model.save_pretrained(f'{DATA_PATH}models/EasthShin/p0y10000e20_remove_ver.1_{i}')


  0%|          | 0/2500 [00:00<?, ?it/s]

1.8077974794507026


  0%|          | 0/2500 [00:00<?, ?it/s]

1.3011733945965767


  0%|          | 0/2500 [00:00<?, ?it/s]

1.1230763401031494


  0%|          | 0/2500 [00:00<?, ?it/s]

0.9879558322429657


  0%|          | 0/2500 [00:00<?, ?it/s]

0.8701779365956783


  0%|          | 0/2500 [00:00<?, ?it/s]

In [168]:
@torch.no_grad()
def chatbot(model, tokenizer, max_len, device):
    model.eval()
    while True:
        text = input('user >> ').strip()
        if text == 'qwer':
            break

        text = '<q>' + text + '</s><a>'
        x = tokenizer.encode(text, return_tensors='pt').to(device)
        result_ids = model.generate(x,
                            max_length=128, # 생성 최대 길이
                            repetition_penalty=2.0, # 반복 토큰 생성에 대한 패널티, 1보다 큰 수를 줘야함
                            use_cache=True, # 빠른 추론을 위한 캐시 여부
                            do_sample=True, # 확률적 샘플링
                            temperature=0.8, # 소프트맥스 온도
                            top_k=10
                            )
        q_len = len(text) +1
        text = tokenizer.decode(result_ids[0])

        print('bot >> ', text[q_len:-4])

In [169]:
model = model.from_pretrained(f'{DATA_PATH}models/EasthShin/p0y10000e20_shuffle_ver.2_19').to(device)

In [170]:
chatbot(model, tokenizer, 256, device)

user >>  맛은 있었는데 양이 좀 적었어요.


bot >>  잭아저씨 족발보쌈을 찾아주셔서 감사합니다바쁘실텐데 잊지 않고 리뷰 남겨 주시니 넘넘 행복하네요 양에 맞춰서, 드시느라 힘들지만 맛은 항상 최고인 거 같아요,!앞으로도 만족만 하겠다는 말씀 담아 만들겠습니다이렇게 칭찬 가득한 하루를 보내시는 고객님들 덕분에 오늘도 힘을 얻고, 뿌듯함에 보답 드릴 수 있어 다시 한번 감사의 마음드립니다고객님의 소중한 시간에 저희가 함께 할 것을 약속하겠니, 자주 뵙고


user >>  배달이 많이 늦었는데 맛은 있었어요!


bot >>  wg님, 안녕하세요.일단 죄송하다는 말씀 먼저 드립니다 저희를 믿고 와주신 귀한 발걸음에 큰 불편함을 느끼셨을 것을 합니다. 기사님의 정확한 배차 지연에 대한 부분도 확인해 보니, 동일한 이슈가 발생하지 않도록 매장에서 꼼꼼하게 확인하고 전달 드릴 수 있도록 하겠습니다. 문제가 있으시다면 언제든 피드백 부탁드릴게요,저희가 고객님을 최우선으로 생각하며 화이팅 하는 모습을 보이겠습니다고객님이 항상 행복하시길 바라며 늘 건강 조심 하십시


user >>  맛있어요.


bot >>  소중한 리뷰 감사합니다혹시 오돌뼈에 무슨 문제가 있었나요 이사이 있으면 바로 전화 주시지여 이런 일이 또 생기면 연락 안 하셔도 된답니까 다음번 주문시에는 실수 없도록 최선을 다하겠습니다이사가 되시는 그날까지 꼭 건강하세용 우리 고객님은 늘 행복만 가득하시길 바랍니다. 


user >>  오랜만에 시켰는데 맛이 변했네요


bot >>  주문해 주셔서 감사합니다 맛있게 드셨다니 기분이 좋아지내요.고객님 리뷰 덕에.힘이 납니다.열심히 하겠습니다.감사드려요, 고객님이 편안하시는 내일도 행복하시길 바랄게용! 감기조심 하세요소중한 시간 내어 저희 매장 찾아해주신점 진심으로 감사의 말씀 드리겠습니다고객님의 신뢰에 오늘 하루가 따뜻함과 부드러움이 함께하기를 소망하겠습니다와아, 다음에 또 뵈어요.


user >>  오랜만에 시켰는데 맛이 변했네요.


bot >>  안녕하세요! 주문해주셔서 감사합니다''한번도 안드렸다가 한 번만 드신분은 없답니다.맛있게 잘 먹었다니 너무 감동이다앙항상 맛있을수 있도록 노력하겠습니당찜 꾸욱 눌러주시공청결 세스코에 가입되어 청결을 기하게 되었어영자주 찾아 주세용 꿔바로우에 분모자튀김은 선택이 아니라 필수에욤 저희는 매번 신선한 재료만을 사용하며 찜 서비스를 제공옵니다고객님들


user >>  qwer
