# 리뷰데이터 준비

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
import pandas as pd
import numpy as np
import torch
from tqdm.auto import tqdm
import random
import os

def reset_seeds(seed):
    random.seed(seed)
    os.environ['PYTHONHASHSEED'] = str(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)
    torch.backends.cudnn.deterministic = True

DATA_PATH = "/content/drive/MyDrive/멀티캠퍼스 자료/Machine Learning/data/"
SEED = 42

device = 'cuda' if torch.cuda.is_available() else 'cpu'
device

'cuda'

In [3]:
train_yogiyo = pd.read_csv(f'{DATA_PATH}yogiyo_reviews_jsi.csv')
train_playstore = pd.read_csv(f'{DATA_PATH}playstore_df.csv')

In [4]:
train_yogiyo.head(40)

Unnamed: 0,고객리뷰,별점,맛별점,양별점,배달별점,사장댓글
0,맛있게 잘먹었습니다. 번창하세요^^,5,5,5,5.0,이쁜 리뷰 감사합니다❤❤❤❤ \n어디에서 이런 가격대비 양 빠른 배달 어디있을까요?...
1,배달해서 먹어도 맛있어요^^♡,5,5,5,5.0,이쁜 리뷰 감사합니다❤❤❤❤ \n고객님께서 저희 알촌을 찾아주셔서 너무 기쁩니다 ㅎ...
2,배달 무척 빠르네요! 맛있게 잘 먹었습니다,4,4,4,5.0,이쁜 리뷰 감사합니다❤❤❤❤ \n고객님 오늘도 이쁜리뷰 감사합니다^_^\n싸다!!...
3,맛있게 먹었습니다,5,5,5,5.0,이쁜 리뷰 감사합니다❤❤❤❤\n가성비 1등 알촌 충북대점을 찾아주셔서 감사합니다^_...
4,맛나게 잘먹었습니다,5,5,5,5.0,이쁜 리뷰 감사합니다❤❤❤❤\n오늘도 저희 알촌을 찾아주셔서 감사드립니다.\n고객님...
5,맛있게 잘 먹었습니다,5,5,5,5.0,이쁜 리뷰 감사합니다❤❤❤❤\n고객님 너무 맛있게 드셨다니 감사합니다 ㅎㅎ\n앞으로...
6,맛있어요,5,5,5,5.0,이쁜 리뷰 감사합니다❤❤❤❤\n알촌 충북대점을 찾아주셔서 감사합니다^_^\n항상 찾...
7,맛있게 잘먹었습니다,5,5,5,5.0,이쁜 리뷰 감사합니다❤❤❤❤ \n어디에서 이런 가격대비 양 빠른 배달 어디있을까요?...
8,간장요리에감칠맛을 살려주세요,5,5,5,5.0,이쁜 리뷰 감사합니다❤❤❤❤ \n고객님께서 저희 알촌을 찾아주셔서 너무 기쁩니다 ㅎ...
9,뭘 시켜봐도 맛없는 메뉴가 없네요. 언제나 감동입니다 👍 👍 👍 👍 👍,5,5,5,5.0,이쁜 리뷰 감사합니다❤❤❤❤\n오늘도 저희 알촌 충북대점을 찾아주셔서 감사합니다^_...


In [5]:
train_playstore.head(40)

Unnamed: 0,content,score,replyContent
0,쿠폰ㅋㅋㅋㅋㅋㅋ 추가) 다른 분이 언급했듯 배민1 쿠폰과 일반 쿠폰 혼재에 따른 편...,2,"o Dan님,\n\n안녕하세요. 배달의민족입니다.\n혹시 이용에 불편함이나, 만족스..."
1,이벤트도 배달앱 중 가장 다양한것같고 돈도 잘 버는만큼 잘 퍼주는 앱 이었던것,2,"문상화님,\n\n안녕하세요. 배달의민족입니다.\n배달의민족 이용 후 좋다고 말씀해주..."
2,이제 한집배달에만 쿠폰주고 점점 망해가는거 같네요,1,"풍기도리님,\n\n안녕하세요. 배달의민족입니다.\n할인 혜택이 부족하여 아쉬움을 드..."
3,"아니 월간쿠폰북에는 배민1, 배달 이래적혀져있는데 쿠폰을한번더눌러보면 알뜰배달, 배...",1,"롤린이배린이 (롤배그올리는채널)님,\n\n안녕하세요. 배달의민족입니다.\n혜택 부족..."
4,좋아요!!,5,"꼬냑소년님,\n\n안녕하세요. 배달의민족입니다.\n배달의민족 서비스 이용에 만족하신..."
5,배달비가 너무 올라서 최대한 아껴보고자 배민1로 알뜰배달로 주문하거나 할인쿠폰들을 ...,1,"김수하님,\n\n안녕하세요. 배달의민족입니다.\n이용 시 불편을 드린 것 같아 마음..."
6,응.,5,"bling Bin님,\n\n안녕하세요. 배달의민족입니다.\n고객님의 소중한 리뷰 감..."
7,갑자기 어플이 안 들어가지는데 무슨 이유죠,3,"임종엽님,\n\n안녕하세요. 배달의민족입니다.\n앱 이용 시 불편을 드린 것 같아 ..."
8,"헐 배민1쿠폰은 쓸곳이 없는데 왜자꾸 준다고 난리난리이며, 8월 등급혜택쿠폰 쓰려다...",1,"최최님,\n\n안녕하세요. 배달의민족입니다.\n할인 혜택이 부족하여 아쉬움을 드린 ..."
9,처음설치해서쓰려는데 주소입력자체가안됨,1,"Jenny kim님,\n\n안녕하세요. 배달의민족입니다.\n앱 이용 시 불편을 드린..."


In [6]:
new_columns = ['review','owner_reply']


In [7]:
cols = ['고객리뷰','사장댓글']
yogiyo = train_yogiyo[cols]
yogiyo.columns=new_columns


In [8]:
cols = ['content','replyContent']
playstore = train_playstore[cols]
playstore.columns=new_columns


## 데이터 합치기 (whole? random?)

- 전체를 한번에 붙이기

In [9]:
result_df = pd.concat([yogiyo,playstore], axis=0)
result_df

Unnamed: 0,review,owner_reply
0,맛있게 잘먹었습니다. 번창하세요^^,이쁜 리뷰 감사합니다❤❤❤❤ \n어디에서 이런 가격대비 양 빠른 배달 어디있을까요?...
1,배달해서 먹어도 맛있어요^^♡,이쁜 리뷰 감사합니다❤❤❤❤ \n고객님께서 저희 알촌을 찾아주셔서 너무 기쁩니다 ㅎ...
2,배달 무척 빠르네요! 맛있게 잘 먹었습니다,이쁜 리뷰 감사합니다❤❤❤❤ \n고객님 오늘도 이쁜리뷰 감사합니다^_^\n싸다!!...
3,맛있게 먹었습니다,이쁜 리뷰 감사합니다❤❤❤❤\n가성비 1등 알촌 충북대점을 찾아주셔서 감사합니다^_...
4,맛나게 잘먹었습니다,이쁜 리뷰 감사합니다❤❤❤❤\n오늘도 저희 알촌을 찾아주셔서 감사드립니다.\n고객님...
...,...,...
103645,통신이 아예 안 되네요 4g는 빵빵 터지는데,안녕하세요. 배달의민족 입니다. 네트워크 문제로 불편을 드려 죄송합니다.\n\n배달...
103646,배달의 민족 초반때부터 사용했었는데 예전이 오히려 나은거 같아요 위치설정도 왔다리갔...,오랜 시간 보내주신 사랑을 먹고 무럭무럭 성장하고 있는 배달의민족 입니다. \n\n...
103647,가끔 와파떠잇는데 와파잡아야댄다고안들어가저요ㅡㅡ,와아파이 잡아야서 얼른 주문해야 되는데 계속 물어봐서 짜증나셨죠. 네트워크 오류가 ...
103648,어쩌라는거야.. 서울에서 안산까지 배달해줌ㅡㅡ?,안녕하세요 전국구 배달어플 배달의민족 입니다. 안산에서 서울의 업소정보를 보게 되셨...


In [10]:
yogiyo.shape, playstore.shape, result_df.shape

((3965, 2), (103650, 2), (107615, 2))

- 업체별로 붙이기

- 랜덤으로 섞기

In [11]:
shuffled_df = result_df.sample(frac=1, random_state=42)  # frac=1은 모든 행을 선택, random_state는 재현 가능한 랜덤 설정
sample_df = shuffled_df.iloc[:1000]
sample_df.shape

(1000, 2)

## 데이터 정제하기
- 정규표현식

In [12]:
result_df['review'] = result_df['review'].str.replace("[^a-zA-Z가-힣0-9 .,!?\'\"]" , "",regex=True) #포함 안된것들은 다 지우기
result_df['owner_reply'] = result_df['owner_reply'].str.replace("[^a-zA-Z가-힣0-9 .,!?\'\"]" , "",regex=True)

result_df

Unnamed: 0,review,owner_reply
0,맛있게 잘먹었습니다. 번창하세요,이쁜 리뷰 감사합니다 어디에서 이런 가격대비 양 빠른 배달 어디있을까요?앞으로 더 ...
1,배달해서 먹어도 맛있어요,이쁜 리뷰 감사합니다 고객님께서 저희 알촌을 찾아주셔서 너무 기쁩니다 항상 신선한 ...
2,배달 무척 빠르네요! 맛있게 잘 먹었습니다,이쁜 리뷰 감사합니다 고객님 오늘도 이쁜리뷰 감사합니다싸다!!! 빠르다!!!맛있다...
3,맛있게 먹었습니다,이쁜 리뷰 감사합니다가성비 1등 알촌 충북대점을 찾아주셔서 감사합니다앞으로도 초심일...
4,맛나게 잘먹었습니다,이쁜 리뷰 감사합니다오늘도 저희 알촌을 찾아주셔서 감사드립니다.고객님의 즐거운 식사...
...,...,...
103645,통신이 아예 안 되네요 4g는 빵빵 터지는데,안녕하세요. 배달의민족 입니다. 네트워크 문제로 불편을 드려 죄송합니다.배달의민족은...
103646,배달의 민족 초반때부터 사용했었는데 예전이 오히려 나은거 같아요 위치설정도 왔다리갔...,오랜 시간 보내주신 사랑을 먹고 무럭무럭 성장하고 있는 배달의민족 입니다. 업소정보...
103647,가끔 와파떠잇는데 와파잡아야댄다고안들어가저요,와아파이 잡아야서 얼른 주문해야 되는데 계속 물어봐서 짜증나셨죠. 네트워크 오류가 ...
103648,어쩌라는거야.. 서울에서 안산까지 배달해줌?,안녕하세요 전국구 배달어플 배달의민족 입니다. 안산에서 서울의 업소정보를 보게 되셨...


## Text Generator (16)
- 탐욕적 학습 / 확률적 학습 (O)

# 생성 AI 모델링

1. 데이터 정제 -> 리뷰, 답변 텍스트 마련
2. 텍스트를 토큰화하기 -> 각 토큰을 숫자로 맵핑 (kiwi or 공백 기준 등)사용
3. 텍스트를 벡터화 하기 -> 숫자 맵핑을 벡터화 (예: Word2Vec, FastText, BERT 등의 임베딩 사용)
4. 리뷰 데이터셋과 답변 데이터 셋을 묶어서 batch단위로 : 데이터 셋, 데이터 로더로 만들기
5. 모델 학습 -> 리뷰 데이터(train), 답변 데이터(target)을 모델로 학습 (LSTM, Seq2Seq, GPT,Bert, 사전학습모델 등)
6. 모델 평가 -> 문맥/키워드 등 예측 결과를 평가 지표를 사용하여 평가 (예: BLEU, ROUGE 등)
7. 답변 최종 생성

## 1 ) Text Generator 형태

### 텍스트를 토큰화하기

In [13]:
!pip install kiwipiepy

Collecting kiwipiepy
  Downloading kiwipiepy-0.15.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (2.5 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.5/2.5 MB[0m [31m28.7 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting dataclasses (from kiwipiepy)
  Downloading dataclasses-0.6-py3-none-any.whl (14 kB)
Collecting kiwipiepy-model~=0.15 (from kiwipiepy)
  Downloading kiwipiepy_model-0.15.0.tar.gz (30.5 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m30.5/30.5 MB[0m [31m22.7 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: kiwipiepy-model
  Building wheel for kiwipiepy-model (setup.py) ... [?25l[?25hdone
  Created wheel for kiwipiepy-model: filename=kiwipiepy_model-0.15.0-py3-none-any.whl size=30602628 sha256=7a24d1acf9fc90174ac43d010b957741531e65029465569facef9db2fa5d89b3
  Stored in directory: /root/.cache/pip/wheels/f3/55/41/ca474338ece1bc4314b0144

In [14]:
sentence_list = [sentence for sentence in result_df['review']]

In [15]:
from kiwipiepy import Kiwi
import torch

# Kiwi 형태소 분석기 초기화
kiwi = Kiwi()

# 문장 토큰화 함수 정의
def tokenize_korean(text):
    tokens = kiwi.analyze(text)[0][0]
    return [token[0] for token in tokens]

# 예시 문장


sentence = sentence_list[10]

# 토큰화 및 숫자 맵핑
tokens = tokenize_korean(sentence)
vocab = {'<PAD>': 0, '<UNK>': 1}
numeric_tokens = [vocab[token] if token in vocab else vocab['<UNK>'] for token in tokens]

# 텐서로 변환
tensor_tokens = torch.tensor(numeric_tokens)
print("Original Sentence:", sentence)
print("Tokenized Tokens:", tokens)
print("Numeric Tokens:", numeric_tokens)
print("Tensor Tokens:", tensor_tokens)

Original Sentence: 기니미소 알밥이랑 제육알밥으로 갔고 오밥이랑 제육알밥이 제일 좋아요수고하세용
Tokenized Tokens: ['기니미소', '알', '밥', '이랑', '제육', '알', '밥', '으로', '가', '었', '고', '오', '밥', '이랑', '제육', '알', '밥', '이', '제일', '좋', '어요', '수고', '하', '세요', 'ᆼ']
Numeric Tokens: [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
Tensor Tokens: tensor([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1])


In [16]:
result_df['review']

0                                         맛있게 잘먹었습니다. 번창하세요
1                                             배달해서 먹어도 맛있어요
2                                  배달 무척 빠르네요!  맛있게 잘 먹었습니다
3                                                 맛있게 먹었습니다
4                                                맛나게 잘먹었습니다
                                ...                        
103645                             통신이 아예 안 되네요 4g는 빵빵 터지는데
103646    배달의 민족 초반때부터 사용했었는데 예전이 오히려 나은거 같아요 위치설정도 왔다리갔...
103647                             가끔 와파떠잇는데 와파잡아야댄다고안들어가저요
103648                             어쩌라는거야.. 서울에서 안산까지 배달해줌?
103649                                         진짜맛없음돈받고광고하나
Name: review, Length: 107615, dtype: object

In [17]:
text = result_df['review']
text

0                                         맛있게 잘먹었습니다. 번창하세요
1                                             배달해서 먹어도 맛있어요
2                                  배달 무척 빠르네요!  맛있게 잘 먹었습니다
3                                                 맛있게 먹었습니다
4                                                맛나게 잘먹었습니다
                                ...                        
103645                             통신이 아예 안 되네요 4g는 빵빵 터지는데
103646    배달의 민족 초반때부터 사용했었는데 예전이 오히려 나은거 같아요 위치설정도 왔다리갔...
103647                             가끔 와파떠잇는데 와파잡아야댄다고안들어가저요
103648                             어쩌라는거야.. 서울에서 안산까지 배달해줌?
103649                                         진짜맛없음돈받고광고하나
Name: review, Length: 107615, dtype: object

## 2 ) ChatBot 형태

### KoGPT

In [18]:
!pip install transformers

Collecting transformers
  Downloading transformers-4.31.0-py3-none-any.whl (7.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.4/7.4 MB[0m [31m16.0 MB/s[0m eta [36m0:00:00[0m
Collecting huggingface-hub<1.0,>=0.14.1 (from transformers)
  Downloading huggingface_hub-0.16.4-py3-none-any.whl (268 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m268.8/268.8 kB[0m [31m29.8 MB/s[0m eta [36m0:00:00[0m
Collecting tokenizers!=0.11.3,<0.14,>=0.11.1 (from transformers)
  Downloading tokenizers-0.13.3-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (7.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.8/7.8 MB[0m [31m41.4 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting safetensors>=0.3.1 (from transformers)
  Downloading safetensors-0.3.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.3/1.3 MB[0m [31m50.5 MB/s[0m eta [36m0:00:0

In [19]:
result_df

Unnamed: 0,review,owner_reply
0,맛있게 잘먹었습니다. 번창하세요,이쁜 리뷰 감사합니다 어디에서 이런 가격대비 양 빠른 배달 어디있을까요?앞으로 더 ...
1,배달해서 먹어도 맛있어요,이쁜 리뷰 감사합니다 고객님께서 저희 알촌을 찾아주셔서 너무 기쁩니다 항상 신선한 ...
2,배달 무척 빠르네요! 맛있게 잘 먹었습니다,이쁜 리뷰 감사합니다 고객님 오늘도 이쁜리뷰 감사합니다싸다!!! 빠르다!!!맛있다...
3,맛있게 먹었습니다,이쁜 리뷰 감사합니다가성비 1등 알촌 충북대점을 찾아주셔서 감사합니다앞으로도 초심일...
4,맛나게 잘먹었습니다,이쁜 리뷰 감사합니다오늘도 저희 알촌을 찾아주셔서 감사드립니다.고객님의 즐거운 식사...
...,...,...
103645,통신이 아예 안 되네요 4g는 빵빵 터지는데,안녕하세요. 배달의민족 입니다. 네트워크 문제로 불편을 드려 죄송합니다.배달의민족은...
103646,배달의 민족 초반때부터 사용했었는데 예전이 오히려 나은거 같아요 위치설정도 왔다리갔...,오랜 시간 보내주신 사랑을 먹고 무럭무럭 성장하고 있는 배달의민족 입니다. 업소정보...
103647,가끔 와파떠잇는데 와파잡아야댄다고안들어가저요,와아파이 잡아야서 얼른 주문해야 되는데 계속 물어봐서 짜증나셨죠. 네트워크 오류가 ...
103648,어쩌라는거야.. 서울에서 안산까지 배달해줌?,안녕하세요 전국구 배달어플 배달의민족 입니다. 안산에서 서울의 업소정보를 보게 되셨...


In [20]:
sample_df

Unnamed: 0,review,owner_reply
87733,강남구 도곡동은 되는데 왜 개포동은 안될까요ㅠㅠ 도곡에서 개포동까지 걸어서 5분도 ...,고객님 안녕하세요. 대한민국 1등배달어플 배달의민족입니다.^ ^늘 저희 배달의민족을...
66422,배민 좋아요,sungmin oh 고객님\n\n저희도 고객님 좋아요..♥ 우리 배달의민족을 좋아해...
4088,다 좋은데 먹고싶은 메뉴 검색할 땐 여러지점이 나오는데 카테고리에 들어가서 보면 그...,"고양이님,\n\n안녕하세요. 배달의민족입니다.\n서비스 이용 시 큰 만족을 드리지 ..."
2888,또시킬게요~~,자주 주문해주서서 \n감사 합니당 고객님 🥰\n항상 저희 봄봄의 메뉴에 만족하시는거...
69346,배달 어플 굿 너무 잘쓰고 있서요,"안녕하세요. 대한민국 1등 배달 앱, 배달의민족 입니다.\n배달의민족 서비스 이용에..."
...,...,...
48625,배민쿠폰을 라이더스에서 이용하지 못해 아쉽네요. 주문은 거의 라이더스 아닌가요? 있...,"고객님,\n\n안녕하세요. 배달의민족 입니다.\n배달의민족에 많은 관심을 가져주시고..."
38514,좋아요,꾸리방구님 \n\n안녕하세요. 배달의민족 입니다.\n배달의민족 이용 후 좋다고 말씀...
88089,문상결제 안없어졌으면좋겠어요 여기가 유일한데 ㅠㅠ,전용민 고객님 안녕하세요. 대한민국 1등배달어플 배달의민족입니다.^ ^늘 저희 배달...
45993,쿠폰이많았으면좋겠어요,"최경미님,\n\n안녕하세요. 배달의민족 입니다.\n배달의민족에 많은 관심을 가져주시..."


In [21]:
model_name = "skt/kogpt2-base-v2"

In [22]:
from transformers import AutoTokenizer, AutoModelForCausalLM

In [23]:
model = AutoModelForCausalLM.from_pretrained(model_name)

Downloading (…)lve/main/config.json:   0%|          | 0.00/1.00k [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/513M [00:00<?, ?B/s]

In [24]:
tokenizer = AutoTokenizer.from_pretrained(model_name,
                                          bos_token='</s>',
                                          eos_token='</s>',
                                          unk_token='<unk>',
                                          pad_token='<pad>',
                                          mask_token='<mask>',
                                          max_len=1024)

Downloading (…)/main/tokenizer.json:   0%|          | 0.00/2.83M [00:00<?, ?B/s]

In [25]:
# tokenizer.tokenize("오늘 저녁 뭐 먹을래?")

In [26]:
# tokenizer.eos_token_id

- generate 메서드 사용해보기

In [27]:
# sentence_list = [sentence for sentence in result_df['review']]
# sentence = sentence_list[10]

In [28]:
# sentence

In [29]:
# text = sentence
# input_ids = tokenizer.encode(text, return_tensors="pt")
# input_ids

In [30]:
# result_ids = model.generate(input_ids,
#                             max_length=128, # 생성 최대 길이
#                             repetition_penalty=2.0, # 반복 토큰 생성에 대한 페널티, 1보다 큰수를 줘야함.
#                             use_cache=True,# 빠른 추론을 위한 캐시 여부
#                             do_sample=True,
#                             temperature= 2.0, # 소프트맥스 온도
#                             top_k = 10
#                             )

In [31]:
# result = tokenizer.decode(result_ids[0])
# print(result)

- 데이터셋 만들기

In [32]:
sample_df = shuffled_df.iloc[:100]
sample_df.shape

(100, 2)

In [33]:
class ChatDataset(torch.utils.data.Dataset):
    def __init__(self,df):
        self.question = df["review"].tolist()
        self.answer = df["owner_reply"].tolist()
    def __len__(self):
        return len(self.question)

    def __getitem__(self,idx):
        return "<q>" + self.question[idx] + "</s><a>" + self.answer[idx] + "</s>"

In [34]:
def collate_fn(batch):
    x = tokenizer(batch, return_tensors="pt",padding=True)
    return {"x":x}

In [35]:
dt = ChatDataset(sample_df)
dl = torch.utils.data.DataLoader(dt,batch_size=2,collate_fn=collate_fn)
batch = next(iter(dl))
batch

{'x': {'input_ids': tensor([[ 9724,   455,   405, 43896,  6919,  9095,  6890, 12437, 22108, 10401,
           9086,  8658, 12437,  9183,  7253,  6969,  8084,   216,  9095,  6890,
           9023,  9086,  8658,  7244,  9168,  9539, 10247, 50530,  7235,  9183,
          18981,  9208,  7586, 10662,  7208, 16794,  8217, 12376, 10108,  8236,
           7801,  8084,  9705,   739, 23971, 15495, 22386,  9122, 19104,  9108,
            739,  8715,  7621,  6853,  9784,  7098,  8030,  9705,   594,   595,
            595,     1,  9724,   439,   405, 17371,  7177, 25906,  8702,  7801,
          25856, 12767, 29457,  7609,  7187,  8006,  8690,  9208, 26028, 12247,
          21154,   436,   739,   436,  7163,  9265,  8806,  9208, 26028, 12247,
           8137,  9050,  6996,  8236,  7810,  7788, 29205, 15940, 37194, 10903,
           9882, 11738,  8530,  6903, 28881, 42625,  9025, 10517, 12086, 47374,
           9208, 26028, 12247,  8146,  9069,  6872, 16691, 22852, 10939,  9216,
           8400,  870

In [36]:
model(**batch["x"]).logits.shape

torch.Size([2, 169, 51200])

In [37]:
tokenizer.pad_token_id

3

In [38]:
def train_loop(dataloader,model,loss_fn,optimizer,device):
    epoch_loss = 0
    model.train()
    for batch in tqdm(dataloader):
        x = batch["x"].to(device)
        pred = model(**x).logits
        n_class = pred.shape[-1]
        pred = pred[:,:-1]
        pred = pred.reshape(-1,n_class)

        tgt = x["input_ids"][:,1:]
        tgt = tgt.flatten()

        mask = tgt != 3
        tgt = tgt[mask]
        pred = pred[mask]
        loss = loss_fn(pred,tgt)

        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

        epoch_loss += loss.item()

    epoch_loss /= len(dataloader)

    return epoch_loss

In [39]:
batch_size = 2
loss_fn = torch.nn.CrossEntropyLoss()
epochs = 10

In [43]:
reset_seeds(SEED)

model = AutoModelForCausalLM.from_pretrained(model_name).to(device)
optimizer = torch.optim.Adam(model.parameters(),lr=3e-5)

train_dt = ChatDataset(sample_df)
train_dl = torch.utils.data.DataLoader(train_dt, batch_size=batch_size, shuffle=True, collate_fn=collate_fn)

for _ in tqdm(range(epochs)):
    train_loss = train_loop(train_dl, model, loss_fn, optimizer, device)
    print(train_loss)

  0%|          | 0/50 [00:00<?, ?it/s]

2.8563929986953736


  0%|          | 0/50 [00:00<?, ?it/s]

1.6917479157447814


  0%|          | 0/50 [00:00<?, ?it/s]

KeyboardInterrupt: ignored

In [None]:
model.save_pretrained(f"{DATA_PATH}kogpt2_chat")

In [None]:
@torch.no_grad()
def chatbot(model,tokenizer,max_len,device):
    model.eval()
    while True:
        text = input("user > ").strip()
        if text == "quit":
            break

        add_text = ""
        while True:
            text = "<q>" + text + "</s><a>" + add_text
            x = tokenizer.encode(text,return_tensors="pt").to(device) # batch, seq
            pred = model(x).logits # batch,seq, 토큰별예측값
            n = pred[0,-1].argmax().item() # 예측 토큰 번호
            if n == 1 or max_len < len(add_text):
                break
            add_text += tokenizer.convert_ids_to_tokens(n).replace("▁"," ")

        print("bot > ", add_text)

In [None]:
chatbot(model,tokenizer,128,device)

In [None]:
@torch.no_grad()
def chatbot(model,tokenizer,max_len,device):
    model.eval()
    while True:
        text = input("user > ").strip()
        if text == "quit":
            break
        text = "<q>" + text + "</s><a>"
        x = tokenizer.encode(text,return_tensors="pt").to(device) # batch, seq
        result_ids = model.generate(x,
                            max_length=max_len, # 생성 최대 길이
                            repetition_penalty=2.0, # 반복 토큰 생성에 대한 페널티, 1보다 큰수를 줘야함.
                            use_cache=True,# 빠른 추론을 위한 캐시 여부
                            do_sample=False,
                            temperature= 2.0, # 소프트맥스 온도
                            top_k = 50
                            )
        q_len = len(text) + 1
        text = tokenizer.decode(result_ids[0])

        print("bot > ", text[q_len:-4])

In [None]:
chatbot(model,tokenizer,128,device)

In [None]:
df

Unnamed: 0,question,answer
0,죽을거 같네,나쁜 생각 하지 마세요.
1,내일 시험이야,컨디션 조절 하세요.
2,정말.내 자신이 싫다,자신은 사랑해주세요.
3,이별후 네달째,바쁘게 살면서 잊어가요.
4,쌍커풀 해볼까,눈은 기본이죠.
...,...,...
11818,좋아했지만 고백은 못하겠어.,애틋한 사랑이네요.
11819,화장실!!,화장실 가세요.
11820,6개월이 지나도 왜이런거죠?,물리적 시간에 비례하지 않으니까요.
11821,내가 제일 문제인 듯,당신은 하나밖에 없는 소중한 사람이에요.


TypeError: ignored

In [None]:
chars = sorted(set(text))
len(chars)

In [56]:
import torch


In [55]:
# 데이터셋 클래스 정의
class ReviewResponseDataset(Dataset):
    def __init__(self, data):
        self.data = data

    def __len__(self):
        return len(self.data)

    def __getitem__(self, idx):
        return self.data[idx]['review'], self.data[idx]['response']

In [57]:

def collate_fn_review_response(samples):
    reviews = [sample[0] for sample in samples]  # 샘플에서 리뷰 추출
    responses = [sample[1] for sample in samples]  # 샘플에서 대답 추출

    # 리뷰와 대답을 텐서로 변환하여 반환
    return {
        'reviews': torch.stack(reviews),
        'responses': torch.stack(responses)
    }

In [58]:


def collate_fn_review_response(reviews, responses):
    # 리뷰와 대답을 텐서로 변환하여 반환
    return {
        'reviews': torch.stack(reviews),
        'responses': torch.stack(responses)
    }

# 데이터 로딩
reviews = result_df['review']  # 리뷰 데이터 리스트
responses = result_df['owner_reply']  # 대답 데이터 리스트

# 데이터 로딩에 collate_fn 함수 사용
dataloader = DataLoader(
    list(zip(reviews, responses)),
    batch_size=batch_size,
    shuffle=True,
    collate_fn=lambda batch: collate_fn_review_response(*zip(*batch))
)

In [59]:
batch_size=2

In [60]:
batch = next(iter(dataloader))

TypeError: ignored

### 16. Text Generator 참고

In [44]:
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import Dataset, DataLoader

# 데이터셋 클래스 정의
class ChatDataset(Dataset):
    def __init__(self, reviews, responses):
        self.reviews = reviews
        self.responses = responses

    def __len__(self):
        return len(self.reviews)

    def __getitem__(self, idx):
        return self.reviews[idx], self.responses[idx]

In [None]:
# 데이터 토큰화



In [45]:

# 신경망 모델 정의
class ChatbotModel(nn.Module):
    def __init__(self, vocab_size, embedding_dim, hidden_dim):
        super(ChatbotModel, self).__init__()
        self.embedding = nn.Embedding(vocab_size, embedding_dim)
        self.rnn = nn.LSTM(embedding_dim, hidden_dim, batch_first=True)
        self.fc = nn.Linear(hidden_dim, vocab_size)

    def forward(self, x):
        embedded = self.embedding(x)
        output, _ = self.rnn(embedded)
        output = self.fc(output)
        return output

In [46]:
# 하이퍼파라미터 설정
vocab_size = 10000  # 단어 집합 크기
embedding_dim = 128
hidden_dim = 256
learning_rate = 0.001
batch_size = 64
num_epochs = 10

In [72]:
# 데이터 로딩

reviews = result_df['review'] # 리뷰 데이터
responses =  result_df['owner_reply']  # 대답 데이터
dataset = ChatDataset(reviews, responses)
dataloader = DataLoader(dataset, batch_size=batch_size, shuffle=True)

In [69]:
# 모델 초기화 및 손실 함수, 옵티마이저 설정
model = ChatbotModel(vocab_size, embedding_dim, hidden_dim)
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=learning_rate)


In [90]:
sentence_list = [sentence for sentence in result_df['review']]

sentence = sentence_list[2]
sentence

'배달 무척 빠르네요!  맛있게 잘 먹었습니다'

In [91]:
sentence_list = [sentence for sentence in result_df['review']]

sentence = sentence_list[2]
sentence


import torch
from torchtext.data.utils import get_tokenizer

# 예시 문장
# sentence = "This is an example sentence."

# 토큰화 함수
tokenizer = get_tokenizer('basic_english')
tokens = tokenizer(sentence)

# 각 토큰을 숫자로 매핑 (예시로 단어에 고유한 숫자 매핑)
vocab = {'<PAD>': 0, '<UNK>': 1}
for token in tokens:
    if token not in vocab:
        vocab[token] = len(vocab)

# 토큰들을 숫자 시퀀스로 변환
numeric_tokens = [vocab[token] for token in tokens]

# 텐서로 변환
tensor_tokens = torch.tensor(numeric_tokens)
print(tensor_tokens)

tensor([2, 3, 4, 5, 6, 7, 8])


In [94]:
from transformers import AutoModelForQuestionAnswering, AutoTokenizer
import torch

# 모델 불러오기
model_name = "timpal0l/mdeberta-v3-base-squad2"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForQuestionAnswering.from_pretrained(model_name)

# 문장과 질문 정의
sentence_list = [sentence for sentence in result_df['review']]  # 문장 리스트
sentence_index = 2  # 원하는 문장의 인덱스
sentence = sentence_list[sentence_index]
question = "What is in the sentence?"

# 토큰화 및 숫자화
inputs = tokenizer(question, sentence, return_tensors="pt")
with torch.no_grad():
    start_scores, end_scores = model(**inputs)



In [95]:
inputs

{'input_ids': tensor([[    1,  5127,   340,   282,   288,   260, 98924,   292,     2, 15039,
         12276,  7704, 64085,   260, 24025,  4851, 38646,   310,   260, 35099,
         54198,  2318, 14985, 35915, 76883,     2]]), 'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
         1, 1]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
         1, 1]])}

In [96]:
model(**inputs)

QuestionAnsweringModelOutput(loss=None, start_logits=tensor([[ 0.3912, -2.7071, -6.5642, -5.6980, -5.9088, -7.8547, -4.5312, -5.3338,
         -5.7504, -3.5199, -8.2127, -4.9744, -7.7889, -7.9385, -6.3278, -8.2451,
         -6.4653, -5.2048, -7.0755, -5.4124, -8.3858, -8.5330, -7.0620, -7.2520,
         -8.0397, -7.0205]], grad_fn=<CloneBackward0>), end_logits=tensor([[ 0.6458, -4.0451, -6.0666, -7.7555, -7.3335, -7.2994, -2.4908, -3.4368,
         -6.2251, -7.1733, -3.6592, -6.7095, -6.1772, -7.0613, -7.5184, -5.8354,
         -4.0317, -2.6610, -6.3036, -7.7046, -7.4148, -7.1434, -8.3633, -7.8707,
         -4.1456, -7.2800]], grad_fn=<CloneBackward0>), hidden_states=None, attentions=None)

In [97]:
# 예측된 답변 추출
start_index = torch.argmax(start_scores)
end_index = torch.argmax(end_scores) + 1
answer = tokenizer.convert_tokens_to_string(tokenizer.convert_ids_to_tokens(inputs["input_ids"][0][start_index:end_index]))
print("Original Sentence:", sentence)
print("Question:", question)
print("Answer:", answer)


TypeError: ignored

In [75]:
class ReviewResponseDataset(Dataset):
    def __init__(self, reviews, responses):
        self.reviews = reviews  # 텐서로 변환된 리뷰 리스트
        self.responses = responses  # 텐서로 변환된 대답 리스트

    def __len__(self):
        return len(self.reviews)

    def __getitem__(self, idx):
        return self.reviews[idx], self.responses[idx]

# 데이터 로딩
reviews = result_df['review'] # 리뷰 데이터
responses =  result_df['owner_reply'] # 대답 데이터 리스트 (텐서로 변환되어 있어야 함)

# 데이터셋 생성
dataset = ReviewResponseDataset(reviews, responses)

# 데이터 로더
batch_size = 2
dataloader = DataLoader(dataset, batch_size=batch_size, shuffle=True)

In [77]:
batch = next(iter(dataloader))

TypeError: ignored

In [76]:
# 주어진 collate_fn 함수
def collate_fn_review_response(reviews, responses):
    return {
        'reviews': torch.stack(reviews),
        'responses': torch.stack(responses)
    }

# 데이터 로딩
batch_size = 2
dataloader = DataLoader(
    list(zip(reviews, responses)),
    batch_size=batch_size,
    shuffle=True,
    collate_fn=lambda batch: collate_fn_review_response(*zip(*batch))
)

# 배치를 모델에 전달하여 출력 확인
batch = next(iter(dataloader))
outputs = model(batch['reviews'])  # batch['reviews'] 텐서 사용
print("Model Outputs:")
print(outputs)

TypeError: ignored

In [71]:

# 모델 학습
for epoch in range(num_epochs):
    for inputs, targets in dataloader:
        # optimizer.zero_grad()
        outputs = model(inputs)
        loss = criterion(outputs.view(-1, vocab_size), targets.view(-1))
        loss.backward()
        optimizer.step()

    print(f"Epoch [{epoch+1}/{num_epochs}], Loss: {loss.item():.4f}")

TypeError: ignored

In [50]:

# 대화 생성
def generate_response(input_text):
    model.eval()
    with torch.no_grad():
        input_tokens = tokenize(input_text)  # 텍스트 토큰화 함수 구현 필요
        input_tokens = torch.tensor(input_tokens).unsqueeze(0)
        output_tokens = model(input_tokens)
        # 출력 토큰 중에서 가장 확률이 높은 단어를 선택하여 대답으로 생성


In [86]:


input_text = "안녕하세요"
response = generate_response(input_text)
print(response)


NameError: ignored

## 사전학습 모델
-

In [83]:
!pip install transformers

Collecting transformers
  Downloading transformers-4.31.0-py3-none-any.whl (7.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.4/7.4 MB[0m [31m17.2 MB/s[0m eta [36m0:00:00[0m
Collecting huggingface-hub<1.0,>=0.14.1 (from transformers)
  Downloading huggingface_hub-0.16.4-py3-none-any.whl (268 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m268.8/268.8 kB[0m [31m26.3 MB/s[0m eta [36m0:00:00[0m
Collecting tokenizers!=0.11.3,<0.14,>=0.11.1 (from transformers)
  Downloading tokenizers-0.13.3-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (7.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.8/7.8 MB[0m [31m46.3 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting safetensors>=0.3.1 (from transformers)
  Downloading safetensors-0.3.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.3/1.3 MB[0m [31m60.3 MB/s[0m eta [36m0:00:0

In [84]:
from transformers import AutoTokenizer, AutoModelForQuestionAnswering

# 모델 불러오기
model_name = "timpal0l/mdeberta-v3-base-squad2"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForQuestionAnswering.from_pretrained(model_name)

# 입력 데이터 가공
context = "restaurant"
question = "why is this place too hot?"
inputs = tokenizer(question, context, return_tensors="pt")

# 모델에 입력 데이터 전달하여 예측 수행
outputs = model(**inputs)
start_scores = outputs.start_logits
end_scores = outputs.end_logits

# 예측된 답변 추출
start_index = start_scores.argmax()
end_index = end_scores.argmax()
answer = tokenizer.convert_tokens_to_string(tokenizer.convert_ids_to_tokens(inputs["input_ids"][0][start_index:end_index+1]))
print("Answer:", answer)


Downloading (…)okenizer_config.json:   0%|          | 0.00/453 [00:00<?, ?B/s]

Downloading tokenizer.json:   0%|          | 0.00/16.3M [00:00<?, ?B/s]

Downloading (…)in/added_tokens.json:   0%|          | 0.00/23.0 [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/173 [00:00<?, ?B/s]

Downloading (…)lve/main/config.json:   0%|          | 0.00/879 [00:00<?, ?B/s]

Downloading model.safetensors:   0%|          | 0.00/1.11G [00:00<?, ?B/s]

Answer: [CLS]
