In [3]:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name="gpt2"
model = AutoModelForCausalLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)


In [4]:
train_texts=["เก้าอี้สีขาวทันสมัย","โต๊ะยุคใหม่ สวยงาม","โต๊ะสีดำ ��","ดูดีมาก"]
tokenizer.pad_token = tokenizer.eos_token

train_encodings = tokenizer(train_texts, truncation=True, padding=True,return_tensors="pt").to("cuda")

In [30]:
num_params = sum(p.numel() for p in model.parameters() if p.requires_grad)
print("Number of parameters: %d" % num_params)

Number of parameters: 81912576


GPT2LMHeadModel(
  (transformer): GPT2Model(
    (wte): Embedding(50257, 768)
    (wpe): Embedding(1024, 768)
    (drop): Dropout(p=0.1, inplace=False)
    (h): ModuleList(
      (0-5): 6 x GPT2Block(
        (ln_1): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
        (attn): GPT2Attention(
          (c_attn): Conv1D()
          (c_proj): Conv1D()
          (attn_dropout): Dropout(p=0.1, inplace=False)
          (resid_dropout): Dropout(p=0.1, inplace=False)
        )
        (ln_2): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
        (mlp): GPT2MLP(
          (c_fc): Conv1D()
          (c_proj): Conv1D()
          (act): NewGELUActivation()
          (dropout): Dropout(p=0.1, inplace=False)
        )
      )
    )
    (ln_f): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
  )
  (lm_head): Linear(in_features=768, out_features=50257, bias=False)
)

In [32]:
prompt_text="ขอคำโฆษณาเกี่ยวกับเก้าอี้"
max_length=100
num_samples=10

generated_texts=[]
for _ in range(num_samples):
    input_ids = tokenizer.encode(prompt_text, return_tensors='pt').to(device)
    with torch.no_grad():
        outputs = model.generate(input_ids=input_ids,max_length=max_length,pad_token_id=tokenizer.eos_token_id,num_return_sequences=1,do_sample=True,temperature=0.8)
    generated_texts.append(tokenizer.decode(outputs[0],skip_special_tokens=True))
for i,text in enumerate(generated_texts):
    print(f"Geneated Text #{i+1}: {text}"   )
    

Geneated Text #1: ขอคำโฆษณาเกี่ยวกับเก้าอี้งงสาวกนิงสา็สาวกนิงสา็สาว
Geneated Text #2: ขอคำโฆษณาเกี่ยวกับเก้าอี้าอีาอี้่ยวกาอีาอีาอีาอีาอ
Geneated Text #3: ขอคำโฆษณาเกี่ยวกับเก้าอี้าอีเกี่ยวกับเกี่ยวกับเกี่
Geneated Text #4: ขอคำโฆษณาเกี่ยวกับเก้าอี้าอีสกปงรพาศกาิพอี้าอี้าอี
Geneated Text #5: ขอคำโฆษณาเกี่ยวกับเก้าอี้าอี้าอี้าอี้าอี้าอี้าอี้า
Geneated Text #6: ขอคำโฆษณาเกี่ยวกับเก้าอี้ืกสมกรอวกงงับกะาอี้ิยวกง.

Geneated Text #7: ขอคำโฆษณาเกี่ยวกับเก้าอี้ยอนพเธุกพสริ้ยอนพพเกับบวก
Geneated Text #8: ขอคำโฆษณาเกี่ยวกับเก้าอี้า จสารปมอะหกอ้าลซบลงาิะรย�
Geneated Text #9: ขอคำโฆษณาเกี่ยวกับเก้าอีู้รจยวกอี้าอีิามามามาอีิาม
Geneated Text #10: ขอคำโฆษณาเกี่ยวกับเก้าอี้าอง่ยวกับเกี่ยวกับเกี่ยวก


In [54]:
train_texts=["เก้าอี้สีขาวทันสมัย","โต๊ะยุคใหม่ สวยงาม","โต๊ะสีดำ ��","ดูดีมาก"]
tokenizer.pad_token = tokenizer.eos_token

train_encodings = tokenizer(train_texts, truncation=True, padding=True,return_tensors="pt").to("cuda")

optmizer = torch.optim.AdamW(model.parameters(), lr=5e-5)
model.train()
loss_default=10
for epoch in range(1):
    outputs = model(**train_encodings, labels=train_encodings.input_ids)
    loss = outputs.loss
    loss.backward()
    optmizer.step()
    optmizer.zero_grad()
    print(f"Loss after epoch {epoch+1}: {loss.item()}")
    if loss.item()<loss_default:
        loss_default=loss.item()
        output_dir = "./model_save"
        model.save_pretrained(output_dir)
        tokenizer.save_pretrained(output_dir)
    

RuntimeError: Expected all tensors to be on the same device, but found at least two devices, cpu and cuda:0! (when checking argument for argument index in method wrapper_CUDA__index_select)

In [39]:
import argparse
 
parser = argparse.ArgumentParser()
parser.add_argument('-n', '--name', default="เก้าอี้",type=str, help='Product')
 
args = parser.parse_args()

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

output_dir="./model_save"
tokenizer = AutoTokenizer.from_pretrained(output_dir)
model = AutoModelForCausalLM.from_pretrained(output_dir)
device = torch.device("cuda")
model.to("cuda")
#prompt_text="โฆษษาเกี่ยวกับ"
prompt_text=f"{args.name}"
max_length=500
num_samples=5
#want to use output as input
generated_texts=[]
for _ in range(num_samples):
    input_ids = tokenizer.encode(prompt_text, return_tensors='pt').to(device)
    with torch.no_grad():
        outputs = model.generate(input_ids=input_ids,max_length=max_length,pad_token_id=tokenizer.eos_token_id,num_return_sequences=1,do_sample=True,temperature=0.8)
    text_output=tokenizer.decode(outputs[0],skip_special_tokens=True)
    generated_texts.append(text_output)
    prompt_text=text_output
for text in generated_texts:
    print(text,end="")
    
    
    


Geneated Text #1: โฆษษาเกี่ยวกับเก้าอี้นยสีวยี้ม มัสยยชีสหม สยยนสม 
Geneated Text #2: โฆษษาเกี่ยวกับเก้าอี้นต้ายามสัาวยมัยยวยยยสง с ��
Geneated Text #3: โฆษษาเกี่ยวกับเก้าอี้ยงสยสยางกวหยวสัยมี้อนยดยอมสาห
Geneated Text #4: โฆษษาเกี่ยวกับเก้าอีู้ยามีวสสยสยายดยนัยหาม ยืู ใสวั
Geneated Text #5: โฆษษาเกี่ยวกับเก้าอี้ะวยสันยสาหาสสสมวยยา


In [9]:
import pandas as pd
%cd dataset
df1=pd.read_csv("alldataikea.csv")
df1 = df1[['advert']]
df1 = df1.rename(columns={'advert': 'text'})
df2=pd.read_csv("Bedroom.csv")
df2 = df2[['Field2']]
df2 = df2.rename(columns={'Field2': 'text'})
df3=pd.read_csv("Category _ Mood and Tone Furniture _ Bangkok Online Furniture _ Custom Furniture _ รับผลิตเฟอร์นิเจอ.csv")
df3 = df3[['Field2']]
df3 = df3.rename(columns={'Field2': 'text'})
df4=pd.read_csv("storage.csv")
df4 = df4[['Field2']]
df4= df4.rename(columns={'Field2': 'text'})
df5=pd.read_csv("เฟอร์นิเจอร์ — Thailandoutdoorshop.csv")
df5 = df5[['Field1']]
df5= df5.rename(columns={'Field1': 'text'})
df6=pd.read_csv("วันนี้มีดีลเด็ด รอคุณอยู่ ว.csv")
df6 = df6[['Field2']]
df6= df6.rename(columns={'Field2': 'text'})
df7=pd.read_csv("สินค้า - PROMA.csv")
df7= df7[['Field2']]
df7= df7.rename(columns={'Field2': 'text'})
df8 =pd.read_csv("สินค้าทั้งหมด - HomeStudio.csv")
df8=df8[['Field1']]
df8= df8.rename(columns={'Field1': 'text'})
df9 =pd.read_csv("สินค้าทั้งหมด - HomeStudio(1).csv")
df9=df9[['Field1']]
df9= df9.rename(columns={'Field1': 'text'})
#merge all data to one dataframe
df=pd.concat([df1,df2,df3,df4,df5,df6,df7,df8,df9],ignore_index=True)
df=df.dropna()
df=df.drop_duplicates()
#df=df.sample(frac=1).reset_index(drop=True)
df.to_csv("all_data.csv",index=False)



[WinError 2] The system cannot find the file specified: 'dataset'
d:\KMITL\KeyToAd\dataset


In [17]:
import pandas as pd
df = pd.read_csv("all_data.csv")
df= df.rename(columns={'text': 'output'})
#crate input column with ""
df['input'] = ""
df['instruction'] = "สร้างประโยคโฆษณาเกี่ยวกับเฟอร์นิเจอร์"
text_col=[]
for _,row in df.iterrows():
    prompt ="Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request."
    instruction = str(row['instruction'])
    input_query = str(row['input'])
    response = str(row['output'])
    text = f"{prompt} ### Instruction:\n{instruction} \n###Response:\n {response}"
    
    text_col.append(text)
df.loc[:,'text']=text_col
print(df.head())
df.to_csv("../train.csv",index=False)

                                              output input  \
0  มีป้ายกำกับหน้าลิ้นชักแต่ละช่อง เพื่อความเรียบ...         
1  เป็นทุกอย่างที่คุณต้องการสำหรับเก็บของให้เป็นร...         
2  ตู้ลิ้นชัก NORDLI/นูร์ดลี ที่คุณออกแบบได้ตามต้...         
3             ล้อเลื่อนช่วยให้เคลื่อนย้ายตู้ได้สะดวก         
4  รับประกันนาน 10 ปี อ่านเงื่อนไขการรับประกันได้...         

                             instruction  \
0  สร้างประโยคโฆษณาเกี่ยวกับเฟอร์นิเจอร์   
1  สร้างประโยคโฆษณาเกี่ยวกับเฟอร์นิเจอร์   
2  สร้างประโยคโฆษณาเกี่ยวกับเฟอร์นิเจอร์   
3  สร้างประโยคโฆษณาเกี่ยวกับเฟอร์นิเจอร์   
4  สร้างประโยคโฆษณาเกี่ยวกับเฟอร์นิเจอร์   

                                                text  
0  Below is an instruction that describes a task,...  
1  Below is an instruction that describes a task,...  
2  Below is an instruction that describes a task,...  
3  Below is an instruction that describes a task,...  
4  Below is an instruction that describes a task,...  
