# Dataset

## OASST

In [None]:
from datasets import load_dataset
ds = load_dataset("HuggingFaceH4/oasst1_en")

In [None]:
role_mapping = {
    "user": "human",
    "assistant": "bot"
}
def convert_oassten(row):
    data = []
    for turn in row["messages"]:
        data.append({
            "text": turn["content"],
            "role": role_mapping[turn["role"]]
        })
    return {"conversations": data}

oassten = ds["train_ift"].map(convert_oassten, num_proc=4)

## Dolly

In [None]:
from datasets import load_dataset
ds = load_dataset("HuggingFaceH4/databricks_dolly_15k")
train = ds['train']      # len(train)=84437 (95%)

In [None]:
role_mapping = {
    "user": "human",
    "assistant": "bot"
}
def convert_dolly(row):
    return {"conversations": [
        {
            "role": "human",
            "text": f"{row['instruction']}\n{row['input']}"
        },
        {
            "role": "bot",
            "text": f"{row['output']}"
        }
    ]}

dolly15k = ds['train'].map(convert_dolly, num_proc=4)

## Daily Dialog

In [None]:
from datasets import load_dataset
ds = load_dataset("daily_dialog")

In [None]:
ds["train"][0]

In [None]:
import re
ptn1 = [re.compile("\s+\?"), re.compile("\s+\."), re.compile("\s+!"), re.compile("\s+,"),
        re.compile("\(\s+"), re.compile("\s+\)"),]
ptn2 = re.compile("\s+'\s+")
ptn3 = re.compile("\.")
ptn4 = re.compile("[ ]+")
ptn5 = re.compile("\s+’\s+")

def replacer1(text):
    replace_chars = "?.!,()"
    for i, ptn in enumerate(ptn1):
        text = ptn.sub(replace_chars[i], text)
    return text


def preprocess_dd(text):
    text = replacer1(text)
    text = ptn2.sub("'", text)
    text = ptn3.sub(". ", text)
    text = ptn4.sub(" ", text)
    text = ptn5.sub("’", text)
    text = text.strip()
    return text

print(preprocess_dd("\n".join(ds["train"][0]["dialog"])))

In [None]:
role_mapping = {
    "user": "human",
    "assistant": "bot"
}
def convert_dailydialog(row):
    data = []
    role = "human"
    for line in row["dialog"]:
        data.append(
            {
            "role": role,
            "text": preprocess_dd(line.strip())
            }
        )
        if role == "human":
            role = "bot"
        else:
            role = "human"
    return {"conversations": data}
        

dailydialog = ds['train'].map(convert_dailydialog, num_proc=4)

In [None]:
dailydialog[0]

In [None]:
2600/24 * 16

## Merge

In [None]:
import json 

data = oassten["conversations"] + dolly15k["conversations"]

with open("data/oassten_dolly.json", "w") as f:
    json.dump(data, f, ensure_ascii=False, indent=4)
    
len(data)

In [None]:
len(oassten["conversations"]) * 0.95 / 16


# Infer 

In [None]:
import os

os.environ["CUDA_HOME"] = "/usr/local/cuda"
os.environ["PATH"] = "${CUDA_HOME}/bin:${PATH}"
os.environ["LD_LIBRARY_PATH"] = "/usr/local/cuda/lib64:$LD_LIBRARY_PATH"
os.environ["CUDA_VISIBLE_DEVICES"] = "0"

In [None]:
import torch
import transformers
from transformers import AutoTokenizer, AutoModelForCausalLM

device = "cuda"

tokenizer = AutoTokenizer.from_pretrained("models/pythia1b4-chat-oasst-dolly")
model = AutoModelForCausalLM.from_pretrained("models/pythia1b4-chat-oasst-dolly", device_map='auto', 
                                             torch_dtype=torch.float16,
                                             )


model.to(device)
a = 0

In [None]:
# prompt_format = "### Input:\n{human}\n\n### Response:\n" 
# prompt_format = "### Human: {human}\n\n### Assistant: " 
prompt_format = "Human:\n{human}" + tokenizer.eos_token + "\nAssistant:\n"

TURN_CONCATENATION_TOKEN = ""

# text = prompt_format.format(**{"human": "Tôi là một thanh niên 26 tuổi, cao 6 feet, cân nặng 130 pounds. Tôi muốn tăng cân, chủ yếu là cơ bắp. Bạn có thể cho tôi một kế hoạch tập luyện trong cả tuần và một bữa ăn cung cấp cho tôi lượng calo cần thiết?"})
# text = prompt_format.format(**{"human": "tóm tắt đoạn sau: Hơn một triệu tỷ đồng ngân quỹ phải gửi nhà băng cho thấy kém hiệu quả trong sử dụng đồng tiền, kinh tế mất đi động lực tăng trưởng, theo các đại biểu Quốc hội."})
# text = prompt_format.format(**{"human": "Vũ trụ song song? Có những lý thuyết hay bằng chứng khoa học ủng hộ hay phản đối sự tồn tại của chúng?"})
# text = prompt_format.format(**{"human": "Tôi đã nhận được một lá thư 'Thích và không thích' nói rằng tôi đã tham gia vào việc phỉ báng."})
# text = prompt_format.format(**{"human": "Chào, anh khỏe không? Có thể cho tôi biết thời tiết hôm nay như nào được không?"})
# text = prompt_format.format(**{"human": "Bạn là giáo viên môn Thị giác máy tính. Bạn phải viết thư giới thiệu cho sinh viên muốn xin bằng tiến sĩ trong công ty thị giác máy tính chuyên sâu. Nhấn mạnh rằng sinh viên đó rất tự chủ."})
# text = prompt_format.format(**{"human": "Cho tôi gặp giám đốc."})
# text = prompt_format.format(**{"human": "Tell me 3 main differences between university and college"})
# text = prompt_format.format(**{"human": "大学と専門学校の主な違いを3つ教えてください"})
# text = prompt_format.format(**{"human": "大阪の観光スポット10選"})
# text = prompt_format.format(**{"human": "日本でおすすめの料理は？"})
# text = prompt_format.format(**{"human": "Bạn thích món ăn nào?"}) + "\nTôi thích ăn món ăn Việt Nam.</s>" + prompt_format.format(**{"human": "Cụ thể hơn đi"}) 
# text = prompt_format.format(**{"human": "Python program to crawl reddit"})
# text = prompt_format.format(**{"human": "What food do you like?"})
# text = prompt_format.format(**{"human": "What are you ?"})
# text = prompt_format.format(**{"human": "i havent cried out loud since my loved one is gone, i wanna cry out loud, i wanna feel light, \n\nwrite this in poetic way"})
# text = prompt_format.format(**{"human": "Review Titanic movie"})
# text = prompt_format.format(**{"human": "Hãy review phim Titanic"})
# text = prompt_format.format(**{"human": "Sửa lỗi chính tả cho câu sau: dắn hổ mang trườn lên lúi"})
# text = prompt_format.format(**{"human": "Hãy đóng giả làm giáo viên dạy tiếng Anh, bắt đầu bằng việc tự giới thiệu bản thân"})
# text = prompt_format.format(**{"human": "3 sự khác biệt giữa đại học và cao đẳng. Dịch câu trên sang tiếng Anh"})
# text = prompt_format.format(**{"human": "Lên thực đơn cho cho gia đình 4 người trong 1 ngày với các món chay"})
# text = prompt_format.format(**{"human": "Làm bài thơ tặng bạn nữ tên Linh nhân ngày quốc tế thiếu nhi"})
# text = prompt_format.format(**{"human": "giới thiệu bản thân bạn như 1 AI Engineer"})
# text = prompt_format.format(**{"human": "Could you write me a short story about a gnome who has found themselves lost in New York and has no idea what is going on"})
# text = prompt_format.format(**{"human": """Bộ Thông tin và Truyền thông cho biết việc sửa đổi Luật Viễn thông, trong đó có OTT viễn thông, nhằm đảm bảo an toàn, an ninh mạng và quyền lợi người dùng.
# Trình Quốc hội dự án Luật Viễn thông (sửa đổi) sáng 2/6, Bộ trưởng Thông tin và Truyền thông Nguyễn Mạnh Hùng nói trước đây, việc cung cấp dịch vụ viễn thông phải có hạ tầng mạng, và quản lý hạ tầng mạng là quản lý luôn được dịch vụ viễn thông.
# Còn ngày nay, trên Internet cũng có thể triển khai dịch vụ viễn thông xuyên biên giới, đặt ra bài toán quản lý phải bảo đảm nguyên tắc bình đẳng giữa các dịch vụ cùng vấn đề an toàn, an ninh. Vì vậy, dự thảo quy định chi tiết về quản lý việc cung cấp và hình thức cấp phép với dịch vụ viễn thông, trong đó có trung tâm dữ liệu, điện toán đám mây để đảm bảo tính linh hoạt, đảm bảo cơ chế khuyến khích dịch vụ mới phát triển.
# Tóm tắt đoạn văn trên """})
# text = prompt_format.format(**{"human": "Who is the 46th president of American?"})
# text = "what are you?"
text = prompt_format.format(**{"human": "what is your name?"})
# text = prompt_format.format(**{"human": "what is the weather today?"})
# text = prompt_format.format(**{"human": "Give me some information about yourself in less than 20 words"})
# text = prompt_format.format(**{"human": "Give me some paper ideas for AAAI 2023 conferences"})
# text = prompt_format.format(**{"human": "Population of Tokyo 2021"})

print(text)
# infer
# prompt = "<human>: tóm tắt đoạn sau: Hơn một triệu tỷ đồng ngân quỹ phải gửi nhà băng cho thấy kém hiệu quả trong sử dụng đồng tiền, kinh tế mất đi động lực tăng trưởng, theo các đại biểu Quốc hội.\n<bot>:"
inputs = tokenizer(text, return_tensors='pt').to(model.device)
input_length = inputs.input_ids.shape[1]
model.config
with torch.no_grad():
    outputs = model.generate(
        **inputs, max_new_tokens=400, do_sample=True, temperature=0.5, top_k=50, return_dict_in_generate=True, no_repeat_ngram_size=5,
        # pad_token_id=tokenizer.pad_token_id,
        # bos_token_id=tokenizer.bos_token_id,
        # eos_token_id=tokenizer.eos_token_id
    )
token = outputs.sequences[0, input_length:]
output_str = tokenizer.decode(token)

print(output_str)

In [None]:
model.push_to_hub("Zayt/pythia1b-dedup-oasst-dolly-dailydialog", token="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")
tokenizer.push_to_hub("Zayt/pythia1b-dedup-oasst-dolly-dailydialog", token="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")

In [None]:
python = "^3.10"
fastapi = "^0.98.0"
transformers = "^4.30.2"
ctransformers = "^0.2.10"
pydantic = "^1.10.9"
loguru = "^0.7.0"
gunicorn = "^20.1.0"
uvicorn = "^0.23.1"