# Gemma Template

This library was developed for the Kaggle challenge:
[**Google - Unlocking Global Communication with Gemma**](https://www.kaggle.com/competitions/gemma-language-tuning), sponsored by Google.

## Credit Requirement

**Important:** If you are a participant in the competition and wish to use this source code in your submission,
you must clearly credit the original author before the competition's end date, **January 14, 2025**.

Please include the following information in your submission:

```text
Author: Tu Pham
Kaggle Username: [bigfishdev](https://www.kaggle.com/bigfishdev)
GitHub: [https://github.com/thewebscraping/gemma-template/](https://github.com/thewebscraping/gemma-template)
LinkedIn: [https://www.linkedin.com/in/thetwofarm](https://www.linkedin.com/in/thetwofarm)
```

# Overview

Gemma Template is a lightweight and efficient Python library for generating templates to fine-tune models and craft prompts.
Designed for flexibility, it seamlessly supports Gemma, LLaMA, and other language frameworks, offering fast, user-friendly customization.
With multilingual capabilities and advanced configuration options, it ensures precise, professional, and dynamic template creation.

### Learning Process and Acknowledgements
As a newbie, I created Gemma Template based on what I read and learned from the following sources:

- Google Gemma Cookbook: [Advanced Prompting Techniques](https://github.com/google-gemini/gemma-cookbook/blob/main/Gemma/Advanced_Prompting_Techniques.ipynb)
- Google Gemma Cookbook: [Finetune with LLaMA Factory](https://github.com/google-gemini/gemma-cookbook/blob/main/Gemma/Finetune_with_LLaMA_Factory.ipynb)
- Google Gemma Cookbook: [Fine tuning Gemma for Function Calling](https://github.com/google-gemini/gemma-cookbook/blob/main/Gemma/Finetuning_Gemma_for_Function_Calling.ipynb)
- Alpaca: [Alpaca Lora Documentation](https://github.com/tloen/alpaca-lora)
- Unsloth: [Finetune Llama 3.2, Mistral, Phi-3.5, Qwen 2.5 & Gemma 2-5x faster with 80% less memory!](https://github.com/unslothai/unsloth)


Gemma Template supports exporting dataset files in three formats: `Text`, `Alpaca`, and `OpenAI`.

# Multilingual Content Writing Assistant

This writing assistant is a multilingual professional writer specializing in crafting structured, engaging, and SEO-optimized content.
It enhances text readability, aligns with linguistic nuances, and preserves original context across various languages.

---

## Key Features:
#### 1. **Creative and Engaging Rewrites**
- Transforms input text into captivating and reader-friendly content.
- Utilizes vivid imagery and descriptive language to enhance engagement.

#### 2. **Advanced Text Analysis**
- Processes text with unigrams, bigrams, and trigrams to understand linguistic patterns.
- Ensures language-specific nuances and cultural integrity are preserved.

#### 3. **SEO-Optimized Responses**
- Incorporates keywords naturally to improve search engine visibility.
- Aligns rewritten content with SEO best practices for discoverability.

#### 4. **Professional and Multilingual Expertise**
- Full support for creating templates in local languages.
- Supports multiple languages with advanced prompting techniques.
- Vocabulary and grammar enhancement with unigrams, bigrams, and trigrams instruction template.
- Supports hidden mask input text. Adapts tone and style to maintain professionalism and clarity.
- Full documentation with easy configuration prompts and examples.

#### 5. **Customize Advanced Response Structure and Dataset Format**
- Supports advanced response structure format customization.
- Compatible with other models such as LLaMa.
- Enhances dynamic prompts using Round-Robin loops.
- Outputs multiple formats such as Text, Alpaca and OpenAI.

**Installation**
----------------

To install the library, you can choose between two methods:

#### **1\. Install via PyPI:**

```shell
pip install gemma-template
```

#### **2\. Install via GitHub Repository:**

```shell
pip install git+https://github.com/thewebscraping/gemma-template.git
```

**Quick Start**
----------------
Start using Gemma Template with just a few lines of code:

## Load Dataset
Returns: A Hugging Face Dataset or DatasetDict object containing the processed prompts.

**Load Dataset from data dict**
```python
from gemma_template import gemma_template

data_dict = [
    {
        "id": "JnZJolR76_u2",
        "title": "Sample title",
        "description": "Sample description",
        "document": "Sample document",
        "categories": ["Topic 1", "Topic 2"],
        "tags": ["Tag 1", "Tag 2"],
        "output": "Sample output",
        "main_points": ["Main point 1", "Main point 2"],
    }
]
dataset = gemma_template.load_dataset(data_dict, output_format='text')   # enum: `text`, `alpaca` and `openai`.
print(dataset['text'][0])
```

**Load Dataset from HuggingFace**
```python
from gemma_template import gemma_template

dataset = gemma_template.load_dataset(
    "YOUR_JSON_FILE_PATH_OR_HUGGINGFACE_DATASET",
    # enum: `text`, `alpaca` and `openai`.
    output_format='text',
    # Percentage of documents that need to be word masked.
    # Min: 0, Max: 1. Default: 0.
    max_hidden_ratio=.1,
    # Replace 10% of words in the input document with '_____'.
    # Use int to extract the correct number of words. The `max_hidden_ratio` parameter must be greater than 0.
    max_hidden_words=.1,
    # Minimum character of a word, used to create unigrams, bigrams, and trigrams. Default is 2.
    min_chars_length=2,
    # Maximum character of a word, used to create unigrams, bigrams and trigrams. Default is 0.
    max_chars_length=8,
)
```

## Fully Customized Template

```python
from gemma_template import Template, FieldPosition, INPUT_TEMPLATE, OUTPUT_TEMPLATE, INSTRUCTION_TEMPLATE, PROMPT_TEMPLATE

template_instance = Template(
    instruction_template=[INSTRUCTION_TEMPLATE],  # Optional: dynamic Round-Robin loops
    prompt_template=[PROMPT_TEMPLATE],  # Optional: dynamic Round-Robin loops
    input_template=[INPUT_TEMPLATE],  # Optional: dynamic Round-Robin loops
    output_template=[OUTPUT_TEMPLATE],  # Optional: dynamic Round-Robin loops
    position=FieldPosition(
            title=["Custom Title"],
            description=["Custom Description"],
            document=["Custom Article"],
            main_points=["Custom Main Points"],
            categories=["Custom Categories"],
            tags=["Custom Tags"],
    ),  # Optional: dynamic Round-Robin loops
)

response = template_instance.apply_template(
    title="Gemma open models",
    description="Gemma: Introducing new state-of-the-art open models.",
    main_points=["Main point 1", "Main point 2"],
    categories=["Artificial Intelligence", "Gemma"],
    tags=["AI", "LLM", "Google"],
    document="Gemma open models are built from the same research and technology as Gemini models. Gemma 2 comes in 2B, 9B and 27B and Gemma 1 comes in 2B and 7B sizes.",
    output="A new family of open language models demonstrating strong performance across academic benchmarks for language understanding, reasoning, and safety.",
    max_hidden_words=.1,  # set 0 if you don't want to hide words.
    min_chars_length=2,  # Minimum character of a word, used to create unigrams, bigrams, and trigrams. Default is 2.
    max_chars_length=0,  # Maximum character of a word, used to create unigrams, bigrams and trigrams. Default is 0.
)  # remove kwargs if not used.

print(response)
```

### Output:

```text
<start_of_turn>user
You are a multilingual professional writer.

# Role:
You are a highly skilled professional content writer, linguistic analyst, and multilingual expert specializing in structured writing and advanced text processing.

# Task:
Your primary objectives are:
1. Simplification: Rewrite the input text or document to ensure it is accessible and easy to understand for a general audience while preserving the original meaning and essential details.
2. Lexical and Grammatical Analysis: Analyze and refine vocabulary and grammar using unigrams (single words), bigrams (two words), and trigrams (three words) to enhance readability and depth.
3. Structure and Organization: Ensure your response adheres strictly to the prescribed structure format.
4. Language Consistency: Respond in the same language as the input text unless explicitly directed otherwise.

# Additional Guidelines:
1. Provide a rewritten, enhanced version of the input text, ensuring professionalism, clarity, and improved structure.
2. Focus on multilingual proficiency, using complex vocabulary, grammar to improve your responses.
3. Preserve the context and cultural nuances of the original text when rewriting.

# Text Analysis:
Example 1: Unigrams (single words)
and => English
built => English
from => English
the => English
research => English
Text Analysis 3: These are common English words, indicating the text is in English.

Example 2: Bigrams (two words)
technology as => English
Text Analysis 2: Frequent bigrams in English confirm the language context.

Example 3: Trigrams (three words)
technology as Gemini => English
Text Analysis 3: Trigrams further validate the linguistic analysis and the necessity to respond in English.

# Conclusion of Text Analysis:
The linguistic analysis confirms the text is predominantly in English. Consequently, the response should be structured and written in English to align with the original text and context.

# Input Text:
Rewrite the input text or document to highlight its unique value proposition while ensuring it ranks well for targeted keywords.

# Response Structure Format:
You must follow the response structure:

**Custom Title (Title):** Rewrite the title to maximize clarity, appeal, and relevance to the content.
**Custom Description (Description):** Create a description focusing on how the article addresses a common problem or challenge readers face.
**Custom Article (Article):** Rewrite the input text or document with an authoritative tone, incorporating credible sources, data, and references to boost trustworthiness and SEO ranking.
**Custom Main Points (Main Points):** Ensure all key points flow logically from one to the next.
**Custom Categories (Categories):** Use categories that align with similar articles on the topic and improve SEO and discoverability.
**Custom Tags (Tags):** Rewrite tags to make them more specific and targeted.

By adhering to this format, the response will maintain linguistic integrity while enhancing professionalism, structure and alignment with user expectations.

# Text:
Gemma open models are built _____ the same _____ and technology as Gemini models. Gemma 2 comes in 2B, 9B _____ 27B and Gemma 1 comes in 2B and 7B sizes.<end_of_turn>
<start_of_turn>model
## **Custom Title:**
### Gemma open models

## **Custom Description:**
Gemma: Introducing new state-of-the-art open models.

## **Custom Article:**
A new family of open language models demonstrating strong performance across academic benchmarks for language understanding, reasoning, and safety.

## **Custom Main Points:**
* Main point 1
* Main point 2

## **Custom Categories:**
* Artificial Intelligence
* Gemma

## **Custom Tags:**
* AI
* LLM
* Google<end_of_turn>

```


In [1]:
import time
from datetime import datetime, timedelta
stopped_at = datetime.now() + timedelta(hours=11, minutes=30)
start_at = time.perf_counter()
print("Start time:", str(stopped_at))

Start time: 2025-01-08 23:31:58.509002


### Install Gemma Template dependencies to generate template

In [2]:
!pip install -q -U gemma-template
!pip install -q evaluate rouge_score sacrebleu nltk

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m981.5/981.5 kB[0m [31m35.0 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
  Building wheel for langdetect (setup.py) ... [?25l[?25hdone
  Preparing metadata (setup.py) ... [?25l[?25hdone
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m51.8/51.8 kB[0m [31m2.6 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m84.0/84.0 kB[0m [31m4.7 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m104.1/104.1 kB[0m [31m6.5 MB/s[0m eta [36m0:00:00[0m
[?25h  Building wheel for rouge_score (setup.py) ... [?25l[?25hdone


### Install Unsloth dependencies for Fine Tuning

In [None]:
%%capture
!pip install pip3-autoremove
!pip-autoremove torch torchvision torchaudio -y

In [None]:
!pip install -q torch torchvision torchaudio xformers --index-url https://download.pytorch.org/whl/cu121
!pip install -q unsloth

In [3]:
import os
import sys
import json
import random
from pathlib import Path

model_name = "/kaggle/input/gemma-2/transformers/gemma-2-2b-it/2"
project_id = "gemma-template-gemma-2b-it-v2-competition"

seed = 3407

if 'google.colab' in sys.modules:
    # Running on Colab
    from google.colab import userdata
    os.environ['HF_TOKEN'] = userdata.get('HF_TOKEN')
    os.environ['WANDB_API_KEY'] = userdata.get('WANDB_TOKEN')
elif os.path.exists('/kaggle/working'):
    # Running on Kaggle
    from kaggle_secrets import UserSecretsClient
    user_secrets = UserSecretsClient()
    os.environ['HF_TOKEN'] = user_secrets.get_secret("HF_TOKEN")
    os.environ['WANDB_API_KEY'] = user_secrets.get_secret("WANDB_TOKEN")
else:
    # Not running on Colab or Kaggle
    raise EnvironmentError('This notebook is designed to run on Google Colab or Kaggle.')

### Configure Unsloth 4bit-quantized

Read document here: [https://github.com/unslothai/unsloth](https://github.com/unslothai/unsloth)

In [4]:
try:
    from unsloth import FastLanguageModel
    import torch
    max_seq_length = 3072 # Choose any! We auto support RoPE Scaling internally!
    model, tokenizer = FastLanguageModel.from_pretrained(
        model_name = model_name,
        max_seq_length = max_seq_length,
        dtype = None,
        load_in_4bit = True,
    )
    
    model = FastLanguageModel.get_peft_model(
        model,
        r = 16,
        target_modules = ["q_proj", "k_proj", "v_proj", "o_proj",
                          "gate_proj", "up_proj", "down_proj",],
        lora_alpha = 16,
        lora_dropout = 0,
        bias = "none",
        use_gradient_checkpointing = "unsloth",
        random_state = 3407,
        use_rslora = False,
        loftq_config = None,
    )
    
    model.config.use_cache = False
    model.print_trainable_parameters()
except (Exception, RuntimeError):
    # Test template, tokenizer required.
    from transformers import AutoTokenizer
    tokenizer = AutoTokenizer.from_pretrained(model_name)

### Configure Tokenizer Padding Side

Fix overflow issue with bf16/fp16 training. See also: [Google Gemma Cookbook: Finetuning Gemma for Function Calling](https://github.com/google-gemini/gemma-cookbook/blob/main/Gemma/Finetuning_Gemma_for_Function_Calling.ipynb)

In [5]:
tokenizer.padding_side = "right"

# Goal:

An article typically consists of the following elements: **title**, **description**, **main points**, **categories**, and **tags**. This fine tuning is designed to address these elements in a single request using a **custom structured format**. Additional objectives include:
1. Enhancing the model's ability to process and respond effectively in the **local language**.
2. Improving the structured output format for better usability.

### Gemma 2B - Evaluation Results

The performance of the **Gemma 2B model** was assessed using **ROUGE** and **Google BLEU** metrics. 

| Rouge1  | Rouge2 | RougeL | RougeLSum | Google BLEU |
| ------------- |:-------------:|:-------------:|:-------------:|:-------------:|
| 0.722 | 0.524 | 0.456 | 0.703 |  0.345 |

**Key Observations**:
- The model shows significant improvements in:
  - Handling user language responses.
  - Structured content generation.
- **Challenges**:
  - Incomplete feedback for certain articles.
  - Occasional duplication of keywords in responses.

For more details, you can read version 1 of this Notebook: ([**Version 1**](https://www.kaggle.com/code/bigfishdev/gemma-2b-it-fine-tuning-with-gemma-template?scriptVersionId=216121364)). Also, you can download the file `gemma-benchmark/gemma_2b_eval_benchmark.json` which I have attached on this notebook. Due to Kaggle limitations, I am currently unable to implement **ROUGE** and **Google BLEU** eval evaluations on the **Gemma 2B IT** ([**Version 2**](https://www.kaggle.com/code/bigfishdev/gemma-2b-it-fine-tuning-with-gemma-template?scriptVersionId=216252050)) model that I have refined. I will show a demo how I eval the dataset and the source code at the end of this notebook.

- **Kaggle Gemma 2B Model:**
  - Model: [https://www.kaggle.com/models/bigfishdev/gemma-template-gemma-2b](https://www.kaggle.com/models/bigfishdev/gemma-template-gemma-2b)
  - Notebook Version 1: [https://www.kaggle.com/code/bigfishdev/gemma-2b-it-fine-tuning-with-gemma-template?scriptVersionId=216121364](https://www.kaggle.com/code/bigfishdev/gemma-2b-it-fine-tuning-with-gemma-template?scriptVersionId=216121364)
- **Kaggle Gemma 2B IT Model:**
  - Model: [https://www.kaggle.com/models/bigfishdev/gemma-template-gemma-2b-it](https://www.kaggle.com/models/bigfishdev/gemma-template-gemma-2b-it)
  - Notebook Version 2: [https://www.kaggle.com/code/bigfishdev/gemma-2b-it-fine-tuning-with-gemma-template?scriptVersionId=216252050](https://www.kaggle.com/code/bigfishdev/gemma-2b-it-fine-tuning-with-gemma-template?scriptVersionId=216252050)
- **Dataset:** [https://www.kaggle.com/datasets/bigfishdev/gemma-template](https://www.kaggle.com/datasets/bigfishdev/gemma-template)
- **Benchmark:** All benchmarks will be updated at my Github repo: [https://github.com/thewebscraping/gemma-template/blob/main/docs/benchmark.md](https://github.com/thewebscraping/gemma-template/blob/main/docs/benchmark.md)

### Gemma 2B - Vietnamese VMLU Evaluation Results
VMLU is a benchmark suite designed to evaluate foundational models with a focus on the **Vietnamese language**. 

| ID | Created At | Stem | Social Science | Humanities | Others | AVG | Unanswered |
|-------------|:-------------:|:-------------:|:-------------:|:-------------: |:-------------:|:-------------:|:-------------:|
| 1624257089558187281 | 05/01/2025 17:56 | 20.14 | 29.35 | 29.84 | 25.76 | 25.61 | 1497 |

#### Results:
- Out of 9,834 attempts, 1,497 responses were unanswered.
- The dataset and evaluation results can be downloaded from the file: `gemma-benchmark/gemma_2b_vmlu_answers.csv`. Although it is not within the scope of this fine tuning.

### Gemma 2B IT - Vietnamese VMLU Evaluation Results

| ID | Created At | Stem | Social Science | Humanities | Others | AVG | Unanswered |
|-------------|:-------------:|:-------------:|:-------------:|:-------------: |:-------------:|:-------------:|:-------------:|
| 1840435368978448913 | 06/01/2025 19:04 | 36.11 | 43.45 | 41.92 | 39.06 | 39.64 | 82 |

#### Results:
- Out of 9,834 attempts, 82 responses were unanswered.
- The dataset and evaluation results can be downloaded from the file: `gemma-benchmark/gemma_2b_it_vmlu_benchmark.csv`. Although it is not within the scope of this fine tuning.

#### My Gemma Fine Tuning VMLU Score:
![](https://raw.githubusercontent.com/thewebscraping/gemma-template/main/docs/images/Screenshot_VMLU_Gemma_Fine_Tuning.png)

#### VMLU Leaderboard Score:
There is a clear difference between the scores on the **Gemma 2B IT fine tuning** model, the **Gemma 2B IT fine tuning** model has a score close to the Gemma 7B IT model. Here is a screenshot of the VMLU Leaderboard:

![](https://github.com/thewebscraping/gemma-template/raw/main/docs/images/Screenshot_VMLU_Leaderboard.png)

#### Additional Resources:
- VMLU Website: [https://vmlu.ai/](https://vmlu.ai/)
- VMLU Leaderboard: [https://vmlu.ai/leaderboard](https://vmlu.ai/leaderboard)
- VMLU Github Repository: [https://github.com/ZaloAI-Jaist/VMLU/](https://github.com/ZaloAI-Jaist/VMLU/)

# Dataset Preparation

I followed a similar approach as with the **Gemma 2B model** to fine-tune the **Gemma 2B IT model**.

The train dataset consists of 10,000 rows processed to fine-tune models for content writing. The eval dataset consists of 1000 rows.

**Example:**

| ID             | Title         | Description        | Document         | Categories        | Tags         | Output          | Main Points            |
|----------------|---------------|--------------------|------------------|-------------------|--------------|-----------------|------------------------|
| JnZJolR76_u2   | Sample title  | Sample description | Sample document  | ["Topic 1", "Topic 2"]  | ["Tag 1", "Tag 2"] | Sample output   | ["MP 1", "MP 2"]       |


## Data Source and Timeline

The data was collected between September to December 2024 from 50 news pages. The output response data is generate by LLaMa 3 8B, Gemma 7B, and Gemma 9B.

## Language Distribution

The dataset maintains a balanced language ratio:
- **50% English**
- **50% Vietnamese**

## Dataset Composition

The data distribution is as follows:

- **10%**: Combined responses including title and document.
- **10%**: Combined responses including title, document, and description.
- **10%**: Combined responses including title, document, and main points.
- **10%**: Combined responses including title, document, categories, and tags.
- **10%**: Responses without instructional templates, structured format only.
- **10%**: Converted into GPT-style conversations with default output as a response document and random additional fields (e.g., title, description, main points, categories, tags).
- **40%**: Responses using fully instructions and a prompt structure format.
- `warmup_ratio`: 5%.

## Additional Features

- **15%** of the dataset incorporates hidden masked words, applied at a ratio of **5% of words** within each document.

In [6]:
from gemma_template import Template, gemma_template, vietnamese_gemma_template
from gemma_template.__version__ import __version__
print(__version__)

1.0.0


## Import Gemma Template
Import default Gemma Template for generate template.

In [7]:
from gemma_template import Template, FieldPosition, GEMMA_TEMPLATE, INPUT_TEMPLATE, OUTPUT_TEMPLATE, INSTRUCTION_TEMPLATE, PROMPT_TEMPLATE

## Gemma Template

Default templates by Gemma Template using Jinja2.

Using Gemma formatting: [https://ai.google.dev/gemma/docs/formatting](https://ai.google.dev/gemma/docs/formatting)

### **GEMMA_TEMPLATE**
Default input template by Gemma Template.

In [None]:
"""<start_of_turn>user
{{ input }}<end_of_turn>
<start_of_turn>model
{{ output }}<end_of_turn>

"""

### **INPUT_TEMPLATE**
Default input template by Gemma Template.

In [None]:
"""{{ system_prompt }}
{% if instruction %}\n{{ instruction }}\n{% endif %}
{% if prompt_structure %}{{ prompt_structure }}\n{% else %}{{ prompt }}\n{% endif %}
# Text:
{{ input }}
{% if topic_value %}\nTopics: {{ topic_value }}\n{% endif %}{% if keyword_value %}Keywords: {{ keyword_value }}\n{% endif %}
"""

### **OUTPUT_TEMPLATE**
Default output template by Gemma Template.

In [None]:
"""{% if structure_fields %}{% for field in structure_fields %}## **{{ field.label.custom or field.label.default }}:**\n{% if field.key == 'title' %}### {% endif%}{{ field.value }}\n\n{% endfor %}{% else %}{{ output }}{% endif %}"""

### **INSTRUCTION_TEMPLATE**
Default instruction template by Gemma Template.

In [None]:
"""# Role:
You are a highly skilled professional content writer, linguistic analyst, and multilingual expert specializing in structured writing and advanced text processing.

# Task:
Your primary objectives are:
1. Simplification: Rewrite the input text or document to ensure it is accessible and easy to understand for a general audience while preserving the original meaning and essential details.
2. Lexical and Grammatical Analysis: Analyze and refine vocabulary and grammar using unigrams (single words), bigrams (two words), and trigrams (three words) to enhance readability and depth.
3. Structure and Organization: Ensure your response adheres strictly to the prescribed structure format.
4. Language Consistency: Respond in the same language as the input text unless explicitly directed otherwise.

# Additional Guidelines:
1. Provide a rewritten, enhanced version of the input text, ensuring professionalism, clarity, and improved structure.
2. Focus on multilingual proficiency, using complex vocabulary, grammar to improve your responses.
3. Preserve the context and cultural nuances of the original text when rewriting.

# Text Analysis:
Example 1: Unigrams (single words){% for word in unigrams %}\n{{ word }} => {{ language }}{% endfor %}
Text Analysis 3: These are common {{ language }} words, indicating the text is in {{ language }}.

Example 2: Bigrams (two words){% for word in bigrams %}\n{{ word }} => {{ language }}{% endfor %}
Text Analysis 2: Frequent bigrams in {{ language }} confirm the language context.

Example 3: Trigrams (three words){% for word in trigrams %}\n{{ word }} => {{ language }}{% endfor %}
Text Analysis 3: Trigrams further validate the linguistic analysis and the necessity to respond in {{ language }}.

# Conclusion of Text Analysis:
The linguistic analysis confirms the text is predominantly in {{ language }}. Consequently, the response should be structured and written in {{ language }} to align with the original text and context.
"""

### **PROMPT_TEMPLATE**
Default prompt template by Gemma Template.

In [None]:
"""{% if prompt %}\n\n# Input Text:\n{{ prompt }}\n\n{% endif %}{% if structure_fields %}# Response Structure Format:
You must follow the response structure:

{% for field in structure_fields %}{{ field.label }}\n{% endfor %}
By adhering to this format, the response will maintain linguistic integrity while enhancing professionalism, structure and alignment with user expectations.\n
{% endif %}"""

#### **Example Output: Input Document Text with Hidden Mask (`document`)**

In [None]:
"""Gemma open models are built _____ the same _____ and technology as Gemini models. Gemma 2 comes in 2B, 9B _____ 27B and Gemma 1 comes in 2B and 7B sizes."""

#### **Example Output: Input Document Text without Hidden Mask  (`document`)**

In [None]:
"""Gemma open models are built from the same research and technology as Gemini models. Gemma 2 comes in 2B, 9B and 27B and Gemma 1 comes in 2B and 7B sizes."""

# Process Function Documentation

## Overview

This repository contains tools for processing datasets to fine-tune language models. The `process_fn` function is central to preparing datasets in various formats such as `text`, `alpaca` and `openai`. It supports frameworks like `unsloth` and `LLaMA-Factory`.

## Features

- Generate unigrams, bigrams, and trigrams with customizable configurations.
- Automatically exclude invalid keywords containing numbers or punctuation.
- Support for multilingual datasets, language detection using langdetect with language specific configurations.
- Creates datasets for conversation-based models by dynamically generating conversational structures.

## How It Works

- **Language Distribution**:
  - 50% of Dataset uses English prompts.
  - 50% of Dataset uses Vietnamese prompts.

- **Word Configuration**:
  - **Unigrams**: Unique words with 2-8 characters. Reason: 1 character will match English like `I`, `a`, 8 characters because the longest word in Vietnamese is 7 characters.
  - **Bigrams**: Unique bigrams words, not included words of unigrams list.
  - **Trigrams**: Pairs of unigrams and bigrams.
  - Ensures the AI vocabulary grows by at least 15 words per document.

- **Special Features**:
  - Hidden mask words applied to **15%** of the dataset, at a **5% ratio of words** per document.
  - Generate conversations dataset with configurable fields and output format.

### Load Dataset
Load Dataset from Json File Kaggle host or HuggingFace Hub. See also: [https://huggingface.co/datasets/twodev/gemma-template](https://huggingface.co/datasets/twodev/gemma-template)

In [8]:
import json
from datasets import Dataset, DatasetDict, load_dataset

def load_from_json_file(path: str = "/kaggle/input/gemma-template/train-gemma-template.json") -> Dataset:
    with open(path, encoding="utf-8") as f:
        data = json.load(f)
        return Dataset.from_list(data)


def load_from_huggingface_hub(path: str = "twodev/gemma-template", split: str = "train") -> Dataset:
    dataset = load_dataset("twodev/gemma-template")
    return dataset[split]

In [9]:
def convert_to_conversations_dataset(data: Dataset, mapping_field: dict[str, list[str]]) -> Dataset:
    """
    Converts a dataset into a conversational format suitable for fine-tuning language models.

    Notes:
        - The `gemma_template._gen_bullet_list_style` method is used to format `openai` responses as a `number`, `dash` and `asterisk` bullet list when the field value is a list.
    """
    
    template = """<start_of_turn>user\n{input}<end_of_turn>\n<start_of_turn>model\n{output}<end_of_turn>"""
    outputs = []
    for item in data:
        messages = item["messages"]
        for field in mapping_field:
            if field in item["origin_data"] and mapping_field[field]:
                value = item["origin_data"][field]
                messages.append(
                    {
                        "role": "user",
                        "content": random.choice(mapping_field[field]),
                    }
                )
                messages.append(
                    {
                        "role": "assistant",
                        "content": (
                            gemma_template._generate_bullet_style(value, "asterisk")
                            if isinstance(value, list)
                            else value
                        ),
                    }
                )

        outputs_ = [
            template.format(
                input="\n\n".join([messages[0]['content'], messages[1]['content']]),
                output=messages[2]['content']
            )
        ]

        if len(messages) > 3:
            prompts = []
            for idx in range(3, len(messages), 2):
                try:
                    prompt = template.format(
                        input=messages[idx]["content"],
                        output=messages[idx + 1]["content"],
                    )
                    prompts.append(prompt.strip())
                except IndexError:
                    pass

            random.shuffle(prompts)
            outputs_.extend(prompts)

        outputs_.append("")
        sep = tokenizer.eos_token + "\n"
        outputs.append({"text": sep.join(outputs_) + sep})

    if outputs:
        return Dataset.from_list(outputs)

In [10]:
def process_fn(
    instance: Template,
    data: Dataset, 
    excluded_fields: list[str] = (), 
    output_format = 'text',
    max_hidden_ratio = 0.15, 
    max_hidden_words = 0.05, 
    min_chars_length = 2, 
    max_chars_length = 8,
    max_concurrency: int = 4,
    n_words = 5,
    is_remove_data = True,
    **kwargs
) -> Dataset:
    """
    Processes a dataset for fine-tuning language models, supporting formats like `text`, `alpaca`, and `gpt`.

    Args:
        instance (Template): A template instance for dataset processing.
        data (Dataset): The input dataset to be processed.
        excluded_fields (list[str]): Fields to exclude when generating conversational datasets.
        output_format (str): Format of the processed dataset. Options are 'text', 'alpaca', and 'gpt'.
        max_hidden_ratio (Union[float]):
            Percentage of documents that need to be word masked. Min: 0, Max: 1. Default: 0.
        max_hidden_words (Optional[str]):
            Replace words in the document with '____'. The `max_hidden` parameter must be greater than 0.
            Use `int`: exact number of words to be masked, `float`: percentage of number of words to be masked.
        min_chars_length (int):
            Minimum character of a word, used to create unigrams, bigrams, and trigrams. Default is 2.
        max_chars_length (int):
            Maximum character of a word, used to create unigrams, bigrams and trigrams. Default is 0.
        max_concurrency (int):
            Maximum number of concurrent threads for processing data. Default is 4.
        n_words (int): Number of words frequently used to create unigrams, bigrams and trigrams.
        is_remove_data (bool): Whether to remove specific fields from the dataset. Defaults to True.
        **kwargs: Additional configuration parameters.

    Returns:
        Dataset or DatasetDict: The processed dataset in the specified format.

    Notes:
        - The `output_format` parameter determines the dataset's structure:
            - `'text'`: Standard format for unsloth fine-tuning.
            - `'alpaca'` or `'openai'`: Formats for frameworks like LLaMA-Factory.
        - Using `output_format='openai'` and `is_remove_data=False` with `excluded_fields` generates conversational datasets.

    """
    ds = instance.load_dataset(
        data, 
        output_format=output_format, 
        excluded_fields=excluded_fields,
        max_hidden_ratio=max_hidden_ratio, 
        max_hidden_words=max_hidden_words, 
        min_chars_length=min_chars_length, 
        max_chars_length=max_chars_length,
        max_concurrency=max_concurrency,
        n_words=n_words,
        is_close_async_loop=False,  # Avoid `RuntimeError` by Notebook
        is_remove_data=is_remove_data,
    )
    if output_format == 'openai' and not is_remove_data:
        mapping_field = {
            field: getattr(instance, field, None)
            for field in excluded_fields
            if getattr(instance, field, None)
        }
        ds = convert_to_conversations_dataset(ds, mapping_field=mapping_field)
    else:
        ds = ds.map(lambda x: {"text": [text + tokenizer.eos_token for text in x["text"]]}, batched = True)  # Append eos token.
    return ds

In [11]:
def print_verify(data, is_masked: bool = True, task_name: str = "TASK"):
    print(task_name + "*" * 45)
    for item in data:
        if item.get("is_masked") == is_masked:
            if is_masked:
                print("HIDDEN TEXT: YES" + "*" * 45)
            else:
                print("HIDDEN TEXT: NO" + "*" * 45)
                
            print("\n")
            print(item['text'])
            print("=" * 60)
            print("*" * 30, " DATA ATTRS ", "*" * 30)
            print("Masked Text:", item['is_masked'])
            print("Language Code:", item['analysis']['language_code'])
            print("Language:", item['analysis']['language'])
            print("Categories:", item['analysis']['topic_value'])
            print("Keywords:", item['analysis']['keyword_value'])
            print("Unigrams:", item['analysis']['unigrams'])
            print("Bigrams:", item['analysis']['bigrams'])
            print("Trigrams:", item['analysis']['trigrams'])
            print("VALID TASK: YES")
            print("*" * 30, " TASK DONE ", "*" * 30)
            print("=" * 60)
            print("\n")
            
            return

    print("VALID TASK: NO")
    print("*" * 30, " TASK DONE ", "*" * 30)
    print("=" * 60)
    print("\n")

## Cases Handled

The dataset processing involves various configurations to handle diverse cases effectively:

1. **Combined Responses**:
   - **10%**: Responses include the `title` and `document`.
   - **10%**: Responses include the `title`, `document`, and `description`.
   - **10%**: Responses include the `title`, `document`, and `main points`.
   - **10%**: Responses include the `title`, `document`, `categories`, and `tags`.

2. **Masked Words**:
   - **15%**: Masked words are applied to the dataset, with a hidden ratio of **5% of words** for each document.

3. **Language Detection**:
   - Language is automatically detected using the [`langdetect`](https://github.com/Mimino666/langdetect) library.

In [23]:
try:
    dataset = load_from_json_file("/kaggle/input/gemma-template/train-gemma-template.json")
except FileNotFoundError:
    dataset = load_from_huggingface_hub("twodev/gemma-template")

try:
    dataset = dataset.map(lambda example: {"categories": list(set(example["categories"][:5])) if isinstance(example["categories"], list) else []})  # maximum 5 categories to avoid duplication
    print("Categories:", dataset[1]['categories'])
    print("Categories:", dataset[15]['categories'])
except:
    pass

try:
    dataset = dataset.map(lambda example: {"tags": list(set(example["tags"][:5])) if isinstance(example["tags"], list) else []})  # maximum 5 tags to avoid duplication
    print("Tags:", dataset[1]['tags'])
    print("Tags:", dataset[15]['tags'])
except:
    pass

total_rows = len(dataset)
five_percent_idx = int(total_rows * 0.1)

dataset_mapping = {
    "Combined response including title and document": {
        "data": dataset.select(range(0, five_percent_idx)),
        "excluded_fields": ["description", "main_points", "categories", "tags"]
    },
    "Combined response including title, document and description": {
        "data": dataset.select(range(five_percent_idx, five_percent_idx * 2)),
        "excluded_fields": ["main_points", "categories", "tags"]
    },
    "Combined response including title, document and main points": {
        "data": dataset.select(range(five_percent_idx * 2, five_percent_idx * 3)),
        "excluded_fields": ["description", "categories", "tags"]
        
    },
    "Combined response including title, document and categories and tags": {
        "data": dataset.select(range(five_percent_idx * 3, five_percent_idx * 4)),
        "excluded_fields": ["description", "main_points"]
        
    },
}

print("\n")
print("*" * 30, " DATASET INFO ", "*" * 30)
print(dataset_mapping)

Map:   0%|          | 0/10000 [00:00<?, ? examples/s]

Categories: ['Tổ ấm']
Categories: ['Thế giới']


Map:   0%|          | 0/10000 [00:00<?, ? examples/s]

Tags: ['Cây cảnh mini', 'Phong thủy', 'May mắn', 'Giàu sang', 'Thu hút tài lộc']
Tags: ['Ông Yoon Suk Yeol', 'Hàn Quốc', 'Tổng thống Hàn Quốc', 'Tổng thống Yoon Suk Yeol']


******************************  DATASET INFO  ******************************
{'Combined response including title and document': {'data': Dataset({
    features: ['id', 'title', 'description', 'document', 'output', 'categories', 'tags', 'main_points', 'from_url', 'pub_date', 'similarlities'],
    num_rows: 1000
}), 'excluded_fields': ['description', 'main_points', 'categories', 'tags']}, 'Combined response including title, document and description': {'data': Dataset({
    features: ['id', 'title', 'description', 'document', 'output', 'categories', 'tags', 'main_points', 'from_url', 'pub_date', 'similarlities'],
    num_rows: 1000
}), 'excluded_fields': ['main_points', 'categories', 'tags']}, 'Combined response including title, document and main points': {'data': Dataset({
    features: ['id', 'title', 'description',

In [None]:
language_ratio_size = 0.5  # Ratio between English and local language.

In [None]:
input_datasets = []
for task, item in dataset_mapping.items():
    print("Prepare dataset for task:", task)
    split_dataset = item['data'].train_test_split(test_size=language_ratio_size)

    # prepare dataset use instruction and structure English language.
    english_dataset = process_fn(
        gemma_template, 
        split_dataset["train"], 
        excluded_fields=item['excluded_fields']
    )
    input_datasets.append(english_dataset)
                                                       
    # prepare dataset use instruction and structure Vietnamese language.
    vietnamese_dataset = process_fn(
        vietnamese_gemma_template, 
        split_dataset["test"], 
        excluded_fields=item['excluded_fields']
    )
    
    input_datasets.append(vietnamese_dataset)
    
# Test with hidden mask test
print_verify(english_dataset, is_masked=True, task_name="ENGLISH VERSION: {}".format(task.upper()))
# Test without hidden mask
print_verify(vietnamese_dataset, is_masked=False, task_name="VIETNAMESE VERSION: {}".format(task.upper()))

## Verification Expected
**Hidden Mask**:  The first **15%** of batches will include hidden mask words.

The dataset processing works perfectly across both language versions:

1. **English**: Includes hidden word masks as expected.
2. **Vietnamese**: No hidden word masks applied.

## Common Observations
- **Advanced Features**:
  - Instruction included: **Unigrams**, **bigrams**, and **trigrams** are generated correctly.
  - Structured formatting functions as intended.

In [None]:
print(input_datasets)

## Prepare No Instruction Dataset
- **10%**: Responses without instructional templates, fully structured format only.

To create a dataset without instructions:

1. **Template Configuration**:  
   - The creation process is similar to the standard template.  
   - Set `instance.instruction_template=[]` to omit the instruction template during generation.

2. **Dataset Merging**:  
   - Append the generated dataset to `input_datasets` to allow merging of all datasets together.

In [None]:
# empty instruction template
gemma_template.instruction_template = []  
vietnamese_gemma_template.instruction_template = []

no_instruction_dataset = dataset.select(range(five_percent_idx*4, five_percent_idx*5))
print(no_instruction_dataset)

split_dataset = no_instruction_dataset.train_test_split(test_size=language_ratio_size)

# prepare dataset use instruction and structure English language.
english_no_instruction_dataset = process_fn(gemma_template, split_dataset["train"])
input_datasets.append(english_no_instruction_dataset)
                                                   
# prepare dataset use instruction and structure Vietnamese language.
vietnamese_no_instruction_dataset = process_fn(vietnamese_gemma_template,  split_dataset["test"])
input_datasets.append(vietnamese_no_instruction_dataset)

# print verify
print_verify(english_no_instruction_dataset, is_masked=False, task_name="ENGLISH NO INSTRUCTION VERSION")
print_verify(vietnamese_no_instruction_dataset, is_masked=False, task_name="VIETNAMESE NO INSTRUCTION VERSION")

## Verification Expected
- The instruction template has been deleted.
- The structure template still works.

## Prepare Conversations Dataset
- **10%**: Converted into GPT-style conversations with default output as a response document and random additional fields (e.g., title, description, main points, categories, tags).

### Template Customization

- Modify the template to follow the conversational format as outlined in the [Gemma documentation](https://ai.google.dev/gemma/docs/formatting).
- I overwrite by adding eos token at the end of each model response.

### Example Template

```text
<start_of_turn>user

knock knock<end_of_turn><eos>

<start_of_turn>model

who is there<end_of_turn><eos>

<start_of_turn>user

Gemma<end_of_turn><eos>

<start_of_turn>model

Gemma who?<end_of_turn><eos>
```

### Implementation

In [None]:
from gemma_template.constants import INSTRUCTION_TEMPLATE, VIETNAMESE_INSTRUCTION_TEMPLATE

# Reset the template as instructed.
gemma_template.instruction_template = [INSTRUCTION_TEMPLATE]
vietnamese_gemma_template.instruction_template = [INSTRUCTION_TEMPLATE]

conversations_dataset = dataset.select(range(five_percent_idx*5, five_percent_idx*6))
split_dataset = conversations_dataset.train_test_split(test_size=language_ratio_size)
excluded_fields = ["title", "description", "main_points", "categories", "tags"]

# prepare dataset use instruction and structure English language.
english_conversations_dataset = process_fn(
    gemma_template, 
    split_dataset["train"], 
    excluded_fields=excluded_fields,
    output_format="openai",
    is_remove_data=False,
)
input_datasets.append(english_conversations_dataset)

                                                   
# prepare dataset use instruction and structure Vietnamese language.
vietnamese_conversations_dataset = process_fn(
    vietnamese_gemma_template, 
    split_dataset["test"], 
    excluded_fields=excluded_fields,
    output_format="openai",
    is_remove_data=False,
)
input_datasets.append(vietnamese_conversations_dataset)

# print verify
print(english_conversations_dataset['text'][0])

## Verification Expected

- The structure template still works. The GPT conversations structure matches.


## Prepare Fully Instruction and Prompt Structure Format
- **40%**: Responses using fully instructions and a prompt structure format.


In [None]:
from gemma_template.constants import INSTRUCTION_TEMPLATE, VIETNAMESE_INSTRUCTION_TEMPLATE

# Reset the template as instructed.
gemma_template.instruction_template = [INSTRUCTION_TEMPLATE]
vietnamese_gemma_template.instruction_template = [INSTRUCTION_TEMPLATE]

instruction_dataset = dataset.select(range(five_percent_idx*6, len(dataset)))
print(instruction_dataset)

split_dataset = instruction_dataset.train_test_split(test_size=language_ratio_size)

# prepare dataset use instruction and structure English language.
english_instruction_dataset = process_fn(gemma_template, split_dataset["train"])
input_datasets.append(english_instruction_dataset)
                                                   
# prepare dataset use instruction and structure Vietnamese language.
vietnamese_instruction_dataset = process_fn(vietnamese_gemma_template,  split_dataset["test"])
input_datasets.append(vietnamese_instruction_dataset)

# print verify
print_verify(english_instruction_dataset, is_masked=True, task_name="ENGLISH INSTRUCTION VERSION")
print_verify(vietnamese_instruction_dataset, is_masked=False, task_name="VIETNAMESE INSTRUCTION VERSION")

## Verification Expected

- The instruction and structure template still works.


## Merged Dataset
- A special token representing the end of a text template.
- Split 5% for warm up and merge all dataset together.
- **Shuffle dataset**: shuffling the data helps prevent bias during training, ensures randomness in batch selection, and prevents the model from learning patterns based on the order of the data.

In [None]:
from datasets import concatenate_datasets

wramup_dataset, train_dataset = [], []
for input_dataset in input_datasets:
    split_dataset = input_dataset.train_test_split(test_size=0.05)
    wramup_dataset.append(split_dataset['test'])
    train_dataset.append(split_dataset['train'])
    
wramup_dataset = concatenate_datasets(wramup_dataset).shuffle(seed=seed)
train_dataset = concatenate_datasets(train_dataset).shuffle(seed=seed)
train_dataset = concatenate_datasets([wramup_dataset, train_dataset])

# verify dataset
print(train_dataset)

#### **All Good! Now we begin to configure the Trainer for fine-tuning.**

In [None]:
elapsed = stopped_at - datetime.now()
print("Elapsed prepared dataset: %s. Took: %.2f seconds" % (str(elapsed), elapsed.total_seconds()))

# You can customize your local language configuration by following these instructions.

### Tricks

If you want a static prompt loop, configure all prompts with equal length. For example:

```python
title = ["a", "b"]
description = ["1", "2"]
```

The template will be created as follows:
- **Document 1:** title = `a`, description = `1`
- **Document 2:** title = `b`, description = `2`
- **Document 3:** title = `a`, description = `1`

To use a fully random set, configure different sizes of title and description. For example:

```python
title = ["a", "b"]
description = ["1", "2", "3"]
```

The template will be created as follows:
- **Document 1:** title = `a`, description = `1`
- **Document 2:** title = `b`, description = `2`
- **Document 3:** title = `a`, description = `3`
- **Document 4:** title = `b`, description = `1`

## Sample Customizing Local Language Configuration

```python
from gemma_template import *

VIETNAMESE_INSTRUCTION_TEMPLATE = """# Vai trò:
Bạn là một biên tập viên nội dung chuyên nghiệp, nhà phân tích ngôn ngữ và chuyên gia đa ngôn ngữ, chuyên về viết có cấu trúc và xử lý văn bản nâng cao.

# Nhiệm Vụ:
Mục tiêu chính của bạn là:
1. Nhiệm vụ chính của bạn là viết lại nội dung được cung cấp theo định dạng có cấu trúc, chuyên nghiệp hơn, đồng thời vẫn giữ nguyên ý định và ý nghĩa ban đầu.
2. Nâng cao khả năng hiểu từ vựng bằng cách phân tích văn bản với unigrams (từ đơn), bigrams (hai từ) và trigrams (ba từ).
3. Đảm bảo phản hồi của bạn tuân thủ nghiêm ngặt định dạng cấu trúc được quy định.
4. Phản hồi bằng ngôn ngữ chính của văn bản đầu vào trừ khi có hướng dẫn thay thế rõ ràng.

# Kỳ Vọng Bổ Sung:
1. Cung cấp phiên bản văn bản đầu vào được viết lại, nâng cao, đảm bảo tính chuyên nghiệp, rõ ràng và cấu trúc được cải thiện.
2. Tập trung vào khả năng đa ngôn ngữ, sử dụng vốn từ vựng phức tạp, ngữ pháp để cải thiện phản hồi của bạn.
3. Giữ nguyên ngữ cảnh và sắc thái văn hóa của văn bản gốc khi viết lại.
{% if topic_value %}\nTopics: {{ topic_value }}\n{% endif %}{% if keyword_value %}Keywords: {{ keyword_value }}\n{% endif %}

# Phân Tích Văn Bản:
Ví Dụ 1: Unigrams (nhóm 1 chữ cái){% for word in unigrams %}\n{{ word }} => Tiếng Việt ({{ language }}){% endfor %}

Phân Tích Văn Bản 1: đây là những từ thông dụng trong tiếng Việt ({{ language }}), cho biết văn bản được viết bằng tiếng Việt ({{ language }}).

Ví Dụ 2: Bigrams (nhóm 2 chữ cái){% for word in bigrams %}\n{{ word }} => Tiếng Việt ({{ language }}){% endfor %}
Phân Tích Văn Bản 2: các từ ghép thường gặp trong Tiếng Việt ({{ language }}) xác nhận bối cảnh ngôn ngữ.

Ví Dụ 3: Trigrams (nhóm 3 chữ cái)\n{% for word in trigrams %}{{ word }} => Tiếng Việt ({{ language }}){% endfor %}
Phân Tích Văn Bản 3: các từ ghép 3 chữ liên tiếp là những từ tiếng Việt sử dụng thường xuyên, xác nhận sự cần thiết phải phản hồi bằng Tiếng Việt ({{ language }}).

# Kết Luận Phân Tích Văn Bản:
Phân tích ngôn ngữ xác nhận văn bản chủ yếu bằng Tiếng Việt ({{ language }}). Do đó, phản hồi phải được cấu trúc và viết bằng Tiếng Việt ({{ language }}). để phù hợp với văn bản và ngữ cảnh gốc.
"""  # noqa: E501

VIETNAMESE_PROMPT_TEMPLATE = """{% if prompt %}\n\n# Đầu Vào Văn Bản:\n{{ prompt }}\n\n{% endif %}{% if structure_fields %}# Định Dạng Cấu Trúc Phản Hồi:
Bạn phải tuân theo cấu trúc phản hồi:
{% for field in structure_fields %}{{ field.label }}\n{% endfor %}

Bằng cách tuân thủ định dạng này, phản hồi sẽ duy trì tính toàn vẹn về mặt ngôn ngữ đồng thời tăng cường tính chuyên nghiệp, cấu trúc và sự phù hợp với mong đợi của người dùng.
{% endif %}"""  # noqa: E501

VIETNAMESE_INPUT_TEMPLATE = """{{ system_prompt }}
{% if instruction %}\n{{ instruction }}\n{% endif %}
{% if prompt_structure %}{{ prompt_structure }}\n{% else %}{{ prompt }}\n{% endif %}
# Văn Bản:
{{ input }}
{% if topic_value %}\nDanh Mục: {{ topic_value }}\n{% endif %}{% if keyword_value %}Từ Khoá: {{ keyword_value }}\n{% endif %}
"""

VIETNAMESE_OUTPUT_TEMPLATE = """{% if structure_fields %}{% for field in structure_fields %}## **{{ field.label.custom or field.label.default }}:**\n{% if field.key == 'title' %}### {% endif%}{{ field.value }}\n\n{% endfor %}{% else %}{{ output }}{% endif %}"""

vietnamese_gemma_template = Template(
    input_template=[VIETNAMESE_INPUT_TEMPLATE],
    output_template=[VIETNAMESE_OUTPUT_TEMPLATE],
    instruction_template=[VIETNAMESE_INSTRUCTION_TEMPLATE],
    prompt_template=[VIETNAMESE_PROMPT_TEMPLATE],
    end_sep="và",
    system_prompts=[
        (
            "Bạn là một nhà sáng tạo nội dung, viết nội dung chuyên nghiệp biết nhiều"
            " ngôn ngữ."
        ),
    ],
    prompts=[
        "Viết lại nội dung này để thân thiện với SEO. Bao gồm các từ khóa có liên quan, tối ưu hóa tiêu đề và tiêu đề phụ, và đảm bảo văn bản trôi chảy tự nhiên cho các công cụ tìm kiếm và người đọc.",
        "Viết lại bài viết này để làm cho nó đơn giản hơn và dễ hiểu hơn đối với đối tượng chung. Sử dụng ngôn ngữ rõ ràng và súc tích trong khi vẫn giữ nguyên ý nghĩa ban đầu và các chi tiết chính.",
        "Tái hiện bài viết này với giọng điệu hấp dẫn và sáng tạo hơn. Thêm phép ẩn dụ, phép so sánh hoặc các yếu tố kể chuyện để làm cho nó hấp dẫn hơn đối với người đọc.",
        "Viết lại bài viết này để làm cho nó thuyết phục và hấp dẫn hơn. Tập trung vào việc củng cố các lập luận, thu hút cảm xúc và sử dụng các kỹ thuật tu từ để thuyết phục người đọc.",
        "Viết lại bài viết này để làm nổi bật đề xuất giá trị độc đáo của nó trong khi đảm bảo nó được xếp hạng tốt cho các từ khóa mục tiêu.",
        "Viết lại nội dung này với giọng điệu có thẩm quyền, kết hợp các nguồn, dữ liệu và tài liệu tham khảo đáng tin cậy để tăng độ tin cậy và thứ hạng SEO.",
        "Viết lại bài viết này để đối tượng chuyên nghiệp, tập trung vào các chi tiết kỹ thuật, thuật ngữ chuyên ngành và thông tin chi tiết có thể thực hiện được.",
    ],
    position=FieldPosition(
        title=["Tiêu đề"],
        description=["Mô tả"],
        document=["Bài viết chỉnh sửa"],
        main_points=["Điểm nổi bật", "Điểm chính"],
        categories=["Danh mục", "Chủ đề"],
        tags=["Từ khoá"],
    ),
    title=[
        "Viết lại tiêu đề để phản ánh từ khóa và chủ đề chính.",
        "Viết lại tiêu đề để làm cho nó ngắn gọn, dễ nhớ và được tối ưu hóa cho SEO.",
        "Tạo một tiêu đề ngắn gọn, rõ ràng, thu hút sự chú ý và được tối ưu hóa cho SEO.",
        "Phát triển một tiêu đề hấp dẫn, thân thiện với SEO và thể hiện chính xác nội dung.",
        "Sửa đổi tiêu đề để đảm bảo từ khóa liên quan, hấp dẫn và dễ hiểu.",
        "Soạn một tiêu đề truyền tải rõ ràng chủ đề và được tối ưu hóa cho các công cụ tìm kiếm.",
        "Viết lại tiêu đề để tối đa hóa sự rõ ràng, hấp dẫn và liên quan đến nội dung.",
        "Tạo một tiêu đề bổ sung cho tiêu đề nhưng thêm chi tiết hơn. Làm cho tiêu đề mang tính đối thoại để thu hút người đọc.",
        "Tập trung vào một góc độ gây ngạc nhiên hoặc độc đáo trong tiêu đề. Bao gồm các con số hoặc số liệu thống kê trong tiêu đề để tạo sự cụ thể.",
        "Kết hợp các từ khóa hoặc cụm từ thịnh hành vào tiêu đề. Đảm bảo tiêu đề có liên quan và gắn chặt với nội dung.",
        "Viết lại tiêu đề sao cho ngắn gọn, rõ ràng và tối ưu hóa SEO.",
        "Thêm từ ngữ mạnh mẽ vào tiêu đề để gợi sự tò mò hoặc cảm xúc.",
        "Tập trung vào những lợi ích trong tiêu đề để thu hút sự chú ý.",
        "Sử dụng động từ hành động để tạo tiêu đề hấp dẫn và năng động.",
        "Viết lại tiêu đề để phản ánh từ khóa và chủ đề chính.",
    ],
    description=[
        "Viết lại phần mô tả bằng một tuyên bố hoặc số liệu thống kê táo bạo để thu hút sự chú ý.",
        "Viết phần mô tả bài viết trong một hoặc hai câu, đồng thời tập trung vào lợi ích của người đọc và khơi gợi sự tò mò.",
        "Bắt đầu phần mô tả bằng một giai thoại hoặc câu chuyện hấp dẫn để tối ưu hóa SEO.",
        "Viết lại phần mô tả để làm nổi bật một sự thật đáng ngạc nhiên hoặc hiểu biết độc đáo khiến người đọc tò mò.",
        "Soạn thảo phần mô tả trong một hoặc hai câu, nhấn mạnh giá trị mà người đọc sẽ nhận được từ bài viết.",
        "Bắt đầu phần mô tả bằng một câu hỏi gợi mở để khơi dậy sự tò mò và khuyến khích nhấp chuột.",
        "Viết phần mô tả bắt đầu bằng một mẹo hoặc lời khuyên hữu ích để thu hút ngay lập tức đối tượng mục tiêu.",
        "Tạo phần mô tả tập trung vào cách bài viết giải quyết một vấn đề hoặc thách thức phổ biến mà người đọc gặp phải.",
        "Viết lại phần mô tả bằng ngôn ngữ khơi gợi cảm xúc, truyền cảm hứng cho người đọc khám phá sâu hơn.",
    ],
    document=[
        "Viết lại bài viết này để đối tượng chuyên nghiệp, tập trung vào các chi tiết kỹ thuật, thuật ngữ chuyên ngành và thông tin chi tiết có thể thực hiện được.",
        "Viết lại nội dung này với giọng điệu có thẩm quyền, kết hợp các nguồn, dữ liệu và tài liệu tham khảo đáng tin cậy để tăng độ tin cậy và thứ hạng SEO.",
        "Viết lại bài viết này để làm nổi bật đề xuất giá trị độc đáo của nó trong khi đảm bảo nó được xếp hạng tốt cho các từ khóa mục tiêu.",
        "Viết lại bài viết này để làm cho nó thuyết phục và hấp dẫn hơn. Tập trung vào việc củng cố các lập luận, thu hút cảm xúc và sử dụng các kỹ thuật tu từ để thuyết phục người đọc.",
        "Tái hiện bài viết này với giọng điệu hấp dẫn và sáng tạo hơn. Thêm phép ẩn dụ, phép so sánh hoặc các yếu tố kể chuyện để làm cho nó hấp dẫn hơn đối với người đọc.",
        "Viết lại bài viết này để làm cho nó đơn giản hơn và dễ hiểu hơn đối với đối tượng chung. Sử dụng ngôn ngữ rõ ràng và súc tích trong khi vẫn giữ nguyên ý nghĩa ban đầu và các chi tiết chính.",
        "Viết lại nội dung này để thân thiện với SEO. Bao gồm các từ khóa có liên quan, tối ưu hóa tiêu đề và tiêu đề phụ, và đảm bảo văn bản trôi chảy tự nhiên cho các công cụ tìm kiếm và người đọc.",
    ],
    main_points=[
        "Tóm tắt các ý chính thành các điểm chính ngắn gọn, có thể hành động để thêm ngữ cảnh nhằm khiến chúng hấp dẫn hơn.",
        "Đơn giản hóa các điểm chính ban đầu để làm cho chúng rõ ràng hơn và thân thiện hơn với người đọc.",
        "Đảm bảo tất cả các điểm chính đều có mạch lạc hợp lý từ điểm này sang điểm khác.",
        "Tóm tắt những điểm chính từ văn bản này thành các điểm chính, đảm bảo tính rõ ràng và súc tích.",
        "Tạo một tài liệu tóm tắt chắt lọc các chủ đề chính và các điểm chính hỗ trợ từ văn bản này.",
        "Viết lại các điểm chính để súc tích hơn và dễ thực hiện hơn.",
        "Nhóm các điểm chính liên quan để tổ chức tốt hơn.",
        "Thêm ví dụ hoặc giải thích ngắn gọn cho mỗi điểm chính.",
        "Đơn giản hóa các ý tưởng phức tạp thành các điểm chính dễ hiểu.",
        "Viết lại các điểm chính dưới dạng câu hỏi để làm cho chúng hấp dẫn hơn.",
        "Đảm bảo tất cả các điểm chính đều có sự liên kết hợp lý từ điểm này sang điểm khác.",
        "Biến các khái niệm trừu tượng thành các hành động cụ thể trong các điểm chính.",
    ],
    categories=[
        "Viết lại các danh mục để phù hợp với chủ đề phổ biến theo bài viết.",
        "Tạo danh sách danh mục để phù hợp với các từ khóa được sử dụng trong bài viết.",
        "Chọn các danh mục cải thiện SEO và khả năng khám phá theo nội dung bài viết.",
        "Chỉ định các danh mục phản ánh chủ đề chính của bài viết.",
        "Viết lại các danh mục để phù hợp với các tiêu chuẩn của ngành hoặc các chủ đề phổ biến.",
        "Tập trung vào các danh mục rộng nhưng cụ thể để tổ chức tốt hơn.",
        "Đảm bảo các danh mục phản ánh sở thích của đối tượng mục tiêu.",
        "Viết lại các danh mục để phù hợp với các từ khóa được sử dụng trong bài viết.",
        "Chọn các danh mục cải thiện SEO và khả năng khám phá.",
        "Sử dụng các danh mục phù hợp với các bài viết tương tự về chủ đề này.",
        "Tránh các danh mục quá rộng hoặc mơ hồ bằng cách cụ thể.",
        "Viết lại các danh mục để làm nổi bật các lĩnh vực trọng tâm chính của bài viết.",
    ],
    tags=[
        "Tạo danh sách 5 từ khóa thịnh hành giúp SEO tốt hơn.",
        "Tạo danh sách 5 từ khóa có liên quan phù hợp với truy vấn tìm kiếm phổ biến.",
        "Tập trung vào các từ khóa phổ biến trong bài viết để SEO tốt hơn dưới 5 từ khoá.",
        "Viết lại 3 đến 5 từ khóa để bao gồm các từ khóa có liên quan.",
        "Thêm các cụm từ khóa thịnh hành để tăng khả năng hiển thị trong khoảng 3 đến 5 từ khoá.",
        "Sử dụng các từ khóa phản ánh các chủ đề phụ hoặc chủ đề của bài viết trong phạm vi dưới 5 từ khoá.",
        "Đảm bảo các từ khóa phù hợp với các truy vấn tìm kiếm phổ biến dưới 5 từ khoá.",
        "Viết lại từ 3 đến 5 từ khóa để làm cho chúng cụ thể và có mục tiêu hơn.",
        "Tạo 5 từ khóa phù hợp với nội dung tương tự để có cơ hội quảng cáo chéo.",
    ],
)

response = vietnamese_gemma_template.apply_template(
    title="Gemma open models",
    description="Gemma: Introducing new state-of-the-art open models.",
    main_points=["Main point 1", "Main point 2"],
    categories=["Artificial Intelligence", "Gemma"],
    tags=["AI", "LLM", "Google"],
    document="Gemma open models are built from the same research and technology as Gemini models. Gemma 2 comes in 2B, 9B and 27B and Gemma 1 comes in 2B and 7B sizes.",
    output="A new family of open language models demonstrating strong performance across academic benchmarks for language understanding, reasoning, and safety.",
    max_hidden_words=.05,  # Hide 5% words of per documents.
    min_chars_length=2,  # Minimum character of a word, used to create unigrams, bigrams, and trigrams. Default is 2.
    max_chars_length=0,  # Maximum character of a word, used to create unigrams, bigrams and trigrams. Default is 0.
)  # remove kwargs if not used.

print(response)
```

# Automatic Model Save Every Hour

This repository includes an implementation for automatically saving model checkpoints during training on Kaggle. Due to Kaggle's training time limit, the `TrainerCallback` class has been extended to handle periodic backups. 

The maximum running time is set to 11 hours 30 minutes, and you can configure it using the `stopped_at` parameter (configuration on top of this notebook).

## Automatic Backup Implementation

The following code demonstrates how the `HubCallback` class is implemented to save checkpoints every hour:

In [None]:
import os
import json
import torch
from pathlib import Path
from transformers import TrainerCallback, Trainer
from transformers.trainer_callback import TrainerControl, TrainerState
from transformers.training_args import TrainingArguments

TRAINING_ARGS_NAME = "training_args.bin"
TRAINER_STATE_NAME = "trainer_state.json"
OPTIMIZER_NAME = "optimizer.pt"
OPTIMIZER_NAME_BIN = "optimizer.bin"
SCHEDULER_NAME = "scheduler.pt"
SCALER_NAME = "scaler.pt"
FSDP_MODEL_NAME = "pytorch_model_fsdp"

README = """
# Training Arguments
Project Id: {project_id}
Training Steps: {step}

### Hyperparameters:
{hyperparameters}
"""

class HubCallback(TrainerCallback):
    def __init__(self, trainer: Trainer, project_id, stopped_at, save_every_n_minutes=60):
        super().__init__()
        self.trainer = trainer
        self.project_id = project_id
        self.stopped_at = stopped_at
        self.save_every_n_minutes = save_every_n_minutes
        self.save_after = datetime.now() + timedelta(minutes=save_every_n_minutes)

    def on_step_begin(self, train_args: TrainingArguments, state: TrainerState, control: TrainerControl, **kwargs):
        if datetime.now().timestamp() > self.stopped_at.timestamp():
            self.save_checkpoint(train_args)
            control.should_training_stop = True
            control.should_save = True
        else:
            if datetime.now().timestamp() > self.save_after.timestamp():
                self.save_after = datetime.now() + timedelta(minutes=self.save_every_n_minutes)
                self.save_checkpoint(train_args)

    def save_checkpoint(self, train_args: TrainingArguments, output_dir: str = ".checkpoint/"):
        try:
            print("*" * 30, " SAVE CHECKPOINT ", "*" * 30)
            Path(output_dir).mkdir(parents=True, exist_ok=True)
            self.trainer.save_model(output_dir, _internal_call=True)
            self.trainer.state.save_to_json(os.path.join(output_dir, TRAINER_STATE_NAME))
            torch.save(self.trainer.optimizer.state_dict(), os.path.join(output_dir, OPTIMIZER_NAME))
            torch.save(self.trainer.lr_scheduler.state_dict(), os.path.join(output_dir, SCHEDULER_NAME))
            with open(os.path.join(output_dir, "README.md"), "w", encoding="utf-8") as fp:
                readme_doc = README.format(
                    project_id=self.project_id,
                    step=self.trainer.state.global_step,
                    hyperparameters=json.dumps(train_args.to_dict(), ensure_ascii=False, indent=4)
                )
                fp.write(readme_doc)

            print("*" * 30, " PROCESSED PUSH TO HUB ", "*" * 30)
            self.push_to_hub(train_args, output_dir)
            print("*" * 30, " COMPLETED PUSH TO HUB ", "*" * 30)

        except Exception as e:
            print("FAILED TO SAVE CHECKPOINT:", e)

    def push_to_hub(self, train_args: TrainingArguments, output_dir: str = ".checkpoint/"):
        self.trainer.tokenizer.save_pretrained(output_dir)
        self.trainer.model.save_pretrained(output_dir)
        self.trainer.tokenizer.push_to_hub(
            self.project_id,
            private=train_args.hub_private_repo,
            token=train_args.hub_token
        )
        self.trainer.model.push_to_hub(
            self.project_id,
            commit_message="Training steps: {}".format(self.trainer.state.global_step),
            private=train_args.hub_private_repo,
            token=train_args.hub_token
        )

## Configure WanDB

In [None]:
import os
import wandb

run = wandb.init(
    project=project_id,
)

## Configure Hyperparameters

Below is an configuration for `TrainingArguments`:

In [None]:
from trl import SFTTrainer
from transformers import TrainingArguments
from unsloth import is_bfloat16_supported

train_args = TrainingArguments(
    # ---Output settings--
    # Output directory where model predictions and checkpoints will be stored
    output_dir = f".results/{project_id}",
    logging_dir = f".results/{project_id}/logs",
    overwrite_output_dir = True,
    # No eval running
    do_eval = False,
    # Save strategy
    save_strategy = "steps",
    # Save steps
    save_steps = 300,
    # Save total limit
    save_total_limit = 1,
    # Batch size per GPU core for training
    per_device_train_batch_size = 2,
    # Number of update steps to accumulate the gradients for
    gradient_accumulation_steps = 4,
    # Train epochs
    num_train_epochs = 1,
    # Learning rate
    learning_rate = 2e-4,
    # Enable float16 precision
    fp16 = not torch.cuda.is_bf16_supported(),
    # Enable bfloat16 precision. False then fp16 is True
    bf16 = torch.cuda.is_bf16_supported(),
    # Logging: Log every X update step
    logging_steps = 3,
    # Optimizer to use
    optim = "adamw_8bit",
    # Weight decay
    weight_decay = 0.1,
    lr_scheduler_type = "linear",
    # Ratio of steps for a linear warmup (from 0 to learning rate)
    warmup_ratio = 0.05,
    hub_private_repo = True,
    remove_unused_columns = True,
    seed = seed,
)

## Configure SFT Trainer and Trainer

In [None]:
from trl import SFTTrainer

trainer = SFTTrainer(
    model=model,
    tokenizer=tokenizer,
    train_dataset=train_dataset,
    dataset_text_field="text",
    max_seq_length=max_seq_length,
    dataset_num_proc=2,
    packing=False,
    args=train_args,
)

# Add HubCallback to save model every hour and stop after 11 hours 30 minutes
trainer.add_callback(HubCallback(trainer, project_id, stopped_at))

# Start training
trainer = trainer.train()

## Push to HuggingFace

In [None]:
try:
    with open(os.path.join(train_args.output_dir, "README.md"), "w", encoding="utf-8") as fp:
        readme_doc = README.format(
        project_id=project_id,
        step=trainer.state.global_step,
        hyperparameters=json.dumps(train_args.to_dict(), ensure_ascii=False, indent=4)
    )
    fp.write(readme_doc)
except:
    pass
    
try:
    model.save_pretrained(project_id)
    tokenizer.save_pretrained(project_id)
except:
    pass


In [None]:
try:
    model.push_to_hub(project_id)
    tokenizer.push_to_hub(project_id)
except:
    pass

In [None]:
elapsed = stopped_at - datetime.now()
print("Elapsed:", str(elapsed))

Model Evaluation Metric
=======================

This repository provides tools for evaluating models using **GoogleBLEU** and **ROUGE**, following the guidelines outlined in the [HuggingFace documentation on choosing a metric](https://huggingface.co/docs/evaluate/choosing_a_metric).

Overview
--------

The evaluation metrics implemented in this project include:

1.  **GoogleBLEU**: A variant of BLEU designed for evaluating machine translation quality.
    
2.  **ROUGE**: Widely used for evaluating text summarization and machine translation models.
    

These metrics ensure a comprehensive assessment of model performance across various natural language processing tasks.

Instructions
------------

1.  Follow the instructions on the [HuggingFace Evaluation Metric Guide](https://huggingface.co/docs/evaluate/choosing_a_metric) to integrate these metrics into your workflow.
    
2.  Due to the runtime limitations of Kaggle trainers, the complete dataset results are hosted externally. You can view the full benchmark results here: [Benchmark Results](https://github.com/thewebscraping/gemma-template/blob/main/docs/benchmark.md).
    

Results
-------

A summary of evaluation results can be found in the [benchmark documentation](https://github.com/thewebscraping/gemma-template/blob/main/docs/benchmark.md).

References
----------

*   HuggingFace Documentation: [Choosing a Metric](https://huggingface.co/docs/evaluate/choosing_a_metric)
    
*   Benchmark Data: [Benchmark Results](https://github.com/thewebscraping/gemma-template/blob/main/docs/benchmark.md)
    

### Example Code
-------------


In [None]:
import torch

from unsloth import FastLanguageModel
model, tokenizer = FastLanguageModel.from_pretrained(
    project_id,
    max_seq_length = max_seq_length,
    dtype = None,
    load_in_4bit = True,
)
FastLanguageModel.for_inference(model)

device = "cuda" if torch.cuda.is_available() else "cpu"

stopped_at = stopped_at + timedelta(minutes=15)

def is_expired(expired_at):
    if datetime.now().timestamp() > expired_at.timestamp():
        return True
    return False

### Prepare Test Dataset

1. **Combined Prompt**:
   - **10%**: Prompt include the `title` and `document`.
   - **10%**: Prompt include the `title`, `document`, and `description`.
   - **10%**: Prompt include the `title`, `document`, and `main points`.
   - **10%**: Prompt include the `title`, `document`, `categories`, and `tags`.
   - **60%**: Prompt fully structure format.
   - **Remove instruction template for evaluate.**
   - **Overwrite default prompt structure template.**

In [None]:
try:
    test_dataset = load_from_json_file("/kaggle/input/gemma-template/test-gemma-template.json")
except FileNotFoundError:
    test_dataset = load_from_huggingface_hub("twodev/gemma-template", split='test')

total_rows = len(test_dataset)
five_percent_idx = int(total_rows * 0.1)

dataset_mapping = {
    "Combined response including title and document": {
        "data": test_dataset.select(range(0, five_percent_idx)),
        "excluded_fields": ["description", "main_points", "categories", "tags"]
    },
    "Combined response including title, document and description": {
        "data": test_dataset.select(range(five_percent_idx, five_percent_idx * 2)),
        "excluded_fields": ["main_points", "categories", "tags"]
    },
    "Combined response including title, document and main points": {
        "data": test_dataset.select(range(five_percent_idx * 2, five_percent_idx * 3)),
        "excluded_fields": ["description", "categories", "tags"]
        
    },
    "Combined response including title, document and categories and tags": {
        "data": test_dataset.select(range(five_percent_idx * 3, five_percent_idx * 4)),
        "excluded_fields": ["description", "main_points"]
        
    },
    "Prompt Structure Format": {
        "data": test_dataset.select(range(five_percent_idx * 4, len(test_dataset))),
        "excluded_fields": []
        
    },
}

print(dataset_mapping)

### Configure Template
- Remove instruction template and override default prompt structure template for evaluate.
- There is also another method used: `gemma_template.generate_prompt(**kwargs)`

In [None]:
GEMMA_PROMPT_TEMPLATE = """<start_of_turn>user
{input}<end_of_turn>
<start_of_turn>model

"""

PROMPT_TEMPLATE = """{% if prompt %}\n\n{{ prompt }}\n\n{% endif %}{% if structure_fields %}# Response Structure Format:
You must follow the response structure:

{% for field in structure_fields %}{{ field.label }}\n{% endfor %}
{% endif %}"""

VIETNAMESE_PROMPT_TEMPLATE = """{% if prompt %}\n\n{{ prompt }}\n\n{% endif %}{% if structure_fields %}# Định Dạng Cấu Trúc Phản Hồi:
Bạn phải tuân theo cấu trúc phản hồi:

{% for field in structure_fields %}{{ field.label }}\n{% endfor %}
{% endif %}"""

gemma_template.instruction_template = []  
gemma_template.prompt_template = [PROMPT_TEMPLATE]
vietnamese_gemma_template.instruction_template = []
vietnamese_gemma_template.prompt_template = [VIETNAMESE_PROMPT_TEMPLATE]

eval_dataset = []
input_datasets = []
for task, item in dataset_mapping.items():
    if is_expired(stopped_at):
        break
        
    print("Prepare dataset for task:", task)
    split_dataset = item['data'].train_test_split(test_size=language_ratio_size)

    # prepare dataset use instruction and structure English language.
    english_dataset = gemma_template.load_dataset(
        split_dataset["train"], 
        excluded_fields=item['excluded_fields'],
        output_format='alpaca',
    )
    english_dataset = english_dataset.map(lambda x: {"task": ["English" for _ in x["input"]], }, batched=True)
    input_datasets.append(english_dataset)
                                                       
    # prepare dataset use instruction and structure Vietnamese language.
    vietnamese_dataset = vietnamese_gemma_template.load_dataset(
        split_dataset["test"], 
        excluded_fields=item['excluded_fields'],
        output_format='alpaca',
    )
    vietnamese_dataset = vietnamese_dataset.map(lambda x: {"task": ["Vietnamese" for _ in x["input"]], }, batched=True)
    input_datasets.append(vietnamese_dataset)

from datasets import concatenate_datasets

if input_datasets:
    eval_dataset = concatenate_datasets(input_datasets).shuffle(seed=42)
    eval_dataset = eval_dataset.map(lambda x: {"prompt": [GEMMA_PROMPT_TEMPLATE.format(input=input_str) for input_str in x["input"]], }, batched=True)
    print(eval_dataset)
    print(eval_dataset[0]['prompt'])

### Run Evaluate

In [None]:
import json
import evaluate

def clean_response(response: str):
    response = response.split("<start_of_turn>model")[-1].split("<end_of_turn>")
    return response[0].strip()


google_bleu = evaluate.load("google_bleu")
rouge = evaluate.load('rouge')
eval_responses = []

for idx, item in enumerate(eval_dataset):

    # Remove `is_expired` for fully eval, this code is avoid Kaggle limit.
    if is_expired(stopped_at):
        break

    task = str(item['task']).upper()
    input_str = item['prompt']
    output_str = item['output'].strip()
    predictions, references = [output_str], []
    input_ids = tokenizer(input_str, return_tensors="pt").to(device)
    outputs = model.generate(**input_ids, max_new_tokens=1024)

    model_references = []
    rouge_score, google_bleu_score = {}, {}

    try:
        for output in outputs:
            model_response = tokenizer.decode(output)
            model_references.append(model_response)
            references.append(clean_response(model_response))
        
        if not (predictions and references):
            continue

        try:
            rouge_score = rouge.compute(predictions=predictions, references=references)
            rouge_score = {k: float(v) for k, v in rouge_score.items()}
        except:
            pass

        try:
            google_bleu_score = google_bleu.compute(predictions=predictions, references=references)
        except:
            pass
            
    except:
        pass
    
    try:
        item.update({"rouge": rouge_score, "google_bleu": google_bleu_score, "model_references": model_references})
        eval_responses.append(json.loads(json.dumps(item, default=str)))
    except:
        pass

### Save Evaluate Data 

In [None]:
def is_valid_score(r: dict, field: str):
    if isinstance(r, dict):
        if r.get(field):
            return True
        
def write_json(obj, path: str = "dump.json", *, ensure_ascii=False, indent=4):
    with open(path, "w", encoding="utf-8") as json_file:
        json.dump(obj, json_file, ensure_ascii=ensure_ascii, indent=4, default = str)


try:
    write_json(eval_responses, project_id + "/example_eval.json")
except:
    pass


total_rows = len(eval_responses)
try:
    rouge_mapping = {
        "rouge1": sum([r['rouge']['rouge1'] for r in eval_responses if is_valid_score(r, "rouge")]) / total_rows,
        "rouge2": sum([r['rouge']['rouge2'] for r in eval_responses if is_valid_score(r, "rouge")]) / total_rows,
        "rougeL": sum([r['rouge']['rougeL'] for r in eval_responses if is_valid_score(r, "rouge")]) / total_rows,
        "rougeLSum": sum([r['rouge']['rougeLsum'] for r in eval_responses if is_valid_score(r, "rouge")]) / total_rows,
    }
    print("AVG ROUGE SCORE:", str(rouge_mapping))
except:
    pass

try:
    google_bleu_mapping = {"google_bleu": sum([r['google_bleu']['google_bleu'] for r in eval_responses if is_valid_score(r, "google_bleu")]) / total_rows}
    print("AVG GOOGLE BLEU:", str(google_bleu_mapping))
    print("*" * 90)
    print("\n")
except:
    pass

try:
    for response in eval_responses[:5]:
        print("=" * 90)
        print("*" * 30, " ORIGIN OUTPUT ", "*" * 30)
        print(response['output'])
        print("*" * 30, " MODEL OUTPUT ", "*" * 30)
        print(clean_response(response['model_references'][0]))
        print("*" * 30, " SCORE ", "*" * 30)
        print("ROUGE SCORE:", response['rouge'])
        print("GOOGLE BLEU SCORE:", response['google_bleu'])
        print("=" * 90)
except:
    pass

In [None]:
!rm -rf .checkpoint wandb .results

## Vietnamese VMLU Evaluation
If you are interested in using Vietnamese MMLU Evaluation you can use the following code:

**Note:** please visit to [https://vmlu.ai/](https://vmlu.ai/) for download eval dataset data.

In [None]:
# import pandas as pd
# import numpy as np
# import torch
# import json
# import glob
# import logging
# import os
# import argparse
# import time

# from string import Template
# from pathlib import Path
# from tqdm import tqdm
# from typing import Any

# import warnings
# warnings.simplefilter("ignore")

# def predict(args):
#     device = args.device
#     folder = args.folder

#     path = args.project_id.split('/')[-1].strip()
#     filename = f"./logs/{args.project_id}.log"
    
#     ## create directory
#     directory_path = './logs'
#     if not os.path.exists(directory_path):
#         os.makedirs(directory_path)
        
#     # Configure logging
#     logging.basicConfig(filename=filename, level=logging.INFO, format='%(asctime)s - %(levelname)s: %(message)s')
#     logging.info(f'Model name: {args.project_id}')

#     # Create empty lists to store data
#     ids = []
#     questions = []
#     choices_A = []
#     choices_B = []
#     choices_C = []
#     choices_D = []
#     choices_E = []

#     # Read JSONL files
#     data_path = Path(folder)
#     jsonl_files = list(data_path.glob(args.dataset))

#     for file in jsonl_files:
#         with open(file, "r", encoding="utf-8") as f:
#             lines = f.readlines()
#             for line in lines:
#                 data = json.loads(line)
#                 ids.append(data["id"])
#                 questions.append(data["question"])
#                 choices = data["choices"]
#                 try:
#                     choices_A.append(choices[0])
#                 except:
#                     choices_A.append('')
#                 try:
#                     choices_B.append(choices[1])
#                 except:
#                     choices_B.append('')
#                 try:
#                     choices_C.append(choices[2])
#                 except:
#                     choices_C.append('')
#                 try:
#                     choices_D.append(choices[3])
#                 except:
#                     choices_D.append('')
#                 try:
#                     choices_E.append(choices[4])
#                 except:
#                     choices_E.append('')

#     # Create a DataFrame
#     df = pd.DataFrame({
#         "id": ids,
#         "prompt": questions,
#         "A": choices_A,
#         "B": choices_B,
#         "C": choices_C,
#         "D": choices_D,
#         "E": choices_E
#     })
#     logging.info(df.head())

#     preamble = \
#         'Chỉ đưa ra chữ cái đứng trước câu trả lời đúng (A, B, C, D hoặc E) của câu hỏi trắc nghiệm sau: '

#     template = Template(args.template)

#     def format_input(df, idx):
#         prompt = df.loc[idx, 'prompt']
#         a = df.loc[idx, 'A']
#         b = df.loc[idx, 'B']
#         c = df.loc[idx, 'C']
#         d = df.loc[idx, 'D']
#         e = df.loc[idx, 'E']

#         input_text = template.substitute(
#             preamble=preamble, prompt=prompt, a=a, b=b, c=c, d=d, e=e)

#         return input_text

#     inputs = args.tokenizer(format_input(df, 0), return_tensors="pt").to(device)
#     outputs = args.model.generate(**inputs, max_new_tokens=1)
#     answer = args.tokenizer.batch_decode(outputs, skip_special_tokens=True)
#     logging.info('Contruct a toy eg')
#     logging.info("Generated answer: %s", answer)

#     answers = []

#     start = time.time()
#     for idx in tqdm(df.index):
#         inputs = args.tokenizer(format_input(df, idx), return_tensors="pt").to(device)
#         outputs = args.model.generate(**inputs, max_new_tokens=args.max_new_tokens)
#         answer_decoded = args.tokenizer.batch_decode(outputs, skip_special_tokens=True)

#         last_element = answer_decoded[-1]
#         answer = last_element.split()[-1]
#         if "án:" in answer:
#             answer = "-"

#         answers.append(answer)

#     end = time.time()
#     duration = end - start
#     print('Time taken for running inference: ', duration)

#     df['answer'] = answers
#     logging.info(df.head())

#     return df

# from dataclasses import dataclass

# @dataclass
# class EvalArgs:
#     model: Any
#     tokenizer: Any
#     project_id: str = "gemma-2b"
#     folder: str = "./vmlu_v1.5"  # please visit to https://vmlu.ai/ for download eval dataset data.
#     dataset: str = "test.jsonl"
#     device: str = "cuda" if torch.cuda.is_available() else "cpu"
#     template: str = "$preamble\n\n$prompt\n\n $a\n $b\n $c\n $d\n $e\nĐáp án:"
#     max_new_tokens: int = 1

# eval_args = EvalArgs(model=model, tokenizer=tokenizer, project_id=project_id)
# df = predict(eval_args)
# df[['id','answer']].to_csv("./gemma-2b-vmlu-benchmark.csv", index = False)

In [None]:
print("Took: %.2f seconds." % (time.perf_counter() - start_at))
print("Task End:", str(datetime.now() - stopped_at))