## Lecture 4

### მონაცემთა აუგმენტაცია

მონაცემთა აუგმენტაცია გამოიყენება გასაწვრთნელი მონამენების ვარიაციის გასაზრდელად/მოსაგროვებლად ახალი მონაცემების შეგროვების გარეშე. განსაკუთრებით სასარგებლოა ბუნებრივი ენის დამუშავების მიმართლებით.

### კლასიკური მონაცემთა აუგმენტაციის მეთოდები

![Alt text](imgs/classical_data_augmentation_methods.png)

### ხელოვნურ ინტელექტზე დაფუძნებული მონაცემთა აუგმენტაციის მეთოდები (დიდი ენობრივი მოდელების გამოყენებით)

დიდი ენობრივი მოდელები (LLMs), როგორიცაა OpenAI-ს GPT, შეგვიძლია გამოვიყენოთ მონაცემების აუგმენტაციისთვის.

**უპირატესობები**
* მრავალფეროვანი და მასშტაბური მონაცემების გენერაცია
* კონფიდენციალურობის დაცვა
* ეფექტური

**გამოყენება**
* AI მოდელების სწავლება
* კვლევები და განვითარება

**გამოწვევები**
* მონაცემების ხარისხის უზრუნველყოფა
* მიკერძოების თავიდან აცილება

![Alt text](imgs/LLM_Pipeline.png)

### აუგმენტაციის ტექნიკების პროექტში გამოყენება

ენობრივი მოდელების გამოყენებით აუგმენტაცია შეგვიძლია ვიკიპედიისთვისაც გამოვიყენოთ. მაგალითისთვის, შეგვიძლია გამოვიყენოთ შემდეგი მეთოდები:
- განვავრცოთ ქართულ ვიკიპედიაში არსებული სტატიები
- შევასწოროთ ფორმატი სტაიტებში (საჭიროების შემთხვევაში)
- გავაკეთოთ სტატიების პერიფრაზირება
- დავამატოთ სრულიად ახალი სტატიები ქართულ ვიკიპედიაში

კონკრეტულად ამ შემთხვევაში, შეგვიძლია Anthropic-ის ერთ-ერთი მრავალენოვანი მოდელი - haiku - როგორც დიდი ენობრივი მოდელი.

#### გავამზადოთ Antropic API

In [15]:
# !pip install anthropic

import anthropic

# მონაცემების დასაგენერირებლად საჭირო იქნება API KEY
my_api_key = "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"

# ასევე საჭიროა Antropic-ის API-ს ინიციალიზაცია
client = anthropic.Anthropic(
    api_key=my_api_key,
)

#### გავამზადოთ Prompt

In [3]:
# განსვსაზღვროთ ფუნქცია, რომელიც მიიღებს სტატიის სახელს და დააგენერირებს შესაბამისს სტატიას
# მონაცემთა გენერაციისთის prompt-ს აქვს ძალიან დიდი მნიშვნელობა - ის ეუბნება მოდელს დააგენერიროს ჩვენთვის საჭირო სტატიები
def get_user_prompt(article_name):
    prompt = f"""შენი დავალებაა შექმნა ვიკიპედიის სტილის სტატია მოცემულ თემაზე ქართულ ენაზე. \
სტატია უნდა იყოს მოკლე, მაგრამ ინფორმაციული და დაწერილი ვიკიპედიის სტილში, რათა შესაძლებელი იყოს მისი დამატება ქართულ ვიკიპედიაში.

სტატიის სათაური:
<სათაური>
{article_name}
</სათაური>

<სტატია>
ჩაწერე შენი ვიკიპედიის სტილის სტატია აქ.
</სტატია>

გაითვალისწინე, რომ სტატია უნდა იყოს დაახლოებით 200-500 სიტყვა. ეცადე, რომ სტატია იყოს ობიექტური და არ შეიცავდეს პირად მოსაზრებებს."""
    return prompt

In [6]:
def get_text_from_haiku(user_prompt):
    message = client.messages.create(
        model="claude-3-haiku-20240307",
        max_tokens=2048, # მაქსიმალური ტოკენების რაოდენობა რასაც ერთ გამოძახებაზე API-სგან მივიღებთ
        temperature=0.6, # პარამეტრი რომელიც არეგულირებს პასუხების "მრავალფეროვნებას": მაღალი temperature -> მრავალფეროვანი ტექსტი
        messages=[
            {
                "role": "user",
                "content": [
                    {
                        "type": "text",
                        "text": user_prompt
                    }
                ]
            }
        ]
    )
    return message

In [13]:
# ახლა შეგვიძლია დავაგენერიროთ ახალი სტატია:
# ინგლისური სტატიის ლინკი: https://en.wikipedia.org/wiki/Large_language_model (ქართულ ენაზე სტატია არ არის ხელმისაწვდომი)
article_name = "დიდი ენობრივი მოდელები"

prompt = get_user_prompt(article_name)
message = get_text_from_haiku(prompt)

#### დავაგენერიროთ 10 ახალი სტატია

In [None]:
# განვსაზღვროთ სტატიის სია (სახელები)
article_names = [
    "ჩატჯიპიტი (ChatGPT)", "2023 წლის კრიკეტის მსოფლიო თასი", "ოპენჰაიმერი", "ჯავანი (ფილმი)", "ბარბი (ფილმი)",
    "ტეილორ სვიფტი", "ელონ მასკი", "ავატარი", "ლიონელ მესი", "პრემიერ ლიგა"
]


In [22]:
import json
import os

# განვსაზღვროთ დირექტორია სადაც შევინახავთ დაგენერირებულ მონაცემებს
output_directory = "wiki_synthetic/"

# დავრწმუნდით, რომ დირექტორია არსებობს
if not os.path.exists(output_directory):
    os.makedirs(output_directory)

ახლა კი შეგვიძლია დავაგენერიროთ მონაცემები:

In [23]:
# გაიარეთ თითოეული სტატიის სახელზე და დაამუშავეთ მოთხოვნა
for article_name in article_names:
    # მიიღეთ მომხმარებლის მოთხოვნა სტატიის სახელზე დაფუძნებით
    prompt = get_user_prompt(article_name)
    
    # მიიღეთ ტექსტი Haiku API-დან
    message = get_text_from_haiku(prompt)
    
    # მოამზადეთ მონაცემები JSON ფორმატში შესანახად
    data = {
        "article_name": article_name,  # სტატიის სახელი
        "prompt": prompt,  # მომხმარებლის მოთხოვნა
        "generated_text": message.content[0].text,  # გენერირებული ტექსტი
        "input_tokens": message.usage.input_tokens,  # შეყვანილი ტოკენების რაოდენობა
        "output_tokens": message.usage.output_tokens  # გენერირებული ტოკენების რაოდენობა
    }
    
    # განსაზღვრა ფაილის ბილიკი
    output_file_path = os.path.join(output_directory, f"{article_name.replace(' ', '_')}.json")
    
    # შეინახეთ მონაცემები JSON ფაილში
    with open(output_file_path, 'w') as json_file:
        json.dump(data, json_file, indent=4)

#### დაგენერირებული მონაცემების დამუშავება

In [28]:
import pandas as pd
# შეაგროვეთ ყველა JSON ფაილის ბილიკი დირექტორიიდან
json_files = [os.path.join(output_directory, file) for file in os.listdir(output_directory) if file.endswith('.json')]

# ცარიელი სიის შექმნა მონაცემების შესაგროვებლად
data_list = []

# გაიარეთ თითოეულ JSON ფაილზე და წაიკითხეთ მონაცემები
for json_file in json_files:
    with open(json_file, 'r') as file:
        data = json.load(file)
        data_list.append(data)

# მონაცემების ჩატვირთვა DataFrame-ში
df = pd.DataFrame(data_list)

df.head(2)

Unnamed: 0,article_name,prompt,generated_text,input_tokens,output_tokens
0,2023 Cricket World Cup,შენი დავალებაა შექმნა ვიკიპედიის სტილის სტატია...,<სტატია>\n2023 Cricket World Cup\n\n2023 Crick...,313,702
1,Avatar,შენი დავალებაა შექმნა ვიკიპედიის სტილის სტატია...,<სტატია>\nავატარი (ინგლ. Avatar) არის მხატვრულ...,308,591


ახლა უკვე შეგვიძლია მონაცემები დავამუშავოთ (მოვაცილოთ ზედმეტი ტექსტი დაგენერურებულ სტატიებს)

In [30]:
import pandas as pd
import re

# ფუნქცია, რომელიც ამოწმებს "<სტატია>" ტეგებს შორის ტექსტს და სტრიპინგს
def extract_text_between_tags(text):
    match = re.search(r'<სტატია>(.*?)<\/სტატია>', text, re.DOTALL)
    if match:
        return match.group(1).strip()
    return None

# აქ ატვირთეთ DataFrame, მაგალითად, df
# df = pd.read_csv('path/to/your/dataframe.csv') # თუ csv ფაილია

# წინა კოდიდან მიღებული DataFrame გამოიყენეთ
# DataFrame-ის სვეტი, რომელიც "generated_text"-ს შეიცავს
df['cleaned_text'] = df['generated_text'].apply(extract_text_between_tags)
df.head(2)

Unnamed: 0,article_name,prompt,generated_text,input_tokens,output_tokens,cleaned_text
0,2023 Cricket World Cup,შენი დავალებაა შექმნა ვიკიპედიის სტილის სტატია...,<სტატია>\n2023 Cricket World Cup\n\n2023 Crick...,313,702,2023 Cricket World Cup\n\n2023 Cricket World C...
1,Avatar,შენი დავალებაა შექმნა ვიკიპედიის სტილის სტატია...,<სტატია>\nავატარი (ინგლ. Avatar) არის მხატვრულ...,308,591,"ავატარი (ინგლ. Avatar) არის მხატვრული ფილმი, რ..."


In [37]:
# ვიღებთ პირველ მაგალითს წინა Dataframe-ში
example = df.iloc[0]

# ვბეჭდავთ სათაურს და ტექსტს
print("სათაური:", example['article_name'])
print(example['article_name'])
print("---"*40)
print("ტექსტი:")
print(example['cleaned_text'])

სათაური: 2023 Cricket World Cup
2023 Cricket World Cup
------------------------------------------------------------------------------------------------------------------------
ტექსტი:
2023 Cricket World Cup

2023 Cricket World Cup იქნება მსოფლიოს 13-ე კრიკეტის მსოფლიო თასი, რომელიც ჩატარდება ინდოეთში 2023 წლის 9 ოქტომბრიდან 26 ნოემბრამდე. ეს იქნება პირველი მსოფლიო თასი, რომელიც ჩატარდება ინდოეთში.

ტურნირში მონაწილეობას მიიღებს 10 გუნდი, რომლებიც მოხვდებიან ჯგუფურ ეტაპზე და შემდგომ გამოავლენენ ოთხეულს, რომლებიც გადავლენ ნოკ-აუთ სტადიაზე. ფინალი გაიმართება 26 ნოემბერს.

ინდოეთი იქნება ერთ-ერთი მასპინძელი ქვეყანა, თუმცა სავარაუდოდ, ტურნირის მეორე ნაწილი ჩატარდება სხვა ქვეყნებშიც, რომლებიც ჯერ კიდევ უნდა დადგინდეს.

2023 წლის მსოფლიო თასი იქნება პირველი, რომელშიც მონაწილეობას არ მიიღებენ ზიმბაბვე და ავღანეთის ეროვნული ნაკრებები. ეს გადაწყვეტილება მიღებულ იქნა ICC-ის მიერ, რომელმაც მიიჩნია, რომ ეს ორი ქვეყანა ვერ აკმაყოფილებს საჭირო კრიტერიუმებს.

მოსალოდნელია, რომ 2023 წლის მსოფლიო თასი ი