## Introduction to Data Gathering


## Why Data is Crucial for ML & NLP:
* Data is the cornerstone of both Machine Learning (ML) and Natural Language Processing (NLP). High-quality, relevant data is essential for training models that can understand and predict complex patterns. Understanding where to find and how to gather relevant data is crucial for any data science project.


![Alt text](imgs/Data_Source.png)

##### Data Pipeline:
* Data is collected, cleaned, and preprocessed before being used to train models. This pipeline ensures the data is suitable for machine learning tasks.

##### Data Types:
* Different types of data are used, including structured, unstructured, and semi-structured data. Each type presents unique challenges and opportunities for model training.

### The Critical Role of High-Quality Data

##### Why High-Quality Data is Essential:
* Accuracy: Better data quality results in higher model accuracy.
Consistency: Ensures consistent performance across different scenarios.
* Relevance: Relevant data helps in building models that understand context better.

##### Data Quality Measures:
* To ensure high-quality data, various measures are taken including data validation, cleaning, and augmentation. These steps help in removing noise and errors.

##### Impact on Model Performance:
* High-quality data significantly enhances model performance, leading to better predictions and insights. Poor quality data, on the other hand, can mislead models and result in inaccurate outcomes.

### Data Sources: Kaggle, Wikipedia, Huggingface, API, PDFs, (probably scraping as well...)

In the realm of data science and machine learning, the quality and diversity of data sources play a critical role in the success of any project. Leveraging various platforms and formats can provide a rich and comprehensive dataset, enabling more accurate models and insightful analysis. Below are some key data sources that can be utilized:

##### Kaggle
- Popular platform for data science competitions.
- Offers a wide array of datasets across different domains.
- Includes notebooks and kernels for practical implementation.


##### Wikipedia
- Rich source of structured and unstructured data.
- Contains extensive information on a vast range of topics.
- Data can be extracted using APIs or scraping tools.


##### Huggingface
- Leading platform for natural language processing models.
- Provides access to pre-trained models and datasets.
- Useful for tasks such as text generation, translation, and sentiment analysis.


##### API
- Application Programming Interfaces offer dynamic data access.
- Allows integration with various services and real-time data retrieval.
- Commonly used for financial data, social media trends, and weather updates.

##### Scraping
- Method of extracting data from websites.
- Can be used to gather data not available through APIs.
- Requires careful handling to comply with legal and ethical standards.


##### PDFs
- Source of official documents, reports, and research papers.
- Requires specialized tools for text extraction and parsing.
- Often used in academic and corporate researh.


### Demonstration how one could collect Data from Wikipedia using API, Scraping, PDF converter, or simply loading it from Huggingface & Kaggle

In this section, we will explore various methods to collect data from Wikipedia and other sources. We will demonstrate how to use APIs, web scraping, PDF conversion, and direct loading from platforms like Huggingface and Kaggle.


#### Collecting Data from Wikipedia


Wikipedia is probably the most used & popular data source in NLP community. There are several ways to load data from wikipedia. In this lecture we cover following methods:
* Loading from HuggingFace
* Loading using Wikipedia API
* Loading from kaggle (at least some part of it)
* Use web-scraping

#### Loading Data from Huggingface


In [1]:
# !pip install datasets

from datasets import load_dataset

# Dataset: https://huggingface.co/datasets/wikimedia/wikipedia
# ka part: https://huggingface.co/datasets/wikimedia/wikipedia/viewer/20231101.ka
# You can download dataset manually from https://huggingface.co/datasets/graelo/wikipedia
# files and versions -> data -> 20230901 -> ka (here will be dataset files)

# or we can use Datasets library to load the data
dataset = load_dataset("wikimedia/wikipedia", "20231101.ka")
dataset

DatasetDict({
    train: Dataset({
        features: ['id', 'url', 'title', 'text'],
        num_rows: 169602
    })
})

![Alt text](imgs/huggingface_wiki_ka.png)

In [21]:
dataset['train'][6]

{'id': '830',
 'url': 'https://ka.wikipedia.org/wiki/%E1%83%A8%E1%83%9D%E1%83%97%E1%83%90%20%E1%83%A0%E1%83%A3%E1%83%A1%E1%83%97%E1%83%90%E1%83%95%E1%83%94%E1%83%9A%E1%83%98',
 'title': 'შოთა რუსთაველი',
 'text': 'შოთა რუსთაველი, რუსთველი (*დაახ. 1160/65 – ? ) — XII საუკუნის დიდი ქართველი პოეტი და მოაზროვნე, ავტორი საქვეყნოდ ცნობილი პოემისა „ვეფხისტყაოსანი“. მსოფლიოს მრავალ ლიტერატურათმცოდნეთა მიერ მიიჩნევა შუასაუკუნეების მსოფლიო ლიტერატურის ერთ-ერთ უმნიშვნელოვანეს წარმომადგენლად.\n\nწარმომავლობა \n\nშოთა რუსთაველის ცხოვრებისა და მოღვაწეობის შესახებ ჩვენამდე თითქმის არავითარ ცნობას არ მოუღწევია. რიგი ისტორიული, ლიტერატურული და ფოლკლორული წყაროების საფუძველზე იქმნება დიდი პოეტის ცხოვრებისა და მოღვაწეობის არაერთი ვერსია. რუსთაველის ბიოგრაფიული მონაცემების დასადგენად ერთ-ერთი ძირითადი წყარო თვით მისი პოემაა.\n\nრუსთაველის ავტორობას გვიმოწმებს „ვეფხისტყაოსნის“ პროლოგი („დავჯდე, რუსთველმან გავლექსე, მისთვის გულ-ლახვარსობილი“, „მე, რუსთველი, ხელობითა ვიქმ საქმესა ამა დარი“), ეპილოგი, აგრეთვე

#### Loading Data Using API


In [9]:
# ! pip install wikipedia-api
import wikipediaapi

# გავამზადოთ Wikipedia API ქართული  ვიკიპედიისთვის
# საჭიროა შემდეგი ფორმატი: wikipediaapi.Wikipedia('სახელი (email)', 'ენა')
wiki_wiki = wikipediaapi.Wikipedia('MyWikipediProject (MyWikipediProject@gmail.com)', 'ka')
wiki_wiki

<wikipediaapi.Wikipedia at 0x268cbcd8990>

In [11]:
# განვსაზღვროთ ფუნქცია რომელიც სათაურზე დაყრდნობით წამოიღებს სტატიის ტექსტს
def fetch_wikipedia_article(title: str) -> None:
    page = wiki_wiki.page(title)
    if page.exists():
        print(f"სათაური: {page.title}\n")
        print(f"სრული ტექსტი: {page.text[:1000]}...")  # დავჯეჭდოთ მხოლოდ 1000 სიმბოლო
    else:
        print(f"გვერდი სახელად '{title}' არ არსებობს.")

In [12]:
# გამოყენების მაგალითი
# გვერდის ურლ: https://ka.wikipedia.org/wiki/დავით_IV_აღმაშენებელი
article_title = "დავით IV აღმაშენებელი" # შეიძლება ნებისმიერი არსებული სტატიის ტექსტის წამოღება
fetch_wikipedia_article(article_title)

სათაური: დავით IV აღმაშენებელი

სრული ტექსტი: დავით IV აღმაშენებელი (დ. 1073, ქუთაისი — გ.  24 იანვარი, 1125) — საქართველოს მეფე 1089-1125 წლებში, გიორგი II-ის ძე, დიდი სახელმწიფო მოღვაწე და ძლევამოსილი მხედართმთავარი, რომელსაც განსაკუთრებული ადგილი უკავია საქართველოს ისტორიაში.
დავით IV ტახტზე 1089 წელს 16 წლის ასაკში ავიდა. მამამისი, გიორგი II, შექმნილი პოლიტიკური მდგომარეობიდან გამომდინარე, იძულებული გახდა შვილის სასარგებლოდ ტახტზე უარი ეთქვა. დავითს ძალიან მძიმე მემკვიდრეობა ერგო: ქვეყანა დარბეული იყო მტრის შემოსევებისაგან, თურქ-სელჩუკთა მომთაბარე ტომები სახლდებოდნენ დაპყრობილ ტერიტორიებზე და ქართველ ხალხს ფიზიკური განადგურების საფრთხეს უქმნიდნენ, დიდგვაროვანი ფეოდალები მეფეს ხშირად არ ემორჩილებოდნენ, საქართველოს მეფის ხელისუფლება ლიხის ქედის აღმოსავლეთით არ ვრცელდებოდა.
დავით აღმაშენებელმა ოცდათექვსმეტწლიანი მმართველობის განმავლობაში ჩაატარა სიღრმისეული რეფორმები, რომლებმაც საბოლოოდ დაასრულეს ფეოდალური საქართველოს გაერთიანების პროცესი, მან ქვეყნიდან სელჩუკი დამპყრობლები განდევნა, 

![Alt text](imgs/დავით_აღმაშენებელი.png)

#### Loading Data from Kaggle


In [4]:
# !pip install kaggle

# Dataset Link: https://www.kaggle.com/datasets/jrobischon/wikipedia-movie-plots

!kaggle datasets download -d jrobischon/wikipedia-movie-plots

^C
Dataset URL: https://www.kaggle.com/datasets/jrobischon/wikipedia-movie-plots
License(s): CC-BY-SA-4.0
wikipedia-movie-plots.zip: Skipping, found more recently modified local copy (use --force to force download)


![Alt text](imgs/kaggle_wikipedia.png)

#### Converting PDFs to Text (Additional)

In [11]:
# # !pip install PyPDF2 pycryptodome==3.15.0
from PyPDF2 import PdfReader

reader = PdfReader('pdfs/shota-rustaveli-vefxistyaosani.pdf')
page_texts = []
for page in reader.pages[:10]: # წავიკითხოთ pdf-ის პირველი 10 გვერდი 
    page_texts.append(page.extract_text())
text = '<new_page>'.join(page_texts)
print(text[:1000])

<new_page>სარჩევი  
დასაწყისი  
ამბავი  როსტევან  არაბთა  მეფისა  
როსტევან  მეფისაგან  და ავთანდილისაგან  ნადირობა  
ნახვა  არაბთა  მეფისაგან  მის ყმისა  ვეფხისტყაოსნისა 
თინათინისაგან  ავთანდილის  გაგზავნა  მის ყმის  საძებრად  
წიგნი  ავთანდილისა  თავის  ყმათა  თანა  
ავთანდილისაგან  მის ყმისა  ძებნად  წასლვა  
ამბავი  ავთანდილისა , ასმათს რომ  ეუბნების  ქვაბშიგან 
შეყრა  ტარიელისა  და ავთანდილისა  
ტარიელისაგან  თავის  ამბის  მბობა  ავთანდილთანა  
ამბავი  ტარიელის  გამიჯნუ რებისა  
წიგნი  ნესტან-დარეჯანისა   საყვარელსა  თანა   მიწერილი  პირველი  
წიგნი  ტარიელისა  საყვარელთანა  
წიგნი  ტარიელისა  ხატაელთანა  
ნესტანისაგან   ტარიელის  ხმობა  
წიგნი  ხატაელთა  მეფისა , ტარიელის  წინაშე  მოწერილი  პასუხად  
ტარიელისა  და ნესტანის  პირის -პირ შეყრა  
ტარიელისაგან  ხატაეთს  წასლვა  და დიდი  ომი 
წიგნი  ტარიელისა  ინდოეთ  მეფის  წინაშე  და გამარჯვებით  შემოქცევა  
წიგნი   ნესტან-დარეჯანისა  საყვარელსა  თანა  
ტარიელის  ტირილი  და დაბნედა  
წიგნი  ტარიელისა  საყვარელსა  თანა  პასუხად 
რჩევ

![Alt text](imgs/vefxistyaosani_example.png)

### Template
* What if data is not enough? Note: it's never enough, and in most cases, it just does not exist... yet.
* Specifically in Georgian, NLP community is dead - Literally nothing exists.
* But we still need it - Is there any way?..
* Furtunately, there is - Data Augmentation.
* Ways of data augmentation: rule based - classical (synonym replacement, random punctuation insertion/deletion); LLM Based - SOTA (Paraphrasing, Re-writing... or just Generating new, unique data points)

### Data Augmentation

Data augmentation is a technique used to increase the diversity of your training data without collecting new data. It is particularly useful in NLP to improve model robustness and performanc.

### Classic Data Augmentation Methods

1. **Synonym Replacement**: Replace words with their synonyms.
2. **Random Insertion**: Insert random words into the text.
3. **Random Deletion**: Randomly delete words from the text.
4. **Back Translation**: Translate the text to another language and then back to the original language.

These methods help to create variations in the text data, making the model more obust.

- 1-3 slides about Classical Data Augmentation
- Here should be demonstration of these methods.

### AI-based Data Augmentation with LLMs

Large Language Models (LLMs) like OpenAI's GPT can be used for data augmentation by generating synthetic data points. This can be achieved through appropriate prompt engineering, where the model is given specific instructions to generate variations of the tex.

- 1-3 slides about new AI-based Data Augmentation - How to use LLMs for sythetic data Generation
- Discuss several types: paraphrasing, re-writing (in a style), error correction, data generation

### Integrating Augmentation Techniques into the Project

Now that we have learned various data augmentation techniques, it's time to apply them to our Wikipedia dataset. We will augment the data and use it to improve our final projec.

#### Here each LLM-based should be inserted into the Pipeline (with Georgian LLM)
- Expand some Wikipedia articles
- Correct some formats
- Paraphrase
- Generate Completely new data points (articles that are not in KA wikipedia)