# რატომ გვჭირდება მონაცემები & მონაცემთა შეგროვების მნიშვნელობა

# მონაცემთა დამუშავების ყველაზე პოპულარული ინსტრუმენტები დღეს DS/ML-ში

![Alt text](imgs/data_has_better_idea_slide_02.png)

# მონაცემთა დამუშავება და მანიპულირება სხბადასხვა ინსტრუმენტებით: NumPy, Pandas, Huggingface Dataset, API-ები.

## ლექციის მიზნები
- გავეცნოთ NumPy-ისა და Pandas-ის გამოყენებით მონაცემთა დამუშავების მეთოდებს.
- ვისწავლოთ როგორ გამოვიყენოთ Huggingface Datasets მონაცემთა მანიპულირებისთვის.
- გავეცნოთ თუ როგორ შეიძლება API-ების გამოყენებით მონაცემების მოგროვება.


<!-- ![Alt text](imgs/finallpandas_.png) -->

# შესავალი

მონაცემთა დამუშავება და მანიპულირება კრიტიკულად მნიშვნელოვანია უნარებია მონაცემთა მეცნიერებასა და მანქანურ სწავლებაში. ამ ლექციაში ჩვენ გავეცნობით NumPy-ს, Pandas-სს, Huggingface Datasets-ს და API-ებს და გავეცნობით მათ ყველაზე ხშირად გამოყენებად ფუნქციონალს.

### NumPy -  მიმოხილვა

NumPy ("Numberical Python" - რიცხვითი პითონი) არის Python-ის ბიბლიოთეკა, რომელიც გამოიყენება მრავალგანზომილებიან მასივებისა (arrays) და მატრიცებთან სამუშაოდ.

NumPy-ის ძირითადი ობიექტია ndarray (n-განზომილებიანი მასივი), რომელიც წარმოადგენს მსგავსი ტიპის ელემენტების მრავალგანზომილებიან ცხრილს. NumPy მასივები უფრო ეფექტურია და მოქნილია, ვიდრე Python-ის ჩაშენებული სიები (lists).
<!--
NumPy გვთავაზობს ინსტრუმენტებს მასივებზე სწრაფი და ეფექტური ოპერაციების შესასრულებლად, როგორიცაა მათემატიკური, ლოგიკური, ფორმის მანიპულაციის, დახარისხების, შერჩევის, I/O, დისკრეტული ფურიეს გარდაქმნების და სხვა მრავალი ოპერაცია.
 -->
NumPy ფართოდ გამოიყენება მონაცემთა ანალიზში, მანქანურ სწავლებაში და ხელოვნურ ინტელექტში. ის წარმოადგენს SciPy სტეკის ფუნდამენტურ პაკეტს მისი ფუნქციონალი გამოიყენება მრავალ სხვა Python ბიბლიოთეკაში, როგორიცაა Pandas, Matplotlib და Scikit-learn.

![Alt text](imgs/what-is-numpy.png)

In [None]:
# NumPy-ის ინსტალაცია (მოაცილეთ # ქვემოთ და გაუშვით კოდი თუ უკვე დაინსტალირებული არ გაქვთ
# !pip install numpy

# დავაიმპორტოთ ბიბლიოთეკა
import numpy as np

### მასივის შექმნა
მასივის შექმნა სხვადასხვა ფუნქციების გამოყენებითა არის შესაძლებელი; მაგალითად, შეგვიძლია გამოვიყენოთ `np.array()`, `np.zeros()`, `np.ones()`, `np.arange()` და `np.linspace()`.


In [None]:
# შევქმნათ მასივი სიიდან
import numpy as np
base_list = [1, 2, 3, 4, 5]
arr = np.array(base_list)
print("მასივი:", arr)
print(f"სიის ტიპი: {type(base_list)}")
print(f"მასივის ტიპი: {type(arr)}")

მასივი: [1 2 3 4 5]
სიის ტიპი: <class 'list'>
მასივის ტიპი: <class 'numpy.ndarray'>


In [None]:
# ნულოვანი მასივის შექმნა
zeros_arr = np.zeros((3, 4)) # (სტრიქონების რაოდენობა, სვეტების რაოდენობა)
print("ნულოვანი მასივი:\n", zeros_arr)

ნულოვანი მასივი:
 [[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]


In [None]:
# ერთეულოვანი მასივის შექმნა
ones_arr = np.ones((2, 4)) # (სტრიქონების რაოდენობა, სვეტების რაოდენობა)
print("ერთეულოვანი მასივი:\n", ones_arr)

ერთეულოვანი მასივი:
 [[1. 1. 1. 1.]
 [1. 1. 1. 1.]]


In [None]:
# მასივის შექმნა დიაპაზონით
range_arr = np.arange(0, 10, 2) # (საწყისი ელემენტი, საბოლოო ელემენტი, ნამატი)
print(range_arr)

[0 2 4 6 8]


In [None]:
# მასივის შექმნა წრფივად დაშორებული მნიშვნელობებით
linspace_arr = np.linspace(0, 1, 5) # (საწყისი ელემენტი, საბოლოო ელემენტი, ნამატი)
print(linspace_arr)

[0.   0.25 0.5  0.75 1.  ]


### Array Operations
NumPy საშუალებას გვაძლევს მასივებზე ელემენტარული ოპერაციების შესრულებას, როგორიცაა შეკრება, გამოკლება, გამრავლება და გაყოფა.


In [None]:
# ელემენტარული ოპერაციები
arr = np.array([1, 2, 3, 4, 5])
arr2 = arr * 2
print("ხაწყისი მასივი:", arr)
print("მასივი 2-ზე გამრავლების შემდეგ:", arr2)

ხაწყისი მასივი: [1 2 3 4 5]
მასივი 2-ზე გამრავლების შემდეგ: [ 2  4  6  8 10]


In [None]:
# მასივების შეკრება
arr3 = arr + arr2
print("მასივების ჯამი:", arr3)

Sum of Arrays: [ 3  6  9 12 15]


In [None]:
# სხვა ოპერაციები
print("მასივების სხვაობა:", arr2 - arr)
print("მატრიცების შეფარდება", arr2 / arr)

მასივების სხვაობა: [1 2 3 4 5]
მატრიცების შეფარდება [2. 2. 2. 2. 2.]


### Mathematical Functions
NumPy provides many mathematical functions to perform operations like mean, standard deviation, sum, dot product, etc


In [None]:
# გავამზადოთ მასივი მათემატიკური ოპერაციების საჩვენებლად
arr = np.array([1, 2, 3, 4, 5])

# საშუალო
print("საშუალო:", np.mean(arr))

# სტანდარტული გადახრა
print("ტანდარტული გადახრა:", np.std(arr))

# ჯამი
print("ჯამი:", np.sum(arr))

# სკალარული ნამრავლი
arr2 = np.array([6, 7, 8, 9, 10])
print("სკალარული ნამრავლი:", np.dot(arr, arr2))

საშუალო: 3.0
ტანდარტული გადახრა: 1.4142135623730951
ჯამი: 15
სკალარული ნამრავლი: 130


### Broadcasting and Vectorization
NumPy's broadcasting and vectorization features allow us to perform operations on arrays of different shapes and sizes efficiently.`

In [None]:
# Broadcasting
arr = np.array([1, 2, 3, 4, 5])
broadcast_arr = arr + np.array([10, 20, 30, 40, 50])
print("Broadcasting Example:", broadcast_arr)

# ვექტორიზაცია
vectorized_sum = np.sum(arr)
print("ვექტორული ჯამი:", vectorized_sum)

Broadcasting Example: [11 22 33 44 55]
ვექტორული ჯამი: 15


### Summary
In this notebook, we covered:
- Creating arrays using different functions.
- Performing basic array operations.
- Indexing, slicing, and reshaping arrays.
- Using mathematical functions.
- Understanding broadcasting and vectorization.

NumPy is a powerful library that forms the foundation for many data processing and scientific computing tasks. With these basics, you can start leveraging NumPy for your pojects.


## Pandas - შესავალი
Pandas არის Python-ის ბიბლიოთეკა, რომელიც გამოიყენება მონაცემთა ანალიზისა და მანიპულაციისთვის. იგი უზრუნველყოფს მაღალი დონის მონაცემთა სტრუქტურებს და ინსტრუმენტებს, რაც აადვილებს მონაცემებთან მუშაობას.
Pandas-ის ძირითადი მონაცემთა სტრუქტურებია:

pd.Series: ერთგანზომილებიანი მასივი, რომელიც შეიძლება შეიცავდეს სხვადასხვა ტიპის მონაცემებს, როგორიცაა რიცხვები, სტრიქონები და ა.შ.
pd.DataFrame: ორგანზომილებიანი მონაცემთა სტრუქტურა, რომელიც წარმოადგენს ცხრილის მსგავს მონაცემთა ნაკრებს. იგი შედგება სვეტებისა და სტრიქონებისგან, სადაც თითოეული სვეტი შეიძლება იყოს სხვადასხვა ტიპის.

Pandas-ის გამოყენებით შესაძლებელია:

* მონაცემთა წაკითხვა და ჩაწერა სხვადასხვა ფორმატში (CSV, Excel, SQL, Parquet და ა.შ.)
* მონაცემთა გაფილტვრა, დახარისხება და აგრეგაცია
* მონაცემთა გარდაქმნა და კომბინირება
* მონაცემთა ვიზუალიზაცია
* დროითი მწკრივების (time series) დამუშავება

Pandas ფართოდ გამოიყენება მონაცემთა მეცნიერებაში, ფინანსურ ანალიზში, სტატისტიკურ მოდელირებასა და სხვა სფეროებში, სადაც საჭიროა მონაცემების დამუშავება და ანალიზი. იგი მჭიდროდ არის ინტეგრირებული Python-ის სხვა პოპულარულ ბიბლიოთეკებთან, როგორიცაა NumPy და Matplotlib.

![Alt text](imgs/__.png)

In [None]:
# # Pandas-ის ინსტალაცია (მოაცილეთ # ქვემოთ და გაუშვით კოდი თუ უკვე დაინსტალირებული არ გაქვთ)
# !pip install pandas

# დავაიმპორტოთ ბიბლიოთეკა
import pandas as pd

### DataFrame-ის შექმნა
DataFrame-ის შემქმნა მრავალნაირად შეიძლება; მათ შორისაა:e `pd.DataFrame()`, `pd.read_csv()`, and `pd.read_excel()


In [None]:
# შევქმნათ DataFrame ლექსიკონიდამ
data = {'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35]}
df = pd.DataFrame(data)
print("DataFrame:\n", df)

# # csv ფაილიდან DataFrame-ის შექმნა შეგვიძლია შემდეგნაირად:
# df_csv = pd.read_csv('data.csv') # არგუმენტად იღებს ფაილის მისამართს
# # ექსელის ფაილიდან DataFrame-ის შექმნა შეგვიძლია შემდეგნაირად:
# df_excel = pd.read_excel('data.csv') # არგუმენტად იღებს ფაილის მისამართს; შეიძლება დაგჭირდეთ !pip install openpyxl გაშვება

DataFrame:
       Name  Age
0    Alice   25
1      Bob   30
2  Charlie   35


### მონაცემთა მონიშვნა/გაფილტვრა
We can select and filter data using methods like `.loc[]` and `.iloc[]`

#### .loc[] მეთოდის მიმოხილვა

.loc[] მეთოდი პანდაებში გამოიყენება ეტიკეტზე დაფუძნებული ინდექსაციისა და შერჩევისთვის. ეს მეთოდი საშუალებას გაძლევთ აირჩიოთ რიგები და სვეტები მწკრივისა და სვეტის ეტიკეტების მითითებით.

ძირითადი პუნქტები:

* ლეიბლზე დაფუძნებული ინდექსირება: თქვენ შეგიძლიათ გამოიყენოთ მწკრივების და სვეტების რეალური ეტიკეტები მონაცემების წვდომისთვის.
* მოქნილი შერჩევა: შეგიძლიათ აირჩიოთ მთელი რიგები, სვეტები ან კონკრეტული ელემენტები.
* ლოგიკური ინდექსირება: შეგიძლიათ გამოიყენოთ პირობები მონაცემების გასაფილტრად.

სინტაქსი: DataFrame.loc[სტრიქონების_სახელები, სვეტების_სახელები]


In [None]:
import pandas as pd

# შევქმნათ მარტივი DataFrame
data = {
    'სახელი': ['გიორგი', 'ბობი', 'ჩარლი', 'დავითი', 'ნიკა'],
    'ასაკი': [24, 27, 22, 32, 29],
    'ქალაქი': ['თბილისი', 'ჩიკაგო', 'ნიუ-იორკი', 'ჰიუსტონი', 'ფენიქსი'],
    'ქულა': [88, 92, 95, 70, 85]
}
df = pd.DataFrame(data)
df

Unnamed: 0,სახელი,ასაკი,ქალაქი,ქულა
0,გიორგი,24,თბილისი,88
1,ბობი,27,ჩიკაგო,92
2,ჩარლი,22,ნიუ-იორკი,95
3,დავითი,32,ჰიუსტონი,70
4,ნიკა,29,ფენიქსი,85


In [None]:
# მონიშნე ყველა სტრიქონი კონკრეტულ სვეტებში
selected_columns = df.loc[:, ['სახელი', 'ასაკი']]
print("სვეტების მონიშვნა (სახელი, ასაკი):")
selected_columns

სვეტების მონიშვნა (სახელი, ასაკი):


Unnamed: 0,სახელი,ასაკი
0,გიორგი,24
1,ბობი,27
2,ჩარლი,22
3,დავითი,32
4,ნიკა,29


In [None]:
# მოვნიშნოთ სტრიქონების რომლებშიც ასაკი 25 წელზე მეტია
filtered_rows = df.loc[df['ასაკი'] > 25]
print("\nსტრიქონების მონიშვნა (ასაკი > 25):")
filtered_rows


სტრიქონების მონიშვნა (ასაკი > 25):


Unnamed: 0,სახელი,ასაკი,ქალაქი,ქულა
1,ბობი,27,ჩიკაგო,92
3,დავითი,32,ჰიუსტონი,70
4,ნიკა,29,ფენიქსი,85


In [None]:
# მოვნიშნოთ კონკრეტული სტრიქონების კონკრეტული სვეტები
selected_data = df.loc[1:3, ['სახელი', 'ქულა']]
print("\nკონკრეტული სტრიქონების & სვეტების მონიშნა:")
selected_data


კონკრეტული სტრიქონების & სვეტების მონიშნა:


Unnamed: 0,სახელი,ქულა
1,ბობი,92
2,ჩარლი,95
3,დავითი,70


In [None]:
# მოვნიშნოთ სტრიქონების სადაც ასაკი 25-ზე მეტია, ხოლო ქულა 80-ზე ნაკლები
combined_conditions = df.loc[(df['ასაკი'] > 25) & (df['ქულა'] > 80)]
print("\nკომბინირებული პირობა (ასაკი > 25 და ქულა > 80):")
combined_conditions


კომბინირებული პირობა (ასაკი > 25 და ქულა > 80):


Unnamed: 0,სახელი,ასაკი,ქალაქი,ქულა
1,ბობი,27,ჩიკაგო,92
4,ნიკა,29,ფენიქსი,85


#### .iloc[] მეთოდის მიმოხილვა

.iloc[] მეთოდი Pandas-ში გამოიყენება მთელ რიცხვებზე დაფუძნებული ინდექსაციისა და მონიშვნისთვის. ეს მეთოდი საშუალებას გვაძლევს მოვნიშნოთ სვეტები/სტრიქონები მათი ინდექსების გამოყენებით.

ძირითადი პუნქტები:

* მთელ რიცხვზე დაფუძნებული ინდექსირება: ვიყენეთ ინდექსს მონაცემებზე წვდომისთვის.
* ნულზე დაფუძნებული ინდექსირება: ინდექსი იწყება 0-დან.
* მოქნილი შერჩევა: შეგვიძლია ავირჩიოთ მთლიანი სტრიქონები, სვეტები ან კონკრეტული ელემენტები.

In [None]:
# მოვნიშნოთ ყველა სტრიქონი პირველი ორი სვეტისთვის
selected_columns_iloc = df.iloc[:, 0:2]
print("\nმოვნიშნოთ პირველი ორი სვეტი:")
selected_columns_iloc


მოვნიშნოთ პირველი ორი სვეტი:


Unnamed: 0,სახელი,ასაკი
0,გიორგი,24
1,ბობი,27
2,ჩარლი,22
3,დავითი,32
4,ნიკა,29


In [None]:
# მოვნიშნოთ კონკრეტული სვეტები DataFrane-ში
filtered_rows_iloc = df.iloc[1:4]
print("\nმოვნიშნოთ კონკრეტული სტრიქონები:")
filtered_rows_iloc


მოვნიშნოთ კონკრეტული სტრიქონები:


Unnamed: 0,სახელი,ასაკი,ქალაქი,ქულა
1,ბობი,27,ჩიკაგო,92
2,ჩარლი,22,ნიუ-იორკი,95
3,დავითი,32,ჰიუსტონი,70


In [None]:
# მოვნიშნოთ კონკრეტული სტრიქონები და სვეტები ინდექსების გამოყენებით
selected_data_iloc = df.iloc[1:3, [0, 3]]
print("\nმოვნიშნოთ კონკრეტული სვეტები/სტრიქონები:")
selected_data_iloc


მოვნიშნოთ კონკრეტული სვეტები/სტრიქონები:


Unnamed: 0,სახელი,ქულა
1,ბობი,92
2,ჩარლი,95


### მონაცემთა მანიპულაცია

Pandas-ში მარტივად შეგვიძლია დავამატოთ ან წავშალოთ სვეტები, დავამუშაოთ ცარიელი მნიშვნელობები და შევასრულოთ სხვა მონაცემთა მანიპულირების ამოცანები.


In [None]:
df

Unnamed: 0,სახელი,ასაკი,ქალაქი,ქულა
0,გიორგი,24,თბილისი,88
1,ბობი,27,ჩიკაგო,92
2,ჩარლი,22,ნიუ-იორკი,95
3,დავითი,32,ჰიუსტონი,70
4,ნიკა,29,ფენიქსი,85


In [None]:
# დავამატოთ ახალი სვეტი
df['ინდექსი'] = ['1', '2', '3', '4', '5']
print("DataFrame ახალი სვეტით:")
df

DataFrame ახალი სვეტით:


Unnamed: 0,სახელი,ასაკი,ქალაქი,ქულა,ინდექსი
0,გიორგი,24,თბილისი,88,1
1,ბობი,27,ჩიკაგო,92,2
2,ჩარლი,22,ნიუ-იორკი,95,3
3,დავითი,32,ჰიუსტონი,70,4
4,ნიკა,29,ფენიქსი,85,5


In [None]:
# წავშალოთ სვეტი
df.drop('ქალაქი', axis=1, inplace=True)
print("DataFrame სვეტის წაშლით შემდეგ:")
df

DataFrame სვეტის წაშლით შემდეგ:


Unnamed: 0,სახელი,ასაკი,ქულა,ინდექსი
0,გიორგი,24,88,1
1,ბობი,27,92,2
2,ჩარლი,22,95,3
3,დავითი,32,70,4
4,ნიკა,29,85,5


In [None]:
# დავამუშავოთ ცარიელი მნიშვნელობები
df_with_nan = df.copy()
# ხელოვნურად დავამატოთ ცარიელი მნიშვნელობა
df_with_nan.loc[1, 'ასაკი'] = None
print("DataFrame გამოტოვებული მნიშვნელობებით:")
df_with_nan

DataFrame გამოტოვებული მნიშვნელობებით:


Unnamed: 0,სახელი,ასაკი,ქულა,ინდექსი
0,გიორგი,24.0,88,1
1,ბობი,,92,2
2,ჩარლი,22.0,95,3
3,დავითი,32.0,70,4
4,ნიკა,29.0,85,5


In [None]:
# გავფილტროთ გამოტოვებული მნიშვნელობები
df_filled = df_with_nan.fillna(0) # შევავსოთ გამოტოვებული მნიშვნელობები 0-ით
print("DataFrame გამოტოვებული მნიშვლებობების შევსების შემდეგ:")
df_filled

DataFrame გამოტოვებული მნიშვლებობების შევსების შემდეგ:


Unnamed: 0,სახელი,ასაკი,ქულა,ინდექსი
0,გიორგი,24.0,88,1
1,ბობი,0.0,92,2
2,ჩარლი,22.0,95,3
3,დავითი,32.0,70,4
4,ნიკა,29.0,85,5


In [None]:
# მოვაცილოთ სტრიქონები გამოტოვებული მნიშვნელობებით
df_dropped = df_with_nan.dropna() # აცილებს სტრიქონებს გამოტოვებული მნიშვნელობებით
print("DataFrame after Dropping Missing Values:")
df_dropped

DataFrame after Dropping Missing Values:


Unnamed: 0,სახელი,ასაკი,ქულა,ინდექსი
0,გიორგი,24.0,88,1
2,ჩარლი,22.0,95,3
3,დავითი,32.0,70,4
4,ნიკა,29.0,85,5


### დაჯქუფება და აგრეგაცია
მონაცემების დაჯგუფება და აგრეგაცია შეიძლება მეთდებით `.groupby()` და `.agg()`

In [None]:
# მონაცემების დაჯგუფება
grouped_df = df.groupby('ასაკი').count()
print("დაჯგუფებული DataFrame:")
grouped_df

დაჯგუფებული DataFrame:


Unnamed: 0_level_0,სახელი,ქულა,ინდექსი
ასაკი,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
22,1,1,1
24,1,1,1
27,1,1,1
29,1,1,1
32,1,1,1


In [None]:
# აგრეგაცია
agg_df = df.groupby('ასაკი').agg({'სახელი': 'count', 'ასაკი': 'mean'})
print("DataFrame აგრეგაციის შემდეგ")
agg_df

DataFrame აგრეგაციის შემდეგ


Unnamed: 0_level_0,სახელი,ასაკი
ასაკი,Unnamed: 1_level_1,Unnamed: 2_level_1
22,1,22.0
24,1,24.0
27,1,27.0
29,1,29.0
32,1,32.0


### მონაცემთა შერწყმა & შეერთება
მონაცემების გაერთიანება შეიძლება შემდეგი მეთოდებით:g `pd.merge()`დაd `pd.concat()


In [None]:
# DataFrame-ების შერწყმა
df1 = pd.DataFrame({'ID': [1, 2], 'სახელი': ['ალისი', 'ბობი']})
df2 = pd.DataFrame({'ID': [1, 2], 'ასაკი': [25, 30]})
merged_df = pd.merge(df1, df2, on='ID')
print("შერწყმული DataFrame:")
merged_df

შერწყმული DataFrame:


Unnamed: 0,ID,სახელი,ასაკი
0,1,ალისი,25
1,2,ბობი,30


In [None]:
# DataFrame-ების გადაბმა
df3 = pd.DataFrame({'ID': [3], 'სახელი': ['ჩარლი'], 'ასაკი': [35]})
concat_df = pd.concat([merged_df, df3])
print("გადაბული DataFrame:")
concat_df

გადაბული DataFrame:


Unnamed: 0,ID,სახელი,ასაკი
0,1,ალისი,25
1,2,ბობი,30
0,3,ჩარლი,35


### Summary
In this notebook, we covered:
- Creating DataFrames using different methods.
- Selecting and filtering data.
- Performing data manipulation tasks.
- Grouping and aggregating data.
- Merging and joining DataFrames.

Pandas is a versatile library that provides powerful data manipulation and analysis tools. With these basics, you can start leveraging Pandas for your data pojects.


# HuggingFace Basics - შესავალი
Hugging Face არის კომპანია და საჯარო საზოგადოება, რომელიც განსაკუთრებით პოპულარულია ბუნებრივი ენის დამუშავების (NLP) მიმართლებით. ის უზრუნველყოფს ინსტრუმენტებს, მოდელებს და ბიბლიოთეკებს, რომლებიც აადვილებს NLP მოდელების შექმნას, მომზადებას და დანერგვას. Hugging Face-ის ერთ-ერთი ყველაზე პოპულარული ბიბლიოთეკაა "transformers" და "datasets", სადაც მოდელების/დატასეტების დიდი სპექტრია წარმოდგენილი.ets.


## Huggingface Datasets - შესავალი
Huggingface Datasets (ბიბლიოთეკა) არის ძლიერი ინსტრუმენტი მონაცემების ჩატვირთვის, დამუშავებისა და მართვისთვის, განსაკუთრებით ბუნებრივი ენის დამუშავების კონტექსტში. მისი გამოყენებით მარტივად და ეფექტურად შეგვიძლია ვემუშავოთ ფართომასშტაბიანი მონაცემების.

In [None]:
# # datasets-ის ინსტალაცია (მოაცილეთ # ქვემოთ და გაუშვით კოდი თუ უკვე დაინსტალირებული არ გაქვთ)
# !pip install datasets

from datasets import load_dataset

## ჩამოვტვირთოთ მონაცემები Datasets-ის გამოყენებით
მონაცემების ჩატვირთვა Huggingface datasets ბიბლიოთეკის გამოყენებით შეგვიძლია ფუნქციით `load_dataset`. ჰაბზე ბევრი გამზადებული მონაცმეების პოვნა შეიძლება; ამ შემთხვევაში გამოვიყენებთ ერთ-ერთ მათგანს - imdb მონაცემებს.


In [None]:
# ჩავტვირთოთ IMDB მონაცემები
dataset = load_dataset('imdb')
print("IMDB Dataset:\n", dataset)

IMDB Dataset:
 DatasetDict({
    train: Dataset({
        features: ['text', 'label'],
        num_rows: 25000
    })
    test: Dataset({
        features: ['text', 'label'],
        num_rows: 25000
    })
    unsupervised: Dataset({
        features: ['text', 'label'],
        num_rows: 50000
    })
})


In [None]:
# Dataset-ები 'შეფუთულია' DatasetDict-ში სხვადასხვა ნაწილის მარტივად შესანახად
print(type(dataset))
print(type(dataset['train']))

<class 'datasets.dataset_dict.DatasetDict'>
<class 'datasets.arrow_dataset.Dataset'>


### მონაცემების გამოკვლევა
We can explore the dataset to understand its structure, including the features and examples


In [None]:
# ვნახოთ მონაცემების სტრუქტურა
print("სვეტები (\"ცვლადები\") მონაცემებში:")
dataset['train'].features

სვეტები ("ცვლადები") მონაცემებში:


{'text': Value(dtype='string', id=None),
 'label': ClassLabel(names=['neg', 'pos'], id=None)}

In [None]:
# ვნახოთ მაგალითი სასწავლო მონაცემებიდან
print("მაგალითი სასწავლო ნაწილიდან:")
dataset['train'][0]

მაგალითი სასწავლო ნაწილიდან:


{'text': 'I rented I AM CURIOUS-YELLOW from my video store because of all the controversy that surrounded it when it was first released in 1967. I also heard that at first it was seized by U.S. customs if it ever tried to enter this country, therefore being a fan of films considered "controversial" I really had to see this for myself.<br /><br />The plot is centered around a young Swedish drama student named Lena who wants to learn everything she can about life. In particular she wants to focus her attentions to making some sort of documentary on what the average Swede thought about certain political issues such as the Vietnam War and race issues in the United States. In between asking politicians and ordinary denizens of Stockholm about their opinions on politics, she has sex with her drama teacher, classmates, and married men.<br /><br />What kills me about I AM CURIOUS-YELLOW is that 40 years ago, this was considered pornographic. Really, the sex and nudity scenes are few and far be

### დავყოთ მონაცემები
მონაცემები შეგვიძლია დავყოთ სასწავლო, ვალიდაციის და ტესტ ნაწილებად


In [None]:
train_test_split = dataset['train'].train_test_split(test_size=0.2)
train_dataset = train_test_split['train']
test_dataset = train_test_split['test']

print("სასწავლო მონცემების ზომა:", len(train_dataset))
print("სატესტო მონაცემების ზომა:", len(test_dataset))

სასწავლო მონცემების ზომა: 20000
სატესტო მონაცემების ზომა: 5000


### მონაცემების მონიშვნა და გაფილტვრა
შეგვიძლია მოვნიშნოთ მონაცემების კონკრეტული ქვეჯგუფები ან გავფილტროთ გარკვეული პირობებზე დაყრდნობით


In [None]:
# მოვნიშნოთ პირველი ხუთი მაგალითი სასწავლო ნაწილიდან
subset = train_dataset.select([0, 1, 2, 3, 4])
print("სასწავლო მონაცემების პირველი ხუთი სტრიქონი:")
subset

სასწავლო მონაცემების პირველი ხუთი სტრიქონი:


Dataset({
    features: ['text', 'label'],
    num_rows: 5
})

In [None]:
def filter_func(example: dict) -> dict:
    return example['label'] == 1

# მოვნიშნოთ სტრიქონები სადაც label არის 1-ის ტოლი
filtered_dataset = train_dataset.filter(lambda x: filter_func(x))
print("გაფილტრული მონაცემები (label == 1):")
filtered_dataset

Filter:   0%|          | 0/20000 [00:00<?, ? examples/s]

გაფილტრული მონაცემები (label == 1):


Dataset({
    features: ['text', 'label'],
    num_rows: 9972
})

### ტრანსფორმაციების გამოვიყენოთ
mapის ფუნქცია Huggig FacDataset-ისის ბიბლიოთეკაში გამოიყენება მონაცეა ნაკრებისის თითოეულ ელემეზე ე ტრანსფორმაცი შესასრულებლადადარისზე ეფექტურია და შეუძლია გაუმკლავდეს ჯგუფუ(batch) რ დამუშავებას, რაც მაგანსაკუთრებულად ეფექტურს ხდის დავალებებისთვისს, როგორიც:აა ტოკენიზაცია, მონაცემთაუგმენტაციაბა აინფორმაციის ამოკრეფაბაგამოსაყენებლად უნდა გადავცეთ ჩვენთვის სასურველი ფუნქცია - მიცემულ ფუნქციას გადაატარებს თითოეულ სტრიქონს (ან სტრიქონების ჯგუფს ბაჩური დამუშავებისას). mapის ფუნქცია ინარჩუნებს მონაცემთა ნაკრების სტრუქტურას, რაც საშუალებას იძლევა შეუფერხებლად ინტეგრირდეს სხვა Hugging Facსხვა ბიბლიოთეკებთან.ნ.


In [None]:
def split_text_into_words(example: dict) -> dict:
    example['words'] = example['text'].split(' ')
    return example

# .map მეთოდის გამოყენებით შევქნმათ ახალი სვეტი - დავყოთ ტექსტი სიტყვებად
processed_dataset = train_dataset.map(split_text_into_words)
print("დატოკენებული ტექსტი:")
processed_dataset[3]

{'text': "The story is quite original, but the movie is kinda slow building up to the point where they steal the cars. Its kinda nice though to watch them prepare the stealing too, but the actual stealing should've been more in picture... However the stunt work on this movie was excellent and it is definetly a movie you HAVE to see (7/10)",
 'label': 1,
 'words': ['The',
  'story',
  'is',
  'quite',
  'original,',
  'but',
  'the',
  'movie',
  'is',
  'kinda',
  'slow',
  'building',
  'up',
  'to',
  'the',
  'point',
  'where',
  'they',
  'steal',
  'the',
  'cars.',
  'Its',
  'kinda',
  'nice',
  'though',
  'to',
  'watch',
  'them',
  'prepare',
  'the',
  'stealing',
  'too,',
  'but',
  'the',
  'actual',
  'stealing',
  "should've",
  'been',
  'more',
  'in',
  'picture...',
  'However',
  'the',
  'stunt',
  'work',
  'on',
  'this',
  'movie',
  'was',
  'excellent',
  'and',
  'it',
  'is',
  'definetly',
  'a',
  'movie',
  'you',
  'HAVE',
  'to',
  'see',
  '(7/10)']

### მონაცემების პარალელური დამუშავება
Hugging Face-ის მონაცემთა ბიბლიოთეკა, განსხვავებით Pandas-ისგან, გვთავაზობს ჩაშენებულ მონაცემების პარალელური დამუშავების ფუნქციონალს, რაც განსაკუთრებით მნიშვნელობას იძენს დიდ მონაცემებთან მუშაობის შემთხვევაში. მიუხედავად იმისა, რომ Pandas-ს შეუძლია მონაცემთა პარალელური დამუშავება დამატებითი ბიბლიოთეკების დახმარებით (Dask), datasets ბუნებრივად უჭერს მხარს მრავალპროცესორულ დამუშავებას ისეთ ფუნქციებში, როგორიცაა map და filter, რაც უზრუნველყოფს მონაცემთა შედარებით სწრაფ და ეფექტურ ტრანსფორმაციას.


In [None]:
# გამოვიყენოთ მონაცემების პარალელური დამუშავება
import multiprocessing

# მივუთითოთ პროცესების რაოდენობა
# multiprocessing.cpu_count() გამოიყენებს არსებულ ყველა core-ს.
num_proc = multiprocessing.cpu_count()
print(f'კომპიუტერზე {num_proc} პარალელური პროცესის გაშვებაა შესაძლებელი')

კომპიუტერზე 12 პარალელური პროცესის გაშვებაა შესაძლებელი


### მონაცემების პანდასში გადატანა

Padnas DataFrame & Huggingface Dataset ყველაზე პოპულარული ბიბლიოთეკებია, ამიტომ მარტივად არის შესაძლებელი მონაცემების ერთი ფორმატიდან მეორეში გადატანა.

In [None]:
from datasets import Dataset, load_dataset

# ჩავტვირთოთ მონაცემები Dataset კლასში
dataset = load_dataset('imdb', split='train')
dataset

Dataset({
    features: ['text', 'label'],
    num_rows: 25000
})

In [None]:
# Huggingface Dataset -> Pandas DataFrame
df = dataset.to_pandas()
df.head()

Unnamed: 0,text,label
0,I rented I AM CURIOUS-YELLOW from my video sto...,0
1,"""I Am Curious: Yellow"" is a risible and preten...",0
2,If only to avoid making this type of film in t...,0
3,This film was probably inspired by Godard's Ma...,0
4,"Oh, brother...after hearing about this ridicul...",0


In [None]:
# Pandas DataFrame -> Huggingface Dataset
ds = Dataset.from_pandas(df)
ds

Dataset({
    features: ['text', 'label'],
    num_rows: 25000
})

## Summary
In this notebook, we covered:
- Loading datasets using Huggingface Datasets.
- Shuffling the dataset.
- Filtering data based on specific conditions.
- Applying transformations using the `map` function.
- Splitting the dataset into training and test sets.
- Removing columns from the dataset.
- Using multiprocessing to speed up data processing tasks.

The Huggingface Datasets library provides a streamlined and efficient workflow for handling large-scale datasets. With these basics, you can start leveraging this powerful tool for your data processng needs.


## Introduction to APIs
"API-ები (აპლიკაციის პროგრამირების ინტერფეისები) საშუალებას აძლევს სხვადასხვა პროგრამულ სისტემებს ერთმანეთთან კომუნიკაცია დაამყარონ. ისინი ჩვეულებრივ იყენებენ HTTP მოთხოვნებს, სადაც GET მოთხოვნები იღებენ მონაცემებს სერვერიდან, ხოლო POST მოთხოვნები აგზავნიან მონაცემებს სერვერზე რესურსების შესაქმნელად ან განსაახლებლად. GET მოთხოვნები გამოიყენება მონაცემების წასაკითხად მათი შეცვლის გარეშე, ხოლო POST მოთხოვნები გამოიყენება ისეთი ქმედებებისთვის, რომლებიც ცვლიან მონაცემებს, როგორიცაა ფორმის მონაცემების გაგზავნა ან ფაილის ატვირთვა. GET და POST მოთხოვნების გამოყენების გაგება ფუნდამენტურია ვებ სერვისებთან ინტეგრაციისა და ინტერაქტიული, მონაცემებზე დაფუძნებული აპლიკაციების შესაქმნელად."

### Importing Libraries
პირველ რიგში დავაიმპორტოთ საჭირო ბიბლიოთეკები

In [None]:
import requests
from pprint import PrettyPrinter
pp = PrettyPrinter()

### GET მოთხოვნები
* **მიზანი:** მონაცემების მიღება სერვერიდან მათი მოდიფიცირების გარეშე.
* **იდემპოტენტურობა:** მრავალი იდენტური მოთხოვნა იგივე ეფექტს იძლევა.
* **პარამეტრები:** ეთითება URL-ში.
* **გამოყენების მაგალითები:** მონაცემების მიღება, რესურსების წაკითხვა და ინფორმაციის მოძიება.


In [None]:
# GET მოთხოვნის მაგალითი
response = requests.get('https://api.coindesk.com/v1/bpi/currentprice/BTC.json')

# შევამოწმოთ პასუხის კოდი
print("სტატუსის კოდი:", response.status_code)

# დავაკონვერტიროთ მონაცემები JSON ფაილად
data = response.json()
print("დაბრუნებული JSON:")
pp.pprint(data)

სტატუსის კოდი: 200
დაბრუნებული JSON:
{'bpi': {'BTC': {'code': 'BTC',
                 'description': 'Bitcoin',
                 'rate': '1.0000',
                 'rate_float': 1},
         'USD': {'code': 'USD',
                 'description': 'United States Dollar',
                 'rate': '69,789.299',
                 'rate_float': 69789.2994}},
 'disclaimer': 'This data was produced from the CoinDesk Bitcoin Price Index '
               '(USD). Non-USD currency data converted using hourly conversion '
               'rate from openexchangerates.org',
 'time': {'updated': 'Jun 10, 2024 16:37:16 UTC',
          'updatedISO': '2024-06-10T16:37:16+00:00',
          'updateduk': 'Jun 10, 2024 at 17:37 BST'}}


## POST მოთხოვნები
* **მიზანი:** მონაცემების გაგზავნა სერვერზე რესურსის შესაქმნელად ან განსაახლებლად.
* **არაიდემპოტენტური:** მრავალ იდენტურ მოთხოვნას შეიძლება სხვადასხვა ეფექტი ქონდეს.
* **პარამეტრები:** იგზავნება მოთხოვნის ტანში, ხშირად JSON ფორმატში.
* **გამოყენების მაგალითები:** მონაცემების გაგზავნა/წარდგენა, ფაილების ატვირთვა, ახალი რესურსების შექმნა...

In [None]:
import requests

data = {
    'key': 'value'
}

# The API endpoint რომელსაც გამოვიყენებთ
url_post = "https://jsonplaceholder.typicode.com/posts"

# გავგზავნოთ POST მოთხოვნა
post_response = requests.post('https://httpbin.org/post', data = {'key':'value'})

# შევამოწმოთ პასუხის კოდი
print("პასუხის კოდი:", post_response.status_code)

print(post_response.text)

პასუხის კოდი: 200
{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {
    "key": "value"
  }, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate, br", 
    "Content-Length": "9", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.32.3", 
    "X-Amzn-Trace-Id": "Root=1-66672e10-30bb8a263dd2cdbb2cf51a46"
  }, 
  "json": null, 
  "origin": "80.83.134.86", 
  "url": "https://httpbin.org/post"
}

