# Import

In [53]:
from sklearn.feature_extraction.text import TfidfVectorizer
from datasets import load_dataset
import pandas as pd
import pickle
import json
import os

# Data

In [44]:
TRAIN_PATH = os.path.join('..', 'POS_Tagging', 'data', 'train')
TEST_PATH = os.path.join('..', 'POS_Tagging', 'data', 'test')
VOCAB_PATH = os.path.join('..', 'POS_Tagging', 'data', 'vocab', 'words.json')

In [5]:
dataset = load_dataset('parquet', data_files=[*[os.path.join(TRAIN_PATH, f'train_{i}.parquet') for i in range(9)],
                                    *[os.path.join(TEST_PATH, f'test_{i}.parquet') for i in range(9)]])

Resolving data files:   0%|          | 0/18 [00:00<?, ?it/s]

In [45]:
with open(VOCAB_PATH, 'r') as f:
    vocab = json.load(f)

In [48]:
vocab[0:10]

['თუკის',
 'ფირჩოსანნი',
 'დოკუმენტალისტიკიდან',
 'გაგემახვილებინა',
 'დააწებო',
 'ცილისწამებით',
 'თაყვანისვცე',
 'ითმინოო',
 'ანიტამ',
 'მოსამსახურეები']

# TF-IDF

In [4]:
vectorizer = TfidfVectorizer()

In [7]:
vectorizer.fit((" ".join(['<UNK>' if pos == 'Other' else '<NUM>' if pos == 'Num' else word for word, pos in zip(sent['mod_words'], sent['pos_tags']) if pos != 'Punct']) for sent in dataset['train']))

In [24]:
with open(os.path.join('models', 'tfidf.pkl'), 'wb') as f:
    pickle.dump(vectorizer, f, protocol=pickle.DEFAULT_PROTOCOL)

In [None]:
feature_names = vectorizer.get_feature_names_out()
feature_names

array(['00', '000', '001', ..., 'ჰჰჰჰჰჰჰძ', 'ჰჰჰჰჰჰჰჰჰ', 'ჰჰჰჰჰჰჰჰჰჰჰჰჰჰ'],
      dtype=object)

In [81]:
df_idf = pd.DataFrame(vectorizer.idf_, index=feature_names, columns=["idf_weights"])

#inverse document frequency
potential_stop_words = set(df_idf.sort_values(by=['idf_weights']).head(200).index)

In [92]:
potential_stop_words - set(['num', 'ქართველი', 'ქართული', 'ქვეყანაში', 'აშშ', 'განცხადებით', 
                           'ქვეყნის', 'ადამიანი', 'ადამიანის' ,'unk', 'განაცხადა',
                            'საქართველოს', 'წლის', 'შესახებ', 'საქართველოში', 
                            'თბილისში', 'ქართულ', 'ხელისუფლება', 'ხელისუფლების',  
                            'რუსეთის', 'საგარეო',  'ცნობილი', 'ცოტა', 'ძალიან', 'წელს',])

{'აზრით',
 'ალბათ',
 'ამ',
 'ამას',
 'ამის',
 'ამიტომ',
 'ან',
 'ანუ',
 'არ',
 'არა',
 'არამედ',
 'არაფერი',
 'არიან',
 'არის',
 'არსებობს',
 'არც',
 'ასე',
 'ასევე',
 'ასეთ',
 'ასეთი',
 'აფხაზეთის',
 'აქ',
 'აქვთ',
 'აქვს',
 'აღარ',
 'ახალ',
 'ახალი',
 'ახლა',
 'ბევრი',
 'ბოლო',
 'ბოლოს',
 'გამო',
 'განმავლობაში',
 'გარდა',
 'გარეშე',
 'გახდა',
 'გიორგი',
 'გუშინ',
 'და',
 'დავით',
 'დაიწყო',
 'დაკავშირებით',
 'დიდ',
 'დიდი',
 'დროს',
 'დღეს',
 'ერთ',
 'ერთად',
 'ერთი',
 'ერთხელ',
 'ეროვნული',
 'ეს',
 'ვარ',
 'ვერ',
 'ვიდრე',
 'ვინ',
 'ვინც',
 'თავად',
 'თავი',
 'თავის',
 'თავისი',
 'თავს',
 'თბილისის',
 'თითქმის',
 'თუ',
 'თუმცა',
 'თქმა',
 'თქმით',
 'იგი',
 'იმ',
 'იმას',
 'იმის',
 'ის',
 'ისე',
 'ისევ',
 'ისეთი',
 'ისინი',
 'ისიც',
 'იქ',
 'იქნება',
 'იყო',
 'იყოს',
 'კარგად',
 'კარგი',
 'კი',
 'კიდევ',
 'მაგრამ',
 'მათ',
 'მათი',
 'მაინც',
 'მან',
 'მარტო',
 'მას',
 'მაშინ',
 'მე',
 'მერე',
 'მეტი',
 'მთავარი',
 'მთელი',
 'მიერ',
 'მიიღო',
 'მიმართ',
 'მინისტრის',
 'მის',
 'მისი',

In [39]:
print(vectorizer.transform(['მე შენ და ის ']).todense())

[[0. 0. 0. ... 0. 0. 0.]]
