# Vektörleştirme

TF-IDF (Term Frequency-Inverse Document Frequency) vektörleştirici kullanarak haber metinlerini işliyoruz. Bu işlemin amacı, metin verilerini sayısal bir formata dönüştürerek makine öğrenmesi modellerinin bu verilerle çalışmasını sağlamaktır.

Metin verisini sayısal forma dönüştürmek, makine öğrenmesi modellerinin metinle çalışmasını sağlar.
Önemli Kelimeler: TF-IDF, metinlerdeki önemli kelimeleri belirleyerek modelin anlamlı özelliklere odaklanmasını sağlar.
Boyut Azaltma: max_features ve min_df gibi parametrelerle gereksiz kelimeleri filtreleyerek veriyi daha yönetilebilir hale getirir.

Kelime Tabanlı Vektörleştirici (Word-Level Vectorizer)
Amaç: Metinleri kelime seviyesinde analiz ederek, her metni kelime frekanslarının ağırlıklı kombinasyonu olarak temsil eder. Metinlerin anlamını ve konusunu yakalamaya yardımcı olur.


Karakter Tabanlı Vektörleştirici (Char-Level Vectorizer)
Amaç: Metinleri karakter seviyesinde analiz ederek, her metni karakter n-gram'larının ağırlıklı kombinasyonu olarak temsil eder. Yazım hatalarını, özel dil kullanım kalıplarını ve nadir terimleri yakalamaya yardımcı olur.

In [1]:
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd
import pickle

In [2]:
def load_data(path):
    with open(path, 'rb') as handle:
        dataset = pickle.load(handle)
    return dataset

In [3]:
df_train = load_data(r"data/interpress_news_category_tr_lite_train_cleaned.pkl")
df_test = load_data(r"data/interpress_news_category_tr_lite_test_cleaned.pkl")

df_all = pd.concat([df_train, df_test], ignore_index=True)

In [4]:
df_train.shape

(21888, 3)

In [5]:
df_test.shape

(5472, 3)

In [6]:
df_train['content'][1285]

'OKURLARA Eşik , Irmak Zileli nin ilk romanı. Bir kadının var oluş hikayesini anlatan Eşik, siyasal ve ideolojik çatışmaların içindeki bir kız çocuğunun açmazlarını, çelişkilerini ilmek ilmek örerken bir ailenin fertleri olan öteki roman karakterlerinin ruhunda, düşünce dünyasında yaşanan dönüşümü de özgün bir üslupla yansıtıyor. Roman, 12 Eylül e 80 kuşağının bakışı olarak okunabileceği gibi bundan tümüyle bağımsız şekilde, babaktz sevgisi ve çatışması, siyasi ilişkilerle biçimlenmiş bir ailenin öyküsü, genç bir kadının var oluş mücadelesi ve toplumsal dönüşümlerin birey üzerindeki yansımaları olarak da okunabilir. Irmak Zileliyle romanını konuştuk, iki güzel insan, iki seçkin şair, Ataol Behramoğlu yla Metin Demirtaş ve onların 1970-1995 yılları arasındaki mektuplaşmalarından oluşan  Şiirin Kanadında Mektuplar  adlı kitap, iki şair arasında gidip gelen, kimi zaman umutlu, kimi zaman yaşananlara kırgın ve kızgın mektuplar. 12 Mart ve 12 Eylül faşist darbelerinde yurtdışındaki dönem, B

## Parametrelerin Açıklaması

max_features=2000:
En sık geçen 2000 kelimeyi seçer. Bu, modelin boyutunu ve hesaplama maliyetini düşürmek için kullanılır.

analyzer='word':
Analiz edilen birimin kelime olduğunu belirtir. TF-IDF, kelime seviyesinde hesaplanır.

ngram_range=(1,3):
Unigram (tek kelime), bigram (iki kelime) ve trigram (üç kelime) kombinasyonlarını kullanır. Bu, hem tek kelimelerin hem de kelime gruplarının (örneğin "makine öğrenmesi" gibi) modelde yer almasını sağlar.

min_df=3:
En az 3 belgede geçen kelimeleri dikkate alır. Çok nadir kelimeleri (belki hatalı veya anlamsız olanları) göz ardı ederek modelin daha genel geçer kalıplara odaklanmasını sağlar.

sublinear_tf=True:
Term frequency değerlerini logaritmik olarak dönüştürür. Bu, çok sık geçen kelimelerin etkisini azaltır ve modelin aşırı öğrenmesini önler.

In [7]:
vectorizer_word = TfidfVectorizer(max_features=2000, analyzer='word', ngram_range = (1,3), min_df=3, sublinear_tf=True)
featured_tfidf_word = vectorizer_word.fit(df_all['clean_content']) 

"Pickle" kullanılarak vektörleştirici modelleri kaydedilir. Bu, eğitim sürecinin tekrar edilmesine gerek kalmadan, vektörleştirici modellerin daha sonra yeniden kullanılabilmesini sağlar.

In [8]:
with open('vectors/news_tr_word.pkl', 'wb') as handle:
    pickle.dump(featured_tfidf_word, handle, protocol=pickle.HIGHEST_PROTOCOL)

In [9]:
vectorizer_char = TfidfVectorizer(max_features=2000, analyzer='char', ngram_range = (1,3), min_df=3, sublinear_tf=True)
featured_tfidf_char = vectorizer_char.fit(df_all['clean_content'])

In [10]:
with open('vectors/news_tr_char.pkl', 'wb') as handle:
    pickle.dump(featured_tfidf_char, handle, protocol=pickle.HIGHEST_PROTOCOL)