In [1]:
#Title tokenize etme yani sayısallaştırma 
import pandas as pd
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

# CSV dosyasını yükle
df = pd.read_csv("data_all_news.csv")

# Tokenizer nesnesini oluşturma
max_words = 1500  # En fazla 2500 kelimeyi dikkate alır
oov_tok = "<OOV>"  # Sözlükte olmayan kelimeler için kullanılacak token
tokenizer = Tokenizer(num_words=max_words, oov_token=oov_tok)

# 'Title' sütunundaki haber başlıkları ile tokenizer'ı eğitiyoruz
tokenizer.fit_on_texts(df['Title'])

# Başlıkları sayısal dizilere dönüştürme
sequences = tokenizer.texts_to_sequences(df['Title'])

# Kelime sözlüğünü almak
word_index = tokenizer.word_index
print("Found %s unique tokens." % len(word_index))

# Dizileri aynı uzunlukta olacak şekilde doldurmak
max_len = 15  # Başlıkların uzunluğunu 20 kelimeye sabitliyoruz
X_pad = pad_sequences(sequences, maxlen=max_len)

# Etiketleri (Label) numpy dizisine dönüştürün
y = df['Label'].values

# X_pad ve y'yi birleştirerek yeni bir DataFrame oluştur
df_padded = pd.DataFrame(X_pad, columns=[f"word_{i+1}" for i in range(max_len)])

# Etiketleri ekleyelim
df_padded['Label'] = y

# Yeni veriyi yeni bir CSV dosyasına kaydedelim
df_padded.to_csv('data_tokenized2.csv', index=False)

# İlk birkaç satırı kontrol et
print(df_padded.head())

Found 22440 unique tokens.
   word_1  word_2  word_3  word_4  word_5  word_6  word_7  word_8  word_9  \
0       0       0       0       0       0       0       0      47      25   
1       0       0       0       0       0       0       0       0       0   
2       0       0       0       0       0       0       0       0      26   
3       0       0       0       0       0       0       0       0       1   
4       0       0       0       0       0       0      99     810       1   

   word_10  word_11  word_12  word_13  word_14  word_15  Label  
0      393        1        1        1       81        2      0  
1        0        0      699      380        1        2      0  
2        1      381        1       18        6       14      0  
3      536       53        1        1        4        2      0  
4        1        1        1        1        1        1      1  


In [None]:
#Terminalden huggingface-cli login komutuyla login oldum.

In [4]:
import pandas as pd
from transformers import AutoTokenizer

# Tokenizer'ı başlatıyoruz
tokenizer = AutoTokenizer.from_pretrained("alibayram/tr_tokenizer", use_fast=True)

# CSV dosyasını okuyalım
df = pd.read_csv("data_all_news.csv")

# Başlıkları (Title) ve etiketleri (Label) alıyoruz
titles = df['Title'].tolist()  # 'Title' sütununu al
labels = df['Label'].tolist()  # 'Label' sütununu al

# Tokenize edilmiş başlıklar ve etiketleri saklamak için liste oluşturuyoruz
tokenized_titles = []
encoded_labels = []

# Tokenize işlemine başlıyoruz
for i, (title, label) in enumerate(zip(titles, labels)):
    tokens = tokenizer.tokenize(title)  # Başlığı tokenize ediyoruz
    tokenized_titles.append(tokens)  # Tokenize edilmiş başlıkları listeye ekliyoruz
    encoded_labels.append(label)  # Etiketi listeye ekliyoruz

    # Her 100. veri işlendiğinde ekrana yazdırıyoruz
    if (i + 1) % 100 == 0:
        print(f"{i + 1} veri işlendi.")

# Tokenize edilmiş başlıklar ve etiketlerle DataFrame oluşturuyoruz
tokenized_df = pd.DataFrame({
    'Title': tokenized_titles,  # Tokenize edilmiş başlıklar
    'Label': encoded_labels     # Etiketler
})

# CSV dosyasına kaydediyoruz
tokenized_df.to_csv('data_tokenized.csv', index=False)

print("Tokenize işlemi tamamlandı ve yeni CSV dosyasına kaydedildi.")


100 veri işlendi.
200 veri işlendi.
300 veri işlendi.
400 veri işlendi.
500 veri işlendi.
600 veri işlendi.
700 veri işlendi.
800 veri işlendi.
900 veri işlendi.
1000 veri işlendi.
1100 veri işlendi.
1200 veri işlendi.
1300 veri işlendi.
1400 veri işlendi.
1500 veri işlendi.
1600 veri işlendi.
1700 veri işlendi.
1800 veri işlendi.
1900 veri işlendi.
2000 veri işlendi.
2100 veri işlendi.
2200 veri işlendi.
2300 veri işlendi.
2400 veri işlendi.
2500 veri işlendi.
2600 veri işlendi.
2700 veri işlendi.
2800 veri işlendi.
2900 veri işlendi.
3000 veri işlendi.
3100 veri işlendi.
3200 veri işlendi.
3300 veri işlendi.
3400 veri işlendi.
3500 veri işlendi.
3600 veri işlendi.
3700 veri işlendi.
3800 veri işlendi.
3900 veri işlendi.
4000 veri işlendi.
4100 veri işlendi.
4200 veri işlendi.
4300 veri işlendi.
4400 veri işlendi.
4500 veri işlendi.
4600 veri işlendi.
4700 veri işlendi.
4800 veri işlendi.
4900 veri işlendi.
5000 veri işlendi.
5100 veri işlendi.
5200 veri işlendi.
5300 veri işlendi.
54