In [24]:
import pandas as pd
import tensorflow as tf
import keras_core as keras
import keras_nlp
import numpy as np
from sklearn.model_selection import train_test_split

In [28]:
df_train = pd.read_csv("/kaggle/input/nlp-getting-started/train.csv")
df_test = pd.read_csv("/kaggle/input/nlp-getting-started/test.csv")
sample_submission = pd.read_csv("/kaggle/input/nlp-getting-started/sample_submission.csv")

In [6]:
df_train.head()

Unnamed: 0,id,keyword,location,text,target
0,1,,,Our Deeds are the Reason of this #earthquake M...,1
1,4,,,Forest fire near La Ronge Sask. Canada,1
2,5,,,All residents asked to 'shelter in place' are ...,1
3,6,,,"13,000 people receive #wildfires evacuation or...",1
4,7,,,Just got sent this photo from Ruby #Alaska as ...,1


In [7]:
df_test.head()

Unnamed: 0,id,keyword,location,text
0,0,,,Just happened a terrible car crash
1,2,,,"Heard about #earthquake is different cities, s..."
2,3,,,"there is a forest fire at spot pond, geese are..."
3,9,,,Apocalypse lighting. #Spokane #wildfires
4,11,,,Typhoon Soudelor kills 28 in China and Taiwan


In [10]:
BATCH_SIZE = 32 # Her bir eğitim yinelemesinde (iterasyon) kullanılacak örnek sayısını belirler. Burada her batch'de 32 örnek işlenecek.
NUM_TRAINING_EXAMPLES = df_train.shape[0] # Eğitim veri setindeki toplam örnek sayısını belirler.
TRAIN_SPLIT = 0.8 # Eğitim veri setinin %80'inin gerçek eğitim için kullanılacağını belirtir.
VAL_SPLIT = 0.2 # Eğitim veri setinin %20'sinin doğrulama (validation) için kullanılacağını belirtir.
STEPS_PER_EPOCH = int(NUM_TRAINING_EXAMPLES)*TRAIN_SPLIT // BATCH_SIZE #Her epoch'ta gerçekleştirilecek adım (step) sayısını hesaplar.

EPOCHS = 2 # Eğitim sürecinin toplam kaç epoch süreceğini belirtir.
AUTO = tf.data.experimental.AUTOTUNE # TensorFlow'un veri yüklemeyi otomatik olarak optimize etmesini sağlar

In [12]:
X = df_train["text"]
y = df_train["target"]

X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=VAL_SPLIT, random_state=42)

X_test = df_test["text"]

In [15]:
# DistilBERT modelinin hangi önayarının (preset) kullanılacağını belirler. Burada, İngilizce
#için eğitilmiş ve büyük/küçük harf ayrımı yapmayan (uncased) temel DistilBERT modeli kullanılıyor.
preset= "distil_bert_base_en_uncased"

# DistilBERT için özel bir metin ön işleyici (preprocessor) oluşturur. Bu ön işleyici, metinleri
#modele uygun formata dönüştürmek için kullanılır.
preprocessor = keras_nlp.models.DistilBertPreprocessor.from_preset(preset,
                                                                   sequence_length=160, #Modelin işleyeceği maksimum dizi uzunluğunu
                                                                   name="preprocessor_4_tweets" #Ön işleyicinin adını belirtir, burada "tweets" için kullanılacağı ima ediliyor
                                                                  )

# Ön eğitimli bir DistilBERT sınıflandırıcı modeli oluşturur. Bu model, verilen metinleri sınıflandırmak için kullanılacak.
classifier = keras_nlp.models.DistilBertClassifier.from_preset(preset,
                                                               preprocessor = preprocessor, 
                                                               num_classes=2) #Sınıflandırma görevinin kaç sınıf içereceğini belirtir

#Oluşturulan sınıflandırıcı modelin özetini görüntüler. Bu, modelin katmanlarını, parametre sayısını
#ve diğer yapısal detayları içerir.
classifier.summary()

Attaching 'tokenizer.json' from model 'keras/distil_bert/keras/distil_bert_base_en_uncased/2' to your Kaggle notebook...
Attaching 'tokenizer.json' from model 'keras/distil_bert/keras/distil_bert_base_en_uncased/2' to your Kaggle notebook...
Attaching 'assets/tokenizer/vocabulary.txt' from model 'keras/distil_bert/keras/distil_bert_base_en_uncased/2' to your Kaggle notebook...
Attaching 'config.json' from model 'keras/distil_bert/keras/distil_bert_base_en_uncased/2' to your Kaggle notebook...
Attaching 'config.json' from model 'keras/distil_bert/keras/distil_bert_base_en_uncased/2' to your Kaggle notebook...
Attaching 'model.weights.h5' from model 'keras/distil_bert/keras/distil_bert_base_en_uncased/2' to your Kaggle notebook...
  return id(getattr(self, attr)) not in self._functional_layer_ids
  return id(getattr(self, attr)) not in self._functional_layer_ids


# Submission Dosyası

In [30]:
sample_submission["target"] = np.argmax(classifier.predict(X_test), axis=1)



In [31]:
sample_submission.to_csv("submission.csv", index=False)