# Kütüphaneleri içe aktarma

In [None]:
import pandas as pd # veri işleme için
from sklearn.feature_extraction.text import TfidfVectorizer # metini modelin anlayacağı sayısal değerlere dönüştürmek için
from sklearn.linear_model import LinearRegression # yapay zeka modeli
import joblib # modeli kaydetmek ve yüklemek için
import numpy as np # sayısal işlemler için

# Veri kümesi işlemleri

## Veri kümesini yerel dosyadan okuma

In [None]:
# Veri kümesini okuma
df = pd.read_csv('turkish_movie_sentiment_dataset.csv')
df.head()

## Veri kümesinin metin olan sütununu sayıya çevrilebilir hale getirme

In [None]:
# Puan sütunundaki virgülleri nokta ile değiştirme ve float'a çevirme
df['point'] = df['point'].str.replace(',', '.').astype(float)

In [None]:
df.head()

## Veri kümesini karıştırma

In [None]:
df = df.sample(frac=1, random_state=42).reset_index(drop=True) # veriyi karıştırma

In [None]:
df.head()

# Veriyi sayısallaştırma

## Sayısallaştırıcıyı oluşturma
trigram tabanlı

In [None]:
 # TF-IDF Vectorizer'ı oluşturma (trigram tabanlı)
vectorizer = TfidfVectorizer(ngram_range=(1, 3))

## Yorumları sayısallaştırma

In [None]:
def text_to_vector(text, vectorizer):
    # Metni vektöre dönüştür
    vector = vectorizer.transform([text])
    return vector.toarray()[0]

def vector_to_text(vector, vectorizer):
    # Vektörü metne dönüştür
    feature_names = vectorizer.get_feature_names_out()
    non_zero_indices = np.nonzero(vector)[0]
    words = [feature_names[i] for i in non_zero_indices]
    return ' '.join(words)

In [None]:
 # Eğitim verilerini vektöre dönüştürme
X_train_vectorized = vectorizer.fit_transform(df['comment'])

## Sayısallaştırmayı test etme

In [None]:
print(f"İlk 10 eleman: {vectorizer.get_feature_names_out()[:10]}")
print(f"Son 10 eleman: {vectorizer.get_feature_names_out()[-10:]}")

In [None]:
vector = text_to_vector("Ekşın falan izlemek istiyorsanız eğer bunu izlemeyiin", vectorizer)
print(f"Vektör boyutu: {len(vector)}")
print(f"Vektörün sıfırdan farklı elemanları: {np.nonzero(vector)}")

In [None]:
# Vektörü tekrar metne dönüştür
reconstructed_text = vector_to_text(vector, vectorizer)
print(f"Metin: {reconstructed_text}")

# Model Eğitimi

## Modeli tanımlama

In [None]:
# Linear Regression modelini oluşturma ve eğitme
model = LinearRegression()

## Modeli eğitme
yaklaşık 3 dakika

In [None]:
model.fit(X_train_vectorized, df['point'])

## Modeli kaydetme
tokenizer ile birlikte

In [None]:
# Modeli ve vektörleyiciyi kaydetme
joblib.dump(model, 'movie_sentiment_model.joblib')
joblib.dump(vectorizer, 'movie_sentiment_vectorizer.joblib')

print("Model ve vektörleyici başarıyla kaydedildi.")