In [None]:
import pandas as pd

# Veri setinin dosya yolu. Eğer dosya aynı klasördeyse sadece adı yeterli.
# Eğer farklı bir yerde ise, tam dosya yolunu belirtmelisin.
file_path = 'IMDB Dataset.csv'

try:
    # CSV dosyasını oku
    df = pd.read_csv(file_path)

    print("Veri Seti Başarıyla Yüklendi!")
    print("\nİlk 5 satır:")
    print(df.head())

    print("\nVeri Seti Bilgileri:")
    df.info()

    print("\nDuygu Dağılımı:")
    print(df['sentiment'].value_counts())

    print("\nMetin Sütunu İçin Bazı İstatistikler (Karakter Sayısı):")
    df['text_length'] = df['review'].apply(len)
    print(df['text_length'].describe())

except FileNotFoundError:
    print(f"Hata: '{file_path}' dosyası bulunamadı. Lütfen dosya yolunu kontrol edin veya dosyanın aynı klasörde olduğundan emin olun.")
except Exception as e:
    print(f"Bir hata oluştu: {e}")

In [None]:
import re

def remove_html_tags(text):
    """Metindeki HTML etiketlerini kaldırır."""
    clean = re.compile('<.*?>')
    return re.sub(clean, '', text)

# 'review' sütununa HTML etiketlerini temizleme fonksiyonunu uygula
df['review_cleaned'] = df['review'].apply(remove_html_tags)

# Temizlenmiş ilk 5 yorumu ve orijinal yorumları karşılaştır
print("Orijinal ve Temizlenmiş Yorumların İlk 5 Satırı:")
print(df[['review', 'review_cleaned']].head())

# Değişikliğin olup olmadığını görmek için rastgele bir yorumu kontrol edebiliriz
# Örneğin, 3. yorumu alalım (indeksi 2)
print("\n-----------------------------------------------------")
print("Rastgele Bir Yorumun Orijinal ve Temizlenmiş Hali (Örnek Indeks 2):")
print(f"Orijinal: {df['review'].iloc[2]}")
print(f"Temizlenmiş: {df['review_cleaned'].iloc[2]}")
print("-----------------------------------------------------")

In [None]:
import string
import re # Eğer regex kullanacaksan

# Küçük harfe çevirme
df['review_cleaned'] = df['review_cleaned'].str.lower()

# Noktalama işaretlerini kaldırma (bir yöntem)
# df['review_cleaned'] = df['review_cleaned'].apply(lambda x: x.translate(str.maketrans('', '', string.punctuation)))

# Noktalama işaretlerini kaldırma (başka bir yöntem, regex ile)
df['review_cleaned'] = df['review_cleaned'].apply(lambda x: re.sub(r'[^\w\s]', '', x))


# Temizlenmiş (küçük harfe çevrilmiş ve noktalama işaretleri kaldırılmış) ilk 5 yorumu kontrol et
print("Küçük Harf ve Noktalama Temizliği Sonrası İlk 5 Yorum:")
print(df[['review_cleaned']].head())

# Rastgele bir örnek yorumu tekrar kontrol edebilirsin
print("\n-----------------------------------------------------")
print("Rastgele Bir Yorumun Noktalama Temizliği Sonrası Hali (Örnek Indeks 2):")
print(f"Temizlenmiş (Yeni Hali): {df['review_cleaned'].iloc[2]}")
print("-----------------------------------------------------")

In [None]:
from nltk.corpus import stopwords

# İngilizce durak kelimeleri yükle
stop_words = set(stopwords.words('english'))

def remove_stopwords(text):
    """Metindeki durak kelimeleri kaldırır."""
    words = text.split() # Metni kelimelere ayır (tokenization)
    # Her kelimeyi kontrol et ve eğer durak kelime listesinde değilse, o kelimeyi koru
    filtered_words = [word for word in words if word not in stop_words]
    return ' '.join(filtered_words) # Kalan kelimeleri tekrar birleştir

# 'review_cleaned' sütununa durak kelime temizleme fonksiyonunu uygula
df['review_cleaned'] = df['review_cleaned'].apply(remove_stopwords)

# Temizlenmiş ilk 5 yorumu kontrol et
print("Durak Kelimeler Temizliği Sonrası İlk 5 Yorum:")
print(df[['review_cleaned']].head())

# Rastgele bir örnek yorumu tekrar kontrol et
print("\n-----------------------------------------------------")
print("Rastgele Bir Yorumun Durak Kelimeler Temizliği Sonrası Hali (Örnek Indeks 2):")
print(f"Temizlenmiş (Yeni Hali): {df['review_cleaned'].iloc[2]}")
print("-----------------------------------------------------")

In [13]:
from sklearn.feature_extraction.text import TfidfVectorizer

print("\n--- Adım 4: Metin Temsili (TF-IDF Vectorization) ---")

# TF-IDF Vectorizer nesnesini oluştur
# max_features: En sık geçen 10.000 kelimeyi al (önemli kelimeleri sınırlamak için)
# min_df: Bir kelime en az 5 belgede geçmiyorsa göz ardı et (çok nadir kelimeleri elemek için)
# max_df: Bir kelime belgelerin %70'inden fazlasında geçiyorsa göz ardı et (çok yaygın kelimeleri elemek için)
vectorizer = TfidfVectorizer(max_features=10000, min_df=5, max_df=0.7)

# Temizlenmiş yorumları (df['review_cleaned']) TF-IDF vektörlerine dönüştür
# X artık modelin kullanacağı sayısal özellik matrisi olacak
X = vectorizer.fit_transform(df['review_cleaned'])

# Oluşan TF-IDF matrisinin boyutlarını kontrol et
# Çıktı (yorum sayısı, benzersiz ve filtrelenmiş kelime sayısı) şeklinde olacaktır.
print("TF-IDF Matrisinin Boyutları (Yorum Sayısı, Benzersiz Kelime Sayısı):", X.shape)

# İsteğe bağlı: Oluşturulan kelime dağarcığının (vocabulary) ilk birkaç elemanını görmek
# Eğer istersen bu satırı yorumdan çıkarıp kelimeleri görebilirsin.
# print("\nVectorizer Kelime Dağarcığından İlk 10 Kelime:")
# print(vectorizer.get_feature_names_out()[:10])

print("\nMetin temsil adımı tamamlandı.")

ModuleNotFoundError: No module named 'sklearn'