<div style="background: linear-gradient(90deg, #2d7ff9 0%, #2ecc71 100%); padding: 32px 24px; border-radius: 18px; margin-bottom: 24px; box-shadow: 0 4px 24px #0001; display: flex; align-items: center; gap: 32px;">
<img src="mrbeastlogo.png" alt="MrBeast" style="width:110px; border-radius:50%; box-shadow:0 2px 12px #0002;">
<div>
<h1 style="margin-bottom: 0; color: #fff; font-size: 2.5rem; font-weight: 800; letter-spacing: -1px;">
MR Beast YouTube Yorumları Üzerinde Metin Ön İşleme
</h1>
<p style="color:#f8f8f8; font-size:1.2rem; margin-top:8px;">
Bu projede, <b>MR Beast'in en çok izlenen YouTube videosuna ait 100.000'den fazla yorumu</b> kullanarak profesyonel bir <span style='color:#ffe066'><b>metin ön işleme (text preprocessing)</b></span> süreci uygulayacağız.
</p>
</div>
</div>

<div style="background:#fffbe6; color:#b37f00; padding:18px 18px; border-radius:12px; margin-bottom:18px; font-size:1.1rem; border-left:6px solid #ffe066;">
<b>Case Study:</b> Gerçek bir sosyal medya veri seti üzerinde, <b>ham metni</b> makine öğrenmesi ve doğal dil işleme projelerinde kullanılabilecek <b>temiz ve anlamlı</b> bir forma dönüştüreceğiz.
</div>

<div style="background:#e3f6fc; color:#1a4d6e; padding:16px 18px; border-radius:12px; margin-bottom:18px; font-size:1.05rem;">
<b>Bu projede neler öğreneceksiniz?</b>
<ul style="margin-top:8px;">
<li>Gerçek bir YouTube yorum veri setinin profesyonelce incelenmesi</li>
<li>Veri temizleme, eksik ve tekrarlı verilerin yönetimi</li>
<li>Metin standartlaştırma, noktalama ve özel karakter temizliği</li>
<li>Stopword temizliği, lemmatizasyon ve stemming uygulamaları</li>
<li>Ön işleme adımlarının etkisinin karşılaştırılması</li>
</ul>
</div>

<div style="background:#f8f8f8; color:#333; padding:12px 18px; border-radius:10px; margin-bottom:18px; font-size:1.05rem; border-left:4px solid #2d7ff9;">
<b>İş Akışı:</b> <br>
1. Gerekli kütüphanelerin kurulumu ve importu<br>
2. Veri setinin indirilmesi ve yüklenmesi<br>
3. Veri setinin ilk incelemesi<br>
4. Eksik ve tekrarlı verilerin temizlenmesi<br>
5. Metinlerin küçük harfe dönüştürülmesi<br>
6. Noktalama ve özel karakter temizliği<br>
7. Stopword temizliği<br>
8. Lemmatizasyon ve stemming<br>
9. Sonuçların karşılaştırılması
</div>

## 📦 <span style="color:#2d7ff9"><b>Gerekli Kütüphanelerin Kurulumu ve İmportu</b></span>

<span style="color:#e67e22"><b>Neden?</b></span>  
Doğal dil işleme projelerinde, veri okuma, düzenleme ve metin işleme işlemlerini hızlı ve güvenilir şekilde gerçekleştirmek için güçlü Python kütüphanelerine ihtiyaç vardır. Bu kütüphaneler, metin verisinin işlenmesi ve analizinde endüstri standardı araçlar sunar.

<span style="color:#16a085"><b>Ne Yapıyoruz?</b></span>
- Gerekli kütüphaneleri kuruyoruz (pip ile)
- Kullanacağımız kütüphaneleri import ediyoruz
- NLTK veri setlerini indiriyoruz (stopwords, tokenizer, lemmatizer için)

<span style="background:#eafaf1; color:#1e824c; padding:6px 12px; border-radius:8px; display:inline-block;">
<b>Not:</b> Eğer kütüphaneler zaten kuruluysa, pip komutları tekrar çalıştırılsa da sorun olmaz.
</span>

In [1]:
# Gerekli kütüphanelerin kurulumu (pip ile)
!pip install kagglehub pandas numpy nltk spacy --quiet

# NLTK veri setlerinin indirilmesi
import nltk
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Cemal\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Cemal\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\Cemal\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

In [2]:
# Kütüphanelerin import edilmesi
import pandas as pd  # Veri işleme
import numpy as np   # Sayısal işlemler
import re            # Regex ile metin temizliği
import nltk          # Doğal dil işleme
import spacy         # Gelişmiş NLP işlemleri için (isteğe bağlı)
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer, PorterStemmer
import kagglehub     # Kaggle veri seti indirme

  from .autonotebook import tqdm as notebook_tqdm


## ⬇️ <span style="color:#2d7ff9"><b>Veri Setinin İndirilmesi ve Yüklenmesi</b></span>

<span style="color:#e67e22"><b>Neden?</b></span>  
Gerçek dünyadan alınmış büyük ölçekli bir veri seti üzerinde çalışmak, metin ön işleme tekniklerinin pratikteki etkisini ve gerekliliğini anlamak için kritik öneme sahiptir. Ayrıca, sosyal medya verileri genellikle gürültülü ve karmaşık olduğundan, gerçekçi bir senaryo sunar.

<span style="color:#16a085"><b>Ne Yapıyoruz?</b></span>
- KaggleHub ile MrBeast'in en çok izlenen videosuna ait 100.000 YouTube yorumunu indiriyoruz.
- Dosya yolunu bulup pandas ile veri setini yüklüyoruz.

<span style="background:#fffbe6; color:#b37f00; padding:6px 12px; border-radius:8px; display:inline-block;">
<b>Not:</b> Kaggle API anahtarınız yoksa, <a href="https://www.kaggle.com/docs/api">Kaggle'dan nasıl alınır?</a>

In [3]:
# KaggleHub ile veri setini indiriyoruz
path = kagglehub.dataset_download("kanchana1990/mr-beast-most-viewed-yt-video-100k-comments")
print("Path to dataset files:", path)

# Dosya adını bul ve pandas ile oku
import os
csv_files = [f for f in os.listdir(path) if f.endswith('.csv')]
if csv_files:
    data_path = os.path.join(path, csv_files[0])
    df = pd.read_csv(data_path)
    print(f"Yüklenen dosya: {data_path}")
else:
    print("CSV dosyası bulunamadı!")

Downloading from https://www.kaggle.com/api/v1/datasets/download/kanchana1990/mr-beast-most-viewed-yt-video-100k-comments?dataset_version_number=1...


100%|██████████| 4.21M/4.21M [00:01<00:00, 4.22MB/s]

Extracting files...





Path to dataset files: C:\Users\Cemal\.cache\kagglehub\datasets\kanchana1990\mr-beast-most-viewed-yt-video-100k-comments\versions\1
Yüklenen dosya: C:\Users\Cemal\.cache\kagglehub\datasets\kanchana1990\mr-beast-most-viewed-yt-video-100k-comments\versions\1\mrbeast.csv
Yüklenen dosya: C:\Users\Cemal\.cache\kagglehub\datasets\kanchana1990\mr-beast-most-viewed-yt-video-100k-comments\versions\1\mrbeast.csv


## 🔍 <span style="color:#2ecc71"><b>Veri Setinin İlk İncelemesi</b></span>

<span style="color:#e67e22"><b>Neden?</b></span>  
Veri setinin yapısını, sütunlarını ve temel istatistiklerini analiz etmek, sonraki temizlik ve ön işleme adımlarının doğru ve etkili şekilde planlanabilmesi için gereklidir. Veri kalitesini ve işlenebilirliğini anlamak için ilk inceleme şarttır.

<span style="color:#16a085"><b>Ne Yapıyoruz?</b></span>
- Veri setinin ilk satırlarını görüntülüyoruz.
- Sütun isimlerini ve veri tiplerini inceliyoruz.
- Eksik değer ve temel istatistikleri kontrol ediyoruz.

<span style="background:#e3f6fc; color:#1a4d6e; padding:6px 12px; border-radius:8px; display:inline-block;">
<b>Veri setini tanımadan temizlik yapılmaz!</b>
</span>

In [8]:
# Veri setinin ilk 5 satırı
print("Veri setinin ilk 5 satırı:")
df.head()

Veri setinin ilk 5 satırı:


Unnamed: 0,Comment,Anonymized Author,Published At,Likes,Reply Count
0,"Like I said in the video, subscribe if you hav...",fdf4f229f2dbfdf46f6e0826223d04af346d2933042717...,2021-11-24T21:02:45Z,996380,501
1,"Huge props to the set designers, everything wa...",d8cf09a5150af849f5ded80b42915e5f59fec302309ec3...,2021-11-24T22:07:54Z,507774,501
2,Jimmy's videos have transformed into high-octa...,22c9835e967a0d7189d823bed038ed815c87ef94e12fc8...,2023-10-30T10:25:26Z,4156,30
3,"this man is honestly too good for this world, ...",4449e34d6ad4572bc4a72264bb92f163bb00f671fcbc21...,2023-10-05T17:20:21Z,3935,24
4,mr beast never fails to make good content,4d98df0918c507df760bb8672d21aa92577c2f909dda67...,2023-10-17T11:25:11Z,1495,7


In [9]:
# Sütun isimleri ve veri tipleri
print("Sütunlar ve veri tipleri:")
df.dtypes

Sütunlar ve veri tipleri:


Comment              object
Anonymized Author    object
Published At         object
Likes                 int64
Reply Count           int64
dtype: object

In [10]:
# Temel istatistikler
print("Veri seti şekli:", df.shape)
print("Eksik değer sayısı:")
df.isnull().sum()

Veri seti şekli: (100000, 5)
Eksik değer sayısı:


Comment              0
Anonymized Author    0
Published At         0
Likes                0
Reply Count          0
dtype: int64

## 🧹 <span style="color:#e67e22"><b>Eksik ve Tekrarlı Verilerin Temizlenmesi</b></span>

<span style="color:#e67e22"><b>Neden?</b></span>  
Eksik veya tekrarlı veriler, analiz ve modelleme aşamalarında yanıltıcı ve hatalı sonuçlara yol açabilir. Temiz ve tutarlı bir veri seti, güvenilir ve doğru analizlerin temelini oluşturur.

<span style="color:#16a085"><b>Ne Yapıyoruz?</b></span>
- Eksik (NaN) değer içeren satırları siliyoruz.
- Tamamen aynı olan (tekrarlı) satırları kaldırıyoruz.
- Temizlenmiş veri setinin boyutunu kontrol ediyoruz.

<span style="background:#fffbe6; color:#b37f00; padding:6px 12px; border-radius:8px; display:inline-block;">
<b>Temiz veri = Güvenilir analiz!</b>
</span>

In [12]:
# Eksik değerlerin temizlenmesi
print(f"Eksik değerli satır sayısı: {df.isnull().any(axis=1).sum()}")
df = df.dropna()

Eksik değerli satır sayısı: 0


In [13]:
# Tekrarlı satırların temizlenmesi
print(f"Tekrarlı satır sayısı: {df.duplicated().sum()}")
df = df.drop_duplicates()

Tekrarlı satır sayısı: 0


In [14]:
print(f"Temizlenmiş veri seti şekli: {df.shape}")

Temizlenmiş veri seti şekli: (100000, 5)


## 🔡 <span style="color:#2d7ff9"><b>Metinlerin Küçük Harfe Dönüştürülmesi</b></span>

<span style="color:#e67e22"><b>Neden?</b></span>  
Büyük/küçük harf farklılıkları, aynı kelimenin farklı olarak algılanmasına neden olur ve analizde gereksiz çeşitlilik oluşturur. Tüm metni küçük harfe dönüştürmek, kelime bazlı analizlerde tutarlılık sağlar.

<span style="color:#16a085"><b>Ne Yapıyoruz?</b></span>
- Yorum metinlerinin tamamını küçük harfe dönüştürüyoruz.
- Sütun adını otomatik tespit ediyoruz (örnek: 'comment').

<span style="background:#e3f6fc; color:#1a4d6e; padding:6px 12px; border-radius:8px; display:inline-block;">
<b>"Hello" ve "hello" aynı kelimedir!</b>
</span>

In [15]:
# Yorum metinlerinin küçük harfe dönüştürülmesi
# Yorumların bulunduğu sütun genellikle 'comment' veya benzeri olur, kontrol edelim:
print("Sütunlar:", df.columns)
text_col = 'comment' if 'comment' in df.columns else df.columns[0]
df[text_col] = df[text_col].astype(str).str.lower()
df.head()

Sütunlar: Index(['Comment', 'Anonymized Author', 'Published At', 'Likes', 'Reply Count'], dtype='object')


Unnamed: 0,Comment,Anonymized Author,Published At,Likes,Reply Count
0,"like i said in the video, subscribe if you hav...",fdf4f229f2dbfdf46f6e0826223d04af346d2933042717...,2021-11-24T21:02:45Z,996380,501
1,"huge props to the set designers, everything wa...",d8cf09a5150af849f5ded80b42915e5f59fec302309ec3...,2021-11-24T22:07:54Z,507774,501
2,jimmy's videos have transformed into high-octa...,22c9835e967a0d7189d823bed038ed815c87ef94e12fc8...,2023-10-30T10:25:26Z,4156,30
3,"this man is honestly too good for this world, ...",4449e34d6ad4572bc4a72264bb92f163bb00f671fcbc21...,2023-10-05T17:20:21Z,3935,24
4,mr beast never fails to make good content,4d98df0918c507df760bb8672d21aa92577c2f909dda67...,2023-10-17T11:25:11Z,1495,7


## ✂️ <span style="color:#e67e22"><b>Noktalama İşaretlerinin ve Özel Karakterlerin Temizlenmesi</b></span>

<span style="color:#e67e22"><b>Neden?</b></span>  
Noktalama işaretleri ve özel karakterler, çoğu NLP uygulamasında anlam taşımadığı için kaldırılır. Bu adım, kelime analizini ve modellemeyi sadeleştirir ve gereksiz gürültüyü azaltır.

<span style="color:#16a085"><b>Ne Yapıyoruz?</b></span>
- Regex ile metinlerden noktalama işaretleri ve özel karakterleri temizliyoruz.
- Sadece harf ve boşluklar kalacak şekilde düzenliyoruz.

<span style="background:#fffbe6; color:#b37f00; padding:6px 12px; border-radius:8px; display:inline-block;">
<b>"!@#" gibi karakterler analizde gereksizdir.</b>
</span>

In [16]:
# Noktalama işaretleri ve özel karakterlerin temizlenmesi
# Sadece harf ve boşluklar kalsın
df[text_col] = df[text_col].apply(lambda x: re.sub(r'[^a-zA-Z\s]', '', x))
df.head()

Unnamed: 0,Comment,Anonymized Author,Published At,Likes,Reply Count
0,like i said in the video subscribe if you have...,fdf4f229f2dbfdf46f6e0826223d04af346d2933042717...,2021-11-24T21:02:45Z,996380,501
1,huge props to the set designers everything was...,d8cf09a5150af849f5ded80b42915e5f59fec302309ec3...,2021-11-24T22:07:54Z,507774,501
2,jimmys videos have transformed into highoctane...,22c9835e967a0d7189d823bed038ed815c87ef94e12fc8...,2023-10-30T10:25:26Z,4156,30
3,this man is honestly too good for this world i...,4449e34d6ad4572bc4a72264bb92f163bb00f671fcbc21...,2023-10-05T17:20:21Z,3935,24
4,mr beast never fails to make good content,4d98df0918c507df760bb8672d21aa92577c2f909dda67...,2023-10-17T11:25:11Z,1495,7


## 🚫 <span style="color:#2ecc71"><b>Stopword (Anlamsız Kelime) Temizliği</b></span>

<span style="color:#e67e22"><b>Neden?</b></span>  
Stopword'ler (örn. the, is, and) cümleye anlam katmayan, çok sık geçen kelimelerdir. Bunların çıkarılması, metnin anlamını bozmadan analizde daha anlamlı ve verimli sonuçlar elde edilmesini sağlar.

<span style="color:#16a085"><b>Ne Yapıyoruz?</b></span>
- NLTK ile İngilizce stopword listesini yüklüyoruz.
- Yorumlardan bu kelimeleri çıkarıyoruz.
- Tokenizasyon (kelimeye bölme) işlemiyle birlikte uyguluyoruz.

<span style="background:#e3f6fc; color:#1a4d6e; padding:6px 12px; border-radius:8px; display:inline-block;">
<b>Stopword temizliği = Daha anlamlı analiz!</b>
</span>

In [17]:
# Stopword temizliği
stop_words = set(stopwords.words('english'))
def remove_stopwords(text):
    tokens = nltk.word_tokenize(text)
    filtered = [word for word in tokens if word not in stop_words]
    return ' '.join(filtered)

df[text_col] = df[text_col].apply(remove_stopwords)
df.head()

Unnamed: 0,Comment,Anonymized Author,Published At,Likes,Reply Count
0,like said video subscribe havent already could...,fdf4f229f2dbfdf46f6e0826223d04af346d2933042717...,2021-11-24T21:02:45Z,996380,501
1,huge props set designers everything spot,d8cf09a5150af849f5ded80b42915e5f59fec302309ec3...,2021-11-24T22:07:54Z,507774,501
2,jimmys videos transformed highoctane actionpac...,22c9835e967a0d7189d823bed038ed815c87ef94e12fc8...,2023-10-30T10:25:26Z,4156,30
3,man honestly good world imagine putting much e...,4449e34d6ad4572bc4a72264bb92f163bb00f671fcbc21...,2023-10-05T17:20:21Z,3935,24
4,mr beast never fails make good content,4d98df0918c507df760bb8672d21aa92577c2f909dda67...,2023-10-17T11:25:11Z,1495,7


## 🌱 <span style="color:#e67e22"><b>Lemmatizasyon ve Stemming</b></span>

<span style="color:#e67e22"><b>Neden?</b></span>  
Kelime köklerine indirgeme (lemmatizasyon ve stemming), aynı anlama gelen farklı kelime formlarını tekilleştirir. Bu sayede, metin analizinde daha doğru ve anlamlı sonuçlar elde edilir; modelin karmaşıklığı azalır.

<span style="color:#16a085"><b>Ne Yapıyoruz?</b></span>
- Lemmatizasyon: Kelimeleri sözlükteki kök haline çeviriyoruz.
- Stemming: Kelimeleri köküne indiriyoruz (daha kaba bir yöntem).
- Her iki yöntemi de uygulayıp karşılaştırıyoruz.

<span style="background:#fffbe6; color:#b37f00; padding:6px 12px; border-radius:8px; display:inline-block;">
<b>"running" → "run" (lemma), "runn" (stem)</b>
</span>

In [18]:
# Lemmatizasyon ve stemming fonksiyonları
def lemmatize_text(text):
    lemmatizer = WordNetLemmatizer()
    tokens = nltk.word_tokenize(text)
    lemmatized = [lemmatizer.lemmatize(token) for token in tokens]
    return ' '.join(lemmatized)

def stem_text(text):
    stemmer = PorterStemmer()
    tokens = nltk.word_tokenize(text)
    stemmed = [stemmer.stem(token) for token in tokens]
    return ' '.join(stemmed)

# Lemmatizasyon uygulanıyor
df[text_col + '_lemma'] = df[text_col].apply(lemmatize_text)
# Stemming uygulanıyor
df[text_col + '_stem'] = df[text_col].apply(stem_text)
df[[text_col, text_col + '_lemma', text_col + '_stem']].head()

Unnamed: 0,Comment,Comment_lemma,Comment_stem
0,like said video subscribe havent already could...,like said video subscribe havent already could...,like said video subscrib havent alreadi could win
1,huge props set designers everything spot,huge prop set designer everything spot,huge prop set design everyth spot
2,jimmys videos transformed highoctane actionpac...,jimmy video transformed highoctane actionpacke...,jimmi video transform highoctan actionpack blo...
3,man honestly good world imagine putting much e...,man honestly good world imagine putting much e...,man honestli good world imagin put much effort...
4,mr beast never fails make good content,mr beast never fails make good content,mr beast never fail make good content


## 🆚 <span style="color:#2d7ff9"><b>Sonuçların Karşılaştırılması</b></span>

<span style="color:#e67e22"><b>Neden?</b></span>  
Ön işleme adımlarının metin üzerindeki etkisini gözlemlemek, hangi işlemin metni nasıl değiştirdiğini ve analiz sonuçlarını nasıl etkilediğini anlamak için gereklidir. Bu karşılaştırma, en uygun ön işleme stratejisini seçmek için önemlidir.

<span style="color:#16a085"><b>Ne Yapıyoruz?</b></span>
- Orijinal, lemmatize ve stem edilmiş metinlerden örnekler gösteriyoruz.
- Farklıları gözlemliyoruz.

<span style="background:#e3f6fc; color:#1a4d6e; padding:6px 12px; border-radius:8px; display:inline-block;">
<b>Ön işleme = Daha güçlü NLP modelleri!</b>
</span>

In [21]:
# Orijinal ve ön işlenmiş metinlerin karşılaştırılması
print("Orijinal ve işlenmiş örnekler:")
display(df[[text_col, text_col + '_lemma', text_col + '_stem']].sample(10, random_state=42))

Orijinal ve işlenmiş örnekler:


Unnamed: 0,Comment,Comment_lemma,Comment_stem
75721,que grande ojal algn da llames para jugar sera...,que grande ojal algn da llames para jugar seru...,que grand ojal algn da llame para jugar sera u...
80184,tr chi con mc tht l tuyt vi cm n brawl staars ...,tr chi con mc tht l tuyt vi cm n brawl staars ...,tr chi con mc tht l tuyt vi cm n brawl staar t...
19864,actually get money,actually get money,actual get money
76699,,,
92991,production around mins vid proves mrbeast hand...,production around min vid prof mrbeast hand gr...,product around min vid prove mrbeast hand grea...
76434,better original squid game,better original squid game,better origin squid game
84004,hell years already,hell year already,hell year alreadi
80917,una locura total,una locura total,una locura total
60767,imagine chris karl chandler talking strangers ...,imagine chris karl chandler talking stranger m...,imagin chri karl chandler talk stranger metro ...
50074,amazing,amazing,amaz


In [None]:
# KaggleHub ile indirilen dosyayı çalışma klasörüne kopyala (hata almamak için tam yol kullanılır)
import shutil
import os

# KaggleHub ile indirilen klasörün yolu (örnek: path değişkeni ile alınan yol)
indirilen_klasor = path if 'path' in globals() else 'kagglehub/datasets/kanchana1990/mr-beast-most-viewed-yt-video-100k-comments'

# Hedef dosya adı
hedef_dosya = 'mr-beast-most-viewed-yt-video-100k-comments.csv'

# Kaynak dosya yolunu bul
kaynak_dosya = None
for f in os.listdir(indirilen_klasor):
    if f.endswith('.csv'):
        kaynak_dosya = os.path.join(indirilen_klasor, f)
        break

if kaynak_dosya and os.path.exists(kaynak_dosya):
    shutil.copyfile(kaynak_dosya, hedef_dosya)
    print(f"{kaynak_dosya} dosyası {hedef_dosya} olarak çalışma klasörüne kopyalandı.")
else:
    print('CSV dosyası bulunamadı veya yol hatalı!')

FileNotFoundError: [WinError 3] Sistem belirtilen yolu bulamıyor: 'kagglehub/datasets/kanchana1990/mr-beast-most-viewed-yt-video-100k-comments'