# Doğal Dil İşleme Dersi - Ödev 1: Veri Hazırlama

Bu notebook, metin tabanlı bir veri setinin indirilmesi ve hazırlanması adımlarını içermektedir.

## 1. Gerekli Kütüphanelerin Yüklenmesi

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import requests
import re
import os
from collections import Counter
import json
from bs4 import BeautifulSoup

# Grafik ayarları
plt.style.use('ggplot')
sns.set(font_scale=1.2)
plt.rcParams['figure.figsize'] = (12, 8)

## 2. Veri Setinin İndirilmesi

Bu bölümde, çalışmak için seçtiğiniz veri setini indirme işlemini gerçekleştireceksiniz. Veri setinizi seçerken metin tabanlı ve yeterli büyüklükte olmasına dikkat edin.

In [None]:
# Veri setinin indirileceği URL
data_url = "" # Veri seti URL'sini buraya ekleyin

# Veri setini indirme işlemi
# Örnek: Kaggle API kullanımı veya doğrudan indirme

# Veri setinin kaydedileceği dizin
raw_data_dir = "../data/raw/"
os.makedirs(raw_data_dir, exist_ok=True)

# Veri setini indirme ve kaydetme
# Örnek kod (URL'den indirme):
'''
response = requests.get(data_url)
with open(os.path.join(raw_data_dir, "dataset.json"), "wb") as f:
    f.write(response.content)
'''

## 3. Veri Setinin İncelenmesi

İndirilen veri setinin yapısını ve içeriğini inceleyeceğiz.

In [None]:
# Veri setini yükleme (format örneği: JSON)
'''
with open(os.path.join(raw_data_dir, "dataset.json"), "r", encoding="utf-8") as f:
    data = json.load(f)
'''

# Veri seti hakkında genel bilgiler
# Örnek: Toplam döküman sayısı, boyut, format bilgisi
'''
print(f"Toplam döküman sayısı: {len(data)}")
print(f"Veri seti boyutu: {os.path.getsize(os.path.join(raw_data_dir, 'dataset.json')) / (1024*1024):.2f} MB")
print(f"Veri seti formatı: JSON")
'''

## 4. Veri Setinden Örnek İçerik

Veri setinden örnek bir parça gösterelim.

In [None]:
# Örnek veri gösterimi
'''
# İlk 5 örneği göster
for i, example in enumerate(data[:5]):
    print(f"Örnek {i+1}:")
    print(example)
    print("-" * 50)
'''

## 5. Ham Verinin Metin Formatına Dönüştürülmesi

Veri setini metin işleme için uygun formata dönüştürelim.

In [None]:
# Metin verilerini çıkarma
'''
texts = []
for item in data:
    # Veri setine göre metin alanını çıkarma
    # Örnek: item["text"] veya item["content"]
    text = item["text"]  # Veri setinize göre değiştirin
    texts.append(text)
'''

# Metinleri tek bir dosyaya kaydetme
'''
with open(os.path.join(raw_data_dir, "raw_texts.txt"), "w", encoding="utf-8") as f:
    for text in texts:
        f.write(text + "\n")
'''

## 6. Zipf Yasası Analizi (Ham Veri)

Ham veri üzerinde Zipf yasası analizini gerçekleştirelim.

In [None]:
# Tüm metinleri birleştirme
'''
all_text = " ".join(texts)
'''

# Kelimelere ayırma (basit tokenization)
'''
words = re.findall(r'\w+', all_text.lower())
'''

# Kelime frekanslarını hesaplama
'''
word_counts = Counter(words)
'''

# En sık kullanılan 50 kelimeyi gösterme
'''
print("En sık kullanılan 50 kelime:")
for word, count in word_counts.most_common(50):
    print(f"{word}: {count}")
'''

In [None]:
# Zipf yasası grafiği için verileri hazırlama
'''
word_freq = [(word, count) for word, count in word_counts.items()]
word_freq.sort(key=lambda x: x[1], reverse=True)

ranks = np.arange(1, len(word_freq) + 1)
frequencies = np.array([freq for word, freq in word_freq])
'''

# Log-log grafiği çizme
'''
plt.figure(figsize=(12, 8))
plt.loglog(ranks, frequencies, 'b.')
plt.xlabel('Kelime Sıralaması (log)', fontsize=14)
plt.ylabel('Kelime Frekansı (log)', fontsize=14)
plt.title('Zipf Yasası Analizi (Ham Veri)', fontsize=16)
plt.grid(True, alpha=0.3)

# Zipf yasası eğrisi (1/rank ilişkisi)
plt.loglog(ranks, frequencies[0] / ranks, 'r-', label='Zipf Yasası (1/rank)')
plt.legend()
plt.savefig('../data/raw/zipf_raw_data.png', dpi=300, bbox_inches='tight')
plt.show()
'''

## 7. Veri Seti Yeterliliğinin Değerlendirilmesi

Veri setinin boyut ve içerik açısından yeterliliğini değerlendirelim.

In [None]:
# Veri seti istatistikleri
'''
total_words = len(words)
unique_words = len(word_counts)
vocabulary_richness = unique_words / total_words

print(f"Toplam kelime sayısı: {total_words}")
print(f"Benzersiz kelime sayısı: {unique_words}")
print(f"Kelime çeşitliliği oranı: {vocabulary_richness:.4f}")
'''

# Veri seti yeterliliği değerlendirmesi
'''
if total_words > 100000 and unique_words > 10000:
    print("Veri seti boyut olarak yeterlidir.")
else:
    print("Veri seti boyut olarak yetersiz olabilir.")
'''

## 8. Sonuç

Bu notebook'ta veri setini indirdik, inceledik ve ham veri üzerinde Zipf yasası analizini gerçekleştirdik. Bir sonraki adımda, veri setine ön işleme adımlarını uygulayacağız.