# Web Scraping Kapsamlı Rehberi

## İçindekiler
1. [Web Scraping Nedir?](#1-web-scraping-nedir)
2. [Web Scraping için Kullanılan Model Türleri ve Özellikleri](#2-web-scraping-için-kullanılan-model-türleri-ve-özellikleri)
3. [Site Analizi ve Veri Miktarı Belirleme](#3-site-analizi-ve-veri-miktarı-belirleme)
4. [Hangi Sitede Hangi Model Kullanılmalı?](#4-hangi-sitede-hangi-model-kullanılmalı)
5. [Web Scraping Engellemeleri ve Sorunlar](#5-web-scraping-engellemeleri-ve-sorunlar)
6. [Engelleme Çözme Yöntemleri](#6-engelleme-çözme-yöntemleri)
7. [Model Karşılaştırması ve Proje Bazlı Seçim](#7-model-karşılaştırması)
8. [Modellerin Detaylı Anlatımı](#8-modellerin-detaylı-anlatımı)
9. [Her Model için Adım Adım Uygulama](#9-adım-adım-uygulamalar)
10. [Ekler ve Kaynaklar](#10-ekler-ve-kaynaklar)

---

## 1. Web Scraping Nedir?

### Tanım
Web scraping (web kazıma), web sitelerinden otomatik olarak veri toplama işlemidir. İnsan gibi manuel olarak bilgi kopyalamak yerine, yazılımlar kullanarak sistematik ve hızlı veri çekme sürecidir.

### Kullanım Alanları
- **E-ticaret:** Rakip fiyat takibi, ürün karşılaştırma
- **Veri Analizi:** Araştırma için veri toplama
- **SEO:** Arama motoru sonuçlarını izleme
- **Emlak:** Konut fiyatları ve trend analizi
- **Sosyal Medya:** İçerik ve trend analizi
- **Haber Toplama:** Otomatik haber agregasyonu


**Önemli:** Web scraping yapmadan önce:
1. `robots.txt` dosyasını kontrol edin (örn: `site.com/robots.txt`)
2. Kullanım şartlarını okuyun
3. Makul bekleme süreleri (rate limiting) ekleyin
4. API var mı kontrol edin (tercih edilir çünkü her zaman daha sürdülebilir ve daha hızlıdır.)

---

## 2. Web Scraping için Kullanılan Model Türleri ve Özellikleri

### 2.1. HTTP İstemci Tabanlı (Request-Based)
**Özellikler:**
- Sadece HTTP istekleri gönderir
- JavaScript çalıştırmaz
- Hızlı ve hafif

**Araçlar:** requests, httpx, urllib, aiohttp

### 2.2. HTML Parser'lar
**Özellikler:**
- HTML'i parse eder ve yapılandırır
- CSS seçicileri veya XPath kullanır

**Araçlar:** BeautifulSoup, lxml, html5lib, parsel

### 2.3. Headless Browser Tabanlı
**Özellikler:**
- Gerçek browser simülasyonu
- JavaScript çalıştırır
- Kullanıcı etkileşimi simüle eder

**Araçlar:** Selenium, Playwright, Puppeteer

### 2.4. Framework'ler
**Özellikler:**
- Komple scraping çözümü
- Veri işleme pipeline'ı

**Araçlar:** Scrapy, PySpider

### 2.5. API Wrapper'ları
**Özellikler:**
- Belirli siteler için hazır çözümler

**Araçlar:** ScraperAPI, Apify, Bright Data

---

## 3. Site Analizi ve Veri Miktarı Belirleme

### 3.1. Site Analizi Adımları

#### Adım 1: Manuel İnceleme
1. Tarayıcıda siteyi ziyaret edin
2. Veri yapısını inceleyin
3. Sayfa geçişlerini gözlemleyin

#### Adım 2: robots.txt Kontrolü
\`\`\`
https://example.com/robots.txt
\`\`\`

#### Adım 3: Developer Tools İncelemesi
1. F12 tuşuna basın
2. Network sekmesine gidin
3. İstekleri inceleyin

#### Adım 4: HTML Yapısını Analiz
CSS seçicileri ve ID'leri tespit edin

### 3.2. Veri Miktarı Belirleme

**Hesaplama örneği:**
\`\`\`python
total_pages = 150
items_per_page = 20
total_items = total_pages * items_per_page  # 3000 ürün
\`\`\`

---

## 4. Hangi Sitede Hangi Model Kullanılmalı?

### 4.1. Karar Ağacı

\`\`\`
JavaScript gerekli mi?
  ├─ EVET → Headless Browser (Selenium/Playwright)
  └─ HAYIR → HTTP Client (requests) + Parser

API endpoint var mı?
  ├─ EVET → Doğrudan API kullan
  └─ HAYIR → HTML parsing

Proje büyüklüğü?
  ├─ Küçük (<1000) → Basit script
  ├─ Orta (1K-100K) → Scrapy
  └─ Büyük (>100K) → Scrapy + Distributed
\`\`\`

### 4.2. Site Tiplerine Göre Araç Seçimi

#### Statik HTML Siteleri
**Önerilen:** requests + BeautifulSoup

\`\`\`python
import requests
from bs4 import BeautifulSoup

response = requests.get('https://example.com')
soup = BeautifulSoup(response.content, 'html.parser')
\`\`\`

#### JavaScript ile Yüklenen Siteler
**Seçenek A:** API Endpoint kullan
**Seçenek B:** Headless Browser (Playwright/Selenium)

---

## 5. Web Scraping Engellemeleri ve Sorunlar

### 5.1. Temel Engelleme Mekanizmaları

#### 1. robots.txt Kontrolü
Sitenin hangi bölümlerinin taranabileceğini belirtir

#### 2. Rate Limiting
Belirli sürede yapılabilecek istek sayısı sınırı

#### 3. User-Agent Kontrolü
İsteğin hangi tarayıcıdan geldiğini kontrol eder

#### 4. IP Bazlı Engelleme
Aynı IP'den çok fazla istek gelirse engeller

#### 5. Cookie ve Session Kontrolü
Botlar genelde cookie kullanmaz

#### 6. JavaScript Challenge
JavaScript çalıştırarak bot tespiti yapar

#### 7. CAPTCHA
İnsan doğrulaması gerektirir

### 5.2. Yaygın HTTP Hata Kodları

| Kod | Anlamı | Çözüm |
|-----|--------|-------|
| 403 | Forbidden | Proxy, User-Agent değiştir |
| 429 | Too Many Requests | Bekleme süresi ekle |
| 503 | Service Unavailable | Daha yavaş scrape |
| 401 | Unauthorized | Login, API key |

---

## 6. Engelleme Çözme Yöntemleri

### 6.1. Temel Yöntemler

#### 1. User-Agent Rotation
\`\`\`python
import requests
import random

user_agents = [
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36',
    'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36'
]

headers = {'User-Agent': random.choice(user_agents)}
response = requests.get(url, headers=headers)
\`\`\`

#### 2. Rate Limiting
\`\`\`python
import time
import random

for url in urls:
    response = requests.get(url)
    delay = random.uniform(1, 3)
    time.sleep(delay)
\`\`\`

#### 3. Proxy Kullanımı
\`\`\`python
proxies = {
    'http': 'http://proxy_ip:port',
    'https': 'http://proxy_ip:port'
}
response = requests.get(url, proxies=proxies)
\`\`\`

### 6.2. Headless Browser Teknikleri

\`\`\`python
from selenium import webdriver

options = webdriver.ChromeOptions()
options.add_argument('--disable-blink-features=AutomationControlled')
driver = webdriver.Chrome(options=options)
\`\`\`

### 6.3. CAPTCHA Çözme
- **2Captcha** servisi kullanımı
- Manuel çözüm
- CAPTCHA'dan kaçınma (daha iyi yöntem)

---

## 7. Model Karşılaştırması

### 7.1. Karşılaştırma Tablosu

| Özellik | requests+BS4 | Scrapy | Selenium | Playwright |
|---------|--------------|--------|----------|------------|
| Hız | ⚡⚡⚡ | ⚡⚡⚡ | ⚡ | ⚡⚡ |
| Kaynak | Minimal | Orta | Yüksek | Yüksek |
| JavaScript | ❌ | ❌ | ✅ | ✅ |
| Öğrenme | Kolay | Orta | Orta | Orta-Zor |

### 7.2. Proje Bazlı Seçim

**Küçük Proje (<1000 kayıt):** requests + BeautifulSoup
**Orta Proje (1K-100K):** Scrapy
**JavaScript Sitesi:** Playwright/Selenium
**Cloudflare Korumalı:** Undetected ChromeDriver

---

## 8. Modellerin Detaylı Anlatımı

### 8.1. requests + BeautifulSoup

**Kurulum:**
\`\`\`bash
pip install requests beautifulsoup4 lxml
\`\`\`

**Temel Kullanım:**
\`\`\`python
import requests
from bs4 import BeautifulSoup

response = requests.get('https://example.com')
soup = BeautifulSoup(response.content, 'lxml')

title = soup.find('h1').text
links = soup.find_all('a')
\`\`\`

**Avantajları:**
- ✅ Çok hızlı
- ✅ Kolay öğrenme
- ✅ Minimal kaynak

**Dezavantajları:**
- ❌ JavaScript desteği yok
- ❌ Dinamik içerik yok

### 8.2. Scrapy

**Kurulum:**
\`\`\`bash
pip install scrapy
scrapy startproject myproject
\`\`\`

**Temel Spider:**
\`\`\`python
import scrapy

class ProductSpider(scrapy.Spider):
    name = 'products'
    start_urls = ['https://example.com/products']
    
    def parse(self, response):
        for product in response.css('div.product'):
            yield {
                'name': product.css('h3::text').get(),
                'price': product.css('span.price::text').get()
            }
\`\`\`

**Avantajları:**
- ✅ Asenkron, çok hızlı
- ✅ Built-in middleware
- ✅ Ölçeklenebilir

### 8.3. Selenium

**Kurulum:**
\`\`\`bash
pip install selenium webdriver-manager
\`\`\`

**Kullanım:**
\`\`\`python
from selenium import webdriver
from selenium.webdriver.common.by import By

driver = webdriver.Chrome()
driver.get('https://example.com')

element = driver.find_element(By.CLASS_NAME, 'product')
text = element.text

driver.quit()
\`\`\`

**Avantajları:**
- ✅ JavaScript desteği
- ✅ User interaction

**Dezavantajları:**
- ❌ Yavaş
- ❌ Yüksek kaynak

### 8.4. Playwright

**Kurulum:**
\`\`\`bash
pip install playwright
playwright install
\`\`\`

**Kullanım:**
\`\`\`python
from playwright.sync_api import sync_playwright

with sync_playwright() as p:
    browser = p.chromium.launch()
    page = browser.new_page()
    page.goto('https://example.com')
    
    title = page.inner_text('h1')
    browser.close()
\`\`\`

**Avantajları:**
- ✅ Selenium'dan hızlı
- ✅ Modern API
- ✅ Network interception

---

## 9. Adım Adım Uygulamalar

### 9.1. requests + BeautifulSoup Örneği

**Proje:** BBC News Scraper

\`\`\`python
import requests
from bs4 import BeautifulSoup
import json

def scrape_bbc_news():
    url = "https://www.bbc.com/news"
    headers = {'User-Agent': 'Mozilla/5.0'}
    
    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.content, 'lxml')
    
    articles = []
    for item in soup.find_all('div', class_='gs-c-promo'):
        title = item.find('h3')
        if title:
            articles.append({
                'title': title.text.strip(),
                'link': item.find('a')['href']
            })
    
    return articles

news = scrape_bbc_news()
print(json.dumps(news, indent=2))
\`\`\`

### 9.2. Scrapy Tam Proje

\`\`\`bash
# Proje oluştur
scrapy startproject ecommerce_scraper
cd ecommerce_scraper
scrapy genspider products example.com

# Spider yazma (spiders/products.py)
import scrapy

class ProductsSpider(scrapy.Spider):
    name = 'products'
    start_urls = ['https://example.com/products']
    
    def parse(self, response):
        for product in response.css('div.product'):
            yield {
                'name': product.css('h3::text').get(),
                'price': product.css('span::text').get()
            }
        
        next_page = response.css('a.next::attr(href)').get()
        if next_page:
            yield response.follow(next_page, self.parse)

# Çalıştırma
scrapy crawl products -o products.json
\`\`\`

### 9.3. Selenium Tam Örnek

\`\`\`python
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import json

def scrape_dynamic_site():
    driver = webdriver.Chrome()
    driver.get('https://example-shop.com/products')
    
    # JavaScript yüklensin
    wait = WebDriverWait(driver, 10)
    wait.until(EC.presence_of_element_located((By.CLASS_NAME, 'product')))
    
    # Scroll
    driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
    time.sleep(2)
    
    # Veri topla
    products = []
    elements = driver.find_elements(By.CLASS_NAME, 'product')
    
    for element in elements:
        name = element.find_element(By.TAG_NAME, 'h3').text
        price = element.find_element(By.CLASS_NAME, 'price').text
        products.append({'name': name, 'price': price})
    
    driver.quit()
    return products

products = scrape_dynamic_site()
print(json.dumps(products, indent=2))
\`\`\`

### 9.4. Playwright Async Örnek

\`\`\`python
from playwright.async_api import async_playwright
import asyncio

async def scrape_products():
    async with async_playwright() as p:
        browser = await p.chromium.launch()
        page = await browser.new_page()
        await page.goto('https://example.com/products')
        
        await page.wait_for_selector('.product')
        
        products = await page.locator('.product').all()
        
        data = []
        for product in products:
            name = await product.locator('h3').inner_text()
            price = await product.locator('.price').inner_text()
            data.append({'name': name, 'price': price})
        
        await browser.close()
        return data

products = asyncio.run(scrape_products())
\`\`\`

---

## 10. Ekler ve Kaynaklar

### 10.1. Faydalı Kütüphaneler

\`\`\`python
# HTTP ve Parser
requests
beautifulsoup4
lxml
scrapy

# Browser Automation
selenium
playwright
undetected-chromedriver

# Yardımcı
fake-useragent
cloudscraper
2captcha-python
\`\`\`

### 10.2. Regex Patterns

\`\`\`python
import re

# Fiyat
price = re.search(r'[\d,]+\.?\d*', text).group()

# Email
email = re.findall(r'[\w\.-]+@[\w\.-]+', text)

# Telefon (TR)
phone = re.findall(r'0\d{3}\s?\d{3}\s?\d{4}', text)
\`\`\`

### 10.3. Önerilen Kaynaklar

**Dokümantasyon:**
- Scrapy: https://docs.scrapy.org
- Selenium: https://selenium-python.readthedocs.io
- Playwright: https://playwright.dev/python
- BeautifulSoup: https://www.crummy.com/software/BeautifulSoup/

**Kitaplar:**
- "Web Scraping with Python" - Ryan Mitchell
- "Python Web Scraping Cookbook" - Michael Heydt



## Sonuç

Web scraping güçlü bir veri toplama yöntemidir ancak:

1. **Önce analiz edin** - Site yapısını anlayın
2. **Basit başlayın** - En kolay çözümle başlayın
3. **Etik olun** - Kurallara uyun
4. **Test edin** - Küçük veri setleriyle test edin
5. **Sürdürülebilir yapın** - Hata yönetimi ekleyin

**En İyi Tavsiye:** Mümkünse API kullanın!

---

**Güncellenme:** Şubat 2026
**Lisans:** Eğitim amaçlı
