# Web Scraping Kapsamlı Rehberi - Bölüm 1-5

## İçindekiler
1. [Web Scraping Nedir?](#1-web-scraping-nedir)
2. [Web Scraping için Kullanılan Model Türleri ve Özellikleri](#2-web-scraping-için-kullanılan-model-türleri-ve-özellikleri)
3. [Site Analizi ve Veri Miktarı Belirleme](#3-site-analizi-ve-veri-miktarı-belirleme)
4. [Hangi Sitede Hangi Model Kullanılmalı?](#4-hangi-sitede-hangi-model-kullanılmalı)
5. [Web Scraping Engellemeleri ve Sorunlar](#5-web-scraping-engellemeleri-ve-sorunlar)

---

## 1. Web Scraping Nedir?

### Tanım
Web scraping (web kazıma), web sitelerinden otomatik olarak veri toplama işlemidir. İnsan gibi manuel olarak bilgi kopyalamak yerine, yazılımlar kullanarak sistematik ve hızlı veri çekme sürecidir.

### Kullanım Alanları
- **E-ticaret:** Rakip fiyat takibi, ürün karşılaştırma
- **Veri Analizi:** Araştırma için veri toplama
- **SEO:** Arama motoru sonuçlarını izleme
- **Emlak:** Konut fiyatları ve trend analizi
- **Sosyal Medya:** İçerik ve trend analizi
- **Haber Toplama:** Otomatik haber agregasyonu

### Yasal ve Etik Boyutlar

**✅ Yasal Kullanım:**
- Halka açık veriler
- robots.txt'e uygun scraping
- Sitede scraping ile ilgili açık izin
- Kişisel kullanım için makul veri çekme

**❌ Dikkat Edilmesi Gerekenler:**
- Telif hakkı korumalı içerikler
- Kişisel veriler (KVKK/GDPR)
- Site kullanım şartlarına aykırılık
- Sitenin performansını olumsuz etkileme
- DDoS benzeri yoğun trafik oluşturma

**Önemli:** Web scraping yapmadan önce:
1. `robots.txt` dosyasını kontrol edin (örn: `site.com/robots.txt`)
2. Kullanım şartlarını okuyun
3. Makul bekleme süreleri (rate limiting) ekleyin
4. API var mı kontrol edin (tercih edilir)

---

## 2. Web Scraping için Kullanılan Model Türleri ve Özellikleri

### 2.1. HTTP İstemci Tabanlı (Request-Based)
**Özellikler:**
- Sadece HTTP istekleri gönderir
- JavaScript çalıştırmaz
- Hızlı ve hafif

**Araçlar:** requests, httpx, urllib, aiohttp

### 2.2. HTML Parser'lar
**Özellikler:**
- HTML'i parse eder ve yapılandırır
- CSS seçicileri veya XPath kullanır

**Araçlar:** BeautifulSoup, lxml, html5lib, parsel

### 2.3. Headless Browser Tabanlı
**Özellikler:**
- Gerçek browser simülasyonu
- JavaScript çalıştırır
- Kullanıcı etkileşimi simüle eder

**Araçlar:** Selenium, Playwright, Puppeteer

### 2.4. Framework'ler
**Özellikler:**
- Komple scraping çözümü
- Veri işleme pipeline'ı

**Araçlar:** Scrapy, PySpider

### 2.5. API Wrapper'ları
**Özellikler:**
- Belirli siteler için hazır çözümler

**Araçlar:** ScraperAPI, Apify, Bright Data

---

## 3. Site Analizi ve Veri Miktarı Belirleme

### 3.1. Site Analizi Adımları

#### Adım 1: Manuel İnceleme
1. Tarayıcıda siteyi ziyaret edin
2. Veri yapısını inceleyin
3. Sayfa geçişlerini gözlemleyin

#### Adım 2: robots.txt Kontrolü
\`\`\`
https://example.com/robots.txt
\`\`\`

#### Adım 3: Developer Tools İncelemesi
1. F12 tuşuna basın
2. Network sekmesine gidin
3. İstekleri inceleyin

#### Adım 4: HTML Yapısını Analiz
CSS seçicileri ve ID'leri tespit edin

### 3.2. Veri Miktarı Belirleme

**Hesaplama örneği:**
\`\`\`python
total_pages = 150
items_per_page = 20
total_items = total_pages * items_per_page  # 3000 ürün
\`\`\`

---

## 4. Hangi Sitede Hangi Model Kullanılmalı?

### 4.1. Karar Ağacı

\`\`\`
JavaScript gerekli mi?
  ├─ EVET → Headless Browser (Selenium/Playwright)
  └─ HAYIR → HTTP Client (requests) + Parser

API endpoint var mı?
  ├─ EVET → Doğrudan API kullan
  └─ HAYIR → HTML parsing

Proje büyüklüğü?
  ├─ Küçük (<1000) → Basit script
  ├─ Orta (1K-100K) → Scrapy
  └─ Büyük (>100K) → Scrapy + Distributed
\`\`\`

### 4.2. Site Tiplerine Göre Araç Seçimi

#### Statik HTML Siteleri
**Önerilen:** requests + BeautifulSoup

\`\`\`python
import requests
from bs4 import BeautifulSoup

response = requests.get('https://example.com')
soup = BeautifulSoup(response.content, 'html.parser')
\`\`\`

#### JavaScript ile Yüklenen Siteler
**Seçenek A:** API Endpoint kullan
**Seçenek B:** Headless Browser (Playwright/Selenium)

---

## 5. Web Scraping Engellemeleri ve Sorunlar

### 5.1. Temel Engelleme Mekanizmaları

#### 1. robots.txt Kontrolü
Sitenin hangi bölümlerinin taranabileceğini belirtir

#### 2. Rate Limiting
Belirli sürede yapılabilecek istek sayısı sınırı

#### 3. User-Agent Kontrolü
İsteğin hangi tarayıcıdan geldiğini kontrol eder

#### 4. IP Bazlı Engelleme
Aynı IP'den çok fazla istek gelirse engeller

#### 5. Cookie ve Session Kontrolü
Botlar genelde cookie kullanmaz

#### 6. JavaScript Challenge
JavaScript çalıştırarak bot tespiti yapar

#### 7. CAPTCHA
İnsan doğrulaması gerektirir

### 5.2. Yaygın HTTP Hata Kodları

| Kod | Anlamı | Çözüm |
|-----|--------|-------|
| 403 | Forbidden | Proxy, User-Agent değiştir |
| 429 | Too Many Requests | Bekleme süresi ekle |
| 503 | Service Unavailable | Daha yavaş scrape |
| 401 | Unauthorized | Login, API key |

---

**Not:** Bu rehber Bölüm 1-5'i kapsamaktadır. Bölüm 6-10 için "web_scraping_rehberi_bolum6-10.md" dosyasına bakınız.