<a href="https://colab.research.google.com/github/ayhanbzkrt/Artificial-Intelligence-AI-Tutorial/blob/main/Untitled0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Web Scraping Nedir?
Web scraping, bir web sitesindeki verileri otomatik olarak alma işlemidir.
Yani tarayıcıda bir web sitesine girip kopyala–yapıştır yaptığın işlemi Python gibi programlama dilleriyle otomatikleştiriyoruz.

Örnek:

Bir haber sitesinden tüm başlıkları çekmek.

Bir e-ticaret sitesindeki ürün fiyatlarını toplamak.

Hava durumu verilerini her gün almak.

# Ne işe yarar?
Verileri hızlı ve düzenli toplamak

Güncel içerikleri analiz etmek

Elle yapılması saat sürecek işlemleri saniyeler içinde yapmak

Hangi Kütüphaneler Kullanılır?

Web scraping için en çok kullanılan Python kütüphaneleri:





requests → Web sayfasına istek gönderir, HTML'yi alır.

BeautifulSoup → HTML içindeki verileri kolayca bulur.

pandas → Verileri tabloya çevirir ve işler.





**Adım Adım Basit Bir Web Scraping Örneği**
1. Gerekli kütüphaneleri yükleyelim

In [1]:
!pip install requests beautifulsoup4




**2. Sayfa içeriğini alalım**

In [None]:
import requests
from bs4 import BeautifulSoup

url = 'https://www.bbc.com/news'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')


**3. Haber başlıklarını bulalım**

In [None]:
# BBC sitesindeki başlıkların class'ı genellikle "gs-c-promo-heading__title"
headlines = soup.find_all('h3')

for i, headline in enumerate(headlines[:10], 1):  # İlk 10 başlığı alalım
    print(f"{i}. {headline.text.strip()}")


**Biraz Daha Kullanışlı Hale Getirelim (pandas ile tablo)**

In [None]:
import pandas as pd

titles = [h.text.strip() for h in headlines[:10]]
df = pd.DataFrame({'BBC Başlıkları': titles})
df


**Dikkat Edilmesi Gerekenler:**
Her siteyi scrape etmek yasal olmayabilir. Robots.txt dosyasını kontrol et.

Aşırı istek gönderme, sunucuyu yorabilir → polite ol!

Her sitenin HTML yapısı farklıdır → class/id değişebilir.

# Mini Görev:
Aşağıdaki sitelerden birini seç:

https://quotes.toscrape.com

https://books.toscrape.com

Ve oradaki başlıkları, kitap isimlerini ya da yazarları çekmeye çalış

# 🛒 Görev:
“https://books.toscrape.com” sitesine gidelim,

Her sayfadaki kitapların isimlerini ve fiyatlarını çekip tabloya dökelim.

✅ 1. Gerekli Kurulumları Yapalım (Google Colab için)

In [None]:
!pip install requests beautifulsoup4


✅ 2. Web Sayfasını Çek & İncele

In [None]:
import requests
from bs4 import BeautifulSoup

url = 'https://books.toscrape.com/catalogue/page-1.html'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')


✅ 3. Kitapların Adını ve Fiyatını Bul

In [None]:
books = soup.find_all('article', class_='product_pod')

for book in books:
    title = book.h3.a['title']
    price = book.find('p', class_='price_color').text
    print(f"📘 {title} — 💰 {price}")


✅ 4. Verileri Tabloya Dökelim (pandas ile)

In [None]:
import pandas as pd

titles = []
prices = []

for book in books:
    titles.append(book.h3.a['title'])
    prices.append(book.find('p', class_='price_color').text)

df = pd.DataFrame({
    'Kitap Adı': titles,
    'Fiyat': prices
})

df


**🌀 BONUS: Birden Fazla Sayfayı Dolaş (Level 2)**

In [None]:
all_titles = []
all_prices = []

for page in range(1, 6):  # Şimdilik ilk 5 sayfa (50 sayfa yapmak kolay)
    url = f'https://books.toscrape.com/catalogue/page-{page}.html'
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    books = soup.find_all('article', class_='product_pod')

    for book in books:
        all_titles.append(book.h3.a['title'])
        all_prices.append(book.find('p', class_='price_color').text)

df_all = pd.DataFrame({
    'Kitap Adı': all_titles,
    'Fiyat': all_prices
})

df_all


# 🎮 Ekstra Görevler (Gamified):

**Seviye	Görev	Açıklama**

🟢 Başlangıç	Başlıkları çek	Kitap başlıklarını doğru al

🟡 Orta	Fiyatları tabloya dök	Her kitap için fiyatı göster

🔵 Zor	Tüm sayfaları gez	Döngü kur, 50 sayfa gez

🟣 Usta	Stok durumu + puanları çek	Sayfada varsa In stock, Rating gibi ekstraları al