# Web Scraping-BeautifulSoup

## Basic Examples:

In [None]:
!pip install requests beautifulsoup4
!pip install requests pandas

In [None]:
import requests
from bs4 import BeautifulSoup

# Hedef URL (canlı hava durumu verisi için örnek)
url = "https://example.com/weather"  # Hedef siteyi buraya ekleyin

# Web sayfasına HTTP isteği gönderme
response = requests.get(url)

# Sayfanın içeriğini BeautifulSoup ile parse etme
soup = BeautifulSoup(response.content, 'html.parser')

# Örneğin, hava durumu sayfasında bir div içerisindeki sıcaklık bilgisini çekmek için:
# Bu, hedef web sayfasındaki HTML yapısına göre değişiklik gösterebilir
temperature = soup.find('div', class_='temperature').get_text()

# Sıcaklık bilgisini ekrana yazdırma
print(f"Güncel Sıcaklık: {temperature}")


In [None]:
import requests
import pandas as pd

# 1. URL'den dosya indirmek
url = "https://example.com/data.csv"  # Bu URL'yi indirilecek dosyanın gerçek URL'si ile değiştirin
filename = "downloaded_file.csv"  # Kaydedilecek dosya adı

# GET isteği ile dosyayı indirme
response = requests.get(url)

# Eğer isteğin durumu başarılı ise (200 OK)
if response.status_code == 200:
    with open(filename, 'wb') as file:
        file.write(response.content)
    print(f"Dosya başarıyla indirildi ve '{filename}' adıyla kaydedildi.")
else:
    print("Dosya indirilemedi. Hata kodu:", response.status_code)

# 2. İndirilen dosyayı Pandas ile okuma
try:
    df = pd.read_csv(filename)
    print("Dosya başarıyla okundu.")
    print(df.head())  # İlk 5 satırı gösterme
except Exception as e:
    print(f"Dosya okunurken bir hata oluştu: {e}")


 Açıklama:

1. **Dosya İndirme**: 
   - `requests.get(url)` ile belirtilen URL'den dosya çekilir.
   - Eğer **status_code** 200 (başarı) ise, dosya binary modda (`wb`) açılır ve içerik kaydedilir.

2. **Pandas ile Dosya Okuma**: 
   - İndirilen dosya `pd.read_csv()` kullanılarak Pandas DataFrame'e yüklenir.
   - `df.head()` ile ilk 5 satır ekrana yazdırılır.

 Örnek Senaryo:

- Örneğin, bir hava durumu veya finansal veri sağlayıcısından CSV formatındaki verileri bu yöntemle indirip analiz edebilirsiniz.
  
Bu kod, **CSV** dosyası indirmek için tasarlanmıştır. Eğer dosya **Excel** ya da başka bir formatta olursa, uygun **Pandas** okuma yöntemini (`pd.read_excel()`, `pd.read_json()` gibi) kullanmanız gerekir.

## Python ile Asenkron Dosya İndirme ve Pandas ile Veri Okuma

In [None]:
!pip install aiohttp pandas

##### Yontem 1:

In [None]:
import aiohttp
import asyncio
import pandas as pd

# File URL and the name to save the file as
url = "https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBMDeveloperSkillsNetwork-PY0101EN-SkillsNetwork/labs/Module%205/data/diabetes.csv"
filename = "diabetes.csv"

# Asynchronous file download function
async def download(url, filename):
    async with aiohttp.ClientSession() as session:
        async with session.get(url) as response:
            if response.status == 200:
                with open(filename, "wb") as f:
                    f.write(await response.read())  # Download and save the file content
                print(f"File successfully downloaded and saved as '{filename}'.")
            else:
                print(f"Download failed. Error code: {response.status}")

# Start the asynchronous process
async def main():
    await download(url, filename)
    # Read the downloaded file with pandas
    df = pd.read_csv(filename)
    print("First 5 rows:")
    print(df.head())

# Run the asynchronous process
asyncio.run(main())


Python'da modern kütüphaneleri kullanarak bu işlemi gerçekleştirmek için **`aiohttp`** kütüphanesi ile asenkron dosya indirme işlemi yapabiliriz. **`aiohttp`**, HTTP isteklerini asenkron olarak gerçekleştirmek için uygun bir kütüphanedir. Daha sonra, indirilen dosyayı **Pandas** ile okuyarak veri analizine geçebiliriz.

 Açıklama:
 
1. **`aiohttp` ile Asenkron İndirme**:
   - **`aiohttp.ClientSession()`** ile bir HTTP oturumu başlatıyoruz.
   - **`session.get()`** ile URL'ye istek yapıyoruz ve yanıt 200 (başarılı) ise dosyayı kaydediyoruz.
   
2. **Pandas ile Dosya Okuma**:
   - Dosya indirildikten sonra **Pandas** kullanarak CSV dosyasını okuyor ve ilk 5 satırını ekrana yazdırıyoruz.

3. **Asenkron Çalıştırma**:
   - **`asyncio.run(main())`** ifadesiyle asenkron işlemleri başlatıyoruz. Bu sayede dosya indirilip işlendikten sonra veriler üzerinde işlem yapabiliyoruz.

 Sonuç:
 
Bu kod, Python'da **aiohttp** kullanarak bir URL'den dosya indirir ve ardından indirilen dosyayı **Pandas** ile okur. Asenkron yapısı sayesinde işlem hızlandırılır ve büyük veri dosyalarıyla çalışırken performans artırılır.

---

##### Yontem 2:

In [None]:
import requests
import pandas as pd

# Dosya URL'si ve kaydedilecek dosya ismi
url = "https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBMDeveloperSkillsNetwork-PY0101EN-SkillsNetwork/labs/Module%205/data/diabetes.csv"
filename = "diabetes.csv"

# Dosya indirme işlemi
response = requests.get(url)

# Eğer istek başarılı olduysa, dosyayı kaydedelim
if response.status_code == 200:
    with open(filename, 'wb') as file:
        file.write(response.content)
    print(f"File successfully downloaded and saved as '{filename}'.")
else:
    print(f"Download failed. Error code: {response.status}")

# İndirilen dosyayı pandas ile okuma
df = pd.read_csv(filename)
print("First 5 rows:")
print(df.head())


# Web Scraping Nedir?

Web scraping, internet üzerindeki web sitelerinden veri toplamak için kullanılan bir tekniktir. Python, bu süreç için çeşitli kütüphaneler sunar ve yaygın olarak **requests** ve **BeautifulSoup** kütüphaneleri kullanılır. Web scraping, veri bilimi, pazar araştırmaları, fiyat karşılaştırmaları ve daha birçok alanda kullanılır.

Aşağıda, web scraping işlemlerinin adım adım nasıl yapıldığı detaylıca açıklanmıştır.

---

## 1. **Hedef Web Sitesinin Belirlenmesi ve Analizi**

### A. **Amacın Belirlenmesi:**
Öncelikle, hangi veriyi çekmek istediğinizi belirleyin. Örneğin, bir haber sitesinden başlıkları, bir e-ticaret sitesinden ürün fiyatlarını ya da hava durumu verilerini çekmek isteyebilirsiniz.

### B. **HTML Yapısını İnceleme:**
Web scraping işlemi yapılacak sitedeki verilerin nerede olduğunu anlamak için HTML yapısını analiz etmeniz gerekir. Bunun için tarayıcınızın "İncele" (Inspect) aracını kullanarak hedef verilerin bulunduğu HTML etiketlerini ve sınıflarını öğrenebilirsiniz.

- Tarayıcınızda hedef sayfaya sağ tıklayıp "İncele" seçeneğini tıklayın.
- Hedef verinin olduğu HTML etiketi ve sınıfı (class) burada görüntülenir. Bu bilgiler, BeautifulSoup ile veri çekmek için kullanılacaktır.

### C. **Yasal Kontroller:**
Bir web sitesinde scraping yapmadan önce, sitenin kullanım koşullarını (Terms of Service) kontrol edin ve `robots.txt` dosyasına bakarak hangi sayfaların taranmasına izin verildiğini öğrenin.

---

## 2. **Gerekli Kütüphanelerin Kurulumu**

Python’da web scraping işlemi için en yaygın kullanılan kütüphaneler **requests** ve **BeautifulSoup**'tur. Eğer dinamik sayfalardan veri çekecekseniz, **Selenium** gibi tarayıcı otomasyon kütüphanelerini de kullanabilirsiniz.

### Kütüphanelerin Kurulumu:
```bash
pip install requests beautifulsoup4
pip install selenium  # Dinamik içerik için kullanılır
```

---

## 3. **Web Sayfasına HTTP İsteği Gönderme**

**requests** kütüphanesi ile hedef web sayfasına HTTP isteği gönderilir. Bu istek, sayfanın kaynak kodlarını (HTML) elde etmek içindir.

```python
import requests

url = "https://example.com"
response = requests.get(url)

# Sayfa başarılı şekilde yüklendi mi?
if response.status_code == 200:
    print("Sayfa başarıyla yüklendi!")
else:
    print("Bir sorun oluştu, hata kodu:", response.status_code)
```

---

## 4. **Sayfa İçeriğini Parse Etme**

Gelen HTML içeriğini, **BeautifulSoup** kütüphanesi kullanarak parse ederiz. BeautifulSoup, HTML veya XML belgelerini daha kolay işlenebilir bir forma dönüştürür.

```python
from bs4 import BeautifulSoup

# HTML içeriğini BeautifulSoup ile parse et
soup = BeautifulSoup(response.content, 'html.parser')
```

### Parse Etme Yöntemleri:
- **`html.parser`**: Python'un yerleşik parser'ıdır.
- **`lxml`**: Daha hızlı ve eksik HTML belgeleriyle daha iyi çalışır.
- **`html5lib`**: HTML5 uyumlu parser'dır.

---

## 5. **Veri Bulma ve Çekme**

Parse edilen HTML içinden veriyi çekmek için **BeautifulSoup** metotları kullanılır.

- **`find()`**: İlk eşleşen HTML elementini bulur.
- **`find_all()`**: Tüm eşleşen elementleri bulur ve bir liste döner.
- **`get_text()`**: Bir elementin içindeki metni alır.

### Örnek:
```python
# Hedef veriyi çekelim: Örneğin, kitap başlıklarını
book_titles = soup.find_all('h3')

# Çekilen başlıkları yazdıralım
for title in book_titles:
    print(title.get_text())
```

---

## 6. **Verilerin Temizlenmesi ve Yapılandırılması**

Veri çekildikten sonra, genellikle bazı temizleme işlemleri yapılması gerekir. Bu, boşlukların temizlenmesi, karakterlerin düzenlenmesi ya da sayısal değerlerin dönüştürülmesi olabilir. Ayrıca, çekilen verileri bir liste veya pandas **DataFrame** yapısına dönüştürebilirsiniz.

```python
import pandas as pd

# Başlıkları bir listeye alalım
titles = [title.get_text().strip() for title in book_titles]

# Listeyi pandas DataFrame'e dönüştürme
df = pd.DataFrame({'Book Titles': titles})

# İlk 5 veriyi göster
print(df.head())
```

---

## 7. **Verilerin Depolanması**

Çekilen ve yapılandırılan verileri bir dosyaya kaydedebilirsiniz. Verileri CSV, JSON veya bir veritabanına kaydetmek yaygın yöntemlerdendir.

### Veriyi CSV Dosyasına Kaydetme:
```python
df.to_csv('book_titles.csv', index=False)
```

---

## 8. **Sayfalar Arası Geçiş (Pagination)**

Birçok web sitesinde veriler sayfalara bölünmüş olabilir. Bu durumda URL yapısını analiz ederek sayfalar arasında gezinebilir ve verileri toplu şekilde çekebilirsiniz.

### Sayfalar Arası Geçiş Örneği:
```python
base_url = "https://example.com/page-{}.html"
all_titles = []

for page in range(1, 5):  # İlk 4 sayfa için veri çekme
    url = base_url.format(page)
    response = requests.get(url)
    soup = BeautifulSoup(response.content, 'html.parser')
    
    # Veriyi çekme işlemleri
    book_titles = soup.find_all('h3')
    titles = [title.get_text().strip() for title in book_titles]
    all_titles.extend(titles)

# Tüm başlıkları yazdır
print(all_titles)
```

---

## 9. **Dinamik İçerik ve Selenium Kullanımı**

Bazı web siteleri dinamik içerik yükler (örneğin, JavaScript ile). Bu durumda, **requests** ve **BeautifulSoup** yeterli olmayabilir. Bu tür durumlar için **Selenium** gibi araçlar kullanarak tarayıcı otomasyonu yapabilirsiniz.

### Selenium Kullanımı Örneği:
```python
from selenium import webdriver
from selenium.webdriver.common.by import By

# Chrome tarayıcısını başlat
driver = webdriver.Chrome()

# Hedef sayfaya git
driver.get("https://example.com")

# Belirli bir sınıfa sahip öğeleri bul
elements = driver.find_elements(By.CLASS_NAME, 'classname')

# Öğelerin metnini yazdır
for element in elements:
    print(element.text)

# Tarayıcıyı kapat
driver.quit()
```

---

## 10. **Yasal ve Etik Hususlar**

- **robots.txt**: Web sitesinin `robots.txt` dosyasını inceleyerek hangi sayfaların taranmasına izin verildiğini öğrenin.
- **Kullanım Koşulları**: Web sitesinin kullanım şartlarına uymak önemlidir. İzin verilmeyen sayfaları taramaktan kaçının.
- **Sıklık Kontrolü**: Web scraping işlemi yaparken, çok fazla istekte bulunarak sunucuya aşırı yük bindirmemeye dikkat edin. İstekler arasında rastgele bekleme süreleri eklemek iyi bir yaklaşımdır.

```python
import time
import random

time.sleep(random.uniform(1, 3))  # 1 ile 3 saniye arasında rastgele bekle
```

---


In [None]:
## Toplu Kod Örneği: Kitap Başlıklarını Çekme
## bir web sitesinden kitap başlıklarını çekmek için tüm aşamaları uygulayan bir kod örneği verilmiştir:

import requests
from bs4 import BeautifulSoup
import pandas as pd
import time
import random

# Hedef URL
base_url = "http://books.toscrape.com/catalogue/page-{}.html"
all_titles = []

# İlk 3 sayfa için veri çekme
for page in range(1, 4):
    url = base_url.format(page)
    
    # HTTP isteği gönder
    response = requests.get(url)
    
    # Sayfa içeriğini parse et
    soup = BeautifulSoup(response.content, 'html.parser')
    
    # Kitap başlıklarını çek
    book_titles = soup.find_all('h3')
    titles = [title.get_text().strip() for title in book_titles]
    all_titles.extend(titles)
    
    # Sunucuya aşırı yüklenmemek için rastgele bekle
    time.sleep(random.uniform(1, 3))

# Çekilen verileri DataFrame'e dönüştür
df = pd.DataFrame({'Book Titles': all_titles})

# Veriyi CSV dosyasına kaydet
df.to_csv('book_titles.csv', index=False)

print("Veri başarıyla çekildi ve kaydedildi.")
```

### Sonuç:

# - Hedef URL'deki sayfalardan kitap başlıkları çekilir.
# - Her sayfa arasında rastgele bekleme süreleri eklenir.
# - Çekilen veriler pandas DataFrame'e dönüştürülerek `book_titles.csv` dosyasına kaydedilir.

# Bu süreç, web scraping'in temel aşamalarını kapsar ve veri çekme işlemlerini basitleştirir.