# Web Scraping (Web Kazıma)

Veri tüm problemlerin çözümünün ham maddesidir. Amacımız doğrultusunda bu verileri toplamaya çalışırken genellikle ilk olarak internette hazır bulunan veri kaynaklarına yöneliriz. Ancak bu her zaman ihtiyaçlarımızın tümünü karşılayamayabilir. Bu durumda farklı arayışlara gireriz.

1. **API Servislerinden Yararlanmak**

Bu konu hakkında bilgi almak için 5 numaralı bültenimize göz atabilirsiniz :)

- [API Nedir ve Adım Adım API Kullanımı](https://www.linkedin.com/posts/istanbul-data-science-academy_i%CC%87stanbul-data-science-academy-b%C3%BClten-05-activity-7026459831246938112--odb?utm_source=share&utm_medium=member_desktop)

2. **Web Scraping**

İnternet üzerinde bulunan sitelerde yer alan istediğimiz bilgileri genellikle bir tablo yapısında toplayarak kendi çalışmalarımızda veri seti olarak kullanma işlemine web scraping denir.

![Web Scraping](https://www.enostech.com/wp-content/uploads/2022/04/AdobeStock_474211244.jpg)

# Web Scraping: BeautifulSoup

BeautifulSoup, Python programlama dilinde kullanılan temel bir web kazıma (web scraping) kütüphanesidir. Bu kütüphane, web sayfalarından veri çekmek ve işlemek için kullanılır. Ayrıca, BeautifulSoup ile birlikte, web sayfalarından alınan verileri veritabanlarına veya Excel dosyalarına kaydedebilirsiniz.

BeautifulSoup'un en önemli özelliklerinden biri, basit ve kullanımı kolay arayüzüdür. `HTML` veya `XML` dosyalarını analiz etmek için çok az kod yazmanız gerekir. Ayrıca, BeautifulSoup'un HTML ve XML kodlarındaki farklı öğeleri (örneğin etiketler, sınıflar, kimlikler vb.) tanımlamak için kullanabileceğiniz birçok yöntemi vardır.

- [BeautifulSoup](https://beautiful-soup-4.readthedocs.io/en/latest/)

**NOT:** Başlamadan önce yapacağımız bu işlemleri olabilecek en az sorunla karşılaşarak yapabilmek için **çok temel seviyede** `HTML` bilgisine ihtiyacımız var.

## Kütüphaneleri Yükleme

```python
!pip install beautifulsoup4 requests html5lib
```

In [1]:
from bs4 import BeautifulSoup
import requests

## HTML Giriş

- Bir web sayfası oluşturulurken kullanılan en temel programlama dili.
- Yapılandırılmış, hiyerarşik yapı.
- Tarayıcıya metin, resim ve diğer medyaların nerede ve nasıl görüntüleyeceğini söyler.
- Farklı özellikleri olan çeşitli "elemanlardan" oluşur.

### HTML Tags  `<tag-name>`

| Tag | Açıklama |
| --- | -------- |
| `<h1> - <h6>` | Başlık etiketleri, sırasıyla büyükten küçüğe doğru başlıkların boyutunu belirtir |
| `<p>` | Paragraf etiketi |
| `<a>` | Bağlantı etiketi |
| `<img>` | Resim etiketi |
| `<ul>` | Sırasız liste etiketi |
| `<ol>` | Sıralı liste etiketi |
| `<li>` | Liste elemanı etiketi |
| `<div>` | Blok düzeyinde bir etiket, genellikle içerikleri gruplamak için kullanılır |
| `<span>` | Satır düzeyinde bir etiket, genellikle içerikleri stillemek için kullanılır |
| `<table>` | Tablo etiketi |
| `<tr>` | Tablo satırı etiketi |
| `<th>` | Tablo başlığı etiketi |
| `<td>` | Tablo hücresi etiketi |
| `<button>` | Buton etiketi |

### HTML Attributes  `<attr1>`

| Attribute | Açıklama |
| --------- | -------- |
| `class` | HTML öğesi için bir veya daha fazla sınıf adı belirtir |
| `id` | HTML öğesi için benzersiz bir tanımlayıcı belirtir |
| `style` | HTML öğesi için bir veya daha fazla stil özelliği belirtir |
| `title` | HTML öğesi için açıklama metni veya araç ipucu belirtir |
| `href` | Bağlantı öğesi için hedef URL belirtir |
| `src` | Resim öğesi için kaynak dosya belirtir |

### HTML İçerisindeki Metinler

- `Tag`'ler arasında görünürler.
- Genellikle web scraping sırasında elde etmek istediğimiz bilgiler bunlardır!

### Temel HTML Yapısı

Genellikle karşımıza aşağıdakine benzeyen yapılar çıkar:

```html
<html> 
  <head> </head>
  <body>
     <h1>This is a header</h1>
     <p style="color:red;" id="learning_paragraph">You are learning HTML</p>
     <a href="www.google.com">A link to Google</a>
  </body>
</html>
```

Web Scraping'e başlamadan önce öğrendiklerimizi kontrol edelim!

>**SORU:** HTML kodunda yer alan `tag` yapıları?

>**SORU:** Paragraf tag'inin içerisindeki metin hangisi?

>**SORU:** Bağlantı tag'inin içerisindeki `attribute` ve `attribute value` değerleri?

## Sahte ve Basit Bir HTML Sayfasından Veri Kazımayı Öğrenmek

Aşağıda bir `string` olarak yazılmış sahte bir HTML ile çalışarak nasıl kazıma yapacağımızı öğrenmeye başlayalım.

In [2]:
my_html = """
<html>

<head>
</head>

<body>
    <div style="border: 1px solid">
        There isn't much in this file, except a list of to-do items. 
        <ul>
          <li>Make coffee</li>
          <li>Sweep the floor</li>
          <li>Go to the store</li>
          <li>Write BeautifulSoup lecture</li>
        </ul>
    </div>
</body>

</html>
"""

Websitemizin bir web tarayıcısı üzerinde nasıl bir çıktı vereceğine bakalım.

In [3]:
from IPython.display import display, HTML
display(HTML(my_html))

Yapılacaklar listemizdeki dört maddeyi alıp analiz etmek istiyorsak `BeautifulSoup` kütüphanesini kullanabiliriz!

In [4]:
soup = BeautifulSoup(my_html, "html5lib")

In [5]:
soup

<html><head>
</head>

<body>
    <div style="border: 1px solid">
        There isn't much in this file, except a list of to-do items. 
        <ul>
          <li>Make coffee</li>
          <li>Sweep the floor</li>
          <li>Go to the store</li>
          <li>Write BeautifulSoup lecture</li>
        </ul>
    </div>



</body></html>

### `.find()`

Ayrıca BeautifulSoup, HTML'de nasıl gezinileceğini de çok iyi biliyor. Belirli bir öğeye ulaşmak için `find()` fonksiyonunu kullanabiliriz.

In [6]:
soup.find('li') # <li> tagindaki ilk elementi getirdi!

<li>Make coffee</li>

In [7]:
type(soup.find('li'))

bs4.element.Tag

`find()` her zaman etiketli bir öğe döndürür, ancak daha ileri gitmek ve bu öğenin iç HTML metnine erişmek için `text` fonksiyonunu kullanacağız.

In [8]:
soup.find('li').text

'Make coffee'

In [9]:
type(soup.find('li').text)

str

### `.findAll()`

Liste içerisindeki öğelerimizden sadece birini seçmek yerine hepsini `find_all` fonksiyonunu kullanarak alabiliriz. 
    
Bu yöntem, HTML'nin tamamında ölçütlerimizle eşleşen tüm örnekleri arar ve bize bir liste verir.

In [10]:
soup.findAll('li')

[<li>Make coffee</li>,
 <li>Sweep the floor</li>,
 <li>Go to the store</li>,
 <li>Write BeautifulSoup lecture</li>]

Yapılacaklar listemizi analiz etmek için, muhtemelen her bir etiketli öğe içerisindeki metni istiyoruz. Bunu nasıl yapabiliriz?

İlk yaklaşım, **döngüleri** kullanmak:

In [11]:
todos1 = []

for element in soup.findAll('li'):
    todos1.append(element.text)
    
print(todos1)

['Make coffee', 'Sweep the floor', 'Go to the store', 'Write BeautifulSoup lecture']


Veya **list comprehension** yapılarını:

In [12]:
todos2 = [element.text for element in soup.findAll('li')]

todos2

['Make coffee',
 'Sweep the floor',
 'Go to the store',
 'Write BeautifulSoup lecture']

## Test Web Sitesindeki Bilgileri Kazımak

Şimdi daha karmaşık bir örnek olan `test_webpage/page.html` dizinindeki sayfaya geçelim. Sonrasında ise Starbucks ve Bitcoin için olanlar gibi tüm makale bağlantılarını almaya çalışalım.

In [13]:
with open('test_webpage/page.html') as page:
    test_html = page.read()
soup = BeautifulSoup(test_html, 'html5lib')

In [14]:
soup

<html><head>
  <link href="style.css" rel="stylesheet"/>
</head>
<body>
  <div class="sidebar">
    <ul>
      <li><a href="sports.html">Sports</a></li>
      <li><a href="entertainment.html">Entertainment</a></li>
      <li><a href="technology.html">Technology</a></li>
    </ul>
  </div>

  <div class="content">
    <h1>Today's News</h1>
    <div class="article">
      <div class="title">New drink released today</div>
      <div class="summary">
        Starbucks is releasing a new drink today called the <a href="http://starbucks.com/drinks/unicorn.html">unicorn frappaccino</a>.
      </div>
    </div>
    <div class="article">
      <div class="title">Bitcoin crashes</div>
      <div class="summary">
        <a href="https://finance.yahoo.com/quote/BTC-USD/">Bitcoin</a> dropped 200% today becoming the first <a href="https://en.wikipedia.org/wiki/Cryptocurrency">cryptocurrency</a> with <a href="negative.html">negative</a> value!
      </div>
    </div>
    <div class="disclaimer">
   

Hatırlıyorsak, linkler `a` taginin içerisinde bulunuyordu. Hadi bunların hepsini alalım.

In [15]:
soup.findAll('a')

[<a href="sports.html">Sports</a>,
 <a href="entertainment.html">Entertainment</a>,
 <a href="technology.html">Technology</a>,
 <a href="http://starbucks.com/drinks/unicorn.html">unicorn frappaccino</a>,
 <a href="https://finance.yahoo.com/quote/BTC-USD/">Bitcoin</a>,
 <a href="https://en.wikipedia.org/wiki/Cryptocurrency">cryptocurrency</a>,
 <a href="negative.html">negative</a>,
 <a href="https://en.wikipedia.org/wiki/Fake_news">"fake news"</a>]

Bu sefer olmadı! Kenar çubuğunda ve altbilgide de bazı istemediğimiz bağlantılar var gibi görünüyor. Oysa bizim amacımız yalnızca makalelerdekileri almaktı, bu yüzden daha iyi bir stratejiye ihtiyacımız olacak. 

Kaynak koduna baktığımızda, makalelerin hepsinin `class` attribute'unun değerinin `article` ile etiketlenmiş bir `div` tagı içinde olduğunu görüyoruz. Bu sefer sadece bunları almaya çalışalım.

- `find()` ve `find_all()` fonksiyonları parametre olarak, isteğe bağlı öznitelik değişkenlerini alır. Böylece `class` ve `id` attributeları gibi belirli özniteliklere sahip öğelere filtre uygulayabiliriz.

In [16]:
soup.findAll('div', {'class':'article'})

[<div class="article">
       <div class="title">New drink released today</div>
       <div class="summary">
         Starbucks is releasing a new drink today called the <a href="http://starbucks.com/drinks/unicorn.html">unicorn frappaccino</a>.
       </div>
     </div>,
 <div class="article">
       <div class="title">Bitcoin crashes</div>
       <div class="summary">
         <a href="https://finance.yahoo.com/quote/BTC-USD/">Bitcoin</a> dropped 200% today becoming the first <a href="https://en.wikipedia.org/wiki/Cryptocurrency">cryptocurrency</a> with <a href="negative.html">negative</a> value!
       </div>
     </div>]

In [17]:
soup.find_all('div', class_='article')

[<div class="article">
       <div class="title">New drink released today</div>
       <div class="summary">
         Starbucks is releasing a new drink today called the <a href="http://starbucks.com/drinks/unicorn.html">unicorn frappaccino</a>.
       </div>
     </div>,
 <div class="article">
       <div class="title">Bitcoin crashes</div>
       <div class="summary">
         <a href="https://finance.yahoo.com/quote/BTC-USD/">Bitcoin</a> dropped 200% today becoming the first <a href="https://en.wikipedia.org/wiki/Cryptocurrency">cryptocurrency</a> with <a href="negative.html">negative</a> value!
       </div>
     </div>]

İşte bunlar bizim `article` ögelerimiz!

Bu `div` taglerinin her biri aynı zamanda `soup` objeleridir, bu nedenle artık bu `div`leri sorgulayarak yalnızca bağlantıların daha da detayına inebiliriz.

In [18]:
for div in soup.findAll('div', class_='article'):
    for link in div.findAll('a'):
        print(link)

<a href="http://starbucks.com/drinks/unicorn.html">unicorn frappaccino</a>
<a href="https://finance.yahoo.com/quote/BTC-USD/">Bitcoin</a>
<a href="https://en.wikipedia.org/wiki/Cryptocurrency">cryptocurrency</a>
<a href="negative.html">negative</a>


Süper! Peki sadece linkleri almak istersem?

### `.get()`

`get()` fonksiyonu, tagin herhangi bir niteliğine erişmenizi sağlar.

In [19]:
for div in soup.findAll('div', class_='article'):
    for link in div.findAll('a'):
        print(link.get("href"))

http://starbucks.com/drinks/unicorn.html
https://finance.yahoo.com/quote/BTC-USD/
https://en.wikipedia.org/wiki/Cryptocurrency
negative.html


### Kısıtlamalar

BeautifulSoup kütüphanesi çok kullanılan ve sevilen bir kütüphane olsa da bazı kısıtmaları vardır. Örneğin aşağıda belirtilen durumlarda BeautifulSoup kütüphanesi istediğimizi vermeyebilir:

- Bir şifre girmemiz gereken durumlar
- Statik olarak HTML sunmak yerine dinamik olarak (JavaScript ile) oluşturulan web siteleri

Bu durumlar için **Selenium** gibi farklı bir araca ihtiyacımız var. Onu da bir sonraki dersimizde göreceğiz :)