# Giriş

### Veritabanı Oluşturma

MongoDb de yapılan işlemler:

1. Yeni bir Cluster oluşturuldu. İsmi: "Cluster-WebScraping"
2. Cluster-WebScraping için veritabanı erişim izni verilen iki kullanıcı oluşturuldu.
  
  * isim: zeyneperhan şifre: 20012022
  * isim: hazarkoc şifre:20012022 

3. Cluster-WebScraping'e IP üzerinden otomatik bağlanmak için Ip adresi eklendi

4. Cluster içerisine yeni veritabanı eklenip koleksiyon oluşturuldu.

### Pyhton ile Veritabanına Bağlanma

In [1]:
# MongoDb işlemleri için gerekli kütüphaneler eklendi
import pymongo 

Cluster-WebScraping'e bağlanmak için :

1. MongoDb Atlas veya MongoDb Compass'a göre seçim yapılır.
  
  * MongoDb Atlas'ı seçtiğimiz için MongoDB Drivers kısmı seçilir.

2. Driver ve versiyonu seçilir.
  
  * Driver: Pyhton Versiyon: 3.4 ve sonrası

  Burada verdiği linki direkt kopyalamamak gerekiyor!!! 

In [2]:
# Cluster-WebScraping için bağlantı sağlandı. (username: zeyneperhan password: 20012022)
myclient = pymongo.MongoClient("mongodb://zeynep:20012022@ac-akv12vk-shard-00-00.6erqfem.mongodb.net:27017,ac-akv12vk-shard-00-01.6erqfem.mongodb.net:27017,ac-akv12vk-shard-00-02.6erqfem.mongodb.net:27017/?ssl=true&replicaSet=atlas-8ffx15-shard-0&retryWrites=true&w=majority") 

# Kullanacağımız veritabanı için erişim sağladık.
mydb = myclient["Bilgisayar"]

# Bilgisayar Veritabanındaki Amazon koleksiyonuna erişim sağladık
mycollectionAmazon= mydb["Amazon"]

# BeatifulSoup ile HepsiBurada Web Scraping

In [3]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
from time import sleep

# Web Scraping yapılırken ilgili koleksiyona erişiliyor.
mycollectionHepsiBurada= mydb["HepsiBurada"]

# Web scraping ile veri aktarmadan önce koleksiyon içeriğini tamamen siliyoruz.
mycollectionHepsiBurada.delete_many({}) 

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:94.0) Gecko/20100101 Firefox/94.0'}

# Verileri çekeceğimiz sitenin ana url'si
base_url = 'https://www.hepsiburada.com/laptop-notebook-dizustu-bilgisayarlar-c-98?sayfa={0}'

#veriyi tutan dict
item = {}

for i in range(1, 4):
    
    print("-------------")
    print('Processing {0}...'.format(base_url.format(i)))
    print("-------------")    

    # İstenilen sayfanın verileri alınıyor:
    response = requests.get(base_url.format(i), headers=headers)
    # Veri alımı başarılıysa response 200 olarak görülmeli 503 ise request işlemi hatalıdır
    print(response)

    # BeautifulSoup ile verilerin içeriğini alıp html.parser ile parçalayıyor. soup içerisinde tutuyor
    soup = BeautifulSoup(response.content, 'html.parser')

    # Olduğumuz sayfadaki tüm ürünlerin bilgisi results içerisine aktarılır:
    results = soup.find_all('li',{'class': 'productListContent-zAP0Y5msy8OHn5z7T_K_'})


    # Results içerisindeki ürün kadar bu for döngüsü döner.
    for result in results:

        product_name = result.h3.text
        item["product_name"] = product_name

        try:
            product_url = 'https://www.hepsiburada.com' + result.a.get("href")
            item["product_url"]= product_url

            # Ürün hakkında detaylı bilgi edinmek için:

            product_response = requests.get(product_url, headers=headers)

            product_soup = BeautifulSoup(product_response.content, 'html.parser')

            #------ Ürün Değerlendirilmesi-----


            if product_soup.find('span', {'class': 'rating-star'}) is not None:
                rating = product_soup.find('span', {'class': 'rating-star'}).text
            else:
              rating = None

            item["rating"]= rating


            #------ Fiyat-----

            if product_soup.find("del",{"id":"originalPrice"}) is not None:
              product_price = product_soup.find("del",{"id":"originalPrice"}).text
            else:
              product_price = None

            item["price"]=product_price

            product_details = product_soup.find_all("table",{"class":"data-list tech-spec"})

            for details in product_details:

              informations = details.find_all("tr")

              for info in informations:

                try:               
                    label = info.find("th").text
                    value = info.find("span").text

                    item[label]=value
                    
                except AttributeError:
                  continue

        except AttributeError:
            continue

        # Bir tane veriyi mongoDB'ye ekler
        mycollectionHepsiBurada.insert_one(item)

        # MongoDB'ye birer tane veri aktarmak istediğimiz için item içerisi silinir
        item.clear()

-------------
Processing https://www.hepsiburada.com/laptop-notebook-dizustu-bilgisayarlar-c-98?sayfa=1...
-------------
<Response [200]>
-------------
Processing https://www.hepsiburada.com/laptop-notebook-dizustu-bilgisayarlar-c-98?sayfa=2...
-------------
<Response [200]>
-------------
Processing https://www.hepsiburada.com/laptop-notebook-dizustu-bilgisayarlar-c-98?sayfa=3...
-------------
<Response [200]>


## Not:


❗ Çektiğiniz bilgileri "print(xxx)" ile ekrana bastırırsanız ne üzerinde çalıştığınızı anlamanız kolaylaşır.
---
***ÖRNEKLER:***

1. Çalıştığınız url'den geri dönüş değerinin 200 veya 503 olduğunu inceleyerek başarılı veya başarısız istek olduğunu anlayabilirsiniz:
```
product_response = requests.get(product_url, headers=headers)
print(product_response)
```

2. ".prettify()" kodu çektiğiniz html bilgisini print ederken daha düzenli hale getirir. Aşağıdaki response içeriğindeki html bilgilerini "print(soap)" diye de inceleyebilirsiniz.
```
response = requests.get(base_url + '&page={0}'.format(i), headers=headers)
soup = BeautifulSoup(response.content, 'html.parser')
print(soup.prettify())
```
3. html içeriğinde bulmak istediğiniz kısmın doğru olup olmadığını anlamak adına da değişkenleri ekrana bastırabilirsiniz.
```
results = soup.find_all('div',{'class': 'a-section a-spacing-base'})
print(results)
```
<br/>

❗ Bu işlemler web scraping konusunda hatta derin öğrenme gibi konularda bile hangi veri üzerinde işlemler yaptığınızı anlamak adına kolaylık sağlıyor. 





