In [None]:
# yüklü olan python sürümünü kontrol etme
python --version

In [None]:
# pip paket yöneticisinin yüklü olan sürümünü kontrol etme
pip --version

In [None]:
# Python'un ensurepip modülünü kullanarak bir Python dağıtımında eksik olan pip (Python paket yöneticisi) yükleyicisinin
# eksiksiz bir sürümünü sağlamak için kullanılır.

python -m ensurepip --upgrade

In [None]:
# sanal ortam yüklü değilse yükleme
pip install virtualenv

In [None]:
# sanal ortam oluşturma
# -m venv   : Bu bölüm, Python'a venv modülünü bir komut olarak çalıştırmasını söyler.
# venv      : Bu, oluşturulan sanal ortamın adıdır. "venv" yerine (ikinci sıradaki "venv" ifadesi) sanal ortamınıza istediğiniz adı verebilirsiniz.

python -m venv WeatherApp

In [None]:
# Uzaktan "execution policy" güncelle (sadece çalışılan ortam için)
Set-ExecutionPolicy -ExecutionPolicy RemoteSigned -Scope Process

In [None]:
# Windows'ta  için sanal ortam aktive etme
WeatherApp\Scripts\activate

In [None]:
# Linux/macOS  için sanal ortam aktive etme
source venv/bin/activate

In [None]:
# pip paket yöneticisinin güncellenme
python.exe -m pip install --upgrade pip

In [None]:
# scrapy framework ünün yüklenmesi
pip install scrapy

In [None]:
# yeni bir Scrapy projesi oluşturmak için kullanılır ve projenin adını "InfoTechWeatherApp" olarak belirler
scrapy startproject .\InfoTechWeatherApp

In [None]:
# mevcut çalışma dizinini Scrapy projesi içindeki "spiders" dizinine değiştirme

cd .\InfoTechWeatherApp\InfoTechWeatherApp\spiders\

In [None]:
# yeni bir Scrapy örümceği oluşturmak için kullanılır. Örneğinizde, bookspider örümceğin adını temsil ederken,
# en.wikipedia.org/wiki/List_of_United_States_cities_by_population ise örümceğin kazıma yapacağı alanı (veya web sitesini) belirtir.

scrapy genspider InfoTechWeatherApp en.wikipedia.org/wiki/List_of_United_States_cities_by_population

In [None]:
# pip paket yöneticisini kullanarak IPython paketini yüklemek için kullanılır.
# IPython, standart Python etkileşimli kabuğuna göre ek özelliklere ve iyileştirmelere sahip gelişmiş bir etkileşimli Python kabuğu sağlar.

pip install ipython

In [None]:
# scrapy.cfg dosyasının içine, [settings] başlığının altına aşağıdaki ifadeyi yazalım. Bu satır terminalde ÇALIŞTIRILMAYACAK.
shell = ipython

In [None]:
# Scrapy tarafından sağlanan etkileşimli bir kabuğu başlatmak için kullanılır ve web kazıma kodunuzu test etmek ve
# hata ayıklamak için kullanılır. "scrapy.cfg" dosyası içinden shell = ipynb yazdığımız için artık terminali
# bir "ipynb" dosyasında olduğu gibi bir brinden bağımsız satırlar olarak çalıştırabiliriz. 

scrapy shell

In [None]:
# web sayfasını 'istek' (request) yapma

fetch('en.wikipedia.org/wiki/List_of_United_States_cities_by_population')

In [None]:
# yukarıdaki "fetch" komutu ile yapılan isteğin (request) in sonucu otomatik olarak "response" değişkenine tanımlanır.
response

In [None]:
response.css('sortable wikitable sticky-header static-row-numbers col1left col2center jquery-tablesorter')

In [None]:
response.css('sortable wikitable sticky-header static-row-numbers col1left col2center jquery-tablesorter').get()

In [None]:
cities = response.css('article.product_pod')

In [None]:
# city_spider.py
import scrapy
from InfoTechWeatherApp.items import CityItem

class CitySpider(scrapy.Spider):
    name = 'city_spider'
    start_urls = [
        'https://en.wikipedia.org/wiki/List_of_United_States_cities_by_population',
        'https://en.wikipedia.org/wiki/Municipalities_of_the_Netherlands',
        'https://en.wikipedia.org/wiki/List_of_most_populous_municipalities_in_Belgium'
    ]

    # Mapping of state initials to full names
    state_full_names = {
        'AL': 'Alabama',
        'AK': 'Alaska',
        'AZ': 'Arizona',
        'AR': 'Arkansas',
        'CA': 'California',
        'CO': 'Colorado',
        'CT': 'Connecticut',
        'DE': 'Delaware',
        'FL': 'Florida',
        'GA': 'Georgia',
        'HI': 'Hawaii',
        'ID': 'Idaho',
        'IL': 'Illinois',
        'IN': 'Indiana',
        'IA': 'Iowa',
        'KS': 'Kansas',
        'KY': 'Kentucky',
        'LA': 'Louisiana',
        'ME': 'Maine',
        'MD': 'Maryland',
        'MA': 'Massachusetts',
        'MI': 'Michigan',
        'MN': 'Minnesota',
        'MS': 'Mississippi',
        'MO': 'Missouri',
        'MT': 'Montana',
        'NE': 'Nebraska',
        'NV': 'Nevada',
        'NH': 'New Hampshire',
        'NJ': 'New Jersey',
        'NM': 'New Mexico',
        'NY': 'New York',
        'NC': 'North Carolina',
        'ND': 'North Dakota',
        'OH': 'Ohio',
        'OK': 'Oklahoma',
        'OR': 'Oregon',
        'PA': 'Pennsylvania',
        'RI': 'Rhode Island',
        'SC': 'South Carolina',
        'SD': 'South Dakota',
        'TN': 'Tennessee',
        'TX': 'Texas',
        'UT': 'Utah',
        'VT': 'Vermont',
        'VA': 'Virginia',
        'WA': 'Washington',
        'WV': 'West Virginia',
        'WI': 'Wisconsin',
        'WY': 'Wyoming'
    }

    def parse(self, response):
        if "United_States" in response.url:
            return self.parse_usa(response)
        elif "Netherlands" in response.url:
            return self.parse_netherlands(response)
        elif "Belgium" in response.url:
            return self.parse_belgium(response)

    def parse_usa(self, response):
        country = "United States"
        table_xpath = '//*[@id="mw-content-text"]/div[1]/table[5]'
        rows = response.xpath(f'{table_xpath}/tbody/tr')        
        
        for row in rows:
            state_initials = row.xpath('./td[2]/a/text()').get()
            state_full_name = self.state_full_names.get(state_initials, state_initials)  # Get full state name from initials
            
            yield CityItem(
                country=country,
                city_municipality=row.xpath('./td[1]//a/text()').get(),
                state_province=state_full_name,  # Use the full state name
                population=row.xpath('./td[3]/text()').get(),
            )

    def parse_netherlands(self, response):
        country = "Netherlands"
        table_xpath = '//*[@id="mw-content-text"]/div[1]/table[3]'
        rows = response.xpath(f'{table_xpath}/tbody/tr')        
        
        for row in rows:
            yield CityItem(
                country=country,
                city_municipality=row.xpath('./th/table/tbody/tr/td[2]/a/text()').get(),
                state_province=row.xpath('./td[2]/a/text()').get(),
                population=row.xpath('./td[3]/span/text()').get(),
            )

    def parse_belgium(self, response):
        country = "Belgium"
        table_xpath = '//*[@id="mw-content-text"]/div[1]/table'
        rows = response.xpath(f'{table_xpath}/tbody/tr')        
        
        for row in rows:
            yield CityItem(
                country=country,
                city_municipality=row.xpath('./td[2]/a/text()').get(),
                state_province=row.xpath('./td[9]/a/text()').get(),
                population=row.xpath('./td[7]/text()').get(),
            )


In [None]:
# yukarıdaki kodlar "parse" fonkisyonun altına yazılacak. Sonra terminalde 'exit' yazıp enter
# yaptıktan sonra "ipython" dan çıkılacak, sanal ortamdan çıkılmayacak.

In [None]:
# Scrapy projesinin içinde tanımladığımız "city_spider" isimli "spider" ı çalıştırma ve sonuçlarını terminalde görme
scrapy crawl city_spider

In [None]:
# "city_spider" spider ını çalıştırmak ve kazılan veriyi "cities.json" adlı bir JSON dosyasına kaydetme
scrapy crawl city_spider -o cities.json

In [None]:
# "city_spider" spider ını çalıştırmak ve kazılan veriyi MongoDB veritabanına kaydetmek için kullanılır. '-s' MongoDB bağlantı parametrelerini iletir
# Komutun ayrıntıları:

# scrapy crawl                                                                        : Scrapy spider ını çalıştırma
# -s MONGODB_URI="mongodb+srv://seanalone:Carry417641@cluster0.dvcnxfp.mongodb.net"   : MongoDB URI'sini
# -s MONGODB_DATABASE="weather_database"                                              : MongoDB veritabanının adı
# city_spider                                                                         : Çalıştırılacak "spider" ın adı,


scrapy crawl -s MONGODB_URI="mongodb+srv://seanalone:Carry417641@cluster0.dvcnxfp.mongodb.net/" -s MONGODB_DATABASE="weather_database" city_spider