## Spider

Spider alternatifi çok sayıda sayfayı indirmek istediğimizde daha hızlı çalışıyor. Bunun için sınıf ismini verdiğimiz nesnelere kısa bir göz atalım. Nesne tabanlı bir programlama dili olluğu için Python'da neredeyse her şey bir sınıf olarak tasarlanır. Sınıf (class) kendisinden örnek oluşturulabilmesi ve iç içe fonksiyonlar çalıştırabilmesi yönüyle programlama için çok önemli bir araçtır. Sınıflara çeşitli özellik ve yöntemler atanabilir.

#### Nasıl çalışır?

Aşağıdaki kodda IMDB_Spider isimli bir sınıf tanımlayabilirsiniz. Bu sınıf scrapy kütüphanesinin Spider metodunu çalıştırıyor. İçerikteki ```start_requests``` fonksiyonu ilk olarak işlemi başlatmaya yarıyor. Bu aşamada indirme işleminin başlayacağı ilk sayfayı tanımlayabilirsiniz. Ardından class boyunca modifiye edilecek olan ve fonksiyondan fonksiyona tanışan  ```self``` parametresine gerekli müdahaleyi yaparak bir sonraki fonksiyona (```parse_front```) geçiş sağlayın.

```Parse_front``` fonksiyonu ile, bir önceki fonksiyonda URL'sini tanımlayarak giriş yaptığınız yerdesiniz. Şimdi kullanılacak olan Xpath'lerinizi tanımlayacak, açacak ve belli listeler halinde saklayacaksınız. Bu aşamada ilerlemek istediğiniz linklerinizi de oluşturun. Bu linkleri aşağıdaki komutu kullanarak bir sonraki fonksiyona taşıyabilirsiniz.

```yield response.follow(url = url,  callback = self.parse_pages)```

Artık ```parse_pages``` fonksiyonuna kadar geldiniz. Bu fonksiyon bir önceki aşamada yarattığınız ve buraya ilettiğiniz her bir URL için belirlediğiniz işlemi yapacak. Yani tekrar bir Xpath tanımlayıp çekmek istediğiniz veriyi işaretleyebilirsiniz. Ardından indirdiğiniz veriyi saklayarak sınıfı terk ediniz.

Şimdi tanımladığınız bu sınıfı çalıştırmak için yapmanız gerek onu çağırmak:


```process = CrawlerProcess()```

```process.crawl(IMDB_Spider)```

```process.start()```

Bunu yapmadan önce boş listeler tanımlamayı unutmayın, çünkü indirdiğiniz verileri bu boş listelere yazacaksınız.

In [1]:
import scrapy
from scrapy.crawler import CrawlerProcess

class IMDB_Spider(scrapy.Spider):
    name = "IMDB_Spider"

    def start_requests(self):
        yield scrapy.Request(url = 'https://m.imdb.com/chart/top', callback = self.parse_front)

    def parse_front(self, response):
        
        movie_names = response.xpath('//h4/text()').extract()
        for item in movie_names:
            cleaned_string = item.strip()
            if cleaned_string != '':
                movie_list.append(cleaned_string)
        
        movie_years = response.xpath('//h4/span[2]/text()').extract()
        for item in movie_years:
                years.append(item)

        movie_links = response.xpath('//*[@id="chart-content"]/div/div/div/a/@href').extract()
        for item in movie_links:
            first_part_url = 'https://m.imdb.com'
            last_part_url = '?pf_rd_m=A2FGELUUNOQJNL&pf_rd_p=df09bbba-7a44-41c0-bc85-426ba05a5574&pf_rd_r=R9N3Q0473JZET8YH4S2A&pf_rd_s=top-1&pf_rd_t=15506&pf_rd_i=top&ref_=m_chttp_tt_1'
            url = first_part_url + item + last_part_url
            links.append(url)
            yield response.follow(url = url,  callback = self.parse_pages)
            
    def parse_pages(self, response):
        movie_players = response.xpath('//*[@id="__next"]/main/div/section[1]/div/section/div/div[1]/section[4]/div[2]/div[2]/div/div[2]/a/text()').extract()
        players_list.append(movie_players)


movie_list = []
years = []
links = []
players_list = []

process = CrawlerProcess()
process.crawl(IMDB_Spider)
process.start()

2022-10-16 15:54:21 [scrapy.utils.log] INFO: Scrapy 2.6.2 started (bot: scrapybot)
2022-10-16 15:54:21 [scrapy.utils.log] INFO: Versions: lxml 4.6.3.0, libxml2 2.9.10, cssselect 1.1.0, parsel 1.6.0, w3lib 2.0.1, Twisted 22.4.0, Python 3.8.8 (default, Apr 13 2021, 15:08:03) [MSC v.1916 64 bit (AMD64)], pyOpenSSL 20.0.1 (OpenSSL 1.1.1k  25 Mar 2021), cryptography 3.4.7, Platform Windows-10-10.0.19041-SP0
2022-10-16 15:54:21 [scrapy.crawler] INFO: Overridden settings:
{}
2022-10-16 15:54:21 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.selectreactor.SelectReactor
2022-10-16 15:54:21 [scrapy.extensions.telnet] INFO: Telnet Password: c1f59f30f4ad4969
2022-10-16 15:54:21 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.logstats.LogStats']
2022-10-16 15:54:21 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
 'sc

### İlk beş satırı görüntüle

In [2]:
links[0:5]

['https://m.imdb.com/title/tt0111161/?pf_rd_m=A2FGELUUNOQJNL&pf_rd_p=df09bbba-7a44-41c0-bc85-426ba05a5574&pf_rd_r=R9N3Q0473JZET8YH4S2A&pf_rd_s=top-1&pf_rd_t=15506&pf_rd_i=top&ref_=m_chttp_tt_1',
 'https://m.imdb.com/title/tt0068646/?pf_rd_m=A2FGELUUNOQJNL&pf_rd_p=df09bbba-7a44-41c0-bc85-426ba05a5574&pf_rd_r=R9N3Q0473JZET8YH4S2A&pf_rd_s=top-1&pf_rd_t=15506&pf_rd_i=top&ref_=m_chttp_tt_1',
 'https://m.imdb.com/title/tt0468569/?pf_rd_m=A2FGELUUNOQJNL&pf_rd_p=df09bbba-7a44-41c0-bc85-426ba05a5574&pf_rd_r=R9N3Q0473JZET8YH4S2A&pf_rd_s=top-1&pf_rd_t=15506&pf_rd_i=top&ref_=m_chttp_tt_1',
 'https://m.imdb.com/title/tt0071562/?pf_rd_m=A2FGELUUNOQJNL&pf_rd_p=df09bbba-7a44-41c0-bc85-426ba05a5574&pf_rd_r=R9N3Q0473JZET8YH4S2A&pf_rd_s=top-1&pf_rd_t=15506&pf_rd_i=top&ref_=m_chttp_tt_1',
 'https://m.imdb.com/title/tt0050083/?pf_rd_m=A2FGELUUNOQJNL&pf_rd_p=df09bbba-7a44-41c0-bc85-426ba05a5574&pf_rd_r=R9N3Q0473JZET8YH4S2A&pf_rd_s=top-1&pf_rd_t=15506&pf_rd_i=top&ref_=m_chttp_tt_1']

In [3]:
years[0:2]

['(1994)', '(1972)']

In [4]:
movie_list[0:2]

['The Shawshank Redemption', 'The Godfather']

In [5]:
players_list[0:2]

[['Jean Reno',
  'Gary Oldman',
  'Natalie Portman',
  'Danny Aiello',
  'Peter Appel',
  'Willi One Blood',
  'Don Creech',
  'Keith A. Glascoe',
  'Randolph Scott',
  'Michael Badalucco',
  'Ellen Greene',
  'Elizabeth Regen',
  'Carl J. Matusovich',
  'Frank Senger',
  'Lucius Wyatt Cherokee',
  'Eric Challier',
  'Luc Bernard',
  'Maïwenn'],
 ['Tim Robbins',
  'Morgan Freeman',
  'Bob Gunton',
  'William Sadler',
  'Clancy Brown',
  'Gil Bellows',
  'Mark Rolston',
  'James Whitmore',
  'Jeffrey DeMunn',
  'Larry Brandenburg',
  'Neil Giuntoli',
  'Brian Libby',
  'David Proval',
  'Joseph Ragno',
  'Jude Ciccolella',
  'Paul McCrane',
  'Renee Blaine',
  'Scott Mann']]

### Önce dataframe, ardından csv veya json

Elinizdeki veriyi önce bir sözlüğe ardından bir pandas DataFrame'ine dönüştürün.

In [6]:
import pandas as pd

dictimdb = {'movie name':movie_list, 'year':years, 'link':links, 'player_list': players_list}
data_imdb = pd.DataFrame(dictimdb)

In [7]:
data_imdb

Unnamed: 0,movie name,year,link,player_list
0,The Shawshank Redemption,(1994),https://m.imdb.com/title/tt0111161/?pf_rd_m=A2...,"[Jean Reno, Gary Oldman, Natalie Portman, Dann..."
1,The Godfather,(1972),https://m.imdb.com/title/tt0068646/?pf_rd_m=A2...,"[Tim Robbins, Morgan Freeman, Bob Gunton, Will..."
2,The Dark Knight,(2008),https://m.imdb.com/title/tt0468569/?pf_rd_m=A2...,"[Adrien Brody, Thomas Kretschmann, Frank Finla..."
3,The Godfather Part II,(1974),https://m.imdb.com/title/tt0071562/?pf_rd_m=A2...,"[Russell Crowe, Joaquin Phoenix, Connie Nielse..."
4,12 Angry Men,(1957),https://m.imdb.com/title/tt0050083/?pf_rd_m=A2...,"[Matthew Broderick, Jeremy Irons, James Earl J..."
...,...,...,...,...
245,Dersu Uzala,(1975),https://m.imdb.com/title/tt0071411/?pf_rd_m=A2...,"[John Travolta, Uma Thurman, Samuel L. Jackson..."
246,The Help,(2011),https://m.imdb.com/title/tt1454029/?pf_rd_m=A2...,"[Henry Fonda, Lee J. Cobb, Martin Balsam, John..."
247,Gandhi,(1982),https://m.imdb.com/title/tt0083987/?pf_rd_m=A2...,"[Al Pacino, Robert De Niro, Robert Duvall, Dia..."
248,Aladdin,(1992),https://m.imdb.com/title/tt0103639/?pf_rd_m=A2...,"[Marlon Brando, Al Pacino, James Caan, Diane K..."


In [8]:
data_imdb['player_list'][56]

['Charlie Sheen',
 'Tom Berenger',
 'Willem Dafoe',
 'Keith David',
 'Forest Whitaker',
 'Francesco Quinn',
 'Kevin Dillon',
 'John C. McGinley',
 'Reggie Johnson',
 'Mark Moses',
 'Corey Glover',
 'Johnny Depp',
 'Chris Pedersen',
 'Bob Orwig',
 'Corkey Ford',
 'David Neidorf',
 'Richard Edson',
 'Tony Todd']

Şimdi de ilgili veriyi csv veya json dosyası olarak bilgisayarınıza kaydedebilirsiniz.

In [10]:
data_imdb.to_csv("IMDB_Filmlerim.csv")
data_imdb.to_json("IMDB_Filmlerim.json")