# Scrapy
- 웹사이트에서 데이터 수집을 위한 오픈소스 파이썬 프레임워크
- 멀티스레딩으로 데이터 수집
- gmarket 상품데이터 수집

In [5]:
#install scrapy
!pip install scrapy



In [9]:
import scrapy, requests
from scrapy.http import TextResponse

## 1. make project

In [11]:
!scrapy startproject news

New Scrapy project 'news', using template directory 'C:\Users\User\anaconda3\Lib\site-packages\scrapy\templates\project', created in:
    C:\Users\User\aivle\Web crawling\notebooks_code\news

You can start your first spider with:
    cd news
    scrapy genspider example example.com


- scrapy structure
    - items : 데이터의 모양 정의
    - middewares : 수집할때 header 정보와 같은 내용을 설정
    - pipelines : 데이터를 수집한 후에 코드를 실행
    - settings : robots.txt 규칙, 크롤링 시간 텀등을 설정
    - spiders : 크롤링 절차를 정의

## 2. xpath
- link, contents

In [5]:
import scrapy, requests
from scrapy.http import TextResponse

In [21]:
url='https://news.daum.net/'
response=requests.get(url)
response=TextResponse(response.url,body=response.text,encoding='utf-8')
response

<200 https://news.daum.net/>

In [29]:
selector = '/html/body/div[2]/main/section/div/div[1]/div[1]/ul/li/div/div/strong/a/@href'
links = response.xpath(selector).extract()
len(links), links[:3]

(20,
 ['https://v.daum.net/v/20240923151053270',
  'https://v.daum.net/v/20240923150750118',
  'https://v.daum.net/v/20240923145528413'])

In [37]:
link=links[0]
response=requests.get(link)
response=TextResponse(response.url,body=response.text,encoding='utf-8')
response

<200 https://v.daum.net/v/20240923151053270>

In [43]:
#상세페이지에서 제목 가져오기. 저번엔 url을 건드리지않고 뒤에 .text로 가져왔으나 이번엔 url에 text()로 가져오고 .extract()로 깔끔하게 제목만 가져오기
title=response.xpath('//*[@id="mArticle"]/div[1]/h3/text()')[0].extract()
title

"전국 주택 2가구 중 1가구 이상은 '준공 20년 이상'"

## 3. items.py
- Data Model

In [None]:
# %load news/news/items.py

In [47]:
%%writefile news/news/items.py
import scrapy


class NewsItem(scrapy.Item):
    title = scrapy.Field()
    link = scrapy.Field()

Overwriting news/news/items.py


## 4. spider.py
- wirte crawling process

In [55]:
%%writefile news/news/spiders/spider.py
import scrapy
class news.items importNewsItem

class NewsSpider(scrapy.Spider):
    name='news'
    allow_domain=['daum.net']
    start_urls=['https://news.daum.net']

   def parse(self, response):
    selector = '/html/body/div[2]/main/section/div/div[1]/div[1]/ul/li/div/div/strong/a/@href'
    links = response.xpath(selector).extract()
    for link in links:
        yield scrapy.Request(link, callback=self.parse_content):

  def parse_content(self, response):
    item = NewsItem()
    item['link'] = response.url
    item['title'] = response.xpath('//*[@id="mArticle"]/div[1]/h3/text()')[0].extract()
    yield item
        

Overwriting news/news/spiders/spider.py


## 5. run scrapy
- news 디렉토리에서 아래의 커멘드 실행
- scrapy crawl news -o news.csv

In [1]:
%pwd

'C:\\Users\\User\\aivle\\Web_crawling\\notebooks_code'

In [67]:
%ls

 C 드라이브의 볼륨에는 이름이 없습니다.
 볼륨 일련 번호: BEA2-02D7

 C:\Users\User\aivle\Web crawling\notebooks_code 디렉터리

2024-09-23  오후 03:48    <DIR>          .
2024-09-23  오후 01:54    <DIR>          ..
2024-09-23  오후 02:58    <DIR>          .ipynb_checkpoints
2024-09-20  오전 11:18           133,678 01_requests_naver_stock.ipynb
2024-09-20  오후 12:05             2,545 02_requests_daum_exchange.ipynb
2024-09-20  오후 02:11            86,782 03_rest_api.ipynb
2024-09-20  오후 03:12            14,640 04_requests_zigbang.ipynb
2024-09-20  오후 04:14            11,017 05_html.ipynb
2024-09-20  오후 04:39             7,616 06_css_selector.ipynb
2024-09-21  오전 12:26             6,735 07_naver_relational_keywords.ipynb
2024-09-12  오후 07:58             2,041 08_gmarket.ipynb
2024-09-23  오후 02:50            15,537 09_selenium.ipynb
2024-09-23  오후 03:00             1,465 10_xpath.ipynb
2024-09-06  오후 03:50             2,189 11_iterator_generator.ipynb
2024-09-23  오후 03:48            14,131 12_scrapy.ipynb
2024-09-23  오후 01:5