# Scrapy
- 웹사이트에서 데이터 수집을 위한 오픈소스 파이썬 프레임워크
- 멀티스레딩으로 데이터 수집
- gmarket 상품데이터 수집

In [1]:
# install scrapy
#!pip install scrapy

In [2]:
import scrapy, requests
from scrapy.http import TextResponse

## 1. make project

In [3]:
!scrapy startproject news

New Scrapy project 'news', using template directory 'C:\Users\tjdud\anaconda3\Lib\site-packages\scrapy\templates\project', created in:
    C:\Users\tjdud\web\news

You can start your first spider with:
    cd news
    scrapy genspider example example.com


In [None]:
!tree news

[1;36mnews[0m
├── [1;36mnews[0m
│   ├── __init__.py
│   ├── items.py
│   ├── middlewares.py
│   ├── pipelines.py
│   ├── settings.py
│   └── [1;36mspiders[0m
│       └── __init__.py
└── scrapy.cfg

3 directories, 7 files


In [6]:
!tree news /F

폴더 PATH의 목록입니다.
볼륨 일련 번호는 22D1-176C입니다.
C:\USERS\TJDUD\WEB\NEWS
│  scrapy.cfg
│  
└─news
    │  items.py
    │  middlewares.py
    │  pipelines.py
    │  settings.py
    │  __init__.py
    │  
    └─spiders
            __init__.py
            


In [10]:
!dir news /S

 C 드라이브의 볼륨에는 이름이 없습니다.
 볼륨 일련 번호: 22D1-176C

 C:\Users\tjdud\web\news 디렉터리

2024-09-23  오후 03:05    <DIR>          .
2024-09-23  오후 03:05    <DIR>          ..
2024-09-23  오후 03:05    <DIR>          news
2024-09-23  오후 03:05               262 scrapy.cfg
               1개 파일                 262 바이트

 C:\Users\tjdud\web\news\news 디렉터리

2024-09-23  오후 03:05    <DIR>          .
2024-09-23  오후 03:05    <DIR>          ..
2024-09-23  오후 03:05               272 items.py
2024-09-23  오후 03:05             3,747 middlewares.py
2024-09-23  오후 03:05               371 pipelines.py
2024-09-23  오후 03:05             3,355 settings.py
2024-08-16  오후 07:24    <DIR>          spiders
2024-02-24  오전 04:37                 0 __init__.py
               5개 파일               7,745 바이트

 C:\Users\tjdud\web\news\news\spiders 디렉터리

2024-08-16  오후 07:24    <DIR>          .
2024-08-16  오후 07:24    <DIR>          ..
2024-02-24  오전 04:37               161 __init__.py
               1개 파일                 161 바이트

     전체 

In [30]:
import os

def print_tree(startpath, depth=0, indent=''):
    items = sorted(os.listdir(startpath), key=lambda x: (os.path.isfile(os.path.join(startpath, x)), x), reverse=True)
    
    if depth == 0:
        folder_name = os.path.basename(os.path.abspath(startpath))
        print('\033[32m' + folder_name + '\033[0m')
        
    for item in items:
        path = os.path.join(startpath, item)
        if os.path.isdir(path):
            print(indent + '└─  ' + '\033[32m' + item + '\033[0m')
            print_tree(path, depth + 1, indent + '    ')
        else:
            print(indent + '│  ' + item)

print_tree('./news')

[32mnews[0m
│  scrapy.cfg
└─  [32mnews[0m
    │  settings.py
    │  pipelines.py
    │  middlewares.py
    │  items.py
    │  __init__.py
    └─  [32mspiders[0m
        │  __init__.py


In [3]:
import os

def my_tree(startpath, indent=''):
    items = sorted(os.listdir(startpath), key=lambda x: (os.path.isfile(os.path.join(startpath, x)), x), reverse=True)

    if indent == '':
        print('\033[1;32m' + os.path.basename(os.path.abspath(startpath)) + '\033[0m')

    for item in items:
        path = os.path.join(startpath, item)
        connector = '└── ' if item == items[-1] else '├── '

        if os.path.isdir(path):
            print(indent + connector + '\033[1;32m' + item + '\033[0m')
            my_tree(path, indent + ('    ' if item == items[-1] else '│   '))
        else:
            print(indent + connector + item)

# 이 부분에 원하는 경로를 넣으시면 됩니다.
my_tree('./news')

[1;32mnews[0m
├── scrapy.cfg
├── news.csv
└── [1;32mnews[0m
    ├── settings.py
    ├── pipelines.py
    ├── middlewares.py
    ├── items.py
    ├── __init__.py
    ├── [1;32mspiders[0m
    │   ├── spider.py
    │   ├── __init__.py
    │   └── [1;32m__pycache__[0m
    │       ├── spider.cpython-312.pyc
    │       └── __init__.cpython-312.pyc
    └── [1;32m__pycache__[0m
        ├── settings.cpython-312.pyc
        ├── items.cpython-312.pyc
        └── __init__.cpython-312.pyc


In [11]:
url = 'https://news.daum.net/'
response = requests.get(url)
response = TextResponse(response.url, body = response.text, encoding='utf-')

<200 https://news.daum.net/>

- scrapy structure
    - items : 데이터의 모양 정의
    - middewares : 수집할때 header 정보와 같은 내용을 설정
    - pipelines : 데이터를 수집한 후에 코드를 실행
    - settings : robots.txt 규칙, 크롤링 시간 텀등을 설정
    - spiders : 크롤링 절차를 정의

## 2. xpath
- link, contents

In [None]:
import scrapy, requests
from scrapy.http import TextResponse

## 3. items.py
- Data Model

## 4. spider.py
- wirte crawling process

## 5. run scrapy
- news 디렉토리에서 아래의 커멘드 실행
- scrapy crawl news -o news.csv