<div class="alert alert-block" style="border: 1px solid #455A64;background-color:#ECEFF1;">
본 자료 및 영상 컨텐츠는 저작권법 제25조 2항에 의해 보호를 받습니다. 본 컨텐츠 및 컨텐츠 일부 문구등을 외부에 공개, 게시하는 것을 금지합니다. 특히 자료에 대해서는 저작권법을 엄격하게 적용하겠습니다.
</div>

### Scrapy Shell

> 프로젝트 작성 후에, 데이터가 정상 크롤링되는지 확인이 되므로 생산성이 떨어짐 <br> 
별도 Scrapy Shell 로 먼저 정상 크롤링이 되는지를 확인할 수 있음

### 1단계: Scrapy Shell 시작하기

먼저, 터미널이나 명령 프롬프트에서 Scrapy shell을 시작합니다. 아래 명령어를 입력하세요:

```bash
scrapy shell 'https://davelee-fun.github.io/'
```

이 명령은 `https://davelee-fun.github.io/` 웹 페이지에 대한 HTTP 요청을 보내고, 응답을 받아 Scrapy shell에서 사용할 수 있도록 합니다.

### 2단계: 웹 페이지 응답 확인하기

Scrapy shell이 시작되면, `response` 객체를 통해 웹 페이지의 응답을 확인할 수 있습니다. 예를 들어, 응답의 HTTP 상태 코드를 확인하려면 다음과 같이 입력합니다:

```python
response.status
```

웹 페이지의 HTML 소스를 보려면 다음 명령을 사용합니다:

```python
print(response.text)
```

### 3단계: CSS 선택자와 XPath를 사용하여 데이터 추출하기

Scrapy shell을 사용하면 CSS 선택자나 XPath를 사용하여 웹 페이지에서 데이터를 추출할 수 있습니다. 예를 들어, 웹 페이지의 모든 제목을 추출하려면 다음과 같은 명령을 사용할 수 있습니다:

CSS 선택자를 사용하는 경우:

```python
response.css('h1::text').getall()
```

XPath를 사용하는 경우:

```python
response.xpath('//h1/text()').getall()
```

### 4단계: Scrapy shell에서 fetch 사용하기

새로운 웹 페이지에 대한 요청을 보내고 싶다면, `fetch()` 함수를 사용할 수 있습니다. 예를 들어, 다른 페이지를 요청하려면:

```python
fetch('http://davelee-fun.github.io/blog/TEST/index.html')
```

`fetch()` 함수를 사용한 후, `response` 객체가 새로운 페이지의 응답으로 업데이트됩니다. 이후 2단계와 3단계의 과정을 반복하여 새로운 페이지에서도 데이터를 추출할 수 있습니다.

### 5단계: Scrapy Shell 종료하기

작업을 마친 후, Scrapy shell을 종료하려면 다음과 같이 `exit()` 함수를 호출합니다:

```python
exit()
```

Scrapy shell은 웹 크롤링과 스크래핑 작업을 빠르게 프로토타이핑하고 테스트하는 데 매우 유용합니다. 위의 단계를 따라 `https://davelee-fun.github.io/` 사이트의 구조를 분석하고, 필요한 데이터를 추출하는 방법을 실험해 볼 수 있습니다.

### 1. Scrapy 프로젝트7

#### 1. 프로젝트 생성 및 설정

1. **프로젝트 생성**
   - 새 Scrapy 프로젝트를 생성합니다.
     ```bash
     scrapy startproject daveleefun_project7
     ```
     - `daveleefun_project7`라는 이름의 새 Scrapy 프로젝트가 생성됩니다.

2. **프로젝트 디렉토리로 이동**
   ```bash
   cd daveleefun_project7
   ```

3. **Spider 생성**
   ```bash
   scrapy genspider multiple_webs davelee-fun.github.io
   ```

#### 2. items.py 수정

- 크롤링할 데이터의 구조를 정의합니다.
```python
import scrapy

class DaveleefunItem(scrapy.Item):
    title = scrapy.Field()
    link = scrapy.Field()
    category = scrapy.Field()
    name = scrapy.Field()
    date = scrapy.Field()
```

#### 3. 여러 페이지 크롤링 로직 구현

- Spider 파일에 여러 페이지를 크롤링하는 로직을 추가합니다.
```python
import scrapy
from daveleefun_project7.items import DaveleefunItem

class MultipleWebsSpider(scrapy.Spider):
    name = 'multiple_webs'
    allowed_domains = ['davelee-fun.github.io']
    start_urls = ['http://davelee-fun.github.io/']

    def start_requests(self):
        urls = self.start_urls
        urls.extend([f'https://davelee-fun.github.io/page{i}' for i in range(2, 7)])
        for url in urls:
            yield scrapy.Request(url, self.parse)

    def parse(self, response):
        products = response.css('div.card.h-100') # getall() 은 태그를 문자열로만 가져오므로 객체로 가져옴
        for product in products:
            item = DaveleefunItem()
            item['link'] = product.css('div.maxthumb > a::attr(href)').get()
            item['category'] = product.css('a.text-dark::text').get()
            item['title'] = product.css('h4.card-text::text').get()
            # 중첩된 태그 내의 TEXT 를 가져올 수 없음 (즉, 'span.post-name::text' 은 정상동작하지 않음)
            item['name'] = product.css('span.post-name a::text').get()
            item['date'] = product.css('span.post-date::text').get()
            yield item
```

#### 4. pipelines.py 데이터 전처리 추가

- `pipelines.py`에 데이터 전처리 로직을 추가합니다.
```python
from itemadapter import ItemAdapter


class LinkCompletionPipeline:
    def process_item(self, item, spider):
        # 기본 URL 설정
        base_url = 'https://davelee-fun.github.io'
        
        # 링크 데이터 후처리
        if 'link' in item:
            # 링크 앞에 기본 URL을 추가
            item['link'] = base_url + item['link']
        else:
            # 링크 정보가 없는 경우 빈 문자열 할당
            item['link'] = ''
        return item

class CleanTitlePipeline:
    def process_item(self, item, spider):
        # "관련 상품 추천" 접미어 및 불필요한 개행문자 등 제거, None일 경우 빈 문자열 할당
        if item['category'] is None:
            item['category'] = ''
        else:
            item['category'] = item['category'].replace(" 관련 상품 추천", "").strip()
        
        # "상품명: " 접두어 및 불필요한 개행문자 등 제거, None일 경우 빈 문자열 할당
        if item['title'] is None:
            item['title'] = ''
        else:
            item['title'] = item['title'].replace("상품명: ", "").strip()
        
        # None일 경우 빈 문자열 할당
        if item['name'] is None:
            item['name'] = ''
        else:
            item['name'] = item['name'].strip()

        if item['date'] is None:
            item['date'] = ''
        else:
            item['date'] = item['date'].strip()

        return item
```

- `settings.py`에서 `CleanTitlePipeline`을 활성화합니다.
```python
ITEM_PIPELINES = {
    'daveleefun_project7.pipelines.CleanTitlePipeline': 300,
    'daveleefun_project7.pipelines.LinkCompletionPipeline': 400
}
```

#### 5. 크롤링 실행 및 결과 확인

- 크롤링을 실행하고 결과를 확인합니다.
```bash
scrapy crawl multiple_webs -O multiple_webs_item.json
```

### 참고: 주요 HTTP 응답 코드

### 2xx (성공)

- **200 OK**: 요청이 성공적으로 처리되었습니다. 가장 일반적인 성공 응답 코드입니다.
- **201 Created**: 요청이 성공적으로 이루어져 새로운 리소스가 생성되었습니다. 예를 들어, POST 요청을 통해 새로운 엔트리가 데이터베이스에 추가되었을 때 사용됩니다.
- **204 No Content**: 요청은 성공적이지만, 클라이언트에게 보내줄 콘텐츠는 없습니다. 예를 들어, DELETE 요청이 성공적으로 처리되었을 때 사용될 수 있습니다.

### 3xx (리다이렉션)

- **301 Moved Permanently**: 요청한 리소스가 영구적으로 새 위치로 이동했습니다. 이 코드는 리소스의 URL이 변경되었을 때 사용됩니다.
- **302 Found**: 요청한 리소스가 일시적으로 다른 위치에 있음을 나타냅니다. 리다이렉션을 위해 자주 사용됩니다.

### 4xx (클라이언트 오류)

- **400 Bad Request**: 서버가 요청을 이해할 수 없음. 잘못된 요청 구조나 파라미터 때문에 발생할 수 있습니다.
- **401 Unauthorized**: 요청이 인증을 필요로 함. 보통 로그인 하지 않은 사용자가 보호된 리소스에 접근하려 할 때 반환됩니다.
- **403 Forbidden**: 서버가 요청을 이해했으나, 권한이 없어 요청을 거부합니다.
- **404 Not Found**: 서버가 요청한 리소스를 찾을 수 없습니다. URL 오류나 존재하지 않는 페이지에 대한 요청에서 흔히 발생합니다.
- **405 Method Not Allowed**: 요청된 리소스에서는 지원하지 않는 HTTP 메소드를 사용했습니다.
- **422 Unprocessable Entity**: 요청은 이해했으나, 요청된 작업을 수행할 수 없음. 주로 요청 형식이 올바르지만, 요청 내용이 유효하지 않을 때 사용됩니다(예: 데이터 유효성 검증 실패).

### 5xx (서버 오류)

- **500 Internal Server Error**: 서버 내부 오류로 인해 요청을 처리할 수 없습니다. 가장 일반적인 서버 오류 응답입니다.
- **503 Service Unavailable**: 서버가 일시적으로 요청을 처리할 수 없습니다. 일반적으로 서버 과부하나 유지 관리로 인해 발생합니다.

<div class="alert alert-block" style="border: 1px solid #455A64;background-color:#ECEFF1;">
본 자료 및 영상 컨텐츠는 저작권법 제25조 2항에 의해 보호를 받습니다. 본 컨텐츠 및 컨텐츠 일부 문구등을 외부에 공개, 게시하는 것을 금지합니다. 특히 자료에 대해서는 저작권법을 엄격하게 적용하겠습니다.
</div>