# 웹 스크래핑 1

## 인터넷

- WWW
- 이메일
- FTP
- IRC
- USENET
- GOPHER
- TELNET

## WWW 또는 웹

- 하이퍼텍스트 중심의 인터넷 서비스
- 그림, 음악, 동영상, 글 등으로 구성
- 문서들이 링크로 서로 연결
- 모든 문서에는 URL 주소



## URL

- 인터넷 주소 체계
- 스키마, 호스트, 패스, 쿼리로 구성

## URL의 구성요소

  - 스키마(schema): 통신 방식
  - 호스트(host): 서버 주소
  - 패스(path): 서버에서 문서의 위치
  - 쿼리(query): 문서에 전달하는 추가 정보

## URL 예시

http://www.bobaedream.co.kr/mycar/mycar_list.php?sel_m_gubun=ALL&page=2

- 스키마: `http://`
- 호스트: `www.bobaedream.co.kr`
- 패스: `/mycar/mycar_list.php`
- 쿼리: `?sel_m_gubun=ALL&page=2`

## Python으로 URL 분석하기

In [None]:
import urllib.parse

In [None]:
p = urllib.parse.urlparse('http://www.bobaedream.co.kr/mycar/mycar_list.php?sel_m_gubun=ALL&page=2')

In [None]:
p.scheme

In [None]:
p.hostname

In [None]:
p.path

In [None]:
p.query

## HTTP

- 웹의 통신 규약(protocol)
- 클라이언트가 요청을 보내면 서버가 응답
- 요청에는 GET, POST 등이 있음
  - GET: 서버가 가진 내용을 요청
  - POST: 서버에 새로운 내용 추가를 요청

## 요청 보내기

In [1]:
import requests

GET 요청을 보내고 응답을 받아와 `res` 변수에 할당한다.

In [2]:
url = 'http://www.bobaedream.co.kr/mycar/mycar_list.php?sel_m_gubun=ALL&page=2'
res = requests.get(url)

In [3]:
res

<Response [200]>

응답의 상태 코드를 확인하면 200번을 얻는다.

In [4]:
res.status_code

200

In [5]:
requests.get('http://www.bobaedream.co.kr/aaaaaaa')

<Response [404]>

## 상태코드

- 2XX: 성공
- 3XX: 다른 주소로 이동
- 4XX: 클라이언트 오류
  - 404: 존재하지 않는 주소
- 5XX: 서버 오류
  - 503: 서버가 다운 등의 문제로 서비스 불가 상태

## HTML

- 웹 페이지의 내용을 표현하는 방법
- 노드라는 단위로 구성
- 하나의 노드는 여는 태그, 태그의 내용, 닫는 태그로 구성
- 예: `<a href="http://www.google.com">구글</a>`
  - 여는 태그: `<a href="http://www.google.com">`
  - 내용: `구글`
  - 닫는 태그: `</a>`

## 개발자 도구

- 웹 브라우저에서 F12 또는 우클릭 후 "검사" 메뉴를 클릭하면 개발자도구로 진입
- HTML의 구조와 통신 내역 등을 확인

## HTML의 주요 태그

- div: 구역(division)
- span: 범위(span)
- ul: 번호 없는 리스트(unordered list)
- ol: 번호 리스트(ordered list)
- li: 리스트 항목(list item)
- a: 링크(anchor)

## 응답 내용에서 특정 태그 찾기

먼저 cssselect 패키지를 설치한다.

In [5]:
!pip install cssselect



You are using pip version 18.1, however version 19.0.3 is available.
You should consider upgrading via the 'python -m pip install --upgrade pip' command.


HTML 해석을 위한 `lxml.html`을 불러온다.

In [6]:
import lxml.html

응답의 텍스트(`res.text`)를 해석한다.

In [7]:
root = lxml.html.fromstring(res.text)

`a` 태그를 모두 찾는다.

In [8]:
root.cssselect('a')

[<Element a at 0x2ecdef41e58>,
 <Element a at 0x2ecdef41ef8>,
 <Element a at 0x2ecdef56278>,
 <Element a at 0x2ecdef6ff48>,
 <Element a at 0x2ecdef74188>,
 <Element a at 0x2ecdef741d8>,
 <Element a at 0x2ecdef74228>,
 <Element a at 0x2ecdef74278>,
 <Element a at 0x2ecdef742c8>,
 <Element a at 0x2ecdef74318>,
 <Element a at 0x2ecdef74368>,
 <Element a at 0x2ecdef743b8>,
 <Element a at 0x2ecdef74408>,
 <Element a at 0x2ecdef74458>,
 <Element a at 0x2ecdef744a8>,
 <Element a at 0x2ecdef744f8>,
 <Element a at 0x2ecdef74548>,
 <Element a at 0x2ecdef74598>,
 <Element a at 0x2ecdef745e8>,
 <Element a at 0x2ecdef74638>,
 <Element a at 0x2ecdef74688>,
 <Element a at 0x2ecdef746d8>,
 <Element a at 0x2ecdef74728>,
 <Element a at 0x2ecdef74778>,
 <Element a at 0x2ecdef747c8>,
 <Element a at 0x2ecdef74818>,
 <Element a at 0x2ecdef74868>,
 <Element a at 0x2ecdef748b8>,
 <Element a at 0x2ecdef74908>,
 <Element a at 0x2ecdef74958>,
 <Element a at 0x2ecdef749a8>,
 <Element a at 0x2ecdef749f8>,
 <Elemen

## 속성

HTML 태그는 **속성**(attribute)라는 추가 정보를 포함한다. 대표적인 것은 다음과 같다.

- `id`: 노드의 고유 아이디
- `class`: 노드의 서식 유형
- `href`: `a` 태그에만 사용. 링크된 주소.

## CSS 선택자

- HTML에서 특정 노드를 선택하기 위한 표기법
- `.cssselect` 함수에 사용한다

## 클래스의 선택자

- 특정 class의 태그를 지정할 때는 `태그.클래스`와 같이 `.`으로 표시한다
- 선택자에서 `p.tit`는 HTML에서 `<p class="tit">`

In [9]:
root.cssselect('em.cr')

[<Element em at 0x2ecdd7d8c78>]

## 클래스가 2개일 때

- `태그.클래스1.클래스2`와 같이 `.`으로 구분하여 표시한다
- 선택자에서 `p.tit.ellipsis`는 HTML에서 `<p class="tit ellipsis">`
- `p.tit`이나 `p.ellipsis`만 해도 `p.tit.ellipsis`는 선택 된다

## 포함관계인 노드의 선택자



```html
<p class="tit ellipsis">
    <a href="...">아우디 A8</a>
</p>
```

- 위의 예는 `p` 태그 안에 `a` 태그가 포함됨
- 선택자에서 포함관계는 공백으로 표시: `p.tit a`

In [10]:
links = root.cssselect('p.tit a')

In [12]:
links

[<Element a at 0x237a1c264f8>,
 <Element a at 0x237a1c266d8>,
 <Element a at 0x237a1c268b8>,
 <Element a at 0x237a1c26a98>,
 <Element a at 0x237a1c26c78>,
 <Element a at 0x237a1c26e58>,
 <Element a at 0x237a1c27098>,
 <Element a at 0x237a1c27278>,
 <Element a at 0x237a1c27458>,
 <Element a at 0x237a1c27638>,
 <Element a at 0x237a1c27818>,
 <Element a at 0x237a1c279f8>,
 <Element a at 0x237a1c27bd8>,
 <Element a at 0x237a1c27db8>,
 <Element a at 0x237a1c27f98>,
 <Element a at 0x237a1c281d8>,
 <Element a at 0x237a1c283b8>,
 <Element a at 0x237a1c28598>,
 <Element a at 0x237a1c28778>,
 <Element a at 0x237a1c28958>]

## href 속성 모으기

링크의 걸린 주소를 수집한다

In [11]:
link = links[0]

In [12]:
link.attrib['href'] 

'/mycar/mycar_view.php?no=1864265&gubun=I'

In [14]:
for link in links:
    print(link.attrib['href'])

/mycar/mycar_view.php?no=1864265&gubun=I
/mycar/mycar_view.php?no=1864267&gubun=I
/mycar/mycar_view.php?no=1912765&gubun=I
/mycar/mycar_view.php?no=1912006&gubun=I
/mycar/mycar_view.php?no=1912005&gubun=I
/mycar/mycar_view.php?no=1851814&gubun=I
/mycar/mycar_view.php?no=1851812&gubun=I
/mycar/mycar_view.php?no=1851811&gubun=I
/mycar/mycar_view.php?no=1851815&gubun=I
/mycar/mycar_view.php?no=1935145&gubun=I
/mycar/mycar_view.php?no=1927755&gubun=I
/mycar/mycar_view.php?no=1927754&gubun=I
/mycar/mycar_view.php?no=1927756&gubun=I
/mycar/mycar_view.php?no=1836640&gubun=I
/mycar/mycar_view.php?no=1914535&gubun=I
/mycar/mycar_view.php?no=1859421&gubun=I
/mycar/mycar_view.php?no=1859419&gubun=I
/mycar/mycar_view.php?no=1859418&gubun=I
/mycar/mycar_view.php?no=1897770&gubun=I
/mycar/mycar_view.php?no=1906683&gubun=I


In [15]:
x = [1,2,3]

In [16]:
x.append(5) 

In [18]:
x

[1, 2, 3, 5]

In [19]:
urls = []
for link in links:
    urls.append(link.attrib['href'])

In [22]:
urls

['/mycar/mycar_view.php?no=1943389&gubun=K',
 '/mycar/mycar_view.php?no=1943379&gubun=K',
 '/mycar/mycar_view.php?no=1943376&gubun=K',
 '/mycar/mycar_view.php?no=1943368&gubun=K',
 '/mycar/mycar_view.php?no=1943365&gubun=K',
 '/mycar/mycar_view.php?no=1943357&gubun=K',
 '/mycar/mycar_view.php?no=1943372&gubun=K',
 '/mycar/mycar_view.php?no=1943391&gubun=K',
 '/mycar/mycar_view.php?no=1943353&gubun=K',
 '/mycar/mycar_view.php?no=1943432&gubun=K',
 '/mycar/mycar_view.php?no=1943349&gubun=K',
 '/mycar/mycar_view.php?no=1943399&gubun=K',
 '/mycar/mycar_view.php?no=1949368&gubun=K',
 '/mycar/mycar_view.php?no=1949365&gubun=K',
 '/mycar/mycar_view.php?no=1949363&gubun=K',
 '/mycar/mycar_view.php?no=1949361&gubun=K',
 '/mycar/mycar_view.php?no=1949360&gubun=K',
 '/mycar/mycar_view.php?no=1949354&gubun=K',
 '/mycar/mycar_view.php?no=1917851&gubun=K',
 '/mycar/mycar_view.php?no=1917812&gubun=K']

## 상대주소

- `/mycar/mycar_view.php?no=1944109&gubun=K`는 스키마와 호스트가 생략된 상대주소

- 원래 주소 `http://www.bobaedream.co.kr/mycar/mycar_list.php?sel_m_gubun=ALL&page=2`를 이용해 절대주소로 변환

In [17]:
import urllib.parse

In [18]:
urllib.parse.urljoin(url, '/mycar/mycar_view.php?no=1944109&gubun=K')

'http://www.bobaedream.co.kr/mycar/mycar_view.php?no=1944109&gubun=K'

## 링크된 주소를 절대 주소로 수집

In [19]:
urls = []
for link in links:
    href = urllib.parse.urljoin(url, link.attrib['href'])
    urls.append(href)

In [24]:
urls

['http://www.bobaedream.co.kr/mycar/mycar_view.php?no=1943389&gubun=K',
 'http://www.bobaedream.co.kr/mycar/mycar_view.php?no=1943379&gubun=K',
 'http://www.bobaedream.co.kr/mycar/mycar_view.php?no=1943376&gubun=K',
 'http://www.bobaedream.co.kr/mycar/mycar_view.php?no=1943368&gubun=K',
 'http://www.bobaedream.co.kr/mycar/mycar_view.php?no=1943365&gubun=K',
 'http://www.bobaedream.co.kr/mycar/mycar_view.php?no=1943357&gubun=K',
 'http://www.bobaedream.co.kr/mycar/mycar_view.php?no=1943372&gubun=K',
 'http://www.bobaedream.co.kr/mycar/mycar_view.php?no=1943391&gubun=K',
 'http://www.bobaedream.co.kr/mycar/mycar_view.php?no=1943353&gubun=K',
 'http://www.bobaedream.co.kr/mycar/mycar_view.php?no=1943432&gubun=K',
 'http://www.bobaedream.co.kr/mycar/mycar_view.php?no=1943349&gubun=K',
 'http://www.bobaedream.co.kr/mycar/mycar_view.php?no=1943399&gubun=K',
 'http://www.bobaedream.co.kr/mycar/mycar_view.php?no=1949368&gubun=K',
 'http://www.bobaedream.co.kr/mycar/mycar_view.php?no=1949365&gu

## 링크에서 텍스트를 추출

In [20]:
texts = []
for link in links:
    texts.append(link.text_content())

In [24]:
texts

['렉서스 뉴 ES 350 슈프림',
 '재규어 XF 2.2D 럭셔리',
 'BMW 730Ld',
 '링컨 MKZ 2.0 하이브리드 리저브 ',
 '렉서스 뉴 ES 300h 슈프림',
 '랜드로버 레인지로버 이보크 2.0 TD4 HSE 다이나믹',
 'BMW 뉴 520d M 스포츠 팩 플러스 G30',
 'BMW 528i M 에어로 다이나믹',
 '지프 뉴 체로키 2.2 디젤 리미티드 4WD',
 '벤츠 S350L 블루이피션시',
 '랜드로버 디스커버리 스포츠 2.0 TD4 HSE 럭셔리',
 '벤츠 뉴 E220 d 아방가르드',
 '링컨 MKZ 2.0 하이브리드 리저브',
 '벤츠 CLS 400',
 '벤츠 CLS 250 CDI',
 'BMW 640d xDrive 그란 쿠페 M 스포츠',
 '벤츠 E220 블루텍 아방가르드',
 '폭스바겐 뉴 CC 2.0 TDI 블루모션',
 '캐딜락 뉴 CTS 2.0 프리미엄',
 '벤츠 GLA45 AMG 4매틱']

## 수집된 주소를 저장

In [25]:
import pandas

In [26]:
df = pandas.DataFrame({'url': urls, 'text': texts})

In [27]:
df.head()

Unnamed: 0,url,text
0,http://www.bobaedream.co.kr/mycar/mycar_view.p...,렉서스 뉴 ES 350 슈프림
1,http://www.bobaedream.co.kr/mycar/mycar_view.p...,재규어 XF 2.2D 럭셔리
2,http://www.bobaedream.co.kr/mycar/mycar_view.p...,BMW 730Ld
3,http://www.bobaedream.co.kr/mycar/mycar_view.p...,링컨 MKZ 2.0 하이브리드 리저브
4,http://www.bobaedream.co.kr/mycar/mycar_view.p...,렉서스 뉴 ES 300h 슈프림


In [28]:
df.to_excel('중고차.xlsx')