# 6. 웹크롤러 만들기 - 기초

![banner](../image/4-1.jpg)

## 웹이란 무엇일까요?

> 웹은 ‘월드 와이드 웹(World Wide Web)’의 줄임말이에요. 첫 글자를 따서 WWW라고 부르기도 합니다. ‘웹(web)’을 영어 뜻 그대로 풀이하면 ‘거미줄’이라는 뜻인데, 거미줄처럼 서로 연결된 모습을 상상하면 딱 알맞는 용어겠죠?

> 웹은 뼈대를 이루는 html, 꾸며주기를 담당하는 css, 동작을 담당하는 javascript로 이루어져 있어요. 이를 실제로 살펴볼까요? Chrome 브라우져에서 오른쪽 버튼을 눌러 검사 옵션에 들어가보세요.

![banner](../image/4-4.jpg)

> 오른쪽에서 첫번째 Elements 창이 보이시나요? 보고계신 내용이 웹페이지의 뼈대를 이루는 html문서에요. 보는것 처럼 html은 태그(tag)를 활용해서 만들어졌으며 이를 어려운말로 마크업언어(Markup language)라고 합니다. 두번째 창에 보면 웹페이지를 꾸며주는 css를 확인할수 있고 Source 탭을 누르면 웹페이지의 작동을 관리하는 javascript를 확인해볼수 있어요.

![banner](../image/4-3.jpg)

## 웹의 구조

> 아래 그림은 모델-뷰-컨트롤러(Model–View–Controller, MVC) 패턴을 보여줘요. MCV패턴은 소프트웨어 공학에서 사용되는 소프트웨어 디자인 패턴을 말해요

![banner](../image/4-5.jpg)

## 웹페이지의 동작 과정

> 먼저 사용자(`Client`)가 서버(`Server`)로 정보제공을 요청합니다. 이를 요청(`Request`)라고 해요. Request의 방식은 `GET`방식과 `POST`방식이 있어요. 우리가 주소창에 `url`을 적은 후 `Enter`를 치는것이 가장 대표정인 `GET`방식의 요청입니다.

> `GET`방식은 `url` 뒤에 붙여서 서버로 보내는 방식이에요. `?` 뒤에 값이 이어붙는 방식이죠. 이 때문에 보내는 값을 볼수 있을뿐만 아니라 많은 데이터를 보내기엔 적합하지 않습니다. 그래서 일반적으로 데이터를 주고받기보다는 서버에 요청만 할 때 주로 사용해요.

> `POST`방식은 `GET`방식과 달리 숨겨진 형태로 서버에 전송할때 보내는 방식이에요. 때문에 상대적으로 `GET`방식에 비해선 많은 데이터를 보낼수 있고, 값이 보이지 않기 때문에 주로 로그인을 할때 서버로 정보를 보내기 위해 사용하는 방식이에요. 

> 서버가 요청을 받으면 사용자에게 보내기 위해 데이터베이스(`Model`)로 부터 값을 받고 `html`과 `css`, 그리고 `javscript`를 이용해서 컴포넌트(`Component`)를 만들어서 사용자에게 보내줘요. 물론 데이터만 보내는것도 가능해요. 이럴땐 주로 사전형(`dict`)으로 생긴 `json`형태로 값을 보내준답니다.

> 이런 과정을 통해 여러분은 웹사이트를 모니터에서 보게 되는거에요!

![banner](../image/4-6.jpg)

## 웹크롤러란 무엇일까요?

> 웹 크롤러(web crawler)는 조직적, 자동화된 방법으로 월드 와이드 웹을 탐색하는 컴퓨터 프로그램입니다. 검색엔진의 경우는 자료의 최신화를 위해서 사용하기도 하고 주로 정보수집을 위해 활용하고 있어요.

> 정식 명칭은 'Web Scraping'이라고 하며 영문 자료를 찾으실때는 해당 명칭을 활용하는게 좋아요.

## 네이버 부동산 크롤링 하기

아래 네이버 부동산 페이지를 크롤링하여 강원도 춘천시의 매물을 확인해 봅시다.

![4-9](../image/4-8.png)

### 한페이지 크롤링

In [1]:
import requests
from bs4 import BeautifulSoup
from pandas import DataFrame

In [2]:
# 페이지(page) 부분을 수정하여 다름 페이지로 넘어갈 수 있어요
# 위치(location) 코드를 수정하면 다른 지역도 크롤링 할수 있어요
url = 'https://land.naver.com/article/divisionInfo.nhn?rletTypeCd=A01&tradeTypeCd=&hscpTypeCd=A01%3AA03%3AA04&\
cortarNo=4211000000&articleOrderCode=&cpId=&minPrc=&maxPrc=&minWrrnt=&maxWrrnt=&minLease=&maxLease=&minSpc=\
&maxSpc=&subDist=&mviDate=&hsehCnt=&rltrId=&mnex=&siteOrderCode=&cmplYn=&page={}\
&location=2459#_content_list_target'.format(1)

문자열 자료형의 format함수를 이용하면 편해요!

In [3]:
# get방식으로 서버에 요청해 봅시다
response = requests.get(url)
response.text

'<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">\n<html lang="ko">\n<head>\n<title>\n\n\t춘천시, 강원도, 매물 : 네이버 부동산\t\n\n\n\n</title>\n\t<!--[if lte IE 8]>\n\t\t<meta http-equiv="X-UA-Compatible" content="IE=edge" />\n\t<![endif]-->\n<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">\n<meta name="referrer" contents="always" />\n\n\n<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">\n\n\n\n<!-- og:tag -->\n<link rel="canonical" href="http://land.naver.com">\n<meta property="og:site_name" content="land" />\n<meta property="og:title" content="네이버 부동산" />\n<meta property="og:type" content="article" />\n<meta property="og:description" content="[강원도 춘천시] 아파트 매물" />\n<meta name="description" content="[강원도 춘천시] 아파트 매물">\n\n\t<meta property="og:image" content="https://ssl.pstatic.net/static.land/static/service/20181108-2/lnb/ico_land_large_og_tag.png"/>\n\n<meta property="og:a

response.text는 단순 문자열 형태입니다. BeautifulSoup를 활용하면 이것을 html의 형태로 바꿀수 있어요

In [4]:
# BeautifulSoup를 이용해서 보기좋게 파싱(parsing)할 수 있어요
soup = BeautifulSoup(response.text, 'html.parser')
soup

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">

<html lang="ko">
<head>
<title>

	춘천시, 강원도, 매물 : 네이버 부동산	



</title>
<!--[if lte IE 8]>
		<meta http-equiv="X-UA-Compatible" content="IE=edge" />
	<![endif]-->
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta contents="always" name="referrer">
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">

<!-- og:tag -->
<link href="http://land.naver.com" rel="canonical"/>
<meta content="land" property="og:site_name"/>
<meta content="네이버 부동산" property="og:title"/>
<meta content="article" property="og:type"/>
<meta content="[강원도 춘천시] 아파트 매물" property="og:description"/>
<meta content="[강원도 춘천시] 아파트 매물" name="description"/>
<meta content="https://ssl.pstatic.net/static.land/static/service/20181108-2/lnb/ico_land_large_og_tag.png" property="og:image">
<meta content="네이버 부동산" property="og:article:author"/>
<meta content="

페이지를 가져왔으니 여기서 우리가 필요한 정보만 가져와볼까요? 위에 설명드린것 처럼 `ctrl` + 마우스오른쪽클릭 에서 검사버튼을 누르면 개발자도구로 이동할수 있어요.

![4-10](../image/4-10.gif)

여기서 우리가 필요한 부분의 태그를 가져와봅시다. 아래와 같이 태그를 가져올수 있나요?
```html
#depth4Tab0Content > div > table > tbody > tr:nth-child(1) > td.sale_type.bottomline
```
BeautifulSoup에서는 `nth-child`를 지원하지 않아요. `nth-child`를 `nth-of-type`로 바꿔줍시다.

In [7]:
# row 값을 가져오기 위한 tbody값 선택
tbody = soup.select('#depth4Tab0Content > div > table > tbody > tr:nth-of-type(1) > td.sale_type.bottomline')
tbody

[<td class="sale_type bottomline" rowspan="2">
 <div class="inner pl4" tabindex="0">매매</div>
 </td>]

In [8]:
tbody[0].text

'\n매매\n'

표에서 한개의 셀값만 가져올때는 이렇게 하면 되지만 표 전체의 셀을 가져오려면 두단계 위의 값을 가져와야겠죠? 두단계 위의 값을 가져와봅시다.

In [9]:
tbody = soup.select('#depth4Tab0Content > div > table > tbody > tr')
tbody

[<tr class="evennum _trow_1902555265">
 <td class="sale_type bottomline" rowspan="2">
 <div class="inner pl4" tabindex="0">매매</div>
 </td>
 <td class="sale_type2 bottomline" rowspan="2" tabindex="0"><div class="inner" style="padding:0;">아파트</div></td>
 <td class="bottomline" rowspan="2">
 <div class="inner inner_mark">
 <span class="mark4" title="확인한지 1개월 이내인 매물"><img alt="확인한지 1개월 이내인 매물" height="15" src="https://ssl.pstatic.net/static.land/static/service/20181108-2/article/blank.gif" style="background:url(https://ssl.pstatic.net/static.land/static/service/20181108-2/article/articlelist.gif) -100px -130px no-repeat;" width="48"/>19.01.31.</span>
 </div>
 </td>
 <td class="align_l name" colspan="2">
 <div class="inner">
 <span class="ico_owner1">집주인</span>
 <a class="NPI=a:list,r:1,i:1902555265 sale_title" href="#" onclick="nhn.article.common.moveArticleDetail('1902555265','A01','A01','A1', 'SERVE','false');return false;" title="춘천두산위브">춘천두산위브</a>
 <span class="btn_naverlink">
 <a clas

In [10]:
import re

# 공백 문자 제거
pattern = re.compile(r'\s+')

위에는 처음보는 함수죠? re 패키지를 사용하면 정규식을 활용해 문자열을 다룰수 있어요. 하나만 더 새로운걸 배워볼까요?

반복문을 활용하면서 값과 인덱스를 동시에 쓰고싶으신적이 많죠? 방법을 알려드릴께요!

In [11]:
리스트 = ['첫번째값', '두번째값', '세번째값', '네번째값', '다섯번째값']
for 인덱스, 값 in enumerate(리스트):
    print(인덱스, ': ',값)

0 :  첫번째값
1 :  두번째값
2 :  세번째값
3 :  네번째값
4 :  다섯번째값


`enumerate`를 활용하면 리스트에 있는 값과 인덱스를 튜플(`tuple`)형태로 반환해요

진짜 마직막 하나만 더 해봐요!

`zip`함수는 동일한 개수로 이루어진 자료형을 묶어 주는 역할을 하는 함수에요 직접 볼까요?

In [12]:
리스트_2 = ['사과', '딸기', '포도', '배', '사과']
합리스트 = list(zip(리스트, 리스트_2))
합리스트

[('첫번째값', '사과'),
 ('두번째값', '딸기'),
 ('세번째값', '포도'),
 ('네번째값', '배'),
 ('다섯번째값', '사과')]

In [13]:
# 위에껄 다 합치면 이런식을 사용할수도 있겠죠?
for 인덱스, (값순서, 값) in enumerate(zip(리스트, 리스트_2)):
    print(인덱스, 값순서, 값)

0 첫번째값 사과
1 두번째값 딸기
2 세번째값 포도
3 네번째값 배
4 다섯번째값 사과


<img src="../image/4-7.jpg" alt="Drawing" style="width: 200px;"/>

큼.... 너무 뜬금없이 너무 길어졌군요....

자 계속 해봅시다!

In [14]:
rows = []
for i, tr in enumerate(tbody):
    if i%2 != 0: # 2의 배수면 넘어가라는 코드입니다(2로 나눈 나머지가 0)
        continue
    row = []
    for i, td in enumerate(tr.select('td')):
        if i == 3:
            if td.select('img'): 
                continue
        row.append(re.sub(pattern,'', td.text))
    rows.append(row)

In [15]:
from pandas import DataFrame

df = DataFrame.from_records(rows, columns=['거래', '종류', '확인일자', '매물명', '면적(㎡)', '층', '매물가(만원)', '연락처'])
df.tail(5)

Unnamed: 0,거래,종류,확인일자,매물명,면적(㎡),층,매물가(만원),연락처
25,매매,아파트,19.01.24.,집주인퇴계우성네이버부동산에서보기,110/84공급면적110.61㎡전용면적84.93㎡,3/18,20500,청담부동산공인중개사사무소033-244-7007
26,월세,아파트,19.01.23.,집주인현대2차네이버부동산에서보기,78A/59공급면적78.18㎡전용면적59.76㎡,14/15,"6,000/25",사랑채부동산공인중개사사무소010-8812-9578
27,매매,아파트,19.01.22.,집주인그랜드네이버부동산에서보기,109/84공급면적109.55㎡전용면적84.95㎡,6/15,20300,그랜드부동산공인중개사사무소033-264-4289
28,매매,아파트,19.01.30.,동부네이버부동산에서보기,103/84공급면적103.18㎡전용면적84.96㎡,11/15,14900,뉴시티부동산공인중개사사무소033-241-4919
29,매매,아파트,19.01.30.,진흥네이버부동산에서보기,76/59공급면적76.87㎡전용면적59.15㎡,6/15,14000,원탑공인중개사사무소033-264-2244


In [16]:
# 매물명에서 '네이버부동산에서보기' 제거
df['매물명'] = df['매물명'].apply(lambda x : x.replace('네이버부동산에서보기', ''))
df.tail(5)

Unnamed: 0,거래,종류,확인일자,매물명,면적(㎡),층,매물가(만원),연락처
25,매매,아파트,19.01.24.,집주인퇴계우성,110/84공급면적110.61㎡전용면적84.93㎡,3/18,20500,청담부동산공인중개사사무소033-244-7007
26,월세,아파트,19.01.23.,집주인현대2차,78A/59공급면적78.18㎡전용면적59.76㎡,14/15,"6,000/25",사랑채부동산공인중개사사무소010-8812-9578
27,매매,아파트,19.01.22.,집주인그랜드,109/84공급면적109.55㎡전용면적84.95㎡,6/15,20300,그랜드부동산공인중개사사무소033-264-4289
28,매매,아파트,19.01.30.,동부,103/84공급면적103.18㎡전용면적84.96㎡,11/15,14900,뉴시티부동산공인중개사사무소033-241-4919
29,매매,아파트,19.01.30.,진흥,76/59공급면적76.87㎡전용면적59.15㎡,6/15,14000,원탑공인중개사사무소033-264-2244


In [17]:
df[df['매물가(만원)'] == '3,000/9018.10.01.자호가일뿐실거래가로확인된금액이아닙니다.']

Unnamed: 0,거래,종류,확인일자,매물명,면적(㎡),층,매물가(만원),연락처


In [18]:
droplist = []
for i, row in enumerate(df.iterrows()):
    if '실거래가로확인된금액이아닙니다' in row[1]['매물가(만원)']:
        droplist.append(i)

df = df.drop(droplist, axis=0)
df.head(5)

Unnamed: 0,거래,종류,확인일자,매물명,면적(㎡),층,매물가(만원),연락처
0,매매,아파트,19.01.31.,집주인춘천두산위브,107C/84공급면적107.5㎡전용면적84.96㎡,7/15,23500,두산공인중개사사무소033-241-8959
1,매매,아파트,19.01.31.,집주인춘천두산위브,108A/84공급면적108.73㎡전용면적84.98㎡,7/15,24000,두산공인중개사사무소033-241-8959
2,전세,아파트,19.01.29.,집주인그린타운,119/99공급면적119.82㎡전용면적99.99㎡,8/15,18000,그랜드부동산공인중개사사무소033-264-4289
3,전세,아파트,19.01.29.,집주인현대1차,104/84공급면적104.96㎡전용면적84.99㎡,4/15,16000,사랑채부동산공인중개사사무소010-8812-9578
4,전세,아파트,19.01.29.,집주인춘천두산위브,108A/84공급면적108.73㎡전용면적84.98㎡,15/15,21000,두산공인중개사사무소033-241-8959


In [19]:
#'/'로 split후에 천단위 쉼표제거 후 정수형변환
df['매물가(만원)'] = df['매물가(만원)'].apply(lambda x: int(x.split('/')[0].replace(',','')))
df.head(5)

Unnamed: 0,거래,종류,확인일자,매물명,면적(㎡),층,매물가(만원),연락처
0,매매,아파트,19.01.31.,집주인춘천두산위브,107C/84공급면적107.5㎡전용면적84.96㎡,7/15,23500,두산공인중개사사무소033-241-8959
1,매매,아파트,19.01.31.,집주인춘천두산위브,108A/84공급면적108.73㎡전용면적84.98㎡,7/15,24000,두산공인중개사사무소033-241-8959
2,전세,아파트,19.01.29.,집주인그린타운,119/99공급면적119.82㎡전용면적99.99㎡,8/15,18000,그랜드부동산공인중개사사무소033-264-4289
3,전세,아파트,19.01.29.,집주인현대1차,104/84공급면적104.96㎡전용면적84.99㎡,4/15,16000,사랑채부동산공인중개사사무소010-8812-9578
4,전세,아파트,19.01.29.,집주인춘천두산위브,108A/84공급면적108.73㎡전용면적84.98㎡,15/15,21000,두산공인중개사사무소033-241-8959


---

크롤링을 잘 하려면 html의 구조에 대해서 잘 알고있어야 해요. 해당 내용은 다루지 않으나, 크롤링을 제대로 하려면 해당내용에 관한 학습이 필요합니다.