#웹 크롤링의 기본 과정

1. 웹 사이트에 접속해서 웹 페이지를 확인
2. F12를 눌러서 원하는 정보의 위치를 확인 및 분석
3. 파이썬 코드를 작성해 접속한 웹 페이지의 html코드를 불러오기
4. 불러온 데이터에서 원하는 정보를 가공 후 추출
5. 추출 데이터를 CSV나 DB등 다양한 형태로 저장 및 가공, 시각화

#BeautifulSoup

##BeautifulSoup 다루기 1

In [1]:
from bs4 import BeautifulSoup

In [2]:
# html 문서 전체를 하나의 문자열로 만듦

html_doc = """
<!doctype html>
<html>
<head>
<title> 기초 크롤링 </title>
</head>
<body>
크롤링을 해봅시다.
</body>
</html>
"""

In [3]:
# BeautifulSoup를 이용해서 html_doc을 파싱.. with html,parser
bs_obj = BeautifulSoup(html_doc, "html.parser")

# <head> 태그만을 찾음
head = bs_obj.find("head")
print(head)

<head>
<title> 기초 크롤링 </title>
</head>


In [4]:
body = bs_obj.find("body")
print(body)

<body>
크롤링을 해봅시다.
</body>


##BeautifulSoup 다루기 2

In [5]:
html_doc = """
<!doctype html>
<html>
<head>
기초 웹 크롤링 따라하기
</head>
<body>
<div> 첫 번째 부분 </div>
<div> 두 번째 부분 </div>
</body>
</html>
"""

In [6]:
bs_obj = BeautifulSoup(html_doc, "html.parser")

# <body> 태그만을 찾음
head = bs_obj.find("body")
print(head)

<body>
<div> 첫 번째 부분 </div>
<div> 두 번째 부분 </div>
</body>


In [7]:
div1 = bs_obj.find("div")
print(div1)

<div> 첫 번째 부분 </div>


In [8]:
# 리스트 형태로 모두 받아옴
div_total = bs_obj.find_all("div")
print(div_total)

[<div> 첫 번째 부분 </div>, <div> 두 번째 부분 </div>]


In [9]:
div2 = div_total[1]

print(div2)

<div> 두 번째 부분 </div>


In [10]:
# 태그 내의 텍스트만 추출

print(div2.text)

 두 번째 부분 


##BeautifulSoup 다루기 3

In [11]:
html_doc = """
<!doctype html>
<html>
<head>
<title> 기초 크롤링 </title>
</head>
<body>
<table border="1">
<caption> 과일 가격 </caption>
<tr>
<th> 상품 </th>
<th> 가격 </th>
</tr>
<tr>
<td> 오렌지 </td>
<td> 100 </td>
</tr>
<tr>
<th> 사과 </th>
<th> 150 </th>
</tr>
</table>

<table border="2">
<caption> 의류 가격 </caption>
<tr>
<th> 상품 </th>
<th> 가격 </th>
</tr>
<tr>
<td> 셔츠 </td>
<td> 30000 </td>
</tr>
<tr>
<th> 바지 </th>
<th> 50000 </th>
</tr>
</table>

</body>
</html>
"""

In [12]:
bs_obj = BeautifulSoup(html_doc, "html.parser")
clothes = bs_obj.find_all("table", {"border":"2"})
print(clothes)

[<table border="2">
<caption> 의류 가격 </caption>
<tr>
<th> 상품 </th>
<th> 가격 </th>
</tr>
<tr>
<td> 셔츠 </td>
<td> 30000 </td>
</tr>
<tr>
<th> 바지 </th>
<th> 50000 </th>
</tr>
</table>]


#실습1

웹 페이지에서 HTML 소스코드 불러오기

In [13]:
from urllib.request import urlopen

url = "https://ai-dev.tistory.com/1"
html = urlopen(url)
print(html.read())

b'<!doctype html>\n<html lang="ko">\n<head>\n<link rel="stylesheet" type="text/css" href="https://t1.daumcdn.net/tistory_admin/lib/lightbox/css/lightbox.min.css" /><link rel="stylesheet" type="text/css" href="https://t1.daumcdn.net/tistory_admin/assets/blog/tistory-aeb0c47c1569c26b1cf1f1a17b335722b1e6836f/blogs/style/content/font.css?_version_=tistory-aeb0c47c1569c26b1cf1f1a17b335722b1e6836f" /><link rel="stylesheet" type="text/css" href="https://t1.daumcdn.net/tistory_admin/assets/blog/tistory-aeb0c47c1569c26b1cf1f1a17b335722b1e6836f/blogs/style/content/content.css?_version_=tistory-aeb0c47c1569c26b1cf1f1a17b335722b1e6836f" /><!--[if lt IE 9]><script src="https://t1.daumcdn.net/tistory_admin/lib/jquery/jquery-1.12.4.min.js"></script><![endif]--><!--[if gte IE 9]>\n<!--><script src="https://t1.daumcdn.net/tistory_admin/lib/jquery/jquery-3.2.1.min.js"></script><!--<![endif]-->\n<script src="https://t1.daumcdn.net/tistory_admin/lib/lightbox/js/lightbox-plus-jquery.min.js"></script>\n<scr

In [14]:
# 여기서는 되는데 따로 bs_obj를 만들려고 하면 null이 나온다..
# 더 알아봐야함..

html

<http.client.HTTPResponse at 0x1c06570bbe0>

**제목과 본문 정보 웹 크롤링**

- F12를 누르고 네모에 화살표 칸을 누르고 원하는 정보가 어떤 태그에 속해있는지 확인한다
- 여기서는 "크롤링의 세계에 오신 것을 환영합니다."는 h1 태그에 속해있었다.

In [15]:
from bs4 import BeautifulSoup
from urllib.request import urlopen

url = "https://ai-dev.tistory.com/1"
html = urlopen(url)
bs_obj = BeautifulSoup(html, "html.parser")
print(bs_obj)

<!DOCTYPE html>

<html lang="ko">
<head>
<link href="https://t1.daumcdn.net/tistory_admin/lib/lightbox/css/lightbox.min.css" rel="stylesheet" type="text/css"/><link href="https://t1.daumcdn.net/tistory_admin/assets/blog/tistory-aeb0c47c1569c26b1cf1f1a17b335722b1e6836f/blogs/style/content/font.css?_version_=tistory-aeb0c47c1569c26b1cf1f1a17b335722b1e6836f" rel="stylesheet" type="text/css"/><link href="https://t1.daumcdn.net/tistory_admin/assets/blog/tistory-aeb0c47c1569c26b1cf1f1a17b335722b1e6836f/blogs/style/content/content.css?_version_=tistory-aeb0c47c1569c26b1cf1f1a17b335722b1e6836f" rel="stylesheet" type="text/css"/><!--[if lt IE 9]><script src="https://t1.daumcdn.net/tistory_admin/lib/jquery/jquery-1.12.4.min.js"></script><![endif]--><!--[if gte IE 9]>
<!--><script src="https://t1.daumcdn.net/tistory_admin/lib/jquery/jquery-3.2.1.min.js"></script><!--<![endif]-->
<script src="https://t1.daumcdn.net/tistory_admin/lib/lightbox/js/lightbox-plus-jquery.min.js"></script>
<script>
light

In [16]:
title = bs_obj.find_all("h1")
print(title)

[<h1><a href="/">인공지능 개발의 모든 것</a></h1>, <h1>크롤링의 세계에 오신 것을 환영합니다. </h1>]


In [17]:
print(title[1])

<h1>크롤링의 세계에 오신 것을 환영합니다. </h1>


In [18]:
# 내용만
print(title[1].text)

크롤링의 세계에 오신 것을 환영합니다. 


**본문 내용 크롤링**

- p 태그에 걸림

In [19]:
contents = bs_obj.find_all("p")

In [20]:
print(contents)

[<p>POWERED BY TISTORY</p>, <p>Hello, world!</p>, <p class="copyright">DESIGN BY <a href="#">TISTORY</a> <a class="admin" href="https://ai-dev.tistory.com/manage">관리자</a></p>]


In [21]:
print(contents[1])

<p>Hello, world!</p>


In [22]:
print(contents[1].text)

Hello, world!


#실습2

###테이블에서 텍스트만 추출

In [23]:
from bs4 import BeautifulSoup
from urllib.request import urlopen

url = "https://ai-dev.tistory.com/2"
html = urlopen(url)
bs_obj = BeautifulSoup(html, "html.parser")
print(bs_obj)

<!DOCTYPE html>

<html lang="ko">
<head>
<link href="https://t1.daumcdn.net/tistory_admin/lib/lightbox/css/lightbox.min.css" rel="stylesheet" type="text/css"/><link href="https://t1.daumcdn.net/tistory_admin/assets/blog/tistory-aeb0c47c1569c26b1cf1f1a17b335722b1e6836f/blogs/style/content/font.css?_version_=tistory-aeb0c47c1569c26b1cf1f1a17b335722b1e6836f" rel="stylesheet" type="text/css"/><link href="https://t1.daumcdn.net/tistory_admin/assets/blog/tistory-aeb0c47c1569c26b1cf1f1a17b335722b1e6836f/blogs/style/content/content.css?_version_=tistory-aeb0c47c1569c26b1cf1f1a17b335722b1e6836f" rel="stylesheet" type="text/css"/><!--[if lt IE 9]><script src="https://t1.daumcdn.net/tistory_admin/lib/jquery/jquery-1.12.4.min.js"></script><![endif]--><!--[if gte IE 9]>
<!--><script src="https://t1.daumcdn.net/tistory_admin/lib/jquery/jquery-3.2.1.min.js"></script><!--<![endif]-->
<script src="https://t1.daumcdn.net/tistory_admin/lib/lightbox/js/lightbox-plus-jquery.min.js"></script>
<script>
light

**방법1**

table 태그 이용

In [24]:
table_tag = bs_obj.find_all("table")
print(table_tag)

[<table border="1" data-ke-align="alignLeft" data-ke-style="style1" style="border-collapse: collapse; width: 100%;">
<tbody>
<tr>
<td style="width: 33.3333%; text-align: center;">상품</td>
<td style="width: 33.3333%; text-align: center;">색상</td>
<td style="width: 33.3333%; text-align: center;">가격</td>
</tr>
<tr>
<td style="width: 33.3333%; text-align: center;">셔츠1</td>
<td style="width: 33.3333%; text-align: center;">빨강</td>
<td style="width: 33.3333%; text-align: center;">20000</td>
</tr>
<tr>
<td style="width: 33.3333%; text-align: center;">셔츠2</td>
<td style="width: 33.3333%; text-align: center;">파랑</td>
<td style="width: 33.3333%; text-align: center;">19000</td>
</tr>
<tr>
<td style="width: 33.3333%; text-align: center;">셔츠3</td>
<td style="width: 33.3333%; text-align: center;">초록</td>
<td style="width: 33.3333%; text-align: center;">18000</td>
</tr>
<tr>
<td style="width: 33.3333%; text-align: center;">바지1</td>
<td style="width: 33.3333%; text-align: center;">검정</td>
<td style="widt

In [25]:
table_tag[0]

<table border="1" data-ke-align="alignLeft" data-ke-style="style1" style="border-collapse: collapse; width: 100%;">
<tbody>
<tr>
<td style="width: 33.3333%; text-align: center;">상품</td>
<td style="width: 33.3333%; text-align: center;">색상</td>
<td style="width: 33.3333%; text-align: center;">가격</td>
</tr>
<tr>
<td style="width: 33.3333%; text-align: center;">셔츠1</td>
<td style="width: 33.3333%; text-align: center;">빨강</td>
<td style="width: 33.3333%; text-align: center;">20000</td>
</tr>
<tr>
<td style="width: 33.3333%; text-align: center;">셔츠2</td>
<td style="width: 33.3333%; text-align: center;">파랑</td>
<td style="width: 33.3333%; text-align: center;">19000</td>
</tr>
<tr>
<td style="width: 33.3333%; text-align: center;">셔츠3</td>
<td style="width: 33.3333%; text-align: center;">초록</td>
<td style="width: 33.3333%; text-align: center;">18000</td>
</tr>
<tr>
<td style="width: 33.3333%; text-align: center;">바지1</td>
<td style="width: 33.3333%; text-align: center;">검정</td>
<td style="width

In [26]:
table_tag01 = table_tag[0].find_all("td")
print(table_tag01)

[<td style="width: 33.3333%; text-align: center;">상품</td>, <td style="width: 33.3333%; text-align: center;">색상</td>, <td style="width: 33.3333%; text-align: center;">가격</td>, <td style="width: 33.3333%; text-align: center;">셔츠1</td>, <td style="width: 33.3333%; text-align: center;">빨강</td>, <td style="width: 33.3333%; text-align: center;">20000</td>, <td style="width: 33.3333%; text-align: center;">셔츠2</td>, <td style="width: 33.3333%; text-align: center;">파랑</td>, <td style="width: 33.3333%; text-align: center;">19000</td>, <td style="width: 33.3333%; text-align: center;">셔츠3</td>, <td style="width: 33.3333%; text-align: center;">초록</td>, <td style="width: 33.3333%; text-align: center;">18000</td>, <td style="width: 33.3333%; text-align: center;">바지1</td>, <td style="width: 33.3333%; text-align: center;">검정</td>, <td style="width: 33.3333%; text-align: center;">50000</td>, <td style="width: 33.3333%; text-align: center;">바지2</td>, <td style="width: 33.3333%; text-align: center;">파랑</t

In [27]:
for idx, element in enumerate(table_tag01):
    print(idx, element.text)

0 상품
1 색상
2 가격
3 셔츠1
4 빨강
5 20000
6 셔츠2
7 파랑
8 19000
9 셔츠3
10 초록
11 18000
12 바지1
13 검정
14 50000
15 바지2
16 파랑
17 51000


**방법2**

td 태그 이용

In [28]:
table01 = bs_obj.find_all("td")
print(table01)

[<td style="width: 33.3333%; text-align: center;">상품</td>, <td style="width: 33.3333%; text-align: center;">색상</td>, <td style="width: 33.3333%; text-align: center;">가격</td>, <td style="width: 33.3333%; text-align: center;">셔츠1</td>, <td style="width: 33.3333%; text-align: center;">빨강</td>, <td style="width: 33.3333%; text-align: center;">20000</td>, <td style="width: 33.3333%; text-align: center;">셔츠2</td>, <td style="width: 33.3333%; text-align: center;">파랑</td>, <td style="width: 33.3333%; text-align: center;">19000</td>, <td style="width: 33.3333%; text-align: center;">셔츠3</td>, <td style="width: 33.3333%; text-align: center;">초록</td>, <td style="width: 33.3333%; text-align: center;">18000</td>, <td style="width: 33.3333%; text-align: center;">바지1</td>, <td style="width: 33.3333%; text-align: center;">검정</td>, <td style="width: 33.3333%; text-align: center;">50000</td>, <td style="width: 33.3333%; text-align: center;">바지2</td>, <td style="width: 33.3333%; text-align: center;">파랑</t

In [29]:
# 더 detail한 속성으로 찾기

table = bs_obj.find_all("td", {"style" : "width: 33.3333%; text-align: center;"})
print(table)

[<td style="width: 33.3333%; text-align: center;">상품</td>, <td style="width: 33.3333%; text-align: center;">색상</td>, <td style="width: 33.3333%; text-align: center;">가격</td>, <td style="width: 33.3333%; text-align: center;">셔츠1</td>, <td style="width: 33.3333%; text-align: center;">빨강</td>, <td style="width: 33.3333%; text-align: center;">20000</td>, <td style="width: 33.3333%; text-align: center;">셔츠2</td>, <td style="width: 33.3333%; text-align: center;">파랑</td>, <td style="width: 33.3333%; text-align: center;">19000</td>, <td style="width: 33.3333%; text-align: center;">셔츠3</td>, <td style="width: 33.3333%; text-align: center;">초록</td>, <td style="width: 33.3333%; text-align: center;">18000</td>, <td style="width: 33.3333%; text-align: center;">바지1</td>, <td style="width: 33.3333%; text-align: center;">검정</td>, <td style="width: 33.3333%; text-align: center;">50000</td>, <td style="width: 33.3333%; text-align: center;">바지2</td>, <td style="width: 33.3333%; text-align: center;">파랑</t

In [30]:
for idx, element in enumerate(table):
    print(idx, element.text)

0 상품
1 색상
2 가격
3 셔츠1
4 빨강
5 20000
6 셔츠2
7 파랑
8 19000
9 셔츠3
10 초록
11 18000
12 바지1
13 검정
14 50000
15 바지2
16 파랑
17 51000


###목록 정보 크롤링

In [31]:
com_list = bs_obj.find_all("li")
print(com_list)

[<li class="">
<a class="link_tit" href="/category">
			분류 전체보기							<span class="c_cnt">(2)</span>
</a>
<ul class="category_list">
<li class="">
<a class="link_item" href="/category/%ED%81%AC%EB%A1%A4%EB%A7%81">
						크롤링													<span class="c_cnt">(2)</span>
</a>
</li>
</ul>
</li>, <li class="">
<a class="link_item" href="/category/%ED%81%AC%EB%A1%A4%EB%A7%81">
						크롤링													<span class="c_cnt">(2)</span>
</a>
</li>, <li>모니터</li>, <li>CPU</li>, <li>메모리</li>, <li>그래픽카드</li>, <li>하드디스크</li>, <li>키보드</li>, <li>마우스</li>, <li>
<a href="/1?category=836119">
<span class="thum">
</span>
<span class="title">크롤링의 세계에 오신 것을 환영합니다.</span>
</a>
</li>]


In [32]:
com_list1 = bs_obj.find_all("ul", {"style" : "list-style-type: disc;"})
print(com_list1)

[<ul data-ke-list-type="disc" style="list-style-type: disc;">
<li>모니터</li>
<li>CPU</li>
<li>메모리</li>
<li>그래픽카드</li>
<li>하드디스크</li>
<li>키보드</li>
<li>마우스</li>
</ul>]


In [34]:
com_list02 = com_list1[0].find_all("li")

In [35]:
print(com_list02)

[<li>모니터</li>, <li>CPU</li>, <li>메모리</li>, <li>그래픽카드</li>, <li>하드디스크</li>, <li>키보드</li>, <li>마우스</li>]


In [36]:
for idx, element in enumerate(com_list02):
    print(idx, element.text)

0 모니터
1 CPU
2 메모리
3 그래픽카드
4 하드디스크
5 키보드
6 마우스


#웹 크롤링 허용 문제

- url 사이트 끝에 robots.txt를 붙히면 크롤링 권한에 관한 내용 확인 가능
- Allow / Disallow
- 확인 필수!!