# 개념정의

## 협의의 개념

### 웹스크래핑(Web Scraping)

* 웹 페이지의 특정 부분에서 원하는 데이터를 추출하는 과정

### 웹 크롤링(Web crawling)

* 웹 상의 여러 페이지를 자동으로 탐색하는 과정 (도메인 단위로 더 대용량 데이터를 수집)

## 광의의 개념

*  웹상의 데이터를 수집하는 개념으로 웹스크래핑, 웹 크롤링을 혼용하여 사용

# 웹스크래핑을 위한 기초 기술 BeautifulSoup

In [1]:
from bs4 import BeautifulSoup

In [2]:
# 웹상에서 아래 html 코드 정보를 수집했다고 가정해 보자
html='''\
<td class="title">
    <div class="tit3">
        <a href="/movie/bi/mi/basic.naver?code=74977" title="아바타: 물의 길">아바타: 물의 길</a>
    </div>
</td>
'''

In [3]:
type(html)

str

* 문자 데이터를 html의 요소에 대한 검색, 데이터 수집을 하기 용이한 형태(BeautifulSoup)의 타입으로 변환

In [4]:
soup= BeautifulSoup(html, 'html.parser')
soup

<td class="title">
<div class="tit3">
<a href="/movie/bi/mi/basic.naver?code=74977" title="아바타: 물의 길">아바타: 물의 길</a>
</div>
</td>

In [5]:
type(soup)

bs4.BeautifulSoup

In [7]:
soup

<td class="title">
<div class="tit3">
<a href="/movie/bi/mi/basic.naver?code=74977" title="아바타: 물의 길">아바타: 물의 길</a>
</div>
</td>

* pretify함수로 부모 자식간의 관계 띄어쓰기
    * 원본 html의 indentation으로 복원하는  

In [8]:
soup.prettify()

'<td class="title">\n <div class="tit3">\n  <a href="/movie/bi/mi/basic.naver?code=74977" title="아바타: 물의 길">\n   아바타: 물의 길\n  </a>\n </div>\n</td>\n'

In [9]:
print(soup.prettify())

<td class="title">
 <div class="tit3">
  <a href="/movie/bi/mi/basic.naver?code=74977" title="아바타: 물의 길">
   아바타: 물의 길
  </a>
 </div>
</td>



* soup을 출력하면 부모(상위)태그, 자식(하위)태그에 대한 띄어쓰기를 제공하지 않는다.

## html 요소 이름로 하위 요소 검색

* 요소.하위요소
* 요소.find('하위요소')

In [10]:
soup.td

<td class="title">
<div class="tit3">
<a href="/movie/bi/mi/basic.naver?code=74977" title="아바타: 물의 길">아바타: 물의 길</a>
</div>
</td>

* html 태그의 하위 노드 접근

In [13]:
soup.td.div

<div class="tit3">
<a href="/movie/bi/mi/basic.naver?code=74977" title="아바타: 물의 길">아바타: 물의 길</a>
</div>

In [14]:
soup.td.div.a

<a href="/movie/bi/mi/basic.naver?code=74977" title="아바타: 물의 길">아바타: 물의 길</a>

## 요소의 속성값 구하기

* 요소.attrs['속성명']

In [15]:
soup.td

<td class="title">
<div class="tit3">
<a href="/movie/bi/mi/basic.naver?code=74977" title="아바타: 물의 길">아바타: 물의 길</a>
</div>
</td>

In [17]:
soup.td.attrs['class']

['title']

In [18]:
type(soup.td.attrs['class'])

list

* 속성의 실제 값 가져오기

In [21]:
soup.td.attrs['class'][0]

'title'

In [23]:
soup.td.div.a.attrs['href']

'/movie/bi/mi/basic.naver?code=74977'

In [24]:
soup.td.div.a.attrs['title']

'아바타: 물의 길'

## 요소(태그)의 값 구하기

* 요소.string
* 요소.text

In [25]:
soup

<td class="title">
<div class="tit3">
<a href="/movie/bi/mi/basic.naver?code=74977" title="아바타: 물의 길">아바타: 물의 길</a>
</div>
</td>

In [26]:
soup.td.div.a.string

'아바타: 물의 길'

In [27]:
soup.td.div.a.text

'아바타: 물의 길'

## 동일한 요소(태그)가 복수개 존재할 경우 검색

In [28]:
html2='''
<td class="title">
    <div class="tit3">
        <a href="/movie/bi/mi/basic.naver?code=74977" title="아바타: 물의 길">아바타: 물의 길</a>
    </div>
</td>
<td class="title">
    <div class="tit3">
        <a href="/movie/bi/mi/basic.naver?code=184509" title="영웅">영웅</a>
    </div>
</td>

'''

In [29]:
soup= BeautifulSoup(html2, 'html.parser')
soup


<td class="title">
<div class="tit3">
<a href="/movie/bi/mi/basic.naver?code=74977" title="아바타: 물의 길">아바타: 물의 길</a>
</div>
</td>
<td class="title">
<div class="tit3">
<a href="/movie/bi/mi/basic.naver?code=184509" title="영웅">영웅</a>
</div>
</td>

In [30]:
print(soup.prettify())

<td class="title">
 <div class="tit3">
  <a href="/movie/bi/mi/basic.naver?code=74977" title="아바타: 물의 길">
   아바타: 물의 길
  </a>
 </div>
</td>
<td class="title">
 <div class="tit3">
  <a href="/movie/bi/mi/basic.naver?code=184509" title="영웅">
   영웅
  </a>
 </div>
</td>



* 하위요소를 .으로 검색시 가장 처음 나오는 요소를 반환
    * 동일한이름의 요소가 여러개 있을 경우 2번째 이후의요소는 위 문법으로 찾을 수 없다.

In [31]:
soup.td

<td class="title">
<div class="tit3">
<a href="/movie/bi/mi/basic.naver?code=74977" title="아바타: 물의 길">아바타: 물의 길</a>
</div>
</td>

* find 검색시에도 가장 처음 나오는 요소를 반환

In [33]:
soup.find('td')

<td class="title">
<div class="tit3">
<a href="/movie/bi/mi/basic.naver?code=74977" title="아바타: 물의 길">아바타: 물의 길</a>
</div>
</td>

### 모든 하위요소 검색시

* findAll('하위요소')

In [34]:
soup.findAll('td')

[<td class="title">
 <div class="tit3">
 <a href="/movie/bi/mi/basic.naver?code=74977" title="아바타: 물의 길">아바타: 물의 길</a>
 </div>
 </td>,
 <td class="title">
 <div class="tit3">
 <a href="/movie/bi/mi/basic.naver?code=184509" title="영웅">영웅</a>
 </div>
 </td>]

* 첫번째 요소
  

In [35]:
soup.findAll('td')[0]

<td class="title">
<div class="tit3">
<a href="/movie/bi/mi/basic.naver?code=74977" title="아바타: 물의 길">아바타: 물의 길</a>
</div>
</td>

* 두번째 요소

In [36]:
soup.findAll('td')[1]

<td class="title">
<div class="tit3">
<a href="/movie/bi/mi/basic.naver?code=184509" title="영웅">영웅</a>
</div>
</td>

* 태그와 속성을 동시에 검색
    * 유일한 html 요소를 식별하고자 할때
    * 문법:findAll(태그명,속성명)

In [37]:
soup


<td class="title">
<div class="tit3">
<a href="/movie/bi/mi/basic.naver?code=74977" title="아바타: 물의 길">아바타: 물의 길</a>
</div>
</td>
<td class="title">
<div class="tit3">
<a href="/movie/bi/mi/basic.naver?code=184509" title="영웅">영웅</a>
</div>
</td>

In [38]:
soup.findAll('a',{'title':'영웅'})

[<a href="/movie/bi/mi/basic.naver?code=184509" title="영웅">영웅</a>]