# select로 크롤링하기 

## 1. 종류

In [None]:
import requests
from bs4 import BeautifulSoup

url = 'https://crawlingstudy-dd3c9.web.app/01/'

source = requests.get(url).text

# 파싱(분석 및 구조화)
soup = BeautifulSoup(source, 'html.parser') # 파서 생성 및 html 구조화

### 주요 차이점: `html.select()` vs. `tag.select()`

| **기능**          | **`html.select()`**                         | **`tag.select()`**                           |
|--------------------|---------------------------------------------|----------------------------------------------|
| **탐색 범위**     | HTML 문서 전체에서 탐색                     | 특정 태그 내부로 탐색 범위를 제한             |
| **용도**          | 전체 문서에서 특정 요소를 찾을 때            | 특정 영역 내부에서만 세부적으로 탐색할 때     |
| **적용 대상**     | BeautifulSoup 객체 (루트 객체)              | BeautifulSoup 객체에서 선택된 특정 태그       |
| **사용 예**       | `.text`, `#id`, `div > p` 등 전체 HTML 구조를 고려한 검색 | 특정 태그 내의 `p`, `.class` 등의 세부 검색   |


In [None]:
p_tag = soup.select('p')
print(type(p_tag)) # list 처럼 활용하면 됨
print(p_tag)

<class 'bs4.element.ResultSet'>
[<p id="hello">
    이탈리아 요리의 시작은 기원전 4세기로 거슬러 올라갈 수 있다. 대항해시대를 거치면서 아메리카 대륙에서 감자·토마토·후추·옥수수 등이 유입되어 그 종류와 풍미가 다양해졌고 현대에 이르러서는 피자와 파스타 등 많은 이탈리아 요리가 널리 퍼지게 되었다.
</p>, <p id="cook">
    전통적인 요리법이나 양식은 상당한 차이가 있지만, 이탈리아 요리는 다른 국가의 요리 문화에서 다양한 영감을 줄 만큼 다양하고 혁신적인 것으로 평가되고 있다. 각 지방마다 고유의 특색이 있어 그 양식도 다양하지만 크게 북부와 남부로 나눌 수 있다. 다른 나라와 국경을 맞대고 있던 북부 지방은 산업화되어 경제적으로 풍족하고 농업이 발달해 쌀이 풍부해 유제품이 다양한 반면 경제적으로 침체되었던 남부 지방은 올리브와 토마토, 모차렐라 치즈가 유명하고 특별히 해산물을 활용한 요리가 많다. 식재료와 치즈 등의 차이는 파스타의 종류와 소스와 수프 등도 다름을 의미한다.
</p>]


In [6]:
print(len(p_tag))
print(type(p_tag[0]))
print(p_tag[0])

2
<class 'bs4.element.Tag'>
<p id="hello">
    이탈리아 요리의 시작은 기원전 4세기로 거슬러 올라갈 수 있다. 대항해시대를 거치면서 아메리카 대륙에서 감자·토마토·후추·옥수수 등이 유입되어 그 종류와 풍미가 다양해졌고 현대에 이르러서는 피자와 파스타 등 많은 이탈리아 요리가 널리 퍼지게 되었다.
</p>


### 1.1 soup.select('css_selector')
- 해당되는 태그는 모두 갖고와서 list로 return
- html에서 태그를 찾기

In [15]:
p_tag = soup.select('p')

print('* p_tag: ', p_tag)
print('* p_tag type: ', type(p_tag))

* p_tag:  [<p id="hello">
    이탈리아 요리의 시작은 기원전 4세기로 거슬러 올라갈 수 있다. 대항해시대를 거치면서 아메리카 대륙에서 감자·토마토·후추·옥수수 등이 유입되어 그 종류와 풍미가 다양해졌고 현대에 이르러서는 피자와 파스타 등 많은 이탈리아 요리가 널리 퍼지게 되었다.
</p>, <p id="cook">
    전통적인 요리법이나 양식은 상당한 차이가 있지만, 이탈리아 요리는 다른 국가의 요리 문화에서 다양한 영감을 줄 만큼 다양하고 혁신적인 것으로 평가되고 있다. 각 지방마다 고유의 특색이 있어 그 양식도 다양하지만 크게 북부와 남부로 나눌 수 있다. 다른 나라와 국경을 맞대고 있던 북부 지방은 산업화되어 경제적으로 풍족하고 농업이 발달해 쌀이 풍부해 유제품이 다양한 반면 경제적으로 침체되었던 남부 지방은 올리브와 토마토, 모차렐라 치즈가 유명하고 특별히 해산물을 활용한 요리가 많다. 식재료와 치즈 등의 차이는 파스타의 종류와 소스와 수프 등도 다름을 의미한다.
</p>]
* p_tag type:  <class 'bs4.element.ResultSet'>


- tag에서 tag 찾기

In [None]:
# 1. table 태그 가져오기 -> html 에서 태그 찾는 방법
table_tags = soup.select('table') # return: list (html에서 태그 찾기)
print('* length: ', len(table_tags))
print('* table_tags type: ', type(table_tags))
print('* table_tags: ', table_tags)

* length:  1
* table_tags type:  <class 'bs4.element.ResultSet'>
* table_tags:  [<table border="1">
<thead>
<tr>
<th class="tablehead">이름</th>
<th class="tablehead">나이</th>
</tr>
</thead>
<tbody>
<tr>
<td>이몽룡</td>
<td>34</td>
</tr>
<tr>
<td>홍길동</td>
<td>23</td>
</tr>
</tbody>
</table>]


In [None]:
# 2. table 에서 tr 태그 가져오기 -> tag에서 tag 찾는 방법
# table_tags 로 list 를 만들고 그 안의 table tag 를 가져와야하므로 
# table_tags list -> table_tags[0] tag -> 이제 여기서 select
tr_tags = table_tags[0].select('tr')
print('* length: ', len(tr_tags))
print('* tr_tags type: ', type(tr_tags))
print('* tr_tags: ', tr_tags)

* length:  3
* tr_tags type:  <class 'bs4.element.ResultSet'>
* tr_tags:  [<tr>
<th class="tablehead">이름</th>
<th class="tablehead">나이</th>
</tr>, <tr>
<td>이몽룡</td>
<td>34</td>
</tr>, <tr>
<td>홍길동</td>
<td>23</td>
</tr>]


### 1.2 soup.select_one('css_selector')
- 해당되는 태그 중 가장 첫 번째 태그만 return 
- list에 묶이지 않고 태그를 바로 return해줌 
- html에서 태그 찾기 

In [None]:
# 1. html 에서 태그 가져오기
# p 태그 가져오기

import requests
from bs4 import BeautifulSoup

url = 'https://crawlingstudy-dd3c9.web.app/01/'

response = requests.get(url)

soup = BeautifulSoup(response.text, 'html.parser') # soup: 구조화된 html

p_tag = soup.select_one('p')

print('* p_tag type: ', type(p_tag)) # tag
print('* p_tag: ', p_tag)
print('* p_tag text: ', p_tag.text)


* p_tag type:  <class 'bs4.element.Tag'>
* p_tag:  <p id="hello">
    이탈리아 요리의 시작은 기원전 4세기로 거슬러 올라갈 수 있다. 대항해시대를 거치면서 아메리카 대륙에서 감자·토마토·후추·옥수수 등이 유입되어 그 종류와 풍미가 다양해졌고 현대에 이르러서는 피자와 파스타 등 많은 이탈리아 요리가 널리 퍼지게 되었다.
</p>
* p_tag text:  
    이탈리아 요리의 시작은 기원전 4세기로 거슬러 올라갈 수 있다. 대항해시대를 거치면서 아메리카 대륙에서 감자·토마토·후추·옥수수 등이 유입되어 그 종류와 풍미가 다양해졌고 현대에 이르러서는 피자와 파스타 등 많은 이탈리아 요리가 널리 퍼지게 되었다.



- tag에서 tag찾기 

In [22]:
# 1. html에서 table 태그 가져오기
import requests
from bs4 import BeautifulSoup

response = requests.get(url)

soup = BeautifulSoup(response.text, 'html.parser')


table_tag = soup.select_one('table')

print('* table_tag type: ', type(table_tag)) # tag
print('* table_tag: ', table_tag)

* table_tag type:  <class 'bs4.element.Tag'>
* table_tag:  <table border="1">
<thead>
<tr>
<th class="tablehead">이름</th>
<th class="tablehead">나이</th>
</tr>
</thead>
<tbody>
<tr>
<td>이몽룡</td>
<td>34</td>
</tr>
<tr>
<td>홍길동</td>
<td>23</td>
</tr>
</tbody>
</table>


In [23]:
# 2. 
tr_tag = table_tag.select_one('tr')

print('* tr_tag type: ', type(tr_tag)) # tag
print('* tr_tag: ', tr_tag)

* tr_tag type:  <class 'bs4.element.Tag'>
* tr_tag:  <tr>
<th class="tablehead">이름</th>
<th class="tablehead">나이</th>
</tr>


In [24]:
print(tr_tag.text)


이름
나이



## 2. css선택자로 태그 갖고오기 

### 2.1 id 셀렉터로 태그 갖고오기 
- div태그가 여러개 이니깐 id로 원하는 div태그만 갖고올 수 있음 

In [2]:
import requests
from bs4 import BeautifulSoup

url = 'https://crawlingstudy-dd3c9.web.app/02/'

response = requests.get(url)

soup = BeautifulSoup(response.text, 'html.parser')

# id = title 인 태그 가져오기

# .select()
title_list = soup.select('#title')
print('* title_list type: ', type(title_list)) # tag
print('* title_list: ', title_list)

print('-'*20)

# select_one()
title = soup.select_one('#title')
print('* title type: ', type(title)) # tag
print('* title: ', title)

* title_list type:  <class 'bs4.element.ResultSet'>
* title_list:  [<div class="bold blue" id="title">
        안녕하세요 
    </div>]
--------------------
* title type:  <class 'bs4.element.Tag'>
* title:  <div class="bold blue" id="title">
        안녕하세요 
    </div>


In [None]:
# id = content 태그 들고오기

In [None]:
# id = winter 태그 들고오기

### 2.2 class 셀렉터로 태그 갖고오기 

### 2.3 속성 셀렉터로 태그 갖고오기 
- tag[속성~ = ”값”] : 해당 단어와 일치 
- tag[속성^ = ”값”] : 해당 값으로 시작	
- tag[속성$ = ”값”] : 해당 값으로 끝나는	
- tag[속성* = ”값”] : 해당 값을 포함하는


### 2.4 후손 셀렉터로 태그 갖고오기 

### 2.5 자식 셀렉터로 태그 갖고오기 