## 크롤링(웹 크롤링)
크롤링이란
- 인터넷 상의 웹 페이지 데이터를 자동으로 수집하는 과정.
- 웹 크롤링은 일반적으로 웹 스크래핑과 연관되며, 둘은 종종 혼용되지만 조금 다른 개념. 웹 크롤링은 웹 페이지를 탐색하고 데이터를 수집하는 반면, 웹 스크래핑은 그 페이지에서 특정 정보를 추출하는 데 중점을 둔다.
- 크롤링은 스크래핑을 포함할 수 있다. 크롤링 과정에서 각 페이지를 방문할 때, 스크래핑을 통해 필요한 데이터를 추출할 수 있다.

웹 크롤링에 사용되는 도구
- BeautifulSoup: Python 라이브러리로, HTML 및 XML 문서를 구문 분석하고 데이터를 추출하는 데 사용.

- Scrapy: 웹 크롤링을 위한 Python 프레임워크로, 효율적이고 확장성이 높은 크롤러를 쉽게 만들 수 있다.

- Selenium: 웹 브라우저 자동화 도구로, JavaScript가 동적으로 로드되는 페이지를 크롤링할 때 유용.

- Requests: Python의 HTTP 라이브러리로, 웹 페이지 요청을 쉽게 할 수 있다.

웹 크롤링의 기본 과정
- 크롤러 설정: 크롤러는 특정 웹 페이지를 시작점으로 설정. 이를 '시드(seed)'라고 부르며, 크롤러는 이 시드 URL에서 시작해 다른 페이지로 이동.

- 페이지 요청: 크롤러는 HTTP 요청을 보내 웹 페이지를 요청. 이 과정에서 크롤러는 브라우저처럼 행동하여 웹 서버에서 페이지를 가져온다.

- 데이터 추출: 웹 페이지가 응답되면, 크롤러는 페이지의 HTML을 분석하고 필요한 데이터를 추출. 이 과정에는 BeautifulSoup, Selenium 같은 라이브러리가 사용될 수 있다.

- 링크 추출 및 큐잉: 크롤러는 현재 페이지에서 다른 페이지로 연결되는 링크를 추출하고, 이 링크들을 큐(queue)에 추가하여 다음 크롤링 대상으로 삼는다.

- 반복: 이 과정은 정해진 규칙이나 종료 조건이 충족될 때까지 반복. 예를 들어, 특정 수의 페이지를 크롤링하거나, 주어진 도메인 내에서만 크롤링하도록 설정할 수 있다.

웹 크롤링의 주의사항

- 로봇 배제 표준(robots.txt): 많은 웹사이트는 robots.txt 파일을 통해 크롤러가 접근 가능한 부분과 접근을 제한하는 부분을 명시. 크롤러는 이 규칙을 준수해야 한다.

- 저작권 및 법적 이슈: 모든 웹사이트의 콘텐츠는 저작권의 보호를 받는다. 따라서 크롤링을 통해 수집한 데이터를 어떻게 사용할지에 대한 법적 문제를 주의해야 한다.

- 서버 부하: 지나친 크롤링은 웹 서버에 부하를 줄 수 있다. 크롤링 시에는 서버의 부담을 줄이기 위해 요청 간의 딜레이를 설정하는 것이 좋다.

#### BeautifulSoup
- BeautifulSoup은 HTML이나 XML 문서를 파싱하고, 파싱한 데이터에서 원하는 요소를 검색하고 추출하는 데 매우 유용한 도구입니다. 
- BeautifulSoup에서 객체를 찾는 주요 방법에는 find, find_all, select_one, select, find_parents, find_parent, find_next_sibling, find_previous_sibling, find_parents, find_parent 등이 있습니다.

검색 방식
- find, find_all: 태그 이름과 속성을 사용하여 요소를 검색합니다.
- select_one, select: CSS 선택자를 사용하여 요소를 검색합니다. id, class

반환 결과:
- find: 첫 번째로 일치하는 요소를 반환합니다.
- find_all: 모든 일치하는 요소를 리스트로 반환합니다.
- select_one: 첫 번째로 일치하는 요소를 반환합니다.
- select: 모든 일치하는 요소를 리스트로 반환합니다.

표현력:
- select_one, select: 더 복잡하고 정교한 선택 조건을 지정할 수 있습니다. 예를 들어, CSS 선택자 문법을 사용하여 클래스, ID, 속성 등을 조합한 검색이 가능합니다.
- find, find_all: 단순한 태그 이름과 속성 조건에 기반한 검색이 주로 사용됩니다.



html.parser vs. lxml
- 파이썬에서 HTML 및 XML 문서를 파싱(parsing)하는 라이브러리
- html.parser는 HTML 문서를 파싱하는 데에 적합한 파서. 파이썬의 기본 라이브러리로 제공되며 파이썬 내부적으로 구현되어 있으며, 외부 종속성이 없으므로 파이썬과 함께 설치되는 패키지만 사용할 수 있습니다.
- lxml은 C 언어로 작성된 파이썬 외부 라이브러리로서 HTML 및 XML 문서를 파싱하는 데에 적합하며, 파서 성능이 매우 우수합니다.
- HTML 문서를 파싱하는 경우에는 html.parser를 사용하는 것이 간단하고 편리하며, 대부분의 경우에는 충분한 성능을 제공합니다. 그러나 대용량의 XML 문서나 매우 복잡한 HTML 문서를 파싱해야 하는 경우에는 lxml을 사용하는 것이 더 효율적입니다.

In [None]:
from bs4 import BeautifulSoup

html_content = '<html><body><h1>Title</h1><p class="content">First paragraph.</p><p class="content">Second paragraph.</p></body></html>'
soup = BeautifulSoup(html_content, 'html.parser')
print(soup.prettify())

Task1_0619. 다음 사항을 수행하세요.
- 첫 번째로 매칭되는 'p' 태그 찾기
- 모든 'p' 태그 찾기
- 클래스가 'content'인 첫 번째 'p' 태그 찾기
- 클래스가 'content'인 모든 'p' 태그 찾기
- 특정 'p' 태그의 모든 부모 태그 찾기
- 특정 'p' 태그의 첫 번째 부모 태그 찾기
- 특정 'p' 태그의 다음 형제 태그 찾기
- 특정 'p' 태그의 이전 형제 태그 찾기
- 특정 'p' 태그 다음에 위치한 모든 태그나 문자열 찾기
- 특정 'p' 태그 이전에 위치한 모든 태그나 문자열 찾기 

In [None]:
#첫 번째로 매칭되는 'p' 태그 찾기
print('1. ',end = '')
target_p = soup.find('p')
print(target_p)

#모든 'p' 태그 찾기
print('2. ',end = '')
target_p = soup.find_all('p')
for i in target_p:
    print(i)

#- 클래스가 'content'인 첫 번째 'p' 태그 찾기
print('3. ',end = '')
target_p = soup.select_one('p.content')
print(target_p)

#- 클래스가 'content'인 모든 'p' 태그 찾기
print('4. ',end = '')
target_p = soup.select('p',class_='content')
for i in target_p:
    print(i)

#- 특정 'p' 태그의 모든 부모 태그 찾기
# print('5. ',end = '')
# target_p = soup.select('p')
# for i in target_p:
    # print(i.parent)

#- 특정 'p' 태그의 모든 부모 태그 찾기
# [document] -> <html> -> <body> -> <p>: 최상위 요소 document에서 시작하여 p 태그까지의 모든 부모 요소를 출력
print('5. ',end = '')
target_p = soup.find('p', class_='content')
target = target_p.find_parents()
print(target)

#- 특정 'p' 태그의 첫 번째 부모 태그 찾기
print('6. ',end = '')
# target_p = soup.select_one('p')
# print(target_p.parent)
target = target_p.find_parent()
print(target)
#- 특정 'p' 태그의 다음 형제 태그 찾기
print('7. ',end = '')
# target_p = soup.select_one('p')
# print(target_p.next_sibling)
target = target_p.find_next_sibling()
print(target)
#- 특정 'p' 태그의 이전 형제 태그 찾기
print('8. ',end = '')
# target_p = soup.select_one('p')
# print(target_p.previous_sibling)
target = target_p.find_previous_sibling()
print(target)
#- 특정 'p' 태그 다음에 위치한 모든 태그나 문자열 찾기
print('9. ',end = '')
# target_p = soup.select_one('p')
# aaa = target_p.next_siblings
# for i in aaa:
#     print(i)
target = target_p.find_next()
print(target)

#- 특정 'p' 태그 이전에 위치한 모든 태그나 문자열 찾기 
print('10. ',end = '')
# target_p = soup.select_one('p')
# aaa = target_p.previous_siblings
# for i in aaa:
#     print(i)
target = target_p.find_previous()
print(target)

크롤링 시 헤더를 포함하면 성공적으로 데이터를 가능성을 높여준다

headers : HTTP 요청에 포함되는 메타데이터
- User-Agent: 클라이언트 애플리케이션(브라우저 등)을 나타냅니다.
- Accept: 서버가 어떤 콘텐츠 타입을 반환해야 하는지 지정합니다.
- Accept-Language: 클라이언트가 선호하는 언어를 지정합니다.
- Referer: 요청이 발생한 이전 페이지의 URL을 지정합니다.
- Host: 요청을 보내는 서버의 호스트 이름을 지정합니다.
- Connection: 서버와 클라이언트 간의 연결 유형을 지정합니다.

```
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
    'Accept-Language': 'en-US,en;q=0.9',
    'Referer': 'http://example.com',
}
```

In [None]:
import requests
from bs4 import BeautifulSoup

url = 'https://news.naver.com'

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}
for i in range(5):
    response = requests.get(url, headers=headers)
    print(response)

response.content:
- response.content는 서버에서 반환된 응답을 바이트(byte) 문자열로 제공합니다.
- 주로 이미지, 파일 다운로드와 같은 바이너리 데이터를 다룰 때 사용됩니다.
- 인코딩과 상관없이 원본 그대로의 데이터를 가져오기 때문에, HTML 파싱을 할 때는 별도로 인코딩을 지정하지 않으면 기본 인코딩을 사용합니다.

response.text:
- response.text는 서버에서 반환된 응답을 유니코드 문자열로 제공합니다.
- requests 라이브러리는 response.text를 반환할 때, response.encoding에 지정된 인코딩을 사용하여 바이트 데이터를 유니코드 문자열로 디코딩합니다.
- 일반적인 텍스트 데이터, HTML, JSON 등의 처리를 할 때 유용합니다.

In [None]:
response.content

In [None]:
response.text

In [None]:
soup = BeautifulSoup(response.text, 'html.parser')
print(soup.prettify())

In [None]:
target = soup.select_one('title')
target.text
target.get_text()
target.string

Task2_0619. ID를 이용해서 '네이버 뉴스' 추출하세요.

In [None]:
target = soup.select_one('#browserTitleArea')
target.text
target.get_text()
target.string

In [None]:
target = soup.find(id='browserTitleArea')
target.text

In [None]:
target = soup.find_all(class_="Nitem_link_menu")

for idx, i in enumerate(target):
    print(f"{idx +1}: {i.get_text().strip()}")

#for i in target:
#    print(i.text)

Task3_0619. soup.find_all(class_='Nitem_link_menu') 대신에 select를 이용하여 동일한 결과를 출력하세요.

In [None]:
target = soup.select('span.Nitem_link_menu')

for idx, i in enumerate(target):
    print(f"{idx +1}: {i.get_text().strip()}")


Task4_0619. select_one을 이용해서 'https://news.naver.com'에서 "뉴스"를 출력하세요

In [None]:
target = soup.select_one('span.Nicon_service')
print(target.text)

Task5_0619.'https://news.naver.com'에서 아래 예시와 같이 뉴스 기사 제목을 모두 출력하세요. 

예시: 1: [속보] '훈련병 사망' 얼차려 지시 중대장·부중대장 피의자 신분 첫 소환조사

In [None]:
target = soup.select('div.cjs_t')

for idx, i in enumerate(target):
    print(f"{idx +1}: {i.get_text().strip()}")


string vs. get_text() vs. text
- BeautifulSoup 객체에서 text 속성, get_text() 메서드, string 속성은 모두 HTML 또는 XML 문서에서 텍스트 데이터를 추출하는 데 사용
- text 속성은 해당 태그에서 모든 텍스트 데이터를 가져오며,
- get_text() 메서드도 동일한 결과를 반환합니다.
- string 속성은 해당 태그에서 첫 번째로 발견된 문자열 데이터만 가져옵니다.

| Method      | 특징                                                                               | 사용 사례                                      |
|-------------|----------------------------------------------------------------------------------|-----------------------------------------------|
| `string`    | 자식 텍스트 노드가 하나인 경우에만 해당 텍스트 반환, 여러 노드가 있으면 `None` 반환                | 단일 텍스트 노드만 있는 요소의 텍스트를 추출할 때      |
| `get_text()`| 요소 및 모든 하위 요소의 텍스트를 모두 포함하여 문자열로 반환, `separator` 및 `strip` 옵션 사용 가능 | 요소 내 모든 텍스트를 추출하고, 구분자 및 공백 처리가 필요한 경우 |
| `text`      | 요소 및 모든 하위 요소의 텍스트를 모두 포함하여 문자열로 반환, 추가 매개변수 없음                  | 요소 내 모든 텍스트를 단순하게 추출할 때                   |

string
- 정의: string 속성은 BeautifulSoup 객체의 자식 노드 중 하나의 텍스트 노드만 반환. 해당 요소의 직접적인 텍스트 콘텐츠가 하나일 때만 유용.
- 특징:
요소가 하나의 자식 텍스트 노드를 가지고 있는 경우에만 그 텍스트를 반환.
여러 자식 요소가 있거나 텍스트 노드가 여러 개 있는 경우 None을 반환.

get_text()
- 정의: get_text() 메서드는 요소 및 모든 하위 요소의 텍스트를 모두 추출하여 하나의 문자열로 반환.
- 특징:
요소 내의 모든 텍스트를 포함하여 반환.
기본적으로 하위 요소 사이에 공백을 추가하지만, separator 매개변수를 사용하여 구분자를 지정할 수 있다.
strip=True 옵션을 사용하여 앞뒤 공백을 제거할 수 있다.

In [None]:
from bs4 import BeautifulSoup

html = """
<div class="example">
    Single text node
</div>
<div class="example">
    <p>Multiple</p> text <span>nodes</span>
</div>
"""

soup = BeautifulSoup(html, 'html.parser')

In [None]:
single_text_node = soup.find('div', class_='example').string
multiple = soup.find_all('div',class_='example')

multiple_text_nodes = soup.select('div', calss_='example')[1].text

print(single_text_node)
print(multiple,'\n')
print(multiple_text_nodes)

In [None]:
# 기본적으로 'get_text()' 메서드는 공백을 구분자로 사용합니다.
# strip=True 옵션으 사용하여 앞뒤 공백을 제거하고 텍스트를 추출
single_text_node = soup.find('div', class_='example').get_text(strip=True)
multiple_text_nodes = soup.find_all('div', class_='example')[1].get_text(strip=True)

print('Default separator:')
print(single_text_node)
print(multiple_text_nodes)

In [None]:
# 'separator' 매개변수를 사용하여 구분자를 지정합니다.
single_next_node_with_separator = soup.find('div', class_='example').get_text(strip=True)
multiple_text_nodes_with_separator = soup.find_all('div', class_='example')[1].get_text(separator=' | ',strip=True)

print(single_next_node_with_separator)
print(multiple_text_nodes_with_separator)

text
- 정의: text 속성은 요소 및 모든 하위 요소의 텍스트를 모두 포함하는 문자열을 반환. get_text() 메서드와 동일한 기능을 한다.
- 특징:
get_text()와 거의 동일한 결과를 제공.
get_text()와 다르게 추가 매개변수(separator, strip)를 사용할 수 없다.

In [None]:
single_text_node = soup.find('div', class_='example').text
multiple = soup.find_all('div',class_='example')

multiple_text_nodes = soup.select('div', calss_='example')[1].text

print(single_text_node)
print(multiple,'\n')
print(multiple_text_nodes)

정규표현식을 이용한 크롤링 방법 

HTML 가져오기:
- requests 라이브러리를 사용하여 웹 페이지의 HTML을 가져옵니다.
HTML 파싱:
- BeautifulSoup을 사용하여 HTML 문서를 파싱합니다.
정규표현식 사용:
- re 모듈을 사용하여 특정 패턴을 가진 텍스트를 추출합니다.

In [None]:
import requests
from bs4 import BeautifulSoup
import re
html = """
<ul>
    <li>Email: example@example.com</li>
    <li>Contact: contact@sample.org</li>
</ul>

"""

#이메일 주소 추출
email_pattern = r'[a-zA-Z0-9_,+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+'
emails = re.findall(email_pattern,html)
print(emails)

In [None]:
html = '''
<html>
<body>
<div>
Hello,world!
</div>
<div>
<p>
Hello,<b>world!</b>
</p>
</div>
</body>
</html>
'''
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')
bs = soup.body.text
print(bs)

In [None]:
import re
texts = re.findall('[^\s]+',bs)
for t in texts:
    print(t)

In [None]:
re.findall('Hello,world!',bs)

In [None]:
print(bs.replace('\n',''))
print(re.sub('\n','',bs))

In [None]:
print(re.sub('\n\n',' ',bs))

In [None]:
li = ''
for t in texts:
    li += t
    li += ' '
print(li)

In [None]:
html = '''
<html>
<head>
<title>Sample Page</title>
</head>
<body>
<div>
Hello, world! 123
</div>
<div>
<p>
456 Hello, <b>789 world!</b> Visit us at <a href="http://example.com">example.com</a>
</p>
</div>
<footer>
Contact us at <a href="mailto:info@example.com">info@example.com</a>
</footer>
</body>
</html>
'''

Q. 주어진 html에서 아래 사항을 수행하세요.
- 모든 단어 추출
- 이메일 주소 추출
- url 추출
- 숫자 추출
- HTML 태그 내 텍스트 추출

In [None]:
#모든 단어 추출
target = re.findall('[a-zA-Z]+', html)
print(target)

In [None]:
#모든 단어 추출
# \b 단어 경계, \w 단어 문자
words_list = ''
soup = BeautifulSoup(html, 'html.parser')
words = re.findall(r'\b\w+\b', soup.text)
for word in words:
    words_list += word
    words_list += ', '
print(words_list)

In [None]:
# 이메일 주소 추출
target = re.findall('[a-zA-Z0-9_,+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+', html)
print(target)

In [None]:
# 이메일 주소 추출
email_pattern = '[a-zA-Z0-9_,+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+'
emails = re.findall(email_pattern, html)
for email in emails:
    print(email)

In [None]:
# URL 추출
target = re.findall('https?://[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+', html)
print(target)

In [None]:
# URL 추출
url_pattern = r'https?://[^\s<>"]+|www\.[^\s<>]+'
urls = re.findall(url_pattern,html)
for url in urls:
    print(url)

In [None]:
# 숫자 추출
target = re.findall('[0-9]',html)
print(target)

In [None]:
# 숫자 추출
num_list = ''
numbers = re.findall(r'\b\d+\b', html)
for number in numbers:
    num_list += number
    num_list += ' '
print(num_list)

In [None]:
# HTML 태그 내 텍스트 추출
target = re.findall('^>\s?[a-zA-Z0-9\s]+<+/+',html)
print(target)

In [None]:
# HTML 태그 내 텍스트 추출
tag_texts = re.findall(r'>([^<]+)<', html)
text_list = ' '.join(text.strip() for text in tag_texts)
text_list = re.sub(r'\s+',' ', text_list)
print(text_list)

In [None]:
from bs4 import BeautifulSoup
import re
html = """
<ul>
  <li><a href="hoge.html">hoge</li>
  <li><a href="https://example.com/fuga">fuga*</li>
  <li><a href="https://example.com/foo">foo*</li>
  <li><a href="http://example.com/aaa">aaa</li>
</ul>
"""
soup = BeautifulSoup(html, 'html.parser')
# 정규 표현식으로 href에서 https인 것 추출하기
li = soup.find_all(href=re.compile(r"^https://"))
print(li)
for e in li: print(e.attrs['href'])

In [None]:
import requests

url = 'https://news.naver.com/section/100'

html = requests.get(url)
html

### urllib + bs

In [None]:
import urllib.request as rq

url = 'https://news.naver.com/section/100'

html = rq.urlopen(url)
bs = BeautifulSoup(html, 'html.parser')
print(bs)

In [None]:
text1 = bs.find('p')
print(text1)

In [None]:
text10 = bs.find_all('p')
for t in text10:
    print(t.text)

In [None]:
bs.find('p',class_='sa_head_layer_p')

In [None]:
text2 = bs.find('p').string
print(text2)

In [None]:
print(bs.find('title'))


In [None]:
print(bs.find('title').string)

In [None]:
text3 = bs.find('p').get_text()
print(text3)

### request + bs

인코딩 에러를 해결
- chardet는 "Universal Character Encoding Detector"로, 다양한 인코딩을 감지할 수 있는 파이썬 패키지
- chardet.detect(response.content)['encoding']은 response.content의 인코딩 방식을 자동으로 감지하여 반환하며
 이 값을 encoding 변수에 저장한 후,<br> response.content를 이 encoding 방식으로 디코딩하여 html 변수에 저장하고 출력

In [None]:
! pip install chardet

In [None]:
import requests
import chardet

# HTTP 요청에서 사용될 헤더 정보를 설정합니다
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}

# 웹사이트에서 스크래핑할 URL을 지정합니다.
url = 'https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=100'

# 지정환 url에 HTTP GET 요청을 전달
response = requests.get(url, headers= headers)

# HTTP 요청이 성공적으로 전달되었다면, 웹사이트의 HTML 코드를 출력합니다
if response.status_code==200:
    encoding = chardet.detect(response.content)['encoding']
    # print(response.content.decode(encoding)) # 웹사이트의 HTML 코드를 포함하는 이진(binary) 데이터를 반환
    print(response.text) #웹사이트의 HTML 코드를 문자열 형태로 반환
else:
    print('HTTP request failed')

In [None]:
# # 한글만 출력
import re
texts = response.text
result = re.findall('[가-힇]+',texts)
print(' '.join(result))

In [None]:
import re
from bs4 import BeautifulSoup


headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}

url = "https://serieson.naver.com/v3/movie/ranking/realtime"
response = requests.get(url, headers= headers)
soup = BeautifulSoup(response.text, 'html.parser')
target = soup.select_one('span.Title_title__s9o0D')


target.text

In [None]:
target = soup.select('span.Title_title__s9o0D')
for idx, i in enumerate(target):
    print(f'{idx+1}, ',i.text)
    if idx>8:
        break

In [None]:
target = soup.select('span.Title_title__s9o0D')
for idx, i in enumerate(target[:10]):
    print(f'{idx+1}, ',i.text)

Task1_0620. 네이버 영화 순위 사이트에서 영화제목, 가격, 타입(구매 or 대여) 정보를 가져와서 TITLE, PRICE, TYPE 3개의 컬럼과 100개의 데이터포인트로 구성된 데이터프레임을 출력하세요.

In [184]:
import re
from bs4 import BeautifulSoup


headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}

url = "https://serieson.naver.com/v3/movie/ranking/realtime"
response = requests.get(url, headers= headers)
soup = BeautifulSoup(response.text, 'html.parser')




In [185]:
target = soup.select_one('span.Title_title__s9o0D')
print(target.text)
type = target.next_sibling.select_one('span.Price_text__pRk_f')
print(type.text)
price = target.next_sibling.select_one('span.Price_price__GqXqo')
print(price.text)

인사이드 아웃(패키지상품 : 더빙판 + 부가영상 추가증정)
구매
7,150캐시


In [186]:
import pandas as pd
df = pd.DataFrame({"TITLE": [],"PRICE":[],"TYPE":[]})
target = soup.select('span.Title_title__s9o0D')
for idx, t in enumerate(target):
    a= t.text
    b = t.next_sibling.select_one('span.Price_text__pRk_f').text
    c = t.next_sibling.select_one('span.Price_price__GqXqo').text
    df.loc[idx+1] = a,c,b
df

Unnamed: 0,TITLE,PRICE,TYPE
1,인사이드 아웃(패키지상품 : 더빙판 + 부가영상 추가증정),"7,150캐시",구매
2,파묘,"7,000캐시",대여
3,명탐정 코난 VS 괴도 키드,"11,000캐시",대여
4,설계자,"11,000캐시",대여
5,랜드 오브 배드,"5,000캐시",대여
...,...,...,...
96,컨저링,"1,300캐시",대여
97,아티스트 봉만대_무삭제판,"6,500캐시",구매
98,닥터(무삭제 감독판),"1,000캐시",구매
99,크루즈 패밀리(패키지: 자막판+더빙판),"5,000캐시",구매


### CSS 선택자
- 원하는 정보만 선별하여 수집하고 싶을 때 css선택자를 활용할 수 있음
- (CSS 선택자 설명 추가)
- F12 >> 수집하고 싶은 부분 클릭 >> 태그 선택 >> copy Selector
- BeautifulSoup의 select_one, select 활용

개발자 도구상에서 .class로 확인한 정치기사 개수는 58개인 반면에 select('.class')로 크롤링한 기사 개수는 38개인 이유
- 많은 사이트는 JavaScript를 사용하여 콘텐츠를 동적으로 로딩하는 반면 requests + Beautifulsoup은 기본적으로 JavaScript를 실행하지 않기 때문에 일부 js로
로딩되는 콘텐츠는 크롤링 되지 않는다.
- 페이지가 완전히 로드되기 전에 크롤링이 시도될 경우 일부 콘텐츠가 누락될 수 있다.
- 웹 페이지가 비동기 요청(Ajax)를 사용하여 데이터를 가져오는 경우 이 요청을 수동으로 처리하지 않는 한 해당 데이터를 가져오지 못할 수 있다

In [None]:
import pandas as pd

url = 'https://news.daum.net/politics#1'
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}
response = requests.get(url, headers= headers)
soup = BeautifulSoup(response.text,'html.parser')

target = soup.select('.link_txt')
n_list = []
for i in target:
    n_list.append(i)

df=pd.DataFrame({'n_title':n_list})
df


In [None]:
# 개발자 도구 copy.selector
import requests as rq
from bs4 import BeautifulSoup

url = 'https://news.daum.net/politics#1'
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}

r = rq.get(url, headers=headers)
html = r.text
soup = BeautifulSoup(html, 'html.parser')
# 개발자 도구 copy.selector
titles=soup.select('body > div > main > section > div > div > ul > li > div > div > strong > a')

for i ,title in enumerate(titles,start =1):
    print(f"{i}, {title.get_text().strip()}")

In [None]:
soup = BeautifulSoup(html, 'html.parser')

lines = soup.select('body > div > main > section > div > div > ul > li > div > div > strong > a')

for i, tag in enumerate(lines, start=1):
    text = tag.get_text().strip().replace(',','')
    matches = re.findall('[가-힣0-9]+', text)
    print(f"{i}, {' '.join(matches)}")

Task2_0620. url = 'https://news.daum.net/politics#1'은 정치기사 1페이지인데 10페이지에 있는 기사를 모두 출력하세요. 

In [20]:
import pandas as pd
import time
import requests 
from bs4 import BeautifulSoup
n_list = []
for i in range(1, 11):
    url = 'https://news.daum.net/politics#' + f'{i}'
    headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}
    response = requests.get(url, headers= headers)
    soup = BeautifulSoup(response.text,'html.parser')
    target = soup.select('a.link_txt')
    
    for idx, i in enumerate(target):
        n_list.append(i.text)
        if idx ==24:
            break




df=pd.DataFrame({'n_title':n_list})


In [48]:
import pandas as pd
import time
import requests 
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
import time

options = Options()
options.add_argument("--start-maximized")
options.add_experimental_option("detach", True)

n_list = []
driver = webdriver.Chrome(options=options)
driver.get('https://news.daum.net/politics#1')
time.sleep(3) #웹 페이지 로드를 보장하기 위해 3초 쉬기
button = driver.find_elements_by_css_selector('timeline > div')[2]
button.click()

time.sleep(3)
for i in range(1, 11):
    url = 'https://news.daum.net/politics#' + f'{i}'
    headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}
    response = requests.get(url, headers= headers)
    soup = BeautifulSoup(response.text,'html.parser')
    target = soup.select('a.link_txt')
    
    for idx, i in enumerate(target):
        n_list.append(i.text)
        if idx ==24:
            break




df=pd.DataFrame({'n_title':n_list})


AttributeError: 'WebDriver' object has no attribute 'find_elements_by_css_selector'

In [None]:
for i in range(1, 11):
    url = 'https://news.daum.net/politics#' + f'{i}'
    print(url)

In [10]:
import time
url = 'https://news.daum.net/politics#1'
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.45.45 Safari/537.36"}
response = requests.get(url, headers= headers)

print(response)
soup = BeautifulSoup(response.text, 'html.parser')
test = soup.select_one('a.link_txt')

print(test)
del url, headers, response, soup, test

<Response [200]>
<a class="link_txt" href="https://v.daum.net/v/20240620171142273">野, 채상병 수사외압 의혹 따진다...21일 청문회, 누가 나오나</a>


In [38]:
import pandas as pd
import requests
from bs4 import BeautifulSoup
n_list = []
url = 'https://news.daum.net/politics#a1asdasd'
headers = {}
response = requests.get(url)
print(response)
soup = BeautifulSoup(response.text, 'html.parser')
target = soup.select('.link_txt')

for idx, i in enumerate(target):
    n_list.append(i.text)
    if idx ==150:
        break
n_list

<Response [200]>


['‘이재명 추가 기소’에 “모든 게 李 탓? vs “대표 아니면 벌써 기소”[중립기어]',
 '여·야, 원구성 협상 또 합의점 못 찾아… 입장차만 확인',
 '핵잠·ICBM 기술 이전 길 텄나…北-러 ‘방위능력 공동조치’ 명시',
 "농해수위, 야당 주도 '양곡관리법·농안법' 상정…여당 불참",
 '우상호 "저도 \'왕수박\'으로 몰려…당에 \'나 같은 역할\' 안 보여"',
 "부산시의회, 부산테크노파크 원장 '2+1년' 이후 연임 집중 질의",
 "국힘 박상웅 국회의원, 분기별 '생활안정기금' 도입 요구",
 '아동수당 증액법 발의 전진숙…"가족예산 아끼지 말아야"[파워초선]',
 '‘채상병 특검법’ 입법청문회 D-1…‘윗선’ 어디까지 출석할까',
 '방위사업청 "英 방산업체 상대 6천9백억 원대 손해배상 소송 최종 승소"',
 '野, 채상병 수사외압 의혹 따진다...21일 청문회, 누가 나오나',
 '[북러 회담] 통일부 "푸틴, 소련의 6·25 참전 첫 공식인정"',
 '與당권, 나경원·원희룡·한동훈 ‘3파전’ 구도…결선투표 변수로',
 "정동만 1호 법안 '고준위 특별법' 발의",
 '대통령 부인에 명품백·시계 선물 되나? 권익위 "직무 관련 없으면 가능"…스스로 권위 깎는 권익위',
 '러북 비판 없는 이재명에 김기현 "김정은 수석대변인 같아"',
 '“많이·빠르게 감소”',
 '한동훈 "23일 출마 선언"...\'민주당의 아버지\' 여진',
 '윤석열 ‘개인폰’ 통화 기록, 왜 자꾸 나올까?',
 '한동훈 23일 당대표 출마 선언…이재명 연임 도전 수순',
 '野, 채상병특검 청문회 불출석 증인 ‘무더기 고발’ 예고…“신원식·김계환만 사유서 제출”',
 '나경원 "근본 깨는 이재명, 대한민국 비명횡사..무조건 막아야, 곧 결심"',
 '박원석 "원희룡 출마? 용산 참전신호"...김근식 "결선투표 노린 듯"',
 '나경원 “당 대표는 대통령과의 갈등이 겉으로 드러나면 안 돼…차별화해 대권 가겠다는 건 미래 없어”',
 '최진녕 변호사 / 서용주 전

In [4]:
df.to_csv('test.csv')


news_url.format(query): URL 문자열 내의 특정 부분을 query 변수의 값으로 대체
- news_url 변수에는 포맷 문자열 'https://news.example.com/search?query={}'가 저장
- news_url.format(query)는 포맷 문자열의 {} 부분을 query 변수의 값으로 대체
- 결과적으로, 포맷팅된 URL은 'https://news.example.com/search?query=politics'가 된다.

In [None]:
import os 

query = input('검색 키워드를 입력하세요 : ')
query = query.replace(' ' , '+')
print(query)
      
nuews_url='https://search.naver.com/search.naver?where=news&sm=tab_jum&query={}'
# format(query) 메서드는 URL템플릿의 {}부분을 querly로 대체
req = requests.get(nuews_url.format(query))

html = req.text
soup = BeautifulSoup(html, 'html.parser')
links = soup.select('.news_tit')
for link in links:
    title = link.text
    url = link.attrs['href']
    print(title, '\n', url)


Task3_0620. 앞에서 출력한 기사 리스트를 pandas 데이터프레임으로 변환 후 csv 파일로 저장 후 다시 불러오세요.

In [22]:

df.to_csv('test.csv')

df1=pd.read_csv('test.csv')

df1

Unnamed: 0.1,Unnamed: 0,n_title
0,0,핵잠·ICBM 기술 이전 길 텄나…北-러 ‘방위능력 공동조치’ 명시
1,1,"여·야, 원구성 협상 또 합의점 못 찾아… 입장차만 확인"
2,2,"농해수위, 야당 주도 '양곡관리법·농안법' 상정…여당 불참"
3,3,"우상호 ""저도 '왕수박'으로 몰려…당에 '나 같은 역할' 안 보여"""
4,4,"부산시의회, 부산테크노파크 원장 '2+1년' 이후 연임 집중 질의"
...,...,...
245,245,"野, 채상병특검 청문회 불출석 증인 ‘무더기 고발’ 예고…“신원식·김계환만 사유서 제출”"
246,246,"나경원 ""근본 깨는 이재명, 대한민국 비명횡사..무조건 막아야, 곧 결심"""
247,247,"박원석 ""원희룡 출마? 용산 참전신호""...김근식 ""결선투표 노린 듯"""
248,248,나경원 “당 대표는 대통령과의 갈등이 겉으로 드러나면 안 돼…차별화해 대권 가겠다는...
