<a href="https://colab.research.google.com/github/cocomarine25/LBnC/blob/main/class2023Fall_1006.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### **1. Understanding Web Scraping and its Applications**

---

Web scraping is the process of extracting data from websites. This data can be anything: text, images, links, and more. It's a way to programmatically interact with a webpage, allowing you to pull data from online sources that may not have an API.

**Applications**:
- Price comparison
- Data collection for research
- Job listings
- Monitoring changes on websites
- And many more...

---

### **2. Introduction to the BeautifulSoup Library**

---

Beautiful Soup is a Python library for web scraping purposes. It creates parse trees from page source code that can be used to extract data easily.

**Installation**:
```python
!pip install beautifulsoup4
```

---

### **3. Extracting Data from Websites**

---

To begin with, let's extract the title of a webpage.

**Example**:

```python
import requests
from bs4 import BeautifulSoup

URL = 'https://www.example.com'
page = requests.get(URL)
soup = BeautifulSoup(page.content, 'html.parser')

# Extracting the title of the webpage
title = soup.title.string
print(title)
```

---

### **4. Handling Different HTML Elements**

---

#### **a. Extracting Paragraphs**

```python
# Extracting all paragraphs from the page
paragraphs = soup.find_all('p')
for p in paragraphs:
    print(p.text)
```

#### **b. Extracting Links**

```python
# Extracting all links from the page
links = soup.find_all('a')
for link in links:
    print(link.get('href'))
```

#### **c. Extracting with Class and ID**

HTML elements can also have attributes like classes and IDs. BeautifulSoup can filter elements based on these attributes.

```python
# Extracting elements with a specific class
specific_class_elements = soup.find_all(class_='specific-class')

# Extracting elements with a specific ID
specific_id_elements = soup.find_all(id='specific-id')
```

#### **d. Navigating the Tree Structure**

BeautifulSoup allows you to navigate the parse tree. This means you can access child elements, siblings, and even parent elements.

```python
# Accessing the first child of an element
first_child = soup.p.contents[0]

# Accessing the parent of an element
parent_element = soup.p.parent
```

In [1]:
!pip install beautifulsoup4



In [24]:
import requests
from bs4 import BeautifulSoup

URL = 'https://n.news.naver.com/article/028/0002659177?cds=news_media_pc&type=editn'
page = requests.get(URL)
print(page)
print(type(page))
print(dir(page))
# print(page.content) # html 전체, 줄글로 나와 모양은 이쁘지 않음

soup = BeautifulSoup(page.content, 'html.parser') # parser는 html에서 묶여있는 것들을 해체하는 코드
# print(soup) # 그래서 soup를 print하면 모양이 이쁘게 나옴
print(type(soup))
print(dir(soup))


# Extracting the title of the webpage
title = soup.title.string
print(title)

# 처음에 내 컴퓨터에서 코드를 전송할 때 = 내 컴퓨터 -> (공유기) -> isp -> 구글
# 구글이 .get를 만났을 때 = 구글 -> isp -> 네이버
# 네이버가 페이지에 200코드를 붙여 다시 구글에 전송 = 네이버 -> isp -> 구글
# 구글이 내 컴퓨터에 글자(?) 전송 = 구글 -> isp -> 내 컴퓨터

<Response [200]>
<class 'requests.models.Response'>
['__attrs__', '__bool__', '__class__', '__delattr__', '__dict__', '__dir__', '__doc__', '__enter__', '__eq__', '__exit__', '__format__', '__ge__', '__getattribute__', '__getstate__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__lt__', '__module__', '__ne__', '__new__', '__nonzero__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__setstate__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', '_content', '_content_consumed', '_next', 'apparent_encoding', 'close', 'connection', 'content', 'cookies', 'elapsed', 'encoding', 'headers', 'history', 'is_permanent_redirect', 'is_redirect', 'iter_content', 'iter_lines', 'json', 'links', 'next', 'ok', 'raise_for_status', 'raw', 'reason', 'request', 'status_code', 'text', 'url']
<class 'bs4.element.Tag'>
여자하키, ‘슛아웃’ 접전 끝 일본 꺾어…7일 중국과 결승


In [None]:
# HTTP Error

# 2xx는 성공
# 3xx는 대체제를 받음(뉴스 기사 링크를 복사해두고 20년 뒤에 링크에 들어가보면 기사가 없을 확률이 매우 높음, 이럴때 네이버가 뉴스 메인 홈페이지 등으로 연결해줄 경우 3xx에러)
# 4xx는 내 잘못으로 실패(없는 곳에 접속 시도, 404 page not found)
# 5xx는 네이버 서버의 문제가 있음

In [28]:
# Extracting all paragraphs from the page
# p로 태그된 것(<p로 시작하는 부분)을 전부 찾음

paragraphs = soup.find_all('p')
for p in paragraphs:
    print(p.text) # .text로 글씨만


언론사를 구독하면 메인에서 바로 볼 수 있어요!


한겨레 언론사 구독 해지되었습니다.


언론사가 주요기사 및 심층기획으로선정한 기사입니다.
언론사별 바로가기
닫기

이동 통신망을 이용하여 음성을 재생하면 별도의 데이터 통화료가 부과될 수 있습니다.

남지현 기자 southjh@hani.co.kr

Copyright ⓒ 한겨레. All rights reserved. 무단 전재 및 재배포 금지.
기사의 섹션 정보는 해당 언론사의 분류를 따르고 있습니다. 언론사는 개별 기사를 2개 이상 섹션으로 중복 분류할 수 있습니다.
구독
메인에서 바로 보는 언론사 편집 뉴스 지금 바로 구독해보세요!
구독중
메인에서 바로 보는 언론사 편집 뉴스 지금 바로 확인해보세요!
기사 추천은 24시간 내 50회까지 참여할 수 있습니다.

모두에게 보여주고 싶은 기사라면?beta

이 기사를 추천합니다 버튼을 눌러주세요.  집계 기간 동안 추천을 많이 받은 기사는 네이버 자동 기사배열 영역에 추천 요소로 활용됩니다.

레이어 닫기

에세이, 소설, 웹툰, 일러스트 등 글과 그림과 관련된 무엇이든!

한겨레가 이 기사의 댓글 정책을 결정합니다.
					
안내
댓글 정책 언론사별 선택제
섹션별로 기사의 댓글 제공여부와 정렬방식을 언론사가 직접 결정합니다. 기사 섹션 정보가정치를 포함해 중복 분류된 경우 정치섹션 정책이 적용됩니다. 단, 운영규정에 따른삭제나 이용제한 조치는 네이버가 직접수행합니다.
레이어 닫기



군검찰, 항명 혐의 등 해병대 전 수사단장 불구속 기소
막내 임시현 ‘괴력의 10점’…한국 여자 양궁 AG 7연패
[영상] “김행 줄행랑에 ‘김행랑’ 됐다”…청문회 이틀째 파행
서울경찰청, 다음 ‘클릭 응원’ 내사 착수
부결 이균용… 대통령 ‘친구의 친구’, 땅 투기·아빠 찬스 의혹 속 퇴장
드디어 방망이 깨어난 한국, 중국 8-1 완파…내일 대만과 결승
뉴스 추천 알고리즘이 궁금하다면?
이균용 임명동의안 부결…35년 만에 대법원장 낙마
[영상] “김행 줄행랑에 ‘김행랑’ 됐

In [32]:
# Extracting all links from the page
links = soup.find_all('a')
for link in links:
    # print(link)
    print(link.get('href'))

# #이 뜬것은 실패한 쓰레기임

#ct
#
https://www.naver.com
https://news.naver.com
https://media.naver.com/press/028
#
https://media.naver.com/press/028
https://media.naver.com/press/028/shortform
https://media.naver.com/press/028?sid=100#lnb
https://media.naver.com/press/028?sid=101#lnb
https://media.naver.com/press/028?sid=102#lnb
https://media.naver.com/press/028?sid=103#lnb
https://media.naver.com/press/028?sid=104#lnb
https://media.naver.com/press/028?sid=105#lnb
https://media.naver.com/press/028?sid=110#lnb
https://media.naver.com/press/028/newspaper
https://media.naver.com/press/028/live
https://media.naver.com/press/028/ranking
http://www.hani.co.kr/
#
https://www.hani.co.kr/arti/sports/sportstemp/1111047.html
https://media.naver.com/journalist/028/78151
https://media.naver.com/journalist/028/78151
None
#
#
#
#
#
/article/comment/028/0002659177
javascript:;
https://help.naver.com/alias/news/news_022.naver
javascript:;
#
#
#
#
#
#
#
#
#
#
#
#
#
https://media.naver.com/journalist/028/78151
https://media.naver.c

In [36]:
# Extracting elements with a specific class
specific_class_elements = soup.find_all(class_='specific-class') # '' 안에 있는 부분을 단축키f 처럼 찾는 기능
print(specific_class_elements)

# Extracting elements with a specific ID
specific_id_elements = soup.find_all(id='_CHANNEL_MAIN_PROMOTION') # '' 안에 있는 부분을 단축키f 처럼 찾는 기능
print(specific_id_elements)

[]
[<p class="ofhd_float_subscribe_tooltip" id="_CHANNEL_MAIN_PROMOTION" style="display:none;">
<span class="ofhd_float_subscribe_tooltip_text"><strong>언론사를 구독하면 메인</strong>에서 바로 볼 수 있어요!</span>
</p>]


In [47]:
# Accessing the first child of an element
first_child = soup.p.contents[0]
print(first_child)

# Accessing the parent of an element
parent_element = soup.p.parent # 그 부분을 감싸고 있는 엄마를 뽑음
print(parent_element)

# 동일 구조는 sister(?)
sister_element = soup.p.sister
print(sister_element)



<div class="ofhd_float_subscribe _CHANNEL_BUTTON_WRAP" style="display:none;">
<button class="_channel_add ofhd_float_subscribe_btn _CHANNEL_BUTTON _CHANNEL_ADD" data-clk-add="chmain028" data-clk-remove="chdelete028" data-delay="1000" data-notification="true" data-notification-clk="notru" data-text="구독" type="button">구독</button>
<p class="ofhd_float_subscribe_tooltip" id="_CHANNEL_MAIN_PROMOTION" style="display:none;">
<span class="ofhd_float_subscribe_tooltip_text"><strong>언론사를 구독하면 메인</strong>에서 바로 볼 수 있어요!</span>
</p>
<a class="ofhd_float_subscribe_layer _add _LINK" data-url-type="NAVERAPP_NEWS_CHANNEL" href="#" id="_CHANNEL_LAYER_028_0002659177" style="display: none;">
<span class="ofhd_float_subscribe_layer_text">메인 뉴스판에서 한겨레 주요뉴스를 <br/> 볼 수 있습니다.</span>
<span class="ofhd_float_subscribe_layer_link">보러가기</span>
</a>
<p class="ofhd_float_subscribe_layer _remove" id="_CHANNEL_REMOVE_LAYER_028_0002659177" style="display: none;">
<span class="ofhd_float_subscribe_layer_text"><strong>