In [None]:
from bs4 import BeautifulSoup
# import lxml

with open('web/website.html', encoding='utf-8') as file: # Windows 시스템에서는 open() 함수가 파일을 읽을 때 cp1252 인코딩을 사용하므로 utf-8로 인코딩을 지정해야 함
    contents = file.read()

soup = BeautifulSoup(contents, 'html.parser')
print(soup.title.string) 
print(soup.prettify()) # 들여쓰기를 사용하여 HTML 코드를 보기 좋게 출력

print(soup.a) # content의 첫 번째 <a> 태그만 출력

In [2]:
all_anchor_tag = soup.find_all(name='a') # 모든 <a> 태그를 리스트로 반환
print(all_anchor_tag)

[<a href="https://www.appbrewery.co/">The App Brewery</a>, <a href="https://angelabauer.github.io/cv/hobbies.html">My Hobbies</a>, <a href="https://angelabauer.github.io/cv/contact-me.html">Contact Me</a>]


In [3]:
for tag in all_anchor_tag:
    print(tag.getText()) # <a> 태그의 내용을 출력

The App Brewery
My Hobbies
Contact Me


In [4]:
for tag in all_anchor_tag:
    print(tag.get('href')) # <a> 태그의 href 속성을 출력

https://www.appbrewery.co/
https://angelabauer.github.io/cv/hobbies.html
https://angelabauer.github.io/cv/contact-me.html


In [6]:
heading = soup.find(name='h1', id='name') # id 속성이 'name'인 <h1> 태그를 찾음
print(heading)

<h1 id="name">Angela Yu</h1>


In [7]:
section_heading = soup.find(name='h3', class_='heading') # class 속성이 'heading'인 <h3> 태그를 찾음 / class는 예약어 이므로 class_로 사용
print(section_heading)
# text만 가져오려면 print(section_heading.getText())

<h3 class="heading">Books and Teaching</h3>


In [8]:
company_url = soup.select_one(selector='p a') # selector: <p> 태그 아래에 있는 <a> 태그를 찾음 / 하나의 태그만 찾을 때 사용
print(company_url)

<a href="https://www.appbrewery.co/">The App Brewery</a>


In [9]:
name = soup.select_one(selector='#name') # #, CSS 선택자를 사용하여 <p> 태그 아래에 있는 <a> 태그를 찾음 / 하나의 태그만 찾을 때 사용
print(name) # selector는 생략 가능

<h1 id="name">Angela Yu</h1>


In [10]:
heading = soup.select('.heading') # class 속성이 'heading'인 모든 <h3> 태그를 찾음 / 여러 태그를 찾을 때 사용
print(heading)

[<h3 class="heading">Books and Teaching</h3>, <h3 class="heading">Other Pages</h3>]


# find 메서드: html 문서에서 첫번째로 발견된 특정 태그를 찾는다. 
# select_one : css 선택자를 사용하여 html 문서에서 첫 번째로 발견된 요소를 찾는다

# select 메서더: css 선택자를 사용하여 html 문서에서 모든 일치하는 요소를 찾는다. 

In [None]:
'HTML 데이터 파싱'

from bs4 import BeautifulSoup
import requests

# 웹 페이지의 HTML 데이터를 가져옵니다.
response = requests.get('https://example.com')  # 원하는 웹 페이지 URL
html_data = response.text

# BeautifulSoup을 사용하여 HTML을 파싱합니다.
soup = BeautifulSoup(html_data, 'html.parser')

# HTML의 첫 1000자를 출력해봅니다.
print(soup.prettify()[:1000])

In [None]:

'페이지의 모든 <a> 태그(링크)를 찾습니다'

all_links = soup.find_all('a')
for link in all_links:
    print(link.get('href'))  # 링크의 href 속성 출력

In [None]:
# 특정 클래스가 포함된 <div> 태그를 찾습니다.

specific_divs = soup.find_all('div', class_='example-class')
for div in specific_divs:
    print(div.text)  # div의 텍스트 내용 출력

In [None]:
'특정 ID가 적용된 요소를 찾습니다'

specific_element = soup.find(id='example-id')
print(specific_element.text)  # 해당 요소의 텍스트 내용 출력

In [None]:
'모든 <a> 태그의 링크를 추출합니다'

links = soup.find_all('a')
for link in links:
    href = link.get('href')
    if href:  # 링크가 존재하는지 확인
        print(href)

In [None]:
# 특정 텍스트를 포함하는 태그를 찾습니다.

specific_text = soup.find_all(string='Example Domain')
for text in specific_text:
    print(text)

In [None]:
"<img> 태그의 모든 'src' 속성 값을 추출합니다"

images = soup.find_all('img')
for img in images:
    print(img.get('src'))

In [None]:
# 특정 태그의 자식 요소를 탐색합니다.

parent_div = soup.find('div', class_='parent-class')
children = parent_div.find_all('span')
for child in children:
    print(child.text)

In [None]:
# CSS 선택자를 사용하여 요소를 찾습니다.

elements = soup.select('div.example-class > a')
for element in elements:
    print(element.get('href'))

In [None]:
# 링크 데이터를 파일로 저장합니다.

with open('links.txt', 'w') as f:
    for link in links:
        href = link.get('href')
        if href:
            f.write(href + '\n')

In [None]:
import requests

# 이미지 다운로드 예시
for img in images:
    img_url = img.get('src')
    if img_url:
        img_data = requests.get(img_url).content
        with open('image_name.jpg', 'wb') as handler:
            handler.write(img_data)

In [None]:
# 모든 미디어 파일 추출

media_urls = []

# 이미지
images = soup.find_all('img')
for img in images:
    media_urls.append(img.get('src'))

# 오디오
audios = soup.find_all('audio')
for audio in audios:
    media_urls.append(audio.get('src'))

# 비디오
videos = soup.find_all('video')
for video in videos:
    media_urls.append(video.get('src'))

# Source 태그 (오디오와 비디오의 소스)
sources = soup.find_all('source')
for source in sources:
    media_urls.append(source.get('src'))

# 미디어 파일 URL 출력
for url in media_urls:
    print(url)

In [None]:
# 실제 웹 사이트 가져오기

In [None]:
from bs4 import BeautifulSoup
import requests

# 웹 페이지의 HTML 데이터를 가져옵니다.
response = requests.get('https://news.ycombinator.com/news')

# BeautifulSoup을 사용하여 HTML을 파싱합니다.
soup = BeautifulSoup(response.text, 'html.parser')

# 보기 좋게 HTML을 정리하여 출력합니다.
print(soup.prettify()) 

yc_web_page = response.text

soup = BeautifulSoup(yc_web_page, 'html.parser')
soup.title

articles = soup.find_all(name='a', class_='storylink')
print(articles)

In [4]:
# 1. 웹 페이지 가져오기
# 웹 페이지의 HTML 소스를 가져오기 위해 requests 라이브러리를 사용합니다.
import requests
from bs4 import BeautifulSoup

url = "https://finance.yahoo.com/"  # 야후 파이낸스 URL
response = requests.get(url)
html_content = response.text

In [5]:
# 2. BeautifulSoup 객체 생성
# HTML 소스를 파싱하여 BeautifulSoup 객체를 만듭니다.
soup = BeautifulSoup(html_content, 'html.parser')

In [6]:
# 3. 특정 텍스트 가져오기
# 화면에 가장 큰 글씨로 표시된 텍스트를 가져오기 위해 soup.find() 또는 soup.select_one()를 사용합니다. 
# 해당 텍스트는 특정 태그에 포함되어 있을 가능성이 높습니다. 여기서는 soup.find()로 접근해보겠습니다.
headline = soup.find('h2', string="S&P: Medicare Advantage is new villain for hospitals")
print(headline.get_text())

S&P: Medicare Advantage is new villain for hospitals


In [15]:
# 태그와 클래스 또는 ID 속성을 기반으로 접근
headline = soup.find('h2')  # 첫 번째 <h2> 태그를 찾음
print(headline.get_text())  # 텍스트를 출력

S&P: Medicare Advantage is new villain for hospitals


In [16]:
# 기사 제목을 먼저 찾습니다.
headline = soup.find('h2', string="S&P: Medicare Advantage is new villain for hospitals")

# 해당 제목의 부모 컨테이너(예: div 또는 article)를 찾습니다.
# 부모 컨테이너 안에 이미지 태그가 있을 가능성이 높습니다.
if headline:
    parent_container = headline.find_parent()  # 또는 find_parent('div') 등 특정 태그로 부모를 지정할 수 있음
    
    # 부모 컨테이너 안에서 이미지를 찾습니다.
    image = parent_container.find('img')
    
    if image:
        image_url = image['src']
        print(image_url)
    else:
        print("이미지를 찾을 수 없습니다.")
else:
    print("제목을 찾을 수 없습니다.")

이미지를 찾을 수 없습니다.


In [None]:
# 4. 이미지 가져오기
# 특정 이미지의 URL을 가져오기 위해 이미지가 포함된 태그를 찾아야 합니다. 
# 이미지 태그는 일반적으로 <img>이며, 이 태그의 src 속성을 사용하여 이미지를 가져옵니다.
image = soup.find('img', alt="Image description related to the green image")
image_url = image['src']
print(image_url)

TypeError: 'NoneType' object is not subscriptable # 이미지가 없을 때 발생

In [13]:
image = soup.find('img', alt="Image description related to the green image")
if image:
    image_url = image['src']
    print(image_url)
else:
    print("이미지를 찾을 수 없습니다.")

이미지를 찾을 수 없습니다.


In [14]:
image = soup.find('img')
if image:
    image_url = image.get('src', 'src 속성이 없습니다.')
    print(image_url)
else:
    print("이미지를 찾을 수 없습니다.")

이미지를 찾을 수 없습니다.


In [17]:
# 복사한 CSS 선택자로 이미지 태그를 찾기
image = soup.select_one('#Col1-0-ThreeAmigos-Proxy > div > div:nth-child(1) > div.Pos\(r\).dustyImage.W\(\$ntkLeadWidth\).Fl\(start\).article-cluster-boundary > a > div > img')

# 이미지가 존재하면 src 속성을 출력
if image:
    image_url = image['src']
    print(image_url)
else:
    print("이미지를 찾을 수 없습니다.")

이미지를 찾을 수 없습니다.


In [18]:
# 특정 클래스와 함께 img 태그를 찾습니다.
image = soup.find('img', alt="S&P: Medicare Advantage is new villain for hospitals")

if image:
    image_url = image['src']
    print(image_url)
else:
    print("이미지를 찾을 수 없습니다.")

이미지를 찾을 수 없습니다.


In [19]:
image_url = "https://s.yimg.com/uu/api/res/1.2/ytqLguc29AUWtIiL…4-08/f346d0b0-60bb-11ef-bffd-7cb8e497e511.cf.webp"
print(image_url)

https://s.yimg.com/uu/api/res/1.2/ytqLguc29AUWtIiL…4-08/f346d0b0-60bb-11ef-bffd-7cb8e497e511.cf.webp


In [None]:
import os
import requests
from bs4 import BeautifulSoup

# 1. 웹 페이지의 HTML 가져오기
url = "https://finance.yahoo.com/"  # 야후 파이낸스 메인 페이지
response = requests.get(url)
html_content = response.text

# 2. BeautifulSoup을 사용하여 HTML 파싱
soup = BeautifulSoup(html_content, 'html.parser')

# 3. 모든 img 태그를 찾기
images = soup.find_all('img')

# 4. 이미지 저장 경로 설정
save_dir = "downloaded_images"
if not os.path.exists(save_dir):
    os.makedirs(save_dir)

# 5. 각 이미지 다운로드
for idx, img in enumerate(images):
    img_url = img.get('src')
    
    # img_url이 None이 아닌지 확인
    if img_url:
        # 확장자를 확인해서 없을 경우 기본값 추가 (jpg)
        if not img_url.endswith(('.jpg', '.jpeg', '.png', '.gif', '.webp')):
            img_url += ".jpg"

        # 이미지 다운로드
        try:
            img_response = requests.get(img_url)
            if img_response.status_code == 200:
                img_data = img_response.content
                img_filename = os.path.join(save_dir, f'image_{idx + 1}.jpg')
                with open(img_filename, 'wb') as f:
                    f.write(img_data)
                print(f"Downloaded: {img_filename}")
            else:
                print(f"Failed to download: {img_url}")
        except Exception as e:
            print(f"Error downloading {img_url}: {e}")
    else:
        print("No src found for an image tag")


In [None]:
# src 대신 data-src' 또는 'srcset 를 찾는다. ### 이미지 다운로드
import os
import requests
from bs4 import BeautifulSoup

# 1. 웹 페이지의 HTML 가져오기
url = "https://edition.cnn.com/travel/caledonian-sleeper-london-scotland-night-train/index.html"
response = requests.get(url)
html_content = response.text

# 2. BeautifulSoup을 사용하여 HTML 파싱
soup = BeautifulSoup(html_content, 'html.parser')

# 3. 모든 img 태그를 찾기
images = soup.find_all('img')

# 4. 이미지 저장 경로 설정
save_dir = "downloaded_images"
if not os.path.exists(save_dir):
    os.makedirs(save_dir)

# 5. 각 이미지 다운로드
for idx, img in enumerate(images):
    # 'src' 대신 'data-src' 또는 'srcset'이 있는지 확인
    img_url = img.get('data-src') or img.get('srcset') or img.get('src')
    
    if img_url:
        # srcset의 경우 여러 해상도의 이미지가 콤마로 구분되어 있을 수 있음
        if ',' in img_url:
            img_url = img_url.split(',')[-1].strip().split(' ')[0]

        # 이미지 확장자를 추출
        img_ext = os.path.splitext(img_url)[1]  # URL에서 확장자를 추출
        if not img_ext:
            img_ext = '.jpg'  # 확장자가 없으면 기본값으로 .jpg 사용

        # 이미지 다운로드
        try:
            img_response = requests.get(img_url)
            if img_response.status_code == 200:
                img_data = img_response.content
                img_filename = os.path.join(save_dir, f'image_{idx + 1}{img_ext}')
                with open(img_filename, 'wb') as f:
                    f.write(img_data)
                print(f"Downloaded: {img_filename}")
            else:
                print(f"Failed to download: {img_url}")
        except Exception as e:
            print(f"Error downloading {img_url}: {e}")
    else:
        print("No src found for an image tag")

In [41]:
import os
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin

# 1. 웹 페이지의 HTML 가져오기
url = "https://edition.cnn.com/travel/caledonian-sleeper-london-scotland-night-train/index.html"
response = requests.get(url)
html_content = response.text

# 2. BeautifulSoup을 사용하여 HTML 파싱
soup = BeautifulSoup(html_content, 'html.parser')

# 3. 이미지와 동영상 태그를 찾기
images = soup.find_all('img')
videos = soup.find_all('video')

# 4. 이미지 및 동영상 저장 경로 설정
save_dir = "downloaded_media"
if not os.path.exists(save_dir):
    os.makedirs(save_dir)

# 5. 이미지 다운로드
for idx, img in enumerate(images):
    # 'src' 대신 'data-src' 또는 'srcset'이 있는지 확인
    img_url = img.get('data-src') or img.get('srcset') or img.get('src')
    
    if img_url:
        # srcset의 경우 여러 해상도의 이미지가 콤마로 구분되어 있을 수 있음
        if ',' in img_url:
            img_url = img_url.split(',')[-1].strip().split(' ')[0]

        # URL이 이미지 파일을 가리키는지 확인
        if not img_url.lower().endswith(('.jpg', '.jpeg', '.png', '.gif', '.webp')):
            print(f"Skipped invalid URL: {img_url}")
            continue

        # URL이 상대 경로인 경우 절대 경로로 변환
        img_url = urljoin(url, img_url)

        # 이미지 확장자를 추출
        img_ext = os.path.splitext(img_url)[1]  # URL에서 확장자를 추출
        if not img_ext:
            img_ext = '.jpg'  # 확장자가 없으면 기본값으로 .jpg 사용

        # 이미지 다운로드
        try:
            img_response = requests.get(img_url)
            if img_response.status_code == 200:
                img_data = img_response.content
                img_filename = os.path.join(save_dir, f'image_{idx + 1}{img_ext}')
                with open(img_filename, 'wb') as f:
                    f.write(img_data)
                print(f"Downloaded: {img_filename}")
            else:
                print(f"Failed to download: {img_url}")
        except Exception as e:
            print(f"Error downloading {img_url}: {e}")
    else:
        print("No src found for an image tag")


Skipped invalid URL: h_100
Skipped invalid URL: c_fill
Skipped invalid URL: c_fill
Skipped invalid URL: c_fill
Skipped invalid URL: c_fill
Skipped invalid URL: c_fill
Skipped invalid URL: c_fill
Skipped invalid URL: c_fill
Skipped invalid URL: c_fill
Skipped invalid URL: c_fill
Skipped invalid URL: c_fill
Skipped invalid URL: c_fill
Skipped invalid URL: c_fill


In [23]:
# 기사 제목을 먼저 찾습니다.
headline = soup.find('h2', string="S&P: Medicare Advantage is new villain for hospitals")

# 해당 제목의 부모 컨테이너(예: div 또는 article)를 찾습니다.
if headline:
    parent_container = headline.find_parent()  # 부모 태그 찾기
    
    # 부모 컨테이너 안에서 이미지를 찾습니다.
    image = parent_container.find('img')
    
    if image:
        # 'src', 'data-src', 'srcset' 속성 순으로 확인하여 이미지 URL을 얻습니다.
        image_url = image.get('data-src') or image.get('srcset') or image.get('src')
        
        # srcset 속성이 있는 경우, 가장 큰 해상도의 이미지 URL을 추출
        if 'srcset' in image.attrs:
            image_url = image['srcset'].split(',')[-1].strip().split(' ')[0]

        print(image_url)
    else:
        print("이미지를 찾을 수 없습니다.")
else:
    print("제목을 찾을 수 없습니다.")

이미지를 찾을 수 없습니다.


In [24]:
import requests
from bs4 import BeautifulSoup

# 웹 페이지의 HTML 가져오기
url = "https://finance.yahoo.com/"
response = requests.get(url)
html_content = response.text

# BeautifulSoup을 사용하여 HTML 파싱
soup = BeautifulSoup(html_content, 'html.parser')

# 클래스 이름을 사용하여 이미지 태그 찾기
image = soup.find('img', class_='tw-bg-opacity-25 tw-rounded-md tw-w-full tw-aspect-[1.77] yf-13q9uv1')

if image:
    # 'src', 'data-src', 'srcset' 속성 순으로 확인하여 이미지 URL을 얻습니다.
    image_url = image.get('data-src') or image.get('srcset') or image.get('src')
    
    # srcset 속성이 있는 경우, 가장 큰 해상도의 이미지 URL을 추출
    if 'srcset' in image.attrs:
        image_url = image['srcset'].split(',')[-1].strip().split(' ')[0]

    print(image_url)
else:
    print("이미지를 찾을 수 없습니다.")


https://s.yimg.com/uu/api/res/1.2/eMtesAlmzqE3evW6yvJZkw--~B/Zmk9c3RyaW07aD03Mzg7cT04MDt3PTEzMTI7YXBwaWQ9eXRhY2h5b24-/https://s.yimg.com/os/creatr-uploaded-images/2024-08/f346d0b0-60bb-11ef-bffd-7cb8e497e511.cf.webp


In [26]:
import requests
from bs4 import BeautifulSoup

# 웹 페이지의 HTML 가져오기
url = "https://finance.yahoo.com/"
response = requests.get(url)
html_content = response.text

# BeautifulSoup을 사용하여 HTML 파싱
soup = BeautifulSoup(html_content, 'html.parser')

# 1. 제목을 기준으로 관련 부모 요소 찾기
headline = soup.find('h2', string="S&P: Medicare Advantage is new villain for hospitals")

if headline:
    # 2. 부모 요소를 더 넓게 탐색
    parent_container = headline.find_parent('div')  # 부모를 특정 'div'로 찾기
    
    if not parent_container:  # div가 없으면 더 상위 요소로 확장
        parent_container = headline.find_parent()
    
    # 3. 부모 컨테이너 안에서 이미지 태그 찾기 (다양한 방법으로 시도)
    image = None
    if parent_container:
        image = parent_container.find('img')
    
    if not image:  # 형제 요소 탐색
        image = headline.find_next_sibling('img')
    
    if not image:  # 자식 요소에서 이미지 탐색
        image = headline.find('img')
    
    if image:
        # 4. 이미지 태그의 클래스 속성 추출
        image_classes = image.get('class')
        if image_classes:
            image_classes_str = ' '.join(image_classes)  # 클래스 목록을 문자열로 결합
            print(f"이미지 태그의 클래스: {image_classes_str}")
        else:
            print("이미지 태그에 클래스가 없습니다.")
        
        # 5. 이미지 URL 추출 및 출력
        image_url = image.get('data-src') or image.get('srcset') or image.get('src')
        if 'srcset' in image.attrs:
            image_url = image['srcset'].split(',')[-1].strip().split(' ')[0]
        print(f"이미지 URL: {image_url}")
    else:
        print("이미지를 찾을 수 없습니다.")
else:
    print("제목을 찾을 수 없습니다.")


이미지를 찾을 수 없습니다.


In [28]:
import requests
from bs4 import BeautifulSoup

url = "https://finance.yahoo.com/"  # 야후 파이낸스 URL
response = requests.get(url)
html_content = response.text

soup = BeautifulSoup(html_content, 'html.parser')
# 전체 HTML을 텍스트 파일로 저장
with open('page_structure.html', 'w', encoding='utf-8') as file:
    file.write(soup.prettify())

In [29]:
from bs4 import BeautifulSoup

# 예시 HTML
html_content = """
<div>
    <img src="image.jpg" alt="example image">
    <h2>S&P: Medicare Advantage is new villain for hospitals</h2>
    <p>Some article content...</p>
</div>
"""

# BeautifulSoup을 사용하여 HTML 파싱
soup = BeautifulSoup(html_content, 'html.parser')

# 1. 제목을 찾습니다
headline = soup.find('h2', string="S&P: Medicare Advantage is new villain for hospitals")

if headline:
    # 2. 제목의 이전 요소(이미지 또는 미디어)를 확인합니다
    previous_sibling = headline.find_previous_sibling()
    
    # 3. 이전 요소가 이미지 또는 미디어인지 확인
    if previous_sibling and (previous_sibling.name == 'img' or 'media' in previous_sibling.get('class', [])):
        print("이미지 또는 미디어가 제목 위에 있습니다.")
    else:
        # 4. 이미지나 미디어가 없으면, 해당 요소를 제거합니다
        if previous_sibling:
            previous_sibling.decompose()
            print("이미지나 미디어가 없어서 제거했습니다.")
else:
    print("제목을 찾을 수 없습니다.")

# 결과 HTML 출력
print(soup.prettify())


이미지 또는 미디어가 제목 위에 있습니다.
<div>
 <img alt="example image" src="image.jpg"/>
 <h2>
  S&amp;P: Medicare Advantage is new villain for hospitals
 </h2>
 <p>
  Some article content...
 </p>
</div>



In [32]:
# 붎필요한 기사 콘텐츠와 특정 클래스 요소가 제거된 HTML 파일을 저장합니다.
from bs4 import BeautifulSoup

# 저장된 HTML 파일 읽어오기
with open('page_structure.html', 'r', encoding='utf-8') as file:
    html_content = file.read()

# BeautifulSoup을 사용하여 HTML 파싱
soup = BeautifulSoup(html_content, 'html.parser')

# 1. 불필요한 기사 콘텐츠 삭제 (예: 특정 키워드 포함하는 <p> 또는 <div> 태그)
keywords_to_remove = ["Yahoo Finance", "Breaking News", "Sponsored", "Advertisement"]

# <p> 태그 내에서 특정 키워드가 포함된 요소 삭제
for keyword in keywords_to_remove:
    paragraphs = soup.find_all('p', string=lambda text: text and keyword in text)
    for paragraph in paragraphs:
        paragraph.decompose()

# <div> 태그 내에서 특정 키워드가 포함된 요소 삭제
for keyword in keywords_to_remove:
    divs = soup.find_all('div', string=lambda text: text and keyword in text)
    for div in divs:
        div.decompose()

# 2. 특정 클래스 또는 ID를 가진 요소 삭제 (예: 광고나 비관련 요소)
classes_to_remove = ["ad", "sponsored-content", "related-articles"]
for class_name in classes_to_remove:
    elements = soup.find_all(class_=class_name)
    for element in elements:
        element.decompose()

# 3. 결과를 새 파일로 저장
with open('cleaned_page_structure.html', 'w', encoding='utf-8') as file:
    file.write(soup.prettify())

print("불필요한 기사 콘텐츠와 특정 클래스 요소가 제거된 HTML이 'cleaned_page_structure.html' 파일에 저장되었습니다.")

불필요한 기사 콘텐츠와 특정 클래스 요소가 제거된 HTML이 'cleaned_page_structure.html' 파일에 저장되었습니다.


In [33]:
from bs4 import BeautifulSoup

# 저장된 HTML 파일 읽어오기
with open('page_structure.html', 'r', encoding='utf-8') as file:
    html_content = file.read()

# BeautifulSoup을 사용하여 HTML 파싱
soup = BeautifulSoup(html_content, 'html.parser')

# 1. JSON 데이터를 포함하는 <script> 태그 삭제
scripts = soup.find_all('script', type='application/json')
for script in scripts:
    script.decompose()

# 2. <script> 태그 내에 있는 JSON 형식의 텍스트 삭제 (일반적인 script 태그)
# 이 경우 JSON 데이터가 일반적인 <script> 태그 내에 포함되어 있을 수 있으므로 추가로 처리
generic_scripts = soup.find_all('script')
for script in generic_scripts:
    # 스크립트의 내용이 JSON처럼 보이면 삭제
    if script.string and script.string.strip().startswith('{') and script.string.strip().endswith('}'):
        script.decompose()

# 결과를 새 파일로 저장
with open('cleaned_page_structure_no_json.html', 'w', encoding='utf-8') as file:
    file.write(soup.prettify())

print("JSON 데이터가 제거된 HTML이 'cleaned_page_structure_no_json.html' 파일에 저장되었습니다.")


JSON 데이터가 제거된 HTML이 'cleaned_page_structure_no_json.html' 파일에 저장되었습니다.


In [37]:
import os
import requests
from bs4 import BeautifulSoup

# 1. 웹 페이지의 HTML 가져오기
url = "https://x.com/m1stra3/status/1780149198236905789"
response = requests.get(url)
html_content = response.text

# 2. BeautifulSoup을 사용하여 HTML 파싱
soup = BeautifulSoup(html_content, 'html.parser')

# 3. 이미지와 동영상 태그를 찾기
images = soup.find_all('img')
videos = soup.find_all('video')

# 4. 이미지 및 동영상 저장 경로 설정
save_dir = "downloaded_media"
if not os.path.exists(save_dir):
    os.makedirs(save_dir)

# 5. 이미지 다운로드
for idx, img in enumerate(images):
    # 'src' 대신 'data-src' 또는 'srcset'이 있는지 확인
    img_url = img.get('data-src') or img.get('srcset') or img.get('src')
    
    if img_url:
        # srcset의 경우 여러 해상도의 이미지가 콤마로 구분되어 있을 수 있음
        if ',' in img_url:
            img_url = img_url.split(',')[-1].strip().split(' ')[0]

        # 이미지 확장자를 추출
        img_ext = os.path.splitext(img_url)[1]  # URL에서 확장자를 추출
        if not img_ext:
            img_ext = '.jpg'  # 확장자가 없으면 기본값으로 .jpg 사용

        # 이미지 다운로드
        try:
            img_response = requests.get(img_url)
            if img_response.status_code == 200:
                img_data = img_response.content
                img_filename = os.path.join(save_dir, f'image_{idx + 1}{img_ext}')
                with open(img_filename, 'wb') as f:
                    f.write(img_data)
                print(f"Downloaded: {img_filename}")
            else:
                print(f"Failed to download: {img_url}")
        except Exception as e:
            print(f"Error downloading {img_url}: {e}")
    else:
        print("No src found for an image tag")

# 6. 동영상 다운로드
for idx, video in enumerate(videos):
    video_sources = video.find_all('source')
    
    for source in video_sources:
        video_url = source.get('src') or source.get('data-src')
        
        if video_url:
            # 동영상 확장자를 추출
            video_ext = os.path.splitext(video_url)[1]
            if not video_ext:
                video_ext = '.mp4'  # 확장자가 없으면 기본값으로 .mp4 사용

            # 동영상 다운로드
            try:
                video_response = requests.get(video_url)
                if video_response.status_code == 200:
                    video_data = video_response.content
                    video_filename = os.path.join(save_dir, f'video_{idx + 1}{video_ext}')
                    with open(video_filename, 'wb') as f:
                        f.write(video_data)
                    print(f"Downloaded: {video_filename}")
                else:
                    print(f"Failed to download: {video_url}")
            except Exception as e:
                print(f"Error downloading {video_url}: {e}")
        else:
            print("No src found for a video source")


In [38]:
from bs4 import BeautifulSoup
import requests

# 웹 페이지 가져오기
response = requests.get('https://news.ycombinator.com/news')

# HTML 파싱
soup = BeautifulSoup(response.text, 'html.parser')

# 1. HTML 전체를 prettify()로 보기 좋게 출력
pretty_html = soup.prettify()
print(pretty_html[:1000])  # 처음 1000자만 출력

# 2. HTML의 일부만 출력 (예: 페이지의 제목만 출력)
print("\n페이지 제목:")
print(soup.title.string)

# 3. 특정 요소만 추출해서 보기 좋게 출력 (예: 기사 목록)
print("\n기사 목록:")
articles = soup.find_all('a', class_='storylink')
for idx, article in enumerate(articles[:5], start=1):  # 처음 5개의 기사만 출력
    print(f"{idx}. {article.text}")


<!DOCTYPE html>
<html data-layout-uri="cms.cnn.com/_layouts/layout-with-rail/instances/travel-article-v1@published" data-uri="cms.cnn.com/_pages/cm03l58up0000fzqqatha5xhd@published" lang="en">
 <head>
  <style>
   :root{--web-large-type-body-2-400-font-family:cnn_sans_display;--web-large-type-body-2-400-font-size:16px;--web-large-type-body-2-400-font-style:Regular;--web-large-type-body-2-400-line-height:28px;--web-large-type-body-2-400-letter-spacing:0px;--web-large-type-body-2-400-text-decoration:NONE;--web-large-type-body-2-400-font-weight:400;--web-large-type-other-timestamp-400-font-family:cnn_sans_display;--web-large-type-other-timestamp-400-font-size:14px;--web-large-type-other-timestamp-400-font-style:Regular;--web-large-type-other-timestamp-400-line-height:20px;--web-large-type-other-timestamp-400-letter-spacing:0%;--web-large-type-other-timestamp-400-text-decoration:NONE;--web-large-type-other-timestamp-400-font-weight:400;--style-type-primary-4-low:#6e6e6eff;--style-type-prim