## 선택자로 원하는 정보 찾기(find_all)

In [1]:
import re
import requests
from bs4 import BeautifulSoup

# 1페이지부터 10페이지까지 HTML 가져오기
for i in range(1, 10):
    html = requests.get(f'https://quotes.toscrape.com/page/{i}/', timeout=5).text
    soup = BeautifulSoup(html, "html.parser")
    
    # qutoe div 조회
    quotes = soup.find_all("div",class_="quote")
    tag_list = []

    # 인용구, 저자, tags 조회(태그 이름과 클래스 조합해 검색)
    for q in quotes:
        text = q.find("span", class_="text").get_text(strip=True)
        author = q.find("small", class_="author").string

        tags = q.find_all("a", class_="tag")
        for a in tags:
            tag_list.append(a.string)
        print(f"text: {text}")
        print(f"author: {author}")
        print(f"tags:{tag_list}")
    tag_list.clear()

text: “The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”
author: Albert Einstein
tags:['change', 'deep-thoughts', 'thinking', 'world']
text: “It is our choices, Harry, that show what we truly are, far more than our abilities.”
author: J.K. Rowling
tags:['change', 'deep-thoughts', 'thinking', 'world', 'abilities', 'choices']
text: “There are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.”
author: Albert Einstein
tags:['change', 'deep-thoughts', 'thinking', 'world', 'abilities', 'choices', 'inspirational', 'life', 'live', 'miracle', 'miracles']
text: “The person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.”
author: Jane Austen
tags:['change', 'deep-thoughts', 'thinking', 'world', 'abilities', 'choices', 'inspirational', 'life', 'live', 'miracle', 'miracles', 'aliteracy', 'books', 'classic', 'humor']
text: 

## 순수한 텍스트만 추출 및 저장

In [2]:
import re
import csv
import requests
from bs4 import BeautifulSoup
import unicodedata

# 1페이지부터 10페이지까지 HTML 가져오기
for i in range(1, 10):
    html = requests.get(f'https://quotes.toscrape.com/page/{i}/', timeout=5).text
    soup = BeautifulSoup(html, "html.parser")

    # 텍스트 + 메타데이터 추출(태그제거 -> 순수 텍스트)
    records = []
    for q in soup.select("div.quote"):
        quote = q.select_one("span.text").get_text(" ", strip=True) # 공백정리
        author = q.select_one("small.author").string.strip()
        records.append((quote, author))

# CSV로 저장
with open("quotes.csv", "w", newline="", encoding="utf-8-sig") as f:
    writer = csv.writer(f)
    writer.writerow(["quote", "author"])
    writer.writerows(records)

import pandas as pd
df = pd.read_csv("quotes.csv", encoding="utf-8-sig")
df

Unnamed: 0,quote,author
0,“Anyone who has never made a mistake has never...,Albert Einstein
1,“A lady's imagination is very rapid; it jumps ...,Jane Austen
2,"“Remember, if the time should come when you ha...",J.K. Rowling
3,“I declare after all there is no enjoyment lik...,Jane Austen
4,"“There are few people whom I really love, and ...",Jane Austen
5,“Some day you will be old enough to start read...,C.S. Lewis
6,“We are not necessarily doubting that God will...,C.S. Lewis
7,“The fear of death follows from the fear of li...,Mark Twain
8,“A lie can travel half way around the world wh...,Mark Twain
9,“I believe in Christianity as I believe that t...,C.S. Lewis


## Selenium

In [3]:
from selenium import webdriver
from selenium.webdriver.common.by import By
import time

# 브라우저 실행
driver = webdriver.Chrome()
# 특정 url로 이동
driver.get("https://www.naver.com/")
# 페이지 로딩을 위해 잠시 대기
time.sleep(3)
# 요소 찾기(query)
search_box = driver.find_element(By.ID, "query")
# 키보드로 글자 입력하기
search_box.send_keys("성산일출봉")
search_button = driver.find_element(By.CLASS_NAME, "btn_search")
search_button.click()

## API

In [4]:
import requests
import pandas as pd
import json

Servicekey = ""
base_url = "https://api.odcloud.kr/api"
url = "/15044350/v1/uddi:88825fbb-6d63-4209-9e51-c777cb236f8b"
params = {
    'serviceKey': Servicekey,
    'page':1, 
    'perPage': 202,
    'returnType': "json",
}
response = requests.get(base_url+url, params=params)
data = response.json()

df = data['data']
df = pd.DataFrame(df).set_index('용어')
df = df.drop('분류', axis=1)
display(df)

Unnamed: 0_level_0,구분,설명
용어,Unnamed: 1_level_1,Unnamed: 2_level_1
리스크(Risk),리스크,미래수익 또는 자산가치 변동의 불확실성(Uncertainty)으로 인하여 보유자산에...
불확실성,리스크,설사 손실이 발생한다 해도 발생될 것이 확실하고 크기(금액)도 확실히 알 수 있어서...
손실발생 가능성,리스크,미래의 불확실성에 따라 손실이 발생할 수 있는 경우로 이익이 발생할 수 있는 경우...
통제불가능성,리스크,자유롭게 통제할 수 없는 경우만 리스크로 인식
리스크(Risk) 관리,리스크,은행은 적절한 수준의 리스크를 부담함으로써 이익을 획득하는 기관으로 은행의 경영 ...
...,...,...
혼합형펀드,퇴직연금,주식형이나 채권형 이외의 펀드로 주식과 채권의 효율적 자산 배분을 통해 주식의 수익...
확정급여형 퇴직연금 (Defined Benefit Plan),퇴직연금,근로자가 받게 될 퇴직급여를 사전에 연금규약에 정해진 급여공식에 의해 산출하고 부담...
확정기여형 퇴직연금 (Defined Contribution Plan),퇴직연금,사용자의 부담금 수준이 미리 확정되어 있고 퇴직급여 수준이 개인계좌의 적립금 운용...
환매,퇴직연금,판매회사가 고객에게 매각한 수익증권을 고객의 요청에 따라 일정한 조건 (환매수수료 ...
