# **BeautifulSoup을 이용한 크롤링**

## **1. 네이버 주식으로 순위 가져오기**

1. 모듈 가져오기

In [None]:
import requests
from bs4 import BeautifulSoup

In [None]:
%whos

Variable        Type             Data/Info
------------------------------------------
BeautifulSoup   type             <class 'bs4.BeautifulSoup'>
requests        module           <module 'requests' from '<...>es/requests/__init__.py'>
res             Response         <Response [200]>
soup            BeautifulSoup    <!--  global include --><<...>/div>\n</body>\n</html>\n
url             str              https://finance.naver.com/sise/sise_quant.nhn


2. 가져올 URL 선택 & requests로 html 정보 가져오기

In [None]:
url = "https://finance.naver.com/sise/sise_quant.nhn"

res = requests.get(url)
res.raise_for_status()

soup = BeautifulSoup(res.text , "lxml") # xml을 파싱하기 위한 패키지

3. 주식 이름 가져오기

In [None]:
STOCK_NAME_LIST = []

for tr in soup.find_all('tr'): # find_all : 해당 모든 태그를 리스트 형태로 불러온다
    stockName = tr.find('a', class_='tltle') # find : 태그값을 기준으로 내용 불러오기, 최초 검색 결과만 출력
    if stockName is None or stockName == []:
        pass
    else:
        Name = stockName.text
        STOCK_NAME_LIST.append(Name)

STOCK_NAME_LIST

In [None]:
%whos

Variable          Type             Data/Info
--------------------------------------------
BeautifulSoup     type             <class 'bs4.BeautifulSoup'>
Name              str              한창제지
STOCK_NAME_LIST   list             n=100
requests          module           <module 'requests' from '<...>es/requests/__init__.py'>
res               Response         <Response [200]>
soup              BeautifulSoup    <!--  global include --><<...>/div>\n</body>\n</html>\n
stockName         NoneType         None
tr                Tag              <tr><td class="blank_09" colspan="12"></td></tr>
url               str              https://finance.naver.com/sise/sise_quant.nhn


4. 주식 가격 가져오기

In [None]:
STOCK_PRICE_LIST = []

for tr in soup.find_all('tr'):
    stockPrice = tr.find('td', class_= 'number')
    if stockPrice is None or stockPrice == []:
        pass
    else:
        Price = stockPrice.text
        Price = Price.replace(",","")
        STOCK_PRICE_LIST.append(Price)

STOCK_PRICE_LIST

5. 주식 이름과 가격을 리스트로 만들어 출력하기

In [None]:
STOCK_LIST = []

for i in range(len(STOCK_NAME_LIST)):
  stockInfo = "%d위: %s (%d)" %(i+1,STOCK_NAME_LIST[i],int(STOCK_PRICE_LIST[i]))
  STOCK_LIST.append(stockInfo)

STOCK_LIST

['1위: 대한전선 (3215)',
 '2위: KODEX 200선물인버스2X (1880)',
 '3위: 이아이디 (519)',
 '4위: 쌍방울 (896)',
 '5위: 진원생명과학 (42250)',
 '6위: 서울식품 (401)',
 '7위: 대유플러스 (1665)',
 '8위: 사조동아원 (1475)',
 '9위: KODEX 인버스 (3710)',
 '10위: 영화금속 (2390)',
 '11위: 대원전선 (2980)',
 '12위: KODEX 코스닥150선물인버스 (4405)',
 '13위: KODEX 레버리지 (28915)',
 '14위: 두산중공업 (26100)',
 '15위: 삼성전자 (80000)',
 '16위: 팬오션 (7520)',
 '17위: 두산인프라코어 (16450)',
 '18위: 대우건설 (8540)',
 '19위: 동양 (2020)',
 '20위: 신성통상 (3290)',
 '21위: 우리종금 (1040)',
 '22위: 일신석재 (2595)',
 '23위: 카카오 (169000)',
 '24위: DSR제강 (6980)',
 '25위: 대유에이텍 (1480)',
 '26위: KODEX 코스닥150 레버리지 (15260)',
 '27위: 동양철관 (1785)',
 '28위: 삼성중공업 (6580)',
 '29위: 한세엠케이 (7090)',
 '30위: 신성이엔지 (2955)',
 '31위: 케이비아이동국실업 (1265)',
 '32위: 광명전기 (3270)',
 '33위: KH 필룩스 (3495)',
 '34위: 보해양조 (1240)',
 '35위: 팜젠사이언스 (12750)',
 '36위: 삼성엔지니어링 (25950)',
 '37위: HMM (42750)',
 '38위: TYM (1995)',
 '39위: 대한항공 (31850)',
 '40위: 태평양물산 (2780)',
 '41위: 한온시스템 (16900)',
 '42위: 미래아이앤지 (671)',
 '43위: 한솔로지스틱스 (4695)',
 '44위: 한국전력 (24600)',
 

##**2. 인터넷 서점에서 순위 가져오기**


1. 모듈 가져오기

In [None]:
import requests
from bs4 import BeautifulSoup

2. 가져올 URL 선택 & requests로 html 정보 가져오기

In [None]:
#알라딘 도서 순위
url = "https://www.aladin.co.kr/shop/common/wbest.aspx?BranchType=1"

res = requests.get(url)
res.raise_for_status()

soup = BeautifulSoup(res.text , "lxml")

3. 책 정보 가져오기

In [None]:
BOOK_LIST = []

div = soup.find_all('div',class_= 'ss_book_box')

for a in div:
  book_list = a.find_all('a',class_='bo3')
  for book in book_list:
    bt = book.get_text()
    bt = bt.replace('\n','')
    BOOK_LIST.append(bt)

BOOK_LIST

['조국의 시간',
 '완전한 행복',
 '청사과 낙원 시즌 2 : 1~3 세트 - 전3권 (낱권 일러스트 엽서 3종 + 종이 인형 1종 + 렌티큘러 엽서 1종 + 별책 부록 + 박스 세트 포함)',
 '소크라테스 익스프레스',
 '요츠바랑! 15',
 '부의 시나리오',
 '친구의 전설',
 '지구인만큼 지구를 사랑할 순 없어',
 '해커스 토익 기출 보카 TOEIC VOCA 단어장',
 '최애의 아이 3',
 '미드나잇 라이브러리',
 '매매의 기술',
 '설민석의 한국사 대모험 17',
 '추미애의 깃발',
 '그러라 그래',
 '2021 큰별쌤 최태성의 별★별한국사 한국사능력검정시험 심화(1, 2, 3급) 상',
 '플롯 강화',
 'ETS 토익 정기시험 기출문제집 1000 Vol. 2 Reading (리딩)',
 '2021 큰별쌤 최태성의 별★별한국사 한국사능력검정시험 심화(1, 2, 3급) 하',
 '달러구트 꿈 백화점 (50만 부 기념 드림 에디션)',
 '새벽의 연화 34',
 'ETS 토익 정기시험 기출문제집 1000 Vol. 2 Listening (리스닝)',
 '2022 문동균 한국사 한 권으로 모든 것을 정리하는 판서노트',
 '고양이 해결사 깜냥 3',
 '죽음의 수용소에서',
 '세금 내는 아이들',
 '정신병의 나라에서 왔습니다',
 '헤르만 헤세의 나무들',
 '돈의 역사는 되풀이된다',
 '긴긴밤',
 '명탐정 코난 99',
 '우리말 어감 사전',
 '어떻게 말해줘야 할까',
 '인간교육을 위한 새로운 흐름',
 '강원국의 어른답게 말합니다',
 '설민석의 세계사 대모험 9',
 '해커스 토익 RC 리딩 READING',
 '2021 제12회 젊은작가상 수상작품집',
 '우리의 뇌는 어떻게 배우는가',
 '드래곤볼 슈퍼 15',
 '당신에게 시가 있다면 당신은 혼자가 아닙니다',
 '나의 히어로 아카데미아 30',
 '타인의 집',
 '열혈강호 83',
 '해커스 토익 LC 리스닝 LISTENING',
 '귀멸의 칼날 23',


4. 책 정보 리스트로 출력

In [None]:
RANK = []

for i in range(len(BOOK_LIST)):
  bookInfo = [i+1, BOOK_LIST[i]]
  RANK.append(bookInfo)

RANK

[[1, '조국의 시간'],
 [2, '완전한 행복'],
 [3,
  '청사과 낙원 시즌 2 : 1~3 세트 - 전3권 (낱권 일러스트 엽서 3종 + 종이 인형 1종 + 렌티큘러 엽서 1종 + 별책 부록 + 박스 세트 포함)'],
 [4, '소크라테스 익스프레스'],
 [5, '요츠바랑! 15'],
 [6, '부의 시나리오'],
 [7, '친구의 전설'],
 [8, '지구인만큼 지구를 사랑할 순 없어'],
 [9, '해커스 토익 기출 보카 TOEIC VOCA 단어장'],
 [10, '최애의 아이 3'],
 [11, '미드나잇 라이브러리'],
 [12, '매매의 기술'],
 [13, '설민석의 한국사 대모험 17'],
 [14, '추미애의 깃발'],
 [15, '그러라 그래'],
 [16, '2021 큰별쌤 최태성의 별★별한국사 한국사능력검정시험 심화(1, 2, 3급) 상'],
 [17, '플롯 강화'],
 [18, 'ETS 토익 정기시험 기출문제집 1000 Vol. 2 Reading (리딩)'],
 [19, '2021 큰별쌤 최태성의 별★별한국사 한국사능력검정시험 심화(1, 2, 3급) 하'],
 [20, '달러구트 꿈 백화점 (50만 부 기념 드림 에디션)'],
 [21, '새벽의 연화 34'],
 [22, 'ETS 토익 정기시험 기출문제집 1000 Vol. 2 Listening (리스닝)'],
 [23, '2022 문동균 한국사 한 권으로 모든 것을 정리하는 판서노트'],
 [24, '고양이 해결사 깜냥 3'],
 [25, '죽음의 수용소에서'],
 [26, '세금 내는 아이들'],
 [27, '정신병의 나라에서 왔습니다'],
 [28, '헤르만 헤세의 나무들'],
 [29, '돈의 역사는 되풀이된다'],
 [30, '긴긴밤'],
 [31, '명탐정 코난 99'],
 [32, '우리말 어감 사전'],
 [33, '어떻게 말해줘야 할까'],
 [34, '인간교육을 위한 새로운 흐름'],
 [35, '강원국의 어른답게 말합니다'],
 [36, '설민석의 세계사

##**3. 국가별 환율 가져오기**


1. 모듈 가져오기

In [None]:
import requests
from bs4 import BeautifulSoup
from pandas import DataFrame as df

2. 가져올 URL 선택 & requests로 html 정보 가져오기

In [None]:
url = "https://finance.naver.com/marketindex/exchangeDailyQuote.nhn?marketindexCd=FX_USDKRW&page=1"

res = requests.get(url)
res.raise_for_status()

soup = BeautifulSoup(res.text , "lxml") # xml을 파싱하기 위한 패키지

3. 환율 정보 가져오기

In [None]:
DATE = [] # 날짜
PRICE = [] # 환율

tbody = soup.find('tbody')
tr = tbody.find_all('tr')#,class_= 'up')

for td in tr:
  date = td.find('td',class_='date').text
  DATE.append(date)
  price = td.find('td',class_='num').text
  PRICE.append(price)

4. 리스트를 딕셔너리 형태로 만들기 & 데이터프레임으로 출력하기

In [None]:
dict_data= {
    "DATE":DATE,
    "PRICE":PRICE
}

In [None]:
dict_data

{'DATE': ['2021.06.29',
  '2021.06.28',
  '2021.06.25',
  '2021.06.24',
  '2021.06.23',
  '2021.06.22',
  '2021.06.21',
  '2021.06.18',
  '2021.06.17',
  '2021.06.16'],
 'PRICE': ['1,129.00',
  '1,131.50',
  '1,128.50',
  '1,133.00',
  '1,136.50',
  '1,135.00',
  '1,133.00',
  '1,132.00',
  '1,134.00',
  '1,118.50']}

In [None]:
chart = df(dict_data)
chart

Unnamed: 0,DATE,PRICE
0,2021.06.29,1129.0
1,2021.06.28,1131.5
2,2021.06.25,1128.5
3,2021.06.24,1133.0
4,2021.06.23,1136.5
5,2021.06.22,1135.0
6,2021.06.21,1133.0
7,2021.06.18,1132.0
8,2021.06.17,1134.0
9,2021.06.16,1118.5


5. 함수로 만들기

In [None]:
def exchange(unit,page):
  url = "https://finance.naver.com/marketindex/exchangeDailyQuote.nhn?marketindexCd=FX_%sKRW&page=%d" %(unit,page)

  res = requests.get(url)
  res.raise_for_status()

  soup = BeautifulSoup(res.text , "lxml") # xml을 파싱하기 위한 패키지

  DATE = []
  PRICE = []

  tbody = soup.find('tbody')
  tr = tbody.find_all('tr')#,class_= 'up')

  for td in tr:
    date = td.find('td',class_='date').text
    DATE.append(date)
    price = td.find('td',class_='num').text
    PRICE.append(price)

  dict_data= {
  "DATE":DATE,
  "PRICE":PRICE
  }

  chart = df(dict_data)
  return chart

In [None]:
%whos

Variable           Type             Data/Info
---------------------------------------------
BOOK_LIST          list             n=50
BeautifulSoup      type             <class 'bs4.BeautifulSoup'>
DATE               list             n=10
Name               str              한창제지
PRICE              list             n=10
Price              str              2645
RANK               list             n=50
STOCK_NAME_LIST    list             n=100
STOCK_PRICE_LIST   list             n=100
a                  Tag              <div class="ss_book_box" <...>\n</tr>\n</table>\n</div>
book               Tag              <a class="bo3" href="http<...>39377"><b>그렇게 그렇게</b></a>
bookInfo           list             n=2
book_list          ResultSet        [<a class="bo3" href="htt<...>9377"><b>그렇게 그렇게</b></a>]
bt                 str              그렇게 그렇게
chart              DataFrame                 DATE     PRICE\n<...>\n9  2021.06.16  1,118.50
date               str              2021.06.16
df             

In [None]:
exchange("JPY",8)

Unnamed: 0,DATE,PRICE
0,2021.03.15,1039.24
1,2021.03.12,1042.33
2,2021.03.11,1044.58
3,2021.03.10,1050.16
4,2021.03.09,1046.94
5,2021.03.08,1048.85
6,2021.03.05,1040.79
7,2021.03.04,1048.32
8,2021.03.03,1049.51
9,2021.03.02,1052.16


In [None]:
exchange("USD",8)

Unnamed: 0,DATE,PRICE
0,2021.03.19,1130.0
1,2021.03.18,1125.0
2,2021.03.17,1129.5
3,2021.03.16,1130.5
4,2021.03.15,1133.5
5,2021.03.12,1136.5
6,2021.03.11,1133.0
7,2021.03.10,1142.0
8,2021.03.09,1138.5
9,2021.03.08,1138.0
