In [1]:
import sys
import io

from bs4 import BeautifulSoup
from urllib.request import urlopen
import pandas as pd

In [2]:
html = "<p>test</p>"
soup = BeautifulSoup(html, 'lxml')
print(soup)

<html><body><p>test</p></body></html>


In [5]:
html = "<p>test</p>"
soup = BeautifulSoup(html, 'html5lib')
print(soup)

<html><head></head><body><p>test</p></body></html>


In [6]:
soup.prettify()

'<html>\n <head>\n </head>\n <body>\n  <p>\n   test\n  </p>\n </body>\n</html>'

In [7]:
html = """
<html>
<head><title>나의 웹페이지</title></head>
<p>test1</p>
<p>test2</p>
<p>test3</p>
</html>
"""

In [9]:
soup = BeautifulSoup(html, 'html.parser')
soup.prettify()

'<html>\n <head>\n  <title>\n   나의 웹페이지\n  </title>\n </head>\n <p>\n  test1\n </p>\n <p>\n  test2\n </p>\n <p>\n  test3\n </p>\n</html>\n'

In [10]:
soup.find_all("p") # 리스트 형태로 찾은 값을 반환한다.

[<p>test1</p>, <p>test2</p>, <p>test3</p>]

In [14]:
soup.find_all("p")[1] # 인덱싱을 이용해서 원하는 값을 선택할 수 있다.

<p>test2</p>

In [15]:
soup.find("p") # 첫번째 p 태그를 찾는다.

<p>test1</p>

In [17]:
html = """
<html>
<head><title> test site </title></head>
<p class='class1' align="left">test3</p>
<p class='class1'>test2</p>
<p id='p1'>오늘의 주가지수 1500</p>
<span class='class3'>span tag text</span>
<p class='class4'>test3</p>
</html>
"""

In [20]:
soup = BeautifulSoup(html, "lxml")
soup.find_all("p", "class1")

[<p align="left" class="class1">test3</p>, <p class="class1">test2</p>]

실습
1. p 요소 전부 가져오기
2. span 요소 전부 가져오기
3. head 요소 전부 가져오기

In [23]:
p_elements = soup.find_all("p")
span_element = soup.find_all("span")
head_element = soup.find("head")

print("p 태그 요소: {}".format(p_elements))
print('\n')
print("span 태그 요소: {}".format(span_element))
print('\n')
print("head 태그 요소: {}".format(head_element))

p 태그 요소: [<p align="left" class="class1">test3</p>, <p class="class1">test2</p>, <p id="p1">오늘의 주가지수 1500</p>, <p class="class4">test3</p>]


span 태그 요소: [<span class="class3">span tag text</span>]


head 태그 요소: <head><title> test site </title></head>


### 주피터 노트북 단축기
* ESC + M : 마크다운 셀 만들기
* ESC + Y : 소스코드 실행 셀 만들기
* ESC + A : 위에 셀 추가
* ESC + B : 아래 셀 추가
* ESC + X : 셀 삭제

In [27]:
# 클래스 명으로 요소 가져오기
print(soup.find("p", class_="class1"))

# id 명으로 요소 가져오기
print(soup.find("p", id="p1"))

<p align="left" class="class1">test3</p>


<p id="p1">오늘의 주가지수 1500</p>

In [35]:
data1 = soup.find("head")
print(type(data1))

data1_title = data1.find("title") # head 태그 안에 title 태그를 찾기
print(type(data1_title))
data1_title.prettify()

<class 'bs4.element.Tag'>
<class 'bs4.element.Tag'>


'<title>\n test site\n</title>'

In [34]:
soup.find("head").find("title") # .find() 매소드를 중복 사용해서 태그 속 태그를 찾는 것도 가능하다.

<title> test site </title>

In [38]:
# div 2번째 요소 안의 p 태그 전체를 가져오기
html = '''
<html>
<head>
    <title> test site </title>
</head>
<body>
    <div>
        <p class='class1' align="left">test3</p>
        <p class='class1'>test2</p>
    </div>
    <div>
        <p id='p1'>오늘의 주가지수 1500</p>
        <p class='class4'>test3</p>
        <span class='class3'>span tag text</span>
    </div>
</body>
</html>
'''
soup = BeautifulSoup(html, 'lxml')

second_div_tag = soup.find_all("div")[1]
print(second_div_tag)
print(type(second_div_tag))

<div>
<p id="p1">오늘의 주가지수 1500</p>
<p class="class4">test3</p>
<span class="class3">span tag text</span>
</div>
<class 'bs4.element.Tag'>


In [41]:
# div 첫번째 요소의 첫번째 p 태그 요소 가져오기
first_div_p_tag = soup.find_all("div")[0]
p_tag = first_div_p_tag("p")[0]
print(p_tag)

<p align="left" class="class1">test3</p>


In [45]:
html = '''
<html>
<head>
    <title> test site </title>
</head>
<body>
    <a href="https://www.google.com">구글</a>
    <div>
        <p class='class1' align="left">test3</p>
        <p class='class1'>test2</p>
    </div>
    <div>
        <p id='p1'>오늘의 주가지수 1500</p>
        <p class='class4'>test3</p>
        <span class='class3'>span tag text</span>
        <a href="https://www.naver.com/">네이버</a>
        <a href="https://www.daum.com/">다음</a>
    </div>
</body>
</html>
'''

soup = BeautifulSoup(html, 'lxml')

# a 태그의 모든 url을 가져오기
a_tag = soup.find_all("a")
urls = []
for i in range(len(a_tag)):
    url = a_tag[i].attrs
    urls.append(url['href'])
print(urls)

['https://www.google.com', 'https://www.naver.com/', 'https://www.daum.com/']


In [50]:
print(soup.prettify()) # 프린트 함수와 prettify() 함수를 같이 적용하면 정렬할 수 있다

<html>
 <head>
  <title>
   test site
  </title>
 </head>
 <body>
  <a href="https://www.google.com">
   구글
  </a>
  <div>
   <p align="left" class="class1">
    test3
   </p>
   <p class="class1">
    test2
   </p>
  </div>
  <div>
   <p id="p1">
    오늘의 주가지수 1500
   </p>
   <p class="class4">
    test3
   </p>
   <span class="class3">
    span tag text
   </span>
   <a href="https://www.naver.com/">
    네이버
   </a>
   <a href="https://www.daum.com/">
    다음
   </a>
  </div>
 </body>
</html>



In [51]:
div1 = soup.find("div")
div1.children

<list_iterator at 0x26a15bee220>

In [82]:
span = soup.find_all("div")[1].children
print(type(span))
span = list(span)
print(span[5])

<class 'list_iterator'>
<span class="class3">span tag text</span>


In [77]:
result = soup.findChildren("div")
for i in result:
    print(i)
type(result)

<div>
<p align="left" class="class1">test3</p>
<p class="class1">test2</p>
</div>
<div>
<p id="p1">오늘의 주가지수 1500</p>
<p class="class4">test3</p>
<span class="class3">span tag text</span>
<a href="https://www.naver.com/">네이버</a>
<a href="https://www.daum.com/">다음</a>
</div>


bs4.element.ResultSet

In [84]:
p_tag = soup.find_all("p")
for p in p_tag:
    print(p.text)

test3
test2
오늘의 주가지수 1500
test3


In [97]:
a_tag = soup.find_all("a")
urls = {}
for url in a_tag:
    url_name = url.string
    urls[url_name] = url.attrs['href']
    
print(urls)

{'구글': 'https://www.google.com', '네이버': 'https://www.naver.com/', '다음': 'https://www.daum.com/'}


In [115]:
# 딕셔너리의 키와 값을 이용해서 df에 적용할 수 있다.

name = pd.DataFrame(urls.keys())
link = pd.DataFrame(urls.values())
df = pd.concat([name, link], axis=1)

     0                       0
0   구글  https://www.google.com
1  네이버  https://www.naver.com/
2   다음   https://www.daum.com/


In [121]:
dat1 = pd.Series(urls)

구글     https://www.google.com
네이버    https://www.naver.com/
다음      https://www.daum.com/
dtype: object


In [125]:
dat1.to_excel("회사명과 웹사이트.xlsx", index=False)
df.to_csv("회사명과 웹사이트.csv", index=False)

In [127]:
com = []
urls = []
list_a = soup.findAll("a")
for one in list_a:
    print(one.text, one.get("href"))
    com.append(one.text)
    urls.append(one.get('href'))
print(com)
print(urls)

구글 https://www.google.com
네이버 https://www.naver.com/
다음 https://www.daum.com/
['구글', '네이버', '다음']
['https://www.google.com', 'https://www.naver.com/', 'https://www.daum.com/']


In [138]:
# https://ldjwj.github.io/00_PYTHON_LEVELUP_CLASS/web_class/index.html 이곳의 링크 가져오기

url = 'https://ldjwj.github.io/00_PYTHON_LEVELUP_CLASS/web_class/index.html'
page = urlopen(url)
site = BeautifulSoup(page, 'html.parser')
a_tag = site.find_all('a')
for i in range(len(a_tag)):
    print(a_tag[i])

<a href="./01.html" name="link_get"> 01. 제목 가져오기(title) </a>
<a href="./02.html" name="text_get"> 02. 텍스트 가져오기(p) </a>
<a href="./03.html" name="link_get"> 03. 링크 가져오기(a) </a>
<a href="https://pythonstart.github.io/web/04.html"> 04. 이미지 가져오기(img) </a>
<a href="./05.html"> 05. 리스트 정보 가져오기(ul,ol) </a>
<a href="./06.html"> 06. id를 활용한 정보 획득 </a>
<a href="./07.html"> 07. class를 활용한 정보 획득 </a>
<a href="./08.html"> 08. 하나의 이미지 다운로드 </a>
<a href="https://pythonstart.github.io/web/09.html"> 09. 여러개의 이미지 다운로드 </a>
<a href="./10.html" id="rank"> 10. 랭킹 정보 가져오기(웹 크롤링) </a>
<a href="./nclass/index.html"> Next Class --&gt;</a>
<a href="https://www.naver.com/">naver</a>


In [6]:
url = "https://finance.naver.com/sise/"
page = urlopen(url)

soup = BeautifulSoup(page, "html.parser")
soup.title

<title>국내증시 : 네이버 금융</title>

In [7]:
kospi = soup.find("span", id="KOSPI_now").string
kosdaq = soup.find("span", id="KOSDAQ_now").string
kospi200 = soup.find("span", id="KPI200_now").string

print(kospi, kosdaq, kospi200)

3,277.91 999.59 436.73


In [39]:
popular_tag = soup.find("div", class_="rgt")
names = popular_tag.find("ul").find_all("li")
popular_stocks = []

for name in names:
    popular_stocks.append(name.text)
print(popular_stocks)

['1.NAVER394,000상승', '2.카카오143,500하락', '3.삼성전자81,700상승', '4.대원전선3,605상승', '5.두산중공업24,700상승', '6.가비아19,100상한가', '7.HMM45,550상승', '8.쌍방울1,270하락', '9.서울식품455상승', '10.대한전선3,310상승']


In [46]:
search_stock = soup.find("ul", id="popularItemList")
stock_all = search_stock.find_all("li")
stock_all[0]

<li><em>1.</em><a href="/item/main.nhn?code=035420" onclick="clickcr(this,'boa.list','035420','1',event)">NAVER</a><span class="up">394,000</span><em class="bu_p bu_pup"><span class="blind">상승</span></em></li>

In [48]:
print(stock_all[0].find("a").text)
print(stock_all[0].find("span").text)

NAVER
394,000


In [50]:
com_all = []
price_all = []

for one in stock_all:
    com_one = one.find("a").text
    price_one = one.find("span").text
    print(com_one)
    print(price_one)

NAVER
394,000
카카오
143,500
삼성전자
81,700
대원전선
3,605
두산중공업
24,700
가비아
19,100
HMM
45,550
쌍방울
1,270
서울식품
455
대한전선
3,310


In [61]:
#주식 인기 검색 종목 가지고 오기
url = "https://finance.naver.com/sise/"
page = urlopen(url)
soup = BeautifulSoup(page, "html.parser")

popular_stocks = soup.find("ul", id='popularItemList')
popular_stocks.find("li")

<li><em>1.</em><a href="/item/main.nhn?code=005930" onclick="clickcr(this,'boa.list','005930','1',event)">삼성전자</a><span class="up">81,600</span><em class="bu_p bu_pup"><span class="blind">상승</span></em></li>

In [78]:
# 네이버 주식 웹페이지에서 하나의 Tag에서 원하는 '정보'만 추출 테스트 및 확인

print(stocks_info[0].find('em').text) # 순위
print(stocks_info[0].find('a').text) # 종목 이름
print(stocks_info[0].find('span').text) # 가격
print(stocks_info[0].find('span', class_='blind').string) # 상승 혹은 하강
print(stocks_info[0].find('a').attrs['onclick'].split(',')[2].strip("''")) # 종목 코드명

1.
삼성전자
81,600
상승
005930


In [136]:
# 주식 인기 검색 종목 가지고 오기
# 정보 추출을 위한 로직을 반복문에 적용해서 주식 인기 검색 종목 정보 크롤링

url = "https://finance.naver.com/sise/"
page = urlopen(url)
soup = BeautifulSoup(page, "html.parser")

popular_stocks = soup.find("ul", id='popularItemList')
popular_stocks.find("li")

all_info = []
stocks_info = popular_stocks.find_all("li")

for stock in stocks_info:
    dictionary = {}
    dictionary['순위'] = stock.find('em').text[0:-1]
    dictionary['종목명'] = stock.find('a').text
    dictionary['가격'] = stock.find('span').text
    dictionary['변동'] = stock.find('span', class_='blind').string
    dictionary['종목코드'] = stock.find('a').attrs['onclick'].split(',')[2].strip("''")
    all_info.append(dictionary)

popular_df = pd.DataFrame(all_info)

Unnamed: 0,순위,종목명,가격,변동,종목코드
0,1,쌍방울,1050,하락,102280
1,2,삼성전자,81800,상승,5930
2,3,한전산업,11100,상한가,130660
3,4,카카오,143000,하락,35720
4,5,두산중공업,24450,상승,34020
5,6,HMM,45050,상승,11200
6,7,NAVER,391000,상승,35420
7,8,가비아,19100,상한가,79940
8,9,대한전선,3275,상승,1440
9,10,대원전선,3555,상승,6340


In [109]:
# 해외지수 가지고 오기
url = "https://finance.naver.com/sise/"
page = urlopen(url)
soup = BeautifulSoup(page, "html.parser")

foreign_index = soup.find("ul", class_='lst_major')
foreign_index_all = foreign_index.find_all('li')
print(foreign_index_all[0])


<li><a href="/world/sise.nhn?symbol=DJI@DJI&amp;fdtc=0" onclick="clickcr(this,'wst.dow','','',event)">다우산업</a><span class="dn">34,299.33</span><em class="bu_p bu_pdn"><span class="blind">하락</span></em></li>


In [132]:
print(foreign_index_all[0].find('a').text) # name
print(foreign_index_all[0].find('span').string) # price
print(foreign_index_all[0].find('span', class_='blind').string) # 변동
print(foreign_index_all[0].find('a').attrs['onclick'].split(',')[1]) # 지수코드

다우산업
34,299.33
하락
'wst.dow'


In [131]:
# 해외지수 정보 가져오기. pd.concat() 매소드로 시리즈 객채들을 합쳐서 결과물 만들기

names = []
prices = []
changes = []
codes = []

for index in foreign_index_all:
    names.append(index.find('a').text)
    prices.append(index.find('span').string)
    changes.append(index.find('span', class_='blind').string)
    codes.append(index.find('a').attrs['onclick'].split(',')[1].strip("''"))

names = pd.Series(names)
prices = pd.Series(prices)
changes = pd.Series(changes)
codes = pd.Series(codes)

columns_name = ['해외지수 이름', '가격', '변동', '코드']
final_index = pd.concat([names, prices, changes, codes], axis=1)

final_index.to_excel('해외지수 종목.xlsx')
final_index.to_csv('해외지수 종목.csv')

In [135]:
# 해외지수 정보 가져오기. dictionary에 리스트로 담은 정보를 df로  변환하기 (딕셔너리 키값이 인덱스가 됨)

names = []
prices = []
changes = []
codes = []

for index in foreign_index_all:
    names.append(index.find('a').text)
    prices.append(index.find('span').string)
    changes.append(index.find('span', class_='blind').string)
    codes.append(index.find('a').attrs['onclick'].split(',')[1].strip("''"))

index_dictionary = {}
index_dictionary['해외지수 이름'] = names
index_dictionary['수치'] = prices
index_dictionary['변동'] = changes
index_dictionary['코드'] = codes

outcome = pd.DataFrame(index_dictionary)
outcome.to_excel('해외지수 정보.xlsx')