In [1]:
from bs4 import BeautifulSoup

html = '''
<html>
<head>
    <title> test site </title>
</head>
<body>
    <div>
        <a href="https://www.google.com">구글</a>
        <p class='class1' align="left">test3</p>
        <p class='class1'>test2</p>
    </div>
    <div>
        <p id='p1'>오늘의 주가지수 1500</p>
        <p class='class4'>test3</p>
        <span class='class3'>span tag text</span>
        <a href="https://www.naver.com/">네이버</a>
        <a href="https://www.daum.com/">다음</a>
    </div>
</body>
</html>
'''
soup = BeautifulSoup(html, 'lxml')

In [2]:
soup.title

<title> test site </title>

In [11]:
div1 = soup.find("div")
div1

<div>
<a href="https://www.google.com">구글</a>
<p align="left" class="class1">test3</p>
<p class="class1">test2</p>
</div>

In [12]:
list(div1)

['\n',
 <a href="https://www.google.com">구글</a>,
 '\n',
 <p align="left" class="class1">test3</p>,
 '\n',
 <p class="class1">test2</p>,
 '\n']

3-3 주어진 코드에서 children 속성을 이용해서 span 태그 요소를 가져와 보자.

In [25]:
div2 = soup.find_all("div")[1].children
list(div2)[5]

<span class="class3">span tag text</span>

4-2 p 태그의 text를 가져오기

In [27]:
p_all = soup.find('body').find_all('p')
p_all

[<p align="left" class="class1">test3</p>,
 <p class="class1">test2</p>,
 <p id="p1">오늘의 주가지수 1500</p>,
 <p class="class4">test3</p>]

In [29]:
for one in p_all:
    print(one.text)

test3
test2
오늘의 주가지수 1500
test3


(추가) a태그의 url 및 text가져오기.

In [36]:
list_a = soup.find_all("a")
for one in list_a:
    print(one.text,one.get("href"))

구글 https://www.google.com
네이버 https://www.naver.com/
다음 https://www.daum.com/


#### 가져온 url 및 text를 csv파일로 만들어보자.

In [43]:
com = []
urls = []
list_a = soup.findAll("a")
for one in list_a:
    print(one.text, one.get("href"))
    com.append(one.text)
    urls.append(one.get('href'))
print(com)
print(urls)

구글 https://www.google.com
네이버 https://www.naver.com/
다음 https://www.daum.com/
['구글', '네이버', '다음']
['https://www.google.com', 'https://www.naver.com/', 'https://www.daum.com/']


###  csv파일 만들기 - pandas

In [40]:
import pandas as pd

### pandas의 기본 자료형

* Series
* DataFrame

In [45]:
dat = {'회사명':com, '웹사이트':urls}
dat = pd.DataFrame(dat)
dat

Unnamed: 0,회사명,웹사이트
0,구글,https://www.google.com
1,네이버,https://www.naver.com/
2,다음,https://www.daum.com/


In [47]:
dat.to_csv("회사명과 웹사이트.csv", index=False)

# 확인
import os
print(os.getcwd())  # 현재 위치
print(os.listdir(os.getcwd()))

C:\Users\Jongho\Documents\Practice
['.ipynb_checkpoints', '20210616 BeautifulSoup.ipynb', 'Untitled.ipynb', '회사명과 웹사이트.csv']


### Excel 파일로 만들기

In [50]:
dat.to_excel("회사명과 웹사이트.xlsx", index=False)

# 확인
import os
print(os.getcwd()) # 현재 위치
print(os.listdir(os.getcwd()))

C:\Users\Jongho\Documents\Practice
['.ipynb_checkpoints', '20210616 BeautifulSoup.ipynb', 'Untitled.ipynb', '회사명과 웹사이트.csv', '회사명과 웹사이트.xlsx']


### 네이버 주식 정보 가져오기

In [51]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
url = "https://finance.naver.com/sise/"
page = urlopen(url)
page
soup = BeautifulSoup(page, "html.parser")

In [52]:
soup.title

<title>국내증시 : 네이버 금융</title>

In [113]:
kospi = soup.find_all("span",id="KOSPI_now")[0].text
kosdaq = soup.find_all("span",id="KOSDAQ_now")[0].text
kpi200 = soup.find_all("span",id="KPI200_now")[0].text
print("금일 증시 코스피 지수는",kospi,",코스닥 지수는",kosdaq,",코스피200 지수는",kpi200,"입니다")

금일 증시 코스피 지수는 3,276.53 ,코스닥 지수는 999.01 ,코스피200 지수는 436.59 입니다


In [116]:
kospi = soup.find("span",id="KOSPI_now").text
kosdaq = soup.find("span",id="KOSDAQ_now").text
kpi200 = soup.find("span",id="KPI200_now").text
print("코스피 :",kospi,"/ 코스닥 :",kosdaq,"/ 코스피200 :",kpi200)

코스피 : 3,276.53 / 코스닥 : 999.01 / 코스피200 : 436.59


### 인기 검색 종목 추출하기

In [143]:
pop = soup.find("ul",id="popularItemList").find_all("a")
pops = list(pop)
for idx, one in enumerate(pops):
    print(idx, one)

0 <a href="/item/main.nhn?code=035420" onclick="clickcr(this,'boa.list','035420','1',event)">NAVER</a>
1 <a href="/item/main.nhn?code=005930" onclick="clickcr(this,'boa.list','005930','2',event)">삼성전자</a>
2 <a href="/item/main.nhn?code=004410" onclick="clickcr(this,'boa.list','004410','3',event)">서울식품</a>
3 <a href="/item/main.nhn?code=035720" onclick="clickcr(this,'boa.list','035720','4',event)">카카오</a>
4 <a href="/item/main.nhn?code=034020" onclick="clickcr(this,'boa.list','034020','5',event)">두산중공업</a>
5 <a href="/item/main.nhn?code=102280" onclick="clickcr(this,'boa.list','102280','6',event)">쌍방울</a>
6 <a href="/item/main.nhn?code=011200" onclick="clickcr(this,'boa.list','011200','7',event)">HMM</a>
7 <a href="/item/main.nhn?code=006340" onclick="clickcr(this,'boa.list','006340','8',event)">대원전선</a>
8 <a href="/item/main.nhn?code=001440" onclick="clickcr(this,'boa.list','001440','9',event)">대한전선</a>
9 <a href="/item/main.nhn?code=130660" onclick="clickcr(this,'boa.list','130660','1

### 해당 정보가 있는 부분을 가져온다

In [148]:
search_stock = soup.find("ul",id="popularItemList")

stock_all = search_stock.find_all("li")
stock_all[0]


<li><em>1.</em><a href="/item/main.nhn?code=035420" onclick="clickcr(this,'boa.list','035420','1',event)">NAVER</a><span class="up">393,500</span><em class="bu_p bu_pup"><span class="blind">상승</span></em></li>

In [150]:
print(stock_all[0].find("a").text)
print(stock_all[0].find("span").text)

NAVER
393,500


In [154]:
com_all = []
price_all = []
for one in stock_all:
    com_one = one.find("a").text 
    price_one = one.find("span").text 
    com_all.append(com_one)
    price_all.append(price_one)
print(com_all,price_all)
print(price_all)

['NAVER', '삼성전자', '서울식품', '카카오', '두산중공업', '쌍방울', 'HMM', '대원전선', '대한전선', '한전산업'] ['393,500', '81,500', '460', '143,500', '24,500', '1,275', '45,600', '3,480', '3,290', '10,900']
['393,500', '81,500', '460', '143,500', '24,500', '1,275', '45,600', '3,480', '3,290', '10,900']


#### 5-3 (추가) 인기 검색 종목 +(상승), -(하락) 포함시키기 

In [156]:
url = 'https://finance.naver.com/sise/'
page = urlopen(url)
soup = BeautifulSoup(page, 'html.parser')
search_stock = soup.find("ul", id="popularItemList")
stock_all = search_stock.find_all("li")
# 하나씩 하기
print(stock_all[0], "\n")
print(stock_all[0].find("a").text)
print(stock_all[0].find("span").text)
com_all = []
price_all = []
updown_all = []
for one in stock_all :
    com_one = one.find("a").text
    price_one = one.find("span").text
    updown_one = one.find("span", class_="blind").text
    com_all.append(com_one)
    price_all.append(price_one)
    updown_all.append(updown_one)
print(com_all)
print(price_all)
print(updown_all)

<li><em>1.</em><a href="/item/main.nhn?code=035420" onclick="clickcr(this,'boa.list','035420','1',event)">NAVER</a><span class="up">391,500</span><em class="bu_p bu_pup"><span class="blind">상승</span></em></li> 

NAVER
391,500
['NAVER', '삼성전자', '대원전선', '쌍방울', '카카오', '두산중공업', 'HMM', '서울식품', '대한전선', '한전산업']
['391,500', '81,600', '3,595', '1,295', '143,500', '24,550', '45,250', '454', '3,285', '10,950']
['상승', '상승', '상승', '하락', '하락', '상승', '상승', '상승', '상승', '상승']


#### 5-3 (추가) 인기 검색 종목 코드 가져오기

In [164]:
## naver finance 인기 종목 by. 양효진

popularList = soup.find("ul", id="popularItemList").find_all("li")
com_all =[]
price_all=[]
updown_all=[]
stockcode_all=[]

for i in popularList:
  com_all.append(i.find("a").text)
  price_all.append(i.find("span").text)
  updown_all.append(i.find("span", class_="blind").text)  
  stockcode_all.append(i.find('a').attrs['href'][-6:])
data={"company": com_all, "price":price_all, "상승/하락":updown_all,"상품코드":stockcode_all}
stock=pd.DataFrame(data)
print(stock)

  company    price 상승/하락    상품코드
0    삼성전자   81,600    상승  005930
1   NAVER  391,500    상승  035420
2   두산중공업   24,600    상승  034020
3    대원전선    3,630    상승  006340
4     카카오  143,000    하락  035720
5     쌍방울    1,290    하락  102280
6     HMM   45,450    상승  011200
7     가비아   19,100   상한가  079940
8    대한전선    3,290    상승  001440
9    서울식품      447    상승  004410


In [163]:
## naver finance 인기 종목 by. 이응진
from urllib.request import urlopen
from bs4 import BeautifulSoup
import pandas as pd
url = "https://finance.naver.com/sise/"
page = urlopen(url)
page
soup = BeautifulSoup(page, "html.parser")
all_pop = soup.find("ul", class_="lst_pop").find_all("li")
all_data = []
for li in all_pop:
    dic = {}
    dic["rank"] = li.find("em").text
    dic["com"] = li.find("a").text
    dic["up_down"] = li.find('span', class_='blind').text
    dic["price"] = li.find('span').text
    dic["code"] = li.find('a').get("onclick").split(',')[2].strip("''")
    all_data.append(dic)
dat = pd.DataFrame(all_data)
dat

Unnamed: 0,rank,com,up_down,price,code
0,1.0,삼성전자,상승,81600,5930
1,2.0,NAVER,상승,391500,35420
2,3.0,두산중공업,상승,24600,34020
3,4.0,대원전선,상승,3630,6340
4,5.0,카카오,하락,143000,35720
5,6.0,쌍방울,하락,1290,102280
6,7.0,HMM,상승,45450,11200
7,8.0,가비아,상한가,19100,79940
8,9.0,대한전선,상승,3290,1440
9,10.0,서울식품,상승,447,4410


In [165]:
## naver finance 인기 종목 by. 이예준

url = "https://finance.naver.com/sise/"
page = urlopen(url)
soup = BeautifulSoup(page, 'html.parser')
rank_1 = soup.find('div', class_='rgt')
rank_1 = soup.findAll('ul', id='popularItemList')
list_rank = rank_1[0].findAll('li')
for i in list_rank:
    code = i.find('a')
    company = code.text
    code = code.get('href')
    print(company+'의 코드 : ', code[-6:])

삼성전자의 코드 :  005930
두산중공업의 코드 :  034020
카카오의 코드 :  035720
NAVER의 코드 :  035420
대원전선의 코드 :  006340
HMM의 코드 :  011200
서울식품의 코드 :  004410
쌍방울의 코드 :  102280
대한전선의 코드 :  001440
가비아의 코드 :  079940


In [195]:
search_stock=soup.find('ul',id='popularItemList')
stock_all=search_stock.find_all('li')
com_all=[]
price_all=[]
rank_all=[]
code_all=[]
for one in stock_all:
    com_one=one.find('a').text
    price_one=one.find('span').text
    rank_one=one.find('span',class_='blind').text
    code_one=one.find('a').get("onclick").split(',')[2]
    com_all.append(com_one)
    price_all.append(price_one)
    rank_all.append(rank_one)
    code_all.append(code_one)
print(com_all)
print(price_all)
print(rank_all)
print(code_all)

['삼성전자', '쌍방울', '카카오', '대원전선', '두산중공업', 'HMM', 'NAVER', '한전산업', '서울식품', '대한전선']
['81,700', '1,210', '143,500', '3,580', '24,450', '45,100', '390,500', '11,000', '438', '3,270']
['상승', '하락', '하락', '상승', '상승', '상승', '상승', '상승', '상승', '상승']
["'005930'", "'102280'", "'035720'", "'006340'", "'034020'", "'011200'", "'035420'", "'130660'", "'004410'", "'001440'"]


5-3 (추가) 인기 검색 종목 코드 가져오기

In [232]:
url = 'https://finance.naver.com/sise/'
page = urlopen(url)
soup = BeautifulSoup(page, 'html.parser')
pop = soup.find("ul",id="popularItemList")
pop_list = pop.findAll("li")
company_all = []
updown_all = []
price_all = []
code_all = []

In [238]:
import pandas as pd

for one in pop_list:
    dic = {}
    dic["rank"] = li.find("em").text
    dic["company_all"] = one.find("a").text
    dic["updown_all"] = one.find_all("span")[1].text
    dic["price_all"] = one.find("span").text
    dic["code_all"] = one.find("a").get("href").split("=")[-1]
    
#     company_all = one.find("a").text #회샤명
#     price_all =  one.find("span").text #가격
#     updown_all = one.find_all("span")[1].text # 상한가&하한가
#     code_all= one.find("a").get("href").split("=")[-1] #코드
    
    all_data.append(dic)
    

dat = {'회사명':company_all, '등락':updown_all, '가격':price_all, '코드번호':code_all}
dat = pd.DataFrame(dat)
dat

Unnamed: 0,회사명,등락,가격,코드번호


### 과제(자율과제)
   * Top 종목에 있는 상한가정보를 가져와서 xlsx파일로 정리하기
   * 제출 : 구글 드라이브