# 03. Web Data

## 1. BeautifulSoup for web data

---

## BeautifulSoup Basic
- install
    - conda install -c anaconda beautifulsoup4
    - pip install beautifulsoup4
- data
    - 03.test_first.html

- Docs 
    - https://www.crummy.com/software/BeautifulSoup/bs4/doc/#

In [11]:
# 모듈 import
from bs4 import BeautifulSoup

In [14]:
page = open("../data/03. test_first.html", "r").read()
page

'<!doctype html>\n<html>\n    <head>\n        <title>Very Simple HTML Code by PinkWink</title>\n    </head>\n    <body>\n        <div>\n            <p class="inner-text first-item" id="first">\n                Happy PinkWink.\n                <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>\n            </p>\n            <p class="inner-text second-item">\n                Happy Data Science.\n                <a href="https://www.python.org" id="py-link">Python</a>\n            </p>\n        </div>\n        <p class="outer-text first-item" id="second">\n            <b>\n                Data Science is funny.\n            </b>\n        </p>\n        <p class="outer-text">\n            <b>\n                All I need is Love.\n            </b>\n        </p>\n    </body>\n</html>'

In [15]:
soup = BeautifulSoup(page, "html.parser")
soup

<!DOCTYPE html>

<html>
<head>
<title>Very Simple HTML Code by PinkWink</title>
</head>
<body>
<div>
<p class="inner-text first-item" id="first">
                Happy PinkWink.
                <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
</p>
<p class="inner-text second-item">
                Happy Data Science.
                <a href="https://www.python.org" id="py-link">Python</a>
</p>
</div>
<p class="outer-text first-item" id="second">
<b>
                Data Science is funny.
            </b>
</p>
<p class="outer-text">
<b>
                All I need is Love.
            </b>
</p>
</body>
</html>

In [19]:
# head 태그 가져오기
soup.head

<head>
<title>Very Simple HTML Code by PinkWink</title>
</head>

In [20]:
# title 태그 가져오기
soup.title

<title>Very Simple HTML Code by PinkWink</title>

In [21]:
soup.p

<p class="inner-text first-item" id="first">
                Happy PinkWink.
                <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
</p>

In [25]:
# find() 함수
soup.find("p")

<p class="inner-text first-item" id="first">
                Happy PinkWink.
                <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
</p>

In [24]:
# find_all() 함수
soup.find_all("p")

[<p class="inner-text first-item" id="first">
                 Happy PinkWink.
                 <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
 </p>,
 <p class="inner-text second-item">
                 Happy Data Science.
                 <a href="https://www.python.org" id="py-link">Python</a>
 </p>,
 <p class="outer-text first-item" id="second">
 <b>
                 Data Science is funny.
             </b>
 </p>,
 <p class="outer-text">
 <b>
                 All I need is Love.
             </b>
 </p>]

In [26]:
soup.find("p", class_="inner-text second-item")

<p class="inner-text second-item">
                Happy Data Science.
                <a href="https://www.python.org" id="py-link">Python</a>
</p>

In [30]:
data1 = soup.find("p", {"class":"outer-text first-item"})
data1

<p class="outer-text first-item" id="second">
<b>
                Data Science is funny.
            </b>
</p>

In [32]:
data1.text

'\n\n                Data Science is funny.\n            \n'

In [33]:
data1.text.strip()

'Data Science is funny.'

In [35]:
# 다중 조건
soup.find(
    "p", {
        "class":"inner-text first-item", 
        "id":"first"
        }
    )

<p class="inner-text first-item" id="first">
                Happy PinkWink.
                <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
</p>

In [40]:
# find_all()
p_all = soup.find_all("b")
for p in p_all:
    print(p.text.strip())
    print("-"*50)

Data Science is funny.
--------------------------------------------------
All I need is Love.
--------------------------------------------------


In [42]:
# 특정 태그 확인
soup.find_all(class_="outer-text")

[<p class="outer-text first-item" id="second">
 <b>
                 Data Science is funny.
             </b>
 </p>,
 <p class="outer-text">
 <b>
                 All I need is Love.
             </b>
 </p>]

In [44]:
# 특정 태그 확인
for data in soup.find_all(id="pw-link"):
    print(data.text)

PinkWink


In [46]:
p_all = soup.find_all("p")
for p in p_all:
    print(p.text.strip())
    print("-"*50)

Happy PinkWink.
                PinkWink
--------------------------------------------------
Happy Data Science.
                Python
--------------------------------------------------
Data Science is funny.
--------------------------------------------------
All I need is Love.
--------------------------------------------------


In [47]:
# a 태그에서 href 속성값 추출
links = soup.find_all("a")
links

[<a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>,
 <a href="https://www.python.org" id="py-link">Python</a>]

In [51]:
for link in links:
    print(link.text, "=>", link.get("href"))
    print(link.text, "=>", link["href"])
    print()

PinkWink => http://www.pinkwink.kr
PinkWink => http://www.pinkwink.kr

Python => https://www.python.org
Python => https://www.python.org



## BeautifulSoup 예제 1-1 - 네이버 금융

In [57]:
from urllib.request import urlopen
from bs4 import BeautifulSoup as bs4

In [59]:
url = "https://finance.naver.com/marketindex/"
page = urlopen(url)
soup = bs4(page, "html.parser")
print(soup)


<script language="javascript" src="/template/head_js.naver?referer=info.finance.naver.com&amp;menu=marketindex&amp;submenu=market"></script>
<script src="https://ssl.pstatic.net/imgstock/static.pc/20210916165954/js/info/jindo.min.ns.1.5.3.euckr.js" type="text/javascript"></script>
<script src="https://ssl.pstatic.net/imgstock/static.pc/20210916165954/js/jindo.1.5.3.element-text-patch.js" type="text/javascript"></script>
<div id="container" style="padding-bottom:0px;">
<div class="market_include">
<div class="market_data">
<div class="market1">
<div class="title">
<h2 class="h_market1"><span>환전 고시 환율</span></h2>
</div>
<!-- data -->
<div class="data">
<ul class="data_lst" id="exchangeList">
<li class="on">
<a class="head usd" href="/marketindex/exchangeDetail.naver?marketindexCd=FX_USDKRW" onclick="clickcr(this, 'fr1.usdt', '', '', event);">
<h3 class="h_lst"><span class="blind">미국 USD</span></h3>
<div class="head_info point_up">
<span class="value">1,187.00</span>
<span class="txt_krw

In [64]:
money_datas = soup.find_all("span", {"class":"value"})
for idx, money in enumerate(money_datas):
    print(idx, money.text)

0 1,187.00
1 1,065.15
2 1,386.42
3 183.63
4 110.9700
5 1.1700
6 1.3707
7 93.3800
8 75.45
9 1644.42
10 1750.0
11 66465.57


In [68]:
text_datas = soup.find_all("span", {"class":"blind"})
for idx, text in enumerate(text_datas[::3]):
    print(idx, text.text)

0 미국 USD
1 일본 JPY(100엔)
2 유럽연합 EUR
3 중국 CNY
4 달러/일본 엔
5 유로/달러
6 영국 파운드/달러
7 달러인덱스
8 달러
9 원
10 달러
11 원


## BeautifulSoup 예제 1-2 - 네이버 금융
- find, find_all
- select, select_one
- find, select_one : 단일 선택
- find_all, select_one : 다중 선택

In [72]:
import requests
from bs4 import BeautifulSoup as bs4

url = "https://finance.naver.com/marketindex/"
response = requests.get(url)
text = response.text
soup = bs4(text, "html.parser")
print(soup.prettify())

<script language="javascript" src="/template/head_js.naver?referer=info.finance.naver.com&amp;menu=marketindex&amp;submenu=market">
</script>
<script src="https://ssl.pstatic.net/imgstock/static.pc/20210916165954/js/info/jindo.min.ns.1.5.3.euckr.js" type="text/javascript">
</script>
<script src="https://ssl.pstatic.net/imgstock/static.pc/20210916165954/js/jindo.1.5.3.element-text-patch.js" type="text/javascript">
</script>
<div id="container" style="padding-bottom:0px;">
 <div class="market_include">
  <div class="market_data">
   <div class="market1">
    <div class="title">
     <h2 class="h_market1">
      <span>
       환전 고시 환율
      </span>
     </h2>
    </div>
    <!-- data -->
    <div class="data">
     <ul class="data_lst" id="exchangeList">
      <li class="on">
       <a class="head usd" href="/marketindex/exchangeDetail.naver?marketindexCd=FX_USDKRW" onclick="clickcr(this, 'fr1.usdt', '', '', event);">
        <h3 class="h_lst">
         <span class="blind">
          미국 U

In [78]:
exchange_list = soup.select("#exchangeList > li")
exchange_list

[<li class="on">
 <a class="head usd" href="/marketindex/exchangeDetail.naver?marketindexCd=FX_USDKRW" onclick="clickcr(this, 'fr1.usdt', '', '', event);">
 <h3 class="h_lst"><span class="blind">미국 USD</span></h3>
 <div class="head_info point_up">
 <span class="value">1,187.00</span>
 <span class="txt_krw"><span class="blind">원</span></span>
 <span class="change">6.00</span>
 <span class="blind">상승</span>
 </div>
 </a>
 <a class="graph_img" href="/marketindex/exchangeDetail.naver?marketindexCd=FX_USDKRW" onclick="clickcr(this, 'fr1.usdc', '', '', event);">
 <img alt="" height="153" src="https://ssl.pstatic.net/imgfinance/chart/marketindex/FX_USDKRW.png" width="295"/>
 </a>
 <div class="graph_info">
 <span class="time">2021.09.28 20:04</span>
 <span class="source">하나은행 기준</span>
 <span class="count">고시회차<span class="num">318</span>회</span>
 </div>
 </li>,
 <li class="">
 <a class="head jpy" href="/marketindex/exchangeDetail.naver?marketindexCd=FX_JPYKRW" onclick="clickcr(this, 'fr1.jpyt

In [105]:
title = exchange_list[0].select_one(".h_lst").text
exchange = exchange_list[0].select_one(".value").text
change = exchange_list[0].select_one(".change").text
updown = exchange_list[0].select_one(".head_info.point_up > .blind").text

print(title, exchange, change, updown, sep=" | ")


미국 USD | 1,187.00 | 6.00 | 상승


In [111]:
base_url = "https://finance.naver.com"
for data in exchange_list:
    sub_url = data.select_one("a").get("href")
    title = data.select_one(".h_lst").text
    exchange = data.select_one(".value").text
    change = data.select_one(".change").text
    updown = data.select_one(".head_info.point_up > .blind").text

    print(title, exchange, change, updown, base_url+sub_url ,sep=" | ")

미국 USD | 1,187.00 | 6.00 | 상승 | https://finance.naver.com/marketindex/exchangeDetail.naver?marketindexCd=FX_USDKRW
일본 JPY(100엔) | 1,065.15 | 0.32 | 상승 | https://finance.naver.com/marketindex/exchangeDetail.naver?marketindexCd=FX_JPYKRW
유럽연합 EUR | 1,386.42 | 3.65 | 상승 | https://finance.naver.com/marketindex/exchangeDetail.naver?marketindexCd=FX_EURKRW
중국 CNY | 183.63 | 0.94 | 상승 | https://finance.naver.com/marketindex/exchangeDetail.naver?marketindexCd=FX_CNYKRW


In [None]:

exchange_list = []
base_url = "https://finance.naver.com"

for data in exchange_list:
    data = {
        "title" : data.select_one(".h_lst").text,
        "exchange" : data.select_one(".value").text, 
        "change" : data.select_one(".change").text,  
        "updown" :  data.select_one(".head_info.point_up > .blind").text, 
        "link" : data.select_one("a").get("href")
    }
    exchange_list.append(data)

In [113]:
df = pd.DataFrame(exchange_list)
df.to_excel("./naver_finance.xlsx", encoding="utf-8")

  values = np.array([convert(v) for v in values])


In [114]:
! dir

 D ����̺��� �������� �̸��� �����ϴ�.
 ���� �Ϸ� ��ȣ: A479-D011

 d:\����\������Ʈ\��ī������ - �����ͻ��̾� 1��\nekalakubae_data_science_1st\ds_study\code ���͸�

2021-09-29  ���� 12:32    <DIR>          .
2021-09-29  ���� 12:32    <DIR>          ..
2021-09-28  ���� 10:00    <DIR>          .ipynb_checkpoints
2021-09-17  ���� 02:26         1,073,844 .~01. Analysis Seoul CCTV.ipynb
2021-09-24  ���� 12:15         1,073,844 01. Analysis Seoul CCTV.ipynb
2021-09-28  ���� 05:11         7,242,128 02. Analysis Seoul Crime.ipynb
2021-09-11  ���� 09:50       106,266,277 02. Analysis Seoul Crime.pdf
2021-09-28  ���� 11:34             7,001 03. Web Data.ipynb
2021-09-28  ���� 02:15             3,010 folium.html
2021-09-28  ���� 02:15             3,010 folium2.html
2021-09-27  ���� 07:52               267 google_api_key.zip
2021-09-29  ���� 12:32             5,715 naver_finance.xlsx
               9�� ����         115,675,096 ����Ʈ
               3�� ���͸�  1,943,315,070,976 ����Ʈ ����


---

## BeautifulSoup 예제 2 - 여명의 눈동자(위키백과 데이터 가져오기)
- urllib 을 이용한 URL 인코딩 참고 자료 
    - https://brownbears.tistory.com/501

In [7]:
from urllib import parse
from urllib.request import urlopen, Request
from bs4 import BeautifulSoup as bs4

In [16]:
url = 'https://ko.wikipedia.org/wiki/{search_words}'
req = Request(
        url.format(
            search_words=parse.quote("여명의_눈동자") # 한글을 URL로 인코딩
        )
    )
response = urlopen(req)
soup = bs4(response, "html.parser")

In [38]:
for idx, ul in enumerate(soup.find_all("ul")):
    if "채시라" in ul.text:
        print("="*30 + "> 번 라인 :",idx)
        print(ul.text)

채시라 : 윤여옥 역 (아역: 김민정)
박상원 : 장하림(하리모토 나츠오) 역 (아역: 김태진)
최재성 : 최대치(사카이) 역 (아역: 장덕수)
1991년 MBC 연기대상 남자 최우수상 - 최재성
1991년 MBC 연기대상 여자 최우수상 - 채시라
1992년 제28회 백상예술대상 TV부문 대상
1992년 제28회 백상예술대상 TV부문 작품상
1992년 제28회 백상예술대상 TV부문 남자 연기상 - 최재성
1992년 제28회 백상예술대상 TV부문 여자 연기상 - 채시라
1992년 제28회 백상예술대상 TV부문 연출상 - 김종학
1992년 제28회 백상예술대상 TV부문 기술상(촬영) - 조수현
1992년 제28회 백상예술대상 TV부문 남자 인기상 - 박상원
1992년 제19회 한국방송대상 드라마TV부문 최우수 작품상
1992년 제19회 한국방송대상 TV부문 프로듀서상 - 김종학
1992년 제19회 한국방송대상 TV부문 미술상 - 윤상준
당초 윤여옥 역은 김미숙, 안명지 역은 배종옥이 맡을 뻔 했지만 개인사정으로 고사하였다.
줄곧 KBS 드라마에 출연해 오던  최재성이 1990년 KBS 사태 후 다른 방송사로 옮겨 처음 출연한 드라마이기도 했으며[7] 최재성은 《여명의 눈동자》 이후 타방송사에서만 활동해 오다가 <아씨>로 KBS 복귀를 했다.
총 제작기간이 2년 4개월, 출연자와 엑스트라가 모두 21,000명이다.
처음으로 제주4.3사건, 위안부 등을 다루었으며 또한 연출기법 등에 화제가 되었다.[8]
극중 최대치가 뱀을 뜯어먹는 장면은 실제로 배우 최재성이 살아있는 뱀을 뜯는 법을 배워서 직접 껍질을 벗기면서 먹는 장면을 촬영하였으며, 그 후 뱀의 비린내로 고생하였다 한다.
최대치와 윤여옥이 난징에서 헤어지기 전 철조망을 사이에 두고 나눈 키스신, 소위 '철조망 키스신'은 아직까지도 많은 이들로부터 명장면으로 꼽힌다.[9][10]
1992년 2월 25일 채시라는 모교 동국대학교 졸업식에서 '여옥 역을 맡아 학교의 명예를 드높인 점'을 인정받아 민병천 당시 동국대 

In [44]:
main_actor = soup.find_all("ul")[15]
for li in main_actor.find_all("li"):
    data = li.text.strip().replace("\xa0", "")
    print(data, end="\n")

채시라: 윤여옥 역 (아역: 김민정)
박상원: 장하림(하리모토 나츠오) 역 (아역: 김태진)
최재성: 최대치(사카이) 역 (아역: 장덕수)


- 인스턴트타입 확인하기

In [47]:
isinstance(["\xa0",1,2,3,4,5], list)

True

- 얕은 복사

In [48]:
data = [1,2,3,4,5,6]

In [50]:
data_cp = data
data_cp

[1, 2, 3, 4, 5, 6]

In [51]:
data_cp[2] = "데이터교체"
data_cp

[1, 2, '데이터교체', 4, 5, 6]

In [52]:
data

[1, 2, '데이터교체', 4, 5, 6]

- 깊은 복사

In [53]:
data_2 = [9,10,11,12,13]

In [54]:
data_cp_deep = data_2.copy()
data_cp_deep

[9, 10, 11, 12, 13]

In [56]:
data_cp_deep[2] = "데이터교체"
data_cp_deep

[9, 10, '데이터교체', 12, 13]

In [57]:
data_2

[9, 10, 11, 12, 13]

In [58]:
data_2.insert(2, "인덱스2번에추가")

In [59]:
data_2

[9, 10, '인덱스2번에추가', 11, 12, 13]

---

## 2. 시카고 맛집 데이터 분석 - 개요
- https://www.chicagomag.com/Chicago-Magazine/November-2012/Best-Sandwiches-Chicago/
- chicago magazine the 50 best sandwiches

```
최종목표
총 51개 페이지에서 각 가게의 정보를 가져온다.
- 가게 이름
- 대표 메뉴
- 대표 메뉴의 가격
- 가게 주소
```

## 3. 시카고 맛집 데이터 분석 - 
- HTTP 403 Forbidden 클라이언트 오류 상태 응답 코드는 서버에 요청이 전달되었지만, 권한 때문에 거절되었다는 것을 의미합니다.

In [76]:
from urllib.request import Request, urlopen
from bs4 import BeautifulSoup as bs4
from fake_useragent import UserAgent

ModuleNotFoundError: No module named 'fake_useragent'

In [66]:
url_base = "https://www.chicagomag.com/"
url_sub = "Chicago-Magazine/November-2012/Best-Sandwiches-Chicago/"
url = url_base + url_sub
url 

'https://www.chicagomag.com/Chicago-Magazine/November-2012/Best-Sandwiches-Chicago/'

In [71]:
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.63 Safari/537.36"}
req = Request(url, headers=headers)
response = urlopen(req)
response.status

200

In [77]:
! ls

01. Analysis Seoul CCTV.ipynb
02. Analysis Seoul Crime.ipynb
02. Analysis Seoul Crime.pdf
03. Web Data.ipynb
folium.html
folium2.html
google_api_key.zip
naver.py
naver_finance.xlsx


In [80]:
! python -V

Python 3.8.8
