### HTML 웹 크롤링 실습
- 제조업 PMI 데이터 수집
    - tradingeconomics 웹 서비스에서 아시아의 제조업 PMI 데이터를 수집하여 PMI 지표가 상승한 국가의 데이터를 출력
    - `https://ko.tradingeconomics.com/`
    - 지표 -> 사업 -> 제조업 PMI -> 아시아

In [20]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# 웹 서비스 분석: URL

In [26]:
url = "https://ko.tradingeconomics.com/country-list/manufacturing-pmi?continent=asia"

# request : HTML(str)

In [27]:
response = requests.get(url)
response, response.text

(<Response [200]>,

# HTML(str) > BS(obj)

In [28]:
dom = BeautifulSoup(response.content, 'html.parser')

# BS(obj) > css selector 필요한 데이터 수집
### - 크롬 드라이버 엘리먼트 메뉴는 실제 문자열 데이터가 아니라 잘못된 html 고쳐서 보여줌

In [29]:
rows = dom.select(".table > tr")
len(rows), rows[0]

(20,
 <tr class="datatable-row">
 <td style="max-width: 120px; overflow: hidden; padding-left: 10px; text-align: left; font-weight: 600;">
 <a href="/china/manufacturing-pmi">
                                         중국
                                     </a></td>
 <td data-value="53.60">
                                     53.6
                                 </td>
 <td>53</td>
 <td class="hidden-xs"><span>2020-10</span></td>
 <td class="hidden-sm hidden-xs">
                                     포인트
                                 </td>
 </tr>)

In [30]:
rows[0].select('td')[0].text.strip()

'중국'

# 데이터로 데이터 프레임 만들기

In [34]:
column = ["country", "last", "before", "date"]

datas = []
for row in rows:
    data = {}
    for idx, columns in enumerate(column): # 위에 column 안에 있는 이름과 인덱스
        data[columns] = row.select("td")[idx].text.strip()
    datas.append(data)

In [35]:
result_df = pd.DataFrame(datas)
result_df.tail()

Unnamed: 0,before,country,date,last
15,57.9,스리랑카,2020-09,59.8
16,55.2,대만,2020-10,55.1
17,49.9,태국,2020-10,50.8
18,51.0,아랍 에미리트,2020-10,49.5
19,52.2,베트남,2020-10,51.8


1. 아시아 국가별 PMI 지수 데이터 수집

Unnamed: 0,country,last,before,date
15,스리랑카,64.6,67.3,2020-07
16,대만,50.6,46.2,2020-07
17,태국,45.9,43.5,2020-07
18,아랍 에미리트,50.8,50.4,2020-07
19,베트남,47.6,51.1,2020-07


2. PMI 지수 변동률 컬럼 추가

In [37]:
result_df["change"] = result_df["last"].astype("float") - result_df["before"].astype("float")
result_df.tail()

Unnamed: 0,before,country,date,last,change
15,57.9,스리랑카,2020-09,59.8,1.9
16,55.2,대만,2020-10,55.1,-0.1
17,49.9,태국,2020-10,50.8,0.9
18,51.0,아랍 에미리트,2020-10,49.5,-1.5
19,52.2,베트남,2020-10,51.8,-0.4


Unnamed: 0,country,last,before,date,change
15,스리랑카,64.6,67.3,2020-07,-2.7
16,대만,50.6,46.2,2020-07,4.4
17,태국,45.9,43.5,2020-07,2.4
18,아랍 에미리트,50.8,50.4,2020-07,0.4
19,베트남,47.6,51.1,2020-07,-3.5


3. 제조업 PMI가 이전 달보다 안 좋아진 국가리스트 출력

In [38]:
result_df[
    (result_df["change"] < 0) &
    (result_df["last"].astype("float") <= 50)
]

Unnamed: 0,before,country,date,last,change
8,49.0,말레이시아,2020-10,48.5,-0.5
9,35.9,미얀마,2020-10,30.6,-5.3
10,50.1,필리핀,2020-10,48.5,-1.6
18,51.0,아랍 에미리트,2020-10,49.5,-1.5


Unnamed: 0,country,last,before,date,change
1,홍콩,44.5,49.6,2020-07,-5.1
2,인도,46.0,47.2,2020-07,-1.2
4,이스라엘,38.5,39.3,2020-05,-0.8
6,카자흐스탄,48.0,52.9,2020-07,-4.9
8,말레이시아,50.0,51.0,2020-07,-1.0
10,필리핀,48.4,49.7,2020-07,-1.3
15,스리랑카,64.6,67.3,2020-07,-2.7
19,베트남,47.6,51.1,2020-07,-3.5
