# 웹 스크래핑
- 데이터를 인터넷에서 긁어오기(스크랩)하는 과정

### 네이버 웹툰 가져오기
1. 해당하는 작품의 게시판에 접근한다
2. 게시판에 작품의 총 회차 수를 센다
3. 총 회차에 해당하는 숫자 범위를 지정한다(49화까지 있다고 가정할 때, 1~49)
4. 2,3번을 조합해서 작품의 전체 회차에 해당하는 링크를 얻는다
5. 링크에 접속한다
6. 전체 이미지를 가져온다

### 학습 순서
1. 한장의 이미지를 가져와본다
2. 한 회차의 이미지를 가져와본다
3. 한 작품의 전체 회차의 이미지를 가져와본다

In [2]:
#웹과 통신을 하기 위한 라이브러리
import requests
from bs4 import BeautifulSoup

#이미지를 파일로 저장하기 위한 내장 라이브러리
import os

#### 한장의 이미지 가져오기

In [4]:
#접근하고자 하는 주소와 유저임을 증명하는 증명 정보 가져오기
url = 'https://comic.naver.com/webtoon/detail?titleId=769663&no=40&weekday=mon'
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36'}

#통신 요청하기(requests)
webtoon = requests.get(url, headers = header)
#웹 페이지의 태그들을 txt 형태로 가져오기
soup = BeautifulSoup(webtoon.text, 'html.parser') 
wtViewer = soup.find('div', {'class':'wt_viewer'})
imgUrl = wtViewer.find_all('img')[0]['src']
imgRequest = requests.get(imgUrl, headers = header)

#이미지 파일을 저장하기 위한 경로 설정
savePath = 'C:/Users/sparkle/Desktop/wt/'
try:
    if not os.path.exists(savePath):
        os.makedirs(savePath)
except OSError:
    print('error : 이미 폴더가 존재합니다')
    
#파일 경로에 이미지 파일을 저장
imgNum = 0
with open(savePath + str(imgNum) + '.png', 'wb') as f:
    f.write(imgRequest.content)
f.close()

#### 웹툰 한 화의 이미지를 가져오기

In [13]:
# #이미지 파일을 저장하기 위한 경로 설정
# savePath = 'C:/Users/sparkle/Desktop/wt/'
# try:
#     if not os.path.exists(savePath):
#         os.makedirs(savePath)
# except OSError:
#     print('error : 이미 폴더가 존재합니다')

#접근하고자 하는 주소와 유저임을 증명하는 증명 정보 가져오기
url = 'https://comic.naver.com/webtoon/detail?titleId=769663&no=40&weekday=mon'
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36'}

#통신 요청하기(requests)
webtoon = requests.get(url, headers = header)
#웹 페이지의 태그들을 txt 형태로 가져오기
soup = BeautifulSoup(webtoon.text, 'html.parser') 
wtViewer = soup.find('div', {'class':'wt_viewer'})
imgUrl = wtViewer.find_all('img')

imgNum = 0
for imgTag in imgUrl:
    imgRequest = requests.get(imgTag['src'], headers = header)

    #파일 경로에 이미지 파일을 저장
    with open(savePath + str(imgNum) + '.png', 'wb') as f:
        f.write(imgRequest.content)
    f.close()
    imgNum+=1 

#### 전체 회차를 가져오기

In [15]:
#접근하고자 하는 주소와 유저임을 증명하는 증명 정보 가져오기
url = 'https://comic.naver.com/webtoon/detail?titleId=769663&no=40&weekday=mon'
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36'}

temp = 'https://comic.naver.com/webtoon/detail?titleId=769663&no='
wtList = []
for i in range(1,50):
    wtList.append(temp + str(i))

fileNum = 0
for wtUrl in wtList:
    #이미지 파일을 저장하기 위한 경로 설정
    savePath = 'C:/Users/sparkle/Desktop/wt/'+str(fileNum) + '/'
    fileNum+=1
    try:
        if not os.path.exists(savePath):
            os.makedirs(savePath)
    except OSError:
        print('error : 이미 폴더가 존재합니다')
    
    #통신 요청하기(requests)
    webtoon = requests.get(wtUrl, headers = header)
    #웹 페이지의 태그들을 txt 형태로 가져오기
    soup = BeautifulSoup(webtoon.text, 'html.parser') 
    wtViewer = soup.find('div', {'class':'wt_viewer'})
    imgUrl = wtViewer.find_all('img')

    imgNum = 0
    for imgTag in imgUrl:
        imgRequest = requests.get(imgTag['src'], headers = header)

        #파일 경로에 이미지 파일을 저장
        with open(savePath + str(imgNum) + '.png', 'wb') as f:
            f.write(imgRequest.content)
        f.close()
        imgNum+=1 

### 국가 코드 가져오기(문자 데이터)

In [26]:
#url 선정
url = 'https://www.iban.com/currency-codes'
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36'}

#request 요청
country = requests.get(url,headers = header)
soup = BeautifulSoup(country.text, 'html.parser') #ㅣxml로 접근가능
tbody = soup.find('tbody')
trList = tbody.find_all('tr')

# tdList = [[td.text for td in td.find_all('td')] for td in trList]
tdList = []
for td in trList:
    tdList.append([td.text for td in td.find_all('td')])

[['AFGHANISTAN', 'Afghani', 'AFN', '971'],
 ['ÅLAND ISLANDS', 'Euro', 'EUR', '978'],
 ['ALBANIA', 'Lek', 'ALL', '008'],
 ['ALGERIA', 'Algerian Dinar', 'DZD', '012'],
 ['AMERICAN SAMOA', 'US Dollar', 'USD', '840'],
 ['ANDORRA', 'Euro', 'EUR', '978'],
 ['ANGOLA', 'Kwanza', 'AOA', '973'],
 ['ANGUILLA', 'East Caribbean Dollar', 'XCD', '951'],
 ['ANTARCTICA', 'No universal currency', '', ''],
 ['ANTIGUA AND BARBUDA', 'East Caribbean Dollar', 'XCD', '951'],
 ['ARGENTINA', 'Argentine Peso', 'ARS', '032'],
 ['ARMENIA', 'Armenian Dram', 'AMD', '051'],
 ['ARUBA', 'Aruban Florin', 'AWG', '533'],
 ['AUSTRALIA', 'Australian Dollar', 'AUD', '036'],
 ['AUSTRIA', 'Euro', 'EUR', '978'],
 ['AZERBAIJAN', 'Azerbaijanian Manat', 'AZN', '944'],
 ['BAHAMAS (THE)', 'Bahamian Dollar', 'BSD', '044'],
 ['BAHRAIN', 'Bahraini Dinar', 'BHD', '048'],
 ['BANGLADESH', 'Taka', 'BDT', '050'],
 ['BARBADOS', 'Barbados Dollar', 'BBD', '052'],
 ['BELARUS', 'Belarussian Ruble', 'BYN', '933'],
 ['BELGIUM', 'Euro', 'EUR', '978

In [27]:
import pandas as pd

In [31]:
country_code = pd.DataFrame(tdList)
country_code[2].isnull().value_counts()

False    269
Name: 2, dtype: int64

In [41]:
#국가 코드가 없는 나라인 경우 code탭과 number 탭에 공백문자('')가 들어가 있어 isnull 처리가 안됨
#때문에 통화가 없는 국가의 경우 currency 탭에 'No universal currency'가 들어가 있으므로 이에 해당하는 데이터를 제외한 데이터들만
#변수에 따로 담음
country_code = country_code[country_code[1] != 'No universal currency']

In [45]:
#데이터를 엑셀로 빼기
country_code.to_excel('국가코드리스트.xlsx')

In [46]:
country_code

Unnamed: 0,0,1,2,3
0,AFGHANISTAN,Afghani,AFN,971
1,ÅLAND ISLANDS,Euro,EUR,978
2,ALBANIA,Lek,ALL,008
3,ALGERIA,Algerian Dinar,DZD,012
4,AMERICAN SAMOA,US Dollar,USD,840
...,...,...,...,...
264,WALLIS AND FUTUNA,CFP Franc,XPF,953
265,WESTERN SAHARA,Moroccan Dirham,MAD,504
266,YEMEN,Yemeni Rial,YER,886
267,ZAMBIA,Zambian Kwacha,ZMW,967
