In [22]:
import urllib.request as req
from urllib.error import URLError, HTTPError
import json
from fake_useragent import UserAgent

# urllib 사용법 및 기본 스크랩핑


In [24]:
# 파일 URL
img_url = "https://sesac.seoul.kr/static/common/images/www/common/img_ssac_intro.png"
html_url = "http://google.com"

In [25]:
# 다운받을 경로
save_path1 = "C:/Myexam/test1.jpg"
save_path2 = "C:/Myexam/index.html"

In [26]:
# 예외 처리를 위해 try-except 블록 사용
try:
    # 첫 번째 파일(이미지)을 다운로드하고, 파일과 헤더 정보를 받기
    file1, header1 = req.urlretrieve(img_url, save_path1)
 
    # 두 번째 파일(HTML)을 다운로드하고, 파일과 헤더 정보를 받기
    file2, header2 = req.urlretrieve(html_url, save_path2)
    
# 만약 다운로드 중에 오류가 발생하면 예외 처리
except Exception as e:
    
    # 다운로드 실패 메시지 출력
    print("Download failed.")
    
    # 어떤 오류가 발생했는지 자세히 출력
    print(e)
else:
    # 다운로드가 성공적으로 끝났을 때, 각 파일의 헤더 정보 출력
    print(header1)
    print(header2)
    
    
# 이 코드의 목표는 파일을 다운로드하고, 다운로드 중 문제가 생기면 오류를 출력하며,
# 성공적으로 다운로드되면 파일 정보를 보여주는 것

Date: Mon, 08 Dec 2025 06:48:45 GMT
Content-Type: image/png
Content-Length: 31431
Connection: close
Accept-Ranges: bytes
ETag: W/"31431-1677198054000"
Last-Modified: Fri, 24 Feb 2023 00:20:54 GMT


Date: Mon, 08 Dec 2025 06:29:17 GMT
Expires: -1
Cache-Control: private, max-age=0
Content-Type: text/html; charset=ISO-8859-1
Content-Security-Policy-Report-Only: object-src 'none';base-uri 'self';script-src 'nonce-fhzjibjKAyUjcPlf7Wo6ig' 'strict-dynamic' 'report-sample' 'unsafe-eval' 'unsafe-inline' https: http:;report-uri https://csp.withgoogle.com/csp/gws/other-hp
P3P: CP="This is not a P3P policy! See g.co/p3phelp for more info."
Server: gws
X-XSS-Protection: 0
X-Frame-Options: SAMEORIGIN
Set-Cookie: AEC=AaJma5vPB4tke_P3GRYw_-_VZCf0YuszIL45cIGo5GrC6nFDTJHSl-JF5iU; expires=Sat, 06-Jun-2026 06:29:17 GMT; path=/; domain=.google.com; Secure; HttpOnly; SameSite=lax
Set-Cookie: NID=527=s71vnFk-TlwfZSOnJD-IZ9_4m5yEctGghO0VLyLQVCWYxzkUnEaAuFFV-m29Mco5qc74L2Xol35UApR-gIlUm5RZI-nRicr2-fSxeCxouvSR9

In [27]:
# 다운로드된 파일들의 정보(파일 경로) 출력
print("Filename1 {}".format(file1))
print("Filename2 {}".format(file2))
print()

Filename1 C:/Myexam/test1.jpg
Filename2 C:/Myexam/index.html



In [28]:
# 성공
print("Download Succeed.")

Download Succeed.


# urlopen 함수 기초 사용법

In [30]:
# 다운로드 경로 및 파일명
path_list = ["c:\\MyExam\\test2.jpg", "c:\\MyExam\\index2.html"]

In [31]:
# 다운로드 리소스 URL
target_url = ["https://i.pinimg.com/736x/13/77/b6/1377b6c567a937484e1ce227337ba8bd.jpg",
 "https://www.google.com"]

In [32]:
# target_url 리스트에 있는 각 URL에 대해 반복
for i, url in enumerate(target_url):    # enumerate(target_url)는 target_url 리스트의 각 항목에 대해 **인덱스(번호)**와 값을 반환
    
    # 예외 처리 시작
    try:
        # URL로부터 웹 응답 받기
        response = req.urlopen(url)

        # 웹 응답 내용 읽기
        contents = response.read()
        
        print('---------------------------------------------------')
        
        # 응답 헤더와 상태 코드 출력
        # response.info()는 서버의 응답 헤더를 반환 (예: 서버 이름, 페이지 타입 등)
        print('Header Info-{} : {}'.format(i, response.info()))
        
        # response.getcode()는 HTTP 상태 코드 (200 OK, 404 Not Found 등)를 반환
        print('HTTP Status Code : {}'.format(response.getcode()))
        print()
        print('---------------------------------------------------')
        
        # 다운로드 받은 내용을 지정된 경로에 바이너리 형식으로 저장
        # path_list[i]는 저장할 파일 경로, 'wb'는 바이너리 형식으로 저장하겠다는 뜻
        with open(path_list[i], 'wb') as c:
            c.write(contents)   # 파일에 웹 페이지 내용을 저장
            
    # HTTPError가 발생했을 때의 처리 - 서버에서 오류가 발생한 경우
    except HTTPError as e:
        print("Download failed.")   # 다운로드 실패 메시지 출력
        print('HTTPError Code : ', e.code)  # HTTP 오류 코드 출력 (예: 404, 500 등)
        
    # URLError가 발생했을 때의 처리 - URL이 잘못되었거나 서버에 연결할 수 없는 경우
    except URLError as e:
        print("Download failed.")   # 다운로드 실패 메시지 출력
        print('URL Error Reason : ', e.reason)  # URL 오류 원인 출력
    
    # 예외가 발생하지 않고 정상적으로 다운로드가 완료된 경우
    else:
        print()     # 빈 줄 출력
        print("Download Succeed.")  # 다운로드 성공 메시지 출력
        

# 이 코드의 목적은 여러 URL에서 웹 페이지나 파일을 다운로드하고,
# 다운로드 중 발생할 수 있는 오류를 처리하며, 성공적인 다운로드 후 메시지를 출력하는 것

---------------------------------------------------
Header Info-0 : ETag: "d2d91ac04621da65aeda712d84d47935"
Accept-Ranges: bytes
Content-Type: image/jpeg
Content-Length: 71867
Connection: close
X-Pinterest-Cache-Status-v2: Hit
AKAMAI-GRN: 0.6f9fd817.1765175357.20e26cb1
Vary: Origin
Cache-Control: immutable, max-age=31536000
X-CDN: akamai
Alt-Svc: h3=":443"; ma=604800


HTTP Status Code : 200

---------------------------------------------------

Download Succeed.
---------------------------------------------------
Header Info-1 : Date: Mon, 08 Dec 2025 06:29:17 GMT
Expires: -1
Cache-Control: private, max-age=0
Content-Type: text/html; charset=ISO-8859-1
Content-Security-Policy-Report-Only: object-src 'none';base-uri 'self';script-src 'nonce-CK0THbgs2qul8RpVFKHkgg' 'strict-dynamic' 'report-sample' 'unsafe-eval' 'unsafe-inline' https: http:;report-uri https://csp.withgoogle.com/csp/gws/other-hp
Accept-CH: Sec-CH-Prefers-Color-Scheme
P3P: CP="This is not a P3P policy! See g.co/p3phelp for

# 다음 주식 정보 가져오기

In [34]:
# Fake Header 정보(가상으로 User-Agent 생성)
# 가상으로 웹사이트를 탐색하는 프로그램을 만들기 위해 'User-Agent'를 임의로 생성하는 라이브러리 사용
ua = UserAgent()

In [35]:
# 헤더(웹 요청에 필요한 정보) 선언
# 웹 요청을 보낼 때 필요한 정보들을 담고 있음. 여기서는 어떤 브라우저를 사용하고, 어떤 페이지에서 요청을 보냈는지 알려주기 위한 정보
headers = {
 'User-Agent': ua.chrome,   # 크롬 브라우저를 사용하는 것처럼 설정 (웹사이트를 실제 사람이 방문하는 것처럼 만들기 위해 사용)
 'referer': 'https://finance.daum.net/'     # 요청을 보낸 페이지(이 웹페이지에서 정보를 가져옴)
}

In [36]:
# 주식 정보가 담겨있는 URL 설정
url = "https://finance.daum.net/api/search/ranks?limit=10"

In [37]:
# 주식 정보 요청을 보내고, 응답을 받아서 읽어옴
# 응답을 받아서 res라는 변수에 저장하고, 그 내용을 읽어서 JSON 형식으로 바꿔줌
res = req.urlopen(req.Request(url, headers=headers)).read().decode('utf-8')

In [38]:
# 응답 데이터 확인(Json Data)
# print('res', res)

In [39]:
# 응답 데이터가 JSON 형식으로 오므로, 그 데이터를 파싱해서 쉽게 사용할 수 있도록 변환
rank_json = json.loads(res)['data']     # JSON 데이터를 파이썬에서 다룰 수 있는 형태로 변환

In [40]:
# 중간 확인을 위한 출력 (확인용으로 데이터를 출력)
print('중간 확인 : ', rank_json, '\n')

중간 확인 :  [{'rank': 1, 'rankChange': 0, 'symbolCode': 'A005930', 'shortCode': 'A005930', 'code': 'KR7005930003', 'name': '삼성전자', 'isNew': False, 'tradePrice': 109400, 'change': 'RISE', 'changePrice': 1000, 'changeRate': 0.0092250923, 'signedChangeRate': 0.0092250923, 'accTradeVolume': 13819686, 'accTradePrice': 1510058079450, 'chartSlideImage': None, 'boardUrl': 'https://finance.daum.net/quotes/A005930#talks'}, {'rank': 2, 'rankChange': 0, 'symbolCode': 'A000660', 'shortCode': 'A000660', 'code': 'KR7000660001', 'name': 'SK하이닉스', 'isNew': False, 'tradePrice': 578000, 'change': 'RISE', 'changePrice': 34000, 'changeRate': 0.0625, 'signedChangeRate': 0.0625, 'accTradeVolume': 3889990, 'accTradePrice': 2156148230000, 'chartSlideImage': None, 'boardUrl': 'https://finance.daum.net/quotes/A000660#talks'}, {'rank': 3, 'rankChange': 0, 'symbolCode': 'A086520', 'shortCode': 'A086520', 'code': 'KR7086520004', 'name': '에코프로', 'isNew': False, 'tradePrice': 117400, 'change': 'RISE', 'changePrice': 205

In [42]:
# 주식 정보가 여러 개 들어있는 리스트에서 각각의 항목을 하나씩 출력
for elm in rank_json:
    # print(type(elm)) #Type 확인
    
    # 'rank'는 순위, 'tradePrice'는 금액, 'name'은 회사 이름을 출력
    print('순위 : {}, 금액 : {}, 회사명 : {}'.format(elm['rank'], elm['tradePrice'], elm['name']))

순위 : 1, 금액 : 109400, 회사명 : 삼성전자
순위 : 2, 금액 : 578000, 회사명 : SK하이닉스
순위 : 3, 금액 : 117400, 회사명 : 에코프로
순위 : 4, 금액 : 76900, 회사명 : 두산에너빌리티
순위 : 5, 금액 : 64200, 회사명 : LG씨엔에스
순위 : 6, 금액 : 479, 회사명 : 온타이드
순위 : 7, 금액 : 2020, 회사명 : 진도
순위 : 8, 금액 : 671, 회사명 : 루멘스
순위 : 9, 금액 : 3745, 회사명 : SJM
순위 : 10, 금액 : 55200, 회사명 : 클래시스
