In [80]:
#!pip install requests

In [24]:
import requests
import json
import datetime
import urllib.request as request
from bs4 import BeautifulSoup as bs

In [25]:
data_path = './data'
out_path = './output'

# 웹 크롤링(BeautifulSoup)

## 1 requests 라이브러리

In [26]:
url = 'https://www.python.org/'
response = requests.get(url)
response # 정상적인 통신이 이루어짐

<Response [200]>

In [27]:
# print(response.text)

In [28]:
# 페이지가 없는 경우에도 에러가 발생하지 않고
# <Response [404]>를 리턴
url = 'https://www.python.org/1'
response = requests.get(url)
response # 해당 페이지를 찾을 수 없음

<Response [404]>

In [29]:
# 헤더 정보를 확인
url = 'https://planet-trade.kr/header_info.php'

# 1. requests를 이용해서 접속을 하면, 브라우저의 정보가
# requests의 모듈 정보로 나옴
# 서버에서 해당 정보를 보고 크롤링을 판단할 수 있다.

In [30]:
response = requests.get(url)
soup = bs(response.text, 'html.parser')
print(soup)

접속 IP : 114.206.162.72
접속 정보 : python-requests/2.32.2




  soup = bs(response.text, 'html.parser')


In [31]:
# 2. requests에서 헤더 정보를 변경할 수 있다
requests_headers = {
    'User-Agent' : ('Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/128.0.0.0 Safari/537.36 Edg/128.0.0.0'),
    'Referer' : ''
}

response = requests.get(url, headers = requests_headers)
soup = bs(response.text, 'html.parser')
print(soup)

접속 IP : 114.206.162.72
접속 정보 : Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/128.0.0.0 Safari/537.36 Edg/128.0.0.0




  soup = bs(response.text, 'html.parser')


In [32]:
# requests 사용법
url = 'https://www.naver.com/'
response = requests.get(url)
html = response.text # response객체의 text 속성을 지정하면 html 정보 반환
# print(html) # html 소스가 출력

In [33]:
# response객체의 headers 속성 지정하면 헤더 정보 반환
headers = response.headers
print(headers)
print(type(headers))
# 서버에서 헤더 정보가 json타입 형태로 들어온다.

{'Date': 'Wed, 30 Oct 2024 06:46:26 GMT', 'content-type': 'text/html; charset=UTF-8', 'transfer-encoding': 'chunked', 'set-cookie': 'PM_CK_loc=48014f67517a5e2086232a6ae9e72adf084db79999517c5fbe6596a94e620fa2; Expires=Thu, 31 Oct 2024 06:46:26 GMT; Path=/; HttpOnly', 'cache-control': 'no-cache, no-store, must-revalidate', 'pragma': 'no-cache', 'x-frame-options': 'DENY', 'x-xss-protection': '1; mode=block', 'content-encoding': 'gzip', 'strict-transport-security': 'max-age=63072000; includeSubdomains', 'referrer-policy': 'unsafe-url', 'server': 'nfront'}
<class 'requests.structures.CaseInsensitiveDict'>


## 2 BeautifulSoup 패키지

In [34]:
# beautifulSoup: 구문을 분석해서 필요한 내용만 추출할 수 있는
# 기능을 가지고 있는 외부 패키지

with open(data_path+'/sample.html', 'rt', encoding='UTF-8') as file:
    html = file.read()

In [35]:
# html.parser : html코드를 사용하기 쉽게 BeautifulSoup의
# 객체로 파싱
soup = bs(html, 'html.parser')
print(type(soup))
# print(soup)

<class 'bs4.BeautifulSoup'>


In [36]:
print(soup.find('title').text)

sample


In [37]:
print(soup.find('div').text)

Division의 약자로, 레이아웃을 나누는데 사용.


In [38]:
print(soup.find('h1'))

<h1>This is heading1 text.</h1>


In [39]:
print(soup.find('h1').text)

This is heading1 text.


## 3 BeatifulSoup 실습

### find() 메서드 사용하기

In [40]:
# 위키피디아 '대구광역시' 페이지 
url = 'https://ko.wikipedia.org/wiki/%EB%8C%80%EA%B5%AC%EA%B4%91%EC%97%AD%EC%8B%9C'
response = requests.get(url)
soup = bs(response.text, 'html.parser')
print(type(soup))
# print(soup)

<class 'bs4.BeautifulSoup'>


In [41]:
# find() 메서드 이용하기

# img 태그 중에서 제일 먼저 나오는 것
first_img = soup.find(name = 'img')
print(type(first_img))
print(first_img)

<class 'bs4.element.Tag'>
<img alt="" aria-hidden="true" class="mw-logo-icon" height="50" src="/static/images/icons/wikipedia.png" width="50"/>


In [42]:
target_img = soup.find(name='img', attrs = {'alt':'Daedongyeojido (Gyujanggak) 17-02.jpg'})
print(target_img)

<img alt="Daedongyeojido (Gyujanggak) 17-02.jpg" class="mw-file-element" data-file-height="3005" data-file-width="4000" decoding="async" height="376" src="//upload.wikimedia.org/wikipedia/commons/thumb/c/c5/Daedongyeojido_%28Gyujanggak%29_17-02.jpg/500px-Daedongyeojido_%28Gyujanggak%29_17-02.jpg" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/c/c5/Daedongyeojido_%28Gyujanggak%29_17-02.jpg/750px-Daedongyeojido_%28Gyujanggak%29_17-02.jpg 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/c/c5/Daedongyeojido_%28Gyujanggak%29_17-02.jpg/1000px-Daedongyeojido_%28Gyujanggak%29_17-02.jpg 2x" width="500"/>


In [43]:
test = soup.find(name='td',attrs={'class':'infobox-data'})
print(type(test))
print('-'*20)
print(test)
print('-'*20)
print(test.text)

<class 'bs4.element.Tag'>
--------------------
<td class="infobox-data"><span class="flagicon"><span class="mw-image-border" typeof="mw:File"><a class="mw-file-description" href="/wiki/%ED%8C%8C%EC%9D%BC:Flag_of_South_Korea.svg"><img alt="대한민국의 기" class="mw-file-element" data-file-height="600" data-file-width="900" decoding="async" height="15" src="//upload.wikimedia.org/wikipedia/commons/thumb/0/09/Flag_of_South_Korea.svg/22px-Flag_of_South_Korea.svg.png" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/0/09/Flag_of_South_Korea.svg/33px-Flag_of_South_Korea.svg.png 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/0/09/Flag_of_South_Korea.svg/44px-Flag_of_South_Korea.svg.png 2x" width="22"/></a></span></span> <a href="/wiki/%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%AD" title="대한민국">대한민국</a></td>
--------------------
 대한민국


In [44]:
test2 = soup.find(name='h1', attrs = {'id':'firstHeading'})
print(type(test2))
print('-'*20)
print(test2)
print('-'*20)
print(test2.text)

<class 'bs4.element.Tag'>
--------------------
<h1 class="firstHeading mw-first-heading" id="firstHeading"><span class="mw-page-title-main">대구광역시</span></h1>
--------------------
대구광역시


### find_all() 메서드 사용하기

#### 1. 네이버 -> 스포츠 -> 박스 뉴스 제목 가져오기

In [45]:
url = 'https://sports.news.naver.com/index'
response = requests.get(url)
soup = bs(response.text, 'html.parser')
# print(soup)

In [46]:
today_list = soup.find(name = 'ul', attrs = {'class':'today_list'})
# print(today_list)

In [47]:
today_list_title = today_list.find_all(name = 'strong', attrs={'class':'title'})
print(today_list_title)

[<strong class="title">"내가 괜히 가는 바람에" 류중일 감독의 한숨…'158km 파이어볼러' 이강준, 팔꿈치 부상으로 '낙마' </strong>, <strong class="title">손흥민 또또또 트로피 놓치나…포스텍 "쏘니, 맨시티전 빠진다"→카라바오컵 탈락 위기</strong>, <strong class="title">2009년 WS 우승 퍼레이드 보던 꼬마, 만루포로 양키스 벼랑 끝에서 구하다</strong>, <strong class="title">롯데 '제 2의 이정후'가 왜 여기에? 가을리그 MVP 등극, 내년엔 김태형 마음 사로 잡을까</strong>, <strong class="title">200만원 날린 멍청한 관중들, 베츠 수비 방해로 퇴장→양키스 대승 직관 놓쳤다</strong>, <strong class="title">히샬리송 충격 선언 "발롱도르 후보에 날 넣지 마! …비니시우스 때문에 화 났어"</strong>]


In [48]:
for title in today_list_title:
    print(title.text)

"내가 괜히 가는 바람에" 류중일 감독의 한숨…'158km 파이어볼러' 이강준, 팔꿈치 부상으로 '낙마' 
손흥민 또또또 트로피 놓치나…포스텍 "쏘니, 맨시티전 빠진다"→카라바오컵 탈락 위기
2009년 WS 우승 퍼레이드 보던 꼬마, 만루포로 양키스 벼랑 끝에서 구하다
롯데 '제 2의 이정후'가 왜 여기에? 가을리그 MVP 등극, 내년엔 김태형 마음 사로 잡을까
200만원 날린 멍청한 관중들, 베츠 수비 방해로 퇴장→양키스 대승 직관 놓쳤다
히샬리송 충격 선언 "발롱도르 후보에 날 넣지 마! …비니시우스 때문에 화 났어"


In [49]:
result_list = []
for data in today_list_title:
    result = data.text
    result_list.append(result)

result_list

['"내가 괜히 가는 바람에" 류중일 감독의 한숨…\'158km 파이어볼러\' 이강준, 팔꿈치 부상으로 \'낙마\' ',
 '손흥민 또또또 트로피 놓치나…포스텍 "쏘니, 맨시티전 빠진다"→카라바오컵 탈락 위기',
 '2009년 WS 우승 퍼레이드 보던 꼬마, 만루포로 양키스 벼랑 끝에서 구하다',
 "롯데 '제 2의 이정후'가 왜 여기에? 가을리그 MVP 등극, 내년엔 김태형 마음 사로 잡을까",
 '200만원 날린 멍청한 관중들, 베츠 수비 방해로 퇴장→양키스 대승 직관 놓쳤다',
 '히샬리송 충격 선언 "발롱도르 후보에 날 넣지 마! …비니시우스 때문에 화 났어"']

#### 2. 네이버 뉴스 -> IT/과학 -> 헤드라인

In [50]:
url_news = 'https://news.naver.com/section/105'
response = requests.get(url_news)
soup = bs(response.text,'html.parser')
# print(soup)

In [51]:
headline_list = soup.find_all(name='div', attrs= {'class':'sa_text'})
# headline_list

In [54]:
# find_all로 나온 데이터를 .text를 하려면 for문을 한번 더 돌여야 함.
title_list = []
for headline in headline_list:
    title = headline.find_all(name='strong',attrs={'class':'sa_text_strong'})
    # print(title)
    for data in title:
        title_list.append(data.text)
    press = headline.find_all(name='div',attrs={'class':'sa_text_press'})
    # print(press)
    # for i,v in enumerate(press):
        # print(i)
        # print(v.text)
        # print(title[i].text, v.text, sep = '/')
        # print(f'{title[i].text} / {v.text}')
# print('='*100)
print(title_list[:10])

['ETRI, 슈퍼컴퓨터용 ‘가속기 칩’ 개발…“슈퍼컴 제조국에 도전”', "30주년 넥슨이 바라보는 것은 '글로벌 기업·착한 기업'", '비티이, 국산 수소연료전지 발전기 ‘GEN50’ 북미지역 수출', 'KT, 네트워크 운용 자회사 전출자 모집기한 내달 4일로 연장', '삼성SDS, 클라우드·디지털 물류 성장에\xa0 3분기도 날았다', 'CJ올리브넷, 국내 최대 공공 버츄얼 프로덕션 스튜디오 구축한다', '한-미 우주 협력 새 이정표…韓, 국제 달 탐사 본격 협력', 'KT클라우드, 대규모 경력직 공채 진행…전 분야서 00명 채용', '"백수저 셰프 요리도 집에서"…롯데홈쇼핑, 셀럽과 협업해 미식 트렌드 선도', '전공의 대표, 이번엔 한동훈 저격…"尹과 다를 게 뭔지 모르겠다"']


#### 3. 다음 뉴스

In [55]:
url_daum = 'https://news.daum.net/'
response = requests.get(url_daum)
soup = bs(response.text,'html.parser')

In [56]:
# print(soup)

In [57]:
news_title = soup.find_all(name = 'div', attrs={'class':'item_issue'})
# news_title

In [58]:
for news in news_title:
    print(news.find(name = 'a').get('href')) # 링크

https://v.daum.net/v/20241030144016061
https://v.daum.net/v/20241030154317044
https://v.daum.net/v/20241030152517126
https://v.daum.net/v/20241030152219000
https://v.daum.net/v/20241030145324658
https://v.daum.net/v/20241030151244613
https://v.daum.net/v/20241030152803289
https://v.daum.net/v/20241030145004509
https://v.daum.net/v/20241030153252532
https://v.daum.net/v/20241030152704231
https://v.daum.net/v/20241030153746794
https://v.daum.net/v/20241030151101526
https://v.daum.net/v/20241030145013515
https://v.daum.net/v/20241030152101943
https://v.daum.net/v/20241030152630188
https://v.daum.net/v/20241030152807293
https://v.daum.net/v/20241030152207990
https://v.daum.net/v/20241030150901435
https://v.daum.net/v/20241030151927880
https://v.daum.net/v/20241030152438077


In [34]:
with open('./output/daum_news_links_0827.txt','w') as file:
    for news in news_title:
        file.write(news.find(name='a').get('href') + '\n')

### select_one() 메서드 사용하기

#### 1. 위키백과 -> 대구광역시 -> 상징 -> 시조 -> 독수리 가져오기

In [35]:
url_wiki = 'https://ko.wikipedia.org/wiki/%EB%8C%80%EA%B5%AC%EA%B4%91%EC%97%AD%EC%8B%9C'
response = requests.get(url_wiki)
soup = bs(response.text,'html.parser')

##### select 계열의 메서드는 css selecteor 이용가능!
- '.' : class 속성
- '#' : id 속성

In [36]:
tag = soup.select_one('#mw-content-text ul')
tag

<ul><li><a href="/wiki/%EB%8F%85%EC%88%98%EB%A6%AC" title="독수리">독수리</a> : 대구의 활달하고 진취적인 기상과 개척자적 시민정신을 나타낸다.</li></ul>

In [37]:
tag.select_one('a').text

'독수리'

#### 2. 다음 뉴스 -> IT -> 오늘의 연재의 첫번째 글 제목과 신문사 가져오기

In [16]:
url = 'https://news.daum.net/digital#1'
response = requests.get(url)
soup = bs(response.text, 'html.parser')

In [17]:
tag_series = soup.select_one('body > div.container-doc.cont-category > main > section > div.main-sub > div:nth-child(5) > ul > li')
# tag_series

In [40]:
tag_series_title = tag_series.select_one('.link_txt').text
tag_series_title

'정보통신설비 유지보수 제도'

In [41]:
tag_series_press = tag_series.select_one('.txt_info').text
tag_series_press

'전자신문'

In [42]:
print(f'뉴스 제목 : {tag_series_title}')
print(f'신문사 : {tag_series_press}')

뉴스 제목 : 정보통신설비 유지보수 제도
신문사 : 전자신문


### select() 메서드 사용하기

#### 1. 다음 뉴스 -> IT -> 오늘의 연재의 제목과 신문사 가져오기

In [18]:
url = 'https://news.daum.net/digital#1'
response = requests.get(url)
soup = bs(response.text, 'html.parser')

In [19]:
tag_series = soup.select('.item_todayseries')
# tag_series

In [45]:
for tag in tag_series:
    tag_series_title = tag.select_one('.link_txt').text
    print(f'# 뉴스 제목 : {tag_series_title}')
    tag_series_press = tag.select_one('.txt_info').text
    print(f'# 신문사 : {tag_series_press}')
    print('-'*50)

# 뉴스 제목 : 정보통신설비 유지보수 제도
# 신문사 : 전자신문
--------------------------------------------------
# 뉴스 제목 : 산업 특화 AI 기업 마키나락스 "AI 생태계 구축 협력"
# 신문사 : 한국경제
--------------------------------------------------
# 뉴스 제목 : 노석준의 메타버스 세상…산타가 코카콜라 마신 이유
# 신문사 : 연합뉴스
--------------------------------------------------
# 뉴스 제목 : ESG 평가지표 'A' 받은 게임사 늘어…'지속가능경영' 노력 통했다
# 신문사 : 아이뉴스24
--------------------------------------------------
# 뉴스 제목 : 2. 정부 연구개발 분야에 기획자가 필요한 이유
# 신문사 : IT동아
--------------------------------------------------
# 뉴스 제목 : 분해만 500년 플라스틱 쓰레기…미생물이 없앤다
# 신문사 : 뉴스1
--------------------------------------------------
# 뉴스 제목 : 흑백요리사들도 거친 그곳... 샌프란시스코는 어떻게 '미식의 도시'가 됐나
# 신문사 : 한국일보
--------------------------------------------------
# 뉴스 제목 : 〈68〉비판 없는 수용이 낳은 AI 함정
# 신문사 : 전자신문
--------------------------------------------------
# 뉴스 제목 : 〈15〉한화그룹 기술 가치, 실체와 진정성 담은 콘텐츠로 호평
# 신문사 : 전자신문
--------------------------------------------------


In [46]:
# 파일로 내보내기
with open('./output/daum_IT_news_0827.txt','w') as file:
    for tag in tag_series:
        tag_series_title = tag.select_one('.link_txt').text
        tag_series_press = tag.select_one('.txt_info').text
        file.write(f'뉴스 제목 : {tag_series_title}\n')
        file.write('-'*50 + '\n')
        file.write(f'신문사 : {tag_series_press}\n')
        file.write('='*60 + '\n')

#### 2. CGV 무비차트에서 순위별로 영화 제목 가져오기

In [47]:
url = 'http://www.cgv.co.kr/movies/'
response = requests.get(url)
soup = bs(response.text,'html.parser')

In [48]:
title = soup.select('strong.title')
title

[<strong class="title">베놈: 라스트 댄스</strong>,
 <strong class="title">리틀 엠마</strong>,
 <strong class="title">보통의 가족</strong>,
 <strong class="title">대도시의 사랑법</strong>,
 <strong class="title">오후 네시</strong>,
 <strong class="title">임영웅ㅣ아임 히어로 더 스타디움</strong>,
 <strong class="title">너의 색</strong>,
 <strong class="title">공작새</strong>,
 <strong class="title">노트북</strong>,
 <strong class="title">하이라이트: 라이츠 고 온, 어게인 인 시네마</strong>,
 <strong class="title">결혼, 하겠나?</strong>,
 <strong class="title">베테랑2</strong>,
 <strong class="title">와일드 로봇</strong>,
 <strong class="title">세상 참 예쁜 오드리</strong>,
 <strong class="title">블루 자이언트</strong>,
 <strong class="title">[클래식인시네마] 가을의 음악가, 브람스와 말러</strong>,
 <strong class="title">6시간 후 너는 죽는다</strong>,
 <strong class="title">어프렌티스</strong>,
 <strong class="title">폭설</strong>]

In [49]:
for data in title:
    title_one = data.text
    print(title_one)

베놈: 라스트 댄스
리틀 엠마
보통의 가족
대도시의 사랑법
오후 네시
임영웅ㅣ아임 히어로 더 스타디움
너의 색
공작새
노트북
하이라이트: 라이츠 고 온, 어게인 인 시네마
결혼, 하겠나?
베테랑2
와일드 로봇
세상 참 예쁜 오드리
블루 자이언트
[클래식인시네마] 가을의 음악가, 브람스와 말러
6시간 후 너는 죽는다
어프렌티스
폭설


### 이미지 크롤링
- img태그의 src속성을 가져온다.
- request.get(이미지경로)를 이용해서 response 받아온다.
- response를 binary 타입으로 파일 저장

#### 1. 영문 위키피디아 -> 검색 -> 이미지 저장
- ex) 자이언트 판다를 영어로 검색

In [50]:
url = 'https://en.wikipedia.org/wiki/Giant_panda'
response = requests.get(url)
soup = bs(response.text, 'html.parser')

In [51]:
# img 태그 -> src 속성의 값을 가져온다
target_img = soup.select_one('#mw-content-text > div.mw-content-ltr.mw-parser-output > table > tbody > tr:nth-child(2) > td > span > a > img')
print(f'html 요소 : {target_img}')

html 요소 : <img class="mw-file-element" data-file-height="2848" data-file-width="4272" decoding="async" height="147" src="//upload.wikimedia.org/wikipedia/commons/thumb/0/0f/Grosser_Panda.JPG/220px-Grosser_Panda.JPG" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/0/0f/Grosser_Panda.JPG/330px-Grosser_Panda.JPG 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/0/0f/Grosser_Panda.JPG/440px-Grosser_Panda.JPG 2x" width="220"/>


In [52]:
target_img_src = target_img.get('src')
print(f'이미지 파일 경로 :{target_img_src}')

이미지 파일 경로 ://upload.wikimedia.org/wikipedia/commons/thumb/0/0f/Grosser_Panda.JPG/220px-Grosser_Panda.JPG


In [53]:
# 이미지 경로를 이용해서 response를 받아온다.
response_img = requests.get('http:' + target_img_src)
response_img

<Response [200]>

In [54]:
# 바이너리 모드로 파일을 저장
out_file_path = out_path+'/giant_panda.jpg'
with open(out_file_path, 'wb') as file:
    file.write(response_img.content)
    print('이미지 파일로 저장하였습니다!')

이미지 파일로 저장하였습니다!


In [55]:
url = 'https://en.wikipedia.org/wiki/Giant_panda'
response = requests.get(url)
soup = bs(response.text, 'html.parser')

#### 2. 벅스 차트 이미지 크롤링 -> 이미지 파일 저장

In [56]:
# 폴더 생성
import os
path_save = out_path+'/bugs_img/'

if not os.path.exists(path_save): # 폴더가 없다면 생성
    os.makedirs(path_save)

In [20]:
url = 'https://music.bugs.co.kr/chart'
response = requests.get(url)
soup = bs(response.text,'html.parser')

In [21]:
bugs = soup.select('#CHARTrealtime > table > tbody > tr')
# bugs

In [None]:
# 앨범 이미지, 곡 제목, 가수, 앨범
for idx, item in enumerate(bugs, start =1):
    print(f'{str(idx)+"위":=^40}')
    print(f'곡 제목 : {item.select_one(".title").text.strip().replace("?","")}')
    print(f'가수 : {item.select_one(".artist").text.strip()}')
    print(f'앨범 : {item.select_one(".album").text.strip()}')
    print()
    album = item.select_one('img').get('src')
    # print(album)
    response_album = requests.get(album)
    file_name = f'{path_save}{idx}위_{item.select_one(".title").text.strip().replace("?","")}.jpg'
    with open(file_name,'wb') as file:
        file.write(response_album.content)

곡 제목 : APT.
가수 : 로제(ROSÉ)


로제(ROSÉ)
앨범 : APT.

곡 제목 : Whiplash
가수 : aespa
앨범 : Whiplash - The 5th Mini Album

곡 제목 : Mantra
가수 : 제니 (JENNIE)
앨범 : Mantra

곡 제목 : UP (KARINA Solo)
가수 : aespa
앨범 : SYNK : PARALLEL LINE - Special Digital Single

곡 제목 : 내 이름 맑음
가수 : QWER
앨범 : 2nd Mini Album 'Algorithm's Blossom'

곡 제목 : HAPPY
가수 : DAY6 (데이식스)
앨범 : Fourever

곡 제목 : Drowning
가수 : WOODZ
앨범 : OO-LI

곡 제목 : Supernova
가수 : aespa
앨범 : Armageddon - The 1st Album

곡 제목 : 내게 사랑이 뭐냐고 물어본다면
가수 : 로이킴
앨범 : 내게 사랑이 뭐냐고 물어본다면

곡 제목 : 녹아내려요
가수 : DAY6 (데이식스)
앨범 : Band Aid

곡 제목 : TRIGGER (導火線)
가수 : 더보이즈(THE BOYZ)
앨범 : THE BOYZ 9th MINI ALBUM [導火線]

곡 제목 : Cherish (My Love)
가수 : 아일릿(ILLIT)
앨범 : I’LL LIKE YOU

곡 제목 : 한 페이지가 될 수 있게
가수 : DAY6 (데이식스)
앨범 : The Book of Us : Gravity

곡 제목 : Welcome to the Show
가수 : DAY6 (데이식스)
앨범 : Fourever

곡 제목 : 고민중독
가수 : QWER
앨범 : 1st Mini Album 'MANITO'

곡 제목 : Supernatural
가수 : NewJeans
앨범 : Supernatural

곡 제목 : Supersonic
가수 : 프로미스나인
앨범 : Supersonic

곡 제목 : How Sweet
가수 : NewJ

### 실습 과제

#### 알라딘 -> 컴퓨터 모바일 -> 베스트 셀러 책이름 가져오기

In [22]:
url = 'https://www.aladin.co.kr/shop/common/wbest.aspx?BestType=Bestseller&BranchType=1&CID=351'
response = requests.get(url)
soup = bs(response.text,'html.parser')
# soup

In [23]:
best_list = soup.find_all(name = 'div', attrs = {'class':'ss_book_box'})
# print(best_list)

In [62]:
title_list = []
for data in best_list:
    title_all = data.find(name='a',attrs={'class':'bo3'})
    # print(title_all) # 문자열 하나씩 나오는 것을
    title_list.append(title_all.text) # 리스트에 추가
    
print(title_list)

['박태웅의 AI 강의 2025', '진짜 쓰는 실무 엑셀', '머니코치 최준호의 네이버 3대장 마케팅', '비전공자도 이해할 수 있는 AI 지식 (10만부 기념 개정판)', '디자인 구구단', '2022 개정 교육과정 평가, AI로 날개를 달다 : 개념기반 교육과정', '소프트웨어 엔지니어 가이드북', '이게 되네? 챗GPT 미친 활용법 51제', '인공지능이 다 해주는 브루 Vrew 영상 편집', '파이썬 라이브러리를 활용한 데이터 분석', '한 권으로 배우는 게임 프로그래밍', '케라스로 구현하는 딥러닝', '된다! 하루 만에 끝내는 챗GPT 활용법', '정말 쉽네? 챗GPT 입문', '회사는 엑셀을 가르쳐주지 않아요', '색 잘 쓰는 디자이너', '잘 읽히는 보고서 문장의 비밀', '밑바닥부터 시작하는 딥러닝 5', '혼자 공부하는 컴퓨터 구조 + 운영체제', '투시 드로잉', '전혀 다른 생성형 AI', '블록체인 프로젝트', '혼자 공부하는 파이썬', '진짜 쓰는 프리미어 프로 영상 편집', '혼자 공부하는 네트워크', 'Do it! 점프 투 파이썬', '2024 시대에듀 유선배 SQL개발자(SQLD) 과외노트', 'JVM 밑바닥까지 파헤치기', '블렌더로 애니 그림체 캐릭터를 만들어보자! : 카툰 렌더링편', 'FastAPI로 배우는 백엔드 프로그래밍 with 클린 아키텍처', '가상 면접 사례로 배우는 대규모 시스템 설계 기초', '된다! 블로그 10분 작성법', 'LLM을 활용한 실전 AI 애플리케이션 개발', '맛있는 디자인 포토샵 & 일러스트레이터 CC 2024', '블렌더로 애니 그림체 캐릭터를 만들어보자! : 모델링편', '그림으로 이해하는 시스템 설계', '혼자 해도 프로처럼 잘 만드는 굿즈 제작 비법', '이것이 취업을 위한 컴퓨터 과학이다 with CS 기술 면접', 'AI를 위한 필수 수학', '데이터 지향 프로그래밍', '무조건 쿠팡에서 팔아라 그래야 산다', '따라하며 쉽게 배우는 모던 리액트 완벽 입문', '챗봇 2025',

In [63]:
# 파일로 내보내기
with open(out_path+'/aladin_IT_best.txt','w') as file:
    file.write('======= 알라딘 IT 부분 BEST 50 ======='+'\n')
    num = 0
    for data in title_list:
        file.write(f'BEST{num+1} book name : {data}\n') 
        num += 1