# **1. 스크레이핑(Scraping)**

* 크롤링(Crawling): 인터넷의 데이터를 활용하기 위해 정보들을 분석하고 활용할 수 있게 수집하는 행위
* 크롤링과 같은 개념이지만 데이터를 추출해서 가공하는 최종 목표

# **2. 크롤링**

### **2-1. basicenglishspeaking.com**

In [1]:
import requests # 서버에 접속해서 html 문서를 가져오는 역할(요청 -> 응답)
from bs4 import BeautifulSoup # html 문서를 해석하는 역할(파싱)

In [2]:
site = 'https://basicenglishspeaking.com/daily-english-conversation-topics/'
request = requests.get(site)
print(request) # <Response [200]> 정상적인 접속
# print(request.text) # html 소스코드
html = request.text

<Response [200]>


In [3]:
soup = BeautifulSoup(html) # 파싱할 문서를 넣은 객체

In [4]:
divs = soup.findAll('div', {'class':'thrv-columns'})
print(divs)

[<div class="thrv_wrapper thrv-columns" style="--tcb-col-el-width:792;"><div class="tcb-flex-row tcb--cols--3"><div class="tcb-flex-col"><div class="tcb-col"><div class="thrv_wrapper thrv_text_element"><p>1. <a class="tve-froala" href="https://basicenglishspeaking.com/family/" style="outline: none;">Family</a><br/>2. <a class="tve-froala" href="https://basicenglishspeaking.com/restaurant/" style="outline: none;">Restaurant</a><br/>3. <a href="https://basicenglishspeaking.com/books/">Books</a><br/>4. <a href="https://basicenglishspeaking.com/travel/">Travel</a><br/>5. <a href="https://basicenglishspeaking.com/website/">Website</a><br/>6. <a href="https://basicenglishspeaking.com/accident/">Accident</a><br/>7. <a class="tve-froala" href="https://basicenglishspeaking.com/childhood-memory/" style="outline: none;">Childhood memory</a><br/>8. <a class="tve-froala" href="https://basicenglishspeaking.com/favorite-rooms/" style="outline: none;">Favorite rooms</a><br/>9. <a href="https://basicen

In [5]:
subject = []

for div in divs:
  links = div.findAll('a') # 앵커태그를 모두 찾아 리스트로 저장
  # print(links)
  for link in links:
    subject.append(link.text) # 각 앵커태그마다 텍스트를 찾아 리스트로 저장

In [6]:
print('총', len(subject), '개의 주제를 찾았습니다')
for i in range(len(subject)):
  print('{0:2d},{1:s}'.format(i+1, subject[i]))

총 75 개의 주제를 찾았습니다
 1,Family
 2,Restaurant
 3,Books
 4,Travel
 5,Website
 6,Accident
 7,Childhood memory
 8,Favorite rooms
 9,Presents
10,Historical place
11,Newspaper/ Magazine
12,A memorable event
13,A favorite subject
14,A museum
15,A favorite movie
16,A foreign country
17,Parties
18,A teacher
19,A friend
20,A hotel
21,A letter
22,Hobbies
23,Music
24,Shopping
25,Holiday
26,Animals
27,A practical skill
28,Sport
29,A School
30,Festival
31,Food
32,Household appliance
33,A music band
34,Weather
35,Neighbor
36,Natural scenery
37,Outdoor activities
38,Law
39,Pollution
40,Traffic jam
41,TV program
42,Architect/ Building
43,Electronic Media
44,Job/ Career
45,Competition/ contest
46,A garden
47,Hometown
48,Clothing
49,Advertisement
50,A project
51,A wedding
52,A Coffee shop
53,Culture
54,Transport
55,Politician
56,Communication
57,Business
58,Computer
59,Exercise
60,Goal/ ambition
61,Art
62,Fashion
63,Jewelry
64,Cosmetic
65,Indoor Game
66,Phone conversation
67,Learning A Second language
68,A 

### **2-2. 다음 뉴스기사**

In [7]:
# https://v.daum.net/v/20221225125639938

def daum_news_title(news_id):
  url = 'https://v.daum.net/v/{}'.format(news_id)
  request = requests.get(url)
  soup = BeautifulSoup(request.text)
  # title = soup.findAll('h3', {'class':'tit_view'})
  # title = soup.find('h3', 'class':'tit_view')
  title = soup.select_one('h3.tit_view')
  if title:
    return title.text.strip()
  return ''

In [8]:
daum_news_title('20221223070212166')

'‘아바타: 물의 길’, 용아맥·코돌비·4DX·스크린X 어디서 볼까'

In [9]:
daum_news_title('20221225135817813')

'이탈리아 10대들, 韓 고교서 급식 경험 “우린 오후 1~2시 하교하는데”(수학여행)'

### **2-3. 벅스뮤직 차트**

In [10]:
request = requests.get('https://music.bugs.co.kr/chart')
html = request.text
soup = BeautifulSoup(html)

titles = soup.findAll('p',{'class':'title'})
#print(titles)

artists = soup.findAll('p',{'class':'artist'})
#print(artists)

In [11]:
for i in range(len(titles)):
  title = titles[i].text.strip()
  artist = artists[i].text.strip().split('\n')[0]
  data = '{0:3d}위 {1} - {2}'.format(i+1, artist, title)
  print(data)

  1위 NewJeans - Ditto
  2위 NewJeans - Hype Boy
  3위 이영지 - NOT SORRY (Feat. pH-1) (Prod. by Slom)
  4위 NCT DREAM - Candy
  5위 윤하(Younha/ユンナ) - 사건의 지평선
  6위 LE SSERAFIM (르세라핌) - ANTIFRAGILE
  7위 NewJeans - Attention
  8위 카라(Kara) - WHEN I MOVE
  9위 IVE (아이브) - After LIKE
 10위 (여자)아이들 - Nxde
 11위 IVE (아이브) - LOVE DIVE
 12위 정국 - Dreamers [Music from the FIFA World Cup Qatar 2022 Official Soundtrack] (feat. FIFA Sound)
 13위 윤하(Younha/ユンナ) - 오르트구름
 14위 Sia(시아) - Snowman
 15위 BLACKPINK - Shut Down
 16위 지코 - 새삥 (Prod. ZICO) (Feat. 호미들)
 17위 Sam Smith(샘 스미스) - Unholy
 18위 NewJeans - Cookie
 19위 BLACKPINK - Pink Venom
 20위 Charlie Puth(찰리 푸스) - I Don’t Think That I Like Her
 21위 Meghan Trainor(메간 트레이너) - Made You Look
 22위 테이(Tei) - Monologue
 23위 Crush - Rush Hour (Feat. j-hope of BTS)
 24위 LE SSERAFIM (르세라핌) - FEARLESS
 25위 성시경 - 너의 모든 순간
 26위 Mariah Carey(머라이어 캐리) - All I Want for Christmas Is You
 27위 (여자)아이들 - TOMBOY
 28위 IVE (아이브) - ELEVEN
 29위 Ariana Grande(아리아나 그란데) - Santa Tell Me
 30위 

### **2-4. 멜론 차트**

In [12]:
url = 'https://www.melon.com/chart/'
request = requests.get(url)
print(request)

<Response [406]>


In [13]:
# User-Agent : Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36
header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'}
url = 'https://www.melon.com/chart/'
request = requests.get(url,headers=header)
print(request)

<Response [200]>


In [14]:
soup = BeautifulSoup(request.text)

titles = soup.findAll('div', {'class':'ellipsis rank01'})
# print(titles)

artists = soup.findAll('span', {'class':'checkEllipsis'})
#print(artists)

In [15]:
for i in range(len(titles)):
  title = titles[i].text.strip()
  artist = artists[i].text.strip()
  print('{0:3d}위 {1} - {2}'.format(i+1, artist, title))

  1위 NewJeans - Ditto
  2위 윤하 (YOUNHA) - 사건의 지평선
  3위 NewJeans - Hype boy
  4위 이영지 - NOT SORRY (Feat. pH-1) (Prod. by Slom)
  5위 NCT DREAM - Candy
  6위 LE SSERAFIM (르세라핌) - ANTIFRAGILE
  7위 IVE (아이브) - After LIKE
  8위 저스디스 (JUSTHIS), R.Tee, 던말릭 (DON MALIK), 허성현 (Huh), KHAN, 맥대디 (Mckdaddy), 로스 (Los) - 마이웨이 (MY WAY) (Prod. R.Tee)
  9위 NewJeans - Attention
 10위 (여자)아이들 - Nxde
 11위 임영웅 - 사랑은 늘 도망가
 12위 지코 (ZICO) - 새삥 (Prod. ZICO) (Feat. 호미들)
 13위 Sia - Snowman
 14위 Mariah Carey - All I Want for Christmas Is You
 15위 IVE (아이브) - LOVE DIVE
 16위 임영웅 - 우리들의 블루스
 17위 정국, 방탄소년단 - Dreamers [Music from the FIFA World Cup Qatar 2022 Official Soundtrack] (Feat. FIFA Sound)
 18위 테이 - Monologue
 19위 임영웅 - 다시 만날 수 있을까
 20위 임영웅 - London Boy
 21위 던말릭 (DON MALIK) - 눈 (EYE) (Feat. BIG Naughty, 저스디스 (JUSTHIS)) (Prod. R.Tee)
 22위 Ariana Grande - Santa Tell Me
 23위 임영웅 - Polaroid
 24위 주호 - 잘가요
 25위 BLACKPINK - Shut Down
 26위 임영웅 - 무지개
 27위 Crush - Rush Hour (Feat. j-hope of BTS)
 28위 임영웅 - 이제 나만 믿어요
 29위 성시경 

### **2-5. 지니차트**

In [21]:
import time

genie = []

header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'}
url = 'https://www.genie.co.kr/chart/top200?ditc=D&ymd=20221225&hh=18&rtm=Y&pg='
for i in range(1, 5):
  site = '{}{}'.format(url,i)
  request = requests.get(site, headers=header)
  time.sleep(1)
  soup = BeautifulSoup(request.text)

  titles = soup.findAll('a', {'class':'title ellipsis'})
  artists = soup.findAll('a',{'class':'artist ellipsis'})

  for i in range(50):
    if titles[i].text.strip().split('\n')[0] == '19금':
      title = titles[i].text.strip().split('\n')[-1]
    else:
      title = titles[i].text.strip()

    artist = artists[i].text.strip().split('\n')[0]

    genie.append((title, artist))

In [22]:
print(genie)
print(len(genie))

[('Ditto', 'NewJeans'), ('사건의 지평선', '윤하 (YOUNHA)'), ('NOT SORRY (Feat. pH-1) (Prod. by Slom)', '이영지'), ('Hype boy', 'NewJeans'), ('ANTIFRAGILE', 'LE SSERAFIM (르세라핌)'), ('After LIKE', 'NewJeans'), ('Candy', '윤하 (YOUNHA)'), ('Attention', '이영지'), ('사랑은 늘 도망가', 'NewJeans'), ('Nxde', 'LE SSERAFIM (르세라핌)'), ('새삥 (Prod. by ZICO) (Feat. 호미들)', 'IVE (아이브)'), ('마이웨이 (MY WAY) (Prod. by R.Tee)', 'NCT DREAM'), ('우리들의 블루스', 'NewJeans'), ('다시 만날 수 있을까', '임영웅'), ('LOVE DIVE', '(여자)아이들'), ('이제 나만 믿어요', '지코 (ZICO)'), ('London Boy', '저스디스 (JUSTHIS) & R.Tee & 던말릭 (DON MALIK) & 허성현 (Huh) & KHAN & 맥대디 (Mckdaddy) & Los'), ('무지개', '임영웅'), ('Polaroid', '임영웅'), ('아버지', 'IVE (아이브)'), ('A bientot', '임영웅'), ('손이 참 곱던 그대', '임영웅'), ('사랑해 진짜', '임영웅'), ('Monologue', '임영웅'), ('연애편지', '임영웅'), ('Shut Down', '임영웅'), ('인생찬가', '임영웅'), ('Pink Venom', '임영웅'), ('그때 그 순간 그대로 (그그그)', '테이 (Tei)'), ('Dreamers (Music from the FIFA World Cup Qatar 2022 Official Soundtrack) (Feat. FIFA Sound)', '임영웅'), ('보금자리', 'BLACKPINK'), ('All I 

In [23]:
for i in range(200):
  print('{0:3d}위 {1} - {2}'.format(i+1, genie[i][1], genie[i][0]))

  1위 NewJeans - Ditto
  2위 윤하 (YOUNHA) - 사건의 지평선
  3위 이영지 - NOT SORRY (Feat. pH-1) (Prod. by Slom)
  4위 NewJeans - Hype boy
  5위 LE SSERAFIM (르세라핌) - ANTIFRAGILE
  6위 NewJeans - After LIKE
  7위 윤하 (YOUNHA) - Candy
  8위 이영지 - Attention
  9위 NewJeans - 사랑은 늘 도망가
 10위 LE SSERAFIM (르세라핌) - Nxde
 11위 IVE (아이브) - 새삥 (Prod. by ZICO) (Feat. 호미들)
 12위 NCT DREAM - 마이웨이 (MY WAY) (Prod. by R.Tee)
 13위 NewJeans - 우리들의 블루스
 14위 임영웅 - 다시 만날 수 있을까
 15위 (여자)아이들 - LOVE DIVE
 16위 지코 (ZICO) - 이제 나만 믿어요
 17위 저스디스 (JUSTHIS) & R.Tee & 던말릭 (DON MALIK) & 허성현 (Huh) & KHAN & 맥대디 (Mckdaddy) & Los - London Boy
 18위 임영웅 - 무지개
 19위 임영웅 - Polaroid
 20위 IVE (아이브) - 아버지
 21위 임영웅 - A bientot
 22위 임영웅 - 손이 참 곱던 그대
 23위 임영웅 - 사랑해 진짜
 24위 임영웅 - Monologue
 25위 임영웅 - 연애편지
 26위 임영웅 - Shut Down
 27위 임영웅 - 인생찬가
 28위 임영웅 - Pink Venom
 29위 테이 (Tei) - 그때 그 순간 그대로 (그그그)
 30위 임영웅 - Dreamers (Music from the FIFA World Cup Qatar 2022 Official Soundtrack) (Feat. FIFA Sound)
 31위 BLACKPINK - 보금자리
 32위 임영웅 - All I Want for Christmas Is Y