# Crawling

### 0) 웹, HTML, CSS 의 개념

#### 웹

* 웹 서버와 웹 클라이언트 컴퓨터들로 구성
* HTML 언어로 작성된 텍스트 문서
* 구조와 내용은 HTML, 모양은 CSS, 행동 및 응용프로그램 Javascript - 3요소를 분리하여 개발
* 태그 : 블록 태그와 인라인 태그로 구분
  * 블록 태그: < p >, < h1 >, < div >, < ul > 새 라인에서 시작하여 출력되고 양 옆에 다른 콘텐츠를 배치하지 않고 한 라인을 독점하여 사용
  * 인라인 태그: < strong >, < a >, < img >, < span > 블록 속에 삽입되어 블록의 일부로 출력
  * 표만들기 table, 행 tr, 하이퍼링크 a태그의 href 속성이용
  * 앵커(페이지 내의 특정 위치) a태그의 id속성이용 
  * 이미지 삽입 img 태크에 src 속성이용
  * 인라인 프레임 iframe

#### CSS

* Selector : HTML 태그의 모양을 꾸밀 스타일 시트를 선택하는 기능
  * 태그이름 셀렉터 : h3, li { color : brown; } 이면 h3과 li에 갈색글자
  * class 셀렉터 : 점(.)으로 시작하는 이름의 셀렉터로 HTML 태그의 class 속성으로만 지정 가능. body.main {}면 body class = "main" 태그에만 적용
  여러 태그를 하나의 그룹으로 묶어 단체로 동일한 CSS 스타일을 적용할 때 적합. class 속성 값이 같은 태그에 모두 CSS 스타일 적용. 태그의 종류에 관계없이 class 셀렉터 활용 가능
  * id 셀렉터 : #으로 시작하는 이름의 셀렉터로 HTML 태그의 id 속성으로만 지정 가능 #list {} id=list
  id 속성의 목적은 각 태그를 유일하게 구분. 동일한 id 속성이 같지 않도록 HTML 파일 작성하는 것이 바람직. 자바스크립트 코드에서 id 값을 가진 태그 객체를 찾을 때 문제됨. id 셀렉터는 여러 태그 중 특정 태그에만 CSS 스타일을 적용할 때 적합
  * 셀렉터 조합
    * 자식셀렉터 div > strong
    * 자손셀렉터 ul strong

## 1. Beautiful Soup

* Beautiful Soup 은 파이썬에서 html 데이터를 추출하는 라이브러리. 웹문서 구조를 찾아내는 파서를 이용하여 데이터의 위치를 찾아 값을 반환
* parser는 구문을 해석할 수 있는 단위로 분할해주는 역할

#### 1) Local HTML 파일열기

In [3]:
from bs4 import BeautifulSoup
with open('example.html') as fp:
  soup = BeautifulSoup(fp, 'html.parser')

In [4]:
soup

<!DOCTYPE html>

<html lang="en">
<head>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1.0" name="viewport"/>
<title>Web Crawling Example</title>
</head>
<body>
<div>
<p>a</p><p>b</p><p>c</p>
</div>
<div class="ex_class sample">
<p>1</p><p>2</p><p>3</p>
</div>
<div id="ex_id">
<p>X</p><p>Y</p><p>Z</p>
</div>
<h1>This is a heading.</h1>
<p>This is a paragraph.</p>
<p>This is another paragraph.</p>
<a class="a sample" href="www.naver.com">Naver</a>
</body>
</html>

#### 2) 태그 이용해서 가져오기

* find() - 값을 하나만 찾는 메서드
* find_all() - 모든 값을 찾는 메서드 (list형태)

In [6]:
first_div = soup.find('div')
first_div

<div>
<p>a</p><p>b</p><p>c</p>
</div>

In [8]:
all_divs = soup.find_all('div')
all_divs

[<div>
 <p>a</p><p>b</p><p>c</p>
 </div>, <div class="ex_class sample">
 <p>1</p><p>2</p><p>3</p>
 </div>, <div id="ex_id">
 <p>X</p><p>Y</p><p>Z</p>
 </div>]

In [9]:
len(all_divs)

3

In [10]:
for div in all_divs:
  print(div)

<div>
<p>a</p><p>b</p><p>c</p>
</div>
<div class="ex_class sample">
<p>1</p><p>2</p><p>3</p>
</div>
<div id="ex_id">
<p>X</p><p>Y</p><p>Z</p>
</div>


In [13]:
all_ps = soup.find_all('p')
len(all_ps)
for p in all_ps:
  print(p)

<p>a</p>
<p>b</p>
<p>c</p>
<p>1</p>
<p>2</p>
<p>3</p>
<p>X</p>
<p>Y</p>
<p>Z</p>
<p>This is a paragraph.</p>
<p>This is another paragraph.</p>


#### 3) 태그와 속성을 이용해서 가져오기

* CSS Selector : select_one 하나만 찾기
  * soup.select_one()
  * #은 id
  * .은 class
* CSS Selector : 모두찾기 list로 결과가 나옴
  * ex_id_divs = soup.select()
* 결과 가져오기

In [14]:
# # is id
ex_id_div = soup.select_one('#ex_id')
ex_id_div

<div id="ex_id">
<p>X</p><p>Y</p><p>Z</p>
</div>

In [16]:
# . is class
ex_sample_div = soup.select_one('.ex_class.sample')
ex_sample_div

<div class="ex_class sample">
<p>1</p><p>2</p><p>3</p>
</div>

In [18]:
# divs 결과는 리스트로
ex_id_divs = soup.select('#ex_id')
ex_id_divs

[<div id="ex_id">
 <p>X</p><p>Y</p><p>Z</p>
 </div>]

In [21]:
# divs 결과는 리스트로 (class)
sample_div = soup.select('.sample')
sample_div

[<div class="ex_class sample">
 <p>1</p><p>2</p><p>3</p>
 </div>, <a class="a sample" href="www.naver.com">Naver</a>]

In [None]:
all_ps = soup.find_all('p')
p = soup.find('p')
for div in all_divs:
  print(div)
ex_id_div = soup.select_one('#ex_id')
ex_sample_div = soup.select_one('.ex_class.samle')
ex_id_divs = soup.selesct('#ex_id')
sample_div = soup.select('.sample')

##### 3-1) 결과 가져오기

* 제목 가져오기
  * get_text()
  *.string
* 속성값 가져오기
  * href
* 내용물 가져오기
  * 상위값 먼저 찾고 원하는 내용물이 있는 p를 찾는다
  * id = "ex_id"인 div에서 p 내용물 가져오기

In [22]:
# <a class = "a sample" href = "www.naver.com">Naver</a>
result = soup.select_one('.a.sample').get_text()
result

'Naver'

In [24]:
result = soup.select_one('.a.sample').string
result

'Naver'

In [25]:
href = soup.select_one('.a.sample')['href']
href

'www.naver.com'

In [29]:
'''
<div id = ex_id>
  <p>X</p><p>Y</p><p>Z</p>
</div>
'''
ex_id_div = soup.select_one('#ex_id')
all_ps = ex_id_div.select('p')
for p in all_ps:
  print(p.string)

X
Y
Z


## 2. Genie Cheart

In [30]:
import requests  #requests 모듈은 웹에대한 요청을 교환
import pandas as pd

### 1) 인터넷 상에서 데이터 가져오기

In [31]:
# Genie Top200
url = 'https://www.genie.co.kr/chart/top200'
req = requests.get(url)
html = req.text
html

'<br>\r\n<br>\r\n<center>\r\n<img src="http://www.geniemusic.co.kr/images/common/logo_r1.png"><br>\r\n<h2> <meta http-equiv="Content-Type" content="text/html;charset=UTF-8"> ì\xa0\x91ì\x86\x8dì\x9a\x94ì²\xadì\x9d´ ë³´ì\x95\x88ì\xa0\x95ì±\x85ì\x97\x90 ì\x9d\x98í\x95´ ì°¨ë\x8b¨ë\x90\x98ì\x97\x88ì\x8aµë\x8b\x88ë\x8b¤. ë\x8b¹ì\x82¬ ê³\xa0ê°\x9dì\x84¼í\x84°ë¡\x9c ë¬¸ì\x9d\x98í\x95´ì£¼ì\x8b\xadì\x8b\x9cì\x98¤.<br><br>\r\nThe security policy of the connection request is blocked. Contact your customer service representative.<br><br>\r\nì§\x80ë\x8b\x88ë®¤ì§\x81 ê³\xa0ê°\x9dì\x84¼í\x84° 1577-5337<br><br>\r\n</h2>\r\n</center>\r\n<br>'

In [34]:
header = {'User-Agent':
          'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36'}

url = 'https://www.genie.co.kr/chart/top200'
req = requests.get(url, headers = header)
html = req.text
#html

In [38]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')

### 2) 찾으려고 하는 데이터의 태그 찾기

In [39]:
# <table calss = "list-wrap">'
table = soup.select_one('table.list-wrap')
trs = table.select('tr')
len(trs)

51

In [40]:
trs = soup.select('tr.list')
len(trs)

50

### 3) 여러개의 데이터 중 하나를 선택해서 원하는 정보 추출

In [42]:
# rank, title, artist, album
tr = trs[0]
tr.select_one('.number').get_text()

'1\n                                        \n                                    \n유지\n\n'

In [43]:
# rank
tr.select_one('.number').get_text()
tr.select_one('.number').get_text().split('\n')[0]

'1'

In [44]:
rank = int(tr.select_one('.number').get_text().split('\n')[0])
rank

1

In [45]:
# title
tr.select_one('.info').find('a').get_text()

'\n                                        \n                                            \n                                        \n                                        \n                                        \n                                        \n                                            \n                                                Queendom'

In [47]:
title = tr.select_one('.info').find('a').get_text().strip()
title

'Queendom'

In [54]:
# artist
artist = tr.select_one('.info').select_one('.artist').get_text().strip()
artist

'Red Velvet (레드벨벳)'

In [57]:
# ablum
album = tr.select_one('.info').select_one('.albumtitle').get_text().strip()
album

'Queendom - The 6th Mini Album'

### 4) 한 페이지에 있는 모든 데이터를 반복문으로 가져오기

In [59]:
rank_list, title_list, artist_list, album_list = [], [], [], []
for tr in trs:
  rank = tr.select_one('.number').get_text().split('\n')[0]
  title = tr.select_one('.info').find('a').get_text().strip()
  artist = tr.select_one('.info').select_one('.artist').get_text().strip()
  album = tr.select_one('.info').select_one('.albumtitle').get_text().strip()
  rank_list.append(rank)
  title_list.append(title)
  artist_list.append(artist)
  album_list.append(album)



In [61]:
df = pd.DataFrame({
    '순위' : rank_list, '곡명' : title_list, '가수' : artist_list, 'album' : album_list
})
df.tail()

Unnamed: 0,순위,곡명,가수,album
45,46,작은 것들을 위한 시 (Boy With Luv) (Feat. Halsey),방탄소년단,MAP OF THE SOUL : PERSONA
46,47,ASAP,STAYC (스테이씨),STAYDOM
47,48,운전만해 (We Ride),브레이브걸스 (Brave girls),We Ride
48,49,밤하늘의 별을 (2020),경서,밤하늘의 별을 (2020)
49,50,은하수를 닮은 너에게 (Feat. 몰리디),경서예지,은하수를 닮은 너에게


In [62]:
lines = []
for tr in trs:
  rank = tr.select_one('.number').get_text().split('\n')[0]
  title = tr.select_one('.info').select_one('.title').get_text().strip()
  artist = tr.select_one('.info').select_one('.artist').get_text().strip()
  album = tr.select_one('.info').select_one('.albumtitle').get_text().strip()
  lines.append([rank, title, artist, album])

In [63]:
df = pd.DataFrame(lines, columns=['순위', '곡명', '가수', '앨범'])
df.head()

Unnamed: 0,순위,곡명,가수,앨범
0,1,Queendom,Red Velvet (레드벨벳),Queendom - The 6th Mini Album
1,2,신호등,이무진,신호등
2,3,낙하 (With 아이유),AKMU (악뮤),NEXT EPISODE
3,4,OHAYO MY NIGHT,디핵 (D-Hack) & PATEKO,OHAYO MY NIGHT
4,5,바라만 본다,MSG워너비 (M.O.M),MSG워너비 1집


### 5) 모든 페이지에서 데이터 가져오기

In [64]:
sub = 'https://www.genie.co.kr/chart/top200?ditc=D&ymd=20210817&hh=14&rtm=Y&pg='
rank_list, title_list, artist_list, album_list = [], [], [], []

for page in range(1,5):
  header = {'User-Agent':     #없어도 상관없음 위에 있어서
          'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36'} 
  url = f'{sub}{page}'
  req = requests.get(url, headers = header)
  html = req.text   #없어도 상관없음
  soup = BeautifulSoup(html, 'html.parser')
  trs = soup.select('tr.list')
  for tr in trs:
    rank = int(tr.select_one('.number').get_text().split('\n')[0])
    title = tr.select_one('.info').select_one('.title').get_text().strip()
    artist = tr.select_one('.info').select_one('.artist').get_text().strip()
    album = tr.select_one('.info').select_one('.albumtitle').get_text().strip()
    rank_list.append(rank)
    title_list.append(title)
    artist_list.append(artist)
    album_list.append(album)


In [65]:
df = pd.DataFrame({
    '순위' : rank_list, '곡명' : title_list, '가수' : artist_list, 'album' : album_list
})
df.tail()

Unnamed: 0,순위,곡명,가수,album
195,196,여름 시 (Summer Poem),온앤오프 (ONF),SUMMER POPUP ALBUM (POPPING)
196,197,힘든 건 사랑이 아니다,임창정,힘든 건 사랑이 아니다
197,198,Love poem,아이유 (IU),Love poem
198,199,D.D.D,더보이즈 (THE BOYZ),THE BOYZ 4th MINI ALBUM 'DREAMLIKE'
199,200,고백 (바른연애 길잡이 X 허각),허각,고백 (바른연애 길잡이 X 허각)


In [66]:
df.to_csv('GenieTop200(210817).csv', index=False)

## 3. 식신

In [73]:
import requests
import pandas as pd
from urllib.parse import quote

### 1) 데이터 가져오기

In [74]:
base_url = 'https://www.siksinhot.com'
url = f'{base_url}/search?keywords={quote("양재역")}'
req = requests.get(url)
html = req.text
#html

In [75]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')

### 2) 찾으려고 하는 데이터의 태그 찾기

In [91]:
lis = soup.select('div.listTy1 > ul > li')
len(lis)

12

### 3) 여러개의 데이터 중 하나를 선택해서 원하는 정보 추출

In [90]:
li = lis[0]
href = li.select_one('a')['href']
href

'/P/358859'

In [78]:
url = base_url + href
req = requests.get(url)
sub_soup = BeautifulSoup(req.text, 'html.parser')

In [79]:
store = sub_soup.select_one('.title')
info = store.find('h3').get_text()
info

'그릭슈바인 양재역점3.6HOT'

In [80]:
score = store.select_one('h3 > strong').string
score

'3.6'

In [81]:
info.find(score)

10

In [82]:
name = info[:info.find(score)]
name

'그릭슈바인 양재역점'

In [83]:
sub_soup.select_one('.store_info p').get_text()

'서울-강남> 양재/도곡'

In [84]:
menu = sub_soup.select('.store_info p')[1].get_text()
menu

'나이트라이프 > 맥주/호프'

In [85]:
tel = sub_soup.select_one('.p_tel p').get_text()
tel

'02-572-6100'

In [86]:
addr = sub_soup.select_one('.txt_adr').string
addr

'서울특별시 서초구 강남대로 224'

### 4) 한 페이지에 있는 모든 데이터를 반복문으로 가져오기

* 코드 수정 예정

In [87]:
name_list, score_list, menu_list, tel_list, addr_list = [], [], [], [], []
for li in enumerate(lis):                                             #몇번째에서 에러나는지 확인하기위해 인덱스번호 찍기 enumerate
  href = li.select_one('a')['href'] 
  url = base_url + href
  req = requests.get(url)
  sub_soup = BeautifulSoup(req.text, 'html.parser')
 
  store = sub_soup.select_one('.title')
  info = store.find('h3').get_text()
  score = store.select_one('h3 > strong').string
  name = info[:info.find(score)]
  menu = sub_soup.select('.store_info p')[1].get_text()
  tel = sub_soup.select_one('.p_tel p').get_text()
  addr = sub_soup.select_one('.txt_adr').string

  name_list.append(name)
  score_list.append(float(score))
  menu_list.append(menu)
  tel_list.append(tel)
  addr_list.append(addr)


AttributeError: ignored