# 웹 크롤링

In [1]:
import time
import requests
from bs4 import BeautifulSoup

# 1. 페이지 가져오기

In [8]:
response = requests.get('https://workey.codeit.kr/ratings/index?year=2010&month=1&weekIndex=1')
response

<Response [200]>

In [9]:
rating_pages = response.text

In [10]:
print(rating_pages)

<!DOCTYPE html>
<html lang="ko">
<head>
  <title>티비랭킹닷컴</title>
  <meta charset="utf-8">
  <link href="https://fonts.googleapis.com/css?family=Noto+Sans+KR" rel="stylesheet">
  <style>
    /* body start */
    body {
      font-family: 'Noto Sans KR', sans-serif;
      margin: 0;
    }

    /* navigation bar start */
    .nav-bar {
      position: fixed;
      width: 100%;
      padding-top: 10px;
      padding-bottom: 10px;
      background-color: #ffffff;
      box-shadow: 0 2px 4px 0 rgba(0, 0, 0, 0.14);
      z-index: 1;
    }

    .nav-bar #tv-image {
      margin-left: 78px;
      margin-right: 15px;
      height: 36px;
      vertical-align: middle;
    }

    .nav-bar span {
      font-weight: bold;
      color: #4a4a4a;
    }

    /* date picker start */
    .date-pick {
      padding-top: 56px;
      height: 200px;
      background-color: #efefef;
      margin-left: auto;
      margin-right: auto;
      position: relative;
    }

    .date-pick .search-box {
      text-align: 

# 2. 파싱
* 파싱: 문자의 구조를 분석, 원하는 정보 추출

In [46]:
html_code = """
<!DOCTYPE html>
<html>
<head>
    <title>Sample Website</title>
</head>
<body>
<h2>HTML 연습!</h2>

<p>이것은 첫 번째 문단입니다.</p>
<p>이것은 두 번째 문단입니다!</p>

<ul>
    <li>커피</li>
    <li>녹차</li>
    <li>우유</li>
</ul>

<img src='https://i.imgur.com/bY0l0PC.jpg' alt="coffee"/>
<img src='https://i.imgur.com/fvJLWdV.jpg' alt="green-tea"/>
<img src='https://i.imgur.com/rNOIbNt.jpg' alt="milk"/>

</body>
</html>
"""

In [47]:
# bs타입으로 변환
soup = BeautifulSoup(html_code, 'html.parser')
type(soup)

bs4.BeautifulSoup

In [48]:
li_tags = soup.select('li') # 모든 li 태그 가져오기
print(li_tags)

[<li>커피</li>, <li>녹차</li>, <li>우유</li>]


In [49]:
li_tags[0]

<li>커피</li>

In [50]:
type(li_tags[0])

bs4.element.Tag

In [52]:
type(li_tags[0].text)

str

In [53]:
# 모든 문자열 추출하여 리스트 담기
beverage_names = []

for li in li_tags:
    beverage_names.append(li.text)
    
print(beverage_names)

['커피', '녹차', '우유']


In [54]:
img_tags = soup.select('img')
print(img_tags)

[<img alt="coffee" src="https://i.imgur.com/bY0l0PC.jpg"/>, <img alt="green-tea" src="https://i.imgur.com/fvJLWdV.jpg"/>, <img alt="milk" src="https://i.imgur.com/rNOIbNt.jpg"/>]


In [57]:
img_tags[0]['src']

'https://i.imgur.com/bY0l0PC.jpg'

In [58]:
img_srcs = []

for img in img_tags:
    img_srcs.append(img['src'])
    
img_srcs

['https://i.imgur.com/bY0l0PC.jpg',
 'https://i.imgur.com/fvJLWdV.jpg',
 'https://i.imgur.com/rNOIbNt.jpg']

In [62]:
response = requests.get("https://workey.codeit.kr/music/index")
soup = BeautifulSoup(response.text, 'html.parser')
li_tags = soup.select('.popular__order li')

In [64]:
popular_artists = []

for li in li_tags:
    popular_artists.append(li.text.strip())
    
popular_artists

['1 아이유 (IU)',
 '2 방탄소년단',
 '3 Red Velvet (레드벨벳)',
 '4 IKON',
 '5 멜로망스',
 '6 다비치',
 '7 윤딴딴',
 '8 수지 (SUZY)',
 '9 김동률',
 '10 폴킴']

***

In [22]:
rating_pages = []

years = range(2010, 2013)
months = range(1, 13)
weeks = range(0, 5)

for year in years:
    for month in months:
        for week in weeks:
            url = f'https://workey.codeit.kr/ratings/index?year={year}&month={month}&weekIndex={week}'
            # url은 단순 문자열로 페이지 받는다
            response = requests.get(url) # url변수의 문자열(주소)를 받음
            rating_pages.append(response.text)

In [23]:
len(rating_pages)

180

In [66]:
# print(rating_pages[0])

***

In [67]:
# 빈 리스트 생성
pages = []

# 첫 페이지 번호 지정
page_num = 1

# headers 지정
headers = {
    'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_2_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36',
}

while True:
    # HTML 코드 받아오기, 위에서 지정해 준 headers 설정해 주기
    response = requests.get("http://www.ssg.com/search.ssg?target=all&query=nintendo&page=" + str(page_num), headers=headers)

    # BeautifulSoup 타입으로 변환하기
    soup = BeautifulSoup(response.text, 'html.parser')

    # ".csrch_tip" 클래스가 없을 때만 HTML 코드를 리스트에 담기
    if len(soup.select('.csrch_tip')) == 0:
        pages.append(soup)
        print(str(page_num) + "번째 페이지 가져오기 완료")
        page_num += 1
        time.sleep(2)
    else:
        break # ".csrch_tip" 클래스가 나오면 break

# 가져온 페이지 개수 출력하기
print(len(pages))


1번째 페이지 가져오기 완료
2번째 페이지 가져오기 완료
3번째 페이지 가져오기 완료
4번째 페이지 가져오기 완료
5번째 페이지 가져오기 완료
6번째 페이지 가져오기 완료
7번째 페이지 가져오기 완료
8번째 페이지 가져오기 완료
9번째 페이지 가져오기 완료
10번째 페이지 가져오기 완료
11번째 페이지 가져오기 완료
12번째 페이지 가져오기 완료
13번째 페이지 가져오기 완료
14번째 페이지 가져오기 완료
15번째 페이지 가져오기 완료
16번째 페이지 가져오기 완료
17번째 페이지 가져오기 완료
18번째 페이지 가져오기 완료
19번째 페이지 가져오기 완료
20번째 페이지 가져오기 완료
21번째 페이지 가져오기 완료
22번째 페이지 가져오기 완료
23번째 페이지 가져오기 완료
24번째 페이지 가져오기 완료
25번째 페이지 가져오기 완료
26번째 페이지 가져오기 완료
27번째 페이지 가져오기 완료
28번째 페이지 가져오기 완료
29번째 페이지 가져오기 완료
30번째 페이지 가져오기 완료
31번째 페이지 가져오기 완료
32번째 페이지 가져오기 완료
33번째 페이지 가져오기 완료
34번째 페이지 가져오기 완료
35번째 페이지 가져오기 완료
36번째 페이지 가져오기 완료
37번째 페이지 가져오기 완료
38번째 페이지 가져오기 완료
39번째 페이지 가져오기 완료
40번째 페이지 가져오기 완료
41번째 페이지 가져오기 완료
42번째 페이지 가져오기 완료
43번째 페이지 가져오기 완료
44번째 페이지 가져오기 완료
45번째 페이지 가져오기 완료
46번째 페이지 가져오기 완료
47번째 페이지 가져오기 완료
48번째 페이지 가져오기 완료
49번째 페이지 가져오기 완료
50번째 페이지 가져오기 완료
51번째 페이지 가져오기 완료
52번째 페이지 가져오기 완료
53번째 페이지 가져오기 완료
54번째 페이지 가져오기 완료
55번째 페이지 가져오기 완료
56번째 페이지 가져오기 완료
57번째 페이지 가져오기 완료
58번째 페이지 가져오기 완료
59번째 페이지 가져오기 완료
60번째 페

KeyboardInterrupt: 

In [73]:
# pages[0]
len(pages)

62

In [78]:
# 데이터 프레임 설계 [이름,가격,이미지주소]
import time
import pandas as pd
import requests
from bs4 import BeautifulSoup

# 빈 리스트 생성
records = []

# 시작 페이지 지정
page_num = 1

headers = {
    'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_2_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36',
}


while True:
    # HTML 코드 받아오기
    response = requests.get("http://www.ssg.com/search.ssg?target=all&query=nintendo&page=" + str(page_num),headers = headers)

    # BeautifulSoup 타입으로 변형하기
    soup = BeautifulSoup(response.text, 'html.parser')

    # "prodName" 클래스가 있을 때만 상품 정보 가져오기
    if len(soup.select('.csrch_tip')) == 0:
        product_names = soup.select('.cunit_info > div.cunit_md.notranslate > div > a > em.tx_ko')
        product_prices = soup.select('.cunit_info > div.cunit_price.notranslate > div.opt_price > em')
        product_urls = soup.select('.cunit_prod > div.thmb > a > img')
        print(str(page_num) + "번째 페이지 가져오기 완료")
        page_num += 1
        if page_num == 5:
            break
        time.sleep(3)
        
        # 상품의 정보를 하나의 레코드로 만들고, 리스트에 순서대로 추가하기
        for i in range(len(product_names)):
            record = []
            record.append(product_names[i].text)
            record.append(product_prices[i].text.strip())
            record.append("https://www.ssg.com" + product_urls[i].get('src'))
            records.append(record)
    else:
        break
        

# DataFrame 만들기
df = pd.DataFrame(data = records, columns = ["이름", "가격", "이미지 주소"])

# DataFrame 출력
print(df.head())


1번째 페이지 가져오기 완료
2번째 페이지 가져오기 완료
3번째 페이지 가져오기 완료
4번째 페이지 가져오기 완료
                                       이름       가격  \
0  [닌텐도 스위치] 젤다의 전설 스카이워드 소드 에디션 조이콘(L/R)   80,800   
1                        닌텐도스위치 링 피트 어드벤처   74,800   
2                   닌텐도 스위치 슈퍼 마리오 파티 한글판   56,400   
3                      [닌텐도 스위치] 슈퍼마리오 파티   56,411   
4          닌텐도 스위치 본체 동물의숲 산리오 아미보 패키지 선택  350,000   

                                              이미지 주소  
0  https://www.ssg.com//item.ssgcdn.com/34/91/65/...  
1  https://www.ssg.com//item.ssgcdn.com/34/91/65/...  
2  https://www.ssg.com//item.ssgcdn.com/61/28/61/...  
3  https://www.ssg.com//item.ssgcdn.com/61/28/61/...  
4  https://www.ssg.com//item.ssgcdn.com/26/62/51/...  


In [83]:
df

Unnamed: 0,이름,가격,이미지 주소
0,[닌텐도 스위치] 젤다의 전설 스카이워드 소드 에디션 조이콘(L/R),80800,https://www.ssg.com//item.ssgcdn.com/34/91/65/...
1,닌텐도스위치 링 피트 어드벤처,74800,https://www.ssg.com//item.ssgcdn.com/34/91/65/...
2,닌텐도 스위치 슈퍼 마리오 파티 한글판,56400,https://www.ssg.com//item.ssgcdn.com/61/28/61/...
3,[닌텐도 스위치] 슈퍼마리오 파티,56411,https://www.ssg.com//item.ssgcdn.com/61/28/61/...
4,닌텐도 스위치 본체 동물의숲 산리오 아미보 패키지 선택,350000,https://www.ssg.com//item.ssgcdn.com/26/62/51/...
...,...,...,...
262,닌텐도 스위치 모여봐요 동물의숲 에디션 본체 타이틀 패키지,398800,https://www.ssg.com//item.ssgcdn.com/95/75/47/...
263,닌텐도 스위치 이베이스볼 프로야구 스피리츠 2021 그랜드 슬램(외국어),67680,https://www.ssg.com//item.ssgcdn.com/19/18/33/...
264,닌텐도 스위치 본체 배터리개선 (동숲/네온)+링 피트 어드벤처+악세사리 풀세트 [3...,459295,https://www.ssg.com//item.ssgcdn.com/19/18/33/...
265,닌텐도 스위치 본체(HAD) 동물의 숲 에디션 (200028243)[howdy],360000,https://www.ssg.com//item.ssgcdn.com/49/32/40/...
