# BeautifulSoup으로 가져오기

In [2]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

In [3]:
# 대상 태그를 넣으면 관련 태그를 스크랩하여 데이터프레임으로 변환
def scrap_hashtag(keyword):

    req = requests.get('http://picdeer.com/tag/' + keyword)
    
    # HTML 소스 가져오기
    html = req.text
    
    # HTML 소스를 python 객체로 변환
    soup = BeautifulSoup(html, 'html.parser')
    
    # 해시태그를 포함, 링크가 걸린 텍스트 모두 가져오기
    raw_data = soup.select('a')
    
    # 데이터프레임으로 변환
    data = []

    for i in raw_data:
        data.append(i.text)
        
    df = pd.DataFrame(data)
    
    df.columns = ['col']
    
    # 해시태그만 추출
    df = df[df.col.str.contains("\#")]
    
    # 빈도순으로 정렬
    rank = df['col'].value_counts().head(100)
    
    return(rank)
    


In [123]:
scrap_hashtag('outdoorumbrella')


#outdoorumbrella           53
#outdoorfurniture          27
#patio                     27
#outdoordecor              26
#patiodecor                26
#patioumbrella             26
#exteriordesign            24
#homeandgarden             23
#homedecor                 23
#patiolife                 23
#commercialdesign          23
#commercialfurniture       23
#midcenturymodern          21
#colorful                  21
#californiaumbrella        20
#vintagestyle              19
#furniture                 19
#photoshoot                18
#photography               18
#loveyourshade             18
#patiodesign               17
#homedesign                16
#home                      16
#palmspringshomes          11
#palmsprings               11
#patiofurniture             9
#outdoordesign              6
#poolside                   5
#semsiye                    5
#summer                     4
                           ..
#beach                      2
#outside                    2
#sticksand

# selenium으로 스크롤다운

In [7]:
import time
from selenium import webdriver
from bs4 import BeautifulSoup


# 페이지 스크롤링을 위한 모듈
#from selenium.webdriver.common.keys import Keys

# 다운로드 받은 드라이버 주소
DRIVER_DIR = 'driver/chromedriver'

# 크롬 브라우저를 실행시켜 조작하기 위한 객체 생성
driver = webdriver.Chrome(DRIVER_DIR)

# 암묵적으로 웹 자원을 (최대) 3초 기다리기
driver.implicitly_wait(3) 

In [8]:
# 목표로 하는 url의 내용을 가져오기
url = "http://picdeer.com/tag/%ED%99%88%EA%B9%8C%ED%8E%98"
driver.get(url)

## 끝까지 스크롤다운 하기

### 포스트 개수 가져오기

In [36]:
# Class로 가져오기
post = driver.find_elements_by_css_selector('.btn.btn-sm.btn-orange')
print(post[0].text)

64.234 Posts


In [41]:
post_count = post[0].text
post_count = post_count.split()[0].replace('.', '')
post_count = int(post_count)
post_count

64234

AttributeError: 'str' object has no attribute 'dtype'

In [43]:
scroll_num = post_count/60
scroll_num

1070.5666666666666

In [None]:
# xpath로 가져오기
# 참고글 : https://wkdtjsgur100.github.io/selenium-xpath/

# xpath = "//div[@class='page-title text-center']/p/span"
# like_list = driver.find_element_by_xpath(xpath)

In [None]:
# 끝까지 스크롤다운
for i in range(1, 10):
    while i <= 10:
        driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
    break

### 웹사이트 소스 가져오기

In [10]:
# 참고 글 : https://l0o02.github.io/2018/06/13/selenium-with-beautifulsoup-1/

# Web Driver가 현재 실행중인 웹사이트의 소스를 가져오기
req = driver.page_source

# HTML 소스를 python 객체로 변환
soup = BeautifulSoup(req, 'html.parser')

In [11]:
# 해시태그를 포함, 링크가 걸린 텍스트 모두 가져오기
raw_data = soup.select('a')
    
# 데이터프레임으로 변환
data = []

for i in raw_data:
    data.append(i.text)
        

    


In [31]:
df = pd.DataFrame(data, columns=['col'])
    
    
# 해시태그만 추출
df = df[df['col'].str.contains("\#")]
    
# 빈도순으로 정렬
rank = df['col'].value_counts().head(50)

In [32]:
rank.head()

#홈까페         15
#homecafe     3
#온더테이블        3
#빈티지가구        2
#유럽앤틱         2
Name: col, dtype: int64

### Selenium으로 유저 가져오기

In [23]:
user_element = driver.find_elements_by_css_selector('.grid-media-owner')

In [24]:
print(user_element[1].text)

@binnnlove


In [26]:
import pandas as pd

user_list = []

for i in user_element:
    user_list.append(i.text)
    
user = pd.DataFrame(user_list, columns=['user'])

In [27]:
user.head()

Unnamed: 0,user
0,@oo.store_
1,@binnnlove
2,@pepper.rainbowls
3,@hamsuin1103
4,@huyn2_room


In [28]:
user['user'] = user['user'].str.replace('@', '')
user.head()

Unnamed: 0,user
0,oo.store_
1,binnnlove
2,pepper.rainbowls
3,hamsuin1103
4,huyn2_room


In [29]:
user['user'].value_counts().head()

barbie.cup          9
piuda.kkk           3
oo.store_           3
bobobo_ribbon       3
pepper.rainbowls    3
Name: user, dtype: int64

### Class로 가져오기

64.234 Posts


'64234'