In [1]:
import requests
import json
import pymongo
from bs4 import BeautifulSoup
from sqlalchemy import *
from sqlalchemy.orm import sessionmaker
from sqlalchemy.ext.declarative import declarative_base

In [2]:
mysql_client = create_engine("mysql://root:6137tnwjd@13.125.47.66/world?charset=utf8")
base = declarative_base()
mysql_client

Engine(mysql://root:***@13.125.47.66/world?charset=utf8)

In [3]:
mongo_client = pymongo.MongoClient('mongodb://13.125.47.66:27017')
mongo_client

MongoClient('13.125.47.66', 27017)

In [4]:
class NaverKeyword(base):
    __tablename__ = "naver"

    id = Column(Integer, primary_key=True)
    rank = Column(Integer, nullable=False)
    keyword = Column(String(50), nullable=False)
    rdate = Column(TIMESTAMP, nullable=False) # 데이터를 넣어주지 않으면 자동으로 현재시간이 들어감,

    def __init__(self, rank, keyword):
        self.rank = rank
        self.keyword = keyword

    def __repr__(self):
        return "<NaverKeyword {}, {}>".format(self.rank, self.keyword)

In [5]:
def crawling():
    response = requests.get("https://www.naver.com/")
    dom = BeautifulSoup(response.content, "html.parser")
    keywords = dom.select(".ah_roll_area > .ah_l > .ah_item")
    datas = []
    for keyword in keywords:
        rank = keyword.select_one(".ah_r").text
        keyword = keyword.select_one(".ah_k").text
        datas.append((rank, keyword))
    return datas

In [6]:
datas = crawling()
datas

[('1', '2019 스타벅스 럭키백'),
 ('2', '스타벅스 럭키백'),
 ('3', '양예원'),
 ('4', '왜그래 풍상씨'),
 ('5', '골목식당 고로케'),
 ('6', '김기방'),
 ('7', '지진'),
 ('8', '심석희 성폭행'),
 ('9', '경주지진'),
 ('10', 'rsv바이러스'),
 ('11', '청파동 피자집'),
 ('12', '그라운드플랜'),
 ('13', '카카오 카풀'),
 ('14', '백승호'),
 ('15', '내안의 그놈'),
 ('16', '종이가구'),
 ('17', '버스파업'),
 ('18', '카풀'),
 ('19', '복면가왕 의좋은형제'),
 ('20', '이재성')]

In [7]:
def mysql_save(datas): # 크롤링한 datas를 리스트컴프리헨션을 사용해서 받음.
    
    keywords = [NaverKeyword(rank, keyword) for rank, keyword in datas]
    
    # make session
    maker = sessionmaker(bind=mysql_client)
    session = maker()

    # save datas
    session.add_all(keywords)
    session.commit()

    # close session
    session.close()

In [8]:
base.metadata.create_all(mysql_client) # 그래서 이 테이블을 먼저 추가해줌

In [9]:
mysql_save(datas) # 이코드를 실행하면 에러가 난다. 에러가 나는 이유? 테이블 생성하는 코드가 없기 때문

In [10]:
# 저장? 데이터베이스 리프레쉬 해줌.

In [11]:
def mongo_save(datas):
    querys = [{"rank":rank, "keyword":keyword} for rank, keyword in datas]
    mongo_client.crawling.naver_keywords.insert(querys)

In [12]:
mongo_save(datas)

In [13]:
def send_slack(msg, channel="#dss", username="provision_bot" ):
    webhook_URL = "https://hooks.slack.com/services/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"
    #웹훅유알엘 /  인커밍웹훅?
    payload = {
        "channel": channel,
        "username": username,
        "icon_emoji": ":provision:",
        "text": msg,
    }
    response = requests.post(
        webhook_URL,
        data = json.dumps(payload),
    )
    return response

In [14]:
def run():
    # 데이터 베이스에 테이블 생성
    base.metadata.create_all(mysql_client)

    # 네이버 키워드 크롤링
    datas = crawling()

    # 데이터 베이스에 저장
    mysql_save(datas)
    mongo_save(datas)

    # 슬랙으로 메시지 전송
    send_slack("naver crawling done!")

In [15]:
run()