## 웹페이지 업데이트를 알려주는 Telegram 봇

`Django`를 이용해 크롤링한 데이터를 DB에 저장하고 다시 크롤링을 할 때 중복된 데이터를 DB에 저장하는 것은 바람직 하지 않음

크롤링을 자동으로 해 사이트에 변경사항이 생길 때 마다 내 Telegram으로 알림을 받아보자



텔레그램은 REST API를 통해 봇을 제어하도록 한다
`python-telegram-bot` 패키지는 Telegram Bot API를 python에서 쉽게 이용하기 위한 wrapper 패키지입니다.

## python-telegram-bot 설치하기

`python-telegram-bot`은 pip로 설치 가능
```python
pip install python-telegram-bot
```

In [None]:
!pip install python-telegram-bot

## 텔레그램 봇 만들기 & API Key 받기

클리앙에 새로운 글이 올라오면 "새 글이 올라왔어요!"라는 메시지를 보내는 봇을 만들어 보자



In [2]:
# #div_content > div.list_content > div:nth-child(1) > div.list_title
# https://www.clien.net/service/board/sold

In [3]:
# clien_market_parser.py

import requests
from bs4 import BeautifulSoup as bs
import os

# 파일의 위치
BASE_DIR = os.path.dirname(os.path.abspath('./crawling/'))

req = requests.get('https://www.clien.net/service/board/sold')
req.encoding = 'utf-8' # Clien에서 encoding 정보를 보내주지 않아 encoding 옵션을 추가해줘야 합니다.

html = req.text
soup = bs(html, 'html.parser')
posts = soup.select('#div_content > div.list_content > div:nth-child(1) > div.list_title > a > span.subject_fixed')
latest = posts[0].text.strip()


with open(os.path.join(BASE_DIR, 'latest.txt'), 'w+', encoding='UTF-8') as f:
    f.write(latest)
    f.close()

위와 같이 코드를 구성하면 `latest.txt` 파일에 가장 최신 글의 제목이 저장됩니다.

그롤링 이후 새로운 글이 생겼는지의 유무를 알아보려면 크롤링한 최신글의 제목과 파일에 저장된 제목이 같은지를 확인하면 됩니다.

만약 같다면 패스, 다르다면 텔레그램으로 메시지를 보내는거죠!


In [30]:
# clien_market_parser.py

import requests
from bs4 import BeautifulSoup as bs
import os

# 파일의 위치
BASE_DIR = os.path.dirname(os.path.abspath('./crawling/'))

req = requests.get('https://www.clien.net/service/board/sold')
req.encoding = 'utf-8' # Clien에서 encoding 정보를 보내주지 않아 encoding 옵션을 추가해줘야 합니다.

html = req.text
soup = bs(html, 'html.parser')
posts = soup.select('#div_content > div.list_content')
latest = posts[0].text


with open(os.path.join(BASE_DIR, 'latest.txt'), 'r+', encoding='UTF-8') as f_read:
    before = f_read.readline()
    if before != latest:
        # 같은 경우는 에러 없이 넘기고, 다른 경우에만
        # 메시지 보내는 로직을 넣으면 됩니다.
    f_read.close()
    
with open(os.path.join(BASE_DIR, 'latest.txt'), 'w+', encoding='UTF-8')  as f_write:
    f_write.write(latest)
    f_write.close()

IndentationError: expected an indented block (<ipython-input-30-6cd3d73ed6aa>, line 24)

## 새글이라면? 텔레그램으로 메시지 보내기!

이제 메시지를 보내볼게요. `telegram`을 import 하신 후 `bot`을 선언해주시면 됩니다. token은 위에서 받은 토큰입니다.



In [58]:
# clien_market_parser.py

import requests
from bs4 import BeautifulSoup as bs
import os

import telegram

# 토큰을 지정해서 bot을 선언해 줍시다! 
bot = telegram.Bot(token='1667990389:AAHYkzv6hGXTznSCGpM0TYRorc8qs2FeO-8')
# 우선 테스트 봇이니까 가장 마지막으로 bot에게 말을 건 사람의 id를 지정해줄게요.
# 만약 IndexError 에러가 난다면 봇에게 메시지를 아무거나 보내고 다시 테스틓보세요.
# print(bot.getUpdates())
chat_id = bot.getUpdates()[-1].message.chat.id


# 파일의 위치
BASE_DIR = os.path.dirname(os.path.abspath('./crawling/'))

req = requests.get('https://www.clien.net/service/board/sold')
req.encoding = 'utf-8'

html = req.text
soup = bs(html, 'html.parser')
posts = soup.select('#div_content > div.list_content > div:nth-child(1) > div.list_title > a > span.subject_fixed')
latest = posts[0].text.strip()

with open(os.path.join(BASE_DIR, 'latest.txt'), 'r+', encoding='UTF-8') as f_read:
    before = f_read.readline()
    if before != latest:
        bot.sendMessage(chat_id=chat_id, text= latest + ' 라는 글이 올라왔어요!')
    else:
        bot.sendMessage(chat_id=chat_id, text='새 글이 없어요!ㅠㅠ')
    f_read.close()
    
with open(os.path.join(BASE_DIR, 'latest.txt'), 'w+', encoding='UTF-8') as f_write:
    f_write.write(latest)
    f_write.close()

## 자동으로 크롤링하고 메시지 보내기

### 가장 쉬운방법: `while` + `sleep`

가장 쉬운 방법은 python의 `while` 문을 쓰는 방법입니다. 물론, 가장 나쁜 방법이에요. 안전하지도 않고 시스템의 메모리를 좀먹을 수도 있어요.

하지만 테스트에서 가장 쉽게 쓸 수 있어요.



In [None]:
# clien_market_aprser.py

import requests
from bs4 import BeautifulSoup
import os
import time

import telegram

bot = telegram.Bot(token='1667990389:AAHYkzv6hGXTznSCGpM0TYRorc8qs2FeO-8')
chat_id = bot.getUpdates()[-1].message.chat.id

# 파일의 위치
BASE_DIR = os.path.dirname(os.path.abspath('./crawling/'))

while True:
    req = requests.get('https://www.clien.net/service/board/sold')
    req.encoding = 'utf-8'
    
    html = req.text
    soup = bs(html, 'html.parser')
    posts = soup.select('#div_content > div.list_content > div:nth-child(1) > div.list_title > a > span.subject_fixed')
    latest = posts[0].text.strip()
    
    
    with open(os.path.join(BASE_DIR, 'latest.txt'), 'r+', encoding='UTF-8') as f_read:
        before = f_read.readline()
        if before != latest:
            bot.sendMessage(chat_id=chat_id, text= latest + ' 라는 새 글이 올라왔어요!')
        else:
            bot.sendMessage(chat_id=chat_id, text='새 글이 없어요 ㅠㅠㅠ')
        f_read.close()
        
    with open(os.path.join(BASE_DIR, 'latest.txt'), 'w+', encoding='UTF-8') as f_write:
        f_write.write(latest)
        f_write.close()
        

## 스케쥴러

In [2]:
!pip install APScheduler



In [4]:
import time
from apscheduler.schedulers.blocking import BlockingScheduler

sched = BlockingScheduler()

# 매일 12시 30분에 실행
@sched.scheduled_job('interval', seconds=5, id='test_1')
def job1():
    print(f'job1 : {time.strftime("%H:%M:%S")}')
    
# 매일 12시 30분에 실행
@sched.scheduled_job('cron', hour='12', minute='30', id='test_2')
def job2():
    print(f'job2 : {time.strftime("%H:%M:%S")}')
    
# 이런식으로 추가도 가능. 매분에 실행
sched.add_job(job2, 'cron', second='0', id="test_3")

print('sched before~')
sched.start()
print('sched after~')

sched before~
job1 : 19:38:38
job1 : 19:38:43
job1 : 19:38:48
job1 : 19:38:53
job1 : 19:38:58
job2 : 19:39:00
job1 : 19:39:03
job1 : 19:39:08
job1 : 19:39:13


KeyboardInterrupt: 