In [1]:

# 주의사항, 문자열 안에 특수문자 부분 체크 잘하기.
# create table newsTable (
# id int not null auto_increment,
# title varchar(200),
# publisher varchar(200),
# newsDate varchar(10),
# newsTime varchar(10),
# newsDetail varchar(200),
# newsImgUrl varchar(200),
# primary key(id)
# );
# regex 이용해서, re.sub(매개변수1,매개변수2,매개변수3)
# 매개변수1 : 특정 조건
# 매개변수2 : 대체할 문자
# 매개변수3 : regex를 적용할 문장.


In [16]:
import time
import bs4
import urllib.request
import pymysql
import re

def clean_text(inputString):
    """ 문자열에서 불필요한 문자를 제거하는 함수 """
    text_rmv = re.sub(
        '[-=+,#/\?:^.@*\"※~ㆍ!』‘|\(\)\[\]`\'…》\”\“\’·]', ' ', inputString)
    return text_rmv.strip()

def insertData(link, title, comment, icon):
    """ MariaDB에 데이터를 삽입하는 함수 """
    try:
        # 데이터베이스 연결
        con = pymysql.connect(host='127.0.0.1', user='root',
                              password='123456', database='pydb', charset='utf8')
        cur = con.cursor()
        
        # SQL 쿼리
        query = "INSERT INTO LOLTable (link, title, comment, icon) VALUES (%s, %s, %s, %s)"
        values = (link, title, comment, icon)
        
        # 데이터 삽입
        cur.execute(query, values)
        con.commit()
        print("데이터 삽입 성공")

    except Exception as e:
        print('예외 발생:', e)
        
    finally:
        cur.close()
        con.close()

def fetch_news():
    """ 웹 페이지에서 뉴스 항목을 추출하는 함수 """
    url = "https://www.inven.co.kr/lol/"
    try:
        htmlObject = urllib.request.urlopen(url)
        webPage = htmlObject.read()
        bsObject = bs4.BeautifulSoup(webPage, 'html.parser')
        
        # 뉴스 항목이 포함된 ul 태그 찾기
        ul_tag = bsObject.find('ul', {'class': 'basic board0 list-bbs'})
        if ul_tag is None:
            return []
        
        # ul 태그 하위의 모든 li 태그 추출
        tag_list = ul_tag.find_all('li', {'class': True})
        return tag_list

    except Exception as e:
        print('페이지 요청 중 예외 발생:', e)
        return []

def main():
    count = 0
    while count < 201:
        tag_list = fetch_news()
        if not tag_list:
            print("더 이상 뉴스 항목이 없습니다.")
            break
        
        print('###### 실시간 뉴스 속보 #######')
        
        for tag in tag_list:
            # 링크 추출
            link_tag = tag.find('a', href=True)
            link = link_tag['href'] if link_tag else 'No Link'
            
            # 제목 추출
            title_tag = tag.find('div', {'class': 'tit'})
            title = clean_text(title_tag.text) if title_tag else 'No Title'
            
            # 댓글 수 추출
            comm_tag = tag.find('div', {'class': 'comm'})
            comments = clean_text(comm_tag.text) if comm_tag else '[0]'
            
            # 아이콘 확인
            icon_tag = tag.find('div', {'class': 'icon'})
            icon = clean_text(icon_tag.text) if icon_tag else ''
            
            # 데이터 출력 및 저장
            print("순서1: 데이터 추가 전")
            print("link: %s" % (link))
            print("title: %s" % (title))
            print("comment: %s" % (comments))
            print("icon: %s" % (icon))
            print('================================')
            print('================================')
            
            insertData(link, title, comments, icon)

        # 10초마다 데이터 새로 고침
        time.sleep(10)

if __name__ == "__main__":
    main()


  '[-=+,#/\?:^.@*\"※~ㆍ!』‘|\(\)\[\]`\'…》\”\“\’·]', ' ', inputString)


###### 실시간 뉴스 속보 #######
순서1: 데이터 추가 전
link: https://www.inven.co.kr/board/lol/4625/3900205
title: 이 정도면 꽤 날씬한 편
comment: 8
icon: N
H
데이터 삽입 성공
순서1: 데이터 추가 전
link: https://www.inven.co.kr/board/lol/4625/3900208
title: 와    조나스트롱 이정도면 매장 당할거같은데
comment: 38
icon: N
H
데이터 삽입 성공
순서1: 데이터 추가 전
link: https://www.inven.co.kr/board/lol/4625/3900198
title: 14 14패치 1티어픽인데
comment: 5
icon: N
H
데이터 삽입 성공
순서1: 데이터 추가 전
link: https://www.inven.co.kr/board/lol/4625/3900202
title: 쵸비 관련 좀 억울했던 프레임
comment: 24
icon: N
H
데이터 삽입 성공
순서1: 데이터 추가 전
link: https://www.inven.co.kr/board/lol/4625/3900212
title: QWER 팬덤 탈주시키는 바선생님
comment: 8
icon: N
H
데이터 삽입 성공
순서1: 데이터 추가 전
link: https://www.inven.co.kr/board/lol/4625/3900206
title: 집중포화 슬슬 재미없네
comment: 9
icon: N
H
데이터 삽입 성공
순서1: 데이터 추가 전
link: https://www.inven.co.kr/board/lol/4625/3900200
title: 바이든은 아이스크림 많이 먹어서 좆된거다
comment: 7
icon: N
H
데이터 삽입 성공
순서1: 데이터 추가 전
link: https://www.inven.co.kr/board/lol/4625/3900207
title: 단 하루도 빠짐없이 앰ㅅ짓하다가
comment: 11
icon: N

  '[-=+,#/\?:^.@*\"※~ㆍ!』‘|\(\)\[\]`\'…》\”\“\’·]', ' ', inputString)


KeyboardInterrupt: 