In [9]:
# < 네이버 뉴스 기사 웹 크롤러 모듈 >
 

# urllib : HTTP REQUEST를 보내고 HTTP RESPONSE를 받기 위한 라이브러리
# BeautifulSoup : urllib을 통해 받은 RESPONSE(HTML)를 파싱하기 위한 라이브러리
from bs4 import BeautifulSoup
import urllib.request
  
 
# 출력 파일 명
# 해당 소스코드가 위치한 디렉토리에 output.txt에 기사내용 저장
OUTPUT_FILE_NAME = 'output.txt'
 
 
# 크롤링을 원하는 네이버 기사 URL
# 백슬래시를 사용하여 URL을 두 줄로 나눔 ( 한 행이 80자가 넘어가는 것 방지 )
URL = 'http://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=105&oid=011'\
      '&aid=0003666197'
 
 
# 크롤링 함수
# 해당 URL주소로 요청을 보내서 받은 기사 내용을 파싱해 하나의 문자열로 저장
def get_text(URL):
    # urlopen() : URL 주소에 대한 요청을 보내서 변수에 결과를 저장
    source_code_from_URL = urllib.request.urlopen(URL)
    
    # HTML 파싱 ( BS 객체 생성하고 soup에 할당 ) 
    # lxml : 기존 html 방식대신 lxml방식으로 파싱하면 한글 내용이 포함된 기사이기 때문
    # from_encoding로 utf-8을 지정해 utf-8방식으로 인코딩
    soup = BeautifulSoup(source_code_from_URL, 'lxml', from_encoding='utf-8')
    
    # soup객체에서 원하는 html 요소만 가지고 옴
    # 네이버 뉴스 html요소 중 본문은 div 클래스에 있어 div로 지정하여 그 부분만 가져옴
    # div클래스 id는 articleBodyContents로 확인됨
    # 본문 내용 저장을 위해 text 문자열 할당
    text = ''
    
    # soup 객체의 find_all()을 사용해 id가 articleBodyContents인 div클래스 추출
    # 반복문으로 요소 하나하나 직접 접근 
    for item in soup.find_all('div', id='articleBodyContents'):
        text = text + str(item.find_all(text=True)) 
        
    # 뽑은 요소 item에 find_all을 사용하여 text 키워드 안에 True를 넣음
    # --> 텍스트 요소만 뽑아 문자열로 치환 후 text 문자열에 이어 붙힌 후
    # text 반환
    return text
 

# 본문 내용이 포함된 요소가 div 클래스가 하나지만 for문을 쓴 이유는...
# find_all()의 반환 객체가 인자로 주어진 조건을 만족하는 
# 모든 요소들을 순환가능한 객체로 주어지기 때문에 사용함
 
 
# 메인 함수
def main():
    open_output_file = open(OUTPUT_FILE_NAME, 'w') # 파일 열기
    result_text = get_text(URL)                    # 기사내용을 변수에 할당
    open_output_file.write(result_text)            # 오픈한 파일에 변수에 저장된 문자열 입력
    open_output_file.close()                       # 파일 닫기
    
 
# __name__을 사용해 메인 함수 실행
if __name__ == '__main__':
    main()

In [8]:
# < 텍스트 정제 모듈 > ( 영어, 특수기호 모두 제거 )

# output.txt파일에 저장된 기사 내용은 성공적으로 긁어왔으나...
# 다만, \n , \r 등의 문자와 불필요한 특수문자가 있어 제거 해야함
 
# re : 정규 표현식을 활용하기 위한 라이브러리
import re
 
 
# 입,출력 파일명
# output.txt가 위치한 디렉토리에 output_cleaned.txt에 정제된 기사내용 저장
INPUT_FILE_NAME = 'output.txt'
OUTPUT_FILE_NAME = 'output_cleand.txt'
 
 
# 클리닝 함수
def clean_text(text):
    # 대소문자 영어 제거
    cleaned_text = re.sub('[a-zA-Z]', '', text)
    
    # 특수문자 제거
    cleaned_text = re.sub('[\{\}\[\]\/?.,;:|\)*~`!^\-_+<>@\#$%&\\\=\(\'\"]', '', cleaned_text)
    return cleaned_text
    
 
# 메인 함수
def main():
    read_file = open(INPUT_FILE_NAME, 'r')      # output.txt 파일 열기
    write_file = open(OUTPUT_FILE_NAME, 'w')    # output_cleaned 파일 열기
    text = read_file.read()                     # output.txt 내용을 변수에 저장
    text = clean_text(text)                     # 클리닝 함수로 정제하여 재저장
    write_file.write(text)                      # 정제된 내용을 output_cleaned.txt에 쓰기
    read_file.close()                           # 파일 닫기
    write_file.close()                          # 파일 닫기

 
# __name__을 사용해 메인 함수 실행
if __name__ == "__main__":
    main()