<a href="https://colab.research.google.com/github/MarigoldJ/ygl2/blob/main/mycode/nlp/study_20210615.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# import packages

## pip install

In [1]:
! pip install beautifulsoup4 -qU
! pip install newspaper3k -qU
! pip install konlpy -qU

[31mERROR: konlpy 0.5.2 has requirement beautifulsoup4==4.6.0, but you'll have beautifulsoup4 4.9.3 which is incompatible.[0m


## git clone for Mecab install

In [2]:
! git clone https://github.com/SOMJANG/Mecab-ko-for-Google-Colab.git

fatal: destination path 'Mecab-ko-for-Google-Colab' already exists and is not an empty directory.


In [3]:
! bash Mecab-ko-for-Google-Colab/install_mecab-ko_on_colab190912.sh

Installing konlpy.....
Done
Installing mecab-0.996-ko-0.9.2.tar.gz.....
Downloading mecab-0.996-ko-0.9.2.tar.gz.......
from https://bitbucket.org/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz
--2021-06-15 12:07:42--  https://bitbucket.org/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz
Resolving bitbucket.org (bitbucket.org)... 104.192.141.1, 2406:da00:ff00::22c2:513, 2406:da00:ff00::22c3:9b0a, ...
Connecting to bitbucket.org (bitbucket.org)|104.192.141.1|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://bbuseruploads.s3.amazonaws.com/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz?Signature=QkPZyMRZ685YYnXpaNFD5mVJrNU%3D&Expires=1623759895&AWSAccessKeyId=AKIA6KOSE3BNJRRFUUX6&versionId=null&response-content-disposition=attachment%3B%20filename%3D%22mecab-0.996-ko-0.9.2.tar.gz%22&response-content-encoding=None [following]
--2021-06-15 12:07:43--  https://bbuseruploads.s3.amazonaws.com/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0

## import

In [4]:
# data edit
import pandas as pd
import numpy as np

# data crawling
from newspaper import Article
from bs4 import BeautifulSoup
import requests

# data tokenization
from konlpy.tag import Mecab

# similarity
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer
from sklearn.naive_bayes import MultinomialNB
from sklearn import metrics


# data crawling

In [7]:
class NaverNews():
    '''
    네이버 뉴스 속보 기사 텍스트를 크롤링하는데 사용
    '''

    def __init__(self):
        self.url_list = []
        self.articles = pd.DataFrame(columns=['content', 'category'])

        self.category_list = {100: '정치', 101: '경제', 102: '사회', 103: '생활/문화', 104: '세계', 105: 'IT/과학'}


    def make_url_list(self, code, date, num_pages):
        '''
        네이버 뉴스 속보 기사 url 목록을 반환한다.
        
        네이버 뉴스 속보 > 특정 카테고리 > 페이지 별 기사들의 주소들을 크롤링한다.
        
        code: 어떤 카테고리의 속보 기사들을 불러올지 결정(100, 101, 102, 103, 104, 105)
        date: 어떤 날짜의 속보 기사들을 불러올지 결정
        num_pages: 특정 카테고리의 기사들 중 몇번째 페이지까지 주소를 불러올지 결정
        '''
        url_list = []

        for page in range(num_pages):
            # 속보 기사들이 나열된 url 만들기 (headers가 없으면 권한 없음으로 html파일을 불러올 수 없음)
            url = f'https://news.naver.com/main/list.nhn?mode=LSD&mid=sec&sid1={code}&date={date}&page={page+1}'
            headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.90 Safari/537.36'}

            # 기사들이 나열된 페이지를 불러오기
            html = requests.get(url, headers=headers)
            html_parse = BeautifulSoup(html.content, 'html.parser')

            # 나열된 기사들의 링크를 url_list에 저장한다.
            news_list = html_parse.select('.newsflash_body > .type06_headline > li > dl')
            for url in news_list:
                url_list.append(url.a.get('href'))  # 한페이지에 대략 10개 기사가 있음

        self.url_list += url_list

        return url_list
    
    def get_articles(self, code, date, num_pages):
        '''
        특정 카테고리, 특정 날짜의 속보 기사들을 지정한 페이지만큼 불러온다.

        code: 어떤 카테고리의 속보 기사들을 불러올지 결정(100, 101, 102, 103, 104, 105)
        date: 어떤 날짜의 속보 기사들을 불러올지 결정
        num_pages: 특정 카테고리의 기사들 중 몇번째 페이지까지 주소를 불러올지 결정
        '''
        # 무슨 기사 내용을 불러올지 출력
        year = date // 10000
        month = (date % 10000) // 100
        day = date % 100

        print(f'{year}년 {month}월 {day}일 <{self.category_list[code]}> 카테고리의 기사를 1~{num_pages} 페이지 내에서 불러옵니다.')

        # 기사 내용을 불러올 기사들의 url list를 만든다.
        print('속보 기사 url 목록을 정리하는 중... ', end='')
        url_list = self.make_url_list(code, date, num_pages)
        print('완료!')

        # 각 기사 url마다 기사 내용을 불러온다.
        print('기사 내용들을 불러오는 중... ', end='')
        text_list = []
        for url in url_list:
            article = Article(url, language='ko')
            article.download()
            article.parse()
            text_list.append(article.text)
        print('완료!')
        print()

        # 모은 기사 내용을 DataFrame으로 정리한다.
        df_articles = pd.DataFrame({'content': text_list, 'category': self.category_list[code]})
        self.articles = pd.concat([self.articles, df_articles])

        return df_articles
        
    def save_articles(self, name=None):
        '''
        기사 내용을 담은 DataFrame을 저장한다.
        '''
        file_name = f'navernews_{name}.csv'
        self.articles.to_csv(file_name, index=None)

        print('기사 내용을 담은 DataFrame이 저장되었습니다.')

        

In [8]:
naver = NaverNews()
categories = [101, 102, 103, 104, 105]
for cat in categories:
    naver.get_articles(cat, 20210301, 2)

# naver.save_articles
df = naver.articles
print(df.shape)
print()
print(df.isnull().sum())

2021년 3월 1일 <경제> 카테고리의 기사를 1~2 페이지 내에서 불러옵니다.
속보 기사 url 목록을 정리하는 중... 완료!
기사 내용들을 불러오는 중... 완료!

2021년 3월 1일 <사회> 카테고리의 기사를 1~2 페이지 내에서 불러옵니다.
속보 기사 url 목록을 정리하는 중... 완료!
기사 내용들을 불러오는 중... 완료!

2021년 3월 1일 <생활/문화> 카테고리의 기사를 1~2 페이지 내에서 불러옵니다.
속보 기사 url 목록을 정리하는 중... 완료!
기사 내용들을 불러오는 중... 완료!

2021년 3월 1일 <세계> 카테고리의 기사를 1~2 페이지 내에서 불러옵니다.
속보 기사 url 목록을 정리하는 중... 완료!
기사 내용들을 불러오는 중... 완료!

2021년 3월 1일 <IT/과학> 카테고리의 기사를 1~2 페이지 내에서 불러옵니다.
속보 기사 url 목록을 정리하는 중... 완료!
기사 내용들을 불러오는 중... 완료!

(100, 2)

content     0
category    0
dtype: int64


# data preprocessing

In [9]:
# 기사 내용을 담은 DataFrame
# df = df
# df = pd.read_csv('filename.csv', index_col=None)
# df = pd.read_csv('https://raw.githubusercontent.com/MarigoldJ/ygl2/main/class/big_crawl.csv', index_col=None)

## Only text or number

* 한글, 영어, 숫자 외의 문자 제거

In [10]:
def only_text_num(df):
    '''
    한글, 영어, 숫자 외의 string을 제거하는 함수
    '''
    df_result = df.copy()

    df_result['content'] = df['content'].str.replace('[^ㄱ-ㅣ가-힣0-9a-zA-Z]', ' ')
    
    return df_result

0     뉴욕 증권거래소의 모습  뉴욕 증권거래소의 모습   미국 뉴욕 증시의 3대 지수가 ...
1      머니투데이 뉴욕 임동욱 특파원  뉴욕증시가 상승 출발했다 1일 현지시간  오전 9...
2     가수 김재환이 24일 오후 온라인 생중계로 진행된  제7회 2020 APAN MUS...
3     한국가스공사 본사 사옥 전경   사진 제공   한국가스공사  한국가스공사 본사 사옥...
4     금리변수 대외 불확실성  경기회복에 낙관론에  코스피 3300 전망도  코스피가 올...
                            ...                        
15     디지털데일리 백지영기자  와탭랩스 대표 이동인 는 중소벤처기업부  K 비대면 서비...
16     이데일리 김국배 기자  국내 소프트웨어 기업 더존비즈온이 미국 사모펀드 운용사인 ...
17     서울 뉴시스 이해진 왼쪽  네이버 글로벌투자책임자 GIO 와 손정의 오른쪽  일본...
18    3월1일부로 나흘째 코로나19 백신접종이 진행되고 있는 가운데  일반 국민들을 대상...
19    세계 최대 음원 스트리밍 업체 스포티파이에서 카카오M이 보유한 음원의 서비스가 1일...
Name: content, Length: 100, dtype: object

## tokenization

In [14]:
tokenizer = Mecab()
stopwords = ['에','는','은','을','했','에게','있','이','의','하','한','다','과','때문','할','수','무단','따른','및','금지','전재','경향신문','기자','는데','가','등','들','파이낸셜','저작','등','뉴스']

df['token_text'] = df['content'].apply(lambda x: tokenizer.morphs(x))
df['token_text'] = df['token_text'].apply(lambda x: [w for w in x if w not in stopwords])


In [17]:
x_train, x_test, y_train, y_test = train_test_split(df['token_text'], df['category'],
                                                    test_size=0.3 ,random_state=33)
print(f'Length of train dataset : {len(x_train)}')
print(f'Length of test dataset : {len(x_test)}')

Length of train dataset : 70
Length of test dataset : 30


In [None]:
# category 별 데이터 수 확인
df.groupby('category').size().reset_index(name='count')

# data tokenization

# check similarity