<a href="https://colab.research.google.com/github/MarigoldJ/ygl2/blob/main/mycode/nlp/study_20210615.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# import packages

## pip install

In [1]:
! pip install beautifulsoup4 -qU
! pip install newspaper3k -qU
! pip install konlpy -qU

[K     |████████████████████████████████| 122kB 3.8MB/s 
[K     |████████████████████████████████| 215kB 4.0MB/s 
[K     |████████████████████████████████| 7.4MB 32.6MB/s 
[K     |████████████████████████████████| 81kB 8.3MB/s 
[K     |████████████████████████████████| 92kB 8.9MB/s 
[?25h  Building wheel for jieba3k (setup.py) ... [?25l[?25hdone
  Building wheel for feedfinder2 (setup.py) ... [?25l[?25hdone
  Building wheel for tinysegmenter (setup.py) ... [?25l[?25hdone
  Building wheel for sgmllib3k (setup.py) ... [?25l[?25hdone
[K     |████████████████████████████████| 19.4MB 1.5MB/s 
[K     |████████████████████████████████| 450kB 28.0MB/s 
[K     |████████████████████████████████| 92kB 8.5MB/s 
[?25h

## git clone for Mecab install

In [2]:
! git clone https://github.com/SOMJANG/Mecab-ko-for-Google-Colab.git

Cloning into 'Mecab-ko-for-Google-Colab'...
remote: Enumerating objects: 91, done.[K
remote: Counting objects: 100% (91/91), done.[K
remote: Compressing objects: 100% (85/85), done.[K
remote: Total 91 (delta 43), reused 22 (delta 6), pack-reused 0[K
Unpacking objects: 100% (91/91), done.


In [3]:
! bash Mecab-ko-for-Google-Colab/Mecab-ko-for-Google-Colab/install_mecab-ko_on_colab190912.sh

bash: Mecab-ko-for-Google-Colab/Mecab-ko-for-Google-Colab/install_mecab-ko_on_colab190912.sh: No such file or directory


## import

In [17]:
# data edit
import pandas as pd
import numpy as np

# data crawling
from newspaper import Article
from bs4 import BeautifulSoup
import requests

# tokenize
from konlpy.tag import Mecab

# similarity
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer
from sklearn.naive_bayes import MultinomialNB
from sklearn import metrics


# data crawling

In [None]:
class NaverNews():
    '''
    네이버 뉴스 속보 기사 텍스트를 크롤링하는데 사용
    '''

    def __init__(self):
        self.url_list = []
        self.articles = pd.DataFrame(columns=['content', 'category'])
        self.category_list = {100: '정치', 101: '경제', 102: '사회', 103: '생활/문화', 104: '세계', 105: 'IT/과학'}


    def make_url_list(self, code, date, num_pages):
        '''
        네이버 뉴스 속보 기사 url 목록을 반환한다.
        
        네이버 뉴스 속보 > 특정 카테고리 > 페이지 별 기사들의 주소들을 크롤링한다.
        
        code: 어떤 카테고리의 속보 기사들을 불러올지 결정(100, 101, 102, 103, 104, 105)
        date: 어떤 날짜의 속보 기사들을 불러올지 결정
        num_pages: 특정 카테고리의 기사들 중 몇번째 페이지까지 주소를 불러올지 결정
        '''
        url_list = []

        for page in range(num_pages):
            # 속보 기사들이 나열된 url 만들기 (headers가 없으면 권한 없음으로 html파일을 불러올 수 없음)
            url = f'https://news.naver.com/main/list.nhn?mode=LSD&mid=sec&sid1={code}&date={date}&page={i+1}'
            headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.90 Safari/537.36'}

            # 기사들이 나열된 페이지를 불러오기
            html = requests.get(url, headers=headers)
            html_parse = BeautifulSoup(html.content, 'html.parser')

            # 나열된 기사들의 링크를 url_list에 저장한다.
            news_list = html_parse.select('.newsflash_body > .type06_headline > li > dl')
            for url in news_list:
                url_list.append(url.a.get('href'))

        self.url_list = url_list
    
    def make_article(self, code, date, num_pages):
        '''

        '''
        # 기사 내용을 불러올 기사들의 url list를 만든다.
        self.make_url_list(code, date, num_pages)

        # 각 기사 url마다 기사 내용을 불러온 뒤, 저장한다.
        

        