### 뉴스 기사제목 크롤링

In [1]:
from sklearn.feature_extraction.text import TfidfVectorizer,  CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline

%matplotlib inline
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
import pandas as pd
import scipy as sp
import pickle
import time
from selenium import webdriver

In [2]:
def making_date(start, end):
    
    """
    [입력형식]
    ㅇ start, end = '년도-월-일'
    
    ex) 
    '2018-11-01'
    '2018-12-14'
    
    [return 값]
    ㅇ date : start ~ end까지 날짜리스트
    
    """
    
    date_list = []
    
    if start > end :
        print("error(start > end) try again")
        return None
    
    elif (start or end) is (int or float):
        print("error try again")
        return None
    
    elif start == end:
        making_date = start
        temp = str(making_date)[:4] + str(making_date)[5:7] + str(making_date)[8:10]
        date_list.append(temp)
        return date_list
            
    else :
        making_date = pd.date_range(start, end)
        for count in range(len(making_date)):
            temp = str(making_date[count])[:4] + str(making_date[count])[5:7] + str(making_date[count])[8:10]
            date_list.append(temp)
            
    return date_list

In [3]:
date_list = making_date("2018-11-01","2018-12-02")
len(date_list)

32

In [4]:
def crawler(date_list,headless=False):

    '''
    [category]
    1 : 축구
    2 : 야구
    3 : 농구
    4 : 배구
    5 : 골프

    '''

    result = []
    category_list = ["kfootball","wfootball","kbaseball","wbaseball","basketball","volleyball","golf"]
    count = 0
    category_count = 0

    for category_data in category_list:

        if category_data == "wfootball" :
            pass
        elif category_data == "wbaseball" :
            pass
        else :
            category_count += 1

        for date in date_list:

            for page_number in range(1,3):

                url = "https://sports.news.naver.com/{}/news/index.nhn?date={}&page={}&isphoto=N".format(category_data,date,page_number)
                
                if headless:
                    options = webdriver.ChromeOptions()
                    options.add_argument('headless')
                    driver = webdriver.Chrome(options=options)
                else :
                    driver = webdriver.Chrome()

                driver.get(url)

                articles = driver.find_elements_by_css_selector("#_newsList ul li")

                for article in articles:
                    title = article.find_element_by_css_selector('div .title span').text
                    count += 1

                    data = {
                            "ID" : count,
                            "category" : category_count,
                            "title" : title,
                        }

                    result.append(data)

                driver.quit()

    df = pd.DataFrame(result)

    return df

In [5]:
df = crawler(date_list,headless=False)
df

Unnamed: 0,ID,category,title
0,1,1,"병역특례 서류조작으로 국가대표 자격 영구 박탈된 장현수, 연봉은 얼마?"
1,2,1,장현수의 파란만장 넉 달 '월드컵 실망→빌드업 중심→영구 박탈'
2,3,1,"‘병역 서류조작’으로 국대 퇴출..장현수, 공식 사과에도 비난 봇물"
3,4,1,"한국, 일본 꺾은 사우디와 26년 만에 결승전 [AFC U-19 챔피언십]"
4,5,1,"'전세진 멀티골' U-19 축구대표팀, AFC 챔피언십 결승 진출(종합)"
5,6,1,"한국, 사우디와 26년만의 결승전...U-19 챔피언십 13번째 우승 도전"
6,7,1,[U-19 REVIEW] 정정용호 결승 상대는 사우디로 확정!… 일본 2-0 격파
7,8,1,"[U-19 리뷰] 일본, 준결승전서 사우디에 0-2 패...'결승 한일전' 무산"
8,9,1,"[U-19 챔피언십] ‘골키퍼 자책골’ 일본, 사우디에 0-2 완패...결승 진출 실패"
9,10,1,장현수 영구제명→공식 사과 “병역특례 혜택 받았음에도…정말 죄송”


In [15]:
df.to_csv("naver.csv", mode='w')

In [20]:
df = pd.read_csv("naver.csv")
df[:10]

Unnamed: 0.1,Unnamed: 0,ID,category,title
0,0,1,1,"병역특례 서류조작으로 국가대표 자격 영구 박탈된 장현수, 연봉은 얼마?"
1,1,2,1,장현수의 파란만장 넉 달 '월드컵 실망→빌드업 중심→영구 박탈'
2,2,3,1,"‘병역 서류조작’으로 국대 퇴출..장현수, 공식 사과에도 비난 봇물"
3,3,4,1,"한국, 일본 꺾은 사우디와 26년 만에 결승전 [AFC U-19 챔피언십]"
4,4,5,1,"'전세진 멀티골' U-19 축구대표팀, AFC 챔피언십 결승 진출(종합)"
5,5,6,1,"한국, 사우디와 26년만의 결승전...U-19 챔피언십 13번째 우승 도전"
6,6,7,1,[U-19 REVIEW] 정정용호 결승 상대는 사우디로 확정!… 일본 2-0 격파
7,7,8,1,"[U-19 리뷰] 일본, 준결승전서 사우디에 0-2 패...'결승 한일전' 무산"
8,8,9,1,"[U-19 챔피언십] ‘골키퍼 자책골’ 일본, 사우디에 0-2 완패...결승 진출 실패"
9,9,10,1,장현수 영구제명→공식 사과 “병역특례 혜택 받았음에도…정말 죄송”


### 카테고리 분류모델 구현

In [3]:
from sklearn.feature_extraction.text import TfidfVectorizer,  CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline

In [25]:
x_train, x_test, y_train, y_test = train_test_split(df.title, df.category,
                                                   test_size = 0.1, random_state = 1)
len(x_train),len(x_test), len(y_train), len(y_test)

(8040, 894, 8040, 894)

In [26]:
clf = Pipeline([
    ('vect',TfidfVectorizer()),
    ('clf',MultinomialNB(alpha = 0.01))
])

In [27]:
model = clf.fit(x_train, y_train)

In [32]:
y_pred = model.predict(x_test)

In [33]:
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report

In [34]:
confusion_matrix(y_test, y_pred)

array([[238,   8,   3,   0,   3],
       [  7, 256,   4,   0,   2],
       [  2,   5, 112,   4,   1],
       [  1,   4,   2, 109,   1],
       [  3,   6,   1,   1, 121]], dtype=int64)

In [35]:
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           1       0.95      0.94      0.95       252
           2       0.92      0.95      0.93       269
           3       0.92      0.90      0.91       124
           4       0.96      0.93      0.94       117
           5       0.95      0.92      0.93       132

   micro avg       0.94      0.94      0.94       894
   macro avg       0.94      0.93      0.93       894
weighted avg       0.94      0.94      0.94       894



In [36]:
test_str = "‘정지석 22득점’ 대한항공, 한국전력 꺾고 2연승 질주"
model.predict_proba([test_str])

array([[2.25374484e-06, 4.32075338e-07, 1.38432689e-04, 9.99858455e-01,
        4.26138274e-07]])

In [37]:
test_str2 = "두산베어스 한국시리즈 준우승"
model.predict_proba([test_str2])

array([[3.42020834e-03, 9.91975169e-01, 2.26965790e-04, 2.44048299e-04,
        4.13360874e-03]])