### 임의의 뉴스를 선정하여 뉴스의 제목과 텍스트를 뽑아보는 실습

In [1]:
from newspaper import Article

#- 파싱할 뉴스 기사 주소입니다.
url = 'https://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=101&oid=030&aid=0002881076'

#- 언어가 한국어이므로 language='ko'로 설정해줍니다.
article = Article(url, language='ko')
article.download()
article.parse()

In [2]:
#- 기사 제목을 출력합니다.
print('기사 제목 :')
print(article.title)
print('')

#- 기사 내용을 출력합니다.
print('기사 내용 :')
print(article.text)

기사 제목 :
[AI 사피엔스 시대]자연어처리 기술, 컴퓨팅 파워 경쟁 시대로

기사 내용 :
[Copyright ⓒ 전자신문 & 전자신문인터넷, 무단전재 및 재배포 금지]

주로 아이디어와 기술력으로 경쟁했던 자연어처리 인공지능(AI) 분야는 점차 컴퓨팅 파워 싸움으로 무게 추가 이동하고 있다. 모델이 대형화되면서 향상된 퍼포먼스 확보에 필요한 자금 규모도 커지고 있다. 자칫 대기업 자본력에 휘둘릴 수 있다는 우려도 함께 나온다.자연어처리(NLP)는 인간이 사용하는 언어 체계를 기계가 인식하도록 알고리즘을 디자인하는 기술이다. 흔히 말하는 컴퓨터 혹은 인간과 대화하는 컴퓨터 관련 기술이 포함된다.목적에 따라 세 가지 카테고리로 나뉜다. 인간이 제기한 질문에 자동으로 적절한 답을 찾아주는 '질의응답(QA)', 원하는 업무를 지시했을 때 작업을 수행하는 '테스크 컴플리션', 그리고 특별한 목적이 없는 대화를 의미하는 '오픈도메인 컨버세이션(비목적성 대화)'이 있다. 각기 발전해왔던 세 가지 기술은 지난 2018년 구글의 인공지능 언어모델 '버트(BERT)'의 등장으로 패러다임이 전환됐다. 압도적인 성능으로 대량의 프리트레이닝(사전학습)이 가능해지면서 굳이 셋을 구분할 필요가 없어진 것이다.기계학습 연구에서 모델을 학습할 때는 지도학습과 비지도학습, 강화학습 중 하나를 골라 활용한다. 지도학습은 사람이 적절한 입력과 출력을 부여하는 방식이다. 정답이 정해져 있고 기계의 정답률도 쉽게 측정할 수 있다. 반면에 비지도학습은 정답이 정해지지 않은 데이터에 대해서도 기계가 스스로 클러스터링 등을 통해 학습한다. 체계화되지 않은 대량의 데이터를 학습 가능하지만 학습이 맞게 됐는지 확인하기 어렵다.버트는 기존 AI 학습 방법을 혁신적으로 바꿔놨다는 평가를 받는다. 자연어처리를 교사 없이 양방향으로 사전 학습하는 최초의 시스템이다. 비지도학습 방식을 사용하면서도 기존 존재했던 어떤 기술보다 뛰어난 성능을 보여준다. 최근 1년 반 동안 버트를 필두로 AI 모델은 급격히 대형화되

### 네이버 뉴스 기사 크롤링 (2) BeautifulSoup와 newspaper3k를 통해 크롤러 만들기

In [3]:
# 크롤러를 만들기 전 필요한 도구들을 임포트합니다.
import requests
import pandas as pd
from bs4 import BeautifulSoup

# 페이지 수, 카테고리, 날짜를 입력값으로 받습니다.
def make_urllist(page_num, code, date): 
  urllist= []
  for i in range(1, page_num + 1):
    url = 'https://news.naver.com/main/list.nhn?mode=LSD&mid=sec&sid1='+str(code)+'&date='+str(date)+'&page='+str(i)   
    news = requests.get(url)

    # BeautifulSoup의 인스턴스 생성합니다. 파서는 html.parser를 사용합니다.
    soup = BeautifulSoup(news.content, 'html.parser')

    # CASE 1
    news_list = soup.select('.newsflash_body .type06_headline li dl')
    # CASE 2
    news_list.extend(soup.select('.newsflash_body .type06 li dl'))
        
    # 각 뉴스로부터 a 태그인 <a href ='주소'> 에서 '주소'만을 가져옵니다.
    for line in news_list:
        urllist.append(line.a.get('href'))
  return urllist

### 2020년 5월 6일, 경제 기사(코드로 101번)를 2페이지까지 탐색해서 URL 리스트를 받아오기
### 한 페이지당 뉴스 기사가 20개가 있으니까, 2페이지까지 탐색하면 총 40개의 URL 리스트를 받아온다.

In [4]:
url_list = make_urllist(2, 101, 20200506)
print('뉴스 기사의 개수: ',len(url_list))

뉴스 기사의 개수:  40


### 총 40개의 URL이 존재하는 것을 확인할 수 있다. 5개만 출력해 보자.

In [5]:
url_list[:5]

['https://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=101&oid=057&aid=0001451723',
 'https://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=101&oid=057&aid=0001451721',
 'https://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=101&oid=057&aid=0001451718',
 'https://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=101&oid=003&aid=0009849190',
 'https://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=101&oid=057&aid=0001451717']

### 이제 newspaper3k를 이용해서 뉴스 기사들을 파이썬을 저장할 수 있다.
### 함수를 호출할 때 각 카테고리의 번호로 호출하고 있는데, 
### 앞으로 결과를 확인할 때 코드로부터 바로 어떤 카테고리인지 확인하기 쉽도록 
### code를 키, 실제 카테고리를 밸류로 가지는 딕셔너리를 만들어두겠다. 
### 이번 실습에 사용할 카테고리들에 대해서만 생성했다.

In [6]:
idx2word = {'101' : '경제', '102' : '사회', '103' : '생활/문화', '105' : 'IT/과학'}

### newspaper3k를 통해서 만들어진 함수로 URL 리스트와 해당 URL이 어떤 카테고리인지 코드를 알려주면 ### 
### 이를 통해 데이터프레임을 생성하는 함수이다.

In [7]:
from newspaper import Article

#- 데이터프레임을 생성하는 함수입니다.
def make_data(urllist, code):
  text_list = []
  for url in urllist:
    article = Article(url, language='ko')
    article.download()
    article.parse()
    text_list.append(article.text)

  #- 데이터프레임의 'news' 키 아래 파싱한 텍스트를 밸류로 붙여줍니다.
  df = pd.DataFrame({'news': text_list})

  #- 데이터프레임의 'code' 키 아래 한글 카테고리명을 붙여줍니다.
  df['code'] = idx2word[str(code)]
  return df

### 앞서 저장해둔 경제 카테고리(코드 101)의 40개의 URL 리스트로부터 데이터프레임을 생성한다.
### 40개의 경제 뉴스가 데이터프레임에 저장되었다.

In [8]:
data = make_data(url_list, 101)
#- 상위 10개만 출력해봅니다.
data[:10]

Unnamed: 0,news,code
0,고려은단이 5월을 맞아 응원 메시지를 공유하는 ‘5월 5글자로 응원 부탁해!’ 이벤...,경제
1,코리아나화장품의 민감성 피부를 위한 저자극 스킨케어 브랜드 '프리엔제'가 마르고 건...,경제
2,서울장수주식회사가 부드럽고 달콤한 맛으로 인기를 모으고 있는 생막걸리 ‘인생막걸리’...,경제
3,[서울=뉴시스] 오동현 기자 = 모바일 게임 기업 컴투스는 3D 모바일 야구 게임 ...,경제
4,대원제약이 2020년 상반기 신입과 경력 정기 공채를 실시합니다.정기 공채 모집분야...,경제
5,"[AFP=연합뉴스] [AFP=연합뉴스]\n\n""요즘은 잔인한 날""…리프트도 앞서 9...",경제
6,이재용 삼성전자 부회장이 6일 삼성전자 서울 서초사옥에서 대국민 사과 회견을 하기 ...,경제
7,JW중외제약이 A형 혈우병 예방요법제 ‘헴리브라피하주사를 출시하고 본격적인 마케팅 ...,경제
8,"옵티팜과 휴벳바이오가 공동 개발중인 백신 후보 물질에 대해 마우스, 기니피그, 미니...",경제
9,[한국경제TV 신동호 기자]\n\n전남 나주시와 충북 청주시가 방사광 가속기 구축사...,경제


### 네이버 뉴스 기사 크롤링 (3) 데이터 수집 및 전처리
### 이번에는 하나의 카테고리만이 아니라 다른 카테고리의 뉴스들에 대해서도 수집을 하고자 한다. 
### 가령, 특정 날짜의 사회, 생활/문화, IT/과학의 뉴스들을 수집해본다고 해 보자. 
### 수집을 원하는 카테고리 코드들을 저장한 리스트를 만들어두자.

In [9]:
code_list = [102, 103, 105]

code_list

[102, 103, 105]

### 이 코드 리스트, 그리고 날짜, 페이지 수를 입력으로 받는 make_total_data() 라는 함수를 만든다. 
### 이 함수는 내부적으로 앞서 만든 make_urllist 함수와 make_data 함수를 호출하도록 한다.

In [10]:
def make_total_data(page_num, code_list, date):
  df = None

  for code in code_list:
    url_list = make_urllist(page_num, code, date)
    df_temp = make_data(url_list, code)
    print(str(code)+'번 코드에 대한 데이터를 만들었습니다.')

    if df is not None:
      df = pd.concat([df, df_temp])
    else:
      df = df_temp

  return df

### 마찬가지로 2020년 5월 6일 기사에 대해서 1페이지까지만 크롤링을 하되, 
### 102번, 103번, 105번 코드를 가지는 카테고리의 뉴스들을 수집해서 데이터프레임에 저장해 보자.

In [12]:
df = make_total_data(1, code_list, 20200506)

102번 코드에 대한 데이터를 만들었습니다.
103번 코드에 대한 데이터를 만들었습니다.
105번 코드에 대한 데이터를 만들었습니다.


### 1페이지당 20개의 뉴스 기사가 존재하므로, 총 60개의 뉴스기사가 수집되어야 한다.

In [13]:
print('뉴스 기사의 개수: ',len(df))

뉴스 기사의 개수:  60


### 60개의 뉴스 기사가 수집되었네요. 임의로 10개의 샘플을 선택하여 출력해 보겠다.

In [14]:
df.sample(10)

Unnamed: 0,news,code
15,©나스(NARS) ©나스(NARS)\n\n모던 메이크업 아티스트 브랜드 나스(NAR...,생활/문화
13,[KBS 전주][앵커]해마다 이맘때면 전주 영화의 거리에는 봄의 영화 축제를 즐기려...,생활/문화
18,2017년 EBS TV ‘까칠남녀’에 출연한 방송인 정영진. EBS 방송 캡처 20...,생활/문화
12,기사 섹션 분류 안내\n\n기사의 섹션 정보는 해당 언론사의 분류를 따르고 있습니다...,생활/문화
2,황범순 의정부시 부시장 을지대학교 의정부캠퍼스 및 부속병원 공사현장 안전점검. 사진...,사회
8,과학기술정보통신부 제공 과학기술정보통신부 제공\n\n소재 등 산업과 기초과학 연구개...,IT/과학
6,“코로나19에 걸렸다 나은 친구는 아무래도 좀 멀리하게 될 것 같아요. 재발 가능성...,사회
11,이재용 삼성전자 부회장의 6일 대국민 사과가 그를 상대로 한 수사·재판에 어떤 영향...,사회
17,[디지털데일리 이종현기자] 공공시설을 이용하거나 공공기관 운영 강좌 수강을 신청할 ...,IT/과학
15,/뉴스1 DB. /뉴스1 DB.\n\n(서울=뉴스1) 이상학 기자 = 밤에 귀가하던...,사회


### 10개의 샘플이 출력해 보았는데, 3개의 카테고리가 전부 존재하는 것을 확인할 수 있다. 
### df.sample(10)을 여러 번 호출하면서 달라지는 결과를 확인해 보자. 
### 수집한 데이터의 샘플들을 랜덤으로 여러 번 출력해 보는 것은 데이터를 파악하는데 꽤 큰 도움이 된다.
### 이제 뉴스 크롤러가 완성되었다!

## 대량 크롤링
### 이번에는 좀 더 많은 데이터를 수집해 볼까요? 
### 이번에 수집한 데이터로 머신 러닝 모델을 통해 카테고리를 예측하는 모델을 만들어보겠다. 
### 이번에는 3개의 카테고리에 대해서 총 100개의 페이지에 대해서 크롤링하겠다.

In [17]:
df = make_total_data(10, code_list, 20200506)

102번 코드에 대한 데이터를 만들었습니다.
103번 코드에 대한 데이터를 만들었습니다.
105번 코드에 대한 데이터를 만들었습니다.


### 뉴스 기사를 크롤링했다. 
### 꽤 긴 시간을 들여서 수집한 데이터이기 때문에 실수로 유실하지 않도록 csv 파일로 별도 저장해두겠다.

In [18]:
import os

# 데이터프레임 파일을 csv 파일로 저장합니다.
# 저장경로는 이번 프로젝트를 위해 만든 폴더로 지정해 주세요.
csv_path = os.getenv("HOME") + "/aiffel/news_crawler/news_data.csv"
df.to_csv(csv_path, index=False)

if os.path.exists(csv_path):
  print('{} File Saved!'.format(csv_path))

/home/aiffel0042/aiffel/news_crawler/news_data.csv File Saved!


### 네이버 뉴스 기사 크롤링 (4) 데이터 전처리

### 저장해둔 csv 파일을 다시 읽어서 데이터프레임으로 저장하기 위해서는 아래의 코드를 사용한다.

In [19]:
csv_path = os.getenv("HOME") + "/aiffel/news_crawler/news_data.csv"
df = pd.read_table(csv_path, sep=',')
df.head()

Unnamed: 0,news,code
0,파주시청. 사진제공=파주시 파주시청. 사진제공=파주시\n\n[파주=파이낸셜뉴스 강근...,사회
1,동영상 뉴스\n\n이천 물류창고 화재 발화지점으로 지목된 지하 2층에서 산소절단기의...,사회
2,황범순 의정부시 부시장 을지대학교 의정부캠퍼스 및 부속병원 공사현장 안전점검. 사진...,사회
3,귀갓길 여성을 쫓아가 성범죄를 시도한 20대 남성이 구속됐습니다.서울 강남경찰서는 ...,사회
4,(서울=연합뉴스) 대한약사회가 6일부터 코로나바이러스 감염증 대응 체계를 '사회적 ...,사회


### 이제 이 뉴스 데이터에 대해서 전처리를 진행해야 하는데
### 현재 저장된 뉴스 기사는 기본적으로 각종 숫자, 영어, \n와 같은 HTML 태그들이 섞여 있다. 
### 우선, 한글 외에는 전부 제거하도록 정규 표현식을 용하여 전처리를 진행한다.

In [20]:
# 정규 표현식을 이용해서 한글 외의 문자는 전부 제거합니다.
df['news'] = df['news'].str.replace("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]","")
df['news']

0      파주시청 사진제공파주시 파주시청 사진제공파주시파주파이낸셜뉴스 강근주 기자 파주시는 ...
1      동영상 뉴스이천 물류창고 화재 발화지점으로 지목된 지하 층에서 산소절단기의 산소 공...
2      황범순 의정부시 부시장 을지대학교 의정부캠퍼스 및 부속병원 공사현장 안전점검 사진제...
3      귀갓길 여성을 쫓아가 성범죄를 시도한 대 남성이 구속됐습니다서울 강남경찰서는 강간상...
4      서울연합뉴스 대한약사회가 일부터 코로나바이러스 감염증 대응 체계를 사회적 거리두기에...
                             ...                        
595    지디넷코리아이도원 기자스마일게이트알피지대표 지원길는 블록버스터 핵앤슬래시 다중접속역...
596    모두의셔틀 로고 모두의셔틀 제공  뉴스 모두의셔틀 로고 모두의셔틀 제공  뉴스서울뉴...
597    휴온스의 신종 코로나바이러스 감염증코로나 관련 방역용품이 미국 수출길에 오른다휴온스...
598    코로나 치료제백신 개발 범정부 지원단은 오늘일부터 이틀 동안 관련 기업들을 대상으로...
599      전자신문  전자신문인터넷 무단전재 및 재배포 금지이재용 삼성전자 부회장이 세 경...
Name: news, Length: 600, dtype: object

### 데이터에 Null 값이 있지는 않은지 확인해본다.

In [21]:
print(df.isnull().sum())

news    0
code    0
dtype: int64


### Null 값을 가진 샘플은 없다. 그렇다면 혹시 이 데이터에는 중복 샘플이 있지는 않을까? 
### 사실 네이버 뉴스에는 많은 뉴스가 중복으로 수집되고 있다. 
### 사실 잘 출력해보면 df.sample() 의 출력 결과에서 중복인 기사들을 확인할 수 있다.
### 하지만 더 간단히는 중복을 제거한 데이터 수를 확인하고, 우리가 수집한 데이터의 개수와 비교하여 데이터에 중복이 있는지 확인할 수 있다.

In [22]:
# 중복된 샘플들을 제거한다.
df.drop_duplicates(subset=['news'], inplace=True)

print('뉴스 기사의 개수: ',len(df))

뉴스 기사의 개수:  552


### 중복을 제거한 샘플의 개수가 데이터셋 전체 샘플 개수보다 적어진 것이 확인된다.
### 이 수치는 중복을 제거한 경우를 가정해서 카운트한 것으로 실제 중복을 제거하는 과정을 거쳐야만 실제로 정제된 데이터를 얻을 수 있다. 

In [23]:
# 중복 샘플 제거
df.drop_duplicates(subset=['news'], inplace=True)

print('뉴스 기사의 개수: ',len(df))

뉴스 기사의 개수:  552


### 이제 각 카테고리별 샘플의 분포를 확인해 보자.

In [24]:
#df['code'].value_counts().plot(kind = 'bar')
import matplotlib
matplotlib.__file__

'/home/aiffel0042/anaconda3/envs/aiffel/lib/python3.7/site-packages/matplotlib/__init__.py'

### 제 데이터는 사회 > 생활/문화 > IT/과학 순으로 뉴스 기사가 많았습니다. 실제 개수를 확인해 보자.

In [25]:
print(df.groupby('code').size().reset_index(name = 'count'))

    code  count
0  IT/과학    179
1     사회    192
2  생활/문화    181


### 자연어 처리에서는 이 특정 단위를 '토큰(token)'이라고 하며 이 과정을 토큰화(tokenization) 또는 토크나이징(tokenizing)이라고 한다. 
### 한국어 자연어처리의 경우에는 토큰화 과정을 주로 형태소 분석기를 사용해서 수행한다.
### 한국어는 영어와는 달리 띄어쓰기만으로는 토큰화를 하기에 부족하기 때문이다. 
### 한국어의 경우에는 띄어쓰기 단위가 되는 단위를 '어절'이라고 하는데 즉, 어절 토큰화는 한국어 NLP에서 지양되고 있다. 
### 어절 토큰화와 단어 토큰화가 같지 않기 때문이다. 그 근본적인 이유는 한국어가 영어와는 다른 형태를 가지는 언어인 '교착어'라는 점에서 기인한다.
### '교착어'란 조사, 어미 등을 붙여서 말을 만드는 언어를 말한다.
### 1) 한국어는 교착어이다.
### 2) 한국어는 띄어쓰기가 영어보다 잘 지켜지지 않는다.

### 오늘 실습 전 미리 준비물로 설치한 형태소 패키지 라이브러리, Mecab의 사용법을 간단히 알아보자. 
### Mecab의 .morphs를 사용하면 입력 문자열을 형태소 단위로 나누어준다.

In [26]:
from konlpy.tag import Mecab
tokenizer = Mecab()

kor_text = '밤에 귀가하던 여성에게 범죄를 시도한 대 남성이 구속됐다서울 제주경찰서는 \
            상해 혐의로 씨를 구속해 수사하고 있다고 일 밝혔다씨는 지난달 일 피해 여성을 \
            인근 지하철 역에서부터 따라가 폭행을 시도하려다가 도망간 혐의를 받는다피해 \
            여성이 저항하자 놀란 씨는 도망갔으며 신고를 받고 주변을 수색하던 경찰에 \
            체포됐다피해 여성은 이 과정에서 경미한 부상을 입은 것으로 전해졌다'

#- 형태소 분석, 즉 토큰화(tokenization)를 합니다.
print(tokenizer.morphs(kor_text))

['밤', '에', '귀가', '하', '던', '여성', '에게', '범죄', '를', '시도', '한', '대', '남성', '이', '구속', '됐', '다', '서울', '제주', '경찰서', '는', '상해', '혐의', '로', '씨', '를', '구속', '해', '수사', '하', '고', '있', '다고', '일', '밝혔', '다', '씨', '는', '지난달', '일', '피해', '여성', '을', '인근', '지하철', '역', '에서부터', '따라가', '폭행', '을', '시도', '하', '려다가', '도망간', '혐의', '를', '받', '는다', '피해', '여성', '이', '저항', '하', '자', '놀란', '씨', '는', '도망갔으며', '신고', '를', '받', '고', '주변', '을', '수색', '하', '던', '경찰', '에', '체포', '됐', '다', '피해', '여성', '은', '이', '과정', '에서', '경미', '한', '부상', '을', '입', '은', '것', '으로', '전해졌', '다']


### 입력된 문자열이 토큰화 된 것을 볼 수 있다. 자연어 처리에서는 토큰화 결과가 얼마나 정확한지에 따라 그 성능에 많은 영향을 받는다. 
### 형태소 분석기의 결과가 머신 러닝 결과의 성능에 큰 영향을 주기도 합니다.

## 불용어(stopwords) 제거
### 이제 갖고 있는 데이터에 형태소 분석기를 사용하겠다. 이렇게 토큰화 과정에서 해야 하는 전처리가 있다. 
### 바로 불필요한 토큰들을 제거하는 불용어(stopwords) 제거이다. 
### 불용어 란, 데이터 전체에서 꽤 많이 등장하지만 실제로는 자연어 처리에 큰 영향을 주지 않는, 
### 중요하지 않은 단어들을 말한다. 한국어에서는 주로 ~가, ~은, ~는과 같은 조사나 접사 등이 불용어에 속한다. 
### 또는 해당 데이터의 특성으로 인해 자주 등장할 수밖에 없는 단어들도 불용어이다.
### 이 데이터의 불용어를 정의해 보자.

In [27]:
stopwords = ['에','는','은','을','했','에게','있','이','의','하','한','다','과','때문','할','수','무단','따른','및','금지','전재','경향신문','기자','는데','가','등','들','파이낸셜','저작','등','뉴스','아','휴','아이구','아이쿠','아이고','어','나','우리','저희','따라','의해','을','를','에','의','가','으로','로','에게','뿐이다','의거하여','근거하여','입각하여','기준으로','예하면','예를 들면','예를 들자면','저','소인','소생','저희','지말고','하지마','하지마라','다른','물론','또한','그리고','비길수 없다','해서는 안된다','뿐만 아니라', '코로나','만이 아니다','만은 아니다','막론하고','관계없이','그치지 않다','그러나','그런데','하지만','든간에','논하지 않다','따지지 않다','설사','비록','더라도','아니면','만 못하다','하는 편이 낫다','불문하고','향하여','향해서','향하다','쪽으로','틈타','이용하여','타다','오르다','제외하고','이 외에','이 밖에','하여야','비로소','한다면 몰라도','외에도','이곳','여기','부터','기점으로','따라서','할 생각이다','하려고하다','이리하여','그리하여','그렇게 함으로써','하지만','일때','할때','앞에서','중에서','보는데서','으로써','로써','까지','해야한다']

In [28]:
len(stopwords)

126

In [29]:
with open('ranksnl-korean.txt', 'r', encoding='UTF8') as f:
    stopwords2 = f.readlines()

In [30]:
len(stopwords2)

677

### 불용어는 미리 짐작하여 한 번에 정의하는 것이 아니라, 
### 토큰화 과정을 거친 결과를 지속적으로 확인하면서 계속해서 추가하게 되는 것이 일반적이다. 
### 위 불용어는 저자가 아래의 토큰화 함수를 몇 차례 실행 및 확인하면서 임의로 추가해 보았다. 
### 실제로는 더 많은 불용어가 있다.

In [31]:
# 토큰화 및 토큰화 과정에서 불용어를 제거하는 함수입니다.
def preprocessing(data):
  text_data = []

  for sentence in data:
    temp_data = []
    #- 토큰화
    temp_data = tokenizer.morphs(sentence) 
    #- 불용어 제거
    temp_data = [word for word in temp_data if not word in stopwords] 
    text_data.append(temp_data)

  text_data = list(map(' '.join, text_data))

  return text_data

### 전체 데이터에 대해서 토큰화 및 불용어 제거를 수행한 뒤 첫 번째 샘플을 출력해 보자.

In [32]:
text_data = preprocessing(df['news'])
print(text_data[0])

파주 시청 사진제 공파 주시 파주 시청 사진 제공 파주시 파주 강근주 파 주 시 일 관내 취약 계층 만 가구 대해 정부 긴급 재난 지원금 입금 완료 다파 주 시민 받 긴급 재난 지원금 인 이상 가구 기준 만 원 받 게 되 며 인 가구 만 원 인 가구 만 원 인 가구 만 원 정부 발표 긴급 재난 지원금 파주 시민 지급 금액 이유 국비 지방비 부담 비율 다파 주 시 이미 모든 시민 경기도 파주시 재난 기본 소득 인 당 각 만 원 지급 고 시민 국비 지원금 만 지급 며 인 가구 기준 총 지원 금액 파주시 재난 기본소득 만 원 경기도 재난 기본소득 만 원 정부 긴급 재난 지원금 만 원 총 만 원 받 게 된다 취약 계층 아닌 시민 오 월일 소지 고 신용 체크카드 사 홈페이지 에서 긴급 재난 지원금 지원 신청 세대주 가족 지원금 일괄 신청 해야 한다 한편 파 주 시 일 김정기 부시장 단장 긴급 재난 지원금 추진 태 스 크 포스 구성 해 긴급 재난 지원금 원활 게 지급 될 도록 지원 한다 권 자 재 배포


### 불용어가 제거된 상태로, 띄어쓰기 단위로 토큰화된 데이터라고 볼 수 있다.

## 머신 러닝 사용하기
### 데이터에 대한 전처리가 끝났다면 드디어 머신 러닝 모델을 적용해 볼 때가 되었다! 
### 이번 실습에서 사용할 머신 러닝 모델은 '나이브 베이즈 분류기'라는 모델이다. 

### 우선 머신 러닝 모델 적용을 위해서 필요한 도구들을 임포트한다.

In [33]:
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.naive_bayes import MultinomialNB
from sklearn import metrics

### 사이킷런(scikit-learn 또는 sklearn)은 훈련 데이터와 테스트 데이터를 분리하는데 유용한 train_test_split() 함수를 제공한다. 
### train_test_split() 에 사용할 데이터를 입력하면, 훈련 데이터와 테스트 데이터로 분리해준다.

In [34]:
#- 훈련 데이터와 테스트 데이터를 분리합니다.
X_train, X_test, y_train, y_test = train_test_split(text_data, df['code'], random_state = 0)

### 분리된 데이터의 개수를 확인해 보자

In [35]:
print('훈련용 뉴스 기사의 개수 :', len(X_train))
print('테스트용 뉴스 기사의 개수 : ', len(X_test))
print('훈련용 레이블의 개수 : ', len(y_train))
print('테스트용 레이블의 개수 : ', len(y_test))

훈련용 뉴스 기사의 개수 : 414
테스트용 뉴스 기사의 개수 :  138
훈련용 레이블의 개수 :  414
테스트용 레이블의 개수 :  138


### 기계는 텍스트보다는 숫자를 더 잘 처리한다. 
### 머신 러닝 모델인 나이브 베이즈 분류기를 사용하기 위해서는 각 뉴스의 텍스트 데이터를 벡터로 변환할 필요가 있다. 
### 이를 위한 전처리로 TF-IDF 라는 방법을 사용하겠다. 

### 이제 각 뉴스 문서를 TF-IDF 벡터로 바꾸고, 이를 통해 나이브 베이즈 분류기를 학습해 보겠다.
### fit_transform() 함수는 fit과 transform을 연이어 수행하는 함수로, 
### CountVectorizer.fit_transform()은 단어 데이터를 학습하고 문서 데이터를 document-form matrix로 변환하는 
### 두 가지 작업을 해 준다.

In [36]:
#- 단어의 수를 카운트하는 사이킷런의 카운트벡터라이저입니다.
count_vect = CountVectorizer()
X_train_counts = count_vect.fit_transform(X_train)

#- 카운트벡터라이저의 결과로부터 TF-IDF 결과를 얻습니다.
tfidf_transformer = TfidfTransformer()
X_train_tfidf = tfidf_transformer.fit_transform(X_train_counts)

#- 나이브 베이즈 분류기를 수행합니다.
#- X_train은 TF-IDF 벡터, y_train은 레이블입니다.
clf = MultinomialNB().fit(X_train_tfidf, y_train)

### 나이브 베이즈 분류기가 학습되었다. 모델이 학습되었다면 그 다음 해야 할 일은 바로 '테스트'이다. 
### 이 모델이 제대로 학습되었는지를 확인해보자. 텍스트를 입력하면 자동으로 TF-IDF 벡터로 바꾸는 전처리 함수를 만들어보겠다. 
### 함수를 통해서 텍스트를 바로 나이브 베이즈 분류기의 입력으로 사용함으로써 보다 용이하게 테스트를 할 수 있다.

In [37]:
def tfidf_vectorizer(data):
  data_counts = count_vect.transform(data)
  data_tfidf = tfidf_transformer.transform(data_counts)
  return data_tfidf

### 임의의 뉴스에 대해서 카테고리를 확인해 보자. 
### 이 뉴스들은 훈련 데이터, 테스트 데이터 그 어디에도 속하지 않은, 네이버 뉴스 메뉴에서 임의로 가져온 뉴스이다. 
### clf.predict() 는 임의의 입력에 대해서 나이브 베이즈 분류기가 예측한 값을 리턴한다.

In [38]:
new_sent = preprocessing(["민주당 일각에서 법사위의 체계·자구 심사 기능을 없애야 한다는 \
                           주장이 나오는 데 대해 “체계·자구 심사가 법안 지연의 수단으로 \
                          쓰이는 것은 바람직하지 않다”면서도 “국회를 통과하는 법안 중 위헌\
                          법률이 1년에 10건 넘게 나온다. 그런데 체계·자구 심사까지 없애면 매우 위험하다”고 반박했다."])
print(clf.predict(tfidf_vectorizer(new_sent)))

['IT/과학']


In [39]:
new_sent = preprocessing(["인도 로맨틱 코미디 영화 <까립까립 싱글>(2017)을 봤을 때 나는 두 눈을 의심했다. \
                          저 사람이 남자 주인공이라고? 노안에 가까운 이목구비와 기름때로 뭉친 파마머리와, \
                          대충 툭툭 던지는 말투 등 전혀 로맨틱하지 않은 외모였다. 반감이 일면서 \
                          ‘난 외모지상주의자가 아니다’라고 자부했던 나에 대해 회의가 들었다.\
                           티브이를 꺼버릴까? 다른 걸 볼까? 그런데, 이상하다. 왜 이렇게 매력 있지? 개구리와\
                            같이 툭 불거진 눈망울 안에는 어떤 인도 배우에게서도 느끼지 못한 \
                            부드러움과 선량함, 무엇보다 슬픔이 있었다. 2시간 뒤 영화가 끝나고 나는 완전히 이 배우에게 빠졌다"])
print(clf.predict(tfidf_vectorizer(new_sent)))

['생활/문화']


In [40]:
new_sent = preprocessing(["20분기 연속으로 적자에 시달리는 LG전자가 브랜드 이름부터 성능, 디자인까지 대대적인 변화를 \
                          적용한 LG 벨벳은 등장 전부터 온라인 커뮤니티를 뜨겁게 달궜다. 사용자들은 “디자인이 예쁘다”, \
                          “슬림하다”는 반응을 보이며 LG 벨벳에 대한 기대감을 드러냈다."])
print(clf.predict(tfidf_vectorizer(new_sent)))

['IT/과학']


### 테스트 데이터에 대해서 모델을 예측하게하고, 실제값과 비교하여 점수를 측정해 보자.

In [41]:
y_pred = clf.predict(tfidf_vectorizer(X_test))
print(metrics.classification_report(y_test, y_pred))

              precision    recall  f1-score   support

       IT/과학       0.83      0.86      0.85        51
          사회       0.81      0.93      0.87        42
       생활/문화       0.86      0.71      0.78        45

    accuracy                           0.83       138
   macro avg       0.84      0.83      0.83       138
weighted avg       0.84      0.83      0.83       138



### 머신 러닝 모델의 성능 측정 방법 중 하나인 F1-스코어에서 83%라는 준수한 정확도를 얻어냈다!

### 추가로 노력한 부분은 불용어 사전에 100개가 넘는 더 많은 불용어를 추가해 보았다. 