## 네이버 뉴스 데이터를 분석하기

이번 데이터는 네이버 뉴스 http://news.naver.com 에 있는 신문기사를 분석하는 작업입니다.

네이버에는 1990년도부터 2018년도까지의 총 100기가가 넘는 뉴스 데이터를 보유하고 있습니다. 오늘의 업무는 이 데이터 중 1990년도의 뉴스 데이터만을 가져와, 뉴스 기사를 정리하거나 특징을 추출하는 작업을 진행하겠습니다.

분석은 저번 시간에 실습했던 내용과 오늘 배운 내용에 더불어, 판다스의 [Working with Text Data](https://pandas.pydata.org/pandas-docs/stable/text.html) 페이지를 적극적으로 참고하는 것을 권장드립니다. 그럼 좋은 결과 있기를 기대하겠습니다!


In [1]:
import pandas as pd

## Load Dataset

In [2]:
data = pd.read_csv("data/news-1990.csv")

print(data.shape)
data.head()

(71193, 3)


Unnamed: 0,company,content,written_at
0,대전일보,"롯데, 갤러리아, 세이등 지역 3대 백화점이 이번주부터 일제히 대부분의 브랜드가 참...",1990-01-01 10:55:00
1,대전일보,새 해가 되면 우리는 새로운 한 살을 '띠'로 먹는다. 그리고 수많은 새 띠가 탄생...,1990-01-01 10:55:00
2,대전일보,우리나라 주식·채권형 펀드 규모가 매우 영세할 뿐아니라 자금유입도 부진해 기업의 자...,1990-01-01 10:55:00
3,대전일보,"""올해는 시·군·구 병무조직이 폐지되고 전자병무청이 개설되는 등 병무행정이 크게 변...",1990-01-01 10:55:00
4,대전일보,살고 싶어도 함께 더 살 수 없는 2001년은 삭풍에 실려 떠나고 새해가 도착하였습...,1990-01-01 10:55:00


## 실습(초급)

** 1. 다음 단어가 들어가있는 데이터를 색인해주세요. 1) 대회 2) 금메달 **

In [3]:
contest = data[data["content"].str.contains("대회")]

print(contest.shape)
contest.head()

(9913, 3)


Unnamed: 0,company,content,written_at
4,대전일보,살고 싶어도 함께 더 살 수 없는 2001년은 삭풍에 실려 떠나고 새해가 도착하였습...,1990-01-01 10:55:00
5,대전일보,2002월드컵은 새천년에 개최되는 최초의 대제전이라는 점에서 큰 의미를 가진다. 사...,1990-01-01 10:55:00
14,대전일보,월드컵 기간 중 대전에서 외국인들이 가장 좋아할 곳은 어디일까. 이구동성으로 은...,1990-01-01 10:55:00
18,대전일보,이제부턴 손님맞이 준비다. 오는 5월30일 개막될 2002 한·일 월드컵은 단순히 ...,1990-01-01 10:55:00
21,연합뉴스,(全州=聯合) 李光馥기자= 0...정부는 17일 금년 첫 경제난국극복을 위한 지역 ...,1990-01-17 20:14:00


In [4]:
gold = data[data["content"].str.contains("금메달")]

print(gold.shape)
gold.head()

(1022, 3)


Unnamed: 0,company,content,written_at
32,연합뉴스,韓光炯 순조롭게 결승진출 (서울=聯合) 전국가...,1990-01-17 17:22:00
39,연합뉴스,"姜絡然,남대 회전 우승 (포천=聯合) 姜...",1990-01-17 16:03:00
82,연합뉴스,후원금유용 둘러싸고 내분 (서울=聯合)'홀로서...,1990-01-17 17:52:00
150,연합뉴스,꿈나무 출신 申洙榮 밴텀급 새강자 (서울=聯合)아마복싱 국가대...,1990-01-18 16:39:00
990,연합뉴스,(서울=聯合) 대한골프협회는 올해로 33회째를 맞는 한국오픈골프선수권대회의 상금...,1990-01-23 17:24:00


** 2. 1) 대회 또는 2) 금메달이라는 단어 둘 중 하나만 들어간 신문기사를 색인해주세요. **

In [5]:
news = data[data["content"].str.contains("대회|금메달")]

print(news.shape)
news.head()

(10146, 3)


Unnamed: 0,company,content,written_at
4,대전일보,살고 싶어도 함께 더 살 수 없는 2001년은 삭풍에 실려 떠나고 새해가 도착하였습...,1990-01-01 10:55:00
5,대전일보,2002월드컵은 새천년에 개최되는 최초의 대제전이라는 점에서 큰 의미를 가진다. 사...,1990-01-01 10:55:00
14,대전일보,월드컵 기간 중 대전에서 외국인들이 가장 좋아할 곳은 어디일까. 이구동성으로 은...,1990-01-01 10:55:00
18,대전일보,이제부턴 손님맞이 준비다. 오는 5월30일 개막될 2002 한·일 월드컵은 단순히 ...,1990-01-01 10:55:00
21,연합뉴스,(全州=聯合) 李光馥기자= 0...정부는 17일 금년 첫 경제난국극복을 위한 지역 ...,1990-01-17 20:14:00


** 3. 전체 텍스트의 길이를 구해서, 길이가 30 미만인 데이터는 무시해주세요. **

In [6]:
long_data = data[data["content"].str.len() > 30]
print(long_data.shape)
long_data.head()

(71162, 3)


Unnamed: 0,company,content,written_at
0,대전일보,"롯데, 갤러리아, 세이등 지역 3대 백화점이 이번주부터 일제히 대부분의 브랜드가 참...",1990-01-01 10:55:00
1,대전일보,새 해가 되면 우리는 새로운 한 살을 '띠'로 먹는다. 그리고 수많은 새 띠가 탄생...,1990-01-01 10:55:00
2,대전일보,우리나라 주식·채권형 펀드 규모가 매우 영세할 뿐아니라 자금유입도 부진해 기업의 자...,1990-01-01 10:55:00
3,대전일보,"""올해는 시·군·구 병무조직이 폐지되고 전자병무청이 개설되는 등 병무행정이 크게 변...",1990-01-01 10:55:00
4,대전일보,살고 싶어도 함께 더 살 수 없는 2001년은 삭풍에 실려 떠나고 새해가 도착하였습...,1990-01-01 10:55:00


** 4. 신문사별로 "호재" 라는 단어가 포함된 신문기사를 사용한 횟수를 출력해주세요. **

In [7]:
favorite = data[data["content"].str.contains("호재")]
favorite["company"].value_counts()
# print(favorite.shape)
# favorite.head()

연합뉴스    309
Name: company, dtype: int64

** 5. '럭키금성'이라는 단어를 LG로 바꿔주세요. **

In [8]:
lg = data.copy()

lg["content(clean)"] = lg["content"].str.replace("럭키금성", "LG")
lg[lg["content"].str.contains("럭키금성")].head()

Unnamed: 0,company,content,written_at,content(clean)
63,연합뉴스,"모래판 아마,민속 최강자 가려 (서울=聯合)KBS설날...",1990-01-17 15:16:00,"모래판 아마,민속 최강자 가려 (서울=聯合)KBS설날..."
72,연합뉴스,"결백주장도 무위, 마음정리위해 (방콕=聯合) 徐玉植특파원 = 지난해 8월 콸라룸푸...",1990-01-17 14:55:00,"결백주장도 무위, 마음정리위해 (방콕=聯合) 徐玉植특파원 = 지난해 8월 콸라룸푸..."
147,연합뉴스,(서울=聯合) MBC와 럭키금성은 18일 하오3시 서울 여의도 럭키금성빌딩 30층...,1990-01-18 09:59:00,(서울=聯合) MBC와 LG은 18일 하오3시 서울 여의도 LG빌딩 30층강당에서...
166,연합뉴스,신설구단 경비 비하면 횡재한것 (서울=聯合) 프로야구 ...,1990-01-18 17:41:00,신설구단 경비 비하면 횡재한것 (서울=聯合) 프로야구 ...
261,연합뉴스,심벌마크.구단명칭등 곧 결정키로 (서울=聯合)MBC와 럭키...,1990-01-18 16:49:00,심벌마크.구단명칭등 곧 결정키로 (서울=聯合)MBC와 LG...


** 6. '태도'라는 단어가 들어간 뉴스기사만 출력해주세요. **

In [9]:
data[data["content"].str.contains("태도")].head()

Unnamed: 0,company,content,written_at
16,대전일보,최근 각 은행을 대상으로 일부 악덕 대출알선업체들이 낀 사기대출이 극성을 부리고 있...,1990-01-01 10:55:00
31,연합뉴스,(서울=聯合) 0...金泳三민주당총재와 金鍾泌공화당총재가 지난 15일 시내 某음식...,1990-01-17 18:16:00
57,연합뉴스,(서울=聯合) 0...평민.민주당의 야권통합파의원들은 최근 미국방문을 마치고 돌아온...,1990-01-17 19:45:00
88,연합뉴스,=盧대통령 事前준비 萬全 지시따라= 趙부총리 對北경제관계 對策 마련 ...,1990-01-17 18:15:00
90,연합뉴스,빨라진 정계개편 行步와 4黨입장 內閣制와 맞물려 내달께 可視化 平民 강력반발 개...,1990-01-17 20:23:00


** 7. '은행'이라는 단어와 '대출'이라는 단어가 들어간 뉴스기사만 출력해주세요. **

In [10]:
# print(data[data["content"].str.contains("(?=.*은행)(?=.*대출)")].shape)
# data[data["content"].str.contains("(?=.*은행)(?=.*대출)")].head()

** 8. 신문사별로 '경제'라는 단어가 들어간 신문기사를 작성한 횟수를 출력해주세요. **

In [11]:
eco = data[data["content"].str.contains("경제")]
eco["company"].value_counts()

연합뉴스    8776
대전일보       7
Name: company, dtype: int64

** 9. '심벌'이라고 되어있는 단어를 전부 '심볼'이라고 바꿔주세요. **

가령 "심벌마크.구단명칭등 곧 결정키로" 라는 문장은 "심볼마크.구단명칭등 곧 결정키로 " 가 되어야 합니다.

In [12]:
data["content"] = data["content"].str.replace("심벌", "심볼")
data["content"].str.contains("심벌").value_counts()

False    71193
Name: content, dtype: int64

** 10. 9번에서 작업한 결과를 파이썬의 pickle을 활용해 임시로 저장해주세요. **

파일명은 자유이지만, history 라는 이름의 폴더 안에 저장해주세요. 단 history라는 이름의 폴더가 존재하지 않는다면 파이썬 코드로 새로 만들어주셔야 합니다.

In [13]:
import pickle
import os

In [14]:
newpath = r'history' 
if not os.path.exists(newpath):
    os.makedirs(newpath)

# data.to_csv("history/data_change.csv")

In [15]:
pickle.dump(data, open("history/data.p", "wb"))

In [16]:
data = pickle.load(open("history/data.p", "rb"))
data.head(1)

Unnamed: 0,company,content,written_at
0,대전일보,"롯데, 갤러리아, 세이등 지역 3대 백화점이 이번주부터 일제히 대부분의 브랜드가 참...",1990-01-01 10:55:00


## 실습(중급)

** 11. 대전일보의 신문기사만 가져와 get_dummies로 쪼개주세요. 단어 갯수를 쪼개는 기준은 스페이스로 간주합니다. **

In [17]:
daj = data[data["company"] == "대전일보"]
# print(daj.shape)
daj_tokens = daj["content"].str.get_dummies(sep=" ")
print(daj_tokens.shape)
daj_tokens.head()

(20, 2581)


Unnamed: 0,"""경기불황기에는","""경기회복이","""그","""내년","""담배","""올해는","""우리정당의","""이런","""이번","""전형적인",...,힘겨루기로,힘겨운,힘쓸,힘이고,힘입은,힘찬,＜殷鉉卓,＜金時憲,＜글,＜편집자
0,0,0,1,0,0,0,0,0,1,0,...,0,0,0,0,0,0,1,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,1,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,1,0,0,0,0,...,0,0,0,0,0,0,1,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


** 12. 11번에서 단어(column)에 2002년이라는게 포함된 컬럼만 보여주세요. **

In [25]:
# daj_tokens[daj_tokens["2002년"] != 0]
# eco = data[data["content"].str.contains("경제")]
# daj_tokens[daj_tokens[].str.contains("2002년")]
# daj_tokens[daj_tokens.loc.str.contains("2002년")]
daj_tokens.iloc[:,0:daj_tokens.shape[1]]


Unnamed: 0,"""경기불황기에는","""경기회복이","""그","""내년","""담배","""올해는","""우리정당의","""이런","""이번","""전형적인",...,힘겨루기로,힘겨운,힘쓸,힘이고,힘입은,힘찬,＜殷鉉卓,＜金時憲,＜글,＜편집자
0,0,0,1,0,0,0,0,0,1,0,...,0,0,0,0,0,0,1,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,1,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,1,0,0,0,0,...,0,0,0,0,0,0,1,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
5,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
6,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
7,0,0,0,1,1,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
8,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
9,0,0,0,0,0,0,0,0,0,0,...,0,0,1,0,0,1,0,0,0,0


** 13. 11번에서 단어(column)의 길이가 3개 이상인 컬럼만 보여주세요. **

In [None]:
# daj_tokens.columns.str.strip()

In [None]:
# print(len(daj_tokens.columns))
# daj_tokens.columns.str.len() > 3

In [None]:
# for i in range (0, len(daj_tokens.columns)) :
#     if len(daj_tokens.columns[i]) > 3 :
#         print(daj_tokens)
        
# daj_tokens

** 14. 각 신문기사마다 전체 단어의 갯수를 세주세요. **

여기서 단어의 갯수와 텍스트의 길이는 다릅니다. 가령 "감자는 맛있어" 에서 텍스트의 길이는 스페이스를 포함해 7개이지만, 단어의 갯수는 두 개로 간주합니다. 또한 문장을 단어로 쪼개는 기준은 스페이스로 가정합니다.

In [None]:
# data["company"]

** 15. 14번에서 단어의 갯수가 10개 미만인 데이터는 무시해주세요. **

## 실습(고급)

** 16. 한글을 제외한 나머지(특수기호, 한자, 숫자)를 제거하시오. **

** 17. 한글과 숫자를 제외한 나머지(특수기호, 한자)를 제거하시오. **

** 18. get_dummies와 유사한 결과를 만들되, 문장을 스페이스가 아닌 konlpy를 사용하여 쪼개주세요. **

[konlpy](http://konlpy.org/)는 한국어 형태소 분석기입니다. 문장을 단어로 쪼갤 때 스페이스로 쪼개는 것 보다 konlpy로 쪼개는게 훨씬 더 결과가 좋습니다. 자세한 내용과 사용법은 홈페이지에서 확인해주세요.

** 19. 18번 데이터에서, 전체 데이터 기준 단어 발생 빈도가 너무 높거나(1000번 초과), 너무 낮은(10번 미만) 컬럼은 제거하세요. **

** 20. 19번 데이터를 기준으로, 단어의 발생 빈도가 가장 높은 순으로 컬럼을 정렬해주세요. **