## 네이버 뉴스 데이터를 분석하기

이번 데이터는 네이버 뉴스 http://news.naver.com 에 있는 신문기사를 분석하는 작업입니다.

네이버에는 1990년도부터 2018년도까지의 총 100기가가 넘는 뉴스 데이터를 보유하고 있습니다. 오늘의 업무는 이 데이터 중 1990년도의 뉴스 데이터만을 가져와, 뉴스 기사를 정리하거나 특징을 추출하는 작업을 진행하겠습니다.

분석은 저번 시간에 실습했던 내용과 오늘 배운 내용에 더불어, 판다스의 [Working with Text Data](https://pandas.pydata.org/pandas-docs/stable/text.html) 페이지를 적극적으로 참고하는 것을 권장드립니다. 그럼 좋은 결과 있기를 기대하겠습니다!


In [58]:
import pandas as pd

## Load Dataset

In [64]:
data = pd.read_csv("data/news-1990.csv")

print(data.shape)
data.head()

(71193, 3)


Unnamed: 0,company,content,written_at
0,대전일보,"롯데, 갤러리아, 세이등 지역 3대 백화점이 이번주부터 일제히 대부분의 브랜드가 참...",1990-01-01 10:55:00
1,대전일보,새 해가 되면 우리는 새로운 한 살을 '띠'로 먹는다. 그리고 수많은 새 띠가 탄생...,1990-01-01 10:55:00
2,대전일보,우리나라 주식·채권형 펀드 규모가 매우 영세할 뿐아니라 자금유입도 부진해 기업의 자...,1990-01-01 10:55:00
3,대전일보,"""올해는 시·군·구 병무조직이 폐지되고 전자병무청이 개설되는 등 병무행정이 크게 변...",1990-01-01 10:55:00
4,대전일보,살고 싶어도 함께 더 살 수 없는 2001년은 삭풍에 실려 떠나고 새해가 도착하였습...,1990-01-01 10:55:00


## 실습(초급)

** 1. 다음 단어가 들어가있는 데이터를 색인해주세요. 1) 대회 2) 금메달 **

In [65]:
league = data[data["content"].str.contains("대회")]
print(league.shape)
league.head()

(9913, 3)


Unnamed: 0,company,content,written_at
4,대전일보,살고 싶어도 함께 더 살 수 없는 2001년은 삭풍에 실려 떠나고 새해가 도착하였습...,1990-01-01 10:55:00
5,대전일보,2002월드컵은 새천년에 개최되는 최초의 대제전이라는 점에서 큰 의미를 가진다. 사...,1990-01-01 10:55:00
14,대전일보,월드컵 기간 중 대전에서 외국인들이 가장 좋아할 곳은 어디일까. 이구동성으로 은...,1990-01-01 10:55:00
18,대전일보,이제부턴 손님맞이 준비다. 오는 5월30일 개막될 2002 한·일 월드컵은 단순히 ...,1990-01-01 10:55:00
21,연합뉴스,(全州=聯合) 李光馥기자= 0...정부는 17일 금년 첫 경제난국극복을 위한 지역 ...,1990-01-17 20:14:00


In [66]:
gold_medal = data[data["content"].str.contains("금메달")]
print(gold_medal.shape)
gold_medal.head()

(1022, 3)


Unnamed: 0,company,content,written_at
32,연합뉴스,韓光炯 순조롭게 결승진출 (서울=聯合) 전국가...,1990-01-17 17:22:00
39,연합뉴스,"姜絡然,남대 회전 우승 (포천=聯合) 姜...",1990-01-17 16:03:00
82,연합뉴스,후원금유용 둘러싸고 내분 (서울=聯合)'홀로서...,1990-01-17 17:52:00
150,연합뉴스,꿈나무 출신 申洙榮 밴텀급 새강자 (서울=聯合)아마복싱 국가대...,1990-01-18 16:39:00
990,연합뉴스,(서울=聯合) 대한골프협회는 올해로 33회째를 맞는 한국오픈골프선수권대회의 상금...,1990-01-23 17:24:00


** 2. 1) 대회 또는 2) 금메달이라는 단어 둘 중 하나만 들어간 신문기사를 색인해주세요. **

In [67]:
both = data[data["content"].str.contains("대회|금메달")]

print(both.shape)
both.head()

(10146, 3)


Unnamed: 0,company,content,written_at
4,대전일보,살고 싶어도 함께 더 살 수 없는 2001년은 삭풍에 실려 떠나고 새해가 도착하였습...,1990-01-01 10:55:00
5,대전일보,2002월드컵은 새천년에 개최되는 최초의 대제전이라는 점에서 큰 의미를 가진다. 사...,1990-01-01 10:55:00
14,대전일보,월드컵 기간 중 대전에서 외국인들이 가장 좋아할 곳은 어디일까. 이구동성으로 은...,1990-01-01 10:55:00
18,대전일보,이제부턴 손님맞이 준비다. 오는 5월30일 개막될 2002 한·일 월드컵은 단순히 ...,1990-01-01 10:55:00
21,연합뉴스,(全州=聯合) 李光馥기자= 0...정부는 17일 금년 첫 경제난국극복을 위한 지역 ...,1990-01-17 20:14:00


** 3. 전체 텍스트의 길이를 구해서, 길이가 30 미만인 데이터는 무시해주세요. **

In [68]:
data = data[data["content"].str.len() > 30]
data

Unnamed: 0,company,content,written_at
0,대전일보,"롯데, 갤러리아, 세이등 지역 3대 백화점이 이번주부터 일제히 대부분의 브랜드가 참...",1990-01-01 10:55:00
1,대전일보,새 해가 되면 우리는 새로운 한 살을 '띠'로 먹는다. 그리고 수많은 새 띠가 탄생...,1990-01-01 10:55:00
2,대전일보,우리나라 주식·채권형 펀드 규모가 매우 영세할 뿐아니라 자금유입도 부진해 기업의 자...,1990-01-01 10:55:00
3,대전일보,"""올해는 시·군·구 병무조직이 폐지되고 전자병무청이 개설되는 등 병무행정이 크게 변...",1990-01-01 10:55:00
4,대전일보,살고 싶어도 함께 더 살 수 없는 2001년은 삭풍에 실려 떠나고 새해가 도착하였습...,1990-01-01 10:55:00
5,대전일보,2002월드컵은 새천년에 개최되는 최초의 대제전이라는 점에서 큰 의미를 가진다. 사...,1990-01-01 10:55:00
6,대전일보,신년 '복' 마케팅 ▲대전 롯데백화점은 2002년 새해를 축하하는 뜻에서 총 2...,1990-01-01 10:55:00
7,대전일보,보건복지부는 담배부담금 시행 차질로 인한 건강보험 재정 수입을 보존하기 위해 담배부...,1990-01-01 10:55:00
8,대전일보,"국전 21, 22, 23회 특선 · 국전 문화공보부장관상 수상·국전 추천작 ...",1990-01-01 10:55:00
9,대전일보,역사적으로 말띠 해는 나빴던 해보다는 좋은 해가 많았다. 멈추고 기다리는 것 보다는...,1990-01-01 10:55:00


** 4. 신문사별로 "호재" 라는 단어가 포함된 신문기사를 사용한 횟수를 출력해주세요. **

In [69]:
# write your code here!
print(data[data["content"].str.contains("호재")].shape)
data[data["content"].str.contains("호재")].head()

(309, 3)


Unnamed: 0,company,content,written_at
240,연합뉴스,중의원 24일 해산 (東京=聯合...,1990-01-18 17:51:00
463,연합뉴스,동신주택 (서울=聯合) 19일 주식시장은 증시기조가 취약해져 금융실명제 보...,1990-01-19 18:13:00
780,연합뉴스,=證市 「合黨쇼크」로 온통 술렁= 證市擴大鏡 (서울=聯合) 申鉉台기자= ...,1990-01-22 19:43:00
789,연합뉴스,3黨 合黨합의 好材로 작용 (서울=聯合) 증시...,1990-01-22 11:26:00
801,연합뉴스,大 宇 通 信 (서울=...,1990-01-22 17:28:00


** 5. '럭키금성'이라는 단어를 LG로 바꿔주세요. **

In [70]:
print(data[data["content"].str.contains("럭키금성")].shape)
print(data[data["content"].str.contains("LG")].shape)

(527, 3)
(47, 3)


In [71]:
data["content"] = data["content"].str.replace("럭키금성", "LG")

In [72]:
print(data[data["content"].str.contains("럭키금성")].shape)
print(data[data["content"].str.contains("LG")].shape)

(0, 3)
(563, 3)


** 6. '태도'라는 단어가 들어간 뉴스기사만 출력해주세요. **

In [73]:
print(data[data["content"].str.contains("태도")].shape)
data[data["content"].str.contains("태도")].head()

(1677, 3)


Unnamed: 0,company,content,written_at
16,대전일보,최근 각 은행을 대상으로 일부 악덕 대출알선업체들이 낀 사기대출이 극성을 부리고 있...,1990-01-01 10:55:00
31,연합뉴스,(서울=聯合) 0...金泳三민주당총재와 金鍾泌공화당총재가 지난 15일 시내 某음식...,1990-01-17 18:16:00
57,연합뉴스,(서울=聯合) 0...평민.민주당의 야권통합파의원들은 최근 미국방문을 마치고 돌아온...,1990-01-17 19:45:00
88,연합뉴스,=盧대통령 事前준비 萬全 지시따라= 趙부총리 對北경제관계 對策 마련 ...,1990-01-17 18:15:00
90,연합뉴스,빨라진 정계개편 行步와 4黨입장 內閣制와 맞물려 내달께 可視化 平民 강력반발 개...,1990-01-17 20:23:00


** 7. '은행'이라는 단어와 '대출'이라는 단어가 들어간 뉴스기사만 출력해주세요. **

In [74]:
print(data[data["content"].str.contains("은행|대출")].shape)
data[data["content"].str.contains("은행|대출")].head()

(4714, 3)


Unnamed: 0,company,content,written_at
0,대전일보,"롯데, 갤러리아, 세이등 지역 3대 백화점이 이번주부터 일제히 대부분의 브랜드가 참...",1990-01-01 10:55:00
2,대전일보,우리나라 주식·채권형 펀드 규모가 매우 영세할 뿐아니라 자금유입도 부진해 기업의 자...,1990-01-01 10:55:00
14,대전일보,월드컵 기간 중 대전에서 외국인들이 가장 좋아할 곳은 어디일까. 이구동성으로 은...,1990-01-01 10:55:00
16,대전일보,최근 각 은행을 대상으로 일부 악덕 대출알선업체들이 낀 사기대출이 극성을 부리고 있...,1990-01-01 10:55:00
44,연합뉴스,(濟州=聯合) 지난해 제주도내 금융기관의 외환매입실적이 크게 떨어진 것으로 나타...,1990-01-17 15:33:00


** 8. 신문사별로 '경제'라는 단어가 들어간 신문기사를 작성한 횟수를 출력해주세요. **

In [75]:
print(data[data["content"].str.contains("경제")].shape)
data[data["content"].str.contains("경제")].head()

(8783, 3)


Unnamed: 0,company,content,written_at
1,대전일보,새 해가 되면 우리는 새로운 한 살을 '띠'로 먹는다. 그리고 수많은 새 띠가 탄생...,1990-01-01 10:55:00
4,대전일보,살고 싶어도 함께 더 살 수 없는 2001년은 삭풍에 실려 떠나고 새해가 도착하였습...,1990-01-01 10:55:00
5,대전일보,2002월드컵은 새천년에 개최되는 최초의 대제전이라는 점에서 큰 의미를 가진다. 사...,1990-01-01 10:55:00
9,대전일보,역사적으로 말띠 해는 나빴던 해보다는 좋은 해가 많았다. 멈추고 기다리는 것 보다는...,1990-01-01 10:55:00
10,대전일보,지난해 정치권은 각종 게이트 연루설은 물론 여소야대속에서 정부여당의 힘겨운 정국운영...,1990-01-01 10:55:00


** 9. '심벌'이라고 되어있는 단어를 전부 '심볼'이라고 바꿔주세요. **

가령 "심벌마크.구단명칭등 곧 결정키로" 라는 문장은 "심볼마크.구단명칭등 곧 결정키로 " 가 되어야 합니다.

In [76]:
data[data["content"].str.contains("심볼")].shape

(11, 3)

In [77]:
data[data["content"].str.contains("심벌")].shape

(14, 3)

In [78]:
data["content"] = data["content"].str.replace("심벌", "심볼")

In [79]:
print(data[data["content"].str.contains("심볼")].shape)
print(data[data["content"].str.contains("심벌")].shape)

(25, 3)
(0, 3)


In [80]:
data

Unnamed: 0,company,content,written_at
0,대전일보,"롯데, 갤러리아, 세이등 지역 3대 백화점이 이번주부터 일제히 대부분의 브랜드가 참...",1990-01-01 10:55:00
1,대전일보,새 해가 되면 우리는 새로운 한 살을 '띠'로 먹는다. 그리고 수많은 새 띠가 탄생...,1990-01-01 10:55:00
2,대전일보,우리나라 주식·채권형 펀드 규모가 매우 영세할 뿐아니라 자금유입도 부진해 기업의 자...,1990-01-01 10:55:00
3,대전일보,"""올해는 시·군·구 병무조직이 폐지되고 전자병무청이 개설되는 등 병무행정이 크게 변...",1990-01-01 10:55:00
4,대전일보,살고 싶어도 함께 더 살 수 없는 2001년은 삭풍에 실려 떠나고 새해가 도착하였습...,1990-01-01 10:55:00
5,대전일보,2002월드컵은 새천년에 개최되는 최초의 대제전이라는 점에서 큰 의미를 가진다. 사...,1990-01-01 10:55:00
6,대전일보,신년 '복' 마케팅 ▲대전 롯데백화점은 2002년 새해를 축하하는 뜻에서 총 2...,1990-01-01 10:55:00
7,대전일보,보건복지부는 담배부담금 시행 차질로 인한 건강보험 재정 수입을 보존하기 위해 담배부...,1990-01-01 10:55:00
8,대전일보,"국전 21, 22, 23회 특선 · 국전 문화공보부장관상 수상·국전 추천작 ...",1990-01-01 10:55:00
9,대전일보,역사적으로 말띠 해는 나빴던 해보다는 좋은 해가 많았다. 멈추고 기다리는 것 보다는...,1990-01-01 10:55:00


** 10. 9번에서 작업한 결과를 파이썬의 pickle을 활용해 임시로 저장해주세요. **

파일명은 자유이지만, history 라는 이름의 폴더 안에 저장해주세요. 단 history라는 이름의 폴더가 존재하지 않는다면 파이썬 코드로 새로 만들어주셔야 합니다.

In [81]:
import os
os.mkdir('history')
# !%mkdir history

FileExistsError: [Errno 17] File exists: 'history'

In [82]:
import pickle
%time pickle.dump(data, open("./history/news_1990.p", "wb"))

%time data = pickle.load(open("./history/news_1990.p", "rb"))
data.head(1)

CPU times: user 393 ms, sys: 190 ms, total: 584 ms
Wall time: 672 ms
CPU times: user 394 ms, sys: 113 ms, total: 507 ms
Wall time: 512 ms


Unnamed: 0,company,content,written_at
0,대전일보,"롯데, 갤러리아, 세이등 지역 3대 백화점이 이번주부터 일제히 대부분의 브랜드가 참...",1990-01-01 10:55:00


## 실습(중급)

** 11. 대전일보의 신문기사만 가져와 get_dummies로 쪼개주세요. 단어 갯수를 쪼개는 기준은 스페이스로 간주합니다. **

In [86]:
daejeon_newspaper = data[data['company'] == "대전일보"]
daejeon_newspaper

Unnamed: 0,company,content,written_at
0,대전일보,"롯데, 갤러리아, 세이등 지역 3대 백화점이 이번주부터 일제히 대부분의 브랜드가 참...",1990-01-01 10:55:00
1,대전일보,새 해가 되면 우리는 새로운 한 살을 '띠'로 먹는다. 그리고 수많은 새 띠가 탄생...,1990-01-01 10:55:00
2,대전일보,우리나라 주식·채권형 펀드 규모가 매우 영세할 뿐아니라 자금유입도 부진해 기업의 자...,1990-01-01 10:55:00
3,대전일보,"""올해는 시·군·구 병무조직이 폐지되고 전자병무청이 개설되는 등 병무행정이 크게 변...",1990-01-01 10:55:00
4,대전일보,살고 싶어도 함께 더 살 수 없는 2001년은 삭풍에 실려 떠나고 새해가 도착하였습...,1990-01-01 10:55:00
5,대전일보,2002월드컵은 새천년에 개최되는 최초의 대제전이라는 점에서 큰 의미를 가진다. 사...,1990-01-01 10:55:00
6,대전일보,신년 '복' 마케팅 ▲대전 롯데백화점은 2002년 새해를 축하하는 뜻에서 총 2...,1990-01-01 10:55:00
7,대전일보,보건복지부는 담배부담금 시행 차질로 인한 건강보험 재정 수입을 보존하기 위해 담배부...,1990-01-01 10:55:00
8,대전일보,"국전 21, 22, 23회 특선 · 국전 문화공보부장관상 수상·국전 추천작 ...",1990-01-01 10:55:00
9,대전일보,역사적으로 말띠 해는 나빴던 해보다는 좋은 해가 많았다. 멈추고 기다리는 것 보다는...,1990-01-01 10:55:00


In [90]:
daejeon_split = daejeon_newspaper["content"].str.split()
daejeon_split

0     [롯데,, 갤러리아,, 세이등, 지역, 3대, 백화점이, 이번주부터, 일제히, 대부...
1     [새, 해가, 되면, 우리는, 새로운, 한, 살을, '띠'로, 먹는다., 그리고, ...
2     [우리나라, 주식·채권형, 펀드, 규모가, 매우, 영세할, 뿐아니라, 자금유입도, ...
3     ["올해는, 시·군·구, 병무조직이, 폐지되고, 전자병무청이, 개설되는, 등, 병무...
4     [살고, 싶어도, 함께, 더, 살, 수, 없는, 2001년은, 삭풍에, 실려, 떠나...
5     [2002월드컵은, 새천년에, 개최되는, 최초의, 대제전이라는, 점에서, 큰, 의미...
6     [신년, '복', 마케팅, ▲대전, 롯데백화점은, 2002년, 새해를, 축하하는, ...
7     [보건복지부는, 담배부담금, 시행, 차질로, 인한, 건강보험, 재정, 수입을, 보존...
8     [국전, 21,, 22,, 23회, 특선, ·, 국전, 문화공보부장관상, 수상·국전...
9     [역사적으로, 말띠, 해는, 나빴던, 해보다는, 좋은, 해가, 많았다., 멈추고, ...
10    [지난해, 정치권은, 각종, 게이트, 연루설은, 물론, 여소야대속에서, 정부여당의,...
11    [철도를, 이용하는, 고객들은, 식당, 서비스와, 음식에, 가장, 불만을, 느끼고,...
12    [과학기술부는, 31일, 대덕연구단지에, 입주한, 기술집약형, 벤처업체, 투자를, ...
13    [LG텔레콤(사장, 남용)은, 내년, 1월, 1일부터, 자사의, 019, PCS(개...
14    [월드컵, 기간, 중, 대전에서, 외국인들이, 가장, 좋아할, 곳은, 어디일까., ...
15    [부정경쟁방지업무, 우수기관아산시지역경제과, 최우수상, 특허청은, 31일, 부정경쟁...
16    [최근, 각, 은행을, 대상으로, 일부, 악덕, 대출알선업체들이, 낀, 사기대출이,...
17    [경기회복이, 지연되고, 있음에도, 올들어, 실업률이안정세를, 보이고, 있는

In [91]:
daejeon_token = daejeon_split.str.get_dummies(sep=" ")
daejeon_token

Unnamed: 0,"""'2001년"",","""'6T'"",","""'6T펀드'(MOST"",","""'M주택개발사"",","""'경기장"",","""'공중화장실"",","""'다이나믹"",","""'대덕밸리'"",","""'대덕밸리펀드'(MOST"",","""'띠'로"",",...,"['살고',","['새',","['신년',","['역사적으로',","['우리나라',","['월드컵',","['이제부턴',","['지난해',","['철도를',","['최근',"
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,1,0,0,1,...,0,1,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,1,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,1,0,0,0,0,0,0,0,0,0
5,0,0,0,0,1,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
6,0,0,0,0,0,0,0,0,0,0,...,0,0,1,0,0,0,0,0,0,0
7,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
8,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
9,0,0,0,0,0,0,0,0,0,0,...,0,0,0,1,0,0,0,0,0,0


In [92]:
# daejeon_token = daejeon_newspaper.str.get_dummies(sep=" ")
# daejeon_token

** 12. 11번에서 단어(column)에 2002년이라는게 포함된 컬럼만 보여주세요. **

In [96]:
# write your code here!
type(daejeon_token)

pandas.core.frame.DataFrame

In [98]:
daejeon_token.columns

Index(['"'2001년",', '"'6T'",', '"'6T펀드'(MOST",', '"'M주택개발사",', '"'경기장",',
       '"'공중화장실",', '"'다이나믹",', '"'대덕밸리'",', '"'대덕밸리펀드'(MOST",', '"'띠'로",',
       ...
       '['살고',', '['새',', '['신년',', '['역사적으로',', '['우리나라',', '['월드컵',',
       '['이제부턴',', '['지난해',', '['철도를',', '['최근','],
      dtype='object', length=2592)

In [127]:
col_2002 = daejeon_token.columns.str.contains(pat = '2002년')
print(col_2002)

[False False False ... False False False]


In [128]:
print(daejeon_token.filter(like='2002년').columns)

Index([''2002년',', ''2002년도',', ''‘2002년','], dtype='object')


** 13. 11번에서 단어(column)의 길이가 3개 이상인 컬럼만 보여주세요. **

In [113]:
int(daejeon_token.columns.str.len) > 3

TypeError: int() argument must be a string, a bytes-like object or a number, not 'method'

** 14. 각 신문기사마다 전체 단어의 갯수를 세주세요. **

여기서 단어의 갯수와 텍스트의 길이는 다릅니다. 가령 "감자는 맛있어" 에서 텍스트의 길이는 스페이스를 포함해 7개이지만, 단어의 갯수는 두 개로 간주합니다. 또한 문장을 단어로 쪼개는 기준은 스페이스로 가정합니다.

In [130]:
# write your code here!
data["content"].str.len()

0      539
1     1355
2      677
3      418
4     1460
5     1332
6      482
7      708
8      169
9      655
10    1569
11     730
12     459
13     432
14     924
15     816
16     674
17     579
18    1490
19     296
20     355
21     943
22     471
23     386
24     255
25     710
26     931
27     473
28     883
29     278
      ... 
70    1299
71     669
72    1318
73     364
74     491
75     320
76    2980
77     490
78    1841
79      79
80     170
81    3571
82    1081
83     787
84     591
85    1941
86     664
87     859
88     875
89     112
90    3642
91     673
92     696
93     469
94     672
95     528
96     539
97     642
98     386
99     791
Name: content, Length: 100, dtype: int64

In [133]:
data['split_content'] = data['content'].str.split()
data['split_content'].str.len()

0     107
1     316
2     125
3      85
4     319
5     302
6      95
7     149
8      36
9     158
10    346
11    157
12     91
13     89
14    182
15    160
16    148
17    113
18    318
19     62
20     55
21    182
22     91
23     87
24     43
25    135
26    176
27     76
28    164
29     34
     ... 
70    247
71    115
72    261
73     70
74     84
75     57
76    596
77     96
78    371
79     10
80     30
81    727
82    197
83    168
84    110
85    377
86    133
87    165
88    177
89     17
90    708
91    121
92    141
93     91
94    136
95    108
96    101
97    122
98     75
99    143
Name: split_content, Length: 100, dtype: int64

** 15. 14번에서 단어의 갯수가 10개 미만인 데이터는 무시해주세요. **

In [137]:
data[data['split_content'].str.len() > 10]

Unnamed: 0,company,content,written_at,split_content
0,대전일보,"롯데, 갤러리아, 세이등 지역 3대 백화점이 이번주부터 일제히 대부분의 브랜드가 참...",1990-01-01 10:55:00,"[롯데,, 갤러리아,, 세이등, 지역, 3대, 백화점이, 이번주부터, 일제히, 대부..."
1,대전일보,새 해가 되면 우리는 새로운 한 살을 '띠'로 먹는다. 그리고 수많은 새 띠가 탄생...,1990-01-01 10:55:00,"[새, 해가, 되면, 우리는, 새로운, 한, 살을, '띠'로, 먹는다., 그리고, ..."
2,대전일보,우리나라 주식·채권형 펀드 규모가 매우 영세할 뿐아니라 자금유입도 부진해 기업의 자...,1990-01-01 10:55:00,"[우리나라, 주식·채권형, 펀드, 규모가, 매우, 영세할, 뿐아니라, 자금유입도, ..."
3,대전일보,"""올해는 시·군·구 병무조직이 폐지되고 전자병무청이 개설되는 등 병무행정이 크게 변...",1990-01-01 10:55:00,"[""올해는, 시·군·구, 병무조직이, 폐지되고, 전자병무청이, 개설되는, 등, 병무..."
4,대전일보,살고 싶어도 함께 더 살 수 없는 2001년은 삭풍에 실려 떠나고 새해가 도착하였습...,1990-01-01 10:55:00,"[살고, 싶어도, 함께, 더, 살, 수, 없는, 2001년은, 삭풍에, 실려, 떠나..."
5,대전일보,2002월드컵은 새천년에 개최되는 최초의 대제전이라는 점에서 큰 의미를 가진다. 사...,1990-01-01 10:55:00,"[2002월드컵은, 새천년에, 개최되는, 최초의, 대제전이라는, 점에서, 큰, 의미..."
6,대전일보,신년 '복' 마케팅 ▲대전 롯데백화점은 2002년 새해를 축하하는 뜻에서 총 2...,1990-01-01 10:55:00,"[신년, '복', 마케팅, ▲대전, 롯데백화점은, 2002년, 새해를, 축하하는, ..."
7,대전일보,보건복지부는 담배부담금 시행 차질로 인한 건강보험 재정 수입을 보존하기 위해 담배부...,1990-01-01 10:55:00,"[보건복지부는, 담배부담금, 시행, 차질로, 인한, 건강보험, 재정, 수입을, 보존..."
8,대전일보,"국전 21, 22, 23회 특선 · 국전 문화공보부장관상 수상·국전 추천작 ...",1990-01-01 10:55:00,"[국전, 21,, 22,, 23회, 특선, ·, 국전, 문화공보부장관상, 수상·국전..."
9,대전일보,역사적으로 말띠 해는 나빴던 해보다는 좋은 해가 많았다. 멈추고 기다리는 것 보다는...,1990-01-01 10:55:00,"[역사적으로, 말띠, 해는, 나빴던, 해보다는, 좋은, 해가, 많았다., 멈추고, ..."


## 실습(고급)

** 16. 한글을 제외한 나머지(특수기호, 한자, 숫자)를 제거하시오. **

In [19]:
# write your code here!

** 17. 한글과 숫자를 제외한 나머지(특수기호, 한자)를 제거하시오. **

In [20]:
# write your code here!

** 18. get_dummies와 유사한 결과를 만들되, 문장을 스페이스가 아닌 konlpy를 사용하여 쪼개주세요. **

[konlpy](http://konlpy.org/)는 한국어 형태소 분석기입니다. 문장을 단어로 쪼갤 때 스페이스로 쪼개는 것 보다 konlpy로 쪼개는게 훨씬 더 결과가 좋습니다. 자세한 내용과 사용법은 홈페이지에서 확인해주세요.

단, 데이터가 너무 많기 때문에 ```get_dummies```를 할 떄는 전체 데이터중에 100개만 해주셔도 됩니다. (ex: ```data = data[0:100]```)

In [123]:
# daejeon_newspaper = data[data['company'] == "대전일보"]
# daejeon_newspaper

test_data = data[0:100]
test_data = test_data["content"]
print(type(test_data))
test_data

<class 'pandas.core.series.Series'>


0     롯데, 갤러리아, 세이등 지역 3대 백화점이 이번주부터 일제히 대부분의 브랜드가 참...
1     새 해가 되면 우리는 새로운 한 살을 '띠'로 먹는다. 그리고 수많은 새 띠가 탄생...
2     우리나라 주식·채권형 펀드 규모가 매우 영세할 뿐아니라 자금유입도 부진해 기업의 자...
3     "올해는 시·군·구 병무조직이 폐지되고 전자병무청이 개설되는 등 병무행정이 크게 변...
4     살고 싶어도 함께 더 살 수 없는 2001년은 삭풍에 실려 떠나고 새해가 도착하였습...
5     2002월드컵은 새천년에 개최되는 최초의 대제전이라는 점에서 큰 의미를 가진다. 사...
6     신년 '복' 마케팅   ▲대전 롯데백화점은 2002년 새해를 축하하는 뜻에서 총 2...
7     보건복지부는 담배부담금 시행 차질로 인한 건강보험 재정 수입을 보존하기 위해 담배부...
8     국전 21, 22, 23회 특선  · 국전 문화공보부장관상 수상·국전 추천작    ...
9     역사적으로 말띠 해는 나빴던 해보다는 좋은 해가 많았다. 멈추고 기다리는 것 보다는...
10    지난해 정치권은 각종 게이트 연루설은 물론 여소야대속에서 정부여당의 힘겨운 정국운영...
11    철도를 이용하는 고객들은 식당 서비스와 음식에 가장 불만을 느끼고 있는 것으로 나타...
12    과학기술부는 31일 대덕연구단지에 입주한 기술집약형 벤처업체 투자를 위한 '대덕밸리...
13    LG텔레콤(사장 남용)은 내년 1월 1일부터 자사의 019 PCS(개인휴대통신) 요...
14    월드컵 기간 중 대전에서 외국인들이 가장 좋아할 곳은 어디일까.   이구동성으로 은...
15    부정경쟁방지업무 우수기관아산시지역경제과 최우수상   특허청은 31일 부정경쟁방지업무...
16    최근 각 은행을 대상으로 일부 악덕 대출알선업체들이 낀 사기대출이 극성을 부리고 있...
17    경기회복이 지연되고 있음에도 올들어 실업률이안정세를 보이고 있는 것은 서비스

In [124]:
list_test_data = list(test_data)
list_test_data

['롯데, 갤러리아, 세이등 지역 3대 백화점이 이번주부터 일제히 대부분의 브랜드가 참여하는 2002년 첫 정기바겐세일과 함께 대규모 사은행사에 들어간다.   대전 롯데백화점은 4일부터 26일까지 24일간 ‘버버리’, ‘아이그너’등 수입명품을 비롯 총 4백62개 브랜드중 3백28개 브랜드가 참여하는 겨울정기바겐세일을 실시, 10－30% 할인된 가격에 판매한다.   갤러리아백화점 타임월드점도 4일부터 28일까지 25일간 바겐세일을 진행, 총5백23개 브랜드 중 노세일브랜드를 제외한 4백24개 브랜드가 참여해 10－50% 할인 판매한다.   세이백화점은 3일부터 20일까지 일부 구두·피혁·제화 브랜드를 제외한 대부분의 브랜드들이 세일에 들어가 20－50% 할인된 가격에 판매하며 앞서 1일부터는 사은대축제를 실시한다.   대전 롯데백화점의 한 관계자는 "이번 세일은 지난해 하반기부터 이어온 경기 회복세가 일시적 현상인지 아닌지를 판가름하는 잣대가 될 것"이라며 "그 어느해보다 많은 브랜드가 참여하고 할인폭 또한 큰 것이 특징"이라고 말했다.   ＜殷鉉卓 기자＞',
 "새 해가 되면 우리는 새로운 한 살을 '띠'로 먹는다. 그리고 수많은 새 띠가 탄생한다. 이 '띠'의 의미를 평생 띠처럼 두르고 사는 것이 한국인의 오랜 관행이자 문화이다.    팔자처럼 고칠 수 없는 띠는 그러나 본디 우연히 주어진 것일 뿐이다. 아주 옛날 사람들이 발견한 자연 운행법칙에 그 시대에 알고있던 동물들을 끌어다가 맞춘 것이 열두가지 띠이다. 그것은 해의 흑점 주기와 같이 특별한 법칙성을 반영하는 것이 아니다. 때문에 띠와 당년의 운수는 관련이 없다. 그렇지만 그렇게 여기지만은 않는 것이 우리나라 사람들의 띠관념이다. 좋든 나쁘든 띠가 주는 인상에 상당히 민감하게 반응하는 것이 한국인의 심성이다.   문화 속에 스민 상징성을 중시하는 문화인류학자들은 인간과 상징과의 관련성과 영향을 중시한다. 그들에 의하면 문화의 진전은 곧 상징화의 축적과정이며, 인간의 삶은 상징의 그물망을 벗어날 수 없다

In [142]:
# write your code here!

import konlpy
from konlpy.tag import Kkma
from konlpy.utils import pprint
kkma = Kkma()

kkma.pos("안녕하세요!")
# pprint(kkma.sentences(list_test_data))

[('안녕', 'NNG'), ('하', 'XSV'), ('세요', 'EFN'), ('!', 'SF')]

In [141]:
pprint(kkma.pos(test_data))

RuntimeError: No matching overloads found for morphAnalyzer in find. at native/common/jp_method.cpp:127

** 19. 18번 데이터에서, 전체 데이터 기준 단어 발생 빈도가 너무 높거나(1000번 초과), 너무 낮은(10번 미만) 컬럼은 제거하세요. **

In [22]:
# write your code here!

** 20. 19번 데이터를 기준으로, 단어의 발생 빈도가 가장 높은 순으로 컬럼을 정렬해주세요. **

In [23]:
# write your code here!