## 네이버 뉴스 데이터를 분석하기

이번 데이터는 네이버 뉴스 http://news.naver.com 에 있는 신문기사를 분석하는 작업입니다.

네이버에는 1990년도부터 2018년도까지의 총 100기가가 넘는 뉴스 데이터를 보유하고 있습니다. 오늘의 업무는 이 데이터 중 1990년도의 뉴스 데이터만을 가져와, 뉴스 기사를 정리하거나 특징을 추출하는 작업을 진행하겠습니다.

분석은 저번 시간에 실습했던 내용과 오늘 배운 내용에 더불어, 판다스의 [Working with Text Data](https://pandas.pydata.org/pandas-docs/stable/text.html) 페이지를 적극적으로 참고하는 것을 권장드립니다. 그럼 좋은 결과 있기를 기대하겠습니다!


In [1]:
import pandas as pd

## Load Dataset

In [2]:
data = pd.read_csv("data/news-1990.csv")

print(data.shape)
data.head()

(71193, 3)


Unnamed: 0,company,content,written_at
0,대전일보,"롯데, 갤러리아, 세이등 지역 3대 백화점이 이번주부터 일제히 대부분의 브랜드가 참...",1990-01-01 10:55:00
1,대전일보,새 해가 되면 우리는 새로운 한 살을 '띠'로 먹는다. 그리고 수많은 새 띠가 탄생...,1990-01-01 10:55:00
2,대전일보,우리나라 주식·채권형 펀드 규모가 매우 영세할 뿐아니라 자금유입도 부진해 기업의 자...,1990-01-01 10:55:00
3,대전일보,"""올해는 시·군·구 병무조직이 폐지되고 전자병무청이 개설되는 등 병무행정이 크게 변...",1990-01-01 10:55:00
4,대전일보,살고 싶어도 함께 더 살 수 없는 2001년은 삭풍에 실려 떠나고 새해가 도착하였습...,1990-01-01 10:55:00


## 실습(초급)

** 1. 다음 단어가 들어가있는 데이터를 색인해주세요. 1) 대회 2) 금메달 **

In [3]:
contest = data[data["content"].str.contains(" 대회 ")]

print(contest.shape)
contest.head()

(1539, 3)


Unnamed: 0,company,content,written_at
5,대전일보,2002월드컵은 새천년에 개최되는 최초의 대제전이라는 점에서 큰 의미를 가진다. 사...,1990-01-01 10:55:00
32,연합뉴스,韓光炯 순조롭게 결승진출 (서울=聯合) 전국가...,1990-01-17 17:22:00
55,연합뉴스,東亞大-東義大 쟁패 (釜山=聯合) 제...,1990-01-17 16:43:00
107,연합뉴스,"호유,선경 2연승 선두대열에 (서울=聯合)호남정유...",1990-01-18 19:06:00
119,연합뉴스,호유.선경 나란히 2연승 (서울=聯合)호남...,1990-01-18 15:24:00


In [4]:
gold_medal = data[data["content"].str.contains(" 금메달 ")]

print(gold_medal.shape)
gold_medal.head()

(342, 3)


Unnamed: 0,company,content,written_at
990,연합뉴스,(서울=聯合) 대한골프협회는 올해로 33회째를 맞는 한국오픈골프선수권대회의 상금...,1990-01-23 17:24:00
1273,연합뉴스,"금메달 67개획득,종합 준우승 목표 (서울=聯合)日本은 오는...",1990-01-24 19:03:00
2133,연합뉴스,印尼국제대회및 韓美친선대회등 (서울=聯合) 아마복싱 국...,1990-02-02 15:22:00
2534,연합뉴스,金昇淵회장 취임도 불투명 (서울=聯合)대한아마...,1990-02-20 14:27:00
2749,연합뉴스,在美선수단장 소감 (서울=聯合)체전...,1990-02-21 15:34:00


** 2. 1) 대회 또는 2) 금메달이라는 단어 둘 중 하나만 들어간 신문기사를 색인해주세요. **

In [5]:
both = data[data["content"].str.contains("대회|금메달")]

print(both.shape)
both.head()

(10146, 3)


Unnamed: 0,company,content,written_at
4,대전일보,살고 싶어도 함께 더 살 수 없는 2001년은 삭풍에 실려 떠나고 새해가 도착하였습...,1990-01-01 10:55:00
5,대전일보,2002월드컵은 새천년에 개최되는 최초의 대제전이라는 점에서 큰 의미를 가진다. 사...,1990-01-01 10:55:00
14,대전일보,월드컵 기간 중 대전에서 외국인들이 가장 좋아할 곳은 어디일까. 이구동성으로 은...,1990-01-01 10:55:00
18,대전일보,이제부턴 손님맞이 준비다. 오는 5월30일 개막될 2002 한·일 월드컵은 단순히 ...,1990-01-01 10:55:00
21,연합뉴스,(全州=聯合) 李光馥기자= 0...정부는 17일 금년 첫 경제난국극복을 위한 지역 ...,1990-01-17 20:14:00


** 3. 전체 텍스트의 길이를 구해서, 길이가 30 미만인 데이터는 무시해주세요. **

In [6]:
long_news = data[data["content"].str.len() >= 30]

print(long_news.shape)
long_news.head()

(71165, 3)


Unnamed: 0,company,content,written_at
0,대전일보,"롯데, 갤러리아, 세이등 지역 3대 백화점이 이번주부터 일제히 대부분의 브랜드가 참...",1990-01-01 10:55:00
1,대전일보,새 해가 되면 우리는 새로운 한 살을 '띠'로 먹는다. 그리고 수많은 새 띠가 탄생...,1990-01-01 10:55:00
2,대전일보,우리나라 주식·채권형 펀드 규모가 매우 영세할 뿐아니라 자금유입도 부진해 기업의 자...,1990-01-01 10:55:00
3,대전일보,"""올해는 시·군·구 병무조직이 폐지되고 전자병무청이 개설되는 등 병무행정이 크게 변...",1990-01-01 10:55:00
4,대전일보,살고 싶어도 함께 더 살 수 없는 2001년은 삭풍에 실려 떠나고 새해가 도착하였습...,1990-01-01 10:55:00


** 4. 신문사별로 "호재" 라는 단어가 포함된 신문기사를 사용한 횟수를 출력해주세요. **

In [7]:
favorite = data[data["content"].str.contains("호재")]

favorite["company"].value_counts()

연합뉴스    309
Name: company, dtype: int64

** 5. '럭키금성'이라는 단어를 LG로 바꿔주세요. **

In [8]:
lg = data.copy()
lg["content(clean)"] = lg["content"].str.replace("럭키금성", "LG")

lg[lg["content"].str.contains("럭키금성")].head()

Unnamed: 0,company,content,written_at,content(clean)
63,연합뉴스,"모래판 아마,민속 최강자 가려 (서울=聯合)KBS설날...",1990-01-17 15:16:00,"모래판 아마,민속 최강자 가려 (서울=聯合)KBS설날..."
72,연합뉴스,"결백주장도 무위, 마음정리위해 (방콕=聯合) 徐玉植특파원 = 지난해 8월 콸라룸푸...",1990-01-17 14:55:00,"결백주장도 무위, 마음정리위해 (방콕=聯合) 徐玉植특파원 = 지난해 8월 콸라룸푸..."
147,연합뉴스,(서울=聯合) MBC와 럭키금성은 18일 하오3시 서울 여의도 럭키금성빌딩 30층...,1990-01-18 09:59:00,(서울=聯合) MBC와 LG은 18일 하오3시 서울 여의도 LG빌딩 30층강당에서...
166,연합뉴스,신설구단 경비 비하면 횡재한것 (서울=聯合) 프로야구 ...,1990-01-18 17:41:00,신설구단 경비 비하면 횡재한것 (서울=聯合) 프로야구 ...
261,연합뉴스,심벌마크.구단명칭등 곧 결정키로 (서울=聯合)MBC와 럭키...,1990-01-18 16:49:00,심벌마크.구단명칭등 곧 결정키로 (서울=聯合)MBC와 LG...


** 6. '태도'라는 단어가 들어간 뉴스기사만 출력해주세요. **

In [9]:
data[data["content"].str.contains("태도")].head()

Unnamed: 0,company,content,written_at
16,대전일보,최근 각 은행을 대상으로 일부 악덕 대출알선업체들이 낀 사기대출이 극성을 부리고 있...,1990-01-01 10:55:00
31,연합뉴스,(서울=聯合) 0...金泳三민주당총재와 金鍾泌공화당총재가 지난 15일 시내 某음식...,1990-01-17 18:16:00
57,연합뉴스,(서울=聯合) 0...평민.민주당의 야권통합파의원들은 최근 미국방문을 마치고 돌아온...,1990-01-17 19:45:00
88,연합뉴스,=盧대통령 事前준비 萬全 지시따라= 趙부총리 對北경제관계 對策 마련 ...,1990-01-17 18:15:00
90,연합뉴스,빨라진 정계개편 行步와 4黨입장 內閣制와 맞물려 내달께 可視化 平民 강력반발 개...,1990-01-17 20:23:00


** 7. '은행'이라는 단어와 '대출'이라는 단어가 들어간 뉴스기사만 출력해주세요. **

In [10]:
data[data["content"].str.contains("(?=.*은행)(?=.*대출)")].head(10)

Unnamed: 0,company,content,written_at
16,대전일보,최근 각 은행을 대상으로 일부 악덕 대출알선업체들이 낀 사기대출이 극성을 부리고 있...,1990-01-01 10:55:00
267,연합뉴스,(서울=聯合) 연초부터 통화가 계속 급증하고 있어 물가불안을 가중시키고 있다. ...,1990-01-18 04:40:00
406,연합뉴스,=작년下半期 土開公등 13개 정부投資機關= (서울=聯合) 정부의 지방대 ...,1990-01-19 04:50:00
603,연합뉴스,=李 企劃院次官 實勢金利 하락 誘導키로= 小額 金融소득자 稅부담 最少化 방침 ...,1990-01-20 10:51:00
746,연합뉴스,(서울=聯合) 중소기업은행은 올해 자금공급 규모를 작년보다 7% 증가한 총 2조7천...,1990-01-22 18:27:00
863,연합뉴스,=住宅銀行 내달부터 2천200만원으로= (서울=聯合) 주택은행은...,1990-01-22 04:40:00
940,연합뉴스,"投資의욕 回復반영,1조997억 달해 (서울=聯合) 기업의 ...",1990-01-23 22:45:00
1005,연합뉴스,(서울=聯合) 기술신용보증기금은 24일 부터 여유자금을 금융기관에 맡기는 대신 금융...,1990-01-23 20:32:00
1746,연합뉴스,=冷氣감싸인 證市 향후 展望 진단= -------- 해 ...,1990-02-01 16:37:00
1755,연합뉴스,(光州 = 聯合) 光州.全南지역 제2금융권 예금의 지역내 운용비중이 60.2%에 ...,1990-02-01 11:51:00


** 8. 신문사별로 '경제'라는 단어가 들어간 신문기사를 작성한 횟수를 출력해주세요. **

In [11]:
economy = data[data["content"].str.contains("경제")]
economy["company"].value_counts()

연합뉴스    8776
대전일보       7
Name: company, dtype: int64

** 9. '심벌'이라고 되어있는 단어를 전부 '심볼'이라고 바꿔주세요. **

가령 "심벌마크.구단명칭등 곧 결정키로" 라는 문장은 "심볼마크.구단명칭등 곧 결정키로 " 가 되어야 합니다.

In [12]:
symbol = data.copy()
symbol["content(clean)"] = symbol["content"].str.replace("심벌", "심볼")
symbol[symbol["content"].str.contains("심벌")].head()

Unnamed: 0,company,content,written_at,content(clean)
166,연합뉴스,신설구단 경비 비하면 횡재한것 (서울=聯合) 프로야구 ...,1990-01-18 17:41:00,신설구단 경비 비하면 횡재한것 (서울=聯合) 프로야구 ...
261,연합뉴스,심벌마크.구단명칭등 곧 결정키로 (서울=聯合)MBC와 럭키...,1990-01-18 16:49:00,심볼마크.구단명칭등 곧 결정키로 (서울=聯合)MBC와 럭키...
595,연합뉴스,(서울=聯合) 프로야구 청룡구단을 인수한 (주)럭키금성스포츠가 지원부서 인력 확보...,1990-01-20 09:51:00,(서울=聯合) 프로야구 청룡구단을 인수한 (주)럭키금성스포츠가 지원부서 인력 확보...
6708,연합뉴스,어린이회원모집 경쟁치열 (서울=聯合) 0.....,1990-03-15 18:02:00,어린이회원모집 경쟁치열 (서울=聯合) 0.....
8790,연합뉴스,(서울=聯合)체신부는 24일 유엔아동기금(UNICEF) 한국활동 40주년을 기념...,1990-03-23 14:11:00,(서울=聯合)체신부는 24일 유엔아동기금(UNICEF) 한국활동 40주년을 기념...


** 10. 9번에서 작업한 결과를 파이썬의 pickle을 활용해 임시로 저장해주세요. **

파일명은 자유이지만, history 라는 이름의 폴더 안에 저장해주세요. 단 history라는 이름의 폴더가 존재하지 않는다면 파이썬 코드로 새로 만들어주셔야 합니다.

In [13]:
import os
import pickle

# 폴더명을 지정합니다.
directory = "history/"

# 해당 폴덕가 없으면
if not os.path.exists(directory):
    # makedires로 새 폴더를 만듭니다.
    os.makedirs(directory)

# 이후 해당 폴더에 파일을 저장합니다.
filepath = directory + "news-1990_modified.p"
pickle.dump(symbol, open(filepath, "wb"))

In [14]:
symbol = pickle.load(open(filepath, "rb"))
symbol[symbol["content"].str.contains("심벌")].head()

Unnamed: 0,company,content,written_at,content(clean)
166,연합뉴스,신설구단 경비 비하면 횡재한것 (서울=聯合) 프로야구 ...,1990-01-18 17:41:00,신설구단 경비 비하면 횡재한것 (서울=聯合) 프로야구 ...
261,연합뉴스,심벌마크.구단명칭등 곧 결정키로 (서울=聯合)MBC와 럭키...,1990-01-18 16:49:00,심볼마크.구단명칭등 곧 결정키로 (서울=聯合)MBC와 럭키...
595,연합뉴스,(서울=聯合) 프로야구 청룡구단을 인수한 (주)럭키금성스포츠가 지원부서 인력 확보...,1990-01-20 09:51:00,(서울=聯合) 프로야구 청룡구단을 인수한 (주)럭키금성스포츠가 지원부서 인력 확보...
6708,연합뉴스,어린이회원모집 경쟁치열 (서울=聯合) 0.....,1990-03-15 18:02:00,어린이회원모집 경쟁치열 (서울=聯合) 0.....
8790,연합뉴스,(서울=聯合)체신부는 24일 유엔아동기금(UNICEF) 한국활동 40주년을 기념...,1990-03-23 14:11:00,(서울=聯合)체신부는 24일 유엔아동기금(UNICEF) 한국활동 40주년을 기념...


## 실습(중급)

** 11. 대전일보의 신문기사만 가져와 get_dummies로 쪼개주세요. 단어 갯수를 쪼개는 기준은 스페이스로 간주합니다. **

In [15]:
daejeon = data[data["company"] == "대전일보"]
daejeon_tokens = daejeon["content"].str.get_dummies(sep=" ")
daejeon_tokens.head()

Unnamed: 0,"""경기불황기에는","""경기회복이","""그","""내년","""담배","""올해는","""우리정당의","""이런","""이번","""전형적인",...,힘겨루기로,힘겨운,힘쓸,힘이고,힘입은,힘찬,＜殷鉉卓,＜金時憲,＜글,＜편집자
0,0,0,1,0,0,0,0,0,1,0,...,0,0,0,0,0,0,1,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,1,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,1,0,0,0,0,...,0,0,0,0,0,0,1,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


** 12. 11번에서 단어(column)에 2002년이라는게 포함된 컬럼만 보여주세요. **

In [16]:
daejeon_tokens_columns = daejeon_tokens.columns
daejeon_tokens_columns_2002 = daejeon_tokens_columns[daejeon_tokens_columns.str.contains("2002")]

daejeon_tokens[daejeon_tokens_columns_2002].head()

Unnamed: 0,2002,2002년,2002년도,2002월드컵은,2002월드컵을,2002월드컵이,‘2002년
0,0,1,0,0,0,0,0
1,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0
4,0,1,0,0,0,0,0


** 13. 11번에서 단어(column)의 길이가 3개 이상인 컬럼만 보여주세요. **

In [17]:
daejeon_tokens_columns = daejeon_tokens.columns
daejeon_tokens_columns = daejeon_tokens_columns[daejeon_tokens_columns.str.len() >= 3]

daejeon_tokens[daejeon_tokens_columns].head()

Unnamed: 0,"""경기불황기에는","""경기회복이","""내년","""담배","""올해는","""우리정당의","""이런","""이번","""전형적인","""주당",...,훌륭한데다,휩쓰는,희망과,힘겨루기로,힘겨운,힘이고,힘입은,＜殷鉉卓,＜金時憲,＜편집자
0,0,0,0,0,0,0,0,1,0,0,...,0,0,0,0,0,0,0,1,0,0
1,0,0,0,0,0,0,0,0,0,0,...,1,0,0,0,0,1,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,1,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,1,0,0,0,0,0,0,0


** 14. 각 신문기사마다 전체 단어의 갯수를 세주세요. **

여기서 단어의 갯수와 텍스트의 길이는 다릅니다. 가령 "감자는 맛있어" 에서 텍스트의 길이는 스페이스를 포함해 7개이지만, 단어의 갯수는 두 개로 간주합니다. 또한 문장을 단어로 쪼개는 기준은 스페이스로 가정합니다.

In [18]:
data["vocabulary_size"] = data["content"].str.split().str.len()

print(data.shape)
data[["content", "vocabulary_size"]].head()

(71193, 4)


Unnamed: 0,content,vocabulary_size
0,"롯데, 갤러리아, 세이등 지역 3대 백화점이 이번주부터 일제히 대부분의 브랜드가 참...",107
1,새 해가 되면 우리는 새로운 한 살을 '띠'로 먹는다. 그리고 수많은 새 띠가 탄생...,316
2,우리나라 주식·채권형 펀드 규모가 매우 영세할 뿐아니라 자금유입도 부진해 기업의 자...,125
3,"""올해는 시·군·구 병무조직이 폐지되고 전자병무청이 개설되는 등 병무행정이 크게 변...",85
4,살고 싶어도 함께 더 살 수 없는 2001년은 삭풍에 실려 떠나고 새해가 도착하였습...,319


** 15. 14번에서 단어의 갯수가 10개 미만인 데이터는 무시해주세요. **

In [19]:
long_news = data[data["vocabulary_size"] > 10]

print(long_news.shape)
long_news.head()

(70846, 4)


Unnamed: 0,company,content,written_at,vocabulary_size
0,대전일보,"롯데, 갤러리아, 세이등 지역 3대 백화점이 이번주부터 일제히 대부분의 브랜드가 참...",1990-01-01 10:55:00,107
1,대전일보,새 해가 되면 우리는 새로운 한 살을 '띠'로 먹는다. 그리고 수많은 새 띠가 탄생...,1990-01-01 10:55:00,316
2,대전일보,우리나라 주식·채권형 펀드 규모가 매우 영세할 뿐아니라 자금유입도 부진해 기업의 자...,1990-01-01 10:55:00,125
3,대전일보,"""올해는 시·군·구 병무조직이 폐지되고 전자병무청이 개설되는 등 병무행정이 크게 변...",1990-01-01 10:55:00,85
4,대전일보,살고 싶어도 함께 더 살 수 없는 2001년은 삭풍에 실려 떠나고 새해가 도착하였습...,1990-01-01 10:55:00,319


## 실습(고급)

** 16. 한글을 제외한 나머지(특수기호, 한자, 숫자)를 제거하시오. **

In [20]:
data["content(clean)"] = data["content"].str.replace("[^가-힣\s]+", "")

print(data.shape)
data[["content", "content(clean)"]].head()

(71193, 5)


Unnamed: 0,content,content(clean)
0,"롯데, 갤러리아, 세이등 지역 3대 백화점이 이번주부터 일제히 대부분의 브랜드가 참...",롯데 갤러리아 세이등 지역 대 백화점이 이번주부터 일제히 대부분의 브랜드가 참여하는...
1,새 해가 되면 우리는 새로운 한 살을 '띠'로 먹는다. 그리고 수많은 새 띠가 탄생...,새 해가 되면 우리는 새로운 한 살을 띠로 먹는다 그리고 수많은 새 띠가 탄생한다 ...
2,우리나라 주식·채권형 펀드 규모가 매우 영세할 뿐아니라 자금유입도 부진해 기업의 자...,우리나라 주식채권형 펀드 규모가 매우 영세할 뿐아니라 자금유입도 부진해 기업의 자금...
3,"""올해는 시·군·구 병무조직이 폐지되고 전자병무청이 개설되는 등 병무행정이 크게 변...",올해는 시군구 병무조직이 폐지되고 전자병무청이 개설되는 등 병무행정이 크게 변하는 ...
4,살고 싶어도 함께 더 살 수 없는 2001년은 삭풍에 실려 떠나고 새해가 도착하였습...,살고 싶어도 함께 더 살 수 없는 년은 삭풍에 실려 떠나고 새해가 도착하였습니다 지...


** 17. 한글과 숫자를 제외한 나머지(특수기호, 한자)를 제거하시오. **

In [21]:
data["content(clean)"] = data["content"].str.replace("[^가-힣0-9\s]+", "")

print(data.shape)
data[["content", "content(clean)"]].head()

(71193, 5)


Unnamed: 0,content,content(clean)
0,"롯데, 갤러리아, 세이등 지역 3대 백화점이 이번주부터 일제히 대부분의 브랜드가 참...",롯데 갤러리아 세이등 지역 3대 백화점이 이번주부터 일제히 대부분의 브랜드가 참여하...
1,새 해가 되면 우리는 새로운 한 살을 '띠'로 먹는다. 그리고 수많은 새 띠가 탄생...,새 해가 되면 우리는 새로운 한 살을 띠로 먹는다 그리고 수많은 새 띠가 탄생한다 ...
2,우리나라 주식·채권형 펀드 규모가 매우 영세할 뿐아니라 자금유입도 부진해 기업의 자...,우리나라 주식채권형 펀드 규모가 매우 영세할 뿐아니라 자금유입도 부진해 기업의 자금...
3,"""올해는 시·군·구 병무조직이 폐지되고 전자병무청이 개설되는 등 병무행정이 크게 변...",올해는 시군구 병무조직이 폐지되고 전자병무청이 개설되는 등 병무행정이 크게 변하는 ...
4,살고 싶어도 함께 더 살 수 없는 2001년은 삭풍에 실려 떠나고 새해가 도착하였습...,살고 싶어도 함께 더 살 수 없는 2001년은 삭풍에 실려 떠나고 새해가 도착하였습...


** 18. get_dummies와 유사한 결과를 만들되, 문장을 스페이스가 아닌 konlpy를 사용하여 쪼개주세요. **

[konlpy](http://konlpy.org/)는 한국어 형태소 분석기입니다. 문장을 단어로 쪼갤 때 스페이스로 쪼개는 것 보다 konlpy로 쪼개는게 훨씬 더 결과가 좋습니다. 자세한 내용과 사용법은 홈페이지에서 확인해주세요.

단, 데이터가 너무 많기 때문에 ```get_dummies```를 할 떄는 전체 데이터중에 100개만 해주셔도 됩니다. (ex: ```data = data[0:100]```)

In [29]:
!pip install konlpy

In [28]:
!pip install JPype1-py3

In [24]:
# Mecab을 사용하기 위해서는 추가 설치가 필요합니다.
# 자세한 사항은 설치 페이지 http://konlpy.org/en/v0.4.4/install/ 를 참조해주세요.
from konlpy.tag import Mecab

tokenizer = Mecab()

def tokenize(content):
    tokenized = tokenizer.pos(content)
    tokenized = [w for w, p in tokenized]

    tokenized_content = " ".join(tokenized)

    return tokenized_content

data["content_tokenized"] = data['content'].apply(tokenize)

print(data.shape)
data[["content", "content_tokenized"]].head()

(71193, 6)


Unnamed: 0,content,content_tokenized
0,"롯데, 갤러리아, 세이등 지역 3대 백화점이 이번주부터 일제히 대부분의 브랜드가 참...","롯데 , 갤러리 아 , 세이 등 지역 3 대 백화점 이 이번 주 부터 일제히 대부분..."
1,새 해가 되면 우리는 새로운 한 살을 '띠'로 먹는다. 그리고 수많은 새 띠가 탄생...,새 해 가 되 면 우리 는 새로운 한 살 을 ' 띠 ' 로 먹 는다 . 그리고 수많...
2,우리나라 주식·채권형 펀드 규모가 매우 영세할 뿐아니라 자금유입도 부진해 기업의 자...,우리 나라 주식 · 채권 형 펀드 규모 가 매우 영세 할 뿐 아니 라 자금 유입 도...
3,"""올해는 시·군·구 병무조직이 폐지되고 전자병무청이 개설되는 등 병무행정이 크게 변...",""" 올해 는 시 · 군 · 구 병무 조직 이 폐지 되 고 전자 병무청 이 개설 되 ..."
4,살고 싶어도 함께 더 살 수 없는 2001년은 삭풍에 실려 떠나고 새해가 도착하였습...,살 고 싶 어도 함께 더 살 수 없 는 2001 년 은 삭풍 에 실려 떠나 고 새해...


In [25]:
# 메모리를 많이 먹어서 임시로 대체
data = data[0:100]

tokens = data["content"].str.get_dummies(sep=" ")

print(tokens.shape)
tokens.head()

(100, 10381)


Unnamed: 0,"""","""1월말","""2-3일뒤면","""23,","""2월부터는","""79년","""全北경제의","""全北에는","""北韓은","""新黨은",...,林正明이,"林湧堤,제3회",林鍾邱(인하대)林廣攝(경기대)崔聖龍(대구대)姜光薰(경남대)과,林변부회장,林예비코치는,林코치의,＜殷鉉卓,＜金時憲,＜글,＜편집자
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,1,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,1,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


** 19. 18번 데이터에서, 전체 데이터 기준 단어 발생 빈도가 너무 높거나(1000번 초과), 너무 낮은(10번 미만) 컬럼은 제거하세요. **

In [34]:
token_counts = tokens.sum(axis=0)
token_counts = token_counts[(token_counts <= 1000) & (token_counts >= 10)]

columns = token_counts.index

tokens = tokens[columns]

print(tokens.shape)
tokens.head()

(100, 67)


Unnamed: 0,(서울=聯合),17일,지난,있는,것으로,이날,있다.,대한,위해,또,...,있다고,때문에,있으나,하는,이어,갖고,것.,이에,보인다.,알려졌다.
56,1,0,1,1,1,1,1,0,1,0,...,1,0,1,1,0,1,0,0,1,0
76,1,1,1,1,1,0,1,1,1,1,...,1,1,1,1,0,0,0,1,0,0
81,0,0,1,1,1,0,1,1,1,0,...,1,1,1,0,0,1,0,1,0,1
90,1,0,1,1,1,0,1,1,1,0,...,0,1,0,0,1,0,1,1,0,1
78,1,0,1,1,1,0,1,1,1,1,...,0,0,0,1,0,0,0,0,0,0


** 20. 19번 데이터를 기준으로, 단어의 발생 빈도가 가장 높은 순으로 컬럼을 정렬해주세요. **

In [27]:
columns = tokens.sum(axis=0).sort_values(ascending=False).index
index = tokens.sum(axis=1).sort_values(ascending=False).index

tokens = tokens.loc[index, columns]

print(tokens.shape)
tokens.head()

(100, 67)


Unnamed: 0,(서울=聯合),17일,지난,있는,것으로,이날,있다.,대한,위해,또,...,있다고,때문에,있으나,하는,이어,갖고,것.,이에,보인다.,알려졌다.
56,1,0,1,1,1,1,1,0,1,0,...,1,0,1,1,0,1,0,0,1,0
76,1,1,1,1,1,0,1,1,1,1,...,1,1,1,1,0,0,0,1,0,0
81,0,0,1,1,1,0,1,1,1,0,...,1,1,1,0,0,1,0,1,0,1
90,1,0,1,1,1,0,1,1,1,0,...,0,1,0,0,1,0,1,1,0,1
78,1,0,1,1,1,0,1,1,1,1,...,0,0,0,1,0,0,0,0,0,0
