# 텍스트 마이닝 - 단어수 세기

매우 간단한 분석이지만 활용도가 높은 단어수 세기

#### 2019 [FinanceData.KR]()

## 예제 데이터

MS, 애플 이어 '시총 1조 달러'…"미 증시 MAGA 시대" (JTBC뉴스)

https://news.naver.com/main/read.nhn?mode=LPOD&mid=sec&oid=437&aid=0000208941

In [0]:
text = '''
MS, 애플 이어 '시총 1조 달러'…"미 증시 MAGA 시대"
지난 8월 애플 이후 두 번째 '꿈의 시총'
[앵커]
미국증시에서 꿈의 시총으로 불리는 1조 달러를 원조 기술주인 마이크로소프트가 달성을 했습니다. 지난해 8월 애플에 이어서 두 번째입니다. 아마존, 그리고 구글의 모기업 알파벳도 시총 1조 클럽 후보군에 올라있습니다. 이런 IT 대형주들이 뉴욕증시의 상승을 이끌고 있습니다.
이상화 기자입니다.
[기자]
뉴욕증시에서 마이크로소프트가 종가 기준 1조 10억 달러를 기록했습니다.
원화로는 1168조 원.
지난달 24일 시간외거래에서 시총 1조 달러를 기록한 후, 4일 만에 종가 기준으로도 1조 달러를 넘어선 것입니다.
클라우드 컴퓨팅 사업이 새로운 성장동력입니다.
MS의 1분기 순이익은 88억 달러로 지난해보다 19% 늘었습니다.
1조 달러는 '꿈의 시가총액'이라 불립니다.
지난 8월 애플이 1조 달러를 달성했고 이번이 두 번째입니다.
현재 애플은 9460억 달러로 1조 달러 고지를 다시 넘보고 있습니다.
아마존이 9480억 달러, 구글의 모기업 알파벳도 8290억 달러로 시총 1조 클럽 후보군에 이름을 올리고 있습니다.
월스트리트저널은 이들 IT 공룡주들이 뉴욕증시 상승 흐름을 만들어내고 있다고 전했습니다.
올해 들어 S&P500 지수는 18% 상승했습니다.
1987년 이후 가장 높은 상승률입니다.
MS, 아마존, 구글, 애플의 앞 글자를 따서 MAGA, 마가의 시대가 왔다고 표현하기도 합니다.
기존 5대 기술주, 페이스북·아마존·애플·넷플릭스·구글을 뜻하는 FAANG, 팡 그룹에서 페이스북과 넷플릭스가 빠지고 MS가 추가된 것입니다.
이상화(sh9989@jtbc.co.kr) [영상편집: 김영선]
'''

## 문자열에서 단어 등장 횟수 카운트

In [7]:
text.count('애플')

7

In [8]:
text.count('MS')

4

## 여러 단어의 개수를 카운트

In [9]:
words = ['MS', '아마존', '구글', '애플', '알파벳', '넷플릭스', '페이스북']

count_dict = {w: text.count(w) for w in words}
count_dict

{'MS': 4, '구글': 4, '넷플릭스': 2, '아마존': 4, '알파벳': 2, '애플': 7, '페이스북': 2}

## 가장 많이 언급된 단어 순서로 나열하기
가장 많이 언급된 단어 순서로 나열해 봅니다

In [11]:
# 값 순서로 정렬하기 (기본은 오름차순 입니다)
sorted(count_dict.items(), key=lambda x: x[1])

[('알파벳', 2),
 ('넷플릭스', 2),
 ('페이스북', 2),
 ('MS', 4),
 ('아마존', 4),
 ('구글', 4),
 ('애플', 7)]

딕셔너리의 items()는 딕셔너리의 요소를 튜플로 반환합니다. 

In [12]:
for key,value in count_dict.items():
    print(key, value)

MS 4
아마존 4
구글 4
애플 7
알파벳 2
넷플릭스 2
페이스북 2


반환값의 첫번째 요소는 키(key), 두번째 요소는 값(value)가 됩니다.  우리는 개수가 많은 항목을 찾으려는 것이므로 값(value)으로 소트하되 큰 값이 먼저 나오도록 역순(reverse=True) 소트 합니다.

In [13]:
# 값(value) 순서로 정렬하기
sorted_dict = sorted(count_dict.items(), key=lambda x: x[1], reverse=True)
sorted_dict

[('애플', 7),
 ('MS', 4),
 ('아마존', 4),
 ('구글', 4),
 ('알파벳', 2),
 ('넷플릭스', 2),
 ('페이스북', 2)]

## TOP-N 구하기

In [16]:
# 가장 많이 등장한 단어 TOP 3
sorted_dict[:3]

[('애플', 7), ('MS', 4), ('아마존', 4)]

In [19]:
[key for key, value in sorted_dict[:3]]

['애플', 'MS', '아마존']

## 요약
* text.count(word) - text 에서 word 등장 횟수 카운트
* {w: text.count(w) for w in words} : 딕셔너리 컴프리헨션 활용(다수의 단어를 한번에 카운트)
* sorted(list, key=lambda, reverse=True): 순회가능한 자료구조를 소트하는 내장함수 

#### 2019 [FinanceData.KR]()