### 파일의 단어 갯수 세기
- 총 단어수
- 고유 단어수
- 가장 많이 사용된 단어 10개

##### Step 1. 파일에서 데이터 읽기

In [1]:
with open('data/lorem.txt') as file:
    contents = file.read()

##### Step 2. 구둣점 제거하고 소문자로 변경

In [2]:
import string
string.punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [3]:
import re
clean_contents = re.sub('[' + string.punctuation + ']', '', contents)
clean_contents = clean_contents.lower()

In [4]:
clean_contents[:500]

'what is lorem ipsum\nlorem ipsum is simply dummy text of the printing and typesetting industry \nlorem ipsum has been the industrys standard dummy text ever since the 1500s when an unknown printer took a galley of type and scrambled it to make a type specimen book \nit has survived not only five centuries but also the leap into electronic typesetting remaining essentially unchanged it was popularised in the 1960s with the release of letraset sheets containing lorem ipsum passages and more recently '

#### Step 3. 리스트로 만들기

In [5]:
sentence = 'Hello World\nWelcome to Python World'
sentence.split()        # white space (blank, tab, newline) 기준으로 분할
sentence.split()

['Hello', 'World', 'Welcome', 'to', 'Python', 'World']

In [6]:
words = clean_contents.split()
words[:5]

['what', 'is', 'lorem', 'ipsum', 'lorem']

In [8]:
# 총 단어수
print(f'총 단어는 {len(words):,d}개 이고, 고유 단어는 {len(set(words))}개 입니다.')

총 단어는 511개 이고, 고유 단어는 256개 입니다.


##### Step 4. 고유단어가 key이고, 빈도가 value인 딕셔너리 만들기

In [9]:
word_dict = {}
for word in words:
    if word in word_dict.keys():        # word가 word_dict에 있으면
        word_dict[word] += 1                # 빈도수 증가(+1)
    else:                               # word가 word_dict에 없으면
        word_dict[word] = 1                 # word_dict에 word 추가
len(word_dict)

256

##### Step 5. 빈도의 내림차순으로 정렬하기

- 딕셔너리 리스트 정렬

In [10]:
books = [
    {'title': '파이썬', 'price': 10000},
    {'title': '자바', 'price': 20000},
    {'title': 'HTML', 'price': 15000}
]

In [13]:
# 책 제목의 오름차순 정렬
books.sort(key=lambda x: x['title'])
books

[{'title': 'HTML', 'price': 15000},
 {'title': '자바', 'price': 20000},
 {'title': '파이썬', 'price': 10000}]

In [14]:
# 책 가격의 내림차순 정렬
books.sort(key=lambda x: x['price'], reverse=True)
books

[{'title': '자바', 'price': 20000},
 {'title': 'HTML', 'price': 15000},
 {'title': '파이썬', 'price': 10000}]

- 튜플의 리스트 정렬

In [18]:
fruits = [('apple', 1500), ('banana', 1200), ('peach', 2000)]

In [19]:
# 과일 이름의 오름차순 정렬
fruits.sort(key=lambda x: x[0])
fruits

[('apple', 1500), ('banana', 1200), ('peach', 2000)]

In [20]:
# 과일 가격의 내림차순 정렬
fruits.sort(key=lambda x: x[1], reverse=True)
fruits

[('peach', 2000), ('apple', 1500), ('banana', 1200)]

- word_dict를 빈도의 내림차순으로 정렬

In [24]:
# 키(단어)값과 밸류(빈도)값이 같이 움직일 수 있도록 튜플의 리스트 만들기
word_items = list(word_dict.items())
word_items[:10]

[('what', 1),
 ('is', 8),
 ('lorem', 19),
 ('ipsum', 19),
 ('simply', 2),
 ('dummy', 2),
 ('text', 5),
 ('of', 21),
 ('the', 28),
 ('printing', 1)]

In [25]:
# 내림차순으로 정렬 후, 앞에서 10개의 데이터 - Top 10 빈도수 단어
word_items.sort(key=lambda x: x[1], reverse=True)
word_items[:10]

[('the', 28),
 ('of', 21),
 ('lorem', 19),
 ('ipsum', 19),
 ('a', 15),
 ('it', 11),
 ('and', 10),
 ('in', 10),
 ('is', 8),
 ('from', 8)]