# Word Count
본 문서는 python으로 word count 문제를 해결할 때 유용한 방법들을 정리한 문서입니다.

## 1. 파일 읽기
파이썬에서 텍스트 파일을 불러오려면 다음과 같은 명령어를 활용할 수 있습니다.
```python
# 파일을 불러들인다.
# f라는 변수를 활용하여 파일 내용을 읽을 수 있다.
f = open("파일/경로", "r") 
...
f.close() # 파일을 닫는다.
```

파일을 열고 나서는, `readline()` 명령어를 활용하여 파일로부터 한 줄 씩 읽을 수 있습니다.

```python
# 세 줄 읽기
first_line = f.readline()
second_line = f.readline()
third_line = f.readline()

# 읽은 줄 출력하기
print(first_line)
print(second_line)
print(third_line)
```

파이썬의 for문을 활용하여, 파일의 모든 줄을 읽고, 출력할 수 있습니다.
```python
for line in f:
    print(line)
```

## 2. 소문자 (혹은 대문자로) 모든 글자 바꾸기
문자열 명령어중 `lower()`를 사용하면, 주어진 문자열의 모든 영문자를 소문자로 바꿀 수 있습니다. 반대로, `upper()`를 모든 영문자를 대문자로 바꿀 수 있습니다.
```python
line = "HeLlo, MY FrIEnd."
line = line.lower()
print(line) # 출력: hello, my friend.
```

## 3. 문자열을 단어 단위로 나누기
단어의 수를 세기 위해서는 문장을 단어로 나누어야 합니다. 예를 들어, "Hello how are you"와 같은 문자열을, 다음과 같이 단어로 나눕니다: `["Hello", "how", "are", "you"]`.
문자열 명령어인 `split()`을 사용하면, 문장을 단어로 나눌 수 있습니다.
```python
line = "Hello how are you"
words = line.split()
print(words) # 출력: ['Hello', 'how', 'are', 'you']
print(words[0]) # 출력: 'Hello'
print(words[1]) # 출력: 'how'

# words의 모든 단어 출력하기
for w in words:
    print(w)
```

## 4. 단어 수 세기 (사전 자료형 사용)
파이썬에는 사전(dictionary)라는 자료형이 있습니다. key-value 값을 효율적으로 저장하고 조회할 수 있는 자료형으로, 단어 수를 세는데 활용할 수 있습니다.
```python
words = ["big", "data", "data", "bit", "big", "big", "big", "bit", "data"]
```
사전 자료형은 다음과 같이 생성합니다.
```python
word_count = {} # 비어있는 사전 자료형 생성
```
사전에 어떤 단어를 추가하고, 해당 단어의 개수를 0개로 설정하려면 다음과 같이 작성합니다.
```python
word_count["hello"] = 0
print(word_count) # 출력: {'hello': 0}
```
사전에 넣은 키(단어)에 해당하는 값(단어 등장 횟수)을 알아보려면 다음과 같이 작성합니다. 만약 없는 단어를 찾으려고 하면, 에러가 발생합니다.
```python
print(word_count["hello"]) # 출력: 0
print(word_count["world"]) # 에러 발생! 
```

사전에 특정 키(단어)가 있는지 없는지 확인하려면 `in`과 `not` 이라는 키워드를 사용할 수 있습니다.
```python
if "hello" in word_count:
    print("word_count는 hello를 가지고 있다!")
else:
    print("word_count는 hello를 가지고 있지 않다!")

if "hello" not in word_count:
    print("word_count는 hello를 가지고 있지 않다!")
else:
    print("word_count는 hello를 가지고 있다!")
```

그렇다면, 기존에 있던 단어의 수를 1 증가시키려면 어떻게 하면 될까요? 다음과 같이 작성하면 되겠습니다.
```python
word_count["hello"] = word_count["hello"] + 1
```

## 5. 가장 많이 등장한 단어들 찾기
단어 수 세기를 마치고 나서, 가장 많이 등장한 단어의 수를 세려면 어떻게 하면 될까요? 여러가지 방법이 있겠지만, 단어 등장 횟수로 정렬하여 해결할 수 있겠습니다. 등장 횟수로 정렬하려면, word_count의 아이템들을 (단어수, 단어)와 같은 형태로 바꿔야 합니다. 리스트의 `sort()` 라는 명령어를 사용할건데, 이 명령어는 앞에 것을 기준으로 정렬하기 때문입니다.
```python
count_word_pairs = [] # 새로운 리스트 생성
for word in word_count:
    count = word_count[word]

    # count_word_pairs 리스트에 (count, word) 추가
    count_word_pairs.append( (count, word) ) 

count_word_pairs.sort() # count 기준으로 오름차순 정렬된다!

# count_word_pairs의 마지막 10개를 뽑아온다면,
# 가장 많이 등장한 10개의 단어를 알아낼 수 있다!
print(count_word_pairs[-10:])
```