# 연습 문제
1. 제공하는 `daily-weather-headlines.txt` 파일을 읽어서 월별 어절 빈도를 구조화하여 출력하라.
1. 총빈도 상위 20 개의 어절에 대하여 스프레드시트에서 월별 빈도 차트를 그릴 수 있는 형태의 TSV 파일을 생성하라.

In [None]:
"""
월별 어절 빈도를 담는 데이터 구조를 키를 문자열인 월로 하고 값을 
collections.Counter로 하는 collections.defaultdict로 구성

동작
1. 파일 읽어서 월별 어절 빈도 생성 -> get_montly_word_counts
2. 출력 -> print_monthly_word_counts
"""

from collections import defaultdict
from collections import Counter
import json


def get_monthly_word_counts(input_file_name):
    """주어진 이름의 파일을 읽어서 월별 어절 빈도를 생성하여 돌려준다."""
    
    monthly_word_counts = defaultdict(Counter)
    
    with open(input_file_name, "r", encoding="utf-8") as input_file:
        for line in input_file:
            date, headline1, headline2 = line.strip().split("\t")
            month = date[:6]
            words = headline1.split() + headline2.split()
            monthly_word_counts[month].update(words)
    
    return monthly_word_counts


def print_monthly_word_counts(monthly_word_counts):
    """주어진 월별 어절 빈도를 JSON 문자열로 화면에 출력한다."""
    
    for month, word_counts in sorted(monthly_word_counts.items()):
        count_pairs = []
        
        for word, count in word_counts.items():
            count_pair = {"word": word, "count": count}
            count_pairs.append(count_pair)
        
        output = {"month": month, "word_counts": count_pairs}
        print(json.dumps(output, ensure_ascii=False))
    

def main():
    """daily-weather-headlines.txt 파일을 읽어서 월별 어절 빈도를 구조화하여 
    출력한다."""
    
    input_file_name = "../data/textproc/daily-weather-headlines.txt"
    monthly_word_counts = get_monthly_word_counts(input_file_name)
    print_monthly_word_counts(monthly_word_counts)
    
    
main()

In [2]:
"""
빈도 상위 어절 월별 TSV 파일 생성
"""

from collections import defaultdict
from collections import Counter

NUM_TOP_WORDS = 20


def get_word_counts(input_file_name):
    """주어진 이름의 파일을 읽어서 어절 빈도를 생성하여 돌려준다."""
    
    total_word_counts = Counter()
    monthly_word_counts = defaultdict(Counter)

    with open(input_file_name, "r", encoding="utf-8") as input_file:
        for line in input_file:
            date, headline1, headline2 = line.strip().split("\t")
            month = date[:6]
            words = headline1.split() + headline2.split()
            total_word_counts.update(words)
            monthly_word_counts[month].update(words)
            
    return total_word_counts, monthly_word_counts


def write_monthly_word_counts(output_file_name, total_word_counts, monthly_word_counts):
    """월별 상위 빈도 어절 TSV 파일을 생성한다."""
    
    top_words = [word for (word, _) in total_word_counts.most_common(NUM_TOP_WORDS)]
    
    with open(output_file_name, "w", encoding="utf-8") as output_file:
        print("\t{}".format("\t".join(top_words)), file=output_file)
        
        for month, word_counts in sorted(monthly_word_counts.items()):
            top_word_counts = [str(word_counts[word]) for word in top_words]
            print("{}\t{}".format(month, "\t".join(top_word_counts)), file=output_file)


def main():
    """daily-weather-headlines.txt 파일을 읽어서 월별 어절 빈도를 구조화하고
    파일을 읽어서 월별 빈도 상위 어절 TSV 파일을 생성한다."""
    
    input_file_name = "../data/textproc/daily-weather-headlines.txt"
    output_file_name = "../data/textproc/monthly-weather-word-counts.csv"
    total_word_counts, monthly_word_counts = get_word_counts(input_file_name)
    write_monthly_word_counts(output_file_name, total_word_counts, monthly_word_counts)
    
    
main()