In [None]:
# 03장 다양한 데이터 다루기
# ------------------------
# 이번 장에서는 두 날짜의 차이나 특정 날짜의 요일을 쉽게 구할 수 있는 datetime 모듈, 윤년을 확인할 수 있는 calendar 모듈, 튜플과 딕셔너리를 좀 더 특별하게 만들어 주는 collections 모듈을 알아본다. 그리고 데이터를 보기 좋게 출력하는 pprint 등과 같은 데이터와 관련된 모듈도 함께 알아보자.

## 005 날짜를 계산하고 요일을 알려면? ― datetime.date

In [None]:
# 005 날짜를 계산하고 요일을 알려면? ― datetime.date
# ------------------------------------------------
# datetime.date는 년, 월, 일로 날짜를 표현할 때 사용하는 모듈이다.

# 문제
# ----
# 2019년 12월 14일부터 만나기 시작했다면 2021년 6월 5일은 사귄 지 며칠째 되는 날일까? 
# 아울러 사귀기 시작한 2019년 12월 14일은 무슨 요일이었을까? 파이썬 프로그램으로 풀어 보자.

In [29]:
from datetime import date

first_date = date(2019,12,14)
curr_date = date(2021,6,5)

curr_date - first_date, "월화수목금토일"[first_date.weekday()]


(datetime.timedelta(days=539), '토')

In [36]:
diff_day = curr_date - first_date
meet_day = diff_day.days + 1
print(f'우리가 만난지 {meet_day}일 되었어요. 그리고 처음 만난날은 {"월화수목금토일"[first_date.weekday()]}요일 입니다.')

우리가 만난지 540일 되었어요. 그리고 처음 만난날은 토요일 입니다.


In [22]:
from datetime import date

start_date = date(2019, 12, 14)
today = date.today()
curr_date = date.fromisoformat('2021-06-05')

print(today, start_date)
today, start_date
today.isoformat(), curr_date.isoformat()
today.year, today.month, today.day

today.weekday()
today.isoweekday()
'월화수목금토일'[today.weekday()]

print(today)
today.replace(year=2013)


2023-04-04 2019-12-14
2023-04-04


datetime.date(2013, 4, 4)

In [None]:
# 풀이
# 두 날짜의 차이 구하기
# 년, 월, 일로 다음과 같이 datetime.date 객체를 만들 수 있다.

# >>> import datetime
# >>> day1 = datetime.date(2019, 12, 14)
# >>> day1
# datetime.date(2019, 12, 14)
# >>> day2 = datetime.date(2021, 6, 5)
# >>> day2
# datetime.date(2021, 6, 5)
# 이처럼 년, 월, 일을 인수로 하여 2019년 12월 14일에 해당하는 날짜 객체는 day1, 2021년 6월 5일에 해당하는 날짜 객체는 day2로 생성하였다.

# 이렇게 날짜 객체를 만들었다면 두 날짜의 차이는 다음과 같이 뺄셈으로 쉽게 구할 수 있다.

# >>> diff = day2 - day1
# >>> diff
# datetime.timedelta(days=539)
# >>> diff.days
# 539
# day2에서 day1을 빼면 datetime.timedelta 객체가 반환되고 이 객체를 이용하면 두 날짜의 차이를 확인할 수 있다.

# 참고: 006 두 날짜의 차이를 알려면? - datetime.timedelta


# 알아두면 좋아요
# --------------
# datetime.datetime 객체
# ----------------------
# datetime.date는 년, 월, 일로만 구성된 날짜 데이터이므로 시, 분, 초까지 포함한 일시 데이터를 생성하려면 
# 다음과 같이 datetime.datetime을 사용해야 한다.

# >>> import datetime
# >>> day3 = datetime.datetime(2020, 12, 14, 14, 10, 50)
# >>> day3.hour
# 14
# >>> day3.minute
# 10
# >>> day3.second
# 50
# 또는 다음과 같이 combine() 함수로 datetime.date 객체와 datetime.time 객체를 합쳐 일시 데이터를 만들 수도 있다.

# >>> import datetime
# >>> day = datetime.date(2020, 12, 14)
# >>> time = datetime.time(10, 14, 50)
# >>> dt = datetime.datetime.combine(day, time)
# >>> dt
# datetime.datetime(2020, 12, 14, 10, 14, 50)


# 요일 판별하기
# ------------
# 요일은 datetime.date 객체의 weekday() 함수를 사용하면 쉽게 구할 수 있다.

# >>> import datetime
# >>> day = datetime.date(2019, 12, 14)
# >>> day.weekday()
# 5
# 0은 월요일을 의미하며 순서대로 1은 화요일, 2는 수요일, …, 6은 일요일이 된다. 이와는 달리 월요일은 1, 화요일은 2, …, 일요일은 7을 반환하려면 다음처럼 isoweekday() 함수를 사용하면 된다.

# >>> day.isoweekday()
# 6
# 2019년 12월 14일은 토요일이므로 isoweekday()를 사용하면 토요일을 뜻하는 6을 반환한다.

# 참고
# datetime - 기본 날짜와 시간 형: https://docs.python.org/ko/3/library/datetime.html
# 라이브러리 더 알아보기: https://wikidocs.net/33#time

## 006 두 날짜의 차이를 알려면? ― datetime.timedelta

In [None]:
# 006 두 날짜의 차이를 알려면? ― datetime.timedelta
# -----------------------------------------------
# datetime.timedelta()는 두 날짜의 차이를 계산할 때 사용하는 함수이다. 
# timedelta 객체에는 산술 연산자 +와 -를 사용할 수 있으므로 어떤 날짜에 원하는 기간(일, 시, 분, 초)을 더하거나 뺄 수 있다.

# 문제
# ----
# 오늘부터 사귀기 시작한 커플이 벌써 100일 기념일을 챙기려 한다. 이 커플의 100일 기념일은 언제일까? 마찬가지로 파이썬 프로그램으로 풀어 보자.

In [49]:
import datetime

today = datetime.date.today()
today

day = datetime.timedelta(100)
day

today + day

datetime.date(2023, 7, 13)

In [None]:
# 풀이
# ----
# 먼저 datetime.date.today()로 오늘 날짜의 객체를 얻는다.

# >>> import datetime
# >>> today = datetime.date.today()
# >>> today
# datetime.date(2021, 6, 5)
# today() 함수는 오늘 날짜를 반환한다. 여기서는 오늘 날짜를 2021년 6월 5일이라 한다. 
# 오늘로부터 100일 후의 날짜를 얻으려면 100일을 뜻하는 datetime.timedelta(days=100)으로 만든 객체가 필요하다.

# >>> diff_days = datetime.timedelta(days=100)
# >>> diff_days
# datetime.timedelta(days=100)
# timedelta에는 days 외에도 다음 표와 같은 매개변수를 사용할 수 있다.

# 항목	설명
# ---------
# days	일
# seconds	초
# microseconds	마이크로 초
# milliseconds	밀리 초 (1밀리 초는 1000마이크로 초)
# minutes	분
# hours	시간
# weeks	주 (7일을 의미함)
# 이제 오늘 날짜+100일에 해당하는 다음 산술식을 사용하면 100일 이후의 날짜를 쉽게 얻을 수 있다.

# >>> today + diff_days
# datetime.date(2021, 9, 13)

# 오늘(2021년 6월 5일)로부터 100일 이후의 일자는 2021년 9월 13일임을 알 수 있다. 
# 더불어 100일 전의 날짜를 알고 싶다면 다음처럼 today - diff_days 산술식을 사용하면 된다.

# >>> today - diff_days
# datetime.date(2021, 2, 25)

# 참고
# datetime - 기본 날짜와 시간 형: https://docs.python.org/ko/3/library/datetime.html
# 동영상 - https://youtube.com/shorts/aRbHLVZQaIE?feature=share

## 007 2월이 29일인 해를 알려면? ― calendar.isleap

In [None]:
# 007 2월이 29일인 해를 알려면? ― calendar.isleap
# ---------------------------------------------
# calendar.isleap()은 인수로 입력한 연도가 윤년인지를 확인할 때 사용하는 함수이다.

# 문제
# ----
# 여러분의 생일이 2월 29일이라면 어느 해가 2월 29일까지인 윤년인지 궁금할 것이다. 
# 예를 들어 다음 연도가 윤년인지를 확인하려면 어떻게 해야 할까? (여기서는 윤년이면 True, 아니면 False를 출력)

# 0 년
# 1 년
# 4 년
# 1200 년
# 700 년
# 2020 년

In [71]:
import datetime
import calendar

cnt = 0
for year in range(2025):
#    if year in (0, 1, 4, 1200, 700, 2020):
    if calendar.isleap(year):
        cnt += 1
        print(f'{year:>4}', end=' ')
        if cnt % 10 == 0:
            print()

        

   0    4    8   12   16   20   24   28   32   36 
  40   44   48   52   56   60   64   68   72   76 
  80   84   88   92   96  104  108  112  116  120 
 124  128  132  136  140  144  148  152  156  160 
 164  168  172  176  180  184  188  192  196  204 
 208  212  216  220  224  228  232  236  240  244 
 248  252  256  260  264  268  272  276  280  284 
 288  292  296  304  308  312  316  320  324  328 
 332  336  340  344  348  352  356  360  364  368 
 372  376  380  384  388  392  396  400  404  408 
 412  416  420  424  428  432  436  440  444  448 
 452  456  460  464  468  472  476  480  484  488 
 492  496  504  508  512  516  520  524  528  532 
 536  540  544  548  552  556  560  564  568  572 
 576  580  584  588  592  596  604  608  612  616 
 620  624  628  632  636  640  644  648  652  656 
 660  664  668  672  676  680  684  688  692  696 
 704  708  712  716  720  724  728  732  736  740 
 744  748  752  756  760  764  768  772  776  780 
 784  788  792  796  800  804  

In [None]:
# 풀이
# ----
# 그레고리력에서 윤년을 정하는 규칙은 다음과 같다.

# 1. 서력 기원 연수가 4로 나누어 떨어지는 해는 우선 윤년으로 한다.
# 2. 그중에서 100으로 나누어 떨어지는 해는 평년으로 한다.
# 3. 400으로 나누어 떨어지는 해는 다시 윤년으로 정한다.
# 윤년의 2월달 일수는 28일이 아닌 29일이다.

# 윤년의 정의에 따라 사용자 정의 함수 is_leap_year()를 만들면 다음과 같다.

# def is_leap_year(year):
#     if year % 400 == 0: 
#         return True
#     if year % 100 == 0: 
#         return False
#     if year % 4 == 0: 
#         return True
#     return False

In [82]:
def is_leap(year):
    if year % 400 == 0:
        return True
     
    if year % 100 == 0:
        return False
    
    if year % 4 == 0:
        return True


for year in range(2000, 2025):
    if is_leap(year):
        print(f'{year:>4} 윤년임')        

2000 윤년임
2004 윤년임
2008 윤년임
2012 윤년임
2016 윤년임
2020 윤년임
2024 윤년임


In [None]:
# 하지만, calendar 모듈에는 이미 윤년인지를 확인하는 isleap() 함수가 있다.

# >>> import calendar
# >>> calendar.isleap(0)
# True
# >>> calendar.isleap(1)
# False
# >>> calendar.isleap(4)
# True
# >>> calendar.isleap(1200)
# True
# >>> calendar.isleap(700)
# False
# >>> calendar.isleap(2020)
# True
# 참고
# 윤년의 정의(위키백과)
# calendar - 일반 달력 관련 함수: https://docs.python.org/ko/3/library/calendar.html

## 008 앞뒤에서 자료를 넣고 빼려면? ― collections.deque

In [None]:
# 008 앞뒤에서 자료를 넣고 빼려면? ― collections.deque
# --------------------------------------------------
# deque는 앞과 뒤에서 데이터를 처리할 수 있는 양방향 자료형으로, 스택(stack)처럼 써도 되고 큐(queue)처럼 써도 된다. 
# collections.deque 모듈은 deque 자료형을 생성하는 모듈이다.

# deque는 '데크'라 읽는다.

# 문제
# ---
# 다음과 같이 시계방향으로 1~5가 적힌 다이얼이 있으며 현재 가리키는 눈금은 1이다.

# [1, 2, 3, 4, 5]

# 이 다이얼을 오른쪽으로 2칸 돌려 가리키는 눈금이 4가 되도록 하려면 어떻게 해야 할까?

# [4, 5, 1, 2, 3]


In [91]:
def right_turn(cnt, dial):
    for turn in range(cnt):
        save_num = dial.pop()
        dial.insert(0, save_num)
    return dial

dial = [1,2,3,4,5]
new_dial = right_turn(2, dial)

new_dial

[4, 5, 1, 2, 3]

In [None]:
# 풀이
# ----
# 리스트를 n만큼 회전하는 문제는 알고리즘 문제에서 자주 등장한다. 파이썬에서는 collections.deque 모듈을 사용하면 간단하게 이 문제를 해결할 수 있다.

# >>> from collections import deque
# >>> a = [1, 2, 3, 4, 5]
# >>> q = deque(a)
# >>> q.rotate(2)  #시계방향 회전은 양수, 그 반대는 음수
# >>> result = list(q)
# >>> result
# [4, 5, 1, 2, 3]

# deque(a)로 deque 객체를 만든 후 rotate() 함수를 사용하여 2만큼 오른쪽으로 회전하면 첫 값이 4를 가리키게 된다. 
# 마찬가지로 왼쪽으로 2만큼 회전하여 3을 가리키려면 2 대신 -2를 입력하면 된다.

# 알아두면 좋아요
# list와 비슷한 deque
# deque의 사용법을 잠시 살펴보자.

# >>> from collections import deque
# >>> d = deque([1,2,3,4,5])
# >>> d.append(6)
# >>> d
# deque([1, 2, 3, 4, 5, 6])
# >>> d.appendleft(0)
# >>> d
# deque([0, 1, 2, 3, 4, 5, 6])
# >>> d.pop()
# 6
# >>> d
# deque([0, 1, 2, 3, 4, 5])
# >>> d.popleft()
# 0
# >>> d
# deque([1, 2, 3, 4, 5])
# >>>
# 이 예제를 보면 알겠지만 deque는 list와 매우 비슷하다. 
# 스택과 큐로 사용할 수 있는 메서드도 대부분 일치한다. 다만, deque에는 다음과 같은 메서드가 더 있다.

# appendleft(x): 데크 왼쪽에 x 추가
# popleft(): 데크 왼쪽에서 요소를 제거
# 예를 들어 리스트에서는 첫 번째 요소를 삭제할 때 pop(0)을 사용하지만, deque는 popleft()를 사용한다. 
# 아울러 리스트를 사용하면 deque를 쓰는 것과 마찬가지 효과를 낼 수 있지만 deque를 사용하면 스택, 큐 작업 시 다음과 같은 장점이 있으니 참고하자.

# deque는 list보다 속도가 빠르다. 
# pop(0)와 같은 메서드를 수행할 때 리스트라면 O(N) 연산을 수행하지만, deque는 O(1) 연산을 수행하기 때문이다.
# 스레드 환경에서 안전하다.

# tip
# ---
# 빅오 표기법
# ----------
# O(1) - 입력의 크기와 상관 없이 항상 같은 시간이 걸리는 알고리즘이다. 리스트나 딕셔너리의 데이터에 접근할 때 O(1)의 시간 복잡도를 갖는다.
# O(logN) - 문제를 해결하는데 필요한 단계들이 연산마다 줄어드는 알고리즘이다. 이진탐색, 힙 삽입/삭제 등이 O(logN)의 시간 복잡도를 갖는다.
# O(N) - 한번의 반복을 수행하고 완료되는 선형 탐사가 O(N)의 시간 복잡도를 갖는다.
# O(N^2) - 2중 반복을 돌게되는 알고리즘은 O(N^2)의 시간 복잡도를 갖는다.

# 참고
# ----
# 스택(위키백과)
# 큐(위키백과)
# collections - 컨테이너 데이터형: https://docs.python.org/ko/3/library/collections.html#collections.deque
# 리스트 자료형 더 알아보기: https://wikidocs.net/14
# 동영상 - https://youtube.com/shorts/QGD6PIpjbQM?feature=share

In [92]:
from collections import deque
a = [1, 2, 3, 4, 5]
q = deque(a)
q.rotate(2)  #시계방향 회전은 양수, 그 반대는 음수
result = list(q)
result


[4, 5, 1, 2, 3]

## 009 자료에 이름을 붙이려면? ― collections.namedtuple

In [None]:
# 009 자료에 이름을 붙이려면? ― collections.namedtuple
# --------------------------------------------------
# 튜플(tuple)은 인덱스를 통해서만 데이터에 접근할 수 있지만 네임드 튜플(named tuple)은 인덱스뿐만 아니라 키(key)로도 데이터에 접근할 수 있는 자료형이다.

# collections.namedtuple()은 키값으로 데이터에 접근할 수 있는 튜플을 생성하는 함수이다.

# 문제
# ----
# 직원 주소록을 만들고자 다음과 같이 이름, 나이, 휴대전화로 구성된 직원 정보 데이터를 이용하려 한다.

# data = [
#     ('홍길동', 23, '01099990001'), 
#     ('김철수', 31, '01099991002'), 
#     ('이영희', 29, '01099992003'),
# ]
# 하지만, 리스트의 요소가 튜플이라 데이터에 접근하기가 쉽지 않다. 
# 왜냐하면 데이터를 확인하려면 튜플 데이터의 인덱스 순서가 무엇을 뜻하는지 알아야 하기 때문이다.

# 이에 다음처럼 튜플 데이터를 각 칼럼의 이름으로 찾을 수 있도록 하려면 어떻게 해야 할까?

# emp = data[0]  # 첫번째 직원
# print(emp.name)  # "홍길동" 출력
# print(emp.age)  # 23 출력
# print(emp.cellphone)  # 01099990001 출력

In [132]:
from collections import namedtuple

data = [
    ('홍길동', 23, '01099990001'), 
    ('김철수', 31, '01099991002'), 
    ('이영희', 29, '01099992003'),
]

Employee = namedtuple('Employee', 'name, age, cellphone')

# data = [ Employee(emp[0], emp[1], emp[2]) for emp in data ]
data = [ Employee._make(emp) for emp in data ]

# for emp in data:
#     print(emp.name, emp.age, emp.cellphone)

# dict_data = []
# for emp in data:
#     dict_data.append(emp._asdict())

# dict_data

# result = []
# for emp in data:
#     result.append(emp._replace(name = '이순천'))
    
# result

emp1 = data[0]._replace(name='이순천')
emp1[0]



'이순천'

In [None]:
# 풀이
# ----

# 키값으로 튜플 데이터에 접근하는 데는 다양한 방법이 있다. 일반적으로는 클래스를 이용하지만, 
# 여기서는 가장 간단하게 해결할 수 있는 namedtuple 모듈을 사용해 보기로 한다.

# 먼저 다음과 같이 namedtuple 모듈을 불러온다(import).

# >>> from collections import namedtuple
# 그리고는 다음과 같이 데이터를 선언하자.

# >>> data = [
# ...     ('홍길동', 23, '01099990001'),
# ...     ('김철수', 31, '01099991002'),
# ...     ('이영희', 29, '01099992003'),
# ... ]
# 선언한 데이터의 형식에 맞게 다음과 같이 namedtuple 자료형을 생성하자.

# >>> Employee = namedtuple('Employee', 'name, age, cellphone')
# namedtuple() 함수의 첫 번째 입력은 자료형 이름(type name)이다. 보통 namedtuple()로 생성하는 객체 이름과 같도록 한다. 
# 여기서는 Employee로 했다. 뒤에 따라오는 쉼표로 구성된 문자열 'name, age, cellphone' 은 Employee의 속성이 된다.

# 그리고 선언한 data의 요소인 튜플을 다음과 같이 namedtuple로 변환하자.

# >>> data = [Employee(emp[0], emp[1], emp[2]) for emp in data]
# 리스트 컴프리헨션을 이용하여 data의 각 튜플을 모두 Employee 자료형(네임드 튜플 자료형)으로 교체했다. 
# Employee 자료형의 _make() 함수를 사용하면 이 과정을 더 깔끔하게 처리할 수 있다.

# >>> data = [Employee._make(emp) for emp in data]
# 튜플의 요소가 많다면 _make() 함수를 사용하는 것이 유리하다. 이제 Employee 자료형으로 변경한 데이터를 다음과 같이 사용해 보자.

# >>> emp = data[0]  # 첫번째 직원
# >>> emp.name
# '홍길동'
# >>> emp.age
# 23
# >>> emp.cellphone
# '01099990001'
# 이제 문제에서 요구하는 대로 인덱스가 아닌 키로 데이터를 조회할 수 있게 되었다. 
# 참고로 네임드 튜플은 다음처럼 _asdict() 함수를 사용하면 간단하게 딕셔너리로 변환할 수 있다.

# >>> emp._asdict()
# {'name': '홍길동', 'age': 23, 'cellphone': '01099990001'}
# 또한, 네임드 튜플은 다음처럼 인덱스로 접근할 수도 있다.

# >>> emp[0]
# '홍길동'
# >>> emp[1]
# 23
# >>> emp[2]
# '01099990001'
# 그리고 네임드 튜플은 값을 변경할 수 없는(immutable) 튜플의 특징을 그대로 가지므로 속성값을 변경하려고 하면 다음과 같은 오류가 발생한다.

# >>> emp.name = '박길동'
# Traceback (most recent call last):
#   File "<stdin>", line 1, in <module>
# AttributeError: can't set attribute
# 그러므로 다음처럼 _replace() 함수로만 값을 바꿀 수 있다.

# >>> new_emp = emp._replace(name="박길동")
# >>> new_emp
# Employee(name='박길동', age=23, cellphone='01099990001')
# 단, _replace() 함수는 해당 객체를 직접 변경하는 것이 아니라 값을 변경한 새로운 객체를 만들어 반환한다는 점에 주의하자.

# 참고
# collections - 컨테이너 데이터형: https://docs.python.org/ko/3/library/collections.html
# 튜플 자료형 더 알아보기: https://wikidocs.net/15

## 010 사용한 단어 개수를 구하려면? ― collections.Counter

In [None]:
# 010 사용한 단어 개수를 구하려면? ― collections.Counter
# ----------------------------------------------------
# collections.Counter는 리스트나 문자열과 같은 자료형의 요소 중 값이 같은 요소가 몇 개인지를 확인할 때 사용하는 클래스이다.

# 문제
# ----
# 다음은 김소월의 시 '산유화'이다. 잠시 여유를 갖고 감상해 보자.

# 산에는 꽃 피네.
# 꽃이 피네.
# 갈 봄 여름없이
# 꽃이 피네.

# 산에
# 산에
# 피는 꽃은
# 저만치 혼자서 피어있네.

# 산에서 우는 새여
# 꽃이 좋아
# 산에서
# 사노라네.

# 산에는 꽃지네
# 꽃이 지네.
# 갈 봄 여름 없이
# 꽃이 지네.

# 이 시에서 가장 많이 사용한 단어와 그 개수를 구하려면 어떻게 해야 할까?



In [156]:
poem = """
    산에는 꽃 피네.
    꽃이 피네.
    갈 봄 여름없이
    꽃이 피네.

    산에
    산에
    피는 꽃은
    저만치 혼자서 피어있네.

    산에서 우는 새여
    꽃이 좋아
    산에서
    사노라네.

    산에는 꽃지네
    꽃이 지네.
    갈 봄 여름 없이
    꽃이 지네.
"""

from collections import Counter
import re

words = re.findall(r'\w+', poem)
words
Counter(words).most_common()

#Counter(poem.split()).most_common()
#poem.strip()
#Counter(poem.strip())

[('꽃이', 5),
 ('피네', 3),
 ('산에는', 2),
 ('갈', 2),
 ('봄', 2),
 ('산에', 2),
 ('산에서', 2),
 ('지네', 2),
 ('꽃', 1),
 ('여름없이', 1),
 ('피는', 1),
 ('꽃은', 1),
 ('저만치', 1),
 ('혼자서', 1),
 ('피어있네', 1),
 ('우는', 1),
 ('새여', 1),
 ('좋아', 1),
 ('사노라네', 1),
 ('꽃지네', 1),
 ('여름', 1),
 ('없이', 1)]

In [None]:
# 풀이
# ----
# 이 문제를 해결하려면 이 시를 단어별로 나누고 딕셔너리를 사용하여 각 개수를 0으로 초기화하고 나서 해당 단어가 반복될 때마다 1씩 증가하여 빈도수를 알아내는 방법을 써야 한다.

# 하지만, 여기서는 더 쉬운 방법으로 이 문제를 풀어 보자.

# [파일명: collections_counter_sample.py]

# from collections import Counter
# import re

# data = """
# 산에는 꽃 피네.
# 꽃이 피네.
# 갈 봄 여름없이
# 꽃이 피네.

# 산에
# 산에
# 피는 꽃은
# 저만치 혼자서 피어있네.

# 산에서 우는 새여
# 꽃이 좋아
# 산에서
# 사노라네.

# 산에는 꽃지네
# 꽃이 지네.
# 갈 봄 여름 없이
# 꽃이 지네.
# """

# words = re.findall(r'\w+', data)
# counter = Counter(words)
# print(counter.most_common(1))
# 먼저 문장을 단어별로 나누고자 다음처럼 re 모듈을 사용한다.

# words = re.findall(r'\w+', data)
# 정규표현식 \w+는 단어를 의미하므로 re.findall() 함수를 이용하여 이 시의 모든 단어를 리스트(words)로 반환한다. 그런 다음, 다음처럼 이 words를 이용하여 collections.Counter 클래스의 객체 counter를 생성했다.

# counter = Counter(words)
# 생성된 counter 객체를 print(counter)로 출력하면 다음과 같다.

# Counter({'꽃이': 5, '피네': 3, '산에는': 2, '갈': 2, '봄': 2, '산에': 2, '산에서': 2, '지네': 2, '꽃': 1, '여름없이': 1, '피는': 1, '꽃은': 1, '저만치': 1, '혼자서': 1, '피어있네': 1, '우는': 1, '새여': 1, '좋아': 1, '사노라네': 1, '꽃지네': 1, '여름': 1, '없이': 1})
# 단어 빈도수가 큰 것부터 차례대로 출력한다. 하지만, 문제에서 바라는 것은 빈도수가 가장 많은 1개 단어이므로 Counter 객체의 most_common() 함수를 이용하여 다음과 같이 출력한다.

# print(counter.most_common(1))
# 이 코드를 실행한 결과는 다음과 같다.

# [('꽃이', 5)]
# most_common() 함수는 빈도수가 많은 것부터 인수로 입력한 개수만큼 튜플로 반환한다. 빈도수가 많은 2개 단어를 보고 싶다면 다음과 같이 출력하면 된다.

# print(counter.most_common(2))
# 출력 결과는 다음과 같을 것이다. 직접 실행하고 확인해 보자.

# [('꽃이', 5), ('피네', 3)]

# 참고
# ----
# collections - 컨테이너 데이터형: https://docs.python.org/ko/3/library/collections.html#collections.Counter
# 딕셔너리 자료형 더 알아보기: https://wikidocs.net/16
# 정규표현식 더 알아보기: https://wikidocs.net/1669
# 동영상1 - https://youtube.com/shorts/u-i7bn8IGsw?feature=share
# 동영상2 - https://youtube.com/shorts/i68rSufR2iE?feature=share

In [161]:
# collections_counter_sample.py

from collections import Counter
import re

data = """
산에는 꽃 피네.
꽃이 피네.
갈 봄 여름없이
꽃이 피네.

산에
산에
피는 꽃은
저만치 혼자서 피어있네.

산에서 우는 새여
꽃이 좋아
산에서
사노라네.

산에는 꽃지네
꽃이 지네.
갈 봄 여름 없이
꽃이 지네.
"""

words = re.findall(r'\w+', data)
Counter(words).most_common(1)

[('꽃이', 5)]

## 011 딕셔너리를 한 번에 초기화하려면? ― collections.defaultdict

In [None]:
# 011 딕셔너리를 한 번에 초기화하려면? ― collections.defaultdict
# ------------------------------------------------------------
# collections.defaultdict는 값(value)에 초깃값을 지정하여 딕셔너리를 생성하는 모듈이다.

# 문제
# ----
# 다음은 배우기 쉽고 강력한 파이썬의 특징을 잘 나타낸 문장이다.

# Life is too short, You need python.
# 이 문자열을 이용하여 다음처럼 사용한 문자(key)와 해당 문자의 사용 횟수(value)를 딕셔너리로 만들려면 어떻게 해야 할까? 
# 단, 공백 등 특수 문자도 포함하며 대소문자는 구분하기로 한다.

# {'L': 1, 'i': 2, 'f': 1, 'e': 3, ' ': 6, 's': 2, 't': 3, 'o': 5, 'h': 2, 'r': 1, ',': 1, 'Y': 1, 'u': 1, 'n': 2, 'd': 1, 'p': 1, 'y': 1, '.': 1}

In [178]:
from collections import Counter

data = 'Life is too short, You need python.'
Counter(data)

result = {}
for char in data:
    if char not in result:
        result[char] = 0
    result[char] += 1
print(result)        
        
# result = {'L':1, 'k':2}
# result['k']    



{'L': 1, 'i': 2, 'f': 1, 'e': 3, ' ': 6, 's': 2, 't': 3, 'o': 5, 'h': 2, 'r': 1, ',': 1, 'Y': 1, 'u': 1, 'n': 2, 'd': 1, 'p': 1, 'y': 1, '.': 1}


In [None]:
# 풀이
# ----
# 다음은 이 문제의 일반적인 풀이이다.

# [파일명: collections_defaultdict_sample.py]

# text = "Life is too short, You need python."

# d = dict()
# for c in text:
#     if c not in d:
#         d[c] = 0
#     d[c] += 1

# print(d)
# 딕셔너리 d의 키에 해당 문자가 없다면 그 문자를 키로 등록하고 값은 0으로 초기화하는 방어적인 코드를 다음과 같이 사용했다.

# if c not in d:
#     d[c] = 0
# 방어적인 코드 없이 다음처럼 작성해 보자.

# text = "Life is too short, You need python."

# d = dict()
# for c in text:
#     d[c] += 1

# print(d)
# 위와 같이 작성하면 해당 키값이 없는 상태에서 += 연산을 수행하므로 다음과 같은 KeyError 오류가 발생한다.

# Traceback (most recent call last):
#   File "...", line 5, in <module>
#     d[c] += 1
# KeyError: 'L'
# 딕셔너리로 이와 같은 집계용 코드를 작성할 때는 항상 초깃값에 신경 써야 한다. 하지만, collections의 defaultdict를 사용하면 이러한 번거로움을 피할 수 있다.

# 다음은 collections의 defaultdict를 이용한 방법이다.

# [파일명: collections_defaultdict_sample.py]

# from collections import defaultdict

# text = "Life is too short, You need python."

# d = defaultdict(int)
# for c in text:
#     d[c] += 1

# print(dict(d))
# defaultdict()의 인수로 int를 전달하여 딕셔너리 d를 생성했다. int를 기준으로 생성한 딕셔너리 d의 값은 항상 0으로 자동 초기화되므로 초기화를 위한 별도의 코드가 필요 없다.

# defaultdict()의 인수로는 int 외에도 list 등 여러 자료형을 사용할 수 있다. 자세한 내용은 다음 ‘참고’ URL을 방문하여 확인하자.

# 이 코드의 출력 결과는 다음과 같다.

# c:\projects\pylib>python collections_defaultdict_sample.py
# {'L': 1, 'i': 2, 'f': 1, 'e': 3, ' ': 6, 's': 2, 't': 3, 'o': 5, 'h': 2, 'r': 1, ',': 1, 'Y': 1, 'u': 1, 'n': 2, 'd': 1, 'p': 1, 'y': 1, '.': 1}


# 참고
# ----
# collections - 컨테이너 데이터형: https://docs.python.org/ko/3/library/collections.html#collections.defaultdict
# 동영상 - https://youtube.com/shorts/BYbBcS3tdH8?feature=share

In [185]:
from collections import Counter
from collections import defaultdict

text = 'Life is too short, You need python.'

print(dict(Counter(text)))
print('-' * 70)    
    

result = {}
for char in text:
    if char not in result:
        result[char] = 0
    result[char] += 1
print(result)      
print('-' * 70)      
        

result = defaultdict(int)
for char in text:
    result[char] += 1
print(dict(result))      
print('-' * 70)      
    

{'L': 1, 'i': 2, 'f': 1, 'e': 3, ' ': 6, 's': 2, 't': 3, 'o': 5, 'h': 2, 'r': 1, ',': 1, 'Y': 1, 'u': 1, 'n': 2, 'd': 1, 'p': 1, 'y': 1, '.': 1}
----------------------------------------------------------------------
{'L': 1, 'i': 2, 'f': 1, 'e': 3, ' ': 6, 's': 2, 't': 3, 'o': 5, 'h': 2, 'r': 1, ',': 1, 'Y': 1, 'u': 1, 'n': 2, 'd': 1, 'p': 1, 'y': 1, '.': 1}
----------------------------------------------------------------------
{'L': 1, 'i': 2, 'f': 1, 'e': 3, ' ': 6, 's': 2, 't': 3, 'o': 5, 'h': 2, 'r': 1, ',': 1, 'Y': 1, 'u': 1, 'n': 2, 'd': 1, 'p': 1, 'y': 1, '.': 1}
----------------------------------------------------------------------
{'L': 1, 'i': 2, 'f': 1, 'e': 3, ' ': 6, 's': 2, 't': 3, 'o': 5, 'h': 2, 'r': 1, ',': 1, 'Y': 1, 'u': 1, 'n': 2, 'd': 1, 'p': 1, 'y': 1, '.': 1}
----------------------------------------------------------------------


## 012 수상자 3명을 선정하려면? ― heapq

In [None]:
# 012 수상자 3명을 선정하려면? ― heapq
# -----------------------------------
# heapq는 순위가 가장 높은 자료(data)를 가장 먼저 꺼내는 우선순위 큐를 구현한 모듈이다. 
# 리스트 등을 사용하여 우선순위 큐를 직접 구현하기가 어렵진 않지만, 이보다는 이런 작업에 최적화된 모듈인 heapq를 사용하자.

# 문제
# ----
# 교내 육상대회의 100m 달리기 경기 결과 다음과 같은 기록을 얻었다.

# 강보람  12.23
# 김지원  12.31
# 박시우  11.98
# 장준혁  11.99
# 차정웅  11.67
# 박중수  12.02
# 차동현  11.57
# 고미숙  12.04
# 한시우  11.92
# 이민석  12.22

# 이 결과를 바탕으로 3명에게 기록 순으로 금, 은, 동메달을 수여하고자 한다. 기록이 좋은 순서대로 3명을 자동으로 뽑는 프로그램은 어떻게 만들면 될까?

In [1]:
data = """
강보람  12.23
김지원  12.31
박시우  11.98
장준혁  11.99
차정웅  11.67
박중수  12.02
차동현  11.57
고미숙  12.04
한시우  11.92
이민석  12.22
"""

scores = []
for line in data.strip().split('\n'):
    player = []
    for word in line.split():
        player.append(word)
    scores.append(player)
new_data = dict(scores)  

print(new_data)  


print(sorted(new_data.items(), key = lambda item: item[1])[:3])
print('-'*70)

# dict sort by key
print(sorted(new_data.items()))
print(sorted(new_data.items(), key = lambda item: item[0]))
print('-'*70)

# dict decending sort by key
print(sorted(new_data.items(), reverse=True))
print(sorted(new_data.items(),key = lambda item: item[0], reverse=True))
print('-'*70)

# dict sort by value
print(sorted(new_data.items(),key = lambda item: item[1]))
print('-'*70)

# dict sort by value
print(sorted(new_data.items(),key = lambda item: item[1], reverse=True))



{'강보람': '12.23', '김지원': '12.31', '박시우': '11.98', '장준혁': '11.99', '차정웅': '11.67', '박중수': '12.02', '차동현': '11.57', '고미숙': '12.04', '한시우': '11.92', '이민석': '12.22'}
[('차동현', '11.57'), ('차정웅', '11.67'), ('한시우', '11.92')]
----------------------------------------------------------------------
[('강보람', '12.23'), ('고미숙', '12.04'), ('김지원', '12.31'), ('박시우', '11.98'), ('박중수', '12.02'), ('이민석', '12.22'), ('장준혁', '11.99'), ('차동현', '11.57'), ('차정웅', '11.67'), ('한시우', '11.92')]
[('강보람', '12.23'), ('고미숙', '12.04'), ('김지원', '12.31'), ('박시우', '11.98'), ('박중수', '12.02'), ('이민석', '12.22'), ('장준혁', '11.99'), ('차동현', '11.57'), ('차정웅', '11.67'), ('한시우', '11.92')]
----------------------------------------------------------------------
[('한시우', '11.92'), ('차정웅', '11.67'), ('차동현', '11.57'), ('장준혁', '11.99'), ('이민석', '12.22'), ('박중수', '12.02'), ('박시우', '11.98'), ('김지원', '12.31'), ('고미숙', '12.04'), ('강보람', '12.23')]
[('한시우', '11.92'), ('차정웅', '11.67'), ('차동현', '11.57'), ('장준혁', '11.99'), ('이민석', '12.22'), ('박중수', 

In [None]:
# 풀이
# ----
# 먼저 heapq를 사용한 풀이를 살펴보자.

# [파일명: heapq_sample.py]

# import heapq

# data = [
#     (12.23, "강보람"),
#     (12.31, "김지원"),
#     (11.98, "박시우"),
#     (11.99, "장준혁"),
#     (11.67, "차정웅"),
#     (12.02, "박중수"),
#     (11.57, "차동현"),
#     (12.04, "고미숙"),
#     (11.92, "한시우"),
#     (12.22, "이민석"),
# ]

# h = []  # 힙 생성
# for score in data:
#     heapq.heappush(h, score)  # 힙에 데이터 저장

# for i in range(3):
#     print(heapq.heappop(h))  # 최솟값부터 힙 반환

# 힙으로 사용할 h 변수를 빈 리스트로 생성하고 heappush()로 힙에 데이터를 추가한다. 
# 힙에 추가한 데이터는 기록(100m 달리기 성적)과 선수 이름을 쌍으로 하는 튜플 score이다. 
# 이때 heapush()로 튜플을 추가할 때는 데이터의 우선순위를 나타내는 항목이 첫 번째여야 한다. 
# 따라서 기록과 선수 이름을 쌍으로 하는 튜플은 (이름, 기록)이 아닌 (기록, 이름)으로 구성해야 한다.

# 여기서 만든 힙(h)은 별도의 힙 자료형이 아닌 힙 생성 알고리즘으로 만든 리스트이므로 heappop()을 사용할 수 있다. 
# 그러므로 heappush()로 생성하지 않은 리스트에 heappop()을 사용하는 오류는 범하지 말자.

# 이렇게 힙을 구성하면 heapq.heappop()을 이용하여 우선순위 대로 값을 꺼낼 수 있다. 
# 앞에서는 금, 은, 동메달을 수여하고자 heappop()으로 성적이 가장 좋은(가장 작은 값) 데이터 3개를 출력했다. 결과는 다음과 같다.

# c:\projects\pylib>python heapq_sample.py
# (11.57, '차동현')
# (11.67, '차정웅')
# (11.92, '한시우')

# 힙 데이터를 생성하는 부분은 다음과 같이 heapify 함수를 사용하여 간략화 할 수 있다.

# [파일명: heapq_sample.py]

# import heapq

# data = [
#     (12.23, "강보람"),
#     (12.31, "김지원"),
#     (11.98, "박시우"),
#     (11.99, "장준혁"),
#     (11.67, "차정웅"),
#     (12.02, "박중수"),
#     (11.57, "차동현"),
#     (12.04, "고미숙"),
#     (11.92, "한시우"),
#     (12.22, "이민석"),
# ]

# heapq.heapify(data)  # data를 힙 구조에 맞게 변경.

# for i in range(3):
#     print(heapq.heappop(data))  # 최솟값부터 힙 반환

# heapify() 함수로 data 리스트를 힙으로 만들었다. 이때는 data 리스트가 힙 구조에 맞게 변경된다는 점을 기억하자. 
# nsmallest() 함수를 사용하면 이 코드를 다음과 같이 더욱 간단하게 할 수 있다.

# [파일명: heapq_sample.py]

# import heapq

# data = [
#     (12.23, "강보람"),
#     (12.31, "김지원"),
#     (11.98, "박시우"),
#     (11.99, "장준혁"),
#     (11.67, "차정웅"),
#     (12.02, "박중수"),
#     (11.57, "차동현"),
#     (12.04, "고미숙"),
#     (11.92, "한시우"),
#     (12.22, "이민석"),
# ]

# print(heapq.nsmallest(3, data))
# heapq.nsmallest(n, iterable)는 반복 가능한 객체(iterable) 데이터 집합에서 n개의 가장 작은 요소로 구성된 리스트를 반환한다.

# 꼴찌부터 순위를 매긴다면 heapq.nlargest(3, data)를 사용하면 된다.

# 참고
# 우선순위 큐(위키백과)
# heapq - 힙 큐 알고리즘: https://docs.python.org/ko/3/library/heapq.html
# 동영상 - https://youtube.com/shorts/WYbDYFOkF4M?feature=share

In [9]:
import heapq

data = [
    (12.23, "강보람"),
    (12.31, "김지원"),
    (11.98, "박시우"),
    (11.99, "장준혁"),
    (11.67, "차정웅"),
    (12.02, "박중수"),
    (11.57, "차동현"),
    (12.04, "고미숙"),
    (11.92, "한시우"),
    (12.22, "이민석"),
]

h = []  # 힙 생성
for score in data:
    heapq.heappush(h, score)  # 힙에 데이터 저장

for i in range(3):
    print(heapq.heappop(h))  # 최솟값부터 힙 반환


(11.57, '차동현')
(11.67, '차정웅')
(11.92, '한시우')


In [10]:
import heapq

data = [
    (12.23, "강보람"),
    (12.31, "김지원"),
    (11.98, "박시우"),
    (11.99, "장준혁"),
    (11.67, "차정웅"),
    (12.02, "박중수"),
    (11.57, "차동현"),
    (12.04, "고미숙"),
    (11.92, "한시우"),
    (12.22, "이민석"),
]

heapq.heapify(data)  # data를 힙 구조에 맞게 변경.
print(data)

for i in range(3):
    print(heapq.heappop(data))  # 최솟값부터 힙 반환

[(11.57, '차동현'), (11.67, '차정웅'), (11.98, '박시우'), (11.92, '한시우'), (12.22, '이민석'), (12.02, '박중수'), (12.23, '강보람'), (12.04, '고미숙'), (11.99, '장준혁'), (12.31, '김지원')]
(11.57, '차동현')
(11.67, '차정웅')
(11.92, '한시우')


In [12]:
data = [
    (12.23, "강보람"),
    (12.31, "김지원"),
    (11.98, "박시우"),
    (11.99, "장준혁"),
    (11.67, "차정웅"),
    (12.02, "박중수"),
    (11.57, "차동현"),
    (12.04, "고미숙"),
    (11.92, "한시우"),
    (12.22, "이민석"),
]

print(heapq.nsmallest(3, data))

print(heapq.nlargest(3, data))



[(11.57, '차동현'), (11.67, '차정웅'), (11.92, '한시우')]
[(12.31, '김지원'), (12.23, '강보람'), (12.22, '이민석')]


In [46]:
import heapq

data = """
강보람  12.23
김지원  12.31
박시우  11.98
장준혁  11.99
차정웅  11.67
박중수  12.02
차동현  11.57
고미숙  12.04
한시우  11.92
이민석  12.22
"""
new_data = []
for line in data.strip().split('\n'):
    new_data.append([ word for word in line.split() ])

records = [ (float(aa[1]), aa[0]) for aa in new_data ]

h = []
for score in records:
    heapq.heappush(h, score)

for i in range(3):
    print(heapq.heappop(h))
print('-'*70)    


heapq.heapify(records)

for i in range(3):
    print(heapq.heappop(records))
print('-'*70)    



new_data = []
for line in data.strip().split('\n'):
    new_data.append([ word for word in line.split() ])

records = [ (float(aa[1]), aa[0]) for aa in new_data ]

print(heapq.nsmallest(3, records))
print('-'*70)    
    
print(heapq.nlargest(3, records))
print('-'*70)    

        
        

(11.57, '차동현')
(11.67, '차정웅')
(11.92, '한시우')
----------------------------------------------------------------------
(11.57, '차동현')
(11.67, '차정웅')
(11.92, '한시우')
----------------------------------------------------------------------
[(11.57, '차동현'), (11.67, '차정웅'), (11.92, '한시우')]
----------------------------------------------------------------------
[(12.31, '김지원'), (12.23, '강보람'), (12.22, '이민석')]
----------------------------------------------------------------------


## 013 데이터를 보기 좋게 출력하려면? ― pprint

In [None]:
# 013 데이터를 보기 좋게 출력하려면? ― pprint
# -----------------------------------------
# pprint는 데이터를 보기 좋게 출력(pretty print)할 때 사용하는 모듈이다.

# pprint는 'pretty print'라는 뜻이다.

# 문제
# ----
# 다음과 같이 다양한 내용으로 이루어진 result 딕셔너리가 있다고 하자.

# >>> result
# {'userId': 1, 'id': 1, 'title': 'sunt aut facere repellat provident occaecati excepturi optio reprehenderit', 'body': 'quia et suscipit\nsuscipit recusandae consequuntur expedita et cum\nreprehenderit molestiae ut ut quas totam\nnostrum rerum est autem sunt rem eveniet architecto'}
# 하지만, 이대로는 result 딕셔너리의 내용을 한눈에 알아보기 어렵다. 이 딕셔너리를 보기 좋게 출력하려면 어떻게 해야 할까?


In [55]:
result = {'userId': 1, 'id': 1, 'title': 'sunt aut facere repellat provident occaecati excepturi optio reprehenderit', 'body': 'quia et suscipit\nsuscipit recusandae consequuntur expedita et cum\nreprehenderit molestiae ut ut quas totam\nnostrum rerum est autem sunt rem eveniet architecto'}

for key, value in result.items():
    print(f'{key:>15s} {value:<}')


         userId 1
             id 1
          title sunt aut facere repellat provident occaecati excepturi optio reprehenderit
           body quia et suscipit
suscipit recusandae consequuntur expedita et cum
reprehenderit molestiae ut ut quas totam
nostrum rerum est autem sunt rem eveniet architecto


In [None]:
# 풀이
# 데이터를 보기 좋게 출력하려면 pprint()를 사용하면 된다.

# >>> import pprint
# >>> result = {'userId': 1, 'id': 1, 'title': 'sunt aut facere repellat provident occaecati excepturi optio reprehenderit', 'body': 'quia et suscipit\nsuscipit recusandae consequuntur expedita et cum\nreprehenderit molestiae ut ut quas totam\nnostrum rerum est autem sunt rem eveniet architecto'}
# >>> pprint.pprint(result)
# {'body': 'quia et suscipit\n'
#          'suscipit recusandae consequuntur expedita et cum\n'
#          'reprehenderit molestiae ut ut quas totam\n'
#          'nostrum rerum est autem sunt rem eveniet architecto',
#  'id': 1,
#  'title': 'sunt aut facere repellat provident occaecati excepturi optio '
#           'reprehenderit',
#  'userId': 1}

# 이처럼 pprint.pprint()를 사용하면 복잡한 데이터를 보기 좋게 출력할 수 있다.

# 구조가 복잡한 JSON 데이터를 디버깅 용도로 출력할 때 pprint를 자주 사용한다.

# 참고
# pprint - 예쁜 데이터 인쇄기: https://docs.python.org/ko/3/library/pprint.html
# 동영상 - https://youtube.com/shorts/YB5NgiJnPQ0?feature=share

In [56]:
import pprint

result = {'userId': 1, 'id': 1, 'title': 'sunt aut facere repellat provident occaecati excepturi optio reprehenderit', 'body': 'quia et suscipit\nsuscipit recusandae consequuntur expedita et cum\nreprehenderit molestiae ut ut quas totam\nnostrum rerum est autem sunt rem eveniet architecto'}
pprint.pprint(result)

{'body': 'quia et suscipit\n'
         'suscipit recusandae consequuntur expedita et cum\n'
         'reprehenderit molestiae ut ut quas totam\n'
         'nostrum rerum est autem sunt rem eveniet architecto',
 'id': 1,
 'title': 'sunt aut facere repellat provident occaecati excepturi optio '
          'reprehenderit',
 'userId': 1}


## 014 점수에 따른 학점을 구하려면? ― bisect

In [None]:
# 014 점수에 따른 학점을 구하려면? ― bisect
# ---------------------------------------
# bisect는 이진 탐색 알고리즘을 구현한 모듈로, bisect.bisect() 함수는 정렬된 리스트에 값을 삽입할 때 정렬을 유지할 수 있는 인덱스를 반환한다.

# 문제
# ----
# A 반의 학생 수는 모두 7명으로, 각각의 성적은 다음과 같다.

# 33, 99, 77, 70, 89, 90, 100
# 이때 다음과 같은 기준으로 성적에 대한 학점을 정한다고 할 때 A반 학생의 학점을 순서대로 구하려면 어떻게 해야 할까?

# 90점 이상: A
# 80점 이상: B
# 70점 이상: C
# 60점 이상: D
# 59점 이하: F


In [12]:
import bisect

scores = [33, 99, 77, 70, 89, 90, 100]
scores.sort()
scores

score_90_more = bisect.bisect(scores, 90)
score_80_more = bisect.bisect(scores, 80)
score_70_more = bisect.bisect(scores, 70)
score_60_more = bisect.bisect(scores, 60)

score_90_more, score_80_more, score_70_more, score_60_more 

bisect.bisect([60, 70, 80, 90], 70)


scores = [33, 99, 77, 70, 89, 90, 100]

result = []
for score in scores:
    grade = "FDCBA"[bisect.bisect([60, 70, 80, 90], score)]
    result.append(grade)
print(result)    
    

"FDCBA"[bisect.bisect([60, 70, 80, 90], 89)]    
    



['F', 'A', 'C', 'C', 'B', 'A', 'A']


'B'

In [None]:
# 풀이
# ----
# 보통 이런 문제는 if ~ else ~를 이용한 분기문으로 풀지만, bisect.bisect() 함수를 사용하면 더 우아하고 간결하게 풀 수 있다.

# 다음과 같이 코드를 작성해 보자.

# [파일명:bisect_sample.py]                    

# import bisect

# result = []
# for score in [33, 99, 77, 70, 89, 90, 100]:
#     pos = bisect.bisect([60, 70, 80, 90], score)   # 점수를 삽입할 위치 반환
#     grade = 'FDCBA'[pos]
#     result.append(grade)

# print(result)
# 이 코드를 실행하여 출력한 결과는 다음과 같다.

# c:\projects\pylib>python bisect_sample.py
# ['F', 'A', 'C', 'C', 'B', 'A', 'A']

# bisect.bisect([60, 70, 80, 90], score)에서 bisect() 함수는 [60, 70, 80, 90]을 기준으로 score를 정렬하여 삽입할 수 있는 인덱스를 반환한다. 

# 예를 들어 85점이라면 80과 90 사이인 3을 반환한다.

# 70점이나 90점같이 학점을 구분하는 점수와 같다면 bisect() 함수는 왼쪽이 아닌 오른쪽으로 삽입되는 인덱스를 반환한다.

# 그런데 학점 기준이 다음과 같이 바뀐다면 어떻게 해야 할까?

# 90점 초과: A
# 80점 초과: B
# 70점 초과: C
# 60점 초과: D
# 0~60점 : F
# 학점 기준이 이처럼 '이상'에서 '초과'로 변경된다면 80점은 B가 아닌 C가 되어야 한다. 
# 이럴 때는 다음처럼 bisect() 함수 대신 bisect_left() 함수를 사용한다.

# import bisect

# result = []
# for score in [33, 99, 77, 70, 89, 90, 100]:
#     pos = bisect.bisect_left([60, 70, 80, 90], score)
#     grade = 'FDCBA'[pos]
#     result.append(grade)

# print(result)

# 출력 결과는 다음과 같다. 성적이 70점이라면 D 학점, 90점이라면 B 학점이 된다.

# ['F', 'A', 'C', 'D', 'B', 'B', 'A']
# bisect() 함수 대신 bisect_left() 함수를 사용하면 학점을 구분하는 점수가 리스트([60, 70, 80, 90])의 요소와 같을 때(예: 70점, 90점) 
# 삽입 위치가 오른쪽이 아닌 왼쪽이 된다. 즉, 점수가 70점이라면 삽입 위치는 2가 아닌 1이 된다.

# bisect() 함수는 bisect_right() 함수와 똑같다. 그러므로 bisect() 대신 bisect_right()를 사용해도 된다.

# 알아두면 좋아요
# --------------
# bisect.insort() 함수
# bisect.insort() 함수는 정렬할 수 있는 위치에 해당 항목을 삽입한다.

# >>> import bisect
# >>> a = [60, 70, 80, 90]
# >>> bisect.insort(a, 85)
# >>> a

# [60, 70, 80, 85, 90]

# 참고
# 이진 검색 알고리즘(위키백과)
# bisect - 배열 이진 분할 알고리즘: https://docs.python.org/ko/3/library/bisect.html
# if 문 더 알아보기: https://wikidocs.net/20
# 동영상 - https://youtube.com/shorts/nMELcdmxV68?feature=share

In [24]:
# 90점 이상: A
# 80점 이상: B
# 70점 이상: C
# 60점 이상: D
# 59점 이하: F

scores = [33, 99, 77, 70, 89, 90, 100]

result = []
for score in scores:
    pos = bisect.bisect([60, 70, 80, 90], score)
    grade = 'FDCBA'[pos]
    result.append(grade)

print(result)
print('-'*70)

# -------------------------------------------------------

scores = [33, 99, 77, 70, 89, 90, 100]

result = []
for score in scores:
    pos = bisect.bisect_right([60, 70, 80, 90], score)
    grade = 'FDCBA'[pos]
    result.append(grade)

print(result)
print('-'*70)

# -------------------------------------------------------

# 90점 초과: A
# 80점 초과: B
# 70점 초과: C
# 60점 초과: D
# 0~60점 : F

scores = [33, 99, 77, 70, 89, 90, 100]

result = []
for score in scores:
    pos = bisect.bisect_left([60, 70, 80, 90], score)
    grade = 'FDCBA'[pos]
    result.append(grade)

print(result)
print('-'*70)


import bisect
a = [60, 86, 70, 60, 30, 91, 80, 75, 90, 30, 20, 80, 70, 20, 99, 91, 100, 93]
bisect.insort(a, 85)

a

['F', 'A', 'C', 'C', 'B', 'A', 'A']
----------------------------------------------------------------------
['F', 'A', 'C', 'C', 'B', 'A', 'A']
----------------------------------------------------------------------
['F', 'A', 'C', 'D', 'B', 'B', 'A']
----------------------------------------------------------------------


[60, 86, 70, 60, 30, 91, 80, 75, 90, 30, 20, 80, 70, 20, 85, 99, 91, 100, 93]

## 015 숫자에 이름을 붙여 사용하려면? ― enum

In [None]:
# 015 숫자에 이름을 붙여 사용하려면? ― enum
# enum은 서로 관련이 있는 여러 개의 상수 집합을 정의할 때 사용하는 모듈이다.

# enum 모듈은 파이썬 3.4 버전부터 사용할 수 있다.

# 문제
# 다음과 같이 날짜를 입력하면 그날의 요일에 해당하는 점심 메뉴를 반환하는 get_menu() 함수를 만들었다.

# from datetime import date


# def get_menu(input_date):
#     weekday = input_date.isoweekday()  # 1:월요일, 2:화요일, ... , 7: 일요일
#     if weekday == 1:
#         menu = "김치찌개"
#     elif weekday == 2:
#         menu = "비빔밥"
#     elif weekday == 3:
#         menu = "된장찌개"
#     elif weekday == 4:
#         menu = "불고기"
#     elif weekday == 5:
#         menu = "갈비탕"
#     elif weekday == 6:
#         menu = "라면"
#     elif weekday == 7:
#         menu = "건빵"
#     return menu


# print(get_menu(date(2021, 12, 6)))
# print(get_menu(date(2021, 12, 18)))

# 이 프로그램의 출력 결과는 다음과 같다. 예를 들어, 2021년 12월 6일은 월요일이므로 '김치찌개'를 출력하고 2021년 12월 18일은 토요일이므로 '라면'을 출력한다.

# 김치찌개
# 라면

# 하지만, 이 프로그램에서는 숫자 1~7이라는 매직넘버를 사용하여 요일을 나타냈는데, 
# 이처럼 매직넘버만 사용하면 코드를 이해하기 어렵고 가독성도 떨어지므로 이는 좋은 방법이 아니다.

# 프로그래밍에서 상수로 선언하지 않은 숫자를 매직넘버라 한다.

# 매직넘버를 없애고 더 개선된 프로그램으로 바꾸려면 어떻게 해야 할까?

# 풀이
# 이 코드는 enum 라이브러리를 사용하여 다음과 같이 이해하기 쉬운 코드로 변경할 수 있다.

# [파일명: enum_sample.py]

# from datetime import date
# from enum import IntEnum


# class Week(IntEnum):
#     MONDAY = 1
#     TUESDAY = 2
#     WEDNESDAY = 3
#     THURSDAY = 4
#     FRIDAY = 5
#     SATURDAY = 6
#     SUNDAY = 7


# def get_menu(input_date):
#     menu = {
#         Week.MONDAY: "김치찌개",
#         Week.TUESDAY: "비빔밥",
#         Week.WEDNESDAY: "된장찌개",
#         Week.THURSDAY: "불고기",
#         Week.FRIDAY: "갈비탕",
#         Week.SATURDAY: "라면",
#         Week.SUNDAY: "건빵",
#     }
#     return menu[input_date.isoweekday()]


# print(get_menu(date(2021, 12, 6)))
# print(get_menu(date(2021, 12, 18)))

# Week 클래스는 enum.IntEnum 을 상속하여 만든 Enum 자료형이다. 
# 이렇게 숫자를 바로 사용하지 않고 Enum 자료형을 만들어 상수로 사용하면 유지보수에 유리하며 가독성도 좋아진다.

# enum.IntEnum은 enum.Enum을 상속하여 만든 클래스이다.


# 알아두면 좋아요
# --------------
# Enum 자료형 활용
# enum.Enum을 상속하여 만든 Enum 자료형에는 다음처럼 name과 value 속성으로 접근할 수 있다.

# print(Week.MONDAY.name)
# print(Week.MONDAY.value)
# 출력 결과는 다음과 같다.

# MONDAY
# 1

# 그리고 다음처럼 for문으로 반복할 수도 있다.

# for week in Week:
#     print("{}:{}".format(week.name, week.value))
# 이 코드를 실행한 결과는 다음과 같다.

# MONDAY:1
# TUESDAY:2
# WEDNESDAY:3
# THURSDAY:4
# FRIDAY:5
# SATURDAY:6
# SUNDAY:7


# 참고
# 매직넘버 (위키피디어)
# enum - 열거형 지원: https://docs.python.org/ko/3/library/enum.html

In [39]:
from datetime import date
from enum import IntEnum

class Week(IntEnum):
    MONDAY    = 1
    TUESDAY   = 2
    WEDNESDAY = 3
    THURSDAY  = 4
    FRIDAY    = 5
    SATURDAY  = 6
    SUNDAY    = 7

    
def getMenu(input_date):
    
    menu = {
        Week.MONDAY    : 'a',
        Week.TUESDAY   : 'b',
        Week.WEDNESDAY : 'c',
        Week.THURSDAY  : 'd',
        Week.FRIDAY    : 'e',
        Week.SATURDAY  : 'f',
        Week.SUNDAY    : 'g',
    }    

    return menu[input_date.isoweekday()]
    
getMenu(date(2023,4,6))    

'd'

## 016 수강할 과목의 순서를 구하려면? ― graphlib.TopologicalSorter

In [None]:
# 016 수강할 과목의 순서를 구하려면? ― graphlib.TopologicalSorter
# -------------------------------------------------------------
# graphlib.TopologicalSorter는 위상 정렬에 사용하는 클래스이다.

# 파이썬 3.9 버전 이상부터 사용할 수 있다.

# 알아두면 좋아요

# 위상 정렬이란?
# ------------
# 위상 정렬(topological sorting)은 유향 그래프의 꼭짓점(vertex)을 변의 방향을 거스르지 않도록 나열하는 것을 의미한다. 
# 위상 정렬을 가장 잘 설명해 줄 수 있는 예로는 대학의 선수 과목(prerequisite) 구조를 들 수 있다. 
# 특정 수강 과목에 선수 과목이 있다면 그 선수 과목부터 수강해야 하므로 특정 과목을 수강해야 할 때 위상 정렬을 통해 올바른 수강 순서를 찾아낼 수 있다.
# 이와 같이 선후 관계가 정의된 그래프 구조에서 선후 관계에 따라 정렬하고자 위상 정렬을 이용한다. 
# 정렬 순서는 유향 그래프의 구조에 따라 여러 종류가 있을 수 있다. 
# 위상 정렬이 성립하려면 그래프 순환이 없어야 한다. 즉, 그래프가 비순환 유향 그래프(directed acyclic graph)여야 한다.

# ※ 출처: 위키백과 - 위상 정렬 [웹사이트]. URL: https://ko.wikipedia.org/wiki/위상정렬


# 문제
# ----
# 영어에 관심이 많은 A 학생은 다음과 같은 5개의 영어 수업을 모두 수강하고자 한다.

# 영어 초급, 영어 중급, 영어 고급, 영어 문법, 영어 회화

# 그런데 각 과목에는 선수 과목이 있어서 순서에 따라 수강해야 한다고 한다. 선수 과목 규칙은 다음과 같다.

# 규칙1: 영어 초급 → 영어 중급 → 영어 고급
# 규칙2: 영어 중급 → 영어 문법 → 영어 고급
# 규칙3: 영어 문법 → 영어 회화

# 즉, 영어 고급을 들으려면 영어 중급과 영어 문법을 모두 들어야 하고 영어 중급을 수강하려면 영어 초급을 먼저 들어야 한다. 
# 이 조건을 이용하여 A 학생이 수강해야 할 5개 과목의 수강 순서를 올바르게 구하는 프로그램을 만들려면 어떻게 해야 할까?


In [None]:
# 풀이
# 앞서 본 영어 수업의 선수 과목을 나타낸 그림은 다음과 같다.


# 파이썬이 제공하는 graphlib의 TopologicalSorter를 사용하면 이 문제를 쉽게 풀 수 있다.

# [파일명: topologicalsorter_sample.py]

# from graphlib import TopologicalSorter

# ts = TopologicalSorter()

# # 규칙1
# ts.add('영어 중급', '영어 초급')  # 영어 중급의 선수과목은 영어 초급
# ts.add('영어 고급', '영어 중급')  # 영어 고급의 선수과목은 영어 중급

# # 규칙2
# ts.add('영어 문법', '영어 중급')  # 영어 문법의 선수과목은 영어 중급
# ts.add('영어 고급', '영어 문법')  # 영어 고급의 선수과목은 영어 문법

# # 규칙3
# ts.add('영어 회화', '영어 문법')  # 영어 회화의 선수과목은 영어 문법

# print(list(ts.static_order()))  # 위상 정렬한 결과를 출력
# 출력 결과는 다음과 같으므로 A 학생은 다음 순서대로 수강하면 된다.

# c:\projects\pylib>python topologicalsorter_sample.py
# ['영어 초급', '영어 중급', '영어 문법', '영어 고급', '영어 회화']
# add(노드, *선행_노드) 함수는 특정 노드에 선행 노드를 추가할 때 사용하는 함수이다. 선행 노드는 1개 이상도 지정할 수 있다. 
# 즉, 앞의 예에서 '영어 고급' 노드의 선행 노드는 '영어 중급', '영어 문법' 2개이므로 다음과 같이 사용해도 된다.

# ts.add('영어 고급', '영어 중급', '영어 문법') # 영어 고급의 선수 과목은 영어 중급과 영어 문법
# 위상 정렬에서는 한 가지 주의해야 할 점이 있다. 
# 만약 규칙 3이 '영어 문법 → 영어 회화'가 아니라 '영어 문법 → 영어 회화 → 영어 중급' 순으로 바뀐다면 
# 다음과 같은 모습이 되어 [영어 중급, 영어 문법, 영어 회화] 구간이 순환하게 된다.



# 이럴 때는 다음과 같이 순환 오류(CycleError)가 발생하게 된다.

# graphlib.CycleError: ('nodes are in a cycle', ['영어 중급', '영어 문법', '영어 회화', '영어 중급'])
# 참고
# 위상정렬(위키백과)

# graphlib - 그래프와 유사한 구조에 작동하는 기능: https://docs.python.org/ko/3/library/graphlib.html

In [45]:
from graphlib import TopologicalSorter

ts = TopologicalSorter()

# ts.add('영어 고급', '영어 중급', '영업 문법')
# ts.add('영어 중급', '영어 초급')
# ts.add('영어 문법', '영어 중급')
# ts.add('영어 회화', '영업 문법')
ts.add('영어 중급', '영어 초급')
ts.add('영어 고급', '영어 중급')
ts.add('영어 문법', '영어 중급')
ts.add('영어 고급', '영어 문법')
ts.add('영어 회화', '영어 문법')

print(list(ts.static_order()))

ts1 = TopologicalSorter()
ts1.add('영어 고급', '영어 중급', '영어 문법')
ts1.add('영어 중급', '영어 초급')
ts1.add('영어 문법', '영어 중급')
ts1.add('영어 회화', '영어 문법')

print(list(ts1.static_order()))


['영어 초급', '영어 중급', '영어 문법', '영어 고급', '영어 회화']
['영어 초급', '영어 중급', '영어 문법', '영어 고급', '영어 회화']
