## 다양한 데이터 다루기

### 날짜로 요일 표시 = datetime.date

In [1]:
import datetime

In [2]:
datetime.date(2024, 12, 31)

datetime.date(2024, 12, 31)

In [4]:
datediff = datetime.date(2024, 12, 31) - datetime.date(2024, 1, 1)

In [5]:
datediff

datetime.timedelta(days=365)

In [6]:
datediff.days

365

In [8]:
curr_day = datetime.datetime(2024, 12, 31, 20, 38, 34)

In [9]:
curr_day.year

2024

In [10]:
curr_day.month

12

In [11]:
curr_day.day

31

#### 요일확인
- 0(월요일) ~ 6(일요일)

In [12]:
curr_day.weekday()

1

- 1(월요일) ~ 7(일요일)

In [13]:
curr_day.isoweekday()

2

### 두 날짜의 차이 - datetime.timedelta
- weeks부터 microseconds까지

In [17]:
diff_week = datetime.timedelta(weeks=8)

In [18]:
curr_day + diff_week

datetime.datetime(2025, 2, 25, 20, 38, 34)

In [19]:
curr_day - diff_week

datetime.datetime(2024, 11, 5, 20, 38, 34)

### 윤년 파악 - calendar.isleap

#### 그레고리력에서 윤년을 정하는 규칙
- 서력 기원 연수가 4로 나누어 떨어지는 해는 우선 윤년
- 그중에서 100으로 나누어 떨어지는 해는 평년
- 400으로 나누어 떨어지는 해는 윤년

In [20]:
def is_leap_year(year):
    if year % 400 == 0: 
        return True
    if year % 100 == 0: 
        return False
    if year % 4 == 0: 
        return True
    return False

- 이미 calendar 모듈에 isleap() 함수 존재

In [23]:
import calendar as cal

In [22]:
is_leap_year(2024)

True

In [24]:
cal.isleap(2024)

True

In [25]:
cal.isleap(2025)

False

### 데크(큐?) - collections.deque
- 앞뒤에 데이터를 넣고 뺄 수 있는 자료구조

In [26]:
from collections import deque

In [27]:
a = [1,2,3,4,5]

In [28]:
deq = deque(a)

In [29]:
deq.append(6)

In [30]:
deq

deque([1, 2, 3, 4, 5, 6])

In [31]:
deq.rotate(3) # 양수는 시계방향 회전, 음수는 반시계방향 회전

In [32]:
deq

deque([4, 5, 6, 1, 2, 3])

In [33]:
deq.appendleft(2)

In [34]:
deq

deque([2, 4, 5, 6, 1, 2, 3])

In [35]:
deq.pop()

3

In [36]:
deq.popleft()

2

In [37]:
deq

deque([4, 5, 6, 1, 2])

In [38]:
deq.pop()

2

In [39]:
deq.pop()

1

In [40]:
deq

deque([4, 5, 6])

In [42]:
b = list(deq)

In [43]:
b

[4, 5, 6]

### 데이터에 이름 붙이기 - collections.namedtuple

In [44]:
# 기존 튜플
data = [
    ('홍길동', 19, '01099990000'),
    ('홍길순', 17, '01088887777'),
    ('고영희', 13, '01098985022'),    
]

In [45]:
emp = data[2]

In [46]:
emp.name

AttributeError: 'tuple' object has no attribute 'name'

#### 라이브러리 추가

In [47]:
from collections import namedtuple

In [48]:
Employees = namedtuple('Employee', 'name, age, phone')

In [49]:
data = [Employees._make(emp) for emp in data]

In [50]:
emp = data[0]

In [51]:
emp.name

'홍길동'

In [52]:
emp.age

19

In [53]:
emp.phone

'01099990000'

In [54]:
emp

Employee(name='홍길동', age=19, phone='01099990000')

In [55]:
emp._asdict()

{'name': '홍길동', 'age': 19, 'phone': '01099990000'}

In [56]:
new_emp = emp._replace(phone='01011119999')

In [57]:
new_emp

Employee(name='홍길동', age=19, phone='01011119999')

### 사용한 단어개수 체크 - collections.Counter

In [58]:
from collections import Counter
import re

In [81]:
data = '''
산에는 꽃 피네.
꽃이 피네.
갈 봄 여름없이
꽃이 피네.

산에
산에
피는 꽃은
저만치 혼자서 피어있네.

산에서 우는 새여
꽃이 좋아
산에서
사노라네.

산에는 꽃지네
꽃이 지네.
갈 봄 여름 없이
꽃이 지네.
'''

In [82]:
words = re.findall(r'\w+', data)
counter = Counter(words)
print(counter.most_common(1))

[('꽃이', 5)]


In [83]:
counter

Counter({'꽃이': 5,
         '피네': 3,
         '산에는': 2,
         '갈': 2,
         '봄': 2,
         '산에': 2,
         '산에서': 2,
         '지네': 2,
         '꽃': 1,
         '여름없이': 1,
         '피는': 1,
         '꽃은': 1,
         '저만치': 1,
         '혼자서': 1,
         '피어있네': 1,
         '우는': 1,
         '새여': 1,
         '좋아': 1,
         '사노라네': 1,
         '꽃지네': 1,
         '여름': 1,
         '없이': 1})

### 수장자 3명 선정 - heapq

- 학교 100미터 달리기 기록

In [62]:
import heapq

In [63]:
data = [
    (12.23, '강보람'),
    (12.31, '김지원'),
    (11.98, '박시우'),
    (11.99, '장준혁'),
    (11.67, '차정웅'),
    (12.02, '박중수'),
    (11.57, '차동현'),
    (12.04, '고미숙'),
    (11.92, '한시우'),
    (12.22, '이민석'),
]

h = []  # 힙 생성
for score in data:
    heapq.heappush(h, score)  # 힙에 데이터 저장

for i in range(3):
    print(heapq.heappop(h))  # 최솟값부터 힙 반환

(11.57, '차동현')
(11.67, '차정웅')
(11.92, '한시우')


In [64]:
heapq.heapify(data)  # data를 힙 구조에 맞게 변경.

for i in range(3):
    print(heapq.heappop(data))  # 최솟값부터 힙 반환- 값이 빠진다(!)

(11.57, '차동현')
(11.67, '차정웅')
(11.92, '한시우')


In [None]:
data = [
    (12.23, '강보람'),
    (12.31, '김지원'),
    (11.98, '박시우'),
    (11.99, '장준혁'),
    (11.67, '차정웅'),
    (12.02, '박중수'),
    (11.57, '차동현'),
    (12.04, '고미숙'),
    (11.92, '한시우'),
    (12.22, '이민석'),
]

heapq.heapify(data)  # data를 힙 구조에 맞게 변경.

In [70]:
print(heapq.nsmallest(3, data))

[(11.57, '차동현'), (11.67, '차정웅'), (11.92, '한시우')]


### 데이터 예쁘게 출력 - pprint
- Pretty Print

In [73]:
from pprint import pprint

In [72]:
result = {'userId': 1, 'id': 1, 'title': 'sunt aut facere repellat provident occaecati excepturi optio reprehenderit', 'body': 'quia et suscipit\nsuscipit recusandae consequuntur expedita et cum\nreprehenderit molestiae ut ut quas totam\nnostrum rerum est autem sunt rem eveniet architecto'}

In [74]:
pprint(result)

{'body': 'quia et suscipit\n'
         'suscipit recusandae consequuntur expedita et cum\n'
         'reprehenderit molestiae ut ut quas totam\n'
         'nostrum rerum est autem sunt rem eveniet architecto',
 'id': 1,
 'title': 'sunt aut facere repellat provident occaecati excepturi optio '
          'reprehenderit',
 'userId': 1}


- 구조가 복잡한 JSON 데이터를 디버깅 용도로 출력할 때 pprint 사용

### 점수에 따른 학점 구하기 - bisect
- 90점 이상: A
- 80점 이상: B
- 70점 이상: C
- 60점 이상: D
- 59점 이하: F

In [75]:
import bisect

In [76]:
result = []
for score in [33, 99, 77, 70, 89, 90, 100]:
    pos = bisect.bisect_left([60, 70, 80, 90], score)
    grade = 'FDCBA'[pos]
    result.append(grade)

print(result)

['F', 'A', 'C', 'D', 'B', 'B', 'A']


### 상수값 처리 - enum

In [77]:
from datetime import date
from enum import IntEnum

In [78]:
class Week(IntEnum):
    MONDAY = 1
    TUESDAY = 2
    WEDNESDAY = 3
    THURSDAY = 4
    FRIDAY = 5
    SATURDAY = 6
    SUNDAY = 7

In [84]:
def get_menu(input_date):
    menu = {
        Week.MONDAY: '김치찌개',
        Week.TUESDAY: '비빔밥',
        Week.WEDNESDAY: '된장찌개',
        Week.THURSDAY: '불고기',
        Week.FRIDAY: '갈비탕',
        Week.SATURDAY: '라면',
        Week.SUNDAY: '짜파게티',
    }
    return menu[input_date.isoweekday()]


In [88]:
get_menu(date(2025, 1, 5))

'짜파게티'

### 수강할 과목의 순서 -  graphlib.TopologicalSorter
- 위상정렬 클래스

In [89]:
from graphlib import TopologicalSorter

In [90]:
ts = TopologicalSorter()

In [93]:
# 규칙1
ts.add('영어 중급', '영어 초급')  # 영어 중급의 선수과목은 영어 초급
ts.add('영어 고급', '영어 중급')  # 영어 고급의 선수과목은 영어 중급

In [92]:
# 규칙2
ts.add('영어 문법', '영어 중급')  # 영어 문법의 선수과목은 영어 중급
ts.add('영어 고급', '영어 문법')  # 영어 고급의 선수과목은 영어 문법

In [94]:
# 규칙3
ts.add('영어 회화', '영어 문법')  # 영어 회화의 선수과목은 영어 문법

In [95]:
ts.static_order()

<generator object TopologicalSorter.static_order at 0x000001B0A3764790>

In [96]:
list(ts.static_order())

['영어 초급', '영어 중급', '영어 문법', '영어 고급', '영어 회화']

- 정렬관계가 꼬이면 CycleError 발생