<a href="https://colab.research.google.com/github/Seoyoung0519/DataStructures_Assignment06/blob/main/Assignment06.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 수행 과제 3

In [2]:
import pandas as pd
import datetime

# GitHub에서 CSV 불러오기
url = "https://github.com/Seoyoung0519/DataStructures_Assignment06/raw/refs/heads/main/birthday.csv"
df = pd.read_csv(url, encoding='cp949')

# 생년월일 컬럼 정제
df.columns = df.columns.str.strip()
df['생년월일8자리(예.20040101)'] = df['생년월일8자리(예.20040101)'].fillna(0).astype(int)

# 날짜 유효성 검사
def is_valid_date(date_int):
    try:
        date_str = str(date_int)
        if len(date_str) != 8:
            return False
        year = int(date_str[:4])
        month = int(date_str[4:6])
        day = int(date_str[6:8])
        datetime.datetime(year, month, day)
        return True
    except:
        return False

# Heap 클래스
class Heap:
    def __init__(self, *args):
        self.__A = args[0] if args else []

    def insert(self, x):
        self.__A.append(x)
        self.__percolateUp(len(self.__A) - 1)

    def __percolateUp(self, i):
        parent = (i - 1) // 2
        if i > 0 and self.__A[i] > self.__A[parent]:
            self.__A[i], self.__A[parent] = self.__A[parent], self.__A[i]
            self.__percolateUp(parent)

    def deleteMax(self):
        if self.isEmpty():
            return None
        max_item = self.__A[0]
        self.__A[0] = self.__A.pop()
        self.__percolateDown(0)
        return max_item

    def __percolateDown(self, i):
        child = 2 * i + 1
        right = 2 * i + 2
        if child <= len(self.__A) - 1:
            if right <= len(self.__A) - 1 and self.__A[child] < self.__A[right]:
                child = right
            if self.__A[i] < self.__A[child]:
                self.__A[i], self.__A[child] = self.__A[child], self.__A[i]
                self.__percolateDown(child)

    def isEmpty(self):
        return len(self.__A) == 0

    def size(self):
        return len(self.__A)

# 힙 생성 및 유효한 생일만 삽입
heap = Heap()
for _, row in df.iterrows():
    name = row['이름']
    birth = int(row['생년월일8자리(예.20040101)'])
    if is_valid_date(birth):
        heap.insert((birth, name))

# 생일이 늦은 친구 10명 출력
for i in range(min(10, heap.size())):
    birth, name = heap.deleteMax()
    print(f"이름: {name}, 생년월일: {birth}")


이름: 신수민, 생년월일: 20051230
이름: 이서영, 생년월일: 20051225
이름: 강민주, 생년월일: 20051214
이름: 김민경, 생년월일: 20051202
이름: 이서영, 생년월일: 20051112
이름: 배시은, 생년월일: 20051102
이름: 김여원, 생년월일: 20051031
이름: 이서진, 생년월일: 20051028
이름: 서홍빈, 생년월일: 20051024
이름: 김예빈, 생년월일: 20051019


# 수행 과제 4


In [1]:
import pandas as pd
import datetime

class BidirectNode:
  def __init__(self, x, prevNode: 'BidirectNode', nextNode: 'BidirectNode'):
    self.item = x
    self.prev = prevNode
    self.next = nextNode

class CircularDoublyLinkedList:
	def __init__(self):
		self.__head = BidirectNode("dummy", None, None)
		self.__head.prev = self.__head
		self.__head.next = self.__head
		self.__numItems = 0

	def insert(self, i:int, newItem) -> None:
		if (i >= 0 and i <= self.__numItems):
			prev = self.getNode(i - 1)
			newNode = BidirectNode(newItem, prev, prev.next)
			newNode.next.prev = newNode
			prev.next = newNode
			self.__numItems += 1
		else:
			print("index", i, ": out of bound in insert()") # 필요 시 에러 처리

	def append(self, newItem) -> None:
		prev = self.__head.prev
		newNode = BidirectNode(newItem, prev, self.__head)
		prev.next = newNode
		self.__head.prev = newNode
		self.__numItems += 1

	def pop(self, *args):
		# 가변 파라미터. 인자가 없거나 -1이면 마지막 원소로 처리하기 위함. 파이썬 리스트 규칙 만족
		if self.isEmpty():
			return None
		# 인덱스 i 결정
		if len(args) != 0: # pop(k)과 같이 인자가 있으면 i = k 할당
			i = args[0]
		if len(args) == 0 or i == -1:# pop()에 인자가 없거나 pop(-1)이면 i에 맨 끝 인덱스 할당
			i = self.__numItems - 1
		# i번 원소 삭제
		if (i >= 0 and i <= self.__numItems - 1):
			curr = self.getNode(i)
			retItem = curr.item
			curr.prev.next = curr.next
			curr.next.prev = curr.prev
			self.__numItems -= 1
			return retItem
		else:
			return None

	def remove(self, x):
		curr = self.__findNode(x)
		if curr != None:
			curr.prev.next = curr.next
			curr.next.prev = curr.prev
			self.__numItems -= 1
			return x
		else:
			return None

	def get(self, *args):
		# 가변 파라미터. 인자가 없거나 -1이면 마지막 원소로 처리하기 위함. 파이썬 리스트 규칙 만족
		if self.isEmpty(): return None
		# 인덱스 i 결정
		if len(args) != 0:   # pop(k)과 같이 인자가 있으면 i = k 할당
			i = args[0]
		if len(args) == 0 or i == -1: # pop()에 인자가 없거나 pop(-1)이면 i에 맨 끝 인덱스 할당
		  i = self.__numItems - 1
		# i번 원소 리턴
		if (i >= 0 and i <= self.__numItems - 1):
			return self.getNode(i).item
		else:
			return None

	def index(self, x) -> int:
		cnt = 0
		for element in self:
			if element == x:
				return cnt
			cnt += 1
		return -12345

	def isEmpty(self) -> bool:
		return self.__numItems == 0

	def size(self) -> int:
		return self.__numItems

	def clear(self):
		self.__head = BidirectNode("dummy", None, None)
		self.__head.prev = self.__head
		self.__head.next = self.__head
		self.__numItems = 0

	def count(self, x) -> int:
		cnt = 0
		for element in self:
			if element == x:
					cnt += 1
		return cnt

	def extend(self, a): # a는 순회 가능한 모든 객체
		for element in a:
			self.append(element)

	def copy(self) -> 'CircularDoublyLinkedList':
		a = CircularDoublyLinkedList()
		for element in self:
			a.append(element)
		return a

	def reverse(self) -> None:
		prev = self.__head; curr = prev.next; next = curr.next
		self.__head.next = prev.prev; self.__head.prev = curr
		for i in range(self.__numItems):
			curr.next = prev; curr.prev = next
			prev = curr; curr = next; next = next.next

	def sort(self) -> None:
		a = []
		for element in self:
			a.append(element)
		a.sort()
		self.clear()
		for element in a:
			self.append(element)

	def __findNode(self, x) -> BidirectNode:
		curr = self.__head.next  # 0번 노드
		while curr != self.__head:

			if curr.item == x:
				return curr
			else:
				curr = curr.next
		return None

	def getNode(self, i:int) -> BidirectNode:
		curr = self.__head  # 더미 헤드, index: -1
		for index in range(i + 1):
			curr = curr.next
		return curr

	def printList(self) -> None:
		for element in self:
			print(element, end = ' ')
		print()

	def __iter__(self):  # generating iterator and return
		return CircularDoublyLinkedListIterator(self) # Corrected indentation here

class CircularDoublyLinkedListIterator:
	def __init__(self, alist):
		self.__head = alist.getNode(-1)  		# 더미 헤드
		self.iterPosition = self.__head.next  	# 0번 노드
	def __next__(self):
		if self.iterPosition == self.__head: 	# 순환 끝
			raise StopIteration
		else: # 현재 원소를 리턴하면서 다음 원소로 이동
			item = self.iterPosition.item
			self.iterPosition = self.iterPosition.next
			return item

# 생일 데이터 로딩 (GitHub raw 링크 사용!)
url = 'https://github.com/Seoyoung0519/DataStructures_Assignment06/raw/refs/heads/main/birthday.csv'
df = pd.read_csv(url, encoding='cp949')
df.columns = df.columns.str.strip()
df['생년월일8자리(예.20040101)'] = df['생년월일8자리(예.20040101)'].fillna(0).astype(int)

# CircularDoublyLinkedList 인스턴스 생성
cdll = CircularDoublyLinkedList()

# 리스트에 (이름, 생일) 튜플 삽입
for _, row in df.iterrows():
    name = row['이름']
    birth = int(row['생년월일8자리(예.20040101)'])
    cdll.append((name, birth))

# 출력할 친구 리스트
target_names = [
    '조예진', '김주영', '오다현', '이진서', '김여원', '김수련', '김민영',
    '윤서영', '허재희', '김다연', '안소형', '주민진', '김도경', '홍지연', '김채린'
]

# 출력
for item in cdll:
    name, birth = item
    if name in target_names:
        print(f"이름: {name}, 생년월일: {birth}")


이름: 김다연, 생년월일: 20030304
이름: 김도경, 생년월일: 20050923
이름: 김민영, 생년월일: 20040210
이름: 김수련, 생년월일: 20030110
이름: 김여원, 생년월일: 20051031
이름: 김주영, 생년월일: 20000922
이름: 김채린, 생년월일: 20050123
이름: 안소형, 생년월일: 20031022
이름: 오다현, 생년월일: 20020505
이름: 윤서영, 생년월일: 20050519
이름: 이진서, 생년월일: 20040327
이름: 조예진, 생년월일: 20040509
이름: 허재희, 생년월일: 20050621
이름: 홍지연, 생년월일: 20050203


# 수행 과제 5: [Chapter08.우선순위 큐] 연습문제

##01

임의의 최대 힙에서 더 얕은 곳에 있는 원소가 더 깊은 곳에 있는 원소보다 더 작은 값을 가질 수 있다.

---



부모 노드와 자식노드의 관계에서는 부모 노드의 값이 자식 노드의 값보다 항상 크거나 같아야 하지만 그 외 예를 들어 특정 노드와 해당 노드의 형제 노드에 대한 자식 노드 사이에는 부모와 자식 노드처럼 제약이 없다.
예를 들어보면, heap[1] = 7, heap[2] = 10, heap[5] = 9인 힙이 있다. heap[1]과 heap[2]는 깊이가 같고, heap[5]는 heap[1]보다 깊이가 깊지만 값은 작다. heap[5]는 heap[2]의 자식 노드로, heap[2] > heap[5]이기 때문에 힙의 조건을 만족한다.

##02

최대 힙의 마지막 원소가 항상 가장 작은 값은 아니다.


---


예를 들어 heap[0] = 10, heap[1] = 7, heap[2] = 9이고 이 두 노드가 말단 노드인 힙이 있다고 한다. 이 힙은 heap[0] > heap[1], heap[0] > heap[2]가 되어 힙의 조건을 만족하는데 heap[n-2] < heap[n-1]이기 때문에 힙의 마지막 원소가 가장 작은 값이 아니다.

##03

(n-1)-(n-2)//2개

---


길이가 n인 임의의 리스트를 힙으로 만들 때, 마지막 요소의 인덱스는 n-1이다. 따라서 인덱스가 (n-2)//2부터 0까지의 인덱스를 갖는 요소를 대상으로 스며내리기를 진행한다.
즉, 루트의 자격으로 스며내리기를 할지 알아보지 않고 그냥 넘어가는 원소 수는 정확하게 (n-1)-(n-2)//2개이다.

##04

길이가 n인 리스트를 대상으로 하는 스며내리기 알고리즘에서 최악의 경우 Θ(logn)의 시간이 소요되고 최선의 경우에는 Θ(1)의 시간이 소요된다.


##05

힙의 맨 마지막 원소를 삭제하는 작업은 매우 간단하다.

---



힙에서 일반적인 삭제인 루트 노드의 원소 삭제 과정은 마지막 원소를 루트로 옮기고 heapify를 필요로 하여 O(log n)의 시간복잡도를 갖는다.

그러나 힙에서 맨 마지막 원소를 삭제한다면 단순히 배열의 마지막 원소 제거하는 것이기 때문에 별도의 재정렬을 할 필요가 없으며 O(1)의 시간복잡도를 갖는다.

##06

위쪽에서 시작하여 스며오르기를 반복하는 방법은 Θ(nlogn), 아래쪽에서부터 시작해서 스며내리기를 반복하는 방법(본문에서 제시한 방법)은 Θ(n)의 시간이 소요된다. 따라서 위쪽에서 시작하여 스며오르기를 반복하는 방법은 본문에 제시한 방법에 비해 효율적이지 않다.


---



위쪽부터 시작해서 스며오르기를 반복하여 buildHeap() 알고리즘을 구현한다고 해보자. index가 0인 요소에는 이미 맨 위의 요소이므로 스며오르기를 할 수 없다. 따라서 index가 1인 요소부터 index가 n-1(마지막)인 요소까지 진행한다. 처음 스며오르기를 진행할 땐 대상 노드의 깊이가 얕기 때문에 비교와 교체 작업이 많지 않지만, index가 커질수록 대상 노드의 깊이가 깊어져 스며오르기를 logn번 진행해야 할 수도 있다.
n/2 * logn + n/4 * log(n-1) + n/8 * log(n-2) + ... + n/(2**(n-1)) * log2
즉, Θ(nlogn)의 시간이 소요된다.
이 방법은 Θ(n)의 시간이 소요되는 스며내리기를 이용한 build_heap() 알고리즘보다 비효율적이다.

##07

최대 힙 내에서 임의의 원소의 값이 증가하였을 때, 부모 노드보다 증가한 원소 값이 더 커졌을 수도 있기 때문에 Percolate Up (스며오르기) 과정을 수행한다. 즉, 부모 노드보다 값이 크면 교환을 반복하고 부모 노드보다 더이상 크지 않아 힙을 만족하면 해당 과정을 멈춘다.
이때, 최악의 경우 값이 증가한 노드가 루트까지 이동하기 때문에 O(log n) 시간이 소요된다.
따라서 O(logn) 시간에 변화를 반영하여 힙을 수선할 수 있다.

# 수행 과제 6: [LeetCode 703.Kth Largest Element in Stream]

In [45]:
class KthLargest:

    def __init__(self, k: int, nums: List[int]):
        self.k = k
        self.heap = nums
        heapq.heapify(self.heap)
        while len(self.heap) > k:
            heapq.heappop(self.heap)


    def add(self, val: int) -> int:
        heapq.heappush(self.heap, val)
        if len(self.heap) > self.k:
            heapq.heappop(self.heap)
        return self.heap[0]


# Your KthLargest object will be instantiated and called as such:
# obj = KthLargest(k, nums)
# param_1 = obj.add(val)