### <b>자료구조를 이용해 수만 개의 데이터를 다루어 보기</b>

* <b>수만 개</b>의 데이터를 생성하여, 자료구조에 데이터를 <b>삽입/수정/삭제</b>하면서 시간을 측정해 볼 수 있다.

In [None]:
import random
import numpy as np
import pandas as pd

import heapq
import time

#### <b>학생 정보 데이터 세트 만들기</b>

* 학교에서는 학생 정보 관리 프로그램이 사용될 수 있다.
* <b>가상의 학생 정보</b>를 생성하여, 파일 형태로 저장해 보자.

#### <b>1. 이름 데이터 생성 함수</b>

* <b>성(last name)</b>과 <b>이름(first name)</b>을 30개씩 준비한다.
  * 가능한 조합은 <b>30 * 30 = 900개</b>이다.

In [None]:
last_names = [
    "Smith", "Johnson", "Williams", "Jones", "Brown",
    "Davis", "Miller", "Wilson", "Moore", "Taylor",
    "Anderson", "Thomas", "Jackson", "White", "Harris",
    "Martin", "Thompson", "Garcia", "Martinez", "Robinson",
    "Clark", "Rodriguez", "Lewis", "Lee", "Walker",
    "Hall", "Allen", "Young", "Hernandez", "King"
]

first_names = [
    "James", "Mary", "Robert", "Patricia"	, "John",
    "Jennifer", "Michael", "Linda", "David", "Elizabeth",
    "William", "Barbara", "Richard", "Susan", "Joseph",
    "Jessica", "Thomas", "Sarah", "Charles", "Karen",
    "Christopher", "Lisa", "Daniel", "Nancy", "Matthew",
    "Betty", "Anthony", "Margaret", "Mark", "Sandra"
]

def generate_name():
    # 랜덤으로 하나의 성(last name) 추출
    last_name = random.choice(last_names)
    # 랜덤으로 하나의 이름(first name) 추출
    first_name = random.choice(first_names)
    return first_name + " " + last_name

print(f"Student name: {generate_name()}")

Student name: Anthony Walker


#### <b>2. 학과, 성적, 학년 데이터 생성 함수</b>

* 5개의 <b>학과</b>를 준비한다.
* <b>성적</b>은 평균(mean)이 50점, 표준편차가 10점인 정규 분포를 따른다고 가정한다.
* 3개의 <b>학년</b>을 준비한다.

In [None]:
departments = [
    "Computer Science",
    "Mechanical Engineering",
    "Biomedical Engineering",
    "Radiology",
    "Psychology"
]

def genearte_department():
    # 랜덤으로 하나의 학과(department) 추출
    return random.choice(departments)

mu = 50
sigma = 10

def generate_score():
    # 랜덤으로 하나의 성적(score) 추출
    return np.random.normal(mu, sigma, 1)[0]

grades = [1, 2, 3]

def generate_grades():
    # 랜덤으로 하나의 학년(grade) 추출
    return random.choice(grades)

#### <b>3. 학생 정보 생성 함수</b>

* 실질적으로 학생 정보를 20,000건 생성한다.
* 생성한 20,000 건의 학생 데이터는 <b>판다스(Pandas)</b>의 <b>데이터프레임(dataframe)</b> 형태로 저장한다.

In [None]:
# 학생 정보 생성 함수
def generate_student():
    name = generate_name()
    department = genearte_department()
    score = generate_score()
    grade = generate_grades()

    return name, department, score, grade

# 20,000 건의 학생 데이터 생성 (학번, 이름, 학과, 성적, 학년)
students = []
cnt = 20000
for id in range(1, cnt + 1):
    name, department, score, grade = generate_student()
    students.append((id, name, department, score, grade))

df = pd.DataFrame(students, columns=["id", "name", "department", "score", "grade"])
df.to_csv("students.csv") # 학생 데이터를 엑셀 파일(.csv) 형태로 저장
df.head()

Unnamed: 0,id,name,department,score,grade
0,1,Elizabeth Brown,Radiology,63.775645,1
1,2,Betty Lee,Biomedical Engineering,59.286032,1
2,3,Joseph Clark,Psychology,28.352915,2
3,4,James Wilson,Psychology,63.829536,1
4,5,Susan Jones,Radiology,45.895009,3


#### <b>힙(Heap) 자료구조 사용해보기</b>

* <b>힙(heap)</b> 자료구조에 학생의 데이터를 성적순으로 삽입하여 관리해보자.
* 가장 성적이 낮은 100명의 정보를 추출해보자.
* 이어서 가장 성적이 낮은 10,000명의 정보를 추출해보자.

In [None]:
start_time = time.time()

heap = []
df = pd.read_csv("students.csv")

for index, row in df.iterrows():
    id = row["id"]
    name = row["name"]
    department = row["department"]
    score = row["score"]
    grade = row["grade"]
    student = (score, (id, name, department, score, grade))
    heapq.heappush(heap, student)

print(f"Data inserted ({time.time() - start_time:.4f} seconds.)")

# 가장 작은 100개 추출
smallest = []
for i in range(100):
    element = heapq.heappop(heap)
    smallest.append(element)

print("[The five smallest scores]")
for small in smallest[:5]:
    print(small[1])

# 점수가 작은 순서대로 10,000 건의 학생 데이터 추출
for i in range(10000):
    heapq.heappop(heap)
print(f"Data deleted ({time.time() - start_time:.4f} seconds.)")

# 남은 원소 중에서 가장 점수가 낮은 학생 정보 출력
print(heap[0])

Data inserted (1.2890 seconds.)
[The five smallest scores]
(10124, 'Betty Martinez', 'Computer Science', 11.98308299308976, 2)
(7367, 'Jennifer Miller', 'Psychology ', 12.868275750631293, 1)
(756, 'Linda Lewis', 'Mechanical Engineering', 13.013101591312967, 3)
(11766, 'William Taylor', 'Computer Science', 13.220806242842263, 1)
(9573, 'Daniel Harris', 'Computer Science', 14.167969127171034, 3)
Data deleted (1.3090 seconds.)
(50.08421006776479, (1632, 'Lisa Martin', 'Biomedical Engineering', 50.08421006776479, 2))


#### <b>단순 리스트 사용해보기</b>

* <b>리스트(list)</b> 자료구조에 학생의 데이터를 성적순으로 삽입하여 관리해보자.
* 가장 성적이 낮은 100명의 정보를 추출해보자.
* 이어서 가장 성적이 낮은 10,000명의 정보를 추출해보자.
  * 정렬을 사용하지 않고, 단순히 구현해보자.

In [None]:
# 학생 리스트 내에서 가장 성적이 낮은 학생의 인덱스(index) 반환
def get_min(students):
    min_index = 0
    for i in range(len(students)):
        if students[min_index][3] > students[i][3]:
            min_index = i
    return min_index

start_time = time.time()

students = []
df = pd.read_csv("students.csv")

for index, row in df.iterrows():
    id = row["id"]
    name = row["name"]
    department = row["department"]
    score = row["score"]
    grade = row["grade"]
    student = (id, name, department, score, grade)
    students.append(student)

print(f"Data inserted ({time.time() - start_time:.4f} seconds.)")

# 가장 작은 100개 추출
smallest = []
for i in range(100):
    index = get_min(students)
    smallest.append(students[index])
    del students[index]

print("[The five smallest scores]")
for small in smallest[:5]:
    print(small[1])

# 점수가 작은 순서대로 10,000 건의 학생 데이터 추출
for i in range(10000):
    index = get_min(students)
    del students[index]
print(f"Data deleted ({time.time() - start_time:.4f} seconds.)")

# 남은 원소 중에서 가장 점수가 낮은 학생 정보 출력
index = get_min(students)
print(students[index])

Data inserted (1.2708 seconds.)
[The five smallest scores]
Betty Martinez
Jennifer Miller
Linda Lewis
William Taylor
Daniel Harris
Data deleted (24.1676 seconds.)
(1632, 'Lisa Martin', 'Biomedical Engineering', 50.08421006776479, 2)
