## 데이터 타입과 구조
이 노트북은 파이썬의 기본 데이터 타입과 구조에 대해 자세히 다룹니다.

#### 1. 기본 데이터 타입

#### 문자열 (String)

문자열(String)은 텍스트 데이터를 저장하는 데이터 타입입니다. 파이썬에서 문자열은 불변(immutable)이며, 작은따옴표('), 큰따옴표("), 또는 삼중 따옴표(''' 또는 """)로 묶어서 표현합니다.

In [1]:
# 문자열 선언
환자_이름 = '홍길동'
진단명 = '당뇨병'
처방_약물 = '메트포르민'

# 변수 출력
print(환자_이름)
print(진단명)
print(처방_약물)

홍길동
당뇨병
메트포르민


In [2]:
# 문자열 선언
name = "Python"               # 큰따옴표
description = 'Programming Language'  # 작은따옴표
multiline = """This is a
multiline
string."""                    # 삼중 따옴표로 여러 줄 문자열

# 특수 문자를 포함한 문자열
special = "Line1\nLine2\tTabbed"  # \n은 새 줄, \t는 탭
raw_string = r"C:\Users\name\Documents"  # r 접두사로 raw string (이스케이프 처리 안함)

# 타입 확인
print(type(name))  # <class 'str'>

# 문자열 연결
full_desc = name + " " + description
print(full_desc)  # Python Programming Language

# 문자열 반복
print("=" * 20)  # ====================

# 문자열 포맷팅
# 1. f-string (Python 3.6+)
age = 30
print(f"{name} is {age} years old")  # Python is 30 years old

# 2. format() 메서드
print("{} is {} years old".format(name, age))  # Python is 30 years old
print("{name} is {age} years old".format(name="Java", age=25))  # Java is 25 years old

# 3. % 연산자 (오래된 방식)
print("%s is %d years old" % (name, age))  # Python is 30 years old

# 문자열 메서드
print(name.upper())        # PYTHON (대문자로 변환)
print(name.lower())        # python (소문자로 변환)
print("  hello  ".strip())  # "hello" (앞뒤 공백 제거)
print(",".join(["a", "b", "c"]))  # "a,b,c" (리스트 항목을 구분자로 연결)
print("hello world".split())  # ['hello', 'world'] (공백 기준으로 분리)
print("hello,world".split(','))  # ['hello', 'world'] (콤마 기준으로 분리)
print("Python".replace("P", "J"))  # "Jython" (문자 치환)
print("banana".count("a"))  # 3 (문자 출현 횟수)
print("Python".find("th"))  # 2 (부분 문자열 위치, 없으면 -1)
print("Python".startswith("Py"))  # True (접두사 확인)
print("Python".endswith("on"))  # True (접미사 확인)
print("123".isdigit())  # True (숫자로만 구성되었는지 확인)
print("Python".isalpha())  # True (문자로만 구성되었는지 확인)

# 문자열 인덱싱과 슬라이싱
print(name[0])    # P (첫 번째 문자)
print(name[1:4])  # yth (인덱스 1부터 3까지)
print(name[:2])   # Py (처음부터 인덱스 1까지)
print(name[2:])   # thon (인덱스 2부터 끝까지)
print(name[-1])   # n (마지막 문자)
print(name[-3:])  # hon (뒤에서 3번째부터 끝까지)
print(name[::2])  # Pto (처음부터 끝까지 2 스텝으로)
print(name[::-1])  # nohtyP (문자열 뒤집기)

<class 'str'>
Python Programming Language
Python is 30 years old
Python is 30 years old
Java is 25 years old
Python is 30 years old
PYTHON
python
hello
a,b,c
['hello', 'world']
['hello', 'world']
Jython
3
2
True
True
True
True
P
yth
Py
thon
n
hon
Pto
nohtyP


##### 정수 (Integer)
정수(Integer)는 소수점이 없는 양수, 음수, 또는 0을 표현하는 데이터 타입입니다. 파이썬의 정수는 크기에 제한이 없습니다.

In [3]:
# 정수 할당
나이 = 45
심박수 = 80
수축기_혈압 = 120

# 변수 출력
print(나이)
print(심박수)
print(수축기_혈압)

45
80
120


In [4]:
# 정수 선언
a = 10        # 양수
b = -5        # 음수
c = 0         # 0
big_num = 10000000000000000000000  # 매우 큰 수도 처리 가능

# 타입 확인
print(type(a))  # <class 'int'>

# 정수 연산
print(a + b)    # 5 (덧셈)
print(a - b)    # 15 (뺄셈)
print(a * b)    # -50 (곱셈)
print(a / b)    # -2.0 (나눗셈, 결과는 float)
print(a // b)   # -2 (floor division: 소수점 이하를 버림)
print(a % b)    # 0 (나머지)
print(a ** 2)   # 100 (거듭제곱)

# 2진수, 8진수, 16진수 표현
print(bin(10))  # 0b1010 (2진수)
print(oct(10))  # 0o12 (8진수)
print(hex(10))  # 0xa (16진수)

# 다른 진수의 숫자를 정수로 변환
print(int('1010', 2))  # 10 (2진수 '1010'을 10진수로)
print(int('12', 8))    # 10 (8진수 '12'를 10진수로)
print(int('a', 16))    # 10 (16진수 'a'를 10진수로)

<class 'int'>
5
15
-50
-2.0
-2
0
100
0b1010
0o12
0xa
10
10
10


#### 부동 소수점 (Float)

부동 소수점(Float)은 소수점이 있는 실수를 표현하는 데이터 타입입니다. 파이썬의 float은 IEEE 754 표준을 따르며, 일반적으로 64비트 precision을, 가지고 있습니다.

In [5]:
체온 = 37.5
혈당 = 5.8
BMI = 24.6

print(체온)
print(혈당)
print(BMI)

37.5
5.8
24.6


In [6]:
# 부동 소수점 선언
a = 3.14      # 일반적인 소수
b = -0.001    # 음수 소수
c = 2.0       # 정수 값이지만 소수점이 있으면 float
d = 1e6       # 1,000,000.0 (지수 표기법)
e = 1e-6      # 0.000001 (지수 표기법)

# 타입 확인
print(type(a))  # <class 'float'>

# 부동 소수점 연산
print(a + b)    # 3.139 (덧셈)
print(a * c)    # 6.28 (곱셈)
print(a / c)    # 1.57 (나눗셈)

# 부동 소수점 정밀도 문제
print(0.1 + 0.2)         # 0.30000000000000004
print(0.1 + 0.2 == 0.3)  # False

# 정밀도 문제 해결 방법
# 1. math.isclose 사용
import math
print(math.isclose(0.1 + 0.2, 0.3))  # True
print(math.isclose(0.1 + 0.2, 0.3, rel_tol=1e-10))  # True, 상대 오차 지정

# 2. round 함수 사용
print(round(0.1 + 0.2, 10) == round(0.3, 10))  # True

# 3. Decimal 모듈 사용 (정확한 10진 연산)
from decimal import Decimal
print(Decimal('0.1') + Decimal('0.2') == Decimal('0.3'))  # True

# float의 특수값
print(float('inf'))  # 무한대
print(float('-inf'))  # 음의 무한대
print(float('nan'))  # Not a Number (숫자가 아님)

# 특수값 확인
print(math.isinf(float('inf')))  # True
print(math.isnan(float('nan')))  # True

<class 'float'>
3.1390000000000002
6.28
1.57
0.30000000000000004
False
True
True
True
True
inf
-inf
nan
True
True


#### 불리언 (Boolean)

불리언(Boolean)은 참(True) 또는 거짓(False)을 나타내며, 특정 증상이나 조건의 유무를 표현할 때 사용합니다.

In [7]:
고혈압_여부 = True
흡연자_여부 = False
알레르기_존재 = True

print(고혈압_여부)
print(흡연자_여부)
print(알레르기_존재)

True
False
True


#### 2. 컬렉션 데이터 타입

#### 리스트 (List)

리스트(List)는 순서가 있고 변경 가능한(mutable) 객체들의 집합입니다. 다른 언어의 배열과 유사하지만, 여러 타입의 객체를 포함할 수 있습니다.

In [8]:
symptoms = ['발열', '기침', '두통']

print(type(symptoms))
print(symptoms)

<class 'list'>
['발열', '기침', '두통']


In [9]:
# 리스트 선언
numbers = [1, 2, 3, 4, 5]             # 숫자 리스트
mixed = [1, "hello", 3.14, True]      # 다양한 타입 혼합
nested = [1, [2, 3], [4, 5, 6]]       # 중첩 리스트
empty = []                            # 빈 리스트
also_empty = list()                   # 빈 리스트 생성 함수

# 타입 확인
print(type(numbers))  # <class 'list'>

# 리스트 인덱싱과 슬라이싱
print(numbers[0])     # 1 (첫 번째 요소)
print(numbers[-1])    # 5 (마지막 요소)
print(numbers[1:3])   # [2, 3] (인덱스 1부터 2까지)
print(nested[1][0])   # 2 (중첩 리스트 접근)
print(numbers[::-1])  # [5, 4, 3, 2, 1] (리스트 뒤집기)

# 리스트 수정
numbers[0] = 0        # 값 변경
print(numbers)        # [0, 2, 3, 4, 5]

# 리스트 메서드
numbers.append(6)     # 끝에 요소 추가: [0, 2, 3, 4, 5, 6]
numbers.insert(1, 1)  # 인덱스 1에 요소 추가: [0, 1, 2, 3, 4, 5, 6]
numbers.extend([7, 8])  # 리스트 확장: [0, 1, 2, 3, 4, 5, 6, 7, 8]
numbers.remove(3)     # 값이 3인 첫 번째 요소 제거: [0, 1, 2, 4, 5, 6, 7, 8]
popped = numbers.pop()  # 마지막 요소 제거 및 반환: popped = 8, numbers = [0, 1, 2, 4, 5, 6, 7]
popped_index = numbers.pop(2)  # 인덱스 2의 요소 제거 및 반환: popped_index = 2, numbers = [0, 1, 4, 5, 6, 7]
numbers.sort()        # 오름차순 정렬: [0, 1, 4, 5, 6, 7]
numbers.sort(reverse=True)  # 내림차순 정렬: [7, 6, 5, 4, 1, 0]
numbers.reverse()     # 리스트 뒤집기: [0, 1, 4, 5, 6, 7]
index = numbers.index(4)  # 값이 4인 요소의 인덱스: index = 2
count = numbers.count(1)  # 값이 1인 요소의 개수: count = 1
numbers.clear()       # 모든 요소 제거: []

# 새 리스트 반환하는 정렬
original = [3, 1, 4, 1, 5, 9]
sorted_list = sorted(original)  # 원본을 변경하지 않고 정렬된 새 리스트 반환
print(sorted_list)    # [1, 1, 3, 4, 5, 9]
print(original)       # [3, 1, 4, 1, 5, 9] (원본은 그대로)

# 리스트 연산
a = [1, 2]
b = [3, 4]
print(a + b)          # [1, 2, 3, 4] (연결)
print(a * 3)          # [1, 2, 1, 2, 1, 2] (반복)
print(len(a))         # 2 (길이)
print(3 in b)         # True (포함 여부)

# 리스트 내포(List Comprehension)
squares = [x**2 for x in range(10)]
print(squares)  # [0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

even_squares = [x**2 for x in range(10) if x % 2 == 0]
print(even_squares)  # [0, 4, 16, 36, 64]

# 중첩 리스트 내포
matrix = [[i*j for j in range(1, 4)] for i in range(1, 4)]
print(matrix)  # [[1, 2, 3], [2, 4, 6], [3, 6, 9]]

# 리스트의 복사
a = [1, 2, 3]
b = a          # 참조 복사 (동일한 객체를 가리킴)
c = a.copy()   # 얕은 복사
d = a[:]       # 슬라이싱으로 얕은 복사
import copy
e = copy.deepcopy(a)  # 깊은 복사

# 리스트를 다른 데이터 타입으로 변환
print(tuple([1, 2, 3]))     # (1, 2, 3) (튜플로 변환)
print(set([1, 2, 2, 3, 3]))  # {1, 2, 3} (세트로 변환, 중복 제거)
print("".join(["a", "b", "c"]))  # "abc" (문자열로 변환)

<class 'list'>
1
5
[2, 3]
2
[5, 4, 3, 2, 1]
[0, 2, 3, 4, 5]
[1, 1, 3, 4, 5, 9]
[3, 1, 4, 1, 5, 9]
[1, 2, 3, 4]
[1, 2, 1, 2, 1, 2]
2
True
[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]
[0, 4, 16, 36, 64]
[[1, 2, 3], [2, 4, 6], [3, 6, 9]]
(1, 2, 3)
{1, 2, 3}
abc


- 리스트는 순서가 있고 변경 가능한(mutable) 데이터 타입입니다.
- 대괄호 []로 선언하며, 콤마로 구분된 항목들을 포함합니다.
- 다양한 데이터 타입(정수, 문자열, 부동 소수점, 심지어 다른 리스트)을 포함할 수 있습니다.
- 인덱싱은 0부터 시작하며, 음수 인덱스는 뒤에서부터 접근합니다.
- 리스트는 가변적이므로 요소를 추가, 제거, 변경할 수 있습니다.
- 주요 메서드: append(), insert(), extend(), remove(), pop(), sort(), reverse() 등
- 리스트 내포(List Comprehension)는 보다 간결하고 효율적인 리스트 생성 방법을 제공합니다.
- 리스트의 복사는 참조 복사, 얕은 복사, 깊은 복사 중 하나를 선택할 수 있습니다.
- 변수에 대입할 때 리스트는 참조로 전달되므로, 하나의 참조를 변경하면 원본 데이터도 변경됩니다.

#### 튜플 (Tuple)

튜플(Tuple)은 순서가 있고 변경이 불가능한(immutable) 객체들의 집합입니다. 한 번 생성된 튜플은 수정할 수 없어 데이터 무결성이 중요한 경우에 유용합니다.

In [10]:
patient_info = ('홍길동', 45, '남성', 175)

print(type(patient_info))
print(patient_info)

<class 'tuple'>
('홍길동', 45, '남성', 175)


In [11]:
# 튜플 선언
coordinates = (10, 20)              # 간단한 튜플
person = ("John", 25, "New York")   # 다양한 타입 혼합
single_item = (5,)                  # 항목이 하나일 때는 콤마 필요
empty = ()                          # 빈 튜플
also_empty = tuple()                # 빈 튜플 생성 함수
nested = (1, (2, 3), (4, 5, 6))     # 중첩 튜플

# 타입 확인
print(type(coordinates))  # <class 'tuple'>

# 튜플 인덱싱과 슬라이싱
print(coordinates[0])     # 10 (첫 번째 요소)
print(person[1:])         # (25, 'New York') (인덱스 1부터 끝까지)
print(nested[1][0])       # 2 (중첩 튜플 접근)

# 튜플 패킹과 언패킹
coordinates = 10, 20      # 패킹 (괄호 생략 가능)
x, y = coordinates        # 언패킹
print(x, y)               # 10 20

# 확장된 언패킹 (Python 3.x)
first, *rest = (1, 2, 3, 4, 5)
print(first)              # 1
print(rest)               # [2, 3, 4, 5] (나머지는 리스트로)

*beginning, last = (1, 2, 3, 4, 5)
print(beginning)          # [1, 2, 3, 4]
print(last)               # 5

# 함수에서 여러 값 반환 시 튜플 사용
def get_min_max(numbers):
    return min(numbers), max(numbers)

min_val, max_val = get_min_max([1, 2, 3, 4, 5])
print(min_val, max_val)  # 1 5

# 튜플은 수정 불가능
# coordinates[0] = 100  # TypeError: 'tuple' object does not support item assignment

# 튜플 메서드 (제한적)
print(coordinates.count(10))  # 1 (값이 10인 요소의 개수)
print(coordinates.index(20))  # 1 (값이 20인 요소의 인덱스)

# 튜플 연산
a = (1, 2)
b = (3, 4)
print(a + b)          # (1, 2, 3, 4) (연결)
print(a * 3)          # (1, 2, 1, 2, 1, 2) (반복)
print(len(a))         # 2 (길이)
print(1 in a)         # True (포함 여부)

# 튜플을 다른 데이터 타입으로 변환
print(list((1, 2, 3)))  # [1, 2, 3] (리스트로 변환)
print(set((1, 2, 2)))   # {1, 2} (세트로 변환, 중복 제거)

# 튜플의 활용: 딕셔너리 키, 함수 인자
def print_coordinates(point):
    x, y = point
    print(f"X: {x}, Y: {y}")

print_coordinates((10, 20))  # X: 10, Y: 20

# 네임드 튜플 (collections 모듈)
from collections import namedtuple
Point = namedtuple('Point', ['x', 'y'])
p = Point(10, 20)
print(p.x, p.y)       # 10 20
print(p[0], p[1])     # 10 20

<class 'tuple'>
10
(25, 'New York')
2
10 20
1
[2, 3, 4, 5]
[1, 2, 3, 4]
5
1 5
1
1
(1, 2, 3, 4)
(1, 2, 1, 2, 1, 2)
2
True
[1, 2, 3]
{1, 2}
X: 10, Y: 20
10 20
10 20


#### 딕셔너리 (Dictionary)

딕셔너리(Dictionary)는 키-값 쌍을 저장하는 변경 가능한(mutable) 자료구조입니다. 각 키는 고유해야 하며, 해시 가능한(hashable) 타입이어야 합니다. {‘키1’:’값1’, ‘키2’:’값2’} 구조를 띄고 있습니다.

In [12]:
medical_record = {'이름': '홍길동', '나이': 45, '진단': '폐렴'}

print(type(medical_record))
print(medical_record)

<class 'dict'>
{'이름': '홍길동', '나이': 45, '진단': '폐렴'}


In [13]:
# 딕셔너리 선언
student = {
    "name": "Alice",
    "age": 20,
    "major": "Computer Science",
    "grades": [90, 85, 95]
}

empty_dict = {}                 # 빈 딕셔너리
another_dict = dict(name="Bob", age=25)  # dict() 함수로 생성
from_tuples = dict([("name", "Charlie"), ("age", 30)])  # 튜플 리스트로 생성
from_keys = dict.fromkeys(["name", "age", "major"], None)  # 키 리스트로 생성

# 타입 확인
print(type(student))  # <class 'dict'>

# 딕셔너리 접근
print(student["name"])    # Alice (키로 값 접근)
# print(student["phone"])  # KeyError: 'phone' (존재하지 않는 키)
print(student.get("age"))  # 20 (get 메서드로 안전하게 값 접근)
print(student.get("phone"))  # None (키가 없으면 None 반환)
print(student.get("phone", "Not Available"))  # Not Available (기본값 제공)

# 딕셔너리 수정
student["age"] = 21       # 기존 키의 값 변경
student["phone"] = "123-456-7890"  # 새 키-값 쌍 추가
print(student)

# 딕셔너리 메서드
print(student.keys())    # dict_keys(['name', 'age', 'major', 'grades', 'phone'])
print(student.values())  # dict_values(['Alice', 21, 'Computer Science', [90, 85, 95], '123-456-7890'])
print(student.items())   # dict_items([('name', 'Alice'), ('age', 21), ...])

# 키 존재 확인
print("name" in student)  # True
print("email" in student)  # False

# 딕셔너리 항목 삭제
del student["phone"]     # 키-값 쌍 삭제
removed = student.pop("major")  # 키-값 쌍 삭제 및 값 반환
print(removed)           # Computer Science
last_item = student.popitem()  # 마지막으로 추가된 키-값 쌍 삭제 및 반환 (Python 3.7+)
print(last_item)         # ('grades', [90, 85, 95])
student.clear()          # 모든 항목 삭제

# 딕셔너리 병합
profile = {"gender": "Female", "country": "USA"}
student = {"name": "Alice", "age": 20}

# Python 3.9+
# merged = student | profile  # {'name': 'Alice', 'age': 20, 'gender': 'Female', 'country': 'USA'}

# Python 3.5+
student.update(profile)  # student 딕셔너리에 profile 항목 추가
print(student)           # {'name': 'Alice', 'age': 20, 'gender': 'Female', 'country': 'USA'}

# 딕셔너리 내포(Dictionary Comprehension)
squares_dict = {x: x**2 for x in range(5)}

<class 'dict'>
Alice
20
None
Not Available
{'name': 'Alice', 'age': 21, 'major': 'Computer Science', 'grades': [90, 85, 95], 'phone': '123-456-7890'}
dict_keys(['name', 'age', 'major', 'grades', 'phone'])
dict_values(['Alice', 21, 'Computer Science', [90, 85, 95], '123-456-7890'])
dict_items([('name', 'Alice'), ('age', 21), ('major', 'Computer Science'), ('grades', [90, 85, 95]), ('phone', '123-456-7890')])
True
False
Computer Science
('grades', [90, 85, 95])
{'name': 'Alice', 'age': 20, 'gender': 'Female', 'country': 'USA'}


#### 세트 (Set)

세트(Set)는 중복을 허용하지 않고 순서가 없는 해시 가능한(hashable) 객체의 집합입니다. 수학의 집합 개념과 유사하며, 합집합, 교집합, 차집합 등의 집합 연산을 지원합니다.

In [14]:
allergies = {'페니실린', '아스피린'}
             
print(type(allergies))
print(allergies)

<class 'set'>
{'아스피린', '페니실린'}


In [15]:
# 세트 선언
fruits = {"apple", "banana", "orange"}    # 중괄호로 선언
numbers = set([1, 2, 3, 2, 1])           # set() 함수로 선언 (중복 자동 제거)
empty_set = set()                        # 빈 세트 (빈 중괄호 {}는 딕셔너리를 의미)
frozen = frozenset(["a", "b", "c"])      # 불변 세트 (frozenset)

# 타입 확인
print(type(fruits))  # <class 'set'>
print(numbers)       # {1, 2, 3} (중복 제거됨)

# 세트의 특징: 순서가 없음, 인덱싱 불가
# print(fruits[0])   # TypeError: 'set' object is not subscriptable

# 세트 조작
fruits.add("grape")           # 요소 추가
fruits.update(["melon", "kiwi"])  # 여러 요소 추가
fruits.remove("banana")       # 요소 제거 (요소가 없으면 KeyError)
fruits.discard("melon")       # 요소 제거 (요소가 없어도 에러 없음)
popped = fruits.pop()         # 임의의 요소 제거 및 반환
print(popped)                 # 세트는 순서가 없어 어떤 요소가 제거될지 예측 불가
print(fruits)

fruits.clear()                # 모든 요소 제거

# 세트 연산
a = {1, 2, 3, 4}
b = {3, 4, 5, 6}

# 합집합
print(a | b)          # {1, 2, 3, 4, 5, 6}
print(a.union(b))     # {1, 2, 3, 4, 5, 6}

# 교집합
print(a & b)          # {3, 4}
print(a.intersection(b))  # {3, 4}

# 차집합
print(a - b)          # {1, 2}
print(a.difference(b))  # {1, 2}

# 대칭차 (합집합 - 교집합)
print(a ^ b)          # {1, 2, 5, 6}
print(a.symmetric_difference(b))  # {1, 2, 5, 6}

# 부분집합과 상위집합 확인
c = {1, 2}
print(c.issubset(a))   # True (c는 a의 부분집합)
print(a.issuperset(c))  # True (a는 c의 상위집합)

# 서로소 집합 확인 (공통 요소가 없음)
print(a.isdisjoint({7, 8, 9}))  # True (공통 요소 없음)

# 세트 내포(Set Comprehension)
even_set = {x for x in range(10) if x % 2 == 0}
print(even_set)  # {0, 2, 4, 6, 8}

# 세트와 다른 자료형 변환
print(list({1, 2, 3}))       # [1, 2, 3] (리스트로 변환, 순서 보장 안됨)
print(tuple({1, 2, 3}))      # (1, 2, 3) (튜플로 변환, 순서 보장 안됨)
print(",".join({"a", "b", "c"}))  # 세트를 문자열로 변환 (순서 보장 안됨)

<class 'set'>
{1, 2, 3}
orange
{'kiwi', 'apple', 'grape'}
{1, 2, 3, 4, 5, 6}
{1, 2, 3, 4, 5, 6}
{3, 4}
{3, 4}
{1, 2}
{1, 2}
{1, 2, 5, 6}
{1, 2, 5, 6}
True
True
True
{0, 2, 4, 6, 8}
[1, 2, 3]
(1, 2, 3)
b,a,c
