# Python 심화 과정 (Colab Notebook)

## 1. 객체지향 프로그래밍 (Object-Oriented Programming, OOP)

### 1-1. 객체지향 프로그래밍 개요

**개념 설명:**

객체지향 프로그래밍(OOP)은 컴퓨터 프로그래밍 패러다임 중 하나로, 관련된 데이터와 그 데이터를 처리하는 함수(메서드)를 하나의 '객체(Object)'로 묶어서 관리하는 방식입니다.

- **절차적 프로그래밍 vs. 객체지향 프로그래밍**
  - **절차적 프로그래밍**은 실행 순서를 중심으로 데이터를 순차적으로 처리하는 방식입니다. 코드가 길어지고 복잡해지면 전체 흐름을 파악하기 어렵고, 데이터와 함수가 분리되어 있어 유지보수가 어려워질 수 있습니다. (예: C 언어)
  - **객체지향 프로그래밍**은 데이터와 기능을 객체 단위로 묶어 관리하므로, 코드의 재사용성이 높아지고, 각 객체가 독립적으로 동작하여 복잡한 시스템을 더 쉽게 설계하고 유지보수할 수 있습니다.

- **OOP의 핵심 원칙:**
  - **캡슐화 (Encapsulation):** 데이터(속성)와 데이터를 처리하는 함수(메서드)를 클래스라는 하나의 단위로 묶고, 데이터의 직접적인 접근을 제한하여 정보 은닉을 구현합니다. 이를 통해 객체의 상태를 안전하게 보호할 수 있습니다.
  - **상속 (Inheritance):** 부모 클래스의 속성과 메서드를 자식 클래스가 물려받아 사용할 수 있게 하는 기능입니다. 코드의 재사용성을 극대화하고, 클래스 간의 관계를 계층적으로 표현할 수 있습니다.
  - **다형성 (Polymorphism):** 동일한 이름의 메서드가 서로 다른 객체에서 다른 방식으로 동작할 수 있게 하는 성질입니다. 예를 들어, `+` 연산자는 숫자에서는 덧셈, 문자열에서는 결합으로 동작하는 것이 다형성의 한 예입니다. 이를 통해 코드를 더 유연하고 확장성 있게 만들 수 있습니다.

**중요 포인트:**
- **'책임' 중심 설계:** 단순히 기능을 함수로 만드는 것이 아니라, 이 기능이 어떤 '책임'을 가지는지 고민하고 그 책임을 수행할 객체를 설계하는 것이 중요합니다.
- **도메인 용어 반영:** 클래스나 메서드 이름에 해당 분야(도메인)에서 사용하는 실제 용어를 반영하면, 코드를 읽는 것만으로도 시스템의 동작을 쉽게 이해할 수 있습니다.
- **YAGNI (You Ain't Gonna Need It):** '당신은 그것을 필요로 하지 않을 것이다'라는 원칙으로, 지금 당장 필요하지 않은 기능이나 지나친 추상화는 피해야 합니다. 과도한 설계는 오히려 코드를 더 복잡하게 만듭니다.

### 1-2. 좋은 객체지향 설계 (SOLID 원칙)

**개념 설명:**

좋은 객체지향 설계를 위해서는 **응집도(Cohesion)**는 높이고 **결합도(Coupling)**는 낮추는 것이 중요합니다.
- **응집도:** 클래스나 모듈이 하나의 책임이나 기능에 집중되어 있는 정도를 의미합니다. 응집도가 높을수록 관련된 코드가 한곳에 모여있어 이해하고 관리하기 쉽습니다.
- **결합도:** 클래스나 모듈이 다른 클래스나 모듈에 얼마나 의존하는지를 나타냅니다. 결합도가 낮을수록 한 부분의 변경이 다른 부분에 미치는 영향이 적어져 유지보수가 용이해집니다.

**SOLID**는 이러한 목표를 달성하기 위한 다섯 가지 설계 원칙의 앞 글자를 딴 것입니다.

1.  **S (Single Responsibility Principle, 단일 책임 원칙):** 클래스는 단 하나의 책임만 가져야 합니다. 즉, 클래스를 변경해야 하는 이유는 단 하나여야 합니다.
2.  **O (Open/Closed Principle, 개방-폐쇄 원칙):** 클래스는 확장에는 열려 있어야 하고, 변경에는 닫혀 있어야 합니다. 기존 코드를 수정하지 않고도 기능을 추가할 수 있어야 합니다.
3.  **L (Liskov Substitution Principle, 리스코프 치환 원칙):** 자식 클래스는 언제나 부모 클래스의 인스턴스로 대체할 수 있어야 합니다. 즉, 부모 클래스를 사용하는 곳에서 자식 클래스로 바꿔도 문제가 없어야 합니다.
4.  **I (Interface Segregation Principle, 인터페이스 분리 원칙):** 클라이언트는 자신이 사용하지 않는 인터페이스에 의존하도록 강요되어서는 안 됩니다. 즉, 범용적인 인터페이스 하나보다는 여러 개의 구체적인 인터페이스가 낫습니다.
5.  **D (Dependency Inversion Principle, 의존성 역전 원칙):** 상위 수준 모듈은 하위 수준 모듈에 의존해서는 안 되며, 둘 모두 추상화에 의존해야 합니다. 즉, 구체적인 구현 클래스가 아닌 추상 클래스나 인터페이스에 의존해야 합니다.

### 1-3. 클래스 정의와 인스턴스 생성

**개념 설명:**
- **클래스 (Class):** 객체를 만들기 위한 '설계도' 또는 '틀'입니다. 클래스에는 객체가 가질 데이터(속성, attribute)와 기능(메서드, method)이 정의되어 있습니다.
- **인스턴스 (Instance):** 클래스라는 설계도를 바탕으로 메모리에 실제로 생성된 '실체'입니다. 하나의 클래스로부터 여러 개의 인스턴스를 만들 수 있으며, 각 인스턴스는 자신만의 속성 값을 가질 수 있습니다.

In [None]:
# 'User'라는 이름의 클래스를 정의합니다.
class User:
    # __init__ 메서드는 클래스의 '생성자(constructor)'입니다.
    # 인스턴스가 생성될 때 가장 먼저 자동으로 호출되며, 속성을 초기화하는 역할을 합니다.
    # 'self'는 생성되는 인스턴스 자기 자신을 가리킵니다.
    # 'name'은 인스턴스를 생성할 때 외부에서 전달받는 값입니다.
    def __init__(self, name):
        # 전달받은 name 값을 인스턴스의 속성 'name'에 저장합니다.
        self.name = name

# User 클래스의 인스턴스를 생성하고, 변수 'u'에 할당합니다.
# 이 때 'Alice'라는 값이 __init__ 메서드의 'name' 매개변수로 전달됩니다.
u = User("Alice")

# 생성된 인스턴스 'u'의 'name' 속성에 접근하여 값을 출력합니다.
print(u.name)

# 파이썬은 동적 언어이므로, 런타임에 속성을 추가할 수 있습니다.
# 하지만 이런 방식은 클래스 설계의 일관성을 해치고 버그를 유발할 수 있어 권장되지 않습니다.
u.age = 30
print(f"{u.name} is {u.age} years old.")

Alice
Alice is 30 years old.


### 1-4. 클래스 변수 vs. 인스턴스 변수

**개념 설명:**
- **인스턴스 변수 (Instance Variable):** 각 인스턴스별로 독립적으로 소유하는 변수입니다. `__init__` 메서드 안에서 `self.변수명` 형태로 정의하며, 한 인스턴스에서 값을 변경해도 다른 인스턴스에는 영향을 주지 않습니다.
- **클래스 변수 (Class Variable):** 해당 클래스로부터 생성된 모든 인스턴스가 공유하는 변수입니다. 클래스 선언 바로 아래에 정의하며, `클래스명.변수명`으로 접근할 수 있습니다. 한 인스턴스에서 클래스 변수를 변경하면 모든 인스턴스에 그 변경 사항이 반영됩니다.

In [None]:
class Counter:
    # 'total'은 클래스 변수입니다.
    # Counter 클래스로부터 생성된 모든 인스턴스가 이 변수를 공유합니다.
    total = 0

    def __init__(self):
        # 'count'는 인스턴스 변수입니다.
        # 각 Counter 인스턴스는 자신만의 'count' 값을 가집니다.
        self.count = 0

        # 인스턴스가 생성될 때마다 클래스 변수 'total'을 1 증가시킵니다.
        Counter.total += 1

# Counter 인스턴스 생성
c1 = Counter()
c2 = Counter()

# 각 인스턴스는 독립적인 'count' 값을 가집니다.
c1.count = 10
print(f"c1's count: {c1.count}") # 출력: 10
print(f"c2's count: {c2.count}") # 출력: 0

# 'total' 값은 모든 인스턴스에 의해 공유됩니다.
# c1과 c2, 두 개의 인스턴스가 생성되었으므로 'total'은 2가 됩니다.
print(f"c1's total: {c1.total}") # 출력: 2
print(f"c2's total: {c2.total}") # 출력: 2
print(f"Counter.total: {Counter.total}") # 클래스 이름을 통해 직접 접근 가능

# 주의: 가변 객체(리스트, 딕셔너리 등)를 클래스 변수로 사용할 때는 부작용에 특히 주의해야 합니다.
class Box:
    items = [] # 클래스 변수로 리스트를 사용 (나쁜 예)

    def add(self, item):
        self.items.append(item)

b1 = Box()
b2 = Box()

b1.add('apple')
print(b2.items) # 출력: ['apple'] -> b1에만 추가했는데 b2에도 반영됨

c1's count: 10
c2's count: 0
c1's total: 2
c2's total: 2
Counter.total: 2
['apple']


### 1-5. 생성자(__init__)와 메서드

**개념 설명:**
- **생성자 (`__init__`):** 인스턴스가 처음 생성될 때 호출되는 특별한 메서드로, 객체의 초기 상태를 설정하는 역할을 합니다. 예를 들어, 필요한 속성 값들을 인자로 받아 설정하거나, 유효성 검사를 수행할 수 있습니다.
- **메서드 (Method):** 클래스 내에 정의된 함수로, 해당 클래스의 인스턴스가 수행할 수 있는 행동(기능)을 나타냅니다. 메서드의 첫 번째 매개변수로는 항상 `self`를 사용하여, 메서드가 호출된 인스턴스 자신에게 접근할 수 있게 합니다.

In [None]:
class Point:
    # 생성자: x, y 좌표를 받아 인스턴스 변수로 초기화합니다.
    def __init__(self, x, y):
        self.x = x
        self.y = y

    # 메서드: 점을 이동시키는 기능을 수행합니다.
    # dx, dy만큼 현재 좌표(self.x, self.y)를 변경합니다.
    def move(self, dx, dy):
        self.x += dx
        self.y += dy

    # 매직 메서드: print() 함수로 객체를 출력할 때 호출되는 문자열을 정의합니다.
    # 사용자가 객체를 쉽게 이해할 수 있도록 돕습니다.
    def __str__(self):
        return f"Point({self.x}, {self.y})"

# Point 인스턴스 생성 (초기 위치: 10, 20)
p = Point(10, 20)
print(f"Initial position: {p}")

# move 메서드를 호출하여 점을 이동시킵니다.
p.move(5, -10)
print(f"Moved position: {p}")

Initial position: Point(10, 20)
Moved position: Point(15, 10)


### 1-6. 캡슐화와 접근 제한

**개념 설명:**
캡슐화는 객체의 내부 상태(데이터)를 외부로부터 보호하고, 오직 정의된 메서드를 통해서만 접근하고 수정할 수 있도록 제한하는 것을 의미합니다. 이를 통해 객체의 무결성을 유지하고, 내부 구현이 변경되더라도 외부에 미치는 영향을 최소화할 수 있습니다.

파이썬에는 `public`, `private` 같은 명시적인 접근 제한자가 없지만, 이름 규칙을 통해 이를 표현합니다.
- **Public:** 일반적인 변수와 메서드. 외부에서 자유롭게 접근 가능합니다.
- **Protected (내부 사용):** 이름 앞에 밑줄 한 개(`_`)를 붙입니다. (`_name`) "이 변수/메서드는 클래스 내부 또는 자식 클래스에서만 사용하도록 의도되었으니, 외부에서는 가급적 건드리지 마세요"라는 관례적인 약속입니다.
- **Private (비공개):** 이름 앞에 밑줄 두 개(`__`)를 붙입니다. (`__name`) 파이썬은 이 변수/메서드 이름을 `_클래스명__변수명` 형태로 변형(Name Mangling)하여, 외부에서 우연히 같은 이름으로 덮어쓰거나 접근하는 것을 방지합니다. 상속 시에도 충돌을 막아줍니다.

In [None]:
class Account:
    def __init__(self, balance=0):
        # '__balance'는 private 변수로, 외부에서 직접 접근하는 것을 막기 위함입니다.
        self.__balance = balance

    # 입금 메서드 (Public API)
    def deposit(self, amount):
        if amount > 0:
            self.__balance += amount
            print(f"{amount}원이 입금되었습니다.")
        else:
            print("입금액은 0보다 커야 합니다.")

    # 출금 메서드 (Public API)
    def withdraw(self, amount):
        if 0 < amount <= self.__balance:
            self.__balance -= amount
            print(f"{amount}원이 출금되었습니다.")
        else:
            print("출금액이 유효하지 않거나 잔액이 부족합니다.")

    # 잔액 조회 메서드 (Public API)
    def get_balance(self):
        return self.__balance

acc = Account(10000)

# public 메서드를 통해 안전하게 객체 상태 변경
acc.deposit(5000)
acc.withdraw(2000)
print(f"현재 잔액: {acc.get_balance()}원")

# 외부에서 private 변수에 직접 접근하려고 하면 오류가 발생합니다.
try:
    print(acc.__balance) # AttributeError 발생
except AttributeError as e:
    print(f"\n에러 발생: {e}")

# Name Mangling으로 변형된 이름으로는 접근이 가능하지만, 이렇게 사용하는 것은 바람직하지 않습니다.
print(f"강제로 접근한 잔액: {acc._Account__balance}")

5000원이 입금되었습니다.
2000원이 출금되었습니다.
현재 잔액: 13000원

에러 발생: 'Account' object has no attribute '__balance'
강제로 접근한 잔액: 13000


### 1-7. 상속(Inheritance) 기본 개념

**개념 설명:**
상속은 기존에 정의된 클래스(부모 클래스, 슈퍼 클래스)의 모든 속성과 메서드를 새로운 클래스(자식 클래스, 서브 클래스)가 물려받는 것입니다. 이를 통해 코드의 중복을 줄이고, 재사용성을 높일 수 있습니다.

상속 관계는 **'is-a' 관계**일 때 사용하는 것이 적절합니다. 예를 들어, '개(Dog)는 동물(Animal)이다' 와 같이 자식 클래스가 부모 클래스의 한 종류일 때 상속을 사용합니다. ('자동차는 엔진을 가지고 있다' 와 같은 **'has-a' 관계**는 상속이 아닌 **합성(Composition)**을 사용하는 것이 더 적절합니다.)

In [None]:
# 부모 클래스 (슈퍼 클래스)
class Vehicle:
    def __init__(self, speed):
        self.speed = speed

    def move(self):
        print(f"속도 {self.speed}으로 이동합니다.")

# 자식 클래스 (서브 클래스)
# Vehicle 클래스를 상속받습니다.
class Car(Vehicle):
    # Car 클래스에 별도의 메서드를 정의하지 않아도
    # 부모인 Vehicle의 __init__과 move 메서드를 모두 물려받습니다.
    pass

# 자식 클래스의 인스턴스를 생성합니다.
# 부모의 __init__이 호출되므로 speed 인자가 필요합니다.
my_car = Car(100)

# 부모로부터 물려받은 move 메서드를 호출합니다.
my_car.move()

속도 100으로 이동합니다.


### 1-8. 메서드 오버라이딩(Overriding)과 super()

**개념 설명:**
- **메서드 오버라이딩:** 부모 클래스로부터 상속받은 메서드를 자식 클래스에서 동일한 이름으로 다시 정의하는 것입니다. 이를 통해 자식 클래스의 특성에 맞게 기능을 변경하거나 확장할 수 있습니다.
- **`super()`:** 자식 클래스에서 부모 클래스의 메서드를 호출하고 싶을 때 사용하는 내장 함수입니다. 오버라이딩된 메서드 안에서 부모의 원래 기능을 먼저 실행하고, 그 후에 자식 클래스만의 추가 기능을 구현하는 패턴에서 매우 유용하게 사용됩니다.

In [None]:
class Animal:
    def speak(self):
        print("동물이 소리를 냅니다.")

class Dog(Animal):
    # 부모 클래스의 speak 메서드를 오버라이딩합니다.
    def speak(self):
        print("멍멍!")

class Cat(Animal):
    def __init__(self, name):
        self.name = name

    # 부모의 기능을 유지하면서 새로운 기능을 추가하고 싶을 때 super()를 사용합니다.
    def speak(self):
        # 먼저 부모 클래스(Animal)의 speak 메서드를 호출합니다.
        super().speak()
        # 그 다음 자식 클래스(Cat)만의 기능을 추가합니다.
        print(f"{self.name}이(가) 야옹~")

Dog().speak() # 직접 호출

dog = Dog()
cat = Cat("나비")

dog.speak() # 오버라이딩된 메서드가 호출됩니다.
cat.speak() # super()를 통해 부모와 자식의 메서드가 모두 실행됩니다.

멍멍!
멍멍!
동물이 소리를 냅니다.
나비이(가) 야옹~


### 1-9. 다중 상속과 MRO(Method Resolution Order)

**개념 설명:**
- **다중 상속:** 하나의 클래스가 두 개 이상의 부모 클래스로부터 상속을 받는 것입니다. 이를 통해 여러 클래스의 기능을 조합하여 새로운 클래스를 만들 수 있습니다.
- **MRO (메서드 결정 순서):** 다중 상속을 할 경우, 여러 부모 클래스에 동일한 이름의 메서드가 존재할 수 있습니다. 이때 어떤 부모의 메서드를 먼저 호출할지 결정하는 규칙이 MRO입니다. 파이썬은 C3 선형화 알고리즘을 사용하여 일관되고 예측 가능한 MRO를 보장합니다.
  - `클래스.__mro__` 또는 `클래스.mro()`를 통해 MRO 순서를 확인할 수 있습니다.

**다이아몬드 상속 문제:**
다중 상속 구조가 다이아몬드 형태(A를 B와 C가 상속하고, D가 다시 B와 C를 상속)가 될 때, A의 메서드를 중복 호출하는 문제가 발생할 수 있습니다. `super()`는 MRO를 따라가므로, 이러한 구조에서도 각 부모 클래스의 메서드가 단 한 번씩만 호출되도록 보장해줍니다.

In [None]:
class A:
    def who_am_i(self):
        print("I am A")

class B:
    def who_am_i(self):
        print("I am B")

# C는 A와 B를 다중 상속 받습니다.
# 괄호 안에 먼저 쓴 클래스가 MRO에서 우선순위를 가집니다. (A가 B보다 먼저)
class C(A, B):
    pass

instance_c = C()
# C 클래스에 who_am_i가 없으므로, MRO에 따라 A의 메서드를 호출합니다.
instance_c.who_am_i()

# MRO(메서드 결정 순서)를 확인합니다.
# 순서: C -> A -> B -> object
print(C.mro())

I am A
[<class '__main__.C'>, <class '__main__.A'>, <class '__main__.B'>, <class 'object'>]


### 1-10. 클래스 메서드 vs. 정적 메서드

**개념 설명:**

- **인스턴스 메서드 (Instance Method):**
  - 가장 일반적인 메서드로, 첫 번째 인자로 인스턴스 자신(`self`)을 받습니다.
  - `인스턴스.메서드()` 형태로 호출하며, 인스턴스의 상태(속성)를 읽거나 수정할 때 사용합니다.

- **클래스 메서드 (Class Method):**
  - `@classmethod` 데코레이터를 붙여 정의하며, 첫 번째 인자로 클래스 자신(`cls`)을 받습니다.
  - `클래스.메서드()` 형태로 호출하며, 인스턴스를 생성하지 않고도 클래스에 관련된 작업을 할 때 사용합니다.
  - 주로 클래스 변수를 다루거나, 다양한 방식으로 인스턴스를 생성하는 **팩토리 메서드**를 만들 때 유용합니다.

- **정적 메서드 (Static Method):**
  - `@staticmethod` 데코레이터를 붙여 정의하며, `self`나 `cls`와 같은 특별한 첫 번째 인자를 받지 않습니다.
  - 인스턴스나 클래스의 상태와는 전혀 무관한, 논리적으로 클래스에 속해 있지만 독립적인 유틸리티 함수를 만들 때 사용합니다.
  - `클래스.메서드()` 형태로 호출합니다.

In [None]:
class User:
    user_count = 0 # 클래스 변수

    def __init__(self, name):
        self.name = name
        User.user_count += 1

    # 인스턴스 메서드: 인스턴스의 name 속성을 사용합니다.
    def introduce(self):
        print(f"Hello, I'm {self.name}.")

    # 클래스 메서드: 클래스 변수인 user_count를 사용합니다.
    @classmethod
    def get_user_count(cls):
        return f"Total users: {cls.user_count}"

    # 클래스 메서드 (팩토리 메서드): 이메일 주소로부터 User 인스턴스를 생성합니다.
    @classmethod
    def from_email(cls, email):
        name = email.split('@')[0]
        return cls(name) # cls는 User 클래스를 가리키므로, User(name)과 동일합니다.

    # 정적 메서드: 인스턴스나 클래스 상태와 무관한 유틸리티 함수입니다.
    @staticmethod
    def is_valid_name(name):
        return len(name) > 1

# 인스턴스 생성 및 메서드 호출
user1 = User("Alice")
user1.introduce()

# 정적 메서드 호출
print(f"Is 'Bob' a valid name? {User.is_valid_name('Bob')}")

# 팩토리 메서드를 이용한 인스턴스 생성
user2 = User.from_email("charlie@example.com")
user2.introduce()

# 클래스 메서드 호출
print(User.get_user_count())

Hello, I'm Alice.
Is 'Bob' a valid name? True
Hello, I'm charlie.
Total users: 2


### 1-11. 매직 메서드와 연산자 오버로딩

**개념 설명:**
- **매직 메서드 (Magic Methods):** 이름 앞뒤에 더블 언더스코어(`__`)가 붙은 특별한 메서드들입니다. 파이썬이 내부적으로 특정 구문이나 연산을 처리할 때 자동으로 호출합니다. (예: `__init__`, `__str__`, `__add__`)
- **연산자 오버로딩 (Operator Overloading):** `+`, `-`, `==`, `>` 와 같은 내장 연산자들을 사용자가 직접 정의한 클래스의 인스턴스에 사용할 수 있도록, 해당 연산자에 대응하는 매직 메서드를 클래스 내에 구현하는 것입니다. 이를 통해 객체를 파이썬의 기본 자료형처럼 자연스럽게 다룰 수 있습니다.

- **주요 매직 메서드:**
  - `__str__(self)`: `print(obj)`나 `str(obj)`처럼, 객체를 사람이 읽기 좋은 '비공식적인' 문자열로 표현할 때 호출됩니다.
  - `__repr__(self)`: `obj`를 터미널에 입력하거나 `repr(obj)`처럼, 객체를 '공식적인' 문자열로 표현할 때 호출됩니다. 이 문자열은 가급적 `eval(repr(obj)) == obj`를 만족하도록, 즉 객체를 다시 생성할 수 있는 코드 형태로 만드는 것이 좋습니다. 디버깅에 매우 유용합니다.
  - `__len__(self)`: `len(obj)`가 호출될 때 길이를 반환합니다.
  - `__eq__(self, other)`: `obj == other` 비교 연산을 처리합니다.
  - `__add__(self, other)`: `obj + other` 덧셈 연산을 처리합니다.

In [None]:
class Vector:
    def __init__(self, x, y):
        self.x = x
        self.y = y

    # print() 함수를 위한 문자열 표현
    def __str__(self):
        return f"Vector at ({self.x}, {self.y})"

    # 디버깅 및 객체 표현을 위한 문자열
    def __repr__(self):
        return f"Vector({self.x}, {self.y})"

    # '+' 연산자 오버로딩
    def __add__(self, other):
        # 다른 Vector 객체와 각 요소를 더한 새로운 Vector 객체를 반환합니다.
        if isinstance(other, Vector):
            return Vector(self.x + other.x, self.y + other.y)
        return NotImplemented # 지원하지 않는 타입과의 연산임을 알림

    # '==' 연산자 오버로딩
    def __eq__(self, other):
        if isinstance(other, Vector):
            return self.x == other.x and self.y == other.y
        return False

v1 = Vector(1, 2)
v2 = Vector(3, 4)
v3 = Vector(1, 2)

print(v1)      # __str__ 호출
print([v1, v2]) # 리스트 안에서는 __repr__ 호출

v_sum = v1 + v2  # __add__ 호출
print(f"v1 + v2 = {v_sum}")

print(f"v1 == v2? {v1 == v2}") # __eq__ 호출 (False)
print(f"v1 == v3? {v1 == v3}") # __eq__ 호출 (True)

Vector at (1, 2)
[Vector(1, 2), Vector(3, 4)]
v1 + v2 = Vector at (4, 6)
v1 == v2? False
v1 == v3? True


### 1-12. 추상 클래스(ABC)와 다형성

**개념 설명:**
- **추상 클래스 (Abstract Base Class, ABC):**
  - 미완성된 '설계도'와 같습니다. 자체적으로는 인스턴스를 만들 수 없으며, 다른 클래스가 상속받아야만 하는 클래스입니다.
  - 추상 클래스 안에는 하나 이상의 **추상 메서드**가 포함될 수 있습니다. 추상 메서드는 이름만 정의되어 있고 실제 구현 내용은 없는 메서드입니다.
  - 추상 클래스를 상속받는 자식 클래스는 반드시 부모의 모든 추상 메서드를 **오버라이딩**하여 구현해야만 합니다. 이를 통해 특정 인터페이스(메서드 목록)를 반드시 구현하도록 강제하여 코드의 일관성과 안정성을 높일 수 있습니다.

- **다형성 (Polymorphism):**
  - '여러 형태를 가질 수 있다'는 의미로, 서로 다른 클래스의 객체들이 동일한 메서드 호출에 대해 각자의 방식대로 응답하는 것을 말합니다.
  - 예를 들어, `EmailNotifier`와 `SMSNotifier`가 모두 `send`라는 메서드를 가지고 있다면, 사용하는 쪽에서는 객체의 구체적인 타입이 무엇인지 신경 쓰지 않고 그냥 `notifier.send()`를 호출하기만 하면 됩니다. 이는 코드의 결합도를 낮추고 유연성을 높여줍니다.

In [None]:
# abc 모듈에서 ABC(추상 클래스)와 abstractmethod(추상 메서드)를 가져옵니다.
from abc import ABC, abstractmethod

# Notifier라는 추상 클래스를 정의합니다.
# 이 클래스는 알림을 보내는 모든 클래스가 따라야 할 '규칙'을 정의합니다.
class Notifier(ABC):

    # `@abstractmethod` 데코레이터는 이 메서드가 추상 메서드임을 나타냅니다.
    # 자식 클래스는 반드시 'send' 메서드를 구현해야 합니다.
    @abstractmethod
    def send(self, message):
        pass # 추상 메서드는 구현 내용이 없습니다.

# Notifier 추상 클래스를 상속받아 구체적인 알림 방식을 구현합니다.
class EmailNotifier(Notifier):
    # 부모의 추상 메서드 'send'를 반드시 구현(오버라이딩)해야 합니다.
    def send(self, message):
        print(f"[Email] '{message}' 전송 완료")

class SMSNotifier(Notifier):
    # 부모의 추상 메서드 'send'를 반드시 구현(오버라이딩)해야 합니다.
    def send(self, message):
        print(f"[SMS] '{message}' 전송 완료")


# alert 함수는 Notifier 타입의 객체를 인자로 받습니다.
# EmailNotifier가 오든 SMSNotifier가 오든 상관없이, 'send' 메서드만 있으면 됩니다. (다형성)
def send_alert(notifier: Notifier, message: str):
    notifier.send(message)

# 각기 다른 타입의 객체를 생성합니다.
email_notifier = EmailNotifier()
sms_notifier = SMSNotifier()

# 동일한 함수에 다른 객체를 전달해도 문제없이 동작합니다.
send_alert(email_notifier, "서버 점검 예정입니다.")
send_alert(sms_notifier, "긴급 장애 발생!")

[Email] '서버 점검 예정입니다.' 전송 완료
[SMS] '긴급 장애 발생!' 전송 완료


### 1-13. 객체 복사: 얕은 복사 vs. 깊은 복사

**개념 설명:**
객체를 복사할 때, 내부의 객체들까지 모두 새로 복사할 것인지, 아니면 참조만 복사할 것인지에 따라 얕은 복사와 깊은 복사로 나뉩니다.

- **얕은 복사 (Shallow Copy):**
  - 객체를 복사할 때, 최상위 객체만 새로 생성하고, 그 안의 내용물(내부 객체)은 원래 객체가 참조하는 것과 동일한 것을 가리키게 하는 방식입니다. (메모리 주소 공유)
  - `copy.copy()` 함수나 리스트의 `[:]` 슬라이싱, `list()` 생성자 등이 얕은 복사에 해당합니다.
  - 복사본의 내부 객체를 수정하면 원본 객체에도 변경 사항이 반영되는 **부작용**이 발생할 수 있습니다.

- **깊은 복사 (Deep Copy):**
  - 객체를 복사할 때, 최상위 객체뿐만 아니라 그 안에 포함된 모든 내부 객체들까지 재귀적으로 전부 복사하여 완전히 새로운 객체를 만드는 방식입니다.
  - `copy.deepcopy()` 함수를 사용합니다.
  - 원본과 복사본은 완전히 독립적이므로, 한쪽을 수정해도 다른 쪽에 아무런 영향을 주지 않습니다.

In [None]:
import copy

# 중첩된 리스트 (내부에 다른 리스트를 포함)
original_list = [1, [2, 3]]

# 1. 얕은 복사 (Shallow Copy)
shallow_copied_list = copy.copy(original_list)

# 얕은 복사 후, 내부 리스트의 요소를 변경해봅니다.
shallow_copied_list[1][0] = 99

print(f"Original list (after shallow copy modification): {original_list}")
print(f"Shallow copied list: {shallow_copied_list}")
print("-> 얕은 복사는 내부 객체([2, 3])를 공유하므로, 복사본을 수정하면 원본도 변경됩니다.")
print("-"*50)

# 원본 리스트를 다시 초기화
original_list = [1, [2, 3]]

# 2. 깊은 복사 (Deep Copy)
deep_copied_list = copy.deepcopy(original_list)

# 깊은 복사 후, 내부 리스트의 요소를 변경해봅니다.
deep_copied_list[1][0] = 99

print(f"Original list (after deep copy modification): {original_list}")
print(f"Deep copied list: {deep_copied_list}")
print("-> 깊은 복사는 내부 객체까지 모두 새로 만들므로, 원본에 영향을 주지 않습니다.")

Original list (after shallow copy modification): [1, [99, 3]]
Shallow copied list: [1, [99, 3]]
-> 얕은 복사는 내부 객체([2, 3])를 공유하므로, 복사본을 수정하면 원본도 변경됩니다.
--------------------------------------------------
Original list (after deep copy modification): [1, [2, 3]]
Deep copied list: [1, [99, 3]]
-> 깊은 복사는 내부 객체까지 모두 새로 만들므로, 원본에 영향을 주지 않습니다.


## 2. 데이터베이스 연동 (MySQL)

**주의:** 이 섹션의 코드를 실행하려면 로컬 또는 원격 환경에 MySQL 데이터베이스가 설치 및 실행 중이어야 하고, 접속 정보(호스트, 사용자, 비밀번호, 데이터베이스명)가 올바르게 설정되어 있어야 합니다.

### 2-1. 데이터베이스 개요 & MySQL 소개

**개념 설명:**
- **데이터베이스 (Database, DB):** 여러 사람이 공유하여 사용할 목적으로, 체계적으로 통합 및 관리되는 데이터의 집합입니다.
- **관계형 데이터베이스 (Relational Database, RDB):** 데이터를 행(Row)과 열(Column)으로 구성된 테이블(Table) 형태로 저장하고, 테이블 간의 관계를 통해 데이터를 관리하는 방식입니다. 정형화된 데이터를 다루는 데 매우 효과적입니다.
- **RDBMS (Relational Database Management System):** 관계형 데이터베이스를 생성하고 관리하는 소프트웨어 시스템입니다. (예: MySQL, Oracle, PostgreSQL, MS SQL Server)
- **MySQL:** 전 세계적으로 가장 널리 사용되는 오픈소스 RDBMS 중 하나입니다. 성능이 뛰어나고 신뢰성이 높으며, 파이썬을 포함한 다양한 프로그래밍 언어와의 연동을 지원하는 생태계가 잘 갖추어져 있습니다.

- **주요 RDB 용어:**
  - **스키마 (Schema):** 데이터베이스의 구조와 제약 조건에 대한 명세. 테이블 구조, 데이터 타입, 키(Key) 관계 등을 정의합니다.
  - **테이블 (Table):** 데이터를 저장하는 기본 단위. 행(레코드)과 열(필드, 속성)로 구성됩니다.
  - **PK (Primary Key, 기본 키):** 테이블의 각 행을 고유하게 식별할 수 있는 값. (예: 학번, 회원 ID) `NULL` 값을 가질 수 없으며, 중복될 수 없습니다.
  - **FK (Foreign Key, 외래 키):** 한 테이블의 열이 다른 테이블의 기본 키를 참조하는 값. 테이블 간의 관계를 정의하는 데 사용됩니다.
  - **인덱스 (Index):** 데이터 검색 속도를 높이기 위한 자료 구조. 책의 '찾아보기'와 같은 역할을 합니다. `WHERE` 절이나 `JOIN` 작업의 성능을 크게 향상시킬 수 있습니다.
  - **트랜잭션 (Transaction):** 데이터베이스의 상태를 변화시키기 위해 수행하는 작업의 논리적 단위. (예: 은행 이체 - 출금과 입금이 모두 성공해야 완료됨)
    - **ACID 원칙:** 트랜잭션이 안전하게 수행되기 위해 지켜야 할 4가지 성질 (원자성, 일관성, 고립성, 지속성)

### 2-2. MySQL 연결 드라이버 설치

**개념 설명:**
파이썬에서 MySQL 데이터베이스에 연결하고 SQL 쿼리를 실행하려면 '드라이버(Driver)'라는 라이브러리가 필요합니다. 파이썬과 MySQL 서버 사이에서 통신을 중개하는 역할을 합니다. 대표적으로 `mysql-connector-python`과 `PyMySQL`이 많이 사용됩니다.

Colab이나 Jupyter Notebook 환경에서는 `!` 문자를 명령어 앞에 붙여 셸(터미널) 명령어를 실행할 수 있습니다.

In [None]:
# Colab 환경에서 MySQL 드라이버를 설치합니다.
# 둘 중 하나만 설치하면 됩니다. 여기서는 mysql-connector-python을 사용하겠습니다.
!pip install mysql-connector-python

Collecting mysql-connector-python
  Downloading mysql_connector_python-9.4.0-cp312-cp312-manylinux_2_28_x86_64.whl.metadata (7.5 kB)
Downloading mysql_connector_python-9.4.0-cp312-cp312-manylinux_2_28_x86_64.whl (33.9 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m33.9/33.9 MB[0m [31m65.7 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: mysql-connector-python
Successfully installed mysql-connector-python-9.4.0


### 2-3. 연결 & 커서 사용법

**개념 설명:**
- **연결 (Connection):** 파이썬 프로그램과 MySQL 데이터베이스 서버 간의 통신 채널을 설정하는 과정입니다. 연결 객체를 통해 트랜잭션을 관리(commit, rollback)할 수 있습니다.
- **커서 (Cursor):** 연결을 통해 생성되며, SQL 쿼리를 실행하고 그 결과를 가져오는 역할을 하는 객체입니다. 커서를 통해 데이터베이스와 실제로 상호작용하게 됩니다.

데이터베이스 작업이 끝나면 반드시 **커서와 연결을 닫아주어야** 서버 자원이 낭비되는 것을 막을 수 있습니다. `try...finally` 구문이나 `with` 문을 사용하면 예외 발생 여부와 상관없이 안전하게 자원을 해제할 수 있습니다.

In [None]:
import mysql.connector
from mysql.connector import Error

# 데이터베이스 연결 정보를 변수로 관리합니다.
# 실제 운영 환경에서는 이런 정보를 코드에 직접 작성하지 않고,
# 환경 변수나 설정 파일을 통해 안전하게 관리해야 합니다.
db_config = {
    'host': 'localhost', # DB 서버 주소 (로컬이므로 localhost)
    'user': 'your_user',     # DB 사용자 이름
    'password': 'your_password', # DB 비밀번호
    'database': 'your_database'  # 사용할 데이터베이스 이름
}

conn = None # 연결 객체를 담을 변수 초기화
cur = None  # 커서 객체를 담을 변수 초기화

try:
    # mysql.connector.connect() 함수로 데이터베이스에 연결합니다.
    conn = mysql.connector.connect(**db_config)
    print("MySQL Database connection successful")

    # 연결로부터 커서를 생성합니다.
    cur = conn.cursor()

    # 간단한 SQL 쿼리를 실행합니다.
    cur.execute("SELECT 1")

    # 쿼리 결과를 한 줄(row) 가져옵니다.
    result = cur.fetchone()
    print("Query result:", result)

except Error as e:
    # 연결 또는 쿼리 실행 중 에러가 발생하면 출력합니다.
    print(f"Error connecting to MySQL Database: {e}")

finally:
    # try 블록의 코드가 성공적으로 끝나든, 에러가 발생하든
    # finally 블록은 항상 실행됩니다.
    # 커서와 연결 객체가 존재하면 안전하게 닫아줍니다.
    if cur is not None:
        cur.close()
    if conn is not None and conn.is_connected():
        conn.close()
        print("MySQL connection is closed")

### 2-4. 테이블 생성 (DDL)

**개념 설명:**
- **DDL (Data Definition Language, 데이터 정의어):** 데이터베이스의 스키마 구조를 정의, 수정, 삭제하는 데 사용되는 SQL 명령어입니다. (`CREATE`, `ALTER`, `DROP` 등)
- **`CREATE TABLE`:** 새로운 테이블을 생성하는 명령어입니다. 테이블 이름, 각 열(column)의 이름과 데이터 타입, 그리고 다양한 제약 조건들을 지정합니다.

- **주요 데이터 타입:**
  - `INT`: 정수
  - `VARCHAR(n)`: 최대 n글자의 가변 길이 문자열
  - `TEXT`: 긴 텍스트
  - `DATETIME`: 날짜와 시간

- **주요 제약 조건:**
  - `PRIMARY KEY`: 기본 키로 지정
  - `AUTO_INCREMENT`: 새로운 행이 추가될 때마다 값이 1씩 자동 증가 (주로 PK에 사용)
  - `NOT NULL`: `NULL` 값을 허용하지 않음
  - `UNIQUE`: 해당 열의 값은 테이블 내에서 중복될 수 없음
  - `DEFAULT value`: 값이 명시되지 않았을 때 사용할 기본값

In [None]:
try:
    # 데이터베이스에 연결합니다.
    conn = mysql.connector.connect(**db_config)
    cur = conn.cursor()

    # 실행할 CREATE TABLE 쿼리문입니다.
    # 여러 줄의 문자열은 따옴표 세 개(""" """)를 사용하면 편리합니다.
    # IF NOT EXISTS: 같은 이름의 테이블이 없을 경우에만 생성합니다.
    create_table_query = """
    CREATE TABLE IF NOT EXISTS users (
        id INT PRIMARY KEY AUTO_INCREMENT,
        email VARCHAR(255) UNIQUE NOT NULL,
        name VARCHAR(100) NOT NULL,
        created_at DATETIME DEFAULT CURRENT_TIMESTAMP
    ) ENGINE=InnoDB
    """

    # 쿼리를 실행합니다.
    cur.execute(create_table_query)
    print("'users' table created or already exists.")

except Error as e:
    print(f"Error: {e}")

finally:
    # 자원을 해제합니다.
    if cur is not None: cur.close()
    if conn is not None and conn.is_connected(): conn.close()

### 2-5. 데이터 삽입 (INSERT)

**개념 설명:**
- **`INSERT INTO`:** 테이블에 새로운 행(데이터)을 추가하는 명령어입니다.
- **파라미터 바인딩 (Parameter Binding):** SQL 쿼리문에 실제 값을 직접 문자열로 조합하지 않고, `?`나 `%s` 같은 플레이스홀더를 사용한 뒤, 실행 시점에 값을 전달하는 방식입니다. 이는 **SQL 인젝션(SQL Injection)** 공격을 방지하는 가장 중요한 보안 기법입니다.
- **`executemany()`:** 여러 개의 데이터를 한 번의 명령으로 삽입할 때 사용하는 메서드입니다. `execute()`를 여러 번 호출하는 것보다 훨씬 효율적입니다.
- **`conn.commit()`:** `INSERT`, `UPDATE`, `DELETE`와 같이 데이터에 변경을 가하는 쿼리를 실행한 후, 그 변경 사항을 데이터베이스에 **최종적으로 확정(저장)**하는 명령어입니다. `commit()`을 호출하지 않으면 변경 사항이 반영되지 않습니다.

In [None]:
try:
    conn = mysql.connector.connect(**db_config)
    cur = conn.cursor()

    # SQL 인젝션에 취약한 나쁜 예 (절대 이렇게 사용하지 마세요!)
    # user_input = "' OR '1'='1'"
    # bad_query = f"INSERT INTO users (email, name) VALUES ('a@ex.com', {user_input})"

    # 파라미터 바인딩을 사용한 안전한 쿼리
    # 값 부분에 플레이스홀더 '%s'를 사용합니다.
    sql = "INSERT INTO users (email, name) VALUES (%s, %s)"

    # 삽입할 데이터 (단일 데이터)
    user_data = ("alice@example.com", "Alice")
    cur.execute(sql, user_data)

    # 여러 개의 데이터를 executemany로 삽입
    users_to_insert = [
        ("bob@example.com", "Bob"),
        ("charlie@example.com", "Charlie")
    ]
    cur.executemany(sql, users_to_insert)

    # 변경 사항을 데이터베이스에 최종 반영합니다.
    conn.commit()

    # cur.lastrowid: 마지막으로 삽입된 행의 ID (AUTO_INCREMENT)
    # cur.rowcount: 영향을 받은 행의 수
    print(f"{cur.rowcount} records inserted successfully.")

except Error as e:
    print(f"Error: {e}")
    # 에러 발생 시 변경 사항을 모두 취소합니다 (롤백).
    if conn: conn.rollback()

finally:
    if cur is not None: cur.close()
    if conn is not None and conn.is_connected(): conn.close()

### 2-6. 데이터 조회 (SELECT)

**개념 설명:**
- **`SELECT`:** 테이블에서 데이터를 조회하는 명령어입니다.
  - `SELECT 컬럼1, 컬럼2 FROM 테이블명 WHERE 조건`
  - `*`는 모든 컬럼을 의미하지만, 성능을 위해 필요한 컬럼만 명시하는 것이 좋습니다.
- **`fetchone()`:** 쿼리 결과 중 한 개의 행을 가져옵니다. 더 이상 가져올 행이 없으면 `None`을 반환합니다.
- **`fetchall()`:** 쿼리 결과의 모든 행을 리스트 형태로 한 번에 가져옵니다. 결과 데이터가 매우 클 경우 메모리 문제를 일으킬 수 있으니 주의해야 합니다.
- **`fetchmany(size)`:** 지정된 `size` 만큼의 행을 가져옵니다.

In [None]:
try:
    conn = mysql.connector.connect(**db_config)
    # 딕셔너리 커서: 결과를 {'컬럼명': 값} 형태의 딕셔너리로 반환해 다루기 편리합니다.
    cur = conn.cursor(dictionary=True)

    # 모든 사용자 조회
    cur.execute("SELECT id, email, name FROM users")

    # fetchall()로 모든 결과를 가져옵니다.
    all_users = cur.fetchall()

    print("[All Users]")
    for user in all_users:
        print(f"ID: {user['id']}, Name: {user['name']}, Email: {user['email']}")

    print("\n" + "-"*30 + "\n")

    # 특정 조건으로 사용자 조회 (파라미터 바인딩 사용)
    search_name = "Alice"
    query = "SELECT id, email, name FROM users WHERE name = %s"

    cur.execute(query, (search_name,))

    # fetchone()으로 한 명의 사용자 정보만 가져옵니다.
    found_user = cur.fetchone()

    if found_user:
        print(f"[Found User]")
        print(f"ID: {found_user['id']}, Name: {found_user['name']}, Email: {found_user['email']}")
    else:
        print(f"User '{search_name}' not found.")

except Error as e:
    print(f"Error: {e}")

finally:
    if cur is not None: cur.close()
    if conn is not None and conn.is_connected(): conn.close()

### 2-7. 데이터 수정/삭제 (UPDATE/DELETE)

**개념 설명:**
- **`UPDATE`:** 테이블의 기존 데이터를 수정하는 명령어입니다. `WHERE` 절을 사용하여 어떤 행을 수정할지 명확히 지정하는 것이 매우 중요합니다. `WHERE` 절을 생략하면 테이블의 모든 행이 변경되는 대참사가 발생할 수 있습니다.
  - `UPDATE 테이블명 SET 컬럼1=값1, 컬럼2=값2 WHERE 조건`
- **`DELETE`:** 테이블에서 행을 삭제하는 명령어입니다. `UPDATE`와 마찬가지로, `WHERE` 절을 통해 삭제할 행을 정확히 지정해야 합니다.
  - `DELETE FROM 테이블명 WHERE 조건`

In [None]:
try:
    conn = mysql.connector.connect(**db_config)
    cur = conn.cursor()

    # --- UPDATE --- #
    # email이 'alice@example.com'인 사용자의 이름을 'Alicia'로 변경합니다.
    update_query = "UPDATE users SET name = %s WHERE email = %s"
    new_name = "Alicia"
    target_email = "alice@example.com"

    cur.execute(update_query, (new_name, target_email))
    print(f"{cur.rowcount} record(s) updated.")

    # --- DELETE --- #
    # email이 'charlie@example.com'인 사용자를 삭제합니다.
    delete_query = "DELETE FROM users WHERE email = %s"
    target_email_to_delete = "charlie@example.com"

    cur.execute(delete_query, (target_email_to_delete,))
    print(f"{cur.rowcount} record(s) deleted.")

    # 변경 사항을 최종 반영합니다.
    conn.commit()

except Error as e:
    print(f"Error: {e}")
    if conn: conn.rollback() # 에러 발생 시 롤백

finally:
    if cur is not None: cur.close()
    if conn is not None and conn.is_connected(): conn.close()

### 2-8. 트랜잭션 & 예외 처리

**개념 설명:**
- **트랜잭션 (Transaction):** 모두 성공하거나 모두 실패해야 하는 논리적인 작업 단위입니다. 예를 들어, A 계좌에서 출금하고 B 계좌로 입금하는 '계좌 이체'는 하나의 트랜잭션입니다. 출금만 성공하고 입금이 실패하면 안 되기 때문입니다.
  - **Commit:** 트랜잭션 내의 모든 작업이 성공적으로 완료되었을 때, 변경 사항을 데이터베이스에 영구적으로 저장합니다.
  - **Rollback:** 트랜잭션 내의 작업 중 하나라도 실패했을 때, 트랜잭션이 시작되기 이전 상태로 모든 변경 사항을 되돌립니다.

`try...except` 구문을 사용하여 데이터베이스 작업을 감싸고, `except` 블록에서 `rollback()`을, `try` 블록이 성공적으로 끝나는 지점에서 `commit()`을 호출하는 것이 일반적인 트랜잭션 처리 패턴입니다.

In [None]:
# 가상의 계좌 이체 시나리오
def transfer_money(from_id, to_id, amount):
    conn = None
    try:
        conn = mysql.connector.connect(**db_config)
        cur = conn.cursor()

        # 1. 출금 계좌 잔액 확인 (이 부분은 실제로는 SELECT FOR UPDATE 등으로 락을 걸어야 안전함)
        # ... (생략)

        # 2. 출금 (UPDATE)
        cur.execute("UPDATE accounts SET balance = balance - %s WHERE id = %s", (amount, from_id))
        print(f"{from_id} 계좌에서 {amount}원 출금")

        # 일부러 에러를 발생시켜 롤백 시나리오를 테스트
        # if True: raise ValueError("인위적인 에러 발생!")

        # 3. 입금 (UPDATE)
        cur.execute("UPDATE accounts SET balance = balance + %s WHERE id = %s", (amount, to_id))
        print(f"{to_id} 계좌에 {amount}원 입금")

        # 4. 모든 작업이 성공했으므로 커밋
        conn.commit()
        print("계좌 이체 성공!")

    except (Error, ValueError) as e:
        print(f"에러 발생: {e}")
        # 작업 중 에러가 발생했으므로 롤백
        if conn:
            conn.rollback()
            print("계좌 이체 실패. 모든 변경 사항이 롤백되었습니다.")
    finally:
        if conn is not None and conn.is_connected():
            conn.close()

# 위 함수를 실행하려면 'accounts' 테이블이 필요합니다. 개념 이해를 위한 예제입니다.

## 3. 웹 스크래핑 (Web Scraping)

웹 스크래핑은 웹 페이지로부터 원하는 데이터를 자동으로 추출하는 기술입니다.

### 3-1. 웹 스크래핑 개요 & 법적 이슈

**개념 설명:**
웹 스크래핑은 웹 브라우저가 화면에 보여주는 웹 페이지의 HTML 소스 코드를 가져와서, 그 안에서 필요한 데이터(텍스트, 이미지 URL, 링크 등)를 파싱(parsing, 분석)하여 추출하는 과정입니다.

**중요: 법적 및 윤리적 고려사항**
웹 스크래핑을 진행하기 전에는 반드시 다음 사항을 확인해야 합니다.

1.  **robots.txt 확인:**
    - 대부분의 웹사이트는 루트 디렉토리에 `robots.txt` 파일을 가지고 있습니다. (예: `https://www.google.com/robots.txt`)
    - 이 파일에는 웹 크롤러가 수집해도 되는 페이지와 수집해서는 안 되는 페이지에 대한 규칙이 명시되어 있습니다. `Disallow`로 지정된 경로는 스크래핑해서는 안 됩니다.

2.  **이용약관 (Terms of Service):**
    - 웹사이트의 이용약관에 데이터 수집이나 자동화된 접근에 대한 금지 조항이 있는지 확인해야 합니다. 약관 위반 시 법적인 문제가 발생할 수 있습니다.

3.  **서버 부하:**
    - 너무 짧은 간격으로 많은 요청을 보내면 대상 서버에 큰 부하를 주어 서비스 장애를 유발할 수 있습니다. 이는 공격(DoS)으로 간주될 수 있습니다. 요청 사이에 적절한 지연 시간(`time.sleep()`)을 두는 것이 예의입니다.

4.  **저작권 및 개인정보:**
    - 수집한 데이터에 저작권이 있거나 개인정보가 포함된 경우, 이를 무단으로 사용하거나 배포해서는 안 됩니다.

### 3-2. `requests`로 페이지 가져오기

**개념 설명:**
`requests`는 파이썬으로 HTTP 요청을 매우 쉽고 간단하게 보낼 수 있도록 해주는 라이브러리입니다. 웹 스크래핑의 첫 단계인 '웹 페이지의 HTML 소스 코드 가져오기'를 수행하는 데 사용됩니다.

In [None]:
# requests 라이브러리 설치
!pip install requests



In [None]:
import requests

# 스크래핑할 대상 URL
url = "https://example.com/"

try:
    # requests.get() 함수로 해당 URL에 GET 요청을 보냅니다.
    # timeout: 지정된 시간(초) 내에 응답이 없으면 에러를 발생시킵니다. (필수적으로 설정 권장)
    response = requests.get(url, timeout=10)

    # HTTP 상태 코드가 200(성공)인지 확인합니다.
    # response.raise_for_status()를 사용하면 200번대가 아닐 경우 자동으로 에러를 발생시킵니다.
    response.raise_for_status()

    # 응답 객체의 주요 속성
    print(f"Status Code: {response.status_code}") # HTTP 상태 코드 (200, 404, 500 등)
    # print(f"Headers: {response.headers}") # 응답 헤더

    # response.text: 응답 본문을 유니코드 텍스트로 가져옵니다.
    # 여기에는 웹 페이지의 전체 HTML 소스 코드가 담겨 있습니다.
    html_content = response.text
    print("\n--- HTML Content (first 300 chars) ---")
    print(html_content[:300])

except requests.exceptions.RequestException as e:
    # 타임아웃, 연결 오류 등 requests 관련 에러를 처리합니다.
    print(f"An error occurred: {e}")

Status Code: 200

--- HTML Content (first 300 chars) ---
<!doctype html>
<html>
<head>
    <title>Example Domain</title>

    <meta charset="utf-8" />
    <meta http-equiv="Content-type" content="text/html; charset=utf-8" />
    <meta name="viewport" content="width=device-width, initial-scale=1" />
    <style type="text/css">
    body {
        background


### 3-3. `BeautifulSoup` 기초: 파싱

**개념 설명:**
`BeautifulSoup`는 `requests`로 가져온 복잡한 HTML 문자열을 파이썬이 다루기 쉬운 객체 구조(파싱 트리)로 변환해주는 라이브러리입니다. 이를 통해 원하는 HTML 태그에 쉽게 접근하고 데이터를 추출할 수 있습니다.

- **파서(Parser):** HTML 문법을 해석하여 트리 구조로 만들어주는 엔진입니다.
  - `html.parser`: 파이썬 내장 파서. 별도 설치가 필요 없어 편리합니다.
  - `lxml`: 매우 빠르고 강력한 외부 파서. 성능이 중요할 때 권장됩니다. (`!pip install lxml` 필요)

In [None]:
# BeautifulSoup 라이브러리 설치
# 4 버전(bs4)을 설치합니다.
!pip install beautifulsoup4



In [None]:
from bs4 import BeautifulSoup

# 예제용 HTML 코드
sample_html = """
<html>
<head>
    <title>Sample Page</title>
</head>
<body>
    <h1>This is a Heading</h1>
    <p class="content">This is a paragraph.</p>
    <a href="https://example.com" id="link1">Link 1</a>
    <p class="content special">This is another paragraph.</p>
</body>
</html>
"""

# BeautifulSoup 객체 생성
# 첫 번째 인자: 파싱할 HTML 문자열
# 두 번째 인자: 사용할 파서의 종류
soup = BeautifulSoup(sample_html, 'html.parser')

# 태그 이름으로 바로 접근 가능 (가장 첫 번째 태그만 반환)
title_tag = soup.title
print(f"Title tag: {title_tag}")

# 태그에서 텍스트 내용만 추출하려면 .text 또는 .get_text() 사용
print(f"Title text: {title_tag.text}")

# 보기 좋게 출력 (pretty print)
print("\n--- Prettified HTML ---")
print(soup.prettify())

Title tag: <title>Sample Page</title>
Title text: Sample Page

--- Prettified HTML ---
<html>
 <head>
  <title>
   Sample Page
  </title>
 </head>
 <body>
  <h1>
   This is a Heading
  </h1>
  <p class="content">
   This is a paragraph.
  </p>
  <a href="https://example.com" id="link1">
   Link 1
  </a>
  <p class="content special">
   This is another paragraph.
  </p>
 </body>
</html>



### 3-4. 태그 탐색: `find()` / `find_all()`

**개념 설명:**
`BeautifulSoup` 객체에서 원하는 태그를 찾는 가장 기본적인 방법입니다.

- **`find(태그명, 속성)`:**
  - 조건에 맞는 **첫 번째** 태그 하나만 찾아서 반환합니다.
  - 조건에 맞는 태그가 없으면 `None`을 반환합니다.

- **`find_all(태그명, 속성)`:**
  - 조건에 맞는 **모든** 태그를 찾아서 리스트(List) 형태로 반환합니다.
  - 조건에 맞는 태그가 없으면 빈 리스트 `[]`를 반환합니다.

속성(attribute)은 딕셔너리 형태로 지정할 수 있습니다. (예: `attrs={'class': 'news', 'id': 'main'}`)

In [None]:
# 위에서 생성한 soup 객체를 계속 사용합니다.

# find(): 'p' 태그 중 첫 번째 것만 찾기
first_p = soup.find('p')
print(f"First 'p' tag: {first_p}")
print(f"Text of first 'p': {first_p.text}\n")

# find_all(): 'p' 태그 모두 찾기
all_p = soup.find_all('p')
print(f"All 'p' tags: {all_p}\n")

print("--- Text from all 'p' tags ---")
for p_tag in all_p:
    print(p_tag.get_text())
print("-"*30 + "\n")

# 속성으로 찾기: id가 'link1'인 태그 찾기
link_tag = soup.find(id='link1')
print(f"Tag with id='link1': {link_tag}")
# 태그의 속성 값은 딕셔너리처럼 접근 가능
print(f"href attribute: {link_tag['href']}\n")

# class 속성으로 찾기
# 'class'는 파이썬의 예약어이므로, 'class_' 처럼 언더스코어를 붙여줍니다.
content_tags = soup.find_all(class_='content')
print(f"Tags with class='content': {content_tags}")

# 여러 조건을 동시에 만족하는 태그 찾기
# 'p' 태그이면서, class가 'content'와 'special'을 모두 포함하는 태그
special_p = soup.find('p', attrs={'class': 'content special'})
print(f"Special 'p' tag: {special_p}")

First 'p' tag: <p class="content">This is a paragraph.</p>
Text of first 'p': This is a paragraph.

All 'p' tags: [<p class="content">This is a paragraph.</p>, <p class="content special">This is another paragraph.</p>]

--- Text from all 'p' tags ---
This is a paragraph.
This is another paragraph.
------------------------------

Tag with id='link1': <a href="https://example.com" id="link1">Link 1</a>
href attribute: https://example.com

Tags with class='content': [<p class="content">This is a paragraph.</p>, <p class="content special">This is another paragraph.</p>]
Special 'p' tag: <p class="content special">This is another paragraph.</p>


### 3-5. CSS 선택자 `select()` 활용

**개념 설명:**
`find`/`find_all` 보다 더 직관적이고 강력하게 태그를 선택할 수 있는 방법으로, 웹 프론트엔드에서 사용하는 CSS 선택자 문법을 그대로 사용할 수 있습니다.

- **`select_one(선택자)`:** CSS 선택자에 해당하는 **첫 번째** 요소를 반환합니다. `find`와 유사합니다.
- **`select(선택자)`:** CSS 선택자에 해당하는 **모든** 요소를 리스트로 반환합니다. `find_all`과 유사합니다.

**자주 사용하는 CSS 선택자:**
- `태그명`: `p`, `div`, `a`
- `.클래스명`: `.content`
- `#아이디명`: `#link1`
- `상위 하위`: `body p` (body 태그 아래의 모든 p 태그)
- `부모 > 자식`: `ul > li` (ul 태그 바로 아래의 li 태그)
- `[속성=값]`: `a[target="_blank"]`

In [None]:
# 예제용 HTML
html_for_select = """
<body>
    <div id="main">
        <ul class="list">
            <li class="item"><a href="/news/1">News 1</a></li>
            <li class="item special"><a href="/news/2">News 2</a></li>
            <li><a href="/news/3">News 3</a></li>
        </ul>
    </div>
</body>
"""
soup_select = BeautifulSoup(html_for_select, 'html.parser')

# select_one(): CSS 선택자로 첫 번째 요소 찾기
# id가 'main'인 div 태그 아래의, class가 'list'인 ul 태그
list_ul = soup_select.select_one("div#main > ul.list")
print(f"Selected ul: {list_ul.prettify()}\n")

# select(): CSS 선택자로 모든 요소 찾기
# class가 'item'인 li 태그 아래의 a 태그들
news_links = soup_select.select("li.item a")
print("--- News Links ---")
for link in news_links:
    # .get_text(strip=True): 텍스트 추출 시 앞뒤 공백 제거
    # .get('속성명'): 속성 값이 없을 때 에러 대신 None을 반환하여 더 안전함
    title = link.get_text(strip=True)
    href = link.get('href')
    print(f"Title: {title}, Href: {href}")

Selected ul: <ul class="list">
 <li class="item">
  <a href="/news/1">
   News 1
  </a>
 </li>
 <li class="item special">
  <a href="/news/2">
   News 2
  </a>
 </li>
 <li>
  <a href="/news/3">
   News 3
  </a>
 </li>
</ul>


--- News Links ---
Title: News 1, Href: /news/1
Title: News 2, Href: /news/2


### 3-6. Selenium 소개 및 활용

**개념 설명:**
`requests`와 `BeautifulSoup`는 처음 로드된 정적인 HTML 페이지를 분석하는 데는 효과적이지만, **JavaScript**에 의해 내용이 동적으로 변경되거나 로드되는 '동적 웹 페이지'는 제대로 스크래핑할 수 없습니다. (예: '더보기' 버튼을 눌러야 나타나는 콘텐츠, 무한 스크롤 페이지)

**Selenium**은 웹 브라우저(크롬, 파이어폭스 등) 자체를 코드로 직접 제어하는 자동화 도구입니다. 사람이 브라우저를 사용하듯이 페이지를 열고, 버튼을 클릭하고, 텍스트를 입력하고, 스크롤하는 등의 작업을 할 수 있습니다. 이 과정을 통해 JavaScript가 모두 실행된 후의 최종적인 HTML 소스를 얻을 수 있어 동적 웹 페이지 스크래핑에 필수적입니다.

**단점:** 실제 브라우저를 구동하므로 `requests`보다 훨씬 느리고 시스템 자원을 많이 사용합니다.

In [None]:
# Install necessary packages for headless Chrome
!apt-get update
!apt-get install -y chromium-browser chromium-browser-l10n chromium-codecs-ffmpeg

# Selenium과 웹 드라이버 관리자 설치
# 최신 버전으로 다시 설치하여 버전 불일치 문제를 해결 시도
!pip install --upgrade selenium webdriver-manager

# 설치된 Chrome 브라우저 버전 확인 (선택 사항 - 디버깅용)
!chromium-browser --version

In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time

# Colab 환경에서 Selenium을 사용하기 위한 옵션 설정
options = webdriver.ChromeOptions()
options.add_argument('--headless') # 브라우저 창을 띄우지 않는 헤드리스 모드
options.add_argument('--no-sandbox')
options.add_argument("--single-process")
options.add_argument('--disable-dev-shm-usage')
options.add_argument('--window-size=1920x1080') # 창 크기 설정 (헤드리스 모드에서도 유용)
options.add_argument('--ignore-certificate-errors') # 인증서 오류 무시
options.add_argument('--disable-extensions') # 확장 프로그램 비활성화
options.add_argument('--start-maximized') # 브라우저 창 최대화 상태로 시작

# Chrome binary 경로 명시 (Colab 기본 경로)
options.binary_location = '/usr/bin/chromium-browser'

# 웹 드라이버 설정
driver = webdriver.Chrome(options=options)
try:
    # webdriver-manager를 사용하여 Chrome 드라이버 자동 설치 및 경로 설정
    service = Service(ChromeDriverManager().install())
    driver = webdriver.Chrome(service=service, options=options)

    # 동적 웹 페이지 예시 (네이버 증권 국내증시 페이지)
    driver.get("https://finance.naver.com/sise/sise_market_sum.naver")

    # 명시적 대기 (Explicit Wait)
    # 페이지가 동적으로 로드될 때, 특정 요소가 나타날 때까지 기다려주는 기능
    # time.sleep() 같은 무조건적인 대기보다 훨씬 안정적이고 효율적입니다.
    # 최대 5초까지 기다리되, id가 'contentarea'인 요소가 나타나면 바로 다음 코드를 실행
    WebDriverWait(driver, 5).until(
        EC.presence_of_element_located((By.ID, "contentarea"))
    )
    print("페이지 로딩 완료")

    # Selenium으로 찾은 요소는 find_element / find_elements 사용
    # 상위 10개 종목의 이름을 가져와 보겠습니다.
    # CSS 선택자: #contentarea > div.box_type_l > table.type_2 > tbody > tr
    # find_elements는 조건에 맞는 모든 요소를 리스트로 반환합니다.
    stock_rows = driver.find_elements(By.CSS_SELECTOR, "table.type_2 > tbody > tr")

    print("\n--- 코스피 상위 5개 종목 ---")
    count = 0
    for row in stock_rows:
        if count >= 5:
            break
        # 각 행(tr)에서 종목명(a 태그)을 찾습니다.
        try:
            name_tag = row.find_element(By.CSS_SELECTOR, "td:nth-child(2) > a")
            if name_tag.text.strip(): # 빈 줄은 제외
                print(name_tag.text)
                count += 1
        except:
            # 광고나 빈 줄 등 다른 형식의 tr은 건너뛰거나 에러 무시
            pass


finally:
    # 작업이 끝나면 반드시 드라이버를 종료하여 자원을 해제합니다.
    if driver:
        driver.quit()



###############################
# 현재 코랩상으로는 크롬 버전과 selenium 버전이 맞지않아 실행 에러 발생
# 알고만 있자!!

## 4. 데이터 저장: CSV

**개념 설명:**
스크래핑한 데이터는 분석하거나 재사용하기 위해 파일이나 데이터베이스에 저장해야 합니다. **CSV(Comma-Separated Values)** 파일은 쉼표로 값을 구분하는 간단한 텍스트 파일 형식으로, 엑셀과 같은 스프레드시트 프로그램에서 쉽게 열 수 있어 널리 사용됩니다.

파이썬의 내장 `csv` 모듈을 사용하면 CSV 파일을 쉽게 읽고 쓸 수 있습니다.

In [None]:
import csv

# 저장할 데이터 (리스트의 리스트 형태)
news_data = [
    ['정치', '새로운 정책 발표', 'https://.../news/1'],
    ['경제', '코스피 3000 돌파', 'https://.../news/2'],
    ['사회', '거리두기 단계 조정', 'https://.../news/3']
]

# CSV 파일 헤더(컬럼명)
header = ['category', 'title', 'url']

# 파일 이름
filename = 'scraped_news.csv'

# CSV 파일로 저장
# with open(...) as f: 구문을 사용하면 파일을 사용한 후 자동으로 닫아줍니다.
# newline='': CSV 파일 작성 시 불필요한 빈 줄이 생기는 것을 방지합니다.
# encoding='utf-8-sig': 한글이 깨지지 않게 하고, Excel에서 열 때 인코딩 문제를 방지합니다.
with open(filename, 'w', newline='', encoding='utf-8-sig') as f:
    # csv.writer 객체 생성
    writer = csv.writer(f)

    # writerow()로 헤더 한 줄 쓰기
    writer.writerow(header)

    # writerows()로 데이터 여러 줄 한 번에 쓰기
    writer.writerows(news_data)

print(f"'{filename}' 파일이 성공적으로 저장되었습니다.")

# Colab 왼쪽의 파일 탐색기에서 생성된 파일을 확인할 수 있습니다.