# Exception Handling
Python의 예외 처리(Exception Handling)는 `try`, `except`, `else`, `finally` 블록을 사용하여 프로그램 실행 중 발생하는 오류(예외)에 대처하고, 코드의 안정성과 유연성을 높이는 필수적인 기능입니다.

-----

### 1. 기본 예외 처리 구조: `try`와 `except`

가장 기본적인 예외 처리 구조는 **`try`** 블록 안에 오류가 발생할 가능성이 있는 코드를 넣고, **`except`** 블록에서 특정 예외가 발생했을 때 실행할 코드를 정의하는 것입니다.

  * **`try`**: 예외 발생이 예상되는 코드 블록입니다.
  * **`except`** [예외 타입]: `try` 블록에서 특정 예외가 발생하면 실행되는 코드 블록입니다.
      * **특정 예외만 처리**: `except ValueError:`처럼 특정 예외 유형을 명시하여 해당 오류만 처리할 수 있습니다.
      * **여러 예외 동시 처리**: `except (ValueError, TypeError):` 와 같이 튜플을 사용하여 여러 예외를 한 번에 처리할 수 있습니다.
      * **모든 예외 처리**: `except Exception:` 또는 `except:` 와 같이 사용하여 모든 종류의 예외를 처리할 수 있지만, 구체적인 예외를 명시하는 것이 좋습니다.

<!-- end list -->

```python
try:
    # 0으로 나누는 예외를 발생시킵니다.
    result = 10 / 0
except ZeroDivisionError as e:
    # ZeroDivisionError가 발생했을 때 실행됩니다.
    print(f"오류가 발생했습니다: {e}")
```

-----

### 2. 예외 처리 확장 구조: `else`와 `finally`

`try-except` 구조에 \*\*`else`\*\*와 \*\*`finally`\*\*를 추가하여 더 정교한 예외 처리를 할 수 있습니다.

  * **`else`**: `try` 블록에서 **예외가 발생하지 않았을 때** 실행되는 코드 블록입니다.
  * **`finally`**: 예외 발생 여부와 **상관없이 항상** 실행되는 코드 블록입니다. 주로 파일 닫기, 데이터베이스 연결 해제 등 마무리 작업에 사용됩니다.

<!-- end list -->

```python
try:
    # 예외가 발생하지 않는 코드
    num = int('123')
except ValueError as e:
    print(f"값 오류가 발생했습니다: {e}")
else:
    # try 블록이 성공적으로 실행되었을 때 실행됩니다.
    print("성공적으로 숫자로 변환되었습니다.")
finally:
    # 예외 발생 여부와 상관없이 항상 실행됩니다.
    print("프로그램이 종료되었습니다.")
```

-----

### 3. 예외 발생시키기와 사용자 정의 예외

필요에 따라 의도적으로 예외를 발생시키거나, 특정 상황에 맞는 새로운 예외를 직접 만들어 사용할 수 있습니다.

  * **`raise`**: 특정 예외를 의도적으로 발생시킬 때 사용합니다. 특정 조건에서 오류를 강제해야 할 때 유용합니다.
      * `raise ValueError("유효하지 않은 값입니다.")`
  * **사용자 정의 예외(Custom Exception)**: Python의 `Exception` 클래스를 상속받아 새로운 예외 클래스를 만들 수 있습니다. 이를 통해 애플리케이션의 특정 도메인에 맞는 명확한 오류 처리가 가능해집니다.

<!-- end list -->

```python
# 사용자 정의 예외 클래스 생성
class MyCustomError(Exception):
    pass

def check_positive(number):
    if number <= 0:
        # 조건이 맞지 않으면 사용자 정의 예외를 발생시킵니다.
        raise MyCustomError("양수만 입력해야 합니다.")
    return number

try:
    check_positive(-5)
except MyCustomError as e:
    print(f"사용자 정의 오류: {e}")
```

### 4. Built-in Exception 
    - IndexError
    - NameError
    - ZeroDevisionError
    - ValueError
    - FileNotFoundError

### 특정 조건 만족이 아닐 때 assert 문
assert 문은 프로그램이 특정 조건을 반드시 만족해야 하는지 검증하는 디버깅 보조 도구이며, 이는 일반적인 오류 처리가 아닌 개발 과정의 논리적 오류를 찾기 위한 목적이다.

#### 1. assert 문의 기본 구조 동작
```python
# 기본 문법 
assert {조건문}, 조건이 거짓일 때 출력할 메시지
```

- 조건문이 참이면 아무일 없이 다음 코드가 계속 실행됨 
- 조건문이 거짓이면 `AssertionError` 예외 발생 및 프로그램이 중단 된다.

```python
# 예시 1: 조건이 참인 경우
x = 10
assert x > 5, "x는 5보다 커야 합니다." # 결국 디버깅 시 확인하는 용도이고, 에러가 나는지 디버깅 시 print 대신 사용이 가능하다.
print("이 코드는 실행됩니다.") # 정상적으로 출력됨

# 예시 2: 조건이 거짓인 경우
y = 3
assert y > 5, "y는 5보다 커야 합니다."
print("이 코드는 실행되지 않습니다.") # AssertionError가 발생하여 프로그램 중단
```



In [None]:
def processX(x: int) -> int:
    assert x > 0, f'들어온 값: {x}를 확인해주세요'
    return x - 1

processX(5)
processX(3)
# processX(0) # AssertionError 발생함
# processX(-1) 

AssertionError: 들어온 값: 0를 확인해주세요

# File Handling
Python의 파일 입출력(File I/O)은 내장 함수인 `open()`을 사용하여 파일을 열고, **`with` 문**을 통해 자동으로 리소스를 관리하며, 다양한 모드(읽기, 쓰기 등)로 파일의 내용을 다루는 작업입니다. `with` 문을 사용하는 것이 오류 발생 시에도 파일을 안전하게 닫아주므로 표준적인 방법으로 권장됩니다.

-----

### 1. 파일 열고 닫기: `with` 문 사용

파일 작업을 할 때 가장 중요한 것은 파일을 연 후에 반드시 닫는 것입니다. **`with`** 문은 이 과정을 자동으로 처리해주어 코드의 안정성과 간결함을 높여줍니다.

  * **기본 문법**: `with open('파일 경로', '모드') as 파일_객체:`
  * **동작 방식**: `with` 블록 안에서 파일 작업을 수행하고, 블록이 종료되면 (오류 발생 여부와 상관없이) 파일이 자동으로 닫힙니다 (`close()` 메서드가 자동 호출됨).

<!-- end list -->

```python
# 'w' 모드로 파일을 열어 내용을 쓰고, with 블록이 끝나면 자동으로 닫힌다.
with open('example.txt', 'w') as f:
    f.write('Hello, Python File I/O!')

# 파일을 직접 열고 닫는 구식 방법 (권장되지 않음)
# f = open('example.txt', 'w')
# try:
#     f.write('Hello, Python!')
# finally:
#     f.close()
```

-----

### 2. 파일 읽기 (Reading)

파일을 읽을 때는 **'r' (read) 모드**를 사용하며, 파일의 크기와 처리 방식에 따라 여러 메서드를 선택할 수 있습니다.

  * **`read()`**: 파일의 **전체 내용**을 하나의 문자열로 읽어옵니다. 파일이 매우 클 경우 메모리 문제를 일으킬 수 있으니 주의해야 합니다.
  * **`readline()`**: 파일의 내용을 **한 줄씩** 문자열로 읽어옵니다. 파일의 끝에 도달하면 빈 문자열을 반환합니다.
  * **`readlines()`**: 파일의 모든 줄을 읽어와 **리스트** 형태로 반환합니다. 각 줄은 리스트의 한 요소가 됩니다.
  * **`for` 문을 이용한 반복**: 파일을 한 줄씩 순회하는 가장 효율적이고 파이썬다운(Pythonic) 방법입니다.

<!-- end list -->

```python
# example.txt 파일에 미리 아래 내용을 저장했다고 가정
# Line 1
# Line 2
# Line 3

with open('example.txt', 'r') as f:
    # 1. 전체 읽기
    # content = f.read() 
    # print(content)

    # 2. 한 줄씩 순회하며 읽기 (가장 권장되는 방식)
    for line in f:
        print(line.strip()) # strip()으로 양 끝의 공백 또는 개행 문자 제거
```

-----

### 3. 파일 쓰기 (Writing)

파일에 내용을 쓸 때는 **'w' (write) 모드** 또는 **'a' (append) 모드**를 사용합니다.

  * **`'w'` (Write)**: 파일을 쓰기 모드로 엽니다.
      * 파일이 **존재하면**, 기존의 **모든 내용을 삭제**하고 처음부터 새로 씁니다.
      * 파일이 **없으면**, 새로운 파일을 생성합니다.
  * **`'a'` (Append)**: 파일을 추가 모드로 엽니다.
      * 파일이 **존재하면**, 기존 내용의 **가장 뒤에** 새로운 내용을 추가합니다.
      * 파일이 **없으면**, 새로운 파일을 생성합니다.
  * **`write()` 메서드**: 문자열을 파일에 씁니다. 이 메서드는 줄바꿈 문자(`\n`)를 자동으로 추가하지 않으므로 필요시 직접 넣어주어야 합니다.

<!-- end list -->

```python
# 'w' 모드: 파일 내용을 덮어쓴다.
with open('log.txt', 'w') as f:
    f.write('Log entry 1\n')
    f.write('Log entry 2\n')

# 'a' 모드: 파일 끝에 내용을 추가한다.
with open('log.txt', 'a') as f:
    f.write('Log entry 3 (appended)\n')
```

-----

### 4. 다양한 파일 모드 (File Modes)

`open()` 함수는 다양한 모드를 지원하여 여러 가지 파일 처리 상황에 대응할 수 있습니다.

| 모드 | 설명                                                                         |
| :--- | :--------------------------------------------------------------------------- |
| **`r`** | **읽기** 모드 (기본값). 파일이 없으면 `FileNotFoundError` 발생.                |
| **`w`** | **쓰기** 모드. 파일 내용을 덮어쓴다. 파일이 없으면 생성.                     |
| **`a`** | **추가** 모드. 파일의 끝에 내용을 추가한다. 파일이 없으면 생성.              |
| **`x`** | **배타적 생성** 모드. 파일이 이미 존재하면 `FileExistsError` 발생.           |
| **`b`** | **바이너리(Binary)** 모드. 텍스트가 아닌 이미지, 동영상 등 처리 시 사용 (예: `rb`, `wb`). |
| **`t`** | **텍스트(Text)** 모드 (기본값).                                              |
| **`+`** | **업데이트(읽기/쓰기)** 모드. 기존 모드에 읽기/쓰기 기능을 추가 (예: `r+`, `w+`). |

In [9]:
contents = []

with open('yesterday.txt', 'r') as f:
    # contents = f.read() # 전체 읽기
    # contents = f.readline() # 한줄 읽기
    contents = f.readlines() # 전체 읽기 => 배열로 반환

print(contents)
print(len(contents))


['Lorem ipsum dolor sit amet, consectetur adipiscing elit. Vivamus eu tellus elit. Donec a pretium lacus. Aliquam in venenatis nisi. Sed et lobortis orci. Quisque feugiat blandit libero vel porta. Vivamus fermentum leo ut lectus elementum auctor. Duis non vestibulum velit. Nunc nec nunc sed purus vulputate sagittis. Morbi efficitur hendrerit purus id imperdiet. Fusce quis interdum felis, et viverra justo. Proin interdum condimentum ex, et semper elit mollis sed.\n', '\n', 'Ut pharetra feugiat lacus vitae suscipit. Nulla sit amet gravida ex. Maecenas sed mauris aliquet, varius erat ac, pretium enim. Integer tincidunt mi vitae placerat tincidunt. Praesent fermentum commodo augue ac tincidunt. Vestibulum id pellentesque augue. Aliquam dictum velit nec tellus ultrices posuere. Cras sit amet sem lorem. Proin ut hendrerit urna, sit amet cursus justo. Nunc semper ante nec nisi ornare fringilla. Donec consequat at lacus sit amet vehicula. Nam iaculis ex nunc, at faucibus nisl interdum vel. Sed

In [32]:
import pprint

contents = {}

with open('yesterday.txt', 'r') as f:
    i = 0
    while True:     
        line = f.readline()
        if not line:
            break

        cut_line = line.strip()
        if len(cut_line) == 0:
            continue
        contents.update({i: cut_line})
        i = i + 1

# pprint.pprint(contents) # pretty print 의 약자, 제멋대로 보기 좋게 만듬!
# print(contents) # 가장 심플한 출력, 줄바꿈만 해주고 싶다면 차라리 루프를 돌려라

for k,v in zip(contents.keys(), contents.values()):
    print (f'[{k}] : {v}')
    if k == 10:
        break
    # pprint.pprint (f'[{k}] : {v}')

print(len(contents))


[0] : Lorem ipsum dolor sit amet, consectetur adipiscing elit. Vivamus eu tellus elit. Donec a pretium lacus. Aliquam in venenatis nisi. Sed et lobortis orci. Quisque feugiat blandit libero vel porta. Vivamus fermentum leo ut lectus elementum auctor. Duis non vestibulum velit. Nunc nec nunc sed purus vulputate sagittis. Morbi efficitur hendrerit purus id imperdiet. Fusce quis interdum felis, et viverra justo. Proin interdum condimentum ex, et semper elit mollis sed.
[1] : Ut pharetra feugiat lacus vitae suscipit. Nulla sit amet gravida ex. Maecenas sed mauris aliquet, varius erat ac, pretium enim. Integer tincidunt mi vitae placerat tincidunt. Praesent fermentum commodo augue ac tincidunt. Vestibulum id pellentesque augue. Aliquam dictum velit nec tellus ultrices posuere. Cras sit amet sem lorem. Proin ut hendrerit urna, sit amet cursus justo. Nunc semper ante nec nisi ornare fringilla. Donec consequat at lacus sit amet vehicula. Nam iaculis ex nunc, at faucibus nisl interdum vel. Sed 

# OS 모듈 
저는 Jarvis입니다. 알겠습니다. 경로의 **속성을 확인**하는 `os.path` 모듈의 주요 `is` 시리즈 메서드를 추가하여 디렉터리 조작 메서드를 다시 정리해 드리겠습니다.

-----

### 1. 경로 속성 확인: `os.path.is...()` 시리즈 🧐

`os.path` 모듈은 파일이나 디렉터리 자체를 조작하기보다는, 해당 경로가 어떤 속성을 가지고 있는지 **확인(True/False)**하는 데 사용됩니다.

  - **`os.path.exists(path)`**: 경로가 **존재하는지** 확인합니다. 파일이든 디렉터리든 상관없이 경로가 있으면 `True`를 반환합니다.
  - **`os.path.isdir(path)`**: 경로가 존재하면서 **디렉터리인지** 확인합니다.
  - **`os.path.isfile(path)`**: 경로가 존재하면서 **파일인지** 확인합니다.

<!-- end list -->

```python
import os

path_to_check = 'parent'

# 'parent' 디렉터리가 존재한다고 가정
if os.path.exists(path_to_check):
    print(f"'{path_to_check}' 경로가 존재합니다.")
    
    if os.path.isdir(path_to_check):
        print("이 경로는 디렉터리입니다.")
        
    if os.path.isfile(path_to_check):
        print("이 경로는 파일입니다.")
else:
    print(f"'{path_to_check}' 경로가 존재하지 않습니다.")
```

-----

### 2. 디렉터리 생성: `mkdir()` & `makedirs()` 📂

  - **`os.mkdir(path)`**: **단일 디렉터리**를 생성합니다. 경로의 중간 디렉터리가 존재하지 않으면 `FileNotFoundError`가 발생합니다.
  - **`os.makedirs(path, exist_ok=True)`**: **여러 깊이의 경로**에 있는 디렉터리를 한 번에 생성합니다. `exist_ok=True` 옵션을 주면 디렉터리가 이미 존재해도 오류가 발생하지 않습니다.

<!-- end list -->

```python
# 'is' 시리즈와 함께 사용하는 일반적인 패턴
if not os.path.exists('test_dir'):
    os.mkdir('test_dir')

# 여러 깊이의 디렉터리 한 번에 생성
os.makedirs('parent/child/grandchild', exist_ok=True)
```

-----

### 3. 디렉터리 조회: `getcwd()` & `listdir()` 🗺️

  - **`os.getcwd()`**: **현재 작업 디렉터리(Current Working Directory)**의 경로를 문자열로 반환합니다.
  - **`os.listdir(path)`**: 지정된 `path` 안에 있는 모든 파일과 디렉터리의 이름을 **리스트**로 반환합니다.

<!-- end list -->

```python
current_directory = os.getcwd()
print(f"현재 위치: {current_directory}")

# 현재 디렉터리의 내용물 중 디렉터리만 골라서 출력하기
for item in os.listdir('.'):
    if os.path.isdir(item):
        print(f"하위 디렉터리: {item}")
```

-----

### 4. 디렉터리 위치 변경: `chdir()` ➡️

  - **`os.chdir(path)`**: **현재 작업 디렉터리**를 지정된 `path`로 변경합니다. 파일 경로를 다룰 때 기준점을 옮기는 역할을 합니다.

<!-- end list -->

```python
target_dir = 'parent/child'

if os.path.isdir(target_dir):
    os.chdir(target_dir)
    print(f"작업 디렉터리를 '{os.getcwd()}'로 변경했습니다.")
else:
    print(f"'{target_dir}'는 디렉터리가 아니거나 존재하지 않습니다.")
```

-----

### 5. 디렉터리 삭제: `rmdir()` & `removedirs()` 🗑️

  - **`os.rmdir(path)`**: **비어 있는 단일 디렉터리**를 삭제합니다. 디렉터리 안에 파일이 있으면 `OSError`가 발생합니다.
  - **`os.removedirs(path)`**: **비어 있는 디렉터리들을 재귀적으로 삭제**합니다. 가장 하위 디렉터리부터 시작하여 상위 디렉터리가 비어 있으면 계속해서 삭제합니다.

<!-- end list -->

```python
dir_to_remove = 'parent/child/grandchild'

if os.path.exists(dir_to_remove):
    try:
        os.removedirs(dir_to_remove)
        print(f"'{dir_to_remove}'부터 연쇄적으로 삭제했습니다.")
    except OSError:
        print(f"'{dir_to_remove}' 또는 그 상위 디렉터리가 비어있지 않습니다.")
```

# Pickle

`pickle` 모듈은 파이썬 객체를 그 구조 그대로 파일에 저장(직렬화)하거나 파일에서 다시 객체로 복원(역직렬화)하는 표준 라이브러리입니다. 거의 모든 파이썬 객체를 '냉동'시켜 파일에 보관했다가 나중에 '해동'해서 재사용하는 것과 같습니다.

-----

### 핵심 기능: 객체 직렬화 (Serialization)

`pickle`의 동작은 두 가지로 나뉩니다. 이때 파일은 반드시 **바이너리 모드(`wb`/`rb`)**로 열어야 합니다.

  - **`pickle.dump(obj, file)` (피클링)**: 메모리상의 파이썬 객체(`obj`)를 바이트 스트림으로 변환하여 파일(`file`)에 저장합니다.
  - **`pickle.load(file)` (언피클링)**: 파일(`file`)에서 바이트 스트림을 읽어 원래의 파이썬 객체로 복원합니다.

<!-- end list -->

```python
import pickle

# 1. 딕셔너리 객체를 'gamedata.pkl' 파일에 저장 (피클링)
game_data = {'level': 99, 'items': ['sword', 'shield']}
with open('gamedata.pkl', 'wb') as f:
    pickle.dump(game_data, f)

# 2. 파일에서 객체를 다시 불러오기 (언피클링)
with open('gamedata.pkl', 'rb') as f:
    loaded_data = pickle.load(f)

print(loaded_data)  # {'level': 99, 'items': ['sword', 'shield']}
```

-----

### ⚠️ 가장 중요한 보안 경고

언피클링은 단순히 데이터를 변수에 담는 과정이 아닙니다. `pickle` 데이터는 객체를 어떻게 재조립할지에 대한 **'실행 가능한 지침서'**를 포함할 수 있습니다.

  - **위험성**: 악의적으로 조작된 `pickle` 파일은 `__reduce__()`와 같은 특별 메서드를 통해 **임의의 시스템 명령어(코드)를 실행**할 수 있습니다.
  - **결론**: **신뢰할 수 없는 출처의 `pickle` 파일은 절대로 열어서는 안 됩니다.**

-----

### Pickle vs. JSON: 언제 무엇을 써야 하는가?

보안에 대한 우려 때문에 `pickle`의 대안으로 `JSON`이 자주 언급됩니다.

  - **JSON (안전한 선택)**: 순수한 **'데이터'**만 다룹니다. 파일을 읽어도 코드가 실행될 위험이 전혀 없습니다. 보안이 중요하거나 다른 시스템과 데이터를 교환할 때 사용해야 합니다. 단, 객체를 저장하려면 개발자가 직접 `객체 -> 딕셔너리` 변환 로직을 작성해야 합니다.

  - **Pickle (편리하지만 위험한 선택)**: 거의 모든 파이썬 객체를 코드 한 줄로 저장하고 복원할 수 있어 매우 편리합니다. 하지만 앞서 언급된 보안 위험 때문에, **내부적으로 사용하고 파일의 출처가 100% 보장될 때만** 제한적으로 사용하는 것이 좋습니다.

Python의 내장 `logging` 모듈은 프로그램 실행 중 발생하는 이벤트를 추적하는 표준적인 방법을 제공합니다. 단순한 `print()` 문과 달리, 이벤트의 중요도(레벨)에 따라 출력을 제어하고, 다양한 형식으로 여러 대상(파일, 콘솔 등)에 로그를 남길 수 있는 강력한 기능을 갖추고 있습니다.

-----

### 로깅의 5가지 레벨 (Logging Levels) 🚦

`logging` 모듈은 이벤트의 심각성을 나타내는 5가지 표준 레벨을 사용합니다. 기본 설정에서는 **`WARNING`** 레벨 이상의 로그만 출력됩니다.

1.  **`DEBUG`**: 상세한 진단 정보. 주로 개발 단계에서 문제를 진단할 때 사용합니다.
2.  **`INFO`**: 프로그램이 예상대로 작동하고 있음을 확인하는 일반 정보. (예: 서비스 시작, 설정 로드)
3.  **`WARNING`**: 예상치 못한 일이 발생했지만, 아직 프로그램이 작동하는 데 문제는 없는 상황. (기본 레벨)
4.  **`ERROR`**: 더 심각한 문제로 인해 프로그램이 일부 기능을 수행하지 못한 상황.
5.  **`CRITICAL`**: 프로그램 전체가 중단될 수 있는 매우 심각한 오류.

-----

### 기본 설정 및 사용법: `basicConfig`

가장 간단하게 로깅을 설정하는 방법은 `logging.basicConfig()`를 사용하는 것입니다. 이 함수는 프로그램이 시작될 때 **단 한 번만** 호출하여 로거(Logger)를 설정합니다.

  - **`level`**: 출력할 최소 로그 레벨을 지정합니다. (예: `logging.INFO`)
  - **`format`**: 로그 메시지의 형식을 지정합니다.
  - **`filename`**: 로그를 출력할 파일 이름을 지정합니다. 이 인자를 생략하면 콘솔에 출력됩니다.

<!-- end list -->

```python
import logging

# 로깅 기본 설정 (INFO 레벨 이상의 로그를 'app.log' 파일에 저장)
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(name)s - %(levelname)s - %(message)s',
    filename='app.log'
)

# 이제 logging 함수를 사용하여 로그를 기록할 수 있습니다.
logging.debug("이 메시지는 출력되지 않습니다. (레벨이 낮음)")
logging.info("프로그램이 시작되었습니다.")
logging.warning("외부 API 응답이 느립니다.")
logging.error("파일을 찾을 수 없습니다.")

print("프로그램이 종료되었습니다. 'app.log' 파일을 확인해보세요.")
```

**`app.log` 파일 내용:**

```
2025-08-19 15:30:00,123 - root - INFO - 프로그램이 시작되었습니다.
2025-08-19 15:30:00,124 - root - WARNING - 외부 API 응답이 느립니다.
2025-08-19 15:30:00,125 - root - ERROR - 파일을 찾을 수 없습니다.
```

-----

### 고급 로깅의 4가지 주요 구성 요소 🏗️

더 복잡하고 유연한 로깅을 위해 `logging` 모듈은 4가지 주요 구성 요소를 사용합니다.

1.  **Loggers (로거)**: 로그 메시지를 생성하는 주체입니다. `logging.getLogger(__name__)`과 같이 모듈별로 로거를 생성하여 사용하는 것이 일반적입니다. 이를 통해 어떤 모듈에서 로그가 발생했는지 쉽게 추적할 수 있습니다.

2.  **Handlers (핸들러)**: 로거가 생성한 로그를 어디로 보낼지 결정합니다.

      - `StreamHandler`: 콘솔(터미널)로 로그를 보냅니다.
      - `FileHandler`: 파일로 로그를 보냅니다.
      - `SMTPHandler`: 이메일로 로그를 보냅니다.

3.  **Formatters (포매터)**: 로그 메시지의 최종 출력 형식을 지정합니다. `basicConfig`의 `format` 인자와 동일한 역할을 하지만, 각 핸들러별로 다른 형식을 지정할 수 있습니다.

4.  **Filters (필터)**: 특정 조건에 맞는 로그만 핸들러로 전달되도록 필터링하는 데 사용됩니다.

이 구성 요소들을 조합하면, "A 모듈에서 발생한 `ERROR` 레벨 이상의 로그는 특정 형식으로 이메일로 보내고, `INFO` 레벨의 로그는 다른 형식으로 콘솔에만 출력"하는 것과 같은 정교한 로깅 시스템을 구축할 수 있습니다.

---

네, 맞습니다. **그냥 두 핸들러를 모두 등록하면 됩니다.** `logging` 모듈은 여러 개의 핸들러를 동시에 사용하는 것을 완벽하게 지원합니다.

로거(Logger)에 핸들러를 추가할 때마다, 해당 로거에서 발생하는 로그는 등록된 **모든 핸들러**로 전달됩니다. 따라서 파일과 콘솔에 동시에 로그를 남기고 싶다면, `FileHandler`와 `StreamHandler`를 각각 생성하여 로거에 `addHandler()`를 두 번 호출해주면 됩니다.

-----

### 파일과 콘솔에 동시 로깅하는 방법

`basicConfig`는 기본적인 설정에만 사용되므로, 여러 핸들러를 다루기 위해서는 `getLogger`를 통해 로거 객체를 직접 얻어와 설정하는 것이 표준적인 방법입니다.

**전체 코드 예시:**

```python
import logging

# 1. 로거(Logger) 생성
# __name__을 사용하면 현재 모듈의 이름으로 로거가 생성됩니다. (예: 'main')
logger = logging.getLogger(__name__)

# 로거의 레벨을 설정합니다. 이 레벨 이상의 로그만 핸들러로 전달됩니다.
logger.setLevel(logging.INFO)


# 2. 핸들러(Handler) 생성
# 2-1. 콘솔 핸들러 (StreamHandler)
console_handler = logging.StreamHandler()
console_handler.setLevel(logging.INFO) # 콘솔에는 INFO 레벨 이상만 출력

# 2-2. 파일 핸들러 (FileHandler)
# 'detailed.log' 파일에 DEBUG 레벨 이상의 모든 로그를 기록
file_handler = logging.FileHandler('detailed.log')
file_handler.setLevel(logging.DEBUG)


# 3. 포매터(Formatter) 생성 (선택 사항이지만 권장)
# 각 핸들러에 다른 출력 형식을 지정할 수 있습니다.
console_formatter = logging.Formatter('%(name)s - %(levelname)s - %(message)s')
file_formatter = logging.Formatter('%(asctime)s - %(name)s - %(levelname)s - %(message)s')

# 핸들러에 포매터를 설정합니다.
console_handler.setFormatter(console_formatter)
file_handler.setFormatter(file_formatter)


# 4. 로거에 핸들러 등록
# addHandler()를 필요한 만큼 호출하여 여러 핸들러를 추가합니다.
logger.addHandler(console_handler)
logger.addHandler(file_handler)


# 5. 로그 기록
logger.debug("상세한 디버깅 정보입니다. (파일에만 기록됩니다)")
logger.info("프로그램이 정상적으로 시작되었습니다. (콘솔과 파일 모두 기록됩니다)")
logger.warning("메모리 사용량이 임계치에 가까워지고 있습니다.")
logger.error("데이터베이스 연결에 실패했습니다.")
```

**실행 결과:**

**💻 콘솔(터미널) 출력:**

```
__main__ - INFO - 프로그램이 정상적으로 시작되었습니다.
__main__ - WARNING - 메모리 사용량이 임계치에 가까워지고 있습니다.
__main__ - ERROR - 데이터베이스 연결에 실패했습니다.
```

**📄 `detailed.log` 파일 내용:**

```
2025-08-19 15:35:00,456 - __main__ - DEBUG - 상세한 디버깅 정보입니다. (파일에만 기록됩니다)
2025-08-19 15:35:00,457 - __main__ - INFO - 프로그램이 정상적으로 시작되었습니다. (콘솔과 파일 모두 기록됩니다)
2025-08-19 15:35:00,457 - __main__ - WARNING - 메모리 사용량이 임계치에 가까워지고 있습니다.
2025-08-19 15:35:00,458 - __main__ - ERROR - 데이터베이스 연결에 실패했습니다.
```

이처럼 각 핸들러에 다른 로그 레벨과 포맷을 지정하여, 콘솔에는 간결한 정보를, 파일에는 상세한 디버깅 정보까지 모두 기록하는 유연한 로깅 시스템을 구축할 수 있습니다.

 `configparser`와 `argparse`는 프로그램의 설정을 관리하는 중요한 모듈이지만, **목적과 사용처가 완전히 다릅니다.**

간단히 말해, **`configparser`는 파일(`.ini`)에 저장된 정적인 설정을 읽기 위한 것**이고, **`argparse`는 프로그램을 실행하는 순간 커맨드 라인(CLI)에서 동적인 옵션을 받기 위한 것**입니다.

-----

### `configparser`: 설정 파일을 위한 모듈 📄

`configparser`는 `.ini` 형식의 설정 파일에서 값을 읽거나 쓸 때 사용합니다. 이 파일은 여러 `[섹션]`으로 나뉘고, 각 섹션 안에 `키 = 값` 형태로 설정이 저장됩니다.

  - **주요 특징**:
      - 데이터베이스 접속 정보, API 키, 프로그램의 기본 동작 모드 등 **자주 바뀌지 않는 고정적인 설정값**을 관리하는 데 적합합니다.
      - 프로그램 코드와 설정을 분리하여 유지보수성을 높입니다.

**예시 `config.ini` 파일:**

```ini
[Database]
host = localhost
user = admin
password = secret

[Server]
port = 8080
debug_mode = True
```

**파이썬 코드:**

```python
import configparser

# 1. ConfigParser 객체 생성
config = configparser.ConfigParser()

# 2. 설정 파일 읽기
config.read('config.ini')

# 3. 값 사용하기
db_host = config['Database']['host']
server_port = config.getint('Server', 'port') # 숫자로 가져오기
is_debug = config.getboolean('Server', 'debug_mode') # boolean으로 가져오기

print(f"데이터베이스 호스트: {db_host}")
print(f"서버 포트: {server_port}")
print(f"디버그 모드: {is_debug}")
```

-----

### `argparse`: 커맨드 라인 인터페이스를 위한 모듈 ⌨️

`argparse`는 `python my_script.py --input data.csv -v` 와 같이, 터미널에서 프로그램을 실행할 때 전달하는 인자(argument)들을 쉽게 파싱하고 사용할 수 있게 해줍니다.

  - **주요 특징**:
      - 처리할 파일 경로, 동작 모드(예: `--train` vs `--test`), 상세 로그 출력 여부(`--verbose`) 등 **프로그램을 실행할 때마다 달라질 수 있는 값**을 전달하는 데 사용됩니다.
      - 사용자에게 `-h` 또는 `--help` 옵션을 자동으로 제공하여 프로그램 사용법을 쉽게 안내할 수 있습니다.

**파이썬 코드 (`my_script.py`):**

```python
import argparse

# 1. ArgumentParser 객체 생성
parser = argparse.ArgumentParser(description="A simple file processing script.")

# 2. 인자(argument) 정의
parser.add_argument('-i', '--input', required=True, help="Input file path")
parser.add_argument('-o', '--output', default='output.txt', help="Output file path")
parser.add_argument('-v', '--verbose', action='store_true', help="Enable verbose logging")

# 3. 인자 파싱
args = parser.parse_args()

# 4. 파싱된 인자 사용
print(f"입력 파일: {args.input}")
print(f"출력 파일: {args.output}")
if args.verbose:
    print("상세 로깅 모드가 활성화되었습니다.")
```

**터미널에서 실행:**

```bash
$ python my_script.py --input data.csv --verbose
```

**실행 결과:**

```
입력 파일: data.csv
출력 파일: output.txt
상세 로깅 모드가 활성화되었습니다.
```

-----

### 최종 비교: 언제 무엇을 써야 할까? 🎯

| 구분 (Aspect) | `configparser`                                               | `argparse`                                                               |
| :------------ | :----------------------------------------------------------- | :----------------------------------------------------------------------- |
| **목적** | **파일**에서 설정값 읽기                                       | **커맨드 라인**에서 옵션 읽기                                            |
| **입력 소스** | `.ini` 설정 파일                                             | 터미널 (Command Line Interface)                                          |
| **데이터 지속성** | 영구적 (파일을 수정하기 전까지 유지)                         | 일회성 (프로그램 실행 시에만 유효)                                       |
| **주요 사용처** | API 키, DB 정보, 고정 경로 등 잘 안 바뀌는 설정             | 입력/출력 파일 경로, 실행 모드, 임시 옵션 등 매번 바뀔 수 있는 설정       |
| **비유** | 식당의 **레시피 북** (잘 안 바뀜)                              | 손님의 **주문서** (매번 바뀜)                                            |

# CSV
CSV(Comma-Separated Values) 파일은 쉼표(`,`)로 각 데이터 값을 구분하여 저장하는 텍스트 파일 형식입니다. Python에서는 내장 `csv` 모듈을 통해 이런 CSV 파일을 쉽고 안전하게 읽고 쓸 수 있습니다.

-----

### CSV 파일이란? 쉼표로 구분된 값 📄

**CSV**는 **C**omma-**S**eparated **V**alues의 약자로, 데이터를 표(table) 형태로 저장하는 가장 간단하고 널리 사용되는 파일 형식 중 하나입니다.

  - **구조**: 각 줄(row)은 하나의 데이터 레코드를 나타내고, 줄 안의 각 값(column)은 쉼표로 구분됩니다.
  - **특징**: 거의 모든 스프레드시트 프로그램(Excel, Google Sheets 등)이나 데이터베이스에서 쉽게 열고 편집할 수 있어 데이터 교환에 매우 유용합니다.

**예시 `users.csv` 파일:**

```csv
name,age,city
Alice,30,New York
Bob,25,Los Angeles
Charlie,35,Chicago
```

-----

### `csv` 모듈로 파일 읽기 📖

Python의 `csv` 모듈을 사용하면 각 줄을 리스트(list)로 쉽게 변환하여 처리할 수 있습니다.

  - **`csv.reader(file)`**: CSV 파일을 한 줄씩 읽어 각 줄을 **리스트**로 반환합니다.
  - **`csv.DictReader(file)`**: 첫 번째 줄을 헤더(key)로 사용하여, 각 줄을 **딕셔셔너리**로 반환합니다.

**파일을 읽는 기본 방법 (`csv.reader`):**

```python
import csv

with open('users.csv', 'r', encoding='utf-8') as f:
    # csv.reader 객체 생성
    reader = csv.reader(f)
    
    # 헤더(첫 줄) 건너뛰기 (선택 사항)
    next(reader) 
    
    # 각 줄을 리스트로 순회하며 출력
    for row in reader:
        # row는 ['Alice', '30', 'New York'] 와 같은 리스트가 됨
        print(f"{row[0]}'s age is {row[1]} and lives in {row[2]}.")
```

**딕셔너리로 읽는 방법 (`csv.DictReader`):**

```python
import csv

with open('users.csv', 'r', encoding='utf-8') as f:
    # csv.DictReader 객체 생성
    reader = csv.DictReader(f)
    
    # 각 줄을 딕셔너리로 순회하며 출력
    for row in reader:
        # row는 {'name': 'Alice', 'age': '30', 'city': 'New York'} 와 같은 딕셔너리가 됨
        print(f"{row['name']}'s age is {row['age']} and lives in {row['city']}.")
```

-----

### `csv` 모듈로 파일 쓰기 ✍️

리스트나 딕셔너리 형태의 데이터를 CSV 파일로 쓰는 것도 간단합니다. 파일을 열 때 `newline=''` 옵션을 추가하여 불필요한 빈 줄이 생기는 것을 방지하는 것이 중요합니다.

  - **`csv.writer(file)`**: 리스트 데이터를 파일에 쓰는 객체를 생성합니다.
      - `writerow()`: 한 줄(리스트)을 쓴다.
      - `writerows()`: 여러 줄(리스트의 리스트)을 한 번에 쓴다.
  - **`csv.DictWriter(file, fieldnames)`**: 딕셔너리 데이터를 파일에 쓰는 객체를 생성하며, `fieldnames`로 헤더 순서를 지정해야 합니다.

**파일을 쓰는 기본 방법 (`csv.writer`):**

```python
import csv

# 저장할 데이터 (리스트의 리스트)
data = [
    ['name', 'age', 'city'],
    ['Dave', 40, 'Houston'],
    ['Eve', 28, 'Boston']
]

# newline='' 옵션을 주어 불필요한 빈 줄을 방지
with open('new_users.csv', 'w', newline='', encoding='utf-8') as f:
    writer = csv.writer(f)
    
    # writerows()로 데이터 전체를 한 번에 쓰기
    writer.writerows(data)
    
    # writerow()로 한 줄씩 쓸 수도 있음
    # writer.writerow(['Frank', 50, 'Seattle'])

print("'new_users.csv' 파일이 생성되었습니다.")
```

# 정규화 실전 가이드 

`requests`와 같은 HTML을 가져오는 부분을 제외하고, Python의 `re` 모듈을 사용하여 **정규식 패턴을 분석하고 적용하는 과정**에 집중하여 설명해 드리겠습니다.

정규식을 사용하는 과정은 **1) 목표 문자열에서 패턴 분석하기, 2) 패턴을 정규식 문법으로 표현하기, 3) `re` 모듈 함수로 결과 추출하기**의 3단계로 이루어집니다.

-----

### 1단계: 패턴 분석 및 정규식 기본 문법 🎯

가장 먼저, 내가 추출하려는 정보가 어떤 규칙(패턴)을 가지고 있는지 분석해야 합니다. 이때 정규식의 기본 구성 요소를 사용합니다.

  - **리터럴 (Literals)**: `a`, `b`, `1`, `_` 등 보이는 그대로의 문자.
  - **메타문자 (Metacharacters)**: 특별한 의미를 가진 문자들.

| 메타문자 | 의미                                                   | 예시                                    |
| :------- | :----------------------------------------------------- | :-------------------------------------- |
| `.`      | 줄바꿈 문자를 제외한 **아무 문자 하나** | `a.b` → "acb", "a3b"                    |
| `^`      | 문자열의 **시작** | `^Hello` → "Hello world"                |
| `$`      | 문자열의 **끝** | `world$` → "Hello world"                |
| `*`      | 앞 문자가 **0번 이상** 반복                            | `ca*t` → "ct", "cat", "caaat"           |
| `+`      | 앞 문자가 **1번 이상** 반복                            | `ca+t` → "cat", "caaat"                 |
| `?`      | 앞 문자가 **0번 또는 1번** 나타남                      | `colou?r` → "color", "colour"           |
| `[]`     | 대괄호 안의 **문자 중 하나** (Character Set)           | `[abc]` → "a", "b", "c" 중 하나         |
| `()`     | 그룹으로 묶기, \*\*캡처(추출)\*\*할 부분을 지정            | `(https?)` → "http" 또는 "https"를 캡처 |
| `\d`     | 모든 **숫자**와 일치. `[0-9]`와 동일.                  | `\d{3}` → 숫자 3개                       |
| `\w`     | 모든 \*\*알파벳, 숫자, 밑줄(\_)\*\*과 일치. `[a-zA-Z0-9_]` | `\w+` → 단어 1개 이상                   |
| `\s`     | **공백 문자**(스페이스, 탭, 줄바꿈)과 일치.             | `\s+` → 공백 1개 이상                   |

-----

### 2단계: Python `re` 모듈로 패턴 적용하기 🐍

패턴을 정의했다면, `re` 모듈의 함수를 사용하여 실제 문자열에 적용합니다.

  - **`import re`**: `re` 모듈을 먼저 가져와야 합니다.
  - **Raw String (`r'...'`)**: 정규식 패턴을 정의할 때는 문자열 앞에 `r`을 붙여 Raw String으로 만드는 것이 좋습니다. `\` 문자를 해석하지 않고 그대로 사용하게 해줍니다.
  - **주요 함수**:
      - **`re.search(pattern, string)`**: `string` 전체를 검색하여 `pattern`과 일치하는 **첫 번째 부분**을 찾습니다. 결과는 **매치(Match) 객체**로 반환되며, 없으면 `None`을 반환합니다.
      - **`re.findall(pattern, string)`**: `string` 전체를 검색하여 `pattern`과 일치하는 **모든 부분**을 **리스트**로 반환합니다. 캡처 그룹 `()`이 사용되면 그룹에 해당하는 내용만 리스트에 담깁니다.

-----

### 3단계: 실전 예제 - 이메일 주소 추출하기 🔍

아래 문자열에서 이메일 주소를 추출하는 과정을 단계별로 분석해 보겠습니다.

**목표 문자열:**

```python
text = "문의는 support@example.com 또는 admin-01@google.co.kr 로 연락주세요."
```

**패턴 분석 및 정규식 정의:**

1.  **아이디 부분**: 알파벳, 숫자, 하이픈 `-`, 밑줄 `_` 등이 올 수 있다.
    → `\w` (알파벳, 숫자, `_`)와 `-`를 포함한 문자셋 `[\w-]`이 1번 이상 `+` 반복.
    → `[\w-]+`
2.  **`@` 기호**: `@`는 리터럴이므로 그대로 사용한다.
    → `@`
3.  **도메인 부분**: 알파벳, 숫자, 점 `.` 등이 올 수 있다.
    → `\w`와 `.`을 포함한 문자셋 `[\w.]`이 1번 이상 `+` 반복.
    → `[\w.]+`

**최종 패턴**: `r'[\w-]+@[\w.]+'`

**Python 코드로 결과 추출:**

```python
import re

text = "문의는 support@example.com 또는 admin-01@google.co.kr 로 연락주세요."

# 1. findall로 모든 이메일 찾기
pattern = r'[\w-]+@[\w.]+'
emails = re.findall(pattern, text)
print(f"찾은 모든 이메일: {emails}")

# 2. search로 첫 번째 이메일의 상세 정보 확인하기
# 아이디와 도메인을 별도로 캡처하기 위해 그룹() 사용
pattern_with_groups = r'([\w-]+)@([\w.]+)'
match = re.search(pattern_with_groups, text)

if match:
    print(f"\n첫 번째 매치 전체: {match.group(0)}") # 전체 일치 문자열
    print(f"그룹 1 (아이디): {match.group(1)}")    # 첫 번째 괄호()에 해당하는 부분
    print(f"그룹 2 (도메인): {match.group(2)}")    # 두 번째 괄호()에 해당하는 부분
else:
    print("이메일을 찾지 못했습니다.")
```

**실행 결과:**

```
찾은 모든 이메일: ['support@example.com', 'admin-01@google.co.kr']

첫 번째 매치 전체: support@example.com
그룹 1 (아이디): support
그룹 2 (도메인): example.com
```

이처럼 **"분석 → 패턴화 → 추출"** 단계를 거치면 복잡한 텍스트에서도 원하는 정보를 정확하게 뽑아낼 수 있습니다.

# eXtensible Markup Language

### XML 이란 
- 데이터 구조와 내용을 함께 Tag 개념을 통해 값을 표시하는 마크업 문법
- 컴퓨터 간에 정보 주고받기 매우 유용한 저장 방식으로 사용 됨
- 정규표현식으로 Parsing 이 가능하고, 현재는 lxml + parser로 beutifulsoup 으로 파싱함 (HTML 도 가능)

Python으로 웹 데이터를 수집(스크레이핑)할 때 가장 많이 사용하는 조합인 **`requests` + `BeautifulSoup` + `lxml`**을 활용한 실전 가이드 문서를 만들어 드리겠습니다.

-----

### 웹 스크레이핑 기본 가이드: Python 활용

이 문서는 Python을 사용하여 웹 페이지의 데이터를 가져오고, 원하는 정보를 추출하는 전체 과정을 안내합니다.

#### 사용 라이브러리

  - **`requests`**: 웹 페이지에 HTTP 요청을 보내 HTML 문서를 가져오는 역할 (네트워크 통신)
  - **`BeautifulSoup`**: 가져온 HTML 문서를 파싱하여 다루기 쉬운 객체로 만드는 역할 (데이터 탐색)
  - **`lxml`**: `BeautifulSoup`이 사용하는 빠르고 강력한 파서(엔진)

**1. 설치 (터미널):**

```bash
pip install requests beautifulsoup4 lxml
```

-----

### 1단계: 목표 웹 페이지 분석 (Targeting)

데이터를 추출하기 전에, 먼저 브라우저의 **개발자 도구(F12 또는 마우스 우클릭 \> 검사)**를 사용하여 목표 데이터가 어떤 HTML 태그와 클래스(class) 또는 아이디(id)로 구성되어 있는지 확인해야 합니다.

  - **목표**: 특정 웹사이트 뉴스 섹션에서 **기사 제목**과 **링크** 추출하기
  - **분석**: 개발자 도구를 열어보니, 각 기사는 `div` 태그와 `class="news-item"`으로 묶여 있고, 그 안의 `a` 태그에 제목과 링크가 들어있음을 확인.

-----

### 2단계: HTML 문서 가져오기 (`requests`)

- `requests` 라이브러리로 목표 URL의 HTML 전체를 문자열로 가져옵니다.
- 참고로 lxml 은 HTML 파싱도 유효하게 효과적이다

```python
import requests

# 목표 URL
url = "http://example-news-site.com/latest" # 실제로는 존재하지 않는 예시 URL입니다.

try:
    # HTTP GET 요청
    response = requests.get(url)
    # HTTP 상태 코드가 200 (성공)이 아니면 예외 발생
    response.raise_for_status() 

    # HTML 내용을 변수에 저장
    html_content = response.text
    print("웹 페이지를 성공적으로 가져왔습니다.")
except requests.exceptions.RequestException as e:
    print(f"페이지를 가져오는 데 실패했습니다: {e}")
    html_content = None
```

-----

### 3단계: HTML 파싱 및 데이터 추출 (`BeautifulSoup` + `lxml`)

가져온 HTML 문자열을 `BeautifulSoup` 객체로 변환하여, 원하는 데이터를 손쉽게 추출합니다.

```python
from bs4 import BeautifulSoup

# 예시용 HTML 콘텐츠 (실제로는 위 단계에서 requests로 가져옴)
html_content = """
<html>
<head><title>Latest News</title></head>
<body>
    <h1>Breaking News</h1>
    <div class="news-section">
        <div class="news-item">
            <h2><a href="/news/article-1">First Major Headline</a></h2>
            <p>Details about the first article...</p>
        </div>
        <div class="news-item">
            <h2><a href="/news/article-2">Second Big Story</a></h2>
            <p>More information on the second story...</p>
        </div>
        <div class="ad-slot">
            <p>This is an advertisement, not a news item.</p>
        </div>
    </div>
</body>
</html>
"""

# 1. BeautifulSoup 객체 생성 (lxml 파서 사용)
soup = BeautifulSoup(html_content, 'lxml')

# 2. find_all() 메서드로 원하는 요소 모두 찾기
#    class가 'news-item'인 div 태그를 모두 찾는다.
news_items = soup.find_all('div', class_='news-item')

# 3. 반복문으로 각 요소에서 데이터 추출
scraped_data = []
for item in news_items:
    # 각 news-item 안에서 a 태그를 찾는다.
    a_tag = item.find('a')
    if a_tag:
        title = a_tag.text.strip() # .text로 태그 안의 텍스트를, .strip()으로 양 끝 공백을 제거
        link = a_tag.get('href')   # .get('href')로 href 속성값을 가져옴
        
        scraped_data.append({
            'title': title,
            'link': link
        })

# 4. 결과 출력
import pprint
pprint.pprint(scraped_data)

```

**실행 결과:**

```
[{'link': '/news/article-1', 'title': 'First Major Headline'},
 {'link': '/news/article-2', 'title': 'Second Big Story'}]
```

-----

### 4단계: 주의사항 및 스크레이핑 윤리 ⚖️

  - **`robots.txt` 확인**: 웹사이트의 `robots.txt` 파일(예: `http://example.com/robots.txt`)을 방문하여 어떤 페이지를 수집해도 되는지 확인해야 합니다.
  - **과도한 요청 금지**: `time.sleep()` 등을 사용하여 요청 사이에 적절한 간격을 두어 서버에 부담을 주지 않아야 합니다.
  - **이용 약관 존중**: 웹사이트의 이용 약관을 확인하고, 스크레이핑을 금지하는 경우 작업을 중단해야 합니다.
  - **API 우선 확인**: 많은 웹사이트는 데이터 제공을 위한 공식 API를 운영합니다. 스크레이핑 전에 API가 있는지 먼저 확인하는 것이 좋습니다.

# JavaScript Object Notation
**JSON**은 웹에서 데이터를 주고받을 때 널리 사용되는 텍스트 형식이며, Python의 \*\*딕셔너리(dictionary)\*\*와 매우 유사하여 서로 변환하기가 아주 쉽습니다. 이 가이드에서는 JSON의 개념과 웹에서 JSON 데이터를 가져와 Python 딕셔너리로 변환하는 과정을 설명합니다.

-----

### JSON이란? 📜

**JSON**(JavaScript Object Notation)은 사람이 읽기 쉽고, 기계가 파싱하기 쉬운 **텍스트 기반의 데이터 교환 형식**입니다. 이름에서 알 수 있듯 원래 자바스크립트의 객체 표현 방식에서 유래했지만, 지금은 거의 모든 프로그래밍 언어에서 표준처럼 사용됩니다.

  * **구조**: **`key-value`** 쌍으로 이루어져 있으며, 이는 Python의 딕셔너리와 거의 동일합니다. 데이터는 중괄호 `{}`로 묶이며, 각 키(key)는 문자열(큰따옴표로 감쌈)이고 값(value)은 다양한 타입을 가질 수 있습니다.
  * **특징**: XML에 비해 훨씬 가볍고 간결하여, 웹 API(Application Programming Interface)에서 서버와 클라이언트가 데이터를 주고받을 때 주로 사용됩니다.

**JSON 데이터 예시:**

```json
{
  "name": "Alice",
  "age": 30,
  "isStudent": false,
  "courses": ["Computer Science", "Mathematics"]
}
```

-----

### 웹 데이터 수집 과정 (JSON + Python)

웹 API는 대부분의 경우 HTML이 아닌 JSON 형태로 데이터를 제공합니다. 이 데이터를 Python으로 가져와 딕셔너리로 변환하여 사용하는 과정은 매우 간단합니다.

####\# 사용 라이브러리

  * **`requests`**: 웹 서버에 API 요청을 보내 JSON 데이터를 받아오는 역할
  * **`json`**: Python에 내장된 라이브러리로, JSON 문자열과 Python 딕셔너리 간의 변환을 담당

**1. 설치 (터미널):**

```bash
pip install requests
```

-----

### 1단계: API를 통해 JSON 데이터 가져오기 (`requests`)

웹 서버의 특정 API 엔드포인트(URL)로 요청을 보내면, 서버는 HTML 대신 JSON 형식의 텍스트를 응답으로 보내줍니다.

```python
import requests

# 데이터를 제공하는 API의 URL (공공 API 예시)
url = "https://api.exchangerate-api.com/v4/latest/USD"

try:
    # API에 GET 요청을 보냄
    response = requests.get(url)
    response.raise_for_status() # 200 OK가 아니면 에러 발생

    # requests 라이브러리의 .json() 메서드를 사용하면
    # 응답으로 받은 JSON 문자열을 즉시 Python 딕셔너리로 변환해줍니다.
    data_dict = response.json()

    print("API로부터 데이터를 성공적으로 받아와 딕셔셔너리로 변환했습니다.")

except requests.exceptions.RequestException as e:
    print(f"데이터를 가져오는 데 실패했습니다: {e}")
    data_dict = None
```

-----

### 2단계: Python 딕셔너리로 데이터 처리하기 (`json`)

`requests`의 `.json()` 메서드는 내부적으로 `json.loads()` 함수를 호출하는 것과 같습니다. 일단 딕셔너리로 변환되면, 평소에 딕셔너리를 다루는 방식 그대로 데이터를 사용하면 됩니다.

```python
import json
import pprint # 딕셔너리를 예쁘게 출력하기 위한 모듈

# 위 단계에서 받아온 data_dict가 있다고 가정
# data_dict = {'provider': '...', 'base': 'USD', 'rates': {'USD': 1, 'AED': 3.67, 'AFN': 71.18, ...}}

if data_dict:
    # 딕셔너리의 키로 값에 접근
    base_currency = data_dict['base']
    krw_rate = data_dict['rates']['KRW']

    print(f"\n기준 통화: {base_currency}")
    print(f"대한민국 원(KRW) 환율: {krw_rate}")

    # 딕셔너리의 일부를 pprint로 예쁘게 출력
    print("\n--- 전체 데이터 (일부) ---")
    pprint.pprint(data_dict)


# 만약 순수한 JSON 문자열을 직접 변환해야 한다면 json.loads()를 사용합니다.
json_string = '{"name": "Bob", "age": 25}'
dict_from_string = json.loads(json_string)
print(f"\n문자열에서 변환된 딕셔너리: {dict_from_string}")

# 반대로 Python 딕셔너리를 JSON 문자열로 변환할 때는 json.dumps()를 사용합니다.
dict_to_convert = {'city': 'Seoul', 'country': 'Korea'}
string_from_dict = json.dumps(dict_to_convert, indent=2) # indent로 보기 좋게 포맷팅
print(f"딕셔셔너리에서 변환된 JSON 문자열:\n{string_from_dict}")
```

이처럼 **API 요청 → `.json()`으로 변환 → 딕셔너리처럼 사용**의 간단한 3단계만 거치면 웹상의 거의 모든 정형 데이터를 자유자재로 다룰 수 있습니다.

In [34]:
import json

json_string = '{ "name": "Bob", "age": 25}'
dict_from_string = json.loads(json_string)
print(f"\n문자열에서 변환된 딕셔너리: {dict_from_string}")
print(f"\n문자열에서 변환된 딕셔너리: {dict_from_string['name']}")
print(f"\n문자열에서 변환된 딕셔너리: {dict_from_string['age']}")




문자열에서 변환된 딕셔너리: {'name': 'Bob', 'age': 25}

문자열에서 변환된 딕셔너리: Bob

문자열에서 변환된 딕셔너리: 25
