# Module 1: Python 토큰화 (Tokenization)


이 노트북에서는 Python 코드를 토큰으로 분해하는 과정인 **토큰화(Tokenization)**에 대해 알아봅니다.

## 1. 소개: 토큰화란 무엇인가?


**토큰화(Tokenization)**는 소스 코드를 의미 있는 최소 단위인 **토큰(Token)**으로 분해하는 과정입니다.

Python 인터프리터가 코드를 실행하기 전에 먼저 수행하는 작업으로:
- 소스 코드를 읽고
- 의미 있는 단위(토큰)로 분리하며
- 각 토큰의 타입을 식별합니다

### 토큰의 예시

코드 `x = 1 + 2`는 다음 토큰들로 분핼됩니다:

| 토큰 | 타입 | 설명 |
|------|------|------|
| `x` | NAME | 변수 이름 |
| `=` | OP | 대입 연산자 |
| `1` | NUMBER | 숫자 리터럴 |
| `+` | OP | 덧셈 연산자 |
| `2` | NUMBER | 숫자 리터럴 |

Python의 `tokenize` 모듈을 사용하면 직접 토큰화 과정을 관찰할 수 있습니다.

## 2. tokenize 모듈 기본 사용법


Python 표준 라이브러리의 `tokenize` 모듈을 사용하여 코드를 토큰화합니다.

In [1]:
import tokenize
import io

# 토큰 타입 이름 확인
print("주요 토큰 타입:")
print(f"  NAME: {tokenize.NAME} - 변수명, 함수명 등")
print(f"  NUMBER: {tokenize.NUMBER} - 숫자 리터럴")
print(f"  STRING: {tokenize.STRING} - 문자열 리터럴")
print(f"  OP: {tokenize.OP} - 연산자")
print(f"  NEWLINE: {tokenize.NEWLINE} - 줄바꿈")
print(f"  INDENT: {tokenize.INDENT} - 들여쓰기 시작")
print(f"  DEDENT: {tokenize.DEDENT} - 들여쓰기 종료")
print(f"  ENDMARKER: {tokenize.ENDMARKER} - 파일 끝")

주요 토큰 타입:
  NAME: 1 - 변수명, 함수명 등
  NUMBER: 2 - 숫자 리터럴
  STRING: 3 - 문자열 리터럴
  OP: 55 - 연산자
  NEWLINE: 4 - 줄바꿈
  INDENT: 5 - 들여쓰기 시작
  DEDENT: 6 - 들여쓰기 종료
  ENDMARKER: 0 - 파일 끝


### 기본 토큰화 함수


`tokenize.generate_tokens(readline)` 함수를 사용합니다:
- `readline`: 한 줄씩 읽어오는 함수 (파일 객체의 `readline` 메서드)
- 반환: 토큰 네임드튜플 (type, string, start, end, line)

In [2]:
# 간단한 코드 토큰화 예시
code = "x = 1 + 2"
print(f"코드: {code!r}")
print("\n토큰 목록:")
print("-" * 60)

tokens = tokenize.generate_tokens(io.StringIO(code).readline)
for tok in tokens:
    tok_name = tokenize.tok_name[tok.type]
    print(f"{tok.type:3} {tok_name:12} {tok.string!r:15} 위치: {tok.start}-{tok.end}")

코드: 'x = 1 + 2'

토큰 목록:
------------------------------------------------------------
  1 NAME         'x'             위치: (1, 0)-(1, 1)
 55 OP           '='             위치: (1, 2)-(1, 3)
  2 NUMBER       '1'             위치: (1, 4)-(1, 5)
 55 OP           '+'             위치: (1, 6)-(1, 7)
  2 NUMBER       '2'             위치: (1, 8)-(1, 9)
  4 NEWLINE      ''              위치: (1, 9)-(1, 10)
  0 ENDMARKER    ''              위치: (2, 0)-(2, 0)


## 3. 실습 1: 간단한 표현식 토큰화


코드 `x = 1 + 2`의 토큰을 상세히 분석합니다.

In [3]:
code1 = "x = 1 + 2"

print("=== 실습 1: 간단한 표현식 토큰화 ===")
print(f"\n원본 코드: {code1!r}")
print("\n" + "=" * 70)
print(f"{'타입':<15} {'값':<15} {'시작 위치':<12} {'끝 위치':<10}")
print("=" * 70)

tokens = list(tokenize.generate_tokens(io.StringIO(code1).readline))
for tok in tokens:
    tok_name = tokenize.tok_name[tok.type]
    print(f"{tok_name:<15} {tok.string!r:<15} {str(tok.start):<12} {str(tok.end):<10}")

print("\n분석:")
print("- NAME (x): 변수 이름 식별자")
print("- OP (=): 대입 연산자")
print("- NUMBER (1): 정수 리터럴")
print("- OP (+): 덧셈 연산자")
print("- NUMBER (2): 정수 리터럴")
print("- NEWLINE: 줄의 끝")
print("- ENDMARKER: 입력의 끝")

=== 실습 1: 간단한 표현식 토큰화 ===

원본 코드: 'x = 1 + 2'

타입              값               시작 위치        끝 위치      
NAME            'x'             (1, 0)       (1, 1)    
OP              '='             (1, 2)       (1, 3)    
NUMBER          '1'             (1, 4)       (1, 5)    
OP              '+'             (1, 6)       (1, 7)    
NUMBER          '2'             (1, 8)       (1, 9)    
NEWLINE         ''              (1, 9)       (1, 10)   
ENDMARKER       ''              (2, 0)       (2, 0)    

분석:
- NAME (x): 변수 이름 식별자
- OP (=): 대입 연산자
- NUMBER (1): 정수 리터럴
- OP (+): 덧셈 연산자
- NUMBER (2): 정수 리터럴
- NEWLINE: 줄의 끝
- ENDMARKER: 입력의 끝


## 4. 실습 2: 함수 정의 토큰화


함수 정의에서 특별한 토큰인 `INDENT`와 `DEDENT`를 관찰합니다.

In [4]:
code2 = '''def greet(name):
    print(f"Hello, {name}!")
    return True
'''

print("=== 실습 2: 함수 정의 토큰화 ===")
print(f"\n원본 코드:")
print(code2)
print("=" * 70)
print(f"{'타입':<15} {'값':<20} {'줄':<5} {'열':<5}")
print("=" * 70)

tokens = list(tokenize.generate_tokens(io.StringIO(code2).readline))
for tok in tokens:
    tok_name = tokenize.tok_name[tok.type]
    line, col = tok.start
    value = tok.string[:18] + '...' if len(tok.string) > 20 else tok.string
    print(f"{tok_name:<15} {value!r:<20} {line:<5} {col:<5}")

print("\n주목할 점:")
print("- INDENT: 함수 본문의 들여쓰기가 시작됨을 표시")
print("- DEDENT: 들여쓰기가 종료됨을 표시 (return 문 이후)")
print("- f-string의 경우 FSTRING_START, FSTRING_MIDDLE, FSTRING_END로 분리됨")

=== 실습 2: 함수 정의 토큰화 ===

원본 코드:
def greet(name):
    print(f"Hello, {name}!")
    return True

타입              값                    줄     열    
NAME            'def'                1     0    
NAME            'greet'              1     4    
OP              '('                  1     9    
NAME            'name'               1     10   
OP              ')'                  1     14   
OP              ':'                  1     15   
NEWLINE         '\n'                 1     16   
INDENT          '    '               2     0    
NAME            'print'              2     4    
OP              '('                  2     9    
FSTRING_START   'f"'                 2     10   
FSTRING_MIDDLE  'Hello, '            2     12   
OP              '{'                  2     19   
NAME            'name'               2     20   
OP              '}'                  2     24   
FSTRING_MIDDLE  '!'                  2     25   
FSTRING_END     '"'                  2     26   
OP              ')'    

### INDENT와 DEDENT의 동작 원리


Python은 들여쓰기를 통해 코드 블록을 구분합니다. 토큰화 과정에서:

1. **INDENT**: 들여쓰기 수준이 증가할 때 발생
2. **DEDENT**: 들여쓰기 수준이 감소할 때 발생
3. 여러 수준의 DEDENT도 가능

In [5]:
# 중첩된 들여쓰기 예시
code3 = '''def outer():
    x = 1
    def inner():
        y = 2
        return y
    return x
'''

print("=== 중첩 함수의 INDENT/DEDENT ===")
print(code3)
print("=" * 60)

tokens = list(tokenize.generate_tokens(io.StringIO(code3).readline))
indent_level = 0
for tok in tokens:
    tok_name = tokenize.tok_name[tok.type]
    if tok.type == tokenize.INDENT:
        indent_level += 1
        print(f"{'  ' * (indent_level-1)}INDENT → 레벨 {indent_level}")
    elif tok.type == tokenize.DEDENT:
        print(f"{'  ' * (indent_level-1)}DEDENT ← 레벨 {indent_level}")
        indent_level -= 1
    elif tok.type in (tokenize.NAME, tokenize.NUMBER, tokenize.OP):
        print(f"{'  ' * indent_level}{tok_name}: {tok.string!r}")

=== 중첩 함수의 INDENT/DEDENT ===
def outer():
    x = 1
    def inner():
        y = 2
        return y
    return x

NAME: 'def'
NAME: 'outer'
OP: '('
OP: ')'
OP: ':'
INDENT → 레벨 1
  NAME: 'x'
  OP: '='
  NUMBER: '1'
  NAME: 'def'
  NAME: 'inner'
  OP: '('
  OP: ')'
  OP: ':'
  INDENT → 레벨 2
    NAME: 'y'
    OP: '='
    NUMBER: '2'
    NAME: 'return'
    NAME: 'y'
  DEDENT ← 레벨 2
  NAME: 'return'
  NAME: 'x'
DEDENT ← 레벨 1


## 5. 실습 3: 문자열과 f-string 토큰화


일반 문자열과 f-string의 토큰화 결과를 비교합니다.

In [None]:
# 일반 문자열
code4 = 'message = "Hello, World!"'

print("=== 일반 문자열 토큰화 ===")
print(f"코드: {code4!r}")
print("-" * 50)

tokens = list(tokenize.generate_tokens(io.StringIO(code4).readline))
for tok in tokens:
    tok_name = tokenize.tok_name[tok.type]
    print(f"{tok_name:<15} {tok.string!r}")

In [None]:
# f-string
code5 = 'result = f"1 + 2 = {1 + 2}"'

print("\n=== f-string 토큰화 ===")
print(f"코드: {code5!r}")
print("-" * 50)

tokens = list(tokenize.generate_tokens(io.StringIO(code5).readline))
for tok in tokens:
    tok_name = tokenize.tok_name[tok.type]
    print(f"{tok_name:<20} {tok.string!r}")

print("\nf-string 특수 토큰:")
print("- FSTRING_START: f-string 시작 (예: f\")")
print("- FSTRING_MIDDLE: 문자열 내용")
print("- FSTRING_END: f-string 종료 (예: \")")
print("- LBRACE/RBRACE: 중괄호 { }")
print("- 중괄호 안의 표현식은 별도의 토큰으로 분리됨")

In [None]:
# 복잡한 f-string
code6 = '''name = "Alice"
age = 30
info = f"Name: {name.upper()}, Age: {age * 2}"
'''

print("=== 복잡한 f-string 토큰화 ===")
print(code6)
print("=" * 70)
print(f"{'타입':<20} {'값':<25}")
print("=" * 70)

tokens = list(tokenize.generate_tokens(io.StringIO(code6).readline))
for tok in tokens:
    tok_name = tokenize.tok_name[tok.type]
    value = tok.string[:22] + '...' if len(tok.string) > 25 else tok.string
    print(f"{tok_name:<20} {value!r:<25}")

## 6. 실습 4: 토큰 테이블 시각화


pandas와 rich 라이브러리를 사용하여 토큰 정보를 보기 좋게 표시합니다.

In [6]:
import sys

# pandas가 설치되어 있는지 확인
try:
    import pandas as pd
    HAS_PANDAS = True
except ImportError:
    HAS_PANDAS = False
    print("pandas가 설치되어 있지 않습니다. 기본 출력을 사용합니다.")

# rich가 설치되어 있는지 확인
try:
    from rich.console import Console
    from rich.table import Table
    HAS_RICH = True
    console = Console()
except ImportError:
    HAS_RICH = False
    print("rich가 설치되어 있지 않습니다.")

pandas가 설치되어 있지 않습니다. 기본 출력을 사용합니다.


In [7]:
def tokenize_to_table(code, title="토큰 테이블"):
    """코드를 토큰화하여 테이블 형태로 반환"""
    tokens = list(tokenize.generate_tokens(io.StringIO(code).readline))
    
    data = []
    for i, tok in enumerate(tokens, 1):
        data.append({
            '번호': i,
            '타입': tokenize.tok_name[tok.type],
            '값': tok.string,
            '시작(줄,열)': tok.start,
            '끝(줄,열)': tok.end,
            '원본 줄': tok.line.strip() if tok.line else ''
        })
    
    return data

# 테스트 코드
test_code = '''def calculate(x, y):
    result = x + y
    return result * 2
'''

print("=== 토큰 테이블 시각화 ===")
print(f"\n원본 코드:")
print(test_code)

token_data = tokenize_to_table(test_code)

=== 토큰 테이블 시각화 ===

원본 코드:
def calculate(x, y):
    result = x + y
    return result * 2



In [8]:
# pandas를 사용한 테이블 출력
if HAS_PANDAS:
    df = pd.DataFrame(token_data)
    print("\npandas DataFrame:")
    display(df)
else:
    print("\n기본 테이블 출력:")
    print(f"{'번호':<5} {'타입':<15} {'값':<15} {'위치':<15}")
    print("-" * 60)
    for row in token_data:
        print(f"{row['번호']:<5} {row['타입']:<15} {row['값']!r:<15} {str(row['시작(줄,열)']):<15}")


기본 테이블 출력:
번호    타입              값               위치             
------------------------------------------------------------
1     NAME            'def'           (1, 0)         
2     NAME            'calculate'     (1, 4)         
3     OP              '('             (1, 13)        
4     NAME            'x'             (1, 14)        
5     OP              ','             (1, 15)        
6     NAME            'y'             (1, 17)        
7     OP              ')'             (1, 18)        
8     OP              ':'             (1, 19)        
9     NEWLINE         '\n'            (1, 20)        
10    INDENT          '    '          (2, 0)         
11    NAME            'result'        (2, 4)         
12    OP              '='             (2, 11)        
13    NAME            'x'             (2, 13)        
14    OP              '+'             (2, 15)        
15    NAME            'y'             (2, 17)        
16    NEWLINE         '\n'            (2, 18)        
17    NAM

In [None]:
# rich를 사용한 예쁜 테이블 출력
if HAS_RICH:
    table = Table(title="토큰 분석 결과", show_header=True, header_style="bold magenta")
    
    table.add_column("번호", justify="right", style="cyan", width=4)
    table.add_column("타입", style="green", width=15)
    table.add_column("값", style="yellow", width=20)
    table.add_column("시작", justify="center", width=10)
    table.add_column("끝", justify="center", width=10)
    
    for row in token_data:
        table.add_row(
            str(row['번호']),
            row['타입'],
            repr(row['값']),
            str(row['시작(줄,열)']),
            str(row['끝(줄,열)'])
        )
    
    console.print(table)
else:
    print("rich 라이브러리가 설치되어 있지 않아 예쁜 테이블을 표시할 수 없습니다.")
    print("설치: pip install rich")

### 토큰 타입별 색상 구분 시각화

In [9]:
# 토큰 타입별 색상 매핑
TOKEN_COLORS = {
    'NAME': '\033[94m',      # 파란색
    'NUMBER': '\033[91m',    # 빨간색
    'STRING': '\033[92m',    # 초록색
    'FSTRING_START': '\033[92m',
    'FSTRING_MIDDLE': '\033[92m',
    'FSTRING_END': '\033[92m',
    'OP': '\033[93m',        # 노란색
    'KEYWORD': '\033[95m',   # 보라색
    'INDENT': '\033[96m',    # 청록색
    'DEDENT': '\033[96m',
    'NEWLINE': '\033[90m',   # 회색
    'ENDMARKER': '\033[90m',
    'NL': '\033[90m',
    'COMMENT': '\033[90m',
    'ENCODING': '\033[90m',
}

RESET = '\033[0m'

def colorize_tokens(code):
    """토큰에 색상을 입혀서 출력"""
    tokens = list(tokenize.generate_tokens(io.StringIO(code).readline))
    
    print("색상별 토큰 타입:")
    print(f"{TOKEN_COLORS['NAME']}NAME{RESET}: 변수/함수명  ", end="")
    print(f"{TOKEN_COLORS['NUMBER']}NUMBER{RESET}: 숫자  ", end="")
    print(f"{TOKEN_COLORS['STRING']}STRING{RESET}: 문자열  ", end="")
    print(f"{TOKEN_COLORS['OP']}OP{RESET}: 연산자")
    print(f"{TOKEN_COLORS['INDENT']}INDENT/DEDENT{RESET}: 들여쓰기  ", end="")
    print(f"{TOKEN_COLORS['NEWLINE']}NEWLINE/END{RESET}: 줄끝/파일끝")
    print("\n토큰화 결과:")
    print("-" * 60)
    
    for tok in tokens:
        tok_name = tokenize.tok_name[tok.type]
        color = TOKEN_COLORS.get(tok_name, '\033[97m')
        print(f"{color}[{tok_name}]{RESET} {tok.string!r}")

# 예시 코드
sample_code = '''def hello(name):
    # 인사말 출력
    msg = f"Hi, {name}!"
    print(msg)
    return 42
'''

colorize_tokens(sample_code)

색상별 토큰 타입:
[94mNAME[0m: 변수/함수명  [91mNUMBER[0m: 숫자  [92mSTRING[0m: 문자열  [93mOP[0m: 연산자
[96mINDENT/DEDENT[0m: 들여쓰기  [90mNEWLINE/END[0m: 줄끝/파일끝

토큰화 결과:
------------------------------------------------------------
[94m[NAME][0m 'def'
[94m[NAME][0m 'hello'
[93m[OP][0m '('
[94m[NAME][0m 'name'
[93m[OP][0m ')'
[93m[OP][0m ':'
[90m[NEWLINE][0m '\n'
[90m[COMMENT][0m '# 인사말 출력'
[90m[NL][0m '\n'
[96m[INDENT][0m '    '
[94m[NAME][0m 'msg'
[93m[OP][0m '='
[92m[FSTRING_START][0m 'f"'
[92m[FSTRING_MIDDLE][0m 'Hi, '
[93m[OP][0m '{'
[94m[NAME][0m 'name'
[93m[OP][0m '}'
[92m[FSTRING_MIDDLE][0m '!'
[92m[FSTRING_END][0m '"'
[90m[NEWLINE][0m '\n'
[94m[NAME][0m 'print'
[93m[OP][0m '('
[94m[NAME][0m 'msg'
[93m[OP][0m ')'
[90m[NEWLINE][0m '\n'
[94m[NAME][0m 'return'
[91m[NUMBER][0m '42'
[90m[NEWLINE][0m '\n'
[96m[DEDENT][0m ''
[90m[ENDMARKER][0m ''


## 7. 연습 문제


직접 코드를 작성하여 토큰화 결과를 확인해보세요!

### 연습 1: 클래스 정의 토큰화


아래 클래스 정의 코드의 토큰을 분석해보세요.

**질문:**
1. `class` 키워드는 어떤 토큰 타입인가요?
2. `__init__` 메서드의 INDENT/DEDENT는 몇 개씩 있나요?
3. `self`는 어떤 토큰 타입으로 분류되나요?

In [10]:
# 연습 1 코드
ex1_code = '''class Person:
    def __init__(self, name):
        self.name = name
    
    def greet(self):
        return f"Hello, I'm {self.name}"
'''

print("=== 연습 1: 클래스 정의 토큰화 ===")
print("코드를 분석해보세요!")
print(ex1_code)

tokens = list(tokenize.generate_tokens(io.StringIO(ex1_code).readline))
for tok in tokens:
    print(tok)
# 여기에 토큰화 코드를 작성하세요

=== 연습 1: 클래스 정의 토큰화 ===
코드를 분석해보세요!
class Person:
    def __init__(self, name):
        self.name = name

    def greet(self):
        return f"Hello, I'm {self.name}"

TokenInfo(type=1 (NAME), string='class', start=(1, 0), end=(1, 5), line='class Person:\n')
TokenInfo(type=1 (NAME), string='Person', start=(1, 6), end=(1, 12), line='class Person:\n')
TokenInfo(type=55 (OP), string=':', start=(1, 12), end=(1, 13), line='class Person:\n')
TokenInfo(type=4 (NEWLINE), string='\n', start=(1, 13), end=(1, 14), line='class Person:\n')
TokenInfo(type=5 (INDENT), string='    ', start=(2, 0), end=(2, 4), line='    def __init__(self, name):\n')
TokenInfo(type=1 (NAME), string='def', start=(2, 4), end=(2, 7), line='    def __init__(self, name):\n')
TokenInfo(type=1 (NAME), string='__init__', start=(2, 8), end=(2, 16), line='    def __init__(self, name):\n')
TokenInfo(type=55 (OP), string='(', start=(2, 16), end=(2, 17), line='    def __init__(self, name):\n')
TokenInfo(type=1 (NAME), string='self

In [11]:
# 연습 1 정답 예시
print("\n=== 연습 1 정답 ===")
tokens = list(tokenize.generate_tokens(io.StringIO(ex1_code).readline))

indent_count = sum(1 for t in tokens if t.type == tokenize.INDENT)
dedent_count = sum(1 for t in tokens if t.type == tokenize.DEDENT)

print(f"총 토큰 수: {len(tokens)}")
print(f"INDENT 토큰 수: {indent_count}")
print(f"DEDENT 토큰 수: {dedent_count}")
print("\n주요 토큰:")

for tok in tokens:
    tok_name = tokenize.tok_name[tok.type]
    if tok.string in ('class', 'def', 'self', 'return', 'Person', '__init__', 'name', 'greet'):
        print(f"  {tok_name:<12} {tok.string!r}")


=== 연습 1 정답 ===
총 토큰 수: 44
INDENT 토큰 수: 3
DEDENT 토큰 수: 3

주요 토큰:
  NAME         'class'
  NAME         'Person'
  NAME         'def'
  NAME         '__init__'
  NAME         'self'
  NAME         'name'
  NAME         'self'
  NAME         'name'
  NAME         'name'
  NAME         'def'
  NAME         'greet'
  NAME         'self'
  NAME         'return'
  NAME         'self'
  NAME         'name'


### 연습 2: 리스트 컴프리헨션 토큰화


리스트 컴프리헨션의 토큰화 결과를 분석해보세요.

In [14]:
# 연습 2 코드
ex2_code = "squares = [x**2 for x in range(10) if x % 2 == 0]"

print("=== 연습 2: 리스트 컴프리헨션 토큰화 ===")
print(f"코드: {ex2_code}")
print("\n토큰 목록:")
print("-" * 50)

tokens = list(tokenize.generate_tokens(io.StringIO(ex2_code).readline))
for tok in tokens:
    tok_name = tokenize.tok_name[tok.type]
    if tok_name not in ('ENCODING', 'NEWLINE', 'ENDMARKER'):
        print(f"  {tok_name:<15} {tok.string!r}")

=== 연습 2: 리스트 컴프리헨션 토큰화 ===
코드: squares = [x**2 for x in range(10) if x % 2 == 0]

토큰 목록:
--------------------------------------------------
  NAME            'squares'
  OP              '='
  OP              '['
  NAME            'x'
  OP              '**'
  NUMBER          '2'
  NAME            'for'
  NAME            'x'
  NAME            'in'
  NAME            'range'
  OP              '('
  NUMBER          '10'
  OP              ')'
  NAME            'if'
  NAME            'x'
  OP              '%'
  NUMBER          '2'
  OP              '=='
  NUMBER          '0'
  OP              ']'


### 연습 3: 직접 코드 작성해보기


아래 셀에 원하는 Python 코드를 작성하고 토큰화 결과를 확인해보세요!

In [13]:
# 여기에 직접 코드를 작성해보세요
my_code = '''
# 여기에 코드를 작성하세요
# 예: 조건문, 반복문, 예외 처리 등
'''

print("=== 내 코드 토큰화 ===")
print(my_code)

# 토큰화 실행
if my_code.strip():
    tokens = list(tokenize.generate_tokens(io.StringIO(my_code).readline))
    print("\n토큰 목록:")
    print("-" * 50)
    for tok in tokens:
        tok_name = tokenize.tok_name[tok.type]
        print(f"{tok_name:<15} {tok.string!r}")
else:
    print("코드를 작성해주세요!")

=== 내 코드 토큰화 ===

# 여기에 코드를 작성하세요
# 예: 조건문, 반복문, 예외 처리 등


토큰 목록:
--------------------------------------------------
NL              '\n'
COMMENT         '# 여기에 코드를 작성하세요'
NL              '\n'
COMMENT         '# 예: 조건문, 반복문, 예외 처리 등'
NL              '\n'
ENDMARKER       ''


## 8. 요약


이번 모듈에서 배운 내용:

1. **토큰화(Tokenization)**: 소스 코드를 의미 있는 단위(토큰)로 분해하는 과정

2. **주요 토큰 타입**:
   - `NAME`: 변수명, 함수명 등 식별자
   - `NUMBER`: 숫자 리터럴
   - `STRING`: 문자열 리터럴
   - `OP`: 연산자
   - `INDENT`/`DEDENT`: 들여쓰기 시작/종료
   - `NEWLINE`: 줄바꿈
   - `ENDMARKER`: 파일 끝

3. **f-string 토큰화**: 중괄호 안의 표현식이 별도 토큰으로 분리됨

4. **tokenize 모듈 사용법**:
   ```python
   import tokenize
   import io
   tokens = tokenize.generate_tokens(io.StringIO(code).readline)
   ```

다음 모듈에서는 토큰을 파싱하여 AST(Abstract Syntax Tree)를 구축하는 과정을 배웁니다.