In [1]:
import re

def clean_markdown(text: str) -> str:
    # 1. **bold** → bold
    text = re.sub(r"\*\*(.*?)\*\*", r"\1", text)
    
    # 2. *italic* or _italic_ → italic
    text = re.sub(r"\*(.*?)\*", r"\1", text)
    text = re.sub(r"_(.*?)_", r"\1", text)
    
    # 3. `inline code` → inline code
    text = re.sub(r"`(.*?)`", r"\1", text)

    # 4. 제거할 기호들 (Markdown 헤더, 리스트, 인용부호 등)
    # 예: "# 제목", "## 소제목", "- 리스트", "> 인용문", "+ 리스트"
    text = re.sub(r"^\s{0,3}#{1,6}\s*", "", text, flags=re.MULTILINE)  # 헤더 #
    text = re.sub(r"^\s*[-+*]\s+", "", text, flags=re.MULTILINE)       # 리스트 항목 - + *
    text = re.sub(r"^\s*>\s+", "", text, flags=re.MULTILINE)           # 인용문 >

    # 5. 코드블록 ``` 제거
    text = re.sub(r"```.*?```", "", text, flags=re.DOTALL)  # 멀티라인 코드블럭
    text = re.sub(r"```", "", text)  # 남은 단독 ```

    # 6. 여백 정리
    return text.strip()


---

In [2]:
import re

In [3]:
text = "**bold**"
# 1. **bold** → bold
re.sub(r"\*\*(.*?)\*\*", r"\1", text)

'bold'

`re.sub(r"\*\*(.*?)\*\*", r"\1", text)`는 Python의 정규 표현식(re)를 사용하여 텍스트에서 마크다운 스타일의 볼드 텍스트를 제거하는 코드입니다.

1. `re.sub()`: 문자열 치환을 수행하는 함수
2. `r"\*\*(.*?)\*\*"`:
    - `\*\*`: 마크다운에서 볼드 텍스트를 나타내는 `**`기호를 찾습니다.
    - `(.*?)`: `**` 사이에 있는 모든 문자를 캡처합니다.
    - `?`: 비탐욕적(non-gready) 매칭을 수행합니다.
3. `r"\1"`:
    - 첫 번째 캡처 그룹을 참조합니다.
    - 즉, `**` 기호를 제거하고 그 안의 텍스트만 남깁니다.

```python
# 2. *italic* or _italic_ → italic  
text = re.sub(r"\*(.*?)\*", r"\1", text)
text = re.sub(r"_(.*?)_", r"\1", text)
```

In [4]:
text = "*italic*"
re.sub(r"\*(.*?)\*", r"\1", text)

'italic'

In [5]:
text = "_italic_"
re.sub(r"_(.*?)_", r"\1", text)

'italic'

```python
# 3. `inline code` → inline code
text = re.sub(r"`(.*?)`", r"\1", text)
```

In [6]:
text = "`inline code`"
re.sub(r"`(.*?)`", r"\1", text)


'inline code'

```python
# 4. 제거할 기호들 (Markdown 헤더, 리스트, 인용부호 등)
# 예: "# 제목", "## 소제목", "- 리스트", "> 인용문", "+ 리스트"
text = re.sub(r"^\s{0,3}#{1,6}\s*", "", text, flags=re.MULTILINE)  # 헤더 #
text = re.sub(r"^\s*[-+*]\s+", "", text, flags=re.MULTILINE)       # 리스트 항목 - + *
text = re.sub(r"^\s*>\s+", "", text, flags=re.MULTILINE)           # 인용문 >
```

In [7]:
text = """
# 제목 1
## 제목 2
   ### 제목 3
일반 텍스트
""".strip()
print(re.sub(r"^\s{0,3}#{1,6}\s*", "", text, flags=re.MULTILINE))


제목 1
제목 2
제목 3
일반 텍스트


In [8]:
text = """
- 리스트 1
- 리스트 2
- 리스트 3
""".strip()
print(re.sub(r"^\s*[-+*]\s+", "", text, flags=re.MULTILINE))

리스트 1
리스트 2
리스트 3


In [9]:
text = """
- 리스트 1
+ 리스트 2
   -   리스트 3
""".strip()
print(re.sub(r"^\s*[-+*]\s+", "", text, flags=re.MULTILINE))

리스트 1
리스트 2
리스트 3


```python
re.sub(r"^\s*[-+*]\s+", "", text, flangs=re.MULTILINE)
```
1. `^`: 줄의 시작을 의미
2. `\s*`:
    - `\s`: 공백 문자(스페이스, 탭 등)
    - `*`: 0개 이상의 공백을 매칭
    - 즉, 줄 시작에 있는 모든 공백을 매칭
3. [-+*]:
    - 대괄호 안의 문자들 중 하나를 매칭
    - `-`: 하이픈
    - `+`: 플러스
    - `*`: 별표
4. `\s+`:
    - `\s`: 공백 문자
    - `+`: 1개 이상의 공백을 매칭
5. flags=re.MULTILINE:
    - 여러 줄의 텍스트에서 각 줄의 시작(`^`)을 매칭할 수 있게 해줌

In [10]:
text = """
> 인용문 1
> 인용문 2
   >   인용문 3
""".strip()

print(re.sub(r"^\s*>\s+", "", text, flags=re.MULTILINE))

인용문 1
인용문 2
인용문 3


In [11]:
# test