`re` 모듈과 정규표현식 연습문제들 모음


- 정규표현식에서 자주 사용되는 패턴

  - 아래와 같이 2가지 방법으로 사용할 수 있습니다.

  ```python
  # 1
  p = re.compile(r'([0-9]|10)([SDT])([\*\#]?)')
  p.findall('1S2D*3T')

  # 2
  re.findall(r'([0-9]|10)([SDT])([\*\#]?)', '1S2D*3T')
  ```

  - compile() : 패턴 컴파일
  - match() : 문자열의 앞 부분이 매치되는가를 체크, 추출
  - sub() : 매치된 부분을 치환 (str에 replace와 같은 역활)
  - search() : 선두에 한해서 매치하는지를 체크, 추출
  - findall() : 매치된 부분 모두 리스트 반환
  - finditer() : 정규식과 매치되는 모든 문자열(substring)을 반복 가능한 객체로 리턴한다.
  - spilt() : 정규표현 패턴으로 문자열을 분할 (str에 split과 같은 역활)

- 반환 객체의 값

  - group() : 매치된 문자열
  - groups() : 매치된 문자열 전체
  - start() : 매치된 문자열의 시작 위치
  - end() : 매치된 문자열의 끝 위치
  - span() : 매치된 문자열의 시작과 끝

- 컴파일 옵션(플래그)

  - 사용 예

  ```python
  re.compile('[a-z]+', re.I)
  ```

  - `re.DOTALL` or `re.S ` : 줄바꿈 문자까지 모두 매칭
  - `re.IGNORECASE` or `re.I` : 대소문자 구분하지 않음
  - `re.MULTILINE` or `re.M` : ^, & 등의 매칭 패턴을 라인마다 적용
  - `re.VERBOSE` or `re.X` : 아래와 같이 #으로 주석문을 사용할 수 있음

  ```python
  a = re.compile(r"""\d +  # the integral part
                 \.    # the decimal point
                 \d *  # some fractional digits""", re.X)
  b = re.compile(r"\d+\.\d*")
  ```

- tip
  - 같은 패턴입니다.
  ```
  re.compile('\\\\section')
  re.compile(r'\\section')
  ```
  - {}를 표현하고 싶을 때에는 중괄호 2개, 또는 때에 따라 3개가 필요합니다.
  ```
  re.compile(f'{{section}}')
  ```


In [1]:
import re

text = """hello
hallo
hollo
hillo
"""

p = re.compile("h[eao]llo")
p.findall(text)


['hello', 'hallo', 'hollo']

In [2]:
import re

text = """
010-8752-4037
010.8752.4037
010 8752 4037
010/8752/4037
01087524037
010-9091-5491
010-5043-2901
010-5050-40409
010-49492-3131
010 2913 3132
01019133829
064-721-3213
010.1913.3829
"""
p = re.compile(r"\w+")
p.findall(text)


['010',
 '8752',
 '4037',
 '010',
 '8752',
 '4037',
 '010',
 '8752',
 '4037',
 '010',
 '8752',
 '4037',
 '01087524037',
 '010',
 '9091',
 '5491',
 '010',
 '5043',
 '2901',
 '010',
 '5050',
 '40409',
 '010',
 '49492',
 '3131',
 '010',
 '2913',
 '3132',
 '01019133829',
 '064',
 '721',
 '3213',
 '010',
 '1913',
 '3829']

In [3]:
text = """
Sunday Monday Tuesday Wednesday Thursday Friday Saturday
sunday monday tuesday wednesday thursday friday saturday
"""


In [4]:
text = """
chltmdgus604@gmail.com
test.test@go.go.go
sfjd!@naver.com
"""


[숨어있는 숫자의 덧셈](https://school.programmers.co.kr/learn/courses/30/lessons/120851)


In [5]:
import re

my_string = "aAb1B2cC34oOp"

re.findall("\d", my_string)


['1', '2', '3', '4']

# re.group

https://docs.python.org/3/library/re.html#re.Match.group

regex에서 그룹을 사용하면 인덱싱을 돌릴 수 있다.

If the regular expression uses the `(?P<name>...)` syntax, the groupN arguments may also be strings identifying groups by their group name.


# re.sub

[re.sub]

[re.sub]: https://docs.python.org/3/library/re.html#re.sub


미국식, 영국식 날짜로 표기하시오

입력: '2023/05/16'
출력1: '05/16/2023' 미국식 날짜 표기 월 -> 일 -> 년 순임...
출력2: '16/05/0223' 영국식 날짜 표기 일 -> 월 -> 년 순임...


In [6]:
import re

# regex 그룹에 변수명을 붙일 수 있다... 바로 '?P<var-name>'
pattern = r"(?P<year>[0-9]{4})/(?P<month>[0-9]{2})/(?P<day>[0-9]{2})"
r = re.compile(pattern)
strings = """2023/05/16
1997/09/26
1968/10/06
1973/05/20
1999/06/19"""
print(r.findall(strings))

print("\n미국식 날짜표기\n")
for s in strings.split("\n"):
    print(r.sub(r"\g<month>/\g<day>/\g<year>", s))

print("\n영국식 날짜표기\n")
for s in strings.split("\n"):
    print(r.sub(r"\g<day>/\g<month>/\g<year>", s))


[('2023', '05', '16'), ('1997', '09', '26'), ('1968', '10', '06'), ('1973', '05', '20'), ('1999', '06', '19')]

미국식 날짜표기

05/16/2023
09/26/1997
10/06/1968
05/20/1973
06/19/1999

영국식 날짜표기

16/05/2023
26/09/1997
06/10/1968
20/05/1973
19/06/1999


## Markdown 문법을 Html 문법으로

Before:

```
# Hello world
```

After:

```
<h1>Hello world<h1>
```


In [7]:
import re

text = """
# This is a heading

## This is a subheading

* This is an unordered list item
* This is another unordered list item

**This is bold text**

_This is italic text_

`This is code`
"""


def markdown_to_html(text):
    """
    마크다운 텍스트를 HTML 문서로 변환합니다.

    Args:
        text: 변환할 마크다운 텍스트.

    Returns:
        변환된 HTML 문서.
    """

    # 마크다운을 HTML로 변환하기 위한 정규식 패턴 목록입니다.
    substitution_pairs = [
        (r"^# (.*)", r"<h1>\1<h1>"),
        (r"^## (.*)", r"<h2>\1<h2>"),
        (r"^### (.*)", r"<h3>\1<h3>"),
        (r"^#### (.*)", r"<h4>\1<h4>"),
        (r"^\* (.*)", r"<ul><li>\1</li></ul>"),
        (r"^\- (.*)", r"<ol><li>\1</li></ol>"),
        # (r'**(.*)**', r'<strong>\1</strong>'),  # 문제가 있는듯
        (r"_(.*)_", r"<em>\1</em>"),
        (r"`(.*)`", r"<code>\1</code>"),
    ]

    # 정규식 패턴을 사용하여 마크다운을 HTML로 변환합니다.
    for pat, repl in substitution_pairs:
        text = re.sub(pat, repl, text)

    return text


# HTML을 출력합니다.
print(markdown_to_html(text))



# This is a heading

## This is a subheading

* This is an unordered list item
* This is another unordered list item

**This is bold text**

<em>This is italic text</em>

<code>This is code</code>



근데 마크다운 문서를 html로 변환하는 파이썬 모듈 `markdown`이 있기는 하다.


In [8]:
import markdown


def convert_markdown_to_html(markdown_text):
    """마크다운 텍스트를 HTML 문서로 변환합니다.

    Args:
      markdown_text: 변환할 마크다운 텍스트입니다.

    Returns:
      변환된 HTML 문서입니다.
    """

    return markdown.markdown(markdown_text)


if __name__ == "__main__":
    markdown_text = """
    # This is a heading

    This is some text.

    * This is a bulleted list item.
    * This is another bulleted list item.

    Here is a link: [Google](https://www.google.com).
    """

    html_text = convert_markdown_to_html(markdown_text)

    print(html_text)


<p># This is a heading</p>
<p>This is some text.</p>
<ul>
<li>This is a bulleted list item.</li>
<li>This is another bulleted list item.</li>
</ul>
<p>Here is a link: <a href="https://www.google.com">Google</a>.</p>


# re.findall

[369 게임](https://school.programmers.co.kr/learn/courses/30/lessons/120891)

주어진 숫자 안에 있는 3, 6, 9의 숫자를 세시오.


In [9]:
import re

solution = lambda order: len(re.findall("[369]", str(order)))

solution(29423)

2

## 연습문제: 잘라서 배열로 저장하기

https://school.programmers.co.kr/learn/courses/30/lessons/120913

사실 슬라이싱 문법 사용하여 간단하게 풀어도 되지만 `findall`을 사용하여 풀어보자


In [10]:
# slicing 사용
def solution(my_str, n): return [my_str[l: l + n]
                                 for l in range(0, len(my_str), n)]


solution("abc1Addfggg4556b", 6)


['abc1Ad', 'dfggg4', '556b']

In [11]:
import re

# re.findall 사용
# python에서 {를 넣기 위해선 {{를 사용하여야 합니다
solution = lambda my_str, n: re.findall(f".{{1,{n}}}", my_str)
solution("abc1Addfggg4556b", 6)

['abc1Ad', 'dfggg4', '556b']

## 연습문제: 영어가 싫어요

https://school.programmers.co.kr/learn/courses/30/lessons/120894


In [12]:
import re

pair = {
    "one": "1",
    "two": "2",
    "three": "3",
    "four": "4",
    "five": "5",
    "six": "6",
    "seven": "7",
    "eight": "8",
    "nine": "9",
    "zero": "0",
}


def solution(numbers):
    return int(
        "".join(
            pair[i]
            for i in re.findall(
                r"(zero|one|two|three|four|five|six|seven|eight|nine)", numbers
            )
        )
    )


solution("onetwothreefourfivesixseveneightnine")

123456789

## 연습문제: 암호문

https://pyalgo.co.kr/?page=2#


In [21]:
import re


def solution(string):
    sum_ = sum(int(x) for x in re.findall(r"[rev](10|[1-9])", string))
    sum_ = str(sum_)
    return f"{sum_[0]}월 {sum_[1]}일"


solution("a10b9r10ce33uab8wc918v2cv11v10")

'2월 6일'

# re.split

정규표현 패턴으로 문자열을 분할한다. `str.split`과 같음


In [13]:
import re

s = "010 8752!4037"

re.split(r"[ !]", s)


['010', '8752', '4037']

## beautiful soup 쓰지 않고 html 문서 파싱하기

외부 모듈 의존성 줄이는 연습도 필요하다.


In [15]:
html_text = """
<!DOCTYPE html>
<html lang="ko">
<head>
    <title>hello title</title>
</head>
<body>
    <h1>hello h1</h1>
    <p>hello p</p>
</body>
</html>
"""


In [23]:
import re

pat = r"<[^<>*]*>"

[s.strip() for s in re.split(pat, html_text)]


['',
 '',
 '',
 '',
 'hello title',
 '',
 '',
 '',
 'hello h1',
 '',
 'hello p',
 '',
 '',
 '']

# 연습문제: 프로그래머스 - 옹알이

https://school.programmers.co.kr/learn/courses/30/lessons/120956?language=python3


In [None]:
import re


def solution(babbling):
    count = 0
    p = ["aya", "ye", "woo", "ma"]
    for i in babbling:
        print("------------")
        print(i)
        for pattern in p:
            # sub를 사용하면 일치하지 않는 문자열이 일치할 수도 있기 때문에 whitespace로 처리함.
            i = re.sub(pattern, " ", i)
            print(i)
        if i.replace(" ", "") == "":
            count += 1
    return count


solution(["aya", "yee", "u", "maa", "wyeoo"])
