## 정규표현식
* Anchors (처음과 끝)
    ```
    /^hello/gm : 처음에 hello
    /hello$/gm : 끝에 hello
    ```
* dot (모든 문자)
    ```
    /.ello/gm : hello, Hello, yello
    /./gm : 모든 문자열(*과 같은 역할)
    /....../gm : 모든 6개의 문자열
    ```
* 대괄호 (택1)
    ```
    /h[eay]llo/gm : 대괄호 안에 문자는 문자 1개에 해당!
    /h[ea]l../gm : 총 5개의 문자
    ```

* 대쉬 (범위)
    ```
    /h[a-f]llo/gm
    /[a-zA-Z0-9]/gm : 모든 알파뱃과 숫자를 찾음
    /[^a-zA-Z0-9]/gm : 나머지 문자열을 찾음
    ```

* 캐럿^ (대괄호 안에 들어가면 부정)
    * 아래 경우 a와 e가 모두 부정
    ```
    /h[^ae]llo/gm : 대괄호 안에 있다면 not에 의미
    ```

* 소괄호 (서브패턴, 그룹)
    * 패턴으로 외우는 것보다 예제로 습득 권장
    ```
    /(on|ues|rida)/gm : 그룹 1로 3개 중 매칭되는 패턴 찾음
    ```
* 수량자
    ```
    _* : 앞에 있는 문자가 0개 ~ N개
    _+ : 앞에 있는 문자가 1개 ~ N개
    _? : 앞에 있는 문자가 0개 ~ 1개

    {3} : 3개
    {3,} : 3개 이상
    {1,3} : 1개 ~ 3개

    _* : 앞에 있는 문자가 0개 ~ N개 ({0,})
    _+ : 앞에 있는 문자가 1개 ~ N개({1,})
    _? : 앞에 있는 문자가 0개 ~ 1개 ({0,1})

    /[0-9]{3}[-.* ][0-9]{4}[-.* ][0-9]{4}/gm
    /[0-9a-zA-Z]{2,3}[-.* ][0-9]{3,4}[-.* ][0-9]{4}/gm
    /[0-9a-zA-Z]+@[0-9a-zA-Z]+.[a-zA-Z]+/gm
    ```

* 캐릭터 클래스
    ```
    /\w/gm : 워드
    /\w{5} /gm : 5개의 글자와 스페이스 하나
    /\W/gm : not 워드
    /\d/gm : 숫자
    /\D/gm : not 숫자
    /\s/gm : 스페이스
    /\S/gm : not 스페이스
    ```

* 이스케이프 문자
    ```
    /\[.*]/gm : 대괄호([]) 안에 감싸여진 문자열
    /\(.*\)/gm : 소괄호 안에 감싸여진 문자열
    /\\.*\//gm : 이미 사용되고 있는 특수문자로 감싸여진 문자열
    /-.*-/gm : 이스케이프 문자를 사용할 필요가 없는 경우
    /\^\^/gm : 이스케이프 문자가 필요한 경우
    /:\)/gm : 이스케이프 문자가 필요한 경우
    ```

* 전화번호
    ```
    010[-,. ]?[0-9]{4}[-,. ]?[0-9]{4}
    010([-,. ]?[0-9]{4}){2}
    ```

* 공식문서 : https://docs.python.org/ko/3/library/re.html

* 정규표현식에서 자주 사용되는 패턴
    * 아래와 같이 2가지 방법으로 사용할 수 있습니다.
    ```
    # 1
    p = re.compile(r'([0-9]|10)([SDT])([\*\#]?)')
    p.findall('1S2D*3T')

    # 2
    re.findall(r'([0-9]|10)([SDT])([\*\#]?)', '1S2D*3T')
    ```
    * compile() : 패턴 컴파일
    * match() : 문자열의 앞 부분이 매치되는가를 체크, 추출
    * sub() : 매치된 부분을 치환 (str의 replace와 같은 역할)
    * search() : 선두에 한해서 매치하는지를 체크, 추출
    * findall() : 매치된 부분 모두 리스트 반환
    * finditer() : 정규식과 매치되는 모든 문자열(substring)을 반복 가능한 객체로 리턴한다.
    * spilt() : 정규표현 패턴으로 문자열을 분할 (str의 split과 같은 역할)

* 반환 객체의 값
    * group() : 매치된 문자열
    * groups() : 매치된 문자열 전체
    * start() : 매치된 문자열의 시작 위치
    * end() : 매치된 문자열의 끝 위치
    * span() : 매치된 문자열의 시작과 끝

* 컴파일 옵션(플래그)
    * 사용 예
    ```
    re.compile('[a-z]+', re.I)
    ```
    * re.DOTALL, re.S : 줄바꿈 문자까지 모두 매칭
    * re.IGNORECASE, re.I : 대소문자 구분하지 않음
    * re.MULTILINE, re.M : ^, & 등의 매칭 패턴을 라인마다 적용
    * re.VERBOSE, re.X : 아래와 같이 #으로 주석문을 사용할 수 있음
    ```
    a = re.compile(r"""\d +  # the integral part
        # the decimal point \d *  # some fractional digits""", re.X)
    b = re.compile(r"\d+.\d*")
    ```
    
* tip
    * 같은 패턴입니다.
    ```
    re.compile('\\section')
    re.compile(r'\section')
    ```
    * {}를 표현하고 싶을 때에는 중괄호 2개, 또는 때에 따라 3개가 필요합니다.
    ```
    re.compile(f'{{section}}')
    ```

In [None]:
import re

p = re.compile(r'([0-9]|10)([SDT])([\*\#]?)')
p.findall('1S2D*3T') # 2 + 8 + 27

[('1', 'S', ''), ('2', 'D', '*'), ('3', 'T', '')]

## compile (패턴 만들기)

In [None]:
import re

p = re.compile('h[eao]llo')

In [None]:
text = '''hello
hallo
hollo'''
text

'hello\nhallo\nhollo'

## match

In [None]:
# 실무에서는 특정한 패턴이 존재하는지만 사용하는 것으로 많이 사용합니다.
# 찾아서 무언가를 하는 것은 findall이나 sub 같은 메서드를 많이 사용합니다.

In [None]:
import re

p = re.compile('h[eao]llo')
p.match('hello hallo hollo hillo hallo')

<re.Match object; span=(0, 5), match='hello'>

In [None]:
result = p.match('hello hallo hollo hillo hallo')
result.group(0)
# result.group(1)

'hello'

In [None]:
import re

p = re.compile('(\w+) (\w+) (\w+)')
result = p.match('hello hallo hollo hillo hallo')
result.group(0) # 전체 그룹
result.group(1) # 그룹1
result.group(2) # 그룹2
result.group(3) # 그룹3

'hollo'

In [None]:
import re

p = re.compile('(\w+) (\w+) (\w+)')
result = p.match('hello hallo hollo hillo hallo')
result.group(1, 2) # 그룹1, 그룹2

('hello', 'hallo')

In [None]:
import re

p = re.compile('h[eao]llo')
p.match('hillo hallo hollo hillo hallo')
# None값이 출력된 것
# 문자열 앞쪽이 매칭이 안 된 것

In [None]:
# 아래 문법은 match 말고도 다른 문법에서도 사용 가능
m = re.match(r"(?P<first_name>\w+) (?P<last_name>\w+)", "Malcolm Reynolds")
m.group('first_name'), m.group('last_name')

('Malcolm', 'Reynolds')

In [None]:
m[1], m[2]

('Malcolm', 'Reynolds')

In [None]:
m = re.match(r"010-(?P<앞자리>[0-9]{4})-(?P<뒷자리>[0-9]{4})", "010-1000-2000")
m.group('앞자리'), m.group('뒷자리')

('1000', '2000')

In [None]:
# 실무에서 match가 사용되는 패턴 (공식문서)
valid = re.compile(r"^[a2-9tjqk]{5}$")

def displaymatch(match):
    if match is None:
        return None
    return '<Match: %r, groups=%r>' % (match.group(), match.groups())

displaymatch(valid.match("akt5q"))

"<Match: 'akt5q', groups=()>"

## sub

* str의 replace 메서드와 같은 기능
* 정규표현식을 사용할 수 있는 코드

In [None]:
# 문제 : https://school.programmers.co.kr/learn/courses/30/lessons/120849

In [None]:
def solution(my_string):
    return my_string.replace('a', '').replace('e', '').replace('i', '').replace('o', '').replace('u', '')


In [None]:
def solution(my_string):
    string = 'aeiou'
    for i in string:
        my_string = my_string.replace(i, '')
    return my_string

In [None]:
import re

def solution(my_string):
    return re.sub(r"[aeiou]", "", my_string)

In [None]:
import re
solution = lambda my_string: re.sub(r"[aeiou]", "", my_string)

In [None]:
# 문제 : https://school.programmers.co.kr/learn/courses/30/lessons/120826

In [None]:
def solution(my_string, letter):
    for i in letter:
        my_string = my_string.replace(i, '')
    return my_string

In [None]:
import re

def solution(my_string, letter):
    return re.sub(letter, "", my_string)

In [None]:
import re
solution = lambda my_string, letter: re.sub(letter, "", my_string)

In [None]:
import re

text = '''010-9091-5491
010-5043-2901
010-5050-40409
010 2913 3132
01019133829
064-721-3213
010.1913.3829'''

p = re.compile(r'([0-9]{3}[-. ]?[0-9]{3,}[-. ]?[0-9]{4,})')
p.findall(text)

In [None]:
# 문제 : https://school.programmers.co.kr/learn/courses/30/lessons/120851

In [None]:
def solution(my_string):
    s = 0
    for i in my_string:
        if i.isdigit():
            s+= int(i)
    return s

16

In [None]:
def solution(my_string):
    return sum([int(i) for i in my_string if i.isdigit()])

In [None]:
def solution(my_string):
    return sum(map(int, filter(lambda x:x.isdigit(), my_string)))

In [None]:
import re

my_string = 'aAb1B2cC34oOp'
re.sub('[a-zA-Z]', '', my_string)

'1234'

In [None]:
import re

my_string = 'aAb1B2cC34oOp'
re.sub('[^1-9]', '', my_string)

'1234'

In [None]:
import re

def solution(my_string):
    return sum([int(i) for i in re.sub('[a-zA-Z]', '', my_string)])

In [None]:
import re

def solution(my_string):
    return sum(int(i) for i in re.sub('[a-zA-Z]', '', my_string))

### sub에 실무 응용(중고급 강좌)

In [None]:
import re

re.sub(r'([0-9]{3})-([0-9]{4})-([0-9]{4})',
       r'\1__\2__\3',
       '010-5000-3000')

'010__5000__3000'

In [None]:
import re

re.sub(r'([0-9]{3})-([0-9]{4})-([0-9]{4})',
       r'\1---\2---\3',
       '010-5000-3000')

'010---5000---3000'

In [None]:
# 문제
# 입력 : '2023/05/16'
# 출력1 : '05/16/2023' 미국식 날짜 표기
# 출력2 : '16/05/2023' 영국식 날짜 표기

import re

print(re.sub(r'([0-9]{4})/([0-9]{2})/([0-9]{2})',
       r'\2/\3/\1',
       '2023/05/16'))
print(re.sub(r'([0-9]{4})/([0-9]{2})/([0-9]{2})',
       r'\3/\2/\1',
       '2023/05/16'))

05/16/2023
16/05/2023


In [None]:
# 변수로 사용하는 것
# 작동하지 않습니다

import re

re.sub(r'(?P<year>[0-9]{4})/(?P<month>[0-9]{2})/(?P<day>[0-9]{2})',
       r'\<year>/\<month>/\<day>',
       '2023/05/16')

'\\<year>/\\<month>/\\<day>'

In [None]:
# 변수로 사용하는 것

import re

re.sub(r'(?P<year>[0-9]{4})/(?P<month>[0-9]{2})/(?P<day>[0-9]{2})',
       r'\g<year>/\g<month>/\g<day>',
       '2023/05/16')

'2023/05/16'

In [None]:
# md -> html 파일로
# '# hello world' => '<h1>hello world</h1>

import re

text = '''# hello
## hello1.1
hello world
# hello2
## hello2.1
hello world
# hello3
## hello3.1
hello world
'''

re.sub(r'# (.*)', r'<h1>\1</h1>', text)

'<h1>hello</h1>\n## hello1.1\nhello world\n# hello2\n## hello2.1\nhello world\n# hello3\n## hello3.1\nhello world\n'

In [None]:
import re

text = '''# hello
## hello1.1
hello world
# hello2
## hello2.1
hello world
# hello3
## hello3.1
hello world
'''

text = re.sub(r'## (.*)', r'<h2>\1</h2>', text)
text = re.sub(r'# (.*)', r'<h1>\1</h1>', text)
print(text)

<h1>hello</h1>
<h2>hello1.1</h2>
hello world
<h1>hello2</h1>
<h2>hello2.1</h2>
hello world
<h1>hello3</h1>
<h2>hello3.1</h2>
hello world



In [None]:
import re

text='''# hello1
## hello1.1
hello world
# hello2
## hello2.1
hello world
# hello3
## hello3.1
hello world
'''

# p = re.compile('^# (.*)', re.MULTILINE)
# text = p.sub(r'<h1>\1</h1>', text)
text = re.sub(r'^# (.*)', r'<h1>\1</h1>', text, flags=re.M)
text = re.sub(r'^## (.*)', r'<h2>\1</h2>', text, flags=re.M)
print(text)

<h2>hello</h2>
<h1>hello1.1</h1>
hello world
<h2>hello2</h2>
<h1>hello2.1</h1>
hello world
<h2>hello3</h2>
<h1>hello3.1</h1>
hello world



In [None]:
import re

text = '''# This is a h1
## This is a h2
### This is a h3
#### This is a h4
##### This is a h5
###### This is a h6

* This is a bulleted list
  * This is a nested bulleted list

**This is bold text**

_This is italic text_

~~This text is strikethrough~~
'''

def markdown_to_html(markdown):
    html = re.sub(r'### (.*)', r'<h3>\1</h3>', markdown)
    html = re.sub(r'## (.*)', r'<h2>\1</h2>', html)
    html = re.sub(r'# (.*)', r'<h1>\1</h1>', html)
    html = re.sub(r'`(.*)`', r'<pre><code>\1</code></pre>', html)
    html = re.sub(r'\*\*(.*)\*\*', r'<strong>\1</strong>', html)
    html = re.sub(r'_(.*)_', r'<em>\1</em>', html)
    html = re.sub(r'~~(.*)~~', r'<del>\1</del>', html)
    html = re.sub(r'^(>+) (.*)', r'<blockquote>\1\2</blockquote>', html)
    # html = re.sub(r'^\* (.*)', r'<ul><li>\1</li></ul>', html, flags=re.M+re.S)
    return html

print(markdown_to_html(text))

<h1>This is a h1</h1>
<h2>This is a h2</h2>
<h3>This is a h3</h3>
#<h3>This is a h4</h3>
##<h3>This is a h5</h3>
###<h3>This is a h6</h3>

* This is a bulleted list
  * This is a nested bulleted list

<strong>This is bold text</strong>

<em>This is italic text</em>

<del>This text is strikethrough</del>



## search

In [None]:
p = re.compile('[yth]')
m = p.search('python')
print(m)

<re.Match object; span=(1, 2), match='y'>


## findall

In [None]:
p = re.compile('[a-z]+')
result = p.findall('Python')
print(result)

['ython']


In [None]:
p = re.compile('[a-z]+')
result = p.findall('Life is Short, You Need Python!')
print(result)

['ife', 'is', 'hort', 'ou', 'eed', 'ython']


In [None]:
p = re.compile('[a-z]+')
result = p.findall('LifeisShort,YouNeed P y t h o n !')
print(result)

['ifeis', 'hort', 'ou', 'eed', 'y', 't', 'h', 'o', 'n']


In [None]:
p = re.compile('[0-9]+')
result = p.findall('010-5000-1000')
print(result)

['010', '5000', '1000']


In [None]:
'010-5000-1000'.split('-')

['010', '5000', '1000']

In [None]:
# 1
p = re.compile(r'([0-9]|10)([SDT])([\*\#]?)')
p.findall('1S2D*3T')

# 2
# re.findall(r'([0-9]|10)([SDT])([\*\#]?)', '1S2D*3T')

[('1', 'S', ''), ('2', 'D', '*'), ('3', 'T', '')]

In [None]:
# 문제 : https://school.programmers.co.kr/learn/courses/30/lessons/120891

In [None]:
p = re.compile('[369]')
result = p.findall('29423')
print(result)

['9', '3']


In [None]:
import re

def solution(order):
    p = re.compile('[369]')
    return len(p.findall(str(order)))

In [None]:
def solution(order):
    count = 0
    for i in str(order):
        if i == '3' or i == '6' or i == '9':
            count += 1
    return count

In [None]:
import re

def solution(order):
    p = re.compile('[369]')
    return len(p.findall(str(order)))

In [None]:
# 문제 : https://school.programmers.co.kr/learn/courses/30/lessons/120913

In [None]:
n = 3
s = 'abc1Addfggg4556b'

for i in range(0, len(s), n):
    print(s[i:i+n]) # str에 slicing 경우 out of range error가 발생하지 않습니다.

abc
1Ad
dfg
gg4
556
b


In [None]:
def solution(my_str, n):
    result = []
    for i in range(0, len(my_str), n):
        result.append(my_str[i:i+n])
    return result

In [None]:
import re

re.findall('.{4}', 'abc1Addfggg4556b')

['abc1', 'Addf', 'ggg4', '556b']

In [None]:
import re

re.findall('.{1,4}', 'abc1Addfggg4556bte')

['abc1', 'Addf', 'ggg4', '556b', 'te']

In [None]:
# python에서 {를 넣기 위해선 {{를 사용하여야 합니다
# f-string  용법에서 중괄호를 문자열 그대로 표현하기 위해
# 이스케이프 문자를 사용하지 않습니다.
# 중괄호 2개를 사용합니다
import re

def solution(my_str, n):
    return re.findall(f'.{{1,{n}}}', my_str)

In [None]:
# 문제 : https://school.programmers.co.kr/learn/courses/30/lessons/120894

In [None]:
import re

re.findall('(one|two|three|four|five|six|seven|eight|nine|zero)',
           'onetwothreefourfivesixseveneightnine')

['one', 'two', 'three', 'four', 'five', 'six', 'seven', 'eight', 'nine']

In [None]:
d = {
    'zero': 0,
    'one': 1,
    'two': 2,
    'three': 3,
    'four': 4,
    'five': 5,
    'six': 6,
    'seven': 7,
    'eight': 8,
    'nine': 9
}
l = ['one', 'two', 'three', 'four', 'five', 'six', 'seven', 'eight', 'nine']

s = ''
for i in l:
    s += str(d[i])
s

'123456789'

In [None]:
''.join([str(d[i]) for i in l])

'123456789'

In [None]:
d = {
    'zero': 0,
    'one': 1,
    'two': 2,
    'three': 3,
    'four': 4,
    'five': 5,
    'six': 6,
    'seven': 7,
    'eight': 8,
    'nine': 9
}
l = ['one', 'two', 'three', 'four', 'five', 'six', 'seven', 'eight', 'nine']
list(map(lambda x:str(d[x]), l))
''.join(map(lambda x:str(d[x]), l)) # join 뒤에도 이터러블 객체가 옵니다

'123456789'

## finditer

* 정규식과 매치되는 모든 문자열(substring)을 반복 가능한 객체로 리턴한다.

In [None]:
p = re.compile('.{4}')
result = p.finditer('helloworldhelloworldhelloworld')
result
for i in result:
    print(i)
    print(i.group())
    print(i.span())

<re.Match object; span=(0, 4), match='hell'>
hell
(0, 4)
<re.Match object; span=(4, 8), match='owor'>
owor
(4, 8)
<re.Match object; span=(8, 12), match='ldhe'>
ldhe
(8, 12)
<re.Match object; span=(12, 16), match='llow'>
llow
(12, 16)
<re.Match object; span=(16, 20), match='orld'>
orld
(16, 20)
<re.Match object; span=(20, 24), match='hell'>
hell
(20, 24)
<re.Match object; span=(24, 28), match='owor'>
owor
(24, 28)


## split

* 정규표현 패턴으로 문자열을 분할(str에 split과 같은 역할)

In [None]:
import re

s = '010 5000!4000'
re.split(r' ', s)

['010', '5000!4000']

In [None]:
import re

s = '010 5000!4000'
re.split(r'[ !]', s)

['010', '5000', '4000']

In [None]:
text = '''<!DOCTYPE html>
<html lang="ko">
<head>
    <title>hello title</title>
</head>
<body>
    <h1>hello h1</h1>
    <p>hello p</p>
</body>
</html>
'''

text.split('>')

['<!DOCTYPE html',
 '\n<html lang="ko"',
 '\n<head',
 '\n    <title',
 'hello title</title',
 '\n</head',
 '\n<body',
 '\n    <h1',
 'hello h1</h1',
 '\n    <p',
 'hello p</p',
 '\n</body',
 '\n</html',
 '\n']

In [None]:
import re

text = '''<!DOCTYPE html>
<html lang="ko">
<head>
    <title>hello title</title>
</head>
<body>
    <h1>hello h1</h1>
    <p>hello p</p>
</body>
</html>
'''


result = re.split('<[^<>]*>', text) # beautifulsoup 원리 : 정규표현식으로 문자열 조각
list(filter(lambda x:x !='\n', map(lambda x:x.strip(), result)))

['',
 '',
 '',
 '',
 'hello title',
 '',
 '',
 '',
 'hello h1',
 '',
 'hello p',
 '',
 '',
 '']

## 연습문제

In [None]:
# 문제 : https://pyalgo.co.kr/?page=2#

In [None]:
import re
p = re.compile('[rev][1-9]|[rev]10') # 10이 아니고 1과 0
p.findall('a10b9r1ce33uab8wc918v2cv11v9')

['r1', 'e3', 'v2', 'v1', 'v9']

In [None]:
import re
def solution(data):
    p = re.compile('([rev])(10|[1-9])') # 10을 앞에 두어야 한다 
    return p.findall(data)


solution('a10b9r1ce33uab8wc918v2cv11v9')

[('r', '1'), ('e', '3'), ('v', '2'), ('v', '1'), ('v', '9')]

In [None]:
import re
def solution(data):
    p = re.compile('([rev])(10|[1-9])') # 10을 앞에 두어야 한다 
    return sum([int(i[1]) for i in p.findall(data)])

solution('a10b9r1ce33uab8wc918v2cv11v9')

16

In [None]:
import re
def solution(data):
    p = re.compile('([rev])(10|[1-9])') # 10을 앞에 두어야 한다 
    date = sum([int(i[1]) for i in p.findall(data)])
    a, b = str(date)
    return f'{a}월 {b}일'

solution('a10b9r1ce33uab8wc918v2cv11v9')

'1월 6일'

In [None]:
ttt ='''
# 이것은 제목입니다
## 이것은 소제목입니다
### 이것은 소소제목입니다

이것은 **굵은글씨** 입니다.
이것은 *기울어진 글씨* 입니다.

이것은 `코드블록` 입니다.

- 이것은 리스트입니다.
- 이것은 또 다른 리스트입니다.

1. 이것은 숫자 리스트입니다.
2. 이것은 또 다른 숫자 리스트입니다.

> 이것은 인용입니다.
> 이것은 또 다른 인용입니다.
'''

In [None]:
import re

def markdown_to_html(markdown):
    html = re.sub('# (.*)', r'<h1>\1</h1>', markdown)
    html = re.sub('## (.*)', r'<h2>\1</h2>', html)
    html = re.sub('### (.*)', r'<h3>\1</h3>', html)
    html = re.sub('\*\*(.*)\*\*', r'<strong>\1</strong>', html)
    html = re.sub('\*(.*)\*', r'<i>\1</i>', html)
    return html

markdown_to_html(ttt)

'\n<h1>이것은 제목입니다</h1>\n#<h1>이것은 소제목입니다</h1>\n##<h1>이것은 소소제목입니다</h1>\n\n이것은 <strong>굵은글씨</strong> 입니다.\n이것은 <i>기울어진 글씨</i> 입니다.\n\n이것은 `코드블록` 입니다.\n\n- 이것은 리스트입니다.\n- 이것은 또 다른 리스트입니다.\n\n1. 이것은 숫자 리스트입니다.\n2. 이것은 또 다른 숫자 리스트입니다.\n\n> 이것은 인용입니다.\n> 이것은 또 다른 인용입니다.\n'

In [None]:
# 문제 : https://pyalgo.co.kr/?page=6#

In [None]:
import re

def solution(data):
    p = re.compile(r'12341')
    data = ''.join(str(i) for i in data)
    count = 0
    while p.search(data):
        data = p.sub('', data, 1) # 3이 카운팅 되도록 replace가능 count를 1로 조정
        count +=1
    return count
solution([1, 1, 1, 2, 3, 4, 1, 2, 3, 4, 1])

3

In [None]:
data = [1, 1, 1, 2, 3, 4, 1, 2, 3, 4, 1]
k = ''.join(str(i) for i in data)
p = re.compile(r'12341')
count = 0
while p.search(k):
    k = p.sub('',k)
    count +=1
count

2

In [None]:
data = [1, 1, 1, 2, 3, 4, 1, 2, 3, 4, 1]
''.join(data) #str만 가능하므로 error

In [None]:
data = [1, 1, 1, 2, 3, 4, 1, 2, 3, 4, 1]
''.join(map(str, data))

'11123412341'

In [None]:
data = [1, 1, 1, 2, 3, 4, 1, 2, 3, 4, 1]
s = ''.join(map(str, data))

while s.find('12341') != -1:
    s = s.replace('12341', '')

In [None]:
data = [1, 1, 1, 2, 3, 4, 1, 2, 3, 4, 1, 1, 2, 3, 4, 1]
s = ''.join(map(str, data))
count = 0

while s.find('12341') != -1:
    s = s.replace('12341', '', 1) # 3이 카운팅 되도록 replace가능 count를 1로 조정
    count += 1

count

2

## (과제) 마크다운 변환 함수 만들기

In [None]:
import re

def markdown_to_text(path):
    f = open(f'{path}', 'r', encoding='utf-8') #cp949, utf-8, 유니코드
    markdown_text = f.read()
    f.close()
    return markdown_text

def md_to_html(md_text)

In [None]:
# advanced 문제:
# 마크다운 파일을 업로드 해서 html파일로 만들어주는 코드를 만들어주세요.
from pathlib import Path
import re


def markdown_to_text(path_and_name):
    f = open(f'{path_and_name}', 'r', encoding='utf-8')
    markdown_text = f.read()
    f.close()
    return markdown_text


def md_text_to_html_text(md_text):
    # Header 1~6
    html_text = re.sub(r'###### (.*)', r'<h6>\1</h6>', md_text)
    html_text = re.sub(r'##### (.*)', r'<h5>\1</h5>', html_text)
    html_text = re.sub(r'#### (.*)', r'<h4>\1</h4>', html_text)
    html_text = re.sub(r'### (.*)', r'<h3>\1</h3>', html_text)
    html_text = re.sub(r'## (.*)', r'<h2>\1</h2>', html_text)
    html_text = re.sub(r'# (.*)', r'<h1>\1</h1>', html_text)

    # 코드블록 (여러줄 코드블록도)
    html_text = re.sub(r'`{3}(.*)`{3}',
                       r'<pre><code>\1</code></pre>', html_text, flags=re.S)
    html_text = re.sub(r'`(.*)`',
                       r'<pre><code>\1</code></pre>', html_text)

    # 굵은글씨
    html_text = re.sub(r'\*\*(.*)\*\*', r'<strong>\1</strong>', html_text)

    # 기울어진글씨(이탤릭)
    html_text = re.sub(r'\*(.*)\*', r'<em>\1</em>', html_text)

    # 리스트
    html_text = re.sub(
        r'^- ([^-].*)', r'<ul><li>\1</li></ul>', html_text, flags=re.M)

    # 숫자 리스트
    html_text = re.sub(r'^\d. (.*)', r'<ol><li>\1</li></ol>',
                       html_text, flags=re.M)

    # 인용(BlockQuote)
    html_text = re.sub(
        r'^(>+) (.*)', r'<blockquote>\1\2</blockquote>', html_text, flags=re.M)

    # 취소선?
    # html_text = re.sub(r'~~(.*)~~', r'<del>\1</del>', html_text)

    # 링크, 이미지, 표(table) 미구현

    return html_text


def save_html_file(html_text, path_saving, file_name):
    f = open(f'{Path.joinpath(path_saving, file_name)}', 'w', encoding='utf-8')
    f.write(html_text)
    f.close()
    return


md_file_path = Path.joinpath(Path.cwd(), 'sample.md')
md_text = markdown_to_text(md_file_path)
html_text = md_text_to_html_text(md_text)
save_html_file(html_text, Path.cwd(), 'parsed.html')