# Issues with backslashes(\\)
- Let's go in detail

In [1]:
# 참고: 
# https://lerner.co.il/2018/07/24/avoiding-windows-backslash-problems-with-pythons-raw-strings/

# \(backslash)에 대한 문제
# 파이썬에서의 \n은 특별한 의미가 있다.
print('Hello\Python')
print('Hello\nPython')

# '\n'을 출력하려면?
# \\와 같이 2개를 입력해야한다.
# 그러면 \\가 문자 \임을 의미한다.
print('Hello\\nPython')

Hello\Python
Hello
Python
Hello\nPython


In [2]:
import re

# 아래의 문자열은 길이가 1이다. 즉, 1개의 문자로써 '줄바꿈'문자를 의미한다.
# 따라서, 이를 출력하면 줄이 바뀐다.
s = "\n"
print(len(s), s)
print("just for checkinig new line")

# 아래의 문자열은 길이가 2이다. "\\"는 escape sequence로써 1개의 backslash를 의미한다.
# 그리고 "n"이라는 문자가 연결된것이다.
s = "\\n"
print(len(s), s)

1 

just for checkinig new line
2 \n


In [3]:
# 정규식을 이용해서 '\section'이라는 문자열을 찾으려면
# 아래와 같이 정규식을 적으면 않된다.
# 왜 그럴까?
# \는 파이썬 언어 자체에서도 특별한 의미로 다루어지고
# \는 정규식에서도 특별한 의미로 
# 즉, 2중으로 특별한 의미로 다루어지기 때문이다.
print(re.search("\\section",' \\section')) ##파이썬에서 \\는 \으로, 정규식에서 \s는 스페이스로 처리. 따라서 " ection"이 된다. 

None


In [3]:
# 정규식에서 \s는 하나의 whitespace(빈칸, 줄바꿈, Tab 등)을 의미한다.
# 따라서 정규식 "\\section"은 파이썬 언어에서 \\가 \을 의미해서
# 정규식의 의미로는 \section이 된다.
# 정규식에서 \s는 whitespace를 의미해서, "white space 1개+ection"을 의미하는 정규식이된다.
# 휴.. 어렵다.. 이해가 되지 않으면 다시 읽어보기 바란다.

print(re.search("\\section",'test  ection'))

<re.Match object; span=(5, 12), match=' ection'>


In [5]:
# 따라서 아래와 같이 작성해야 "\section" 문자열을 검색하게 된다.
print(re.search("\\\\section",'\\section'))
# 위의 정규식 "\\\\section"은 "\section" 문자열을 의미한다.

<re.Match object; span=(0, 8), match='\\section'>


In [25]:
# 이렇게 backslash와 관련된 사항을 쉽게 처리하기 위해서
# 파이썬 정규식에서 raw string 개념을 사용한다.
# raw string은 파이썬에서의 \ 심볼을 그냥 \로 생각하게 하자는 의미다.(escape sequence 의미를 사용하지 않겠다는 의미다)

print(re.search(r"\\section",'\section'))

# 명확히 하자
# 파이썬의 문자열 규칙에 따른 \ 처리 문제와 더불어
# 정규식 엔진에서의 \ 처리문제가 이중으로 관여되기 때문에 발생하는 문제다


<re.Match object; span=(0, 8), match='\\section'>
'\'


# 이제부터는 혼란을 줄이기 위해서 모든 정규식을 raw string으로 표현할것이다.

In [26]:
# 파이썬에서는 문자열 앞에 r을 붙이면 escape sequence를 무력화한다.
# 이를 raw string이라고 한다.
s = r"\n"
print(len(s), s)

print('test')
print('\test') # 여기서 \t는 Tab 문자를 의미한다.
print('\\test') # 여기서 \\는 \ 문자를 의미한다.
print(r'\test') # raw string이다.

2 \n
test
	est
\test
\test


In [31]:
# 이제부터는 혼란을 줄이기 위해서 모든 정규식을 raw string으로 표현할것이다.

print(re.search(r"Co.k.e",'Cookie'))
print(re.search(r"\d\d\d","119")) #\d 는 [0-9]와 같다.
print(re.search(r"hello\w", "hello1")) # \w는 alphanumeric + "_" 즉  [a-zA-Z0-9_]와 같다.
print(re.search(r"hello\W", "hello~")) 
print(re.search(r"love\spython","love python"))
print(re.search(r"love\spython","love  python"))
print(re.search(r"^Pine","PineApple")) # ^은 곽괄호 안에 없는 경우, 문장의 시작을 의미.
print(re.search(r"Apple$","PineApple")) # $ -> 문장끝.
print(re.search(r".*Apple$","ApplePineApple")) #뭐가 되든 상관없는데 (.) 뒤에 Apple이 나오면 리턴해줘라.

<re.Match object; span=(0, 6), match='Cookie'>
<re.Match object; span=(0, 3), match='119'>
<re.Match object; span=(0, 6), match='hello1'>
<re.Match object; span=(0, 6), match='hello~'>
<re.Match object; span=(0, 11), match='love python'>
None
<re.Match object; span=(0, 4), match='Pine'>
<re.Match object; span=(4, 9), match='Apple'>
<re.Match object; span=(0, 14), match='ApplePineApple'>
