In [17]:
import re
import pandas as pd

In [18]:
from IPython.core.display import display, HTML
display(HTML("<style>.container { width: 78% !important; }</style>"))

In [19]:
def getRegex(df : pd.DataFrame, col_name : str, regex : str) -> pd.DataFrame :
    return df[df[col_name].str.contains(regex)]

# 위치 찾기

* 텍스트 영역 내에 있는 특정 위치에서 텍스트를 찾아야하는 경우

In [23]:
text1 = "The cat scattered his food all over the room."

* 만약, 여기서 cat을 dog로 치환한다면? 말도 안되는 결과를 얻게됨
* 이럴 때, 경계를 사용하거나 패턴 앞이나 뒤에 특정한 위치 혹은 경계를 나타내는 메타 문자를 사용하면 된다.

## 단어 경계 지정하기(\b, \B)

In [24]:
print(text1)

The cat scattered his food all over the room.


In [29]:
print(re.findall(r"cat", text1))
print(re.findall(r"\bcat\b", text1))

['cat', 'cat']
['cat']


* 이렇게 블랭크 스페이스 경계를 지어주었다. \b
* 완전한 단어 하나를 일치시키고자 한다면, 일치시키고자하는 단어 앞뒤에 모두 \b를 붙여야 한다.

In [30]:
text2 = """The captain wore this cap and cape proudly as 
he sat listening to the recap of how his
crew saved the men from a capsized vessel."""

In [32]:
print(re.findall(r"\bcap", text2))
print(re.findall(r"cap\b", text2))

['cap', 'cap', 'cap', 'cap']
['cap', 'cap']


* 한 가지 주의할점 \b는 실제로 문자와 일치하는 것이 아니고, 위치를 가리킨다. 그래서 \bcat\b를 써서 찾은 문자열의 길이는 5가 아니라 3이다.

In [33]:
text3 = """Please enter the nine-digit id as it
appears on your color - coded pass-key."""

In [35]:
print(re.findall(r"-", text3))
print(re.findall(r"\B-\B", text3))

['-', '-', '-']
['-']


## 문자열 경계 정의하기(^, $)

* 전체 문자열의 시작이나 마지막 부분과 패턴을 일치시키고자 할때
* ^ : 문자열의 시작
* $ : 문자열의 마지막

In [36]:
text4 = """<?xml version="1.0" encoding="UTF-8" ?>
<wsdl:definitions targetNamespace="http://tips.cf"
xmlns: impl="http://tips.cf" xmlns:"intf=http://tips.cf"
xmlns: apachesoap="http://xml.apache.org/xml-soap"="""

In [37]:
print(re.findall(r"\?xml.*\?", text4))

['?xml version="1.0" encoding="UTF-8" ?']


* 하지만, 첫 시작이 xml이라는 것을 정확히 확인할 수는 없다.

In [42]:
print(re.findall(r"^s*<\?xml.*\?>", text4))

['<?xml version="1.0" encoding="UTF-8" ?>']


* ^s*를 해줘야 앞의 모든 공백들을 제거할 수 있다.

* </[Hh][Tt][Mm][Ll]>s*$
    * 문자열의 마지막 패턴이 공백으로 끝난다? = 다른 문자열이 없고 html 태그가 마무리 되었다.

## 다중행 모드 사용하기((?m))

* ^, $는 문자열의 시작과 마지막에 일치한다.
    * 때로는 이러한 규칙을 모든 행에서 찾아야 할 때가 있다.

In [43]:
text5 = """<script>
function doSpellCheck(form, field) {
    // Make sure not empty
    if (field.value == '') {
        return false;
    }
    // Init
    var windowName = 'spellWindow';
    var spellCheckURL = 'spell.cfm?formname = blarblar';
...
    // Done
    return flase;
}
</script>"""

In [49]:
print(re.findall(r"(?m)^\s*//.*$", text5))

['    // Make sure not empty', '    // Init', '    // Done']
