## nlp_regex_study.ipynb
- regex : [Regular Expressions](https://regexr.com/)
    - 핸드폰 번호, 이메일 주소 등의 특정 패턴을 찾고자 할 때 사용 (특정 부분을 찾는다)


In [2]:
import re

In [7]:
re.findall("abc", "daslkfjoiabcwqehjoifsabc") # abc 찾기

['abc', 'abc']

In [14]:
iterator = re.findall("abc", "sdajfioabcjadfoiabcdlajofawpabcj")
iterator

['abc', 'abc', 'abc']

In [17]:
for match in iterator: 
    print(match)

abc
abc
abc


In [24]:
# [] : 일치시키려는 문자 집합인 쿤자 클래스를 지정하는데 사용 (한글자씩)
re.findall("[abc]", "daslkfjoiabcwqehjoifsabc") 

['a', 'a', 'b', 'c', 'a', 'b', 'c']

In [25]:
# 범위지정
re.findall("[a-c]", "daslkfjoiabcwqehjoifsabc") 

['a', 'a', 'b', 'c', 'a', 'b', 'c']

In [34]:
# 퀴즈 1 : 제시한 문자열에서 숫자들의 갯수
re.findall("[0-9]", "asdfjl;ajdf;la3534l2k3o;lkdagj;qi4touoq"), type(re.findall("[0-9]", "asdfjl;ajdf;la3534l2k3o;lkdagj;qi4touoq"))


(['3', '5', '3', '4', '2', '3', '4'], list)

In [35]:
len(re.findall("[0-9]", "asdfjl;ajdf;la3534l2k3o;lkdagj;qi4touoq") )


7

In [40]:
# 퀴즈 2 : 숫자가 4개가 이어진 부분을 찾아라.
re.findall("[0-9][0-9][0-9][0-9]", "asdfjl;ajdf;la3534l2k3o;lkdagj;qi4touoq")

['3534']

In [42]:
if len(re.findall("[0-9][0-9][0-9][0-9]", "asdfjl;ajdf;la3534l2k3o;lkdagj;qi4touoq")) > 0:
    print("찾았다.")
else:
    print("없다!")

찾았다.


In [44]:
documents = ['asdfj;laieorkdjf;aliejr;akjdf23k4j;lajds;l',
            'asdfjoqweitulad;ai@weutadg;lajoetiuaodkgjier',
            'asdkfjqoitlskdnfoqwiekhas;ioew=adgoie',
            'askdfl_asdkfei_asdjkfla****askeasfff',
            '{{{{{asdfjowei@@##askdfoie}}}}}']

regExp = '[0-9:"{}()@#&]'
type(regExp)

str

In [47]:
for doc in documents:
    if len(re.findall(regExp, doc)) > 0: # rexExp가 있으면 넘어가고 없으면 출력
        pass
    else:
        print(doc)

asdkfjqoitlskdnfoqwiekhas;ioew=adgoie
askdfl_asdkfei_asdjkfla****askeasfff


In [48]:
# ^ : 지정한 클래스에 해당되지 않는 것을 찾는다.
regExp02 = '[^0-9:"{}()@#&]'
for doc in documents:
    if len(re.findall(regExp02, doc)) > 0: # rexExp가 있으면 넘어가고 없으면 출력
        pass
    else:
        print(doc)

In [74]:
# \ 
# 퀴즈 3 : doc에서 모든 \를 찾아보아라
doc = r"\n for new [line, ] \section and \document and \\\section \n"

regExp = "[\\\]" 
print(len(re.findall(regExp, doc)))

7


In [75]:
print("\\selection")    # \\ => \

\selection


In [86]:
# 퀴즈 : \랑 [ ]를 가진 부분을 찾아주세요. : 9개
doc = r"\n for new [line, ] \section and \document and \\\section \n"

regExp = "[\[\]\\\]"
print(len(re.findall(regExp, doc)))
# 특수 문자를 \ 로 구분을 준다

9


In [100]:
# 퀴즈 : \selction 부분을 찾아라.

doc = r"\n for new [line, ] \section and \document and \\\section \n"

regExp = "[\\\]section"
print(re.findall(regExp, doc))

['\\section', '\\section']


In [116]:
# \d : 모든 숫자 0-9와 같다. [0-9]
# \D : [^0-9] 
# \s : 모든 공백 문자를 의미 [\t\n\r\f\v]와 동일
# \S : [^\t\n\r\f\v]
# \w : 모든 영문자 + 숫자 + underscore _ [a-zA-Z0-9]
# \W : [^a-zA-Z0-9]


In [108]:
documents = ['asdfj;laieorkdjf;aliejr;akjdf23k4j;lajds;l',
            'asdfjoqweitulad;ai@weutadg;lajoetiuaodkgjier',
            'asdkfjqoitlskdnfoqwiekhas;ioew=adgoie',
            'askdfl_asdkfei_asdjkfla****askeasfff',
            '{{{{{asdfjowei@@##askdfoie}}}}}']

regExp = '[\W]'

for line in documents:
    rs = re.findall(regExp, line)
    print(rs)

[';', ';', ';', ';', ';']
[';', '@', ';']
[';', '=']
['*', '*', '*', '*']
['{', '{', '{', '{', '{', '@', '@', '#', '#', '}', '}', '}', '}', '}']


In [115]:
# * : *앞에 있는 문자가 없거나 갯수와 상관없이 찾는다. (유사한 애들 다 찾아라.)
doc = "YahooYahoooYahooooYahoooooYaho"
regExp = "Yahoo*"
rs = re.findall(regExp, doc)
print(rs)

['Yahoo', 'Yahooo', 'Yahoooo', 'Yahooooo', 'Yaho']


In [121]:
# *는 가능한 이어진 형태를 유지할 수 있음 : Greedy matching
documents = ['asdfj;laieorkdjf;aliejr;akjdf23k4j;lajds;l',
            'asdfjoqweitulad;ai@weutadg;lajoetiuaodkgjier',
            'asdkfjqoitlskdnfoqwiekhas;ioew=adgoie',
            'askdfl_asdkfei_asdjkfla****askeasfff',
            '{{{{{asdfjowei@@##askdfoie}}}}}']

regExp = '[\w]*'

for line in documents:
    rs = re.findall(regExp, line)
    print(rs)

['asdfj', '', 'laieorkdjf', '', 'aliejr', '', 'akjdf23k4j', '', 'lajds', '', 'l', '']
['asdfjoqweitulad', '', 'ai', '', 'weutadg', '', 'lajoetiuaodkgjier', '']
['asdkfjqoitlskdnfoqwiekhas', '', 'ioew', '', 'adgoie', '']
['askdfl_asdkfei_asdjkfla', '', '', '', '', 'askeasfff', '']
['', '', '', '', '', 'asdfjowei', '', '', '', '', 'askdfoie', '', '', '', '', '', '']


In [124]:
# + : 앞에 있는 문자가 최소 1개 갯수를 포함하여야 한다. 
doc = "YahooYahoooYahooooYahoooooYaho"
regExp = "Yahoo+"
rs = re.findall(regExp, doc)
print(rs)

['Yahoo', 'Yahooo', 'Yahoooo', 'Yahooooo']


In [132]:
# ? : ? 뒤에 문자가 없거나 존재하는 것을 계속 확인
doc = "YahooYahoooYahooooYahoooooYaho"
regExp = "Yah?oo" # Yahoo 라는 패턴이 있는 것을 다 찾아라
rs = re.findall(regExp, doc)
print(rs)

['Yahoo', 'Yahoo', 'Yahoo', 'Yahoo']


In [139]:
# {m, n}
documents = ['asdfj;laieorkdjf;aliejr;akjd4323423f23k4j;lajds;l',
            'asdfjoqweit32ulad;ai@we4242utadg;lajoetiuaodkgjier',
            'asdkfjqo32itlskdnfoqwiekhas;ioew=adgoie',
            'askd2fl_asdkfei_asdjkf4222la****a52skeasfff',
            '{{{{{asdfjowei@@##askdfoi2e}}}}}']

regExp = '\d{2}' # {0,} = *, {1,} = +, {0,1} = ?

for line in documents:
    rs = re.findall(regExp, line)
    print(rs)

['43', '23', '42', '23']
['32', '42', '42']
['32']
['42', '22', '52']
[]
