## 파이썬 정규 표현식(Regular Expressions)
https://devanix.tistory.com/296

: 복잡한 문자열 패턴을 검색하고, 추출하고, 대치하는 규칙을 정의하는 문자열,
파이썬에서는 re 모듈이 제공된다

### 반복 관련 메타 문자 : *, +, ?, {m}, {m,n} 
#### (메타 문자란 원래 그 문자가 가진 뜻이 아닌 특별한 용도로 사용하는 문자를 말한다.)
- *는 반복을 나타내는 메타문자로써, 해당 메타문자 앞의 글자가 0번이상 반복되는 모든 문자열과 매치됩니다.
- +는 *과 같은 반복을 나타내는 메타문자, *는 다르게 앞의 글자가 0번을 제외한, 1번이상 반복되는 모든 문자열과 매치됩니다.
- ? 는 앞의 문자가 0~1번 반복되는 모든 문자열과 매치됩니다.
- {m}는  반복횟수를 m으로 정할 수 있습니다. 앞의 문자가 m번 이상  반복되는 모든 문자열과 매치 됩니다.
- {m,n}는  반복횟수를 m과 n으로 정할 수 있습니다. 앞의 문자가 m번 이상 n번이하 반복되는 모든 문자열과 매치 됩니다.


### 매칭 관련 메타 문자
- .(Dot) 은 줄바꿈 문자인 \n을 제외한 모든 하나의 문자와 매치되는 것을 의미합니다.
- ^는 문자열의 맨처음을 의미하는 메타문자, 메타 문자 [] 내부에서는 반대, 즉 not의 의미로 사용되므로 혼동되지 않도록 주의하세요. 정규식으로 찾고자 하는 문자열의 앞에 입력합니다.

- \\$ 는 '^'와 반대로 문자열의 맨 마지막을 의미하는 메타문자 입니다. '^'와는 다르게 매치할 문자열의 뒤에 입력합니다.  메타 문자 [ ] 내부에서는 순수하게 $ 문자를 의미합니다

- [] 는 문자 클래스(집합)을 나타낸다, [abc]는 a,b,c중 한 문자를 의미한다, []으로 둘러싼 내부의 문자열과 매치시킨다
- | 는 a|b 와 같은 형식으로 사용되며 a 또는 b와 매치되는 문자열을 반환합니다.
- ( )는 정규식을 그룹으로 묶는다

### 문자열 매칭하기

In [1]:
import re
re.match('[0-9]','1234')  # 정수 0에서 9까지의 문자열과 문자열 '1234'을 매칭 시킨다, '1' 과 매칭됨

<re.Match object; span=(0, 1), match='1'>

In [2]:
re.match('[0-9]','abc')  # 정수 0에서 9까지의 문자열과 문자열 'abc'를 매칭 시킨다, 반환 값이 없다 매칭실패

In [3]:
# group 메서드 : 매칭된 문자열을 반환한다
m = re.match('[0-9]','1234') 
m.group()

'1'

In [4]:
m = re.match('[0-9]+','1234') # 숫자가 1 회 이상 발생하는 것과 매칭한다,[0-9]+는 0~9사이의 수가 여러번 반복허용
m.group()

'1234'

In [5]:
m = re.match('[0-9]+','1234 ') # 뒤에 공백이 온 경우도 매칭한다
m.group()

'1234'

In [6]:
print(m)
print(m.group(0))
# print(m.group(1))

<re.Match object; span=(0, 4), match='1234'>
1234


In [7]:
re.match('[0-9]+',' 1234') # 앞에 공백이 오면 매칭 실패, 반환값이 없다

In [8]:
# \s - whitespace 문자와 매치, [ \t\n\r\f\v]와 동일한 표현식이다. 맨 앞의 빈 칸은 공백문자(space)를 의미한다.
m = re.match('\s*[0-9]+',' 1234 ') # 뒤에 공백이 온 경우도 매칭한다
m.group()

' 1234'

In [9]:
m = re.match('\s*([0-9]+)',' 1234 ') 
m.group()

' 1234'

In [10]:
m.group(1)  # () 로 그룹으로 묶은 첫번째 그룸 문자열을 반환한다, 1이 첫번째, 0은 전체

'1234'

In [11]:
# \d - 숫자와 매치, [0-9]와 동일한 표현식
m = re.match('\s*(\d+)',' 1234 ') 
m.group(1)

'1234'

###  특수문자
- \d - 숫자와 매치, [0-9]와 동일한 표현식이다.
- \D - 숫자가 아닌 것과 매치, [^0-9]와 동일한 표현식이다.
- \s - whitespace 문자와 매치, [ \t\n\r\f\v]와 동일한 표현식이다. 맨 앞의 빈 칸은 공백문자(space)를 의미한다.
- \S - whitespace 문자가 아닌 것과 매치, [^ \t\n\r\f\v]와 동일한 표현식이다.
- \w - 문자+숫자(alphanumeric)와 매치, [a-zA-Z0-9_]와 동일한 표현식이다.
- \W - 문자+숫자(alphanumeric)가 아닌 문자와 매치, [^a-zA-Z0-9_]와 동일한 표현식이다.
- \b - 단어의 경계를 표현한다, 단어는 영문자난 숫자의 연속 문자열로 가정한다
- \B - \b와 반대로 단어의 경계가 아님을 표현한다

#### match()와 search() 함수의 차이
- match() 함수는 문자열이 시작부터 일치하는지 검사
- search() 함수는 부분적으로 일치하는 문자열이 있는지를 검사

In [12]:
m = re.search('\d+',' 1034 ') 
print(type(m))
m.group()

<class 're.Match'>


'1034'

In [13]:
m = re.search('\d+',' -1034a ') 
m.group()

'1034'

In [14]:
re.search('\s\d+\s',' 1034a ') # 검출 실패

In [15]:
re.search('\s\d+\s',' 1034 a ') # 검출 성공

<re.Match object; span=(0, 6), match=' 1034 '>

In [16]:
re.search('\s(\d+)\s',' 1034 a ').group(1) # 검출 성공

'1034'

### RAW 모드로 정규식 표현하기

In [17]:
re.search('\s(\d+)\s',' 1034') # 매칭 실패

In [18]:
# \b - 단어의 경계를 표현한다
re.search('\b(\d+)\b',' 1034 a ') # 매칭 실패 : '\b' 가 Backspace 로 처리 되었기 때문이다

In [19]:
print(re.search('\\b(\d+)\\b',' 1034 a '))  # \\b 형태로 넣어 성공

<re.Match object; span=(1, 5), match='1034'>


In [20]:
'\d', '\b','\\b'   
# '\d'는 파이썬에서 특수 문자로 등록 되지 않았으므로 그대로 '\d' 문자열로 받아들여짐
# '\b'는 Backspace로 치환 되므로 RAW모드 사용이 필요: 문자열 앞에 r을 추가한것

('\\d', '\x08', '\\b')

In [21]:
re.search(r'\b(\d+)\b', '1034 a ').group()

'1034'

In [22]:
re.search(r'\b(\d+)\b',' 1034 a ').group()

'1034'

In [23]:
re.search('\\\\', 'dir1\\\\dir2').group()

'\\'

In [24]:
re.search('\\\\', r'dir1\dir2').group()

'\\'

In [25]:
# re.search('\\', r'dir1\dir2').group()  # 오류

In [26]:
re.search(r'\\', r'dir1\dir2').group()

'\\'

In [27]:
# print('\') # 파이썬 오류
print('\\')

\


### 최소 매칭 : *?, +?, ??, {m.n}?

In [28]:
# Greedy Matching
re.search(r'href="(.*)"', '<a href="index.html">HERE</a><font size="10">').group(1)

'index.html">HERE</a><font size="10'

In [29]:
# Non Greedy Matching
re.search(r'href="(.*?)"', '<a href="index.html">HERE</a><font size="10">').group(1)

'index.html'

### re 패키지 기본 method
- re.compile(pattern, string, flags) : # 인수 패턴을 컴파일 하여 정규식 객체로 반환
- re.match(pattern, string, flags)   : “문자열의 처음”부터 시작하여 패턴이 일치되는 것이 있는지를 확인한다.
- re.search(pattern, string, flags)  : 부분적으로 일치하는 문자열이 있는지를 검사
- re.findall(pattern, string, flags) : 문자열 중 패턴과 일치되는 모든 부분을 찾는다.
- re.finditer(pattern, string, flags) : .findall과 비슷하지만, 일치된 문자열의 리스트 대신 matchObj 리스트를 반환한다.
- re.fullmatch(pattern, string, flags) : 패턴과 문자열이 남는 부분 없이 완벽하게 일치하는지를 검사한다.
- re.sub(pattern, repl, string) :인수 string에서 인수 pattern을 인수 repl로 치환한다

In [30]:
re.findall(r'[_a-zA-Z]\w*','123 abc 123 def')

['abc', 'def']

In [31]:
s = '''
<a href="link1.html">link1</a>
<a href="link2.html">link2</a>
<a href="link3.html">link3</a>
'''

re.findall(r'href="(.*?)"',s)

['link1.html', 'link2.html', 'link3.html']

#### 문자열 치환하기

In [32]:
re.sub(r'[.,:;]','','a:b:c, d.')

'abc d'

In [33]:
# import re
# a = 'life is too short'
# b = re.sub('[Life\s]+','Your leg',a,re.I)
# print(b)

In [34]:
re.sub(r'\W','','a:b:c, d.')

'abcd'

### 정규식 객체 사용하기

#### 플래그
- I, IGNORECATE : 대소문자를 구별하지 않는다
- L, LOCATE : \w, \W, \b, \B를 현재의 로케일에 영향을 받게 한다
- M, MULTILINE : ^가 문자열의 맨 처음, 각 라인의 맨 처음과 매치 된다, $는 문자열의 맨 끝, 각 라인의 맨 끝과 매치

- S, DOTALL : .을 줄바꾸기 문자도 포함하여 매치하게 한다
- U, UNICODE : \w, \W, \b, \B가 유니코드 문자 특성에 의존하게 한다
- X, VERBOSE : 보기 좋게 정규식을 표현할 수 있게 해준다. 정규식 안의 공백은 무시된다

In [35]:
# 문자 치환
import re 

data = """
park 800905-1049118
kim  700905-1059119
"""

pat = re.compile("(\d{6})[-]\d{7}")
print(pat.sub("\g<1>-*******", data))  # \g<그룹번호나 이름>
m = pat.search(data,0).group()
m


park 800905-*******
kim  700905-*******



'800905-1049118'

In [36]:
import re

p = re.compile('the')  # 인수 패턴을 컴파일 하여 정규식 객체로 반환
print(type(p))
p.findall('The cat was hungry. They were scared because of the cat')

<class 're.Pattern'>


['the']

In [37]:
# I, IGNORECATE : 대소문자를 구별하지 않는다
p = re.compile('the',re.I) 
print(type(p))
p.findall('The cat was hungry. They were scared because of the cat')

<class 're.Pattern'>


['The', 'The', 'the']

### 정규표현식 활용

### HTML 문서에서 URL 추출하기

In [38]:
s = '''<a href="http://www.daum.net">daum</a>  
<a href='http://www.naver.com'>naver</a>  
<a href=http://www.chosun.com>chosun</a>  
<a href=http://www.chosun.com class>chosun</a>  
<a href="http://job.daum.net/ " target="new">  
<a href="http://go.daum.net/bin/go.cgi?relative=1&url=/Mail-bin/login_f.cgi%3Ferror%3Dlogin" class="tls0">  
'''  

# '<a href='뒤에 큰 따옴표가 " " 가 오는 경우
p = re.compile('''href="([^"]*?)"''', re.I)
match = p.search(s, 0)
url = match.groups()  # 매칭된 전체 그룸 문자열을 튜플 형식으로 반환
print (list(filter(None, url)) ) # ['http://www.daum.net']
print('-'*50)

# '<a href='뒤에 작은 따옴표가 ' '가 오는 경우
p = re.compile('''href='([^']*?)\'''', re.I)
match = p.search(s, 0)
url = match.groups() 
print (list(filter(None, url)) )  # ['http://www.naver.com']
print('-'*50)

# '<a href='뒤에 작은/큰 따옴표가 오고 마지막은 공백이 오는 경우
p = re.compile('''href=([^'"]\S+?)[\s>]''', re.I)
match = p.search(s, 0)
url = match.groups() 
print (list(filter(None, url)) )  # ['http://www.naver.com']

print('-'*50)

['http://www.daum.net']
--------------------------------------------------
['http://www.naver.com']
--------------------------------------------------
['http://www.chosun.com']
--------------------------------------------------


In [39]:
#세개의 정규표현식을 |를 사용하여 하나로 표현 한경우
import re
p = re.compile('''href=([^'"]\S+?)[\s>]|href="([^"]*?)"|href='([^']*?)\'''', re.I) 
pos = 0 

i = 0
while True: 
    print(i,pos)
    i+=1
    match = p.search(s, pos) 
    if match: 
        url = match.groups() 
        print(url)
        pos = match.end()  # 매칭된 문자열의 끝 위치를 반환
        print (list(filter(None, url))[0] )
    else: 
        break 
        
# filter함수는 특정 조건으로 걸러서 걸러진 요소들로 iterator객체를 만들어서 리턴해줍니다.
# map함수와 사용 방법은 동일하나, 함수의 결과가 참인지 거짓인지에 따라, 해당 요소를 포함할지를 결정합니다.

0 0
(None, 'http://www.daum.net', None)
http://www.daum.net
1 29
(None, None, 'http://www.naver.com')
http://www.naver.com
2 71
('http://www.chosun.com', None, None)
http://www.chosun.com
3 114
('http://www.chosun.com', None, None)
http://www.chosun.com
4 157
(None, 'http://job.daum.net/ ', None)
http://job.daum.net/ 
5 207
(None, 'http://go.daum.net/bin/go.cgi?relative=1&url=/Mail-bin/login_f.cgi%3Ferror%3Dlogin', None)
http://go.daum.net/bin/go.cgi?relative=1&url=/Mail-bin/login_f.cgi%3Ferror%3Dlogin
6 316


In [40]:
# filter 출력 결과
print(list(filter(None,(None,10,None))))
print(list(filter(None,(1,None,10))))
print(list(filter(None,(None,None,None))))


[10]
[1, 10]
[]


In [41]:
L = ['apple','banana','','grape']
list(filter(None,L)) # 리스트에서 의미 없는 값을 삭제할 대 사용
 # filter() 함수의 첫번째 인수로 None 객체를 사용하면 입력값을 진리값을 판별하는데 그대로 사용할 수 있다

['apple', 'banana', 'grape']

In [42]:
# filter함수의 필요성
target = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
result = []

def is_even(n):
      return True if n % 2 == 0 else False

for value in target:
    print(is_even(value))
        
    if is_even(value):
        result.append(value)

print(result)  # 출력결과 : [2, 4, 6, 8, 10]

False
True
False
True
False
True
False
True
False
True
[2, 4, 6, 8, 10]


In [43]:
# filter 함수 사용
target = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

def is_even(n):
    return True if n % 2 == 0 else False

result = filter(is_even, target)

print(result,list(result)) # 출력결과 : [2, 4, 6, 8, 10]

<filter object at 0x000001FC95868D30> [2, 4, 6, 8, 10]


In [44]:
# filter 함수 사용 : 람다 사용
target = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
result = filter(lambda x : x%2==0, target)
print(list(result))

[2, 4, 6, 8, 10]


In [45]:
# 웹페이지에서 java script 소스만 가져오기
# <script> ...... </script>
import requests
import re

url = 'http://www.daum.net/'
p = re.compile('<\s*script.*?>(.*?)</\s*script\s*>', re.I | re.S) 
# re.S, re.DOTALL : .을 줄바꾸기 문자도 포함하여 매치하게 한다

resp = requests.get(url)
html = resp.text

script = p.findall(html)              # 스크립트 코드만 추출하여 리스트로 리턴한다.
print(len(script))   # 9개를 추출
for s in script:
        print (s)

7
 window.tillerInitData = /* #include (https://m.daum.net/api/tiller/v1/pc?boxes=media%2Ckatv%2Csocial%2Cchannel) [pass-headers=true;timeout=1000;default-value="null";] */ null; 
window.tillerInitData={"header":{"timestamp":1681042318159},"body":{"variations":{},"tabs":{"media":{"code":"media","name":"ë¯¸ëì´","renderType":"NONE","position":1,"criteriaTabCode":null,"board":false,"morePage":false,"page":"{\"tab\":\"media\",\"page\":1,\"last\":true,\"token\":null,\"ts\":null}"},"katv":{"code":"katv","name":"ì¹´ì¹´ì¤TV","renderType":"NONE","position":2,"criteriaTabCode":null,"board":false,"morePage":false,"page":"{\"tab\":\"katv\",\"page\":1,\"last\":true,\"token\":null,\"ts\":null}"},"social":{"code":"social","name":"ìì","renderType":"NONE","position":3,"criteriaTabCode":null,"board":false,"morePage":false,"page":"{\"tab\":\"social\",\"page\":1,\"last\":true,\"token\":null,\"ts\":null}"},"channel":{"code":"channel","name":"ì±ë","renderType":"NONE","position":4,"criteriaTabCode

### 어휘 분석기 구현

In [46]:
# 파이썬 소스코드를 키워드별로 분석해준다

import re
import keyword

# print('|'.join(keyword.kwlist))  # 파이썬 키워드 리스트를 '|'로 합친다

tokenREList = [
    ('KEYWORD','|'.join(keyword.kwlist)), # 파이썬 키워드
    ('NAME',r'[a-zA-Z_]\w*'),             # 첫문자는 영문자나 밑줄로 시작,두번째부터는 문자는 영문자나 숫자나 밑줄로 시작,키워드가 아닌 변수나 함수
    ('NUMBER', r'\d+|\d+\.\d*|\.\d+'),    # 정수나 실수(소수점 사용), 정수 | 정수.정수 |.정수
    ('LPAREN', r'\('),                    # 왼쪽 인자
    ('RPAREN', r'\)'),                    # 오른쪽 인자
    ('PLUS', r'\+'),                      # 더하기
    ('COLON', r':'),                      # 콜론
    ('WHITESPACE', r'\s+')                # 공백
]

rexp = ['(%s)' % exp for tokName, exp in tokenREList] # 정규식을  리스트에 모두 넣음
# print(rexp)

p = re.compile('|'.join(rexp)) # 컴파일

def lex(s):
    pos = 0
    match = p.match(s, pos)
    i = 0
    while match:
#         print(i)
#         i+=1
        token = match.groups()
#         print(token)
        pos = match.end()
        for k in range(len(token)):
            if token[k]: break
        else:
            break
        #print('i:',tokenREList[k][0], token[k])
        yield (tokenREList[k][0], token[k])
        match = p.match(s, pos)

if __name__ == '__main__':
    s = '''
    for i in range(10):
        print (i + 5)'''

    i = 0
    print(type(lex(s)))
    for tok in lex(s):  # 21회 반복
#         print(i)
#         i+=1
        print(tok)




<class 'generator'>
('WHITESPACE', '\n    ')
('KEYWORD', 'for')
('WHITESPACE', ' ')
('NAME', 'i')
('WHITESPACE', ' ')
('KEYWORD', 'in')
('WHITESPACE', ' ')
('NAME', 'range')
('LPAREN', '(')
('NUMBER', '10')
('RPAREN', ')')
('COLON', ':')
('WHITESPACE', '\n        ')
('NAME', 'print')
('WHITESPACE', ' ')
('LPAREN', '(')
('NAME', 'i')
('WHITESPACE', ' ')
('PLUS', '+')
('WHITESPACE', ' ')
('NUMBER', '5')
('RPAREN', ')')


###  제네레이터(Generator , 발생자)

In [47]:
# 기존의 함수 호출 방식은 함수가 호출될때 인수들의 내부 변수들이 새로운 영역(스택)에 
# 만들어지고 반환시 메모리에서 소멸된다
def f(a,b):
    c = a * b
    d = a + b
    return c,d

print(f(10,20))
print(f(1,2))

(200, 30)
(2, 3)


In [48]:
# 제네레이터는 중단된 시점부터 재 실행이 가능한 함수
# return 대신에 키워드 yield를 사용한다
def gen_func():
    print('1st step')
    yield 1
    print('2nd step')
    yield 2    
    print('3rd step')
    yield 3   
    
g = gen_func()    #   generator 객체를 생성한다
print(type(g))


a = next(g)   # 최초 호출
a

<class 'generator'>
1st step


1

In [49]:
b = next(g)
b

2nd step


2

In [50]:
c = next(g)
c

3rd step


3

In [51]:
# for 문으로 호출
def generator_ints(N):
    for k in range(N):
        yield k
        
for k in generator_ints(10) :
    print(k,end=' ')
    
print(type(generator_ints(10)))   # 제네레이터는 반복자 객체이다 

0 1 2 3 4 5 6 7 8 9 <class 'generator'>


### 코루틴(Coroutine)
: 함수 실행에 있어서 어떤 위치에서 중단과 실행이 가능한 다중 진입점이 있는 일반화된 함수를 말한다

In [52]:
def echo():
    print('echo routine')
    while True:
        msg = (yield)
        print('echo:',msg)

In [53]:
e = echo() # 코루틴 객체를 생성
print(type(e))
next(e)

<class 'generator'>
echo routine


In [54]:
next(e)
e.send('Hello~')

echo: None
echo: Hello~


In [55]:
e.send('Bye~')
e.close()  # 더 이상 send()를 호출할 수 없다

echo: Bye~


In [56]:
# 양방향 값 전송 코루틴
def accumulate(value = 0):
    acc = value
    while True:
        value = (yield acc,value)
        acc += value
        
acc = accumulate(1) 
print(acc)
next(acc)

<generator object accumulate at 0x000001FC96B7A820>


(1, 1)

In [57]:
acc.send(2)  # 2를 value에 전달해주고 다음 yield문 까지 진행 ,(3,2)를 반환 받는다

(3, 2)

In [58]:
acc.send(3)  # 3를 value에 전달해주고 다음 yield문 까지 진행 ,(6,3)를 반환 받는다

(6, 3)

In [59]:
acc.close() # 코루틴을 종료한다

### 미니 챗봇 구현

In [60]:
import re

r = "(hi|hello|hey)[ ]*([a-z]*)"
re.match(r,'Hello Rosa',re.I)

<re.Match object; span=(0, 10), match='Hello Rosa'>

In [61]:
re.match(r,"hi ho, hi hoho, it's off to work ...",re.I)

<re.Match object; span=(0, 5), match='hi ho'>

In [62]:
re.match(r,"hey, what's up",re.I)

<re.Match object; span=(0, 3), match='hey'>

In [63]:
# # 정규 표현식을 더 확장
r = r"[^a-z]*([y]o|[h]?ello|ok|hey|(good[ ])?(morn[gin']{0,3}|afternoon|even[gin']{0,3}))[\s,:;]{1,3}([a-z]{1,20})"                                            
re_greeting = re.compile(r, re.I)
re_greeting.match('Hello Rosa')

<re.Match object; span=(0, 10), match='Hello Rosa'>

In [64]:
re_greeting.match('Hello Rosa').groups()

('Hello', None, None, 'Rosa')

In [65]:
re_greeting.match('Good morning Rosa')

<re.Match object; span=(0, 17), match='Good morning Rosa'>

In [66]:
re_greeting.match('Good marning Rosa') # 실패

In [67]:
re_greeting.match('Good evening Rosa Parks').groups()

('Good evening', 'Good ', 'evening', 'Rosa')

In [68]:
re_greeting.match("Good morn'n Rosa")

<re.Match object; span=(0, 16), match="Good morn'n Rosa">

In [69]:
re_greeting.match("yo Rosa")

<re.Match object; span=(0, 7), match='yo Rosa'>

In [70]:
# chatbot 
r = r"[^a-z]*([y]o|[h]?ello|ok|hi|hey|(good[ ])?(morn[gin']{0,3}|afternoon|even[gin']{0,3}))[\s,:;]{1,3}([a-z]{1,20})"                                            
re_greeting = re.compile(r, re.I)
my_names = set(['rosa','rose','chatty','chatbot','bot','chatterbot','baby']) # 좋은 단어들 리스트
curt_names = set(['hal','you','u','guy','boy']) # curt(무뚜뚝한) 이름, 다소 무례한 단어들 리스트
evil_names = set(['idiot','fool','ass','sob'])  # 나쁜 단어들 리스트
greeter_name = '병화'  # 대화 상대자(사람)

match = re_greeting.match(input())
# Hello rosa           ---> Hi , How are you?
# Hello you            ---> Good one.
# Good mornig chatbot  ---> Hi , How are you?
# Good mornig hal      ---> Good one.
# hey idiot
if match :
    at_name = match.groups()[-1]
    # print(at_name)
    if at_name in curt_names:
        print("Um.. Have a good time.") 
    elif at_name.lower() in my_names:
        print("Hi {}, How are you? Glad to see you.".format(greeter_name))
    elif at_name in evil_names:
        print("Dear {0} please, don't talk to me like that : {1}. ".format(greeter_name,at_name))
        print("{0}야 그런말 쓰지마! : {1}. ".format(greeter_name,at_name))

Hello rosa
Hi 병화, How are you? Glad to see you.


In [71]:
# 실습 : 챗봇 소스에 기능 추가
# evil_names 목록을 넣어 대화에 사용하면 화를 내는 코드를 간단히 추가하고 동작을 확인 해보세요
# 영어 대답 아래에 동일한 한국어 대답도 출력하게 해보세요
# while True를 사용하여 match가 없을 때 종료하도록 수정하세요

# 대화가 시작되었습니다!
# ----------------------------------------------------------------------
# 길동 : Hello Rosa
# 컴퓨터 :  Hi 길동, How are you? Glad to see you.
# 컴퓨터 :  길동씨 안녕하세요,만나서 반갑습니다
# ----------------------------------------------------------------------
# 길동 : Hi you
# 컴퓨터 :  Um.. Have a good time.
# 컴퓨터 :  음.. 즐거운 시간 되세요.
# ----------------------------------------------------------------------
# 길동 : Hey idiot
# 컴퓨터 :  Dear 길동 please, don't talk to me like that : idiot. 
# 컴퓨터 :  길동아! 제발 그런말 쓰지마! : idiot. 
# ----------------------------------------------------------------------
# 길동 : 
# 대화가 종료되었습니다!

In [72]:
# 실습 답안 : 챗봇 기능 추가 답안

import re

r = r"[^a-z]*([y]o|[h]?ello|ok|hi|hey|(good[ ])?(morn[gin']{0,3}|afternoon|even[gin']{0,3}))[\s,:;]{1,3}([a-z]{1,20})"                                            
re_greeting = re.compile(r, re.I)
my_names = set(['rosa','rose','chatty','chatbot','bot','chatterbot','baby']) # 좋은 단어들 리스트
curt_names = set(['hal','you','u','guy','boy']) # curt(무뚜뚝한) 이름, 다소 무례한 단어들 리스트
evil_names = set(['idiot','fool','ass','sob'])  # 나쁜 단어들 리스트
greeter_name = '길동'  # 대화 상대자(사람)
computer = '컴퓨터 :'
# match = re_greeting.match(input(greeter_name+' : '))
print('대화가 시작되었습니다!')
print('-'*70)

while True:
    match = re_greeting.match(input(greeter_name+' : '))
    # print(match)
    if match :
        at_name = match.groups()[-1]
        # print(at_name)
        if at_name in curt_names:
            print(computer,"Um.. Have a good time.") 
            print(computer,"음.. 즐거운 시간 되세요.")
        elif at_name.lower() in my_names:
            print(computer,"Hi {}, How are you? Glad to see you.".format(greeter_name))
            print(computer,"{}씨 안녕하세요,만나서 반갑습니다".format(greeter_name))
        elif at_name in evil_names:
            print(computer,"Dear {0} please, don't talk to me like that : {1}. ".format(greeter_name,at_name))
            print(computer,"{0}아! 제발 그런말 쓰지마! : {1}. ".format(greeter_name,at_name))
        print('-'*70)
    else:
        break
    
print('대화가 종료되었습니다!')    

대화가 시작되었습니다!
----------------------------------------------------------------------
길동 : Hello rosa
컴퓨터 : Hi 길동, How are you? Glad to see you.
컴퓨터 : 길동씨 안녕하세요,만나서 반갑습니다
----------------------------------------------------------------------
길동 : Hey idiot
컴퓨터 : Dear 길동 please, don't talk to me like that : idiot. 
컴퓨터 : 길동아! 제발 그런말 쓰지마! : idiot. 
----------------------------------------------------------------------
길동 : 
대화가 종료되었습니다!
