# 🟩 정규표현식 - 패턴 문자


---
## 🟢 [Pattern] 메타문자 `., ^, $`

In [1]:
import re

pattern = r'^abc'
pattern = r'.abc'
pattern = r'abc$'

text = ["abc", "abcd", "abc15" "dabc", "", "s", "I love kabcde"]
repettern = re.compile(pattern)

for item in text:
  result = repettern.search(item)
  if result:
    print(item, "- O")
  else:
    print(item, "- X")

abc - O
abcd - X
abc15dabc - O
 - X
s - X
I love kabcde - X



---
## 🟢 [Pattern] 메타문자 `[]` (~중 하나여도)



In [1]:
import re

pattern = r"[p|P]ython" #문장중에 python또는 Python 
text = ["python", "Python", "PYTHON", "12python", "python3"]
repattern = re.compile(pattern)

for item in text:
    result = repattern.search(item) 
    #match함수는 첫 시작만을 보기때문에 적용안됨
    if result:
        print(item, "- O" )
    else:
        print(item, "- X" )



python - O
Python - O
PYTHON - X
12python - O
python3 - O


In [2]:
pattern = r"[A-Z]" #대문자가 하나라도 포함되면 
text = ["python", "Python", "PYTHON", "korea", "KOREA", "Korea"]
repattern = re.compile(pattern)

for item in text:
    result = repattern.search(item) 
    #match함수는 첫 시작만을 보기때문에 적용안됨
    if result:
        print(item, "- O" )
    else:
        print(item, "- X" )

python - X
Python - O
PYTHON - O
korea - X
KOREA - O
Korea - O



---
## 🟢 [Pattern] 메타문자 = *, +, ?

| 메타문자 | 의미 | 예제 | 설명 |
|----------|------|------|-------|
| `*`      | 0개 이상의 반복 | `ab*` | a 뒤에 0개 이상의 b |
| `+`      | 1개 이상의 반복 | `ab+` | a 뒤에 1개 이상의 b |
| `?`      | 0개 또는 1개 반복 | `ab?` | a 뒤에 b가 0개 또는 1개 |

```python

```


In [None]:
import re
# ? - 없거나 하나만 있거나 
# + - 패턴이 하나이상 반복
# * - 없거나 하나이상 반복 

patterns=[r"\d?", r"\d+", r"\d*"]
text = ["abc", "1abc", "12abc", "123", "aa12ab"]

for pattern in patterns:
    resultList=[]
    for item in text:
        result = re.search(pattern, item)
        if result == None:
            resultList.append(item+"-X")
        else:
            resultList.append(item+"-O")

    print(resultList)


---
## 🟢 [Pattern] 메타문자 - 그룹 `()`

```python

```


In [8]:
import re

#그룹핑

contents = """
  문의사항이 있으면 010-1234-6789으로 연락주시기 바랍니다.
  담당자 02-333-4444
  국장 02-333-4445
"""

pattern = r"\b(\d{2,3})-(\d{3,4})-(\d{4})" # 여기를 수정했습니다.
regex = re.compile(pattern)
result = regex.search(contents)

if result != None:
  phone1 = result.group(1)  # 010
  phone2 = result.group(2)  # 1234
  phone3 = result.group(3)  # 6789
  print(phone1, end='-')
  print(phone2, end='-')
  print(phone3)
else:
  print('전화번호가 없습니다.')


010-1234-6789



---
## 🟢 문제 풀어보기

- 앞 3자리 - 관할세무서 번호
- 가운데 2자리 - 사업자의 성경을 나타냄 (개인사업자 : 90~99)
- 마지막 5자리 - 사업자용 4자리 + 검증용 1자리

- 다음 데이터들로 부터 사업자 번호들을 추출하고 그 중에 개인 면세 사업자에 해단하는 사업자 번호만 출력하기 바랍니다.




In [24]:
import re

contents = """
  우리커피숍 100-90-12345
  영풍문고 101-91-12121
  영미청과 102-92-23451
  황금코인 103-89-13579
  우리문구 104-91-24689
  옆집회사 105-82-12345
"""

# pattern = r"([가-힣]{4,5}) (\d{3})-9[0-9]-(\d{5})"  # 내가 생각한 패턴
pattern = r"[a-zA-Z가-힣]+ \d{3}-9[0-9]-\d{5}"   # 다른 사람이 알려준 패턴
dict_list_result = re.findall(pattern, contents)

print(dict_list_result)
print(type(dict_list_result))

for i in dict_list_result:
  # print(type(i))
  print(i)


['우리커피숍 100-90-12345', '영풍문고 101-91-12121', '영미청과 102-92-23451', '우리문구 104-91-24689']
<class 'list'>
우리커피숍 100-90-12345
영풍문고 101-91-12121
영미청과 102-92-23451
우리문구 104-91-24689


### 🟡 문제 같이풀어보기

In [3]:
import re
 
contents = """
    우리커피숍 100-90-12345
    영풍문고 101-91-12121
    영미청과 102-92-23451
    황금코인 103-89-13579
    우리문구 104-91-24689
    옆집회사 105-82-12345
"""

pattern = r'\b(\d{3})-(\d{2})-(\d{5})\b'
regex = re.compile(pattern)
result = regex.finditer(contents)
print()
for item in result:
    if int(item.group(2))>=90 and int(item.group(2))<=99:
        print( item.group() )
 
print()


100-90-12345
101-91-12121
102-92-23451
104-91-24689



### 🟡 그런데 .group()은 왜 사용하는 것입니까???

pattern = r'\b(\d{3})-(\d{2})-(\d{5})\b'   
위 패턴은 () 그룹 메타문자를 사요하였습니다.  
위 패턴을 통해 어떤 특정값을 찾았을 때 그것을  
패턴 내에서 첫 번째 (), 두 번째 (), ..., N번째 ()로 묶인 부분과 일치하는 문자열을 반환합니다.  
즉, () 그룹 메타문자를 썼지 때문에 해당 내용의 특정값만 반환할 때 사용합니다.

<like this>  
print(f"그룹 1 (group(1)): {item.group(1)}")               # "100"  
print(f"그룹 2 (group(2)): {item.group(2)}")               # "90"  
print(f"그룹 3 (group(3)): {item.group(3)}")               # "12345"  