# Regular Expression
## 정규표현식
수많은 로그의 패턴을 파악하여 데이터를 읽어올 수있는 패키지  

In [1]:
import re

In [41]:
text = 'My id number is [G203_5A]'
text

'My id number is [G203_5A]'

In [3]:
# 소문자 a찾기
result = re.findall('a', text)
result

[]

In [4]:
# 대문자 A찾기
result = re.findall('i',text)
result

['i', 'i']

### 문자 클래스 []

In [6]:
# 소문자 찾기 (알파벳 단위)
result = re.findall('[a-z]',text)
result

['y', 'i', 'd', 'n', 'u', 'm', 'b', 'e', 'r', 'i', 's']

In [7]:
# 소문자 찾기 (구분자 단위)
result = re.findall('[a-z]+',text)
result

['y', 'id', 'number', 'is']

In [8]:
# 대문자 찾기 (알파벳 단위)
result = re.findall('[A-Z]',text)
result

['M', 'G', 'A']

In [9]:
#숫자 찾기
result = re.findall('[0-9]', text)
result

['2', '0', '3', '5']

In [10]:
# 숫자 찾기 (구분자 단위)
result = re.findall('[0-9]+',text)
result

['203', '5']

In [11]:
# 영문자 및 숫자 찾기
result = re.findall('[a-zA-Z0-9]', text)
result

['M',
 'y',
 'i',
 'd',
 'n',
 'u',
 'm',
 'b',
 'e',
 'r',
 'i',
 's',
 'G',
 '2',
 '0',
 '3',
 '5',
 'A']

In [12]:
# 영문자 및 숫자 찾기
result = re.findall('[a-zA-Z0-9]+',text)
result

['My', 'id', 'number', 'is', 'G203', '5A']

In [14]:
# 영문자/숫자가 아닌 문자 찾기
result = re.findall('[^a-zA-Z0-9]',text)
result

[' ', ' ', ' ', ' ', '[', '_', ']']

In [42]:
# 영문자 및 '_' 특수기호 찾기
result = re.findall('[\w]', text)
result

['M',
 'y',
 'i',
 'd',
 'n',
 'u',
 'm',
 'b',
 'e',
 'r',
 'i',
 's',
 'G',
 '2',
 '0',
 '3',
 '_',
 '5',
 'A']

In [43]:
# 영문자 및 '_'특수기호 연속해서 찾기
result = re.findall('[\w]+', text)
result

['My', 'id', 'number', 'is', 'G203_5A']

In [44]:
# 영문자 및 '_'특수기호 아닌 문자 찾기
result = re.findall('[\W]', text)
result

[' ', ' ', ' ', ' ', '[', ']']

### 문자열에서 특정 이름 찾아내기

In [15]:
# \w ( 1 char )
# \d ( 1 decimal )
# \s ( 1 space )

# + ( 1, ..., N )
# ? ( 0, 1 )
# * ( 0, 1, .. N )

# \d{N} ( 숫자가 N개 나온다. )
# \d{N,M} ( 숫자가 N~M개 나온다 )

In [18]:
text2 = """
옛날 옛적에 김진수라는 사람이 살았습니다.
그에게는 5형제가 있었는데, 김진수, 김진구, 김진용, 김진태, 김진욱 이렇게 5명 있었습니다.
그리고 그는 결혼을 해서 김찬영, 김준영, 김채영 3남매를 낳고 행복하게 잘 살았습니다.
"""
# 형제 : 김진O
# 자녀 : 김O영

In [17]:
pattern = re.compile('김진\w')

In [21]:
brother = pattern.findall(text2)
brother

['김진수', '김진수', '김진구', '김진용', '김진태', '김진욱']

In [22]:
pattern = re.compile('김.영')
pattern2 = re.compile('김\w영')

In [23]:
children = pattern.findall(text2)
children

['김찬영', '김준영', '김채영']

In [30]:
children2 = pattern2.findall(text2)
children2

['김찬영', '김준영', '김채영']

### 핸드폰 번호 찾기

In [26]:
text3 = "A sky, a dragonfly and a butterfly!!!!!"

In [27]:
pattern = re.compile("\w+fly")
pattern.findall(text3)

['dragonfly', 'butterfly']

In [28]:
text4 = """
    010-5670-3847   # space, -, . => []
    010 5670 3847
    010.5670 3847
"""

In [31]:
pattern3 = re.compile("\d{3}[ -.]?\d{4}[ -.]?\d{4}")

In [33]:
pattern3.findall(text4)

['010-5670-3847', '010 5670 3847', '010.5670 3847']

In [34]:
text5 = """
    010-5670-3847   # space, -, . => []
    옛날에는 011-1052-3847 이랬는데..
    010 5670 3847
    010.-5670 3847
    사는동네가 자이아파트 516동512호
    그리구, 사무실번호는 02-360-4047이고
    우편번호는 100-791, 청파로 463번지
    
"""

In [35]:
pattern4 = re.compile("\d{3}[ -\.]{1,2}\d{3,4}[ -\.]?\d{4}")

In [36]:
pattern4.findall(text5)

['010-5670-3847', '011-1052-3847', '010 5670 3847', '010.-5670 3847']

In [38]:
pattern5 = re.compile("\d{2,3}[ -\.]{1,2}?\d{3,4}[ -\.]?\d{4}")

In [39]:
pattern5.findall(text5)

['010-5670-3847',
 '011-1052-3847',
 '010 5670 3847',
 '010.-5670 3847',
 '02-360-4047']

In [40]:
# \w ( 1 char )
# \d ( 1 decimal )
# \s ( 1 space )

# + ( 1, ..., N )
# ? ( 0, 1 )
# * ( 0, 1, .. N )

# \d{N} ( 숫자가 N개 나온다. )
# \d{N,M} ( 숫자가 N~M개 나온다 )

In [46]:
pattern6 = re.compile("[-]\d{4}$")

In [56]:
text_=pattern5.findall(text5)
text_1 = text+\n for text in text_

SyntaxError: unexpected character after line continuation character (<ipython-input-56-450aafefb9a9>, line 2)

In [50]:
pattern6.findall(text_)

TypeError: expected string or bytes-like object