# Industry 4.0 의 중심, BigData

<div align='right'><font size=2 color='gray'>Data Processing Based Python @ <font color='blue'><a href='https://www.facebook.com/jskim.kr'>FB / jskim.kr</a></font>, [김진수](bigpycraft@gmail.com)</font></div>
<hr>

## 정규표현식, RegEx ( Regular Expression )


### <font color='brown'> Regular Expression 관련 사이트
- <a href="http://regexr.com/"> Text 정보를 re로 테스트 </a>
- <a href="https://regexper.com/"> 작성된 re를 다이어그램으로 표현 </a>

In [1]:
import re 

### <font color='brown'>정규표현식, 문자열에서 패턴찾기</font>

In [2]:
# 테스트용 문자열 저장
text = 'My id number is [G203_5A]'
text

'My id number is [G203_5A]'

In [3]:
# 소문자 a 찾기
result = re.findall('a', text)
result

[]

In [4]:
# 대문자 A 찾기
result = re.findall('A', text)
result

['A']

In [5]:
# 소문자 i 찾기
result = re.findall('i', text)
result

['i', 'i']

In [6]:
# 소문자 찾기
result = re.findall('[a-z]', text)
result

['y', 'i', 'd', 'n', 'u', 'm', 'b', 'e', 'r', 'i', 's']

In [7]:
# 소문자 연속해서 찾기
result = re.findall('[a-z]+', text)
result


['y', 'id', 'number', 'is']

In [8]:
# 대문자 찾기
result = re.findall('[A-Z]', text)
result

['M', 'G', 'A']

In [9]:
# 숫자 찾기
result = re.findall('[0-9]', text)
result

['2', '0', '3', '5']

In [10]:
# 숫자 연속해서 찾기
result = re.findall('[0-9]+', text)
result

['203', '5']

In [11]:
# 영문자 및 숫자 찾기
result = re.findall('[a-zA-Z0-9]', text)
result

['M',
 'y',
 'i',
 'd',
 'n',
 'u',
 'm',
 'b',
 'e',
 'r',
 'i',
 's',
 'G',
 '2',
 '0',
 '3',
 '5',
 'A']

In [12]:
# 영문자 및 숫자 연속해서 찾기
result = re.findall('[a-zA-Z0-9]+', text)
result

['My', 'id', 'number', 'is', 'G203', '5A']

In [13]:
# 영문자/숫자 아닌 문자 찾기
result = re.findall('[^a-zA-Z0-9]', text)
result

[' ', ' ', ' ', ' ', '[', '_', ']']

In [14]:
# 영문자 및 '_'특수기호 찾기
result = re.findall('[\w]', text)
result

['M',
 'y',
 'i',
 'd',
 'n',
 'u',
 'm',
 'b',
 'e',
 'r',
 'i',
 's',
 'G',
 '2',
 '0',
 '3',
 '_',
 '5',
 'A']

In [15]:
# 영문자 및 '_'특수기호 연속해서 찾기
result = re.findall('[\w]+', text)
result

['My', 'id', 'number', 'is', 'G203_5A']

In [16]:
# 영문자 및 '_'특수기호 아닌 문자 찾기
result = re.findall('[\W]', text)
result

[' ', ' ', ' ', ' ', '[', ']']

### <font color='brown'>문자열에서 특정이름 찾아내기</font>

In [17]:
# \w ( 1 char )
# \d ( 1 decimal )
# \s ( 1 space )

# + ( 1, ..., N )
# ? ( 0, 1 )
# * ( 0, 1, .. N )

# \d{N} ( 숫자가 N개 나온다. )
# \d{N,M} ( 숫자가 N~M개 나온다 )

In [18]:
text = """
옛날 옛적에 김진수라는 사람이 살았습니다.
그에게는 5형제가 있었는데, 김진수, 김진구, 김진용, 김진태, 김진욱 이렇게 5명 있었습니다.
그리고 그는 결혼을 해서 김찬영, 김준영, 김채영 3남매를 낳고 행복하게 잘 살았습니다.
"""
# 형제 : 김진O
# 자녀 : 김O영

In [19]:
pattern = re.compile("김진\w")

In [20]:
brother = pattern.findall(text)
brother

['김진수', '김진수', '김진구', '김진용', '김진태', '김진욱']

In [21]:
pattern = re.compile("김.영")
pattern = re.compile("김\w영")

In [22]:
children = pattern.findall(text)
children

['김찬영', '김준영', '김채영']

In [23]:
brother = set(brother)
brother

{'김진구', '김진수', '김진용', '김진욱', '김진태'}

### <font color='brown'> 핸드폰 번호에 대한 파싱 </font>
> 
- 010-5670-3847
- 010-오륙칠공-3847
- 공일빵 5670 3팔4칠      
cf. 0.5% 정도는 저런사람 있쥐요~

In [24]:
# ...fly => dragonfly, butterfly

In [25]:
text = "A sky, a dragonfly and a butterfly!!!!!"

In [26]:
pattern = re.compile("\w+fly")
pattern.findall(text)

['dragonfly', 'butterfly']

In [27]:
text = """
    010-5670-3847   # space, -, . => []
    010 5670 3847
    010.5670 3847
"""

In [28]:
pattern = re.compile("\d{3}[ -.]?\d{4}[ -.]?\d{4}")

In [29]:
pattern.findall(text)

['010-5670-3847', '010 5670 3847', '010.5670 3847']

In [30]:
text = """
    010-5670-3847   # space, -, . => []
    옛날에는 011-1052-3847 이랬는데..
    010 5670 3847
    010.-5670 3847
    사는동네가 자이아파트 516동512호
    그리구, 사무실번호는 02-360-4047이고
    우편번호는 100-791, 청파로 463번지
    
"""

In [31]:
pattern = re.compile("\d{3}[ -\.]{1,2}\d{3,4}[ -\.]?\d{4}")

In [32]:
pattern.findall(text)

['010-5670-3847', '011-1052-3847', '010 5670 3847', '010.-5670 3847']

In [33]:
pattern = re.compile("\d{2,3}[ -\.]?\d{3,4}[ -\.]?\d{4}")

In [34]:
pattern.findall(text)

['010-5670-3847', '011-1052-3847', '010 5670 3847', '02-360-4047']

<hr>
<marquee><font size=3 color='brown'>The BigpyCraft find the information to design valuable society with Technology & Craft.</font></marquee>
<div align='right'><font size=2 color='gray'> &lt; The End &gt; </font></div>