# Intro

- pandas 데이터 처리를 하다보면 필연적으로 한글(문자)로 이루어져있는 데이터를 만나게 된다.
- 정제되어있지 않은 데이터를 만지다보면, 데이터 기입자가 띄어쓰기, 오탈자, 공백 등의 많은 에러사항을 만나게 되는데, 그럴때에 str methods 를 잘 알고있어야 대처할 수 있다.

# Str.Method summary

**[--변환--]**

- **str.lower()** : string 을 모두 lowercase 로 바꾸어준다.
    - 일치,불일치를 따질때에 대문자,소문자 구분이 번거롭게 작용하기때문에 이 작업부터 하기를 추천한다.
    - 물론 한글의 경우에는 필요없는 옵션
- **str.upper()** : str 을 모두 대문자로 바꾸어준다.
- **str.title()** : str 을 첫글자는 대문자, 나머지는 소문자로 바꾸어준다.
- **str.lstrip()** : 왼쪽의 white space 를 없앤다.
    - 이 역시 위 3개의 이유와 같다. 왼쪽의 공백을 없애서 형식을 일치시키기 위함
- **str.rstrip()** : 오른쪽의 white space 를 없앤다.
- **str.strip()** : 앞뒤의 white space 를 없앤다.
- **.str.replace('old','new')** : str 의 old str을 new 로 바꾼다.
    - .str.replace(' ','') 의 연산을 통해서 공백을 없애주는 변환을 주로 한다.
        - 시간표현에서 12:00, 12 : 00 등의 공백이 있는 경우가 있기 때문

**[--찾기--]**

- **str.find('단어')** : 단어가 들어있는지 검사한다.(왼쪽부터)
    - 있으면 해당하는 인덱스를 출력
    - 없으면 -1을 출력
- **str.rfind('단어')** : 위와 같으나 오른쪽부터 검사
- **str.findall('단어')** : 찾은 '모든값' 반환
    - 리스트 형태로 모두 찾아준다.
- **str.contains('단어')** : 이 단어를 가지고있는지 검사
    - T,F 의 형태로 출력이 된다.
    - nan 이 있을경우 에러가 난다. 이 때에는 na=False 를 줄 경우에는 nan 의 경우는 false 로 출력
    - 정규식을 이용하려 할 경우 regex=True 를 넣으면된다. 
        - (안넣어도 돌아가긴하나 warning 이뜸)
        - warning 이 뜨는 이유는 굳이~ regex 쓰는게 group 이란 method 를 왜 안쓰냐고 징징대는거니까 무시하면된다.
- **str.extract('정규식')** : 정규식 패턴이면, group을 extract
    - 제일 중요한함수. 이를 통해서 원하는 데이터를 뽑아낼 수 있다.
- **str.split('단어')**  : 단어를 기준으로 split
    - '-' 나 공백 등을 지정하면, 유용하게 정보를 뽑아낼 수 있다.
    - 기준으로 split 될때 list 들이 반환된다.
    - expand=True 옵션을 통해서 반환된 list 를 바로 df 로 변환할 수 있다.
- **str.join('글자')** : '글자' 를 사이사이 넣으면서 단어들을 이어준다.
    - iterable 한 element 에 대해, 모두 이어준다.
    - object 만 가능하므로, 이전에 형태를 변환해주어야 한다.
    - 그리고 Nan이나, 다른 list 가 있는 경우는 잘 join 이 되지 않는다.
    

**[--검사--]**
- **str.isalpha()** : 각 str 이 alphabet으로 이루어져있는지 검사해준다.
- **str.isdecimal()** : 각 str 이 숫자인지 체크해준다.
- **str.len()** : 각 str의 길이를 측정하고 반환해준다.
- **str.startswith('단어')** : 단어로 시작하는지 검사
    - T,F 를 반환
- **str.endswith()** : 단어로 끝나는지를 검사
    - T,F 를 반환

In [79]:
import pandas as pd
import numpy as np
df = pd.read_csv('./Data/법정동코드 전체자료.txt', sep='\t', encoding='cp949')
df.head()

Unnamed: 0,법정동코드,법정동명,폐지여부
0,1100000000,서울특별시,존재
1,1111000000,서울특별시 종로구,존재
2,1111010100,서울특별시 종로구 청운동,존재
3,1111010200,서울특별시 종로구 신교동,존재
4,1111010300,서울특별시 종로구 궁정동,존재


In [7]:
# 판다스에서 문자열 관련 함수를 사용하거나 전처리를 하기 위해서는 함수 및 명령어 앞에 str을 붙여주어야 한다.

## str 인덱싱

In [8]:
df['법정동명'].str.find('종로')

0       -1
1        6
2        6
3        6
4        6
        ..
46175   -1
46176   -1
46177   -1
46178   -1
46179   -1
Name: 법정동명, Length: 46180, dtype: int64

In [9]:
# 앞 5자리까지만 추출
df['법정동명'].str[:5].head()

0    서울특별시
1    서울특별시
2    서울특별시
3    서울특별시
4    서울특별시
Name: 법정동명, dtype: object

In [10]:
# 3 ~ 5 번째 글자 추출
df['법정동명'].str[2:5].head()

0    특별시
1    특별시
2    특별시
3    특별시
4    특별시
Name: 법정동명, dtype: object

In [11]:
# 마지막 한글자만 추출
df['법정동명'].str[-1].head() 


0    시
1    구
2    동
3    동
4    동
Name: 법정동명, dtype: object

## str.split()

In [12]:
# 공백(" ")으로 분리
df['법정동명'].str.split(" ").head()

0              [서울특별시]
1         [서울특별시, 종로구]
2    [서울특별시, 종로구, 청운동]
3    [서울특별시, 종로구, 신교동]
4    [서울특별시, 종로구, 궁정동]
Name: 법정동명, dtype: object

In [13]:
#이렇게 분할된 개별 리스트를 바로 데이터 프레임으로 만드려면, expand=True옵션을 추가한다.
df['법정동명'].str.split(" ", expand=True).head()

Unnamed: 0,0,1,2,3,4
0,서울특별시,,,,
1,서울특별시,종로구,,,
2,서울특별시,종로구,청운동,,
3,서울특별시,종로구,신교동,,
4,서울특별시,종로구,궁정동,,


## .str.startswith()

In [9]:
# 이는 특정 boolean을 반환하는데, 특정 글자로 시작하면 True, 아니면 False 반환
df['법정동명'].str.startswith("서울").head()

0    True
1    True
2    True
3    True
4    True
Name: 법정동명, dtype: bool

In [10]:
# 서울로 시작하는 데이터만 필터링
df[df['법정동명'].str.startswith("서울")].head()

Unnamed: 0,법정동코드,법정동명,폐지여부
0,1100000000,서울특별시,존재
1,1111000000,서울특별시 종로구,존재
2,1111010100,서울특별시 종로구 청운동,존재
3,1111010200,서울특별시 종로구 신교동,존재
4,1111010300,서울특별시 종로구 궁정동,존재


## .str.endswith()

In [11]:
# 동으로 끝나는 데이터만 필터링
df[df['법정동명'].str.endswith("동")].head()

Unnamed: 0,법정동코드,법정동명,폐지여부
2,1111010100,서울특별시 종로구 청운동,존재
3,1111010200,서울특별시 종로구 신교동,존재
4,1111010300,서울특별시 종로구 궁정동,존재
5,1111010400,서울특별시 종로구 효자동,존재
6,1111010500,서울특별시 종로구 창성동,존재


## str.contains()

In [12]:
# 이는 특정 boolean을 반환하는데, 특정 글자가 포함되면 True, 아니면 False 반환

# 강서구가 들어간 데이터만 필터링
df[df['법정동명'].str.contains("강서구")].head()

Unnamed: 0,법정동코드,법정동명,폐지여부
737,1150000000,서울특별시 강서구,존재
738,1150000100,서울특별시 강서구 신정동,폐지
739,1150000200,서울특별시 강서구 신월동,폐지
740,1150010100,서울특별시 강서구 염창동,존재
741,1150010200,서울특별시 강서구 등촌동,존재


- contains 에 대해 복수 단어를 적용하고 싶다면 regular expression 을 이용해야 한다.

In [13]:
# 이 경우는 정규식을 써야한다. 정규식에 대해서는 아래에 그 예시가 있다.
df[df['법정동명'].str.contains("강서구|종로구",regex=True)]

Unnamed: 0,법정동코드,법정동명,폐지여부
1,1111000000,서울특별시 종로구,존재
2,1111010100,서울특별시 종로구 청운동,존재
3,1111010200,서울특별시 종로구 신교동,존재
4,1111010300,서울특별시 종로구 궁정동,존재
5,1111010400,서울특별시 종로구 효자동,존재
...,...,...,...
2810,2644011800,부산광역시 강서구 동선동,존재
2811,2644011900,부산광역시 강서구 성북동,존재
2812,2644012000,부산광역시 강서구 눌차동,존재
2813,2644012100,부산광역시 강서구 천성동,존재


- contains 에서 nan이 존재하면 에러가 난다. 그러므로 아래같이 처리를 해 주어야 한다.

In [14]:
# nan 이 존재하는 경우 그냥 contrains 로 하게 되면 에러가 난다. 그러므로
df = pd.DataFrame({'name': ['Alice','Bob','Charlie','Dave',np.nan,'Frank'],
                   'age': [24,42,18,68,24,30],
                   'state': ['NY','CA','CA','TX','CA','NY'],
                   'point': [64,24,70,70,88,57]})

# NaN이 존재하는 경우 False로 치환
print(df['name'].str.contains('li', na=False))

# NaN이 존재하는 경우 True로 치환
print(df['name'].str.contains('li', na=True))

0     True
1    False
2     True
3    False
4    False
5    False
Name: name, dtype: bool
0     True
1    False
2     True
3    False
4     True
5    False
Name: name, dtype: bool


- 대소문자의 구분을 무효화 시킬 수 있다.

In [15]:
# 기본적으로 대소문자를 구분한다.
print(df['name'].str.contains('LI'))

# 대소문자를 구분하지 않게 하려면 case = False 로 지정하면 된다.
print(df['name'].str.contains('LI', case=False))

0    False
1    False
2    False
3    False
4      NaN
5    False
Name: name, dtype: object
0     True
1    False
2     True
3    False
4      NaN
5    False
Name: name, dtype: object


## .str.find

In [16]:
df = pd.read_csv('./Data/법정동코드 전체자료.txt', sep='\t', encoding='cp949')
# 왼쪽부터 검색후 위치반환 없으면 -1
df['법정동명'].str.find(' ').head()

0   -1
1    5
2    5
3    5
4    5
Name: 법정동명, dtype: int64

In [17]:
# 오른쪽부터 sub값 검색후 위치반환
df['법정동명'].str.rfind(sub=' ').head()

0   -1
1    5
2    9
3    9
4    9
Name: 법정동명, dtype: int64

In [18]:
# 찾은 모든 값 반환(정규식)
df['법정동명'].str.findall('\w+동').head()

0       []
1       []
2    [청운동]
3    [신교동]
4    [궁정동]
Name: 법정동명, dtype: object

## .str.replace()

In [19]:
# 공백을 "_"로 대체
df['법정동명'].str.replace(" ", "_").head()

0            서울특별시
1        서울특별시_종로구
2    서울특별시_종로구_청운동
3    서울특별시_종로구_신교동
4    서울특별시_종로구_궁정동
Name: 법정동명, dtype: object

## str.extract()
그룹 ()을 꼭 지정해서 패턴을 입력해야 하며, 패턴에 맞는 단어가 없을 시 NaN이 출력된다.

추출그룹이 많을 땐 자동으로 데이터프레임 처리

In [20]:
df['법정동명'].str.extract('( \w*시 )|( \w*군 )|( \w*구 )')

Unnamed: 0,0,1,2
0,,,
1,,,
2,,,종로구
3,,,종로구
4,,,종로구
...,...,...,...
46175,서귀포시,,
46176,서귀포시,,
46177,서귀포시,,
46178,서귀포시,,


In [21]:
df['법정동명'].str.extract('(\w*읍)|( \w*면)|( \w*동)|(\w*\d+가)').dropna(how='all')

Unnamed: 0,0,1,2,3
2,,,청운동,
3,,,신교동,
4,,,궁정동,
5,,,효자동,
6,,,창성동,
...,...,...,...,...
46175,,표선면,,
46176,,표선면,,
46177,,표선면,,
46178,,표선면,,


## str.join()

In [103]:
s = pd.Series([['lion', 'elephant', 'zebra'],
               [1.1, 2.2, 3.3],
               ['cat', np.nan, 'dog'],
               ['cow', 4.5, 'goat'],
               ['duck', ['swan', 'fish'], 'guppy']])

In [104]:
s.str.join('-')

0    lion-elephant-zebra
1                    NaN
2                    NaN
3                    NaN
4                    NaN
dtype: object

## str.pad
문자열의 길이가 고정되어 부족할 경우 채워야할 때가 있다.

In [22]:
# 문자열 길이 20자, 왼쪽부터 "_"로 채우기
df['법정동명'].str.pad(width=20, side='left', fillchar='_').head(10)

0    _______________서울특별시
1    ___________서울특별시 종로구
2    _______서울특별시 종로구 청운동
3    _______서울특별시 종로구 신교동
4    _______서울특별시 종로구 궁정동
5    _______서울특별시 종로구 효자동
6    _______서울특별시 종로구 창성동
7    _______서울특별시 종로구 통의동
8    _______서울특별시 종로구 적선동
9    _______서울특별시 종로구 통인동
Name: 법정동명, dtype: object

In [23]:
# 문자열 길이 20자, 오른쪽부터 "_"로 채우기
df['법정동명'].str.pad(width=20, side='right', fillchar='_').head(10)

0    서울특별시_______________
1    서울특별시 종로구___________
2    서울특별시 종로구 청운동_______
3    서울특별시 종로구 신교동_______
4    서울특별시 종로구 궁정동_______
5    서울특별시 종로구 효자동_______
6    서울특별시 종로구 창성동_______
7    서울특별시 종로구 통의동_______
8    서울특별시 종로구 적선동_______
9    서울특별시 종로구 통인동_______
Name: 법정동명, dtype: object

In [24]:
# 문자열 길이 20자, 좌우로 "_"로 채우기
df['법정동명'].str.center(width=20, fillchar='_').head(10)

0    _______서울특별시________
1    _____서울특별시 종로구______
2    ___서울특별시 종로구 청운동____
3    ___서울특별시 종로구 신교동____
4    ___서울특별시 종로구 궁정동____
5    ___서울특별시 종로구 효자동____
6    ___서울특별시 종로구 창성동____
7    ___서울특별시 종로구 통의동____
8    ___서울특별시 종로구 적선동____
9    ___서울특별시 종로구 통인동____
Name: 법정동명, dtype: object

In [25]:
# 왼쪽부터 0으로 채우기
df['법정동명'].str.zfill(width=20).head(10)

0    000000000000000서울특별시
1    00000000000서울특별시 종로구
2    0000000서울특별시 종로구 청운동
3    0000000서울특별시 종로구 신교동
4    0000000서울특별시 종로구 궁정동
5    0000000서울특별시 종로구 효자동
6    0000000서울특별시 종로구 창성동
7    0000000서울특별시 종로구 통의동
8    0000000서울특별시 종로구 적선동
9    0000000서울특별시 종로구 통인동
Name: 법정동명, dtype: object

# Regex

- 정규 표현식(Regular Expressions)은 복잡한 문자열을 처리할 때 사용하는 기법으로, 파이썬만의 고유 문법이 아니라 문자열을 처리하는 모든 곳에서 사용한다. 

## 필요성

- 주민등록번호를 포함하고 있는 텍스트가 있다. 이 텍스트에 포함된 모든 주민등록번호의 뒷자리를 * 문자로 변경해 보자.

- 우선 정규식을 전혀 모르면 다음과 같은 순서로 프로그램을 작성해야 할 것이다.
    - 1.전체 텍스트를 공백 문자로 나눈다(split).
    - 2.나뉜 단어가 주민등록번호 형식인지 조사한다.
    - 3.단어가 주민등록번호 형식이라면 뒷자리를 *로 변환한다.
    - 4.나뉜 단어를 다시 조립한다.


- 아래 경우는 정규식을 쓰지 않았을 떄에 위 과정을 직접 구현해본 것이다.

In [26]:
data = """
park 800905-1049118
kim  700905-1059119
"""
result = []
for line in data.split("\n"):
    word_result = []
    for word in line.split(" "):
        if len(word) == 14 and word[:6].isdigit() and word[7:].isdigit():
            word = word[:6] + "-" + "*******"
        word_result.append(word)
    result.append(" ".join(word_result))
print("\n".join(result))



park 800905-*******
kim  700905-*******



- 이제 정규 표현식을 이용하여 위 과정을 구현해 보자.

In [27]:
import re 

data = """
park 800905-1049118
kim  700905-1059119
"""

pat = re.compile("(\d{6})[-]\d{7}")
print(pat.sub("\g<1>-*******", data))


park 800905-*******
kim  700905-*******



- 매우 간단한 코드 몇줄만으로 바로 위 과정을 진행할 수 있었다.
- 이를 이제 예제와 함께 배워보자.

## 정규표현식 Summary

**문자 클래스 []**

- [] 사이의 문자들과 매치 라는 의미를 가진다.
    - [abc] 라면 a,b,c, 중 한개의 문자와 매치 의 의미를 가진다.
    - [abc] 에 대해 absolute 는 a,b 를 포함하므로 매치, LSTM 은 a,b,c 모두 없으므로 매치되지 않음
- [] 안의 두 문자 사이에 - 를 사용하면 두 문자 사이의 범위를 의미한다.
    - [a-c] 는 [abc] 의 의미와 일치
    - [1-5] 는 [12345] 와 일치
- [] 안의 ^ 는 반대의 의미를 가진다.
    - [^a-c] 는 abc를 포함하지 않는 문자들과 매치
    - [^0-9] 는 숫자가 아닌 문자만 매치

- 자주 사용하는 문자 클래스
    - \d : 숫자와 매치한다. [0-9] 와 같은 의미 (digit)
    - \D : 숫자가 아닌것과 매치. [^0-9] 와 같은 의미
    - \s : whitespace 문자와 매치. [ \t\n\r\f\v]와 같은 의미. 맨 앞의 빈 칸은 공백문자(space)를 의미한다.(space)
    - \S : whitespace 문자가 아닌 것과 매치, [^ \t\n\r\f\v]와 동일한 표현식이다.
    - \w : 문자+숫자와 매치, [a-zA-Z0-9_]와 동일한 표현식 (words)
    - \W : 문자+숫자(alphanumeric)가 아닌 문자와 매치, [^a-zA-Z0-9_]와 동일한 표현식이다.
    - Note : 대문자로 사용된것은 소문자의 반대임을 알 수 있다.

**이스케이프 \**

- &#92;(역슬래쉬) 역시 특수(메타) 글자들을 글자 그대로 해석하게 해 준다.
- 이스케이프 시퀀스는 딱 1개, \(역슬래쉬) 뿐이다.
- 여러 특수 문자들 중 어떤 녀석들은 \(역슬래쉬)를 붙이지 않아도, 그대로 해석되기는 하나, 붙여주는것이 안전하다.
- ex ) ₩[[0-9]₩]
    - [숫자] 의 형식을 인식하기 위한 정규식
    - 문자 "["와 "]"를 인식시키기 위해 이스케이프를 하였고, 0~9사이의 숫자를 검색하기 위해 다시 문자 집합([])을 사용하였다.


**모든 문자 Dot(.)**

- 정규 표현식의 Dot(.) 은 줄바꿈 문자 \n 을 제외한 모든 문자와 매치된다.
- a.b 의 의미는 a + 모든문자 + b 의 의미이다.
    - aab : 가운데에 a 가 모든문자라는 의미와 일치하므로 정규식과 매치된다.
    - a0b : 0 도 '모든 문자' 라는 의미와 일치하므로 정규식에 매치된다.
    - abc : a와 b 문자 사이에 어떤 문자도 일치되지 않으므로 매치되지 않는다.
- a[.]b 의 의미는 a+dot(.)문자+b 의 의미이다.(문자 클래스[]) 내에 . 이 사용되면 '모든' 의 특수한 의미가 아닌 그냥 Dot . 을 의미한다.
    - acb : 이 경우 c 는 . 이 아니므로 매치되지 않는다.
    - a.b : 이 경우에 . 이 맞으므로 매치된다.
    

**반복(*)**

- 정규 표현식의 * 는 이 기호 앞의 문자가 0회 이상 반복될때 매치된다.
- ca*t 의 의미는 c와 t 사이에 a 가 반복되는 문자와 매치시킨다는 의미이다.
    - caaat : a 가 3번 반복되므로 매치
    - ct : a 가 0번 반복되므로 매치

**반복(+)**


- 정규 표현식의 + 는 기호 앞에 문자가 1회 '이상' 반복될 때 사용된다.
- ca+t 의 의미는 c + a(1회 이상 반복) + t  의 문자와 매치시킨다는 것이다.
    - ct : a 가 없으므로 매치안됨
    - caaat : a 가 1회 이상 반복되므로 매치

**반복({m,c})**

- {} 문자를 사용하면 반복횟수를 고정할 수 있다.
- {m,n} 정규식은 반복 횟수를 m~n 번까지 매칭시킨다는 것이다.
- {m,} : m 회 이상 반복
- {,n} : n 회 이하 반복
- {m} : m 회 반복
- ca{2}t 
    - caat 만 매칭시키고 나머지는 false
- ca{2,4}t
    - cat : a 가 1개뿐이라 매치안됨
    - caaat : a 가 2~4개 사이이므로 매치

**OR(?)**

- ? 은 {0,1} 을 의미한다. 즉 있던지 없던지가 된다.
- ab?c 
    - abc : b 가 있어서 매치
    - ac : b 없어서 매치

## 매서드 Summary

- 메서드는 크게 4가지가 있다.
- match() : 문자열의 처음부터 정규식과 매치되는지 조사
- search() : 문자열 전체를 검색해 정규식과 매치되는지 조사
- findall() : 정규식과 매치되는 모든 문자열을 리스트로 돌려줌
- finditer() : 정규식과 매치되는 모든 문자열을 반복 가능한(iterable) 객체

### Match

- 문자열의 처음부터 정규식과 매치되는지 조사
- 매치된다면 match 객체를 돌려준다.
- 매치되지 않는다면 None 을 돌려준다.

In [13]:
# 정규식에는 re 패키지를 사용한다.
import re
# [a-z]+ 의 의미는 a~z 에 해당하는 문자열(알파벳 소문자) 이 1회 이상 반복되는 compile 이 된다.
p = re.compile('[a-z]+')

In [14]:
# python 은 위 compile 에 매칭되고 있다. 
# 즉 match 가 되면, match 객체를 돌려준다.
m = p.match("python")
print(m)

<re.Match object; span=(0, 6), match='python'>


In [30]:
# 다만 매치되지 않는 경우는 None 을 출력한다.
m = p.match('2python')
print(m)

None


In [20]:
# 다음과 같이 쓰곤 한다. 
# if 문을 섞어서 none 을 호출하면 No match 가 되게 한다.
p = re.compile('[a-z]+')
m = p.match( 'string goes here' )
if m:
    print('Match found: ', m.group())
else:
    print('No match')

Match found:  string


### Search

- 문자열 '전체' 를 검색한다.
- 그러므로, 2python 의 경우 처음이 숫자라 match 를 할 경우 에러가 나왔지만, 
- search 를 할 경우 처음만 숫자지 그 이후는 영어 소문자가 있기 때문에 match 객체를 내보낸다.

In [27]:
m = p.search("python")
print(m)

<re.Match object; span=(0, 6), match='python'>


In [29]:
m = p.search("2python")
print(m)

<re.Match object; span=(1, 7), match='python'>


### Find all

- Findall 은 그 이름에 맞게 단어들을 각각 [a-z]+ 의 정규식과 매치되는 리스트들을 뽑아준다.

In [23]:
result = p.findall("life is too short")
print(result)

['life', 'is', 'too', 'short']


## Match 객체

- match 와 search 의 결과로 조건에 부합한것이 문자열에 있을 경우 match method 를 돌려주는것을 알아보았다.
- 하지만 이때 이 match 객체가 과연 어떠한 것인지에 대해서 같이 알아보자.

- group() :	매치된 문자열을 돌려준다.
- start() :	매치된 문자열의 시작 위치를 돌려준다.
- end() :	매치된 문자열의 끝 위치를 돌려준다.
- span() :	매치된 문자열의 (시작, 끝)에 해당하는 튜플을 돌려준다.


In [40]:
p = re.compile('[a-z]+')
m = p.match("python")

In [41]:
m.group()

'python'

In [42]:
m.start()

0

In [43]:
m.end()

6

In [44]:
m.span()

(0, 6)

- 만약 search 객체를 사용하게 된다면 어떻게 되는지 살펴보자.

In [50]:
p = re.compile('[a-z]+')
m = p.search("3 python")

In [51]:
m.group()

'python'

In [52]:
m.start()

2

In [53]:
m.end()

8

In [54]:
m.span()

(2, 8)

## re.sub

- re.sub 를 이용하여 문자열을 바꿀 수 있다.
- re.sub('패턴','바꿀 문자열','문자열', 바꿀 횟수'

In [3]:
re.sub('apple|orange', 'fruit', 'apple box orange tree') 

'fruit box fruit tree'

In [4]:
re.sub('[0-9]+', 'n', '1 2 Fizz 4 Buzz Fizz 7 8') 

'n n Fizz n Buzz Fizz n n'

## re.match

- 우리는 여태 compile 과 match 를 따로 구분하여 수행하였다.
- 그러나 이 과정을 한번에 줄일 수 있다.(마치 sklearn 의  fit.transform 처럼) 

In [57]:
p = re.compile('[a-z]+')
m = p.match("python")
# 위 코드가 축약된 형태는 다음과 같다.
m = re.match('[a-z]+', "python")
# 어떤것을 사용할지는 

## Compile 옵션

정규식을 컴파일할 때 다음 옵션을 사용할 수 있다.

- DOTALL(S) : (.) 이 줄바꿈 문자를 포함하여 모든 문자와 매치할 수 있도록 한다.
- IGNORECASE(I) : 대소문자에 관계없이 매치할 수 있도록 한다.
- MULTILINE(M) : 여러줄과 매치할 수 있도록 한다. (^, $ 메타문자의 사용과 관계가 있는 옵션이다)
- VERBOSE(X) : verbose 모드를 사용할 수 있도록 한다. (정규식을 보기 편하게 만들수 있고 주석등을 사용할 수 있게된다.)


### DOTALL

- . 메타 문자는 줄바꿈 문자(\n) 을 제외한 모든 문자와 매치된다.
- 만약 \n 문자도 포함해 매치하고 싶은 경우 re.DOTALL 을 사용하여 정규식을 컴파일 하면 된다.

In [78]:
p = re.compile('a.b')
m = p.match('a\nb') # a,b 사이에 \n 이 매칭이 되어서 없는 취급을 하게 된다.
print(m)

<re.Match object; span=(0, 3), match='anb'>


In [79]:
p = re.compile('a.b')
m = p.match('a\nb',re.DOTALL) # a,b 사이에 \n 이 매칭이 되어서 없는 취급을 하게 된다.
print(m)

None


### IGNORECASE

- 대소문자 구분 없이 매치를 수행하고 싶은 경우 쓰는 옵션이다. 
- re.IGNORECASE 또는 re.I

In [80]:
p = re.compile('[a-z]', re.I)
p.match('python')

<re.Match object; span=(0, 1), match='p'>

In [82]:
p.match('PYTHON')

<re.Match object; span=(0, 1), match='P'>

### MULTILINE

- 메타문자와 연관된 옵션이다.
- 각 라인의 처음에 compile 을 적용하고 싶을때 쓴다.
- ^python 의 경우 처음은 항상 python 으로 시작해야 match 된다.
- python$ 의 경우 문자열의 마지막은 항상 python 으로 끝나야 매치된다.

In [85]:
import re
# python 으로 시작해 그 뒤에 whitespace , 그 뒤에 worlds가 오면 매치하는 compile
p = re.compile("^python\s\w+")

data = """python one
life is too short
python two
you need python
python three"""

print(p.findall(data))

['python one']


In [87]:
import re
# python 으로 시작해 그 뒤에 whitespace , 그 뒤에 worlds가 오면 매치하는 compile
p = re.compile("^python\s\w+",re.MULTILINE)

data = """python one
life is too short
python two
you need python
python three"""

print(p.findall(data))

['python one', 'python two', 'python three']


### VERBOSE

- 정규식은 매우 간단하지만 다른 사람이 만든것을 보면 매우 어려울 떄가 있다.
- 정규식을 주석, 줄 단위로 구분해 주는것이 re.VERBOSE 이다.

In [88]:
charref = re.compile(r'&[#](0[0-7]+|[0-9]+|x[0-9a-fA-F]+);')


- 위 , 아래 COMPILE 모두 동일하나 직관적으로 아래처럼 주석 + 여러줄로 표현한게 더 이해하기 편하다.
- 이럴때에 re.verbose 를 이용하면 문자열에 사용된 white space 는 제거되고, # 로 주석을 달 수 있게된다.
- 즉 아래와 같이 compile 이 가능해진다.

In [89]:
charref = re.compile(r"""
 &[#]                # Start of a numeric entity reference
 (
     0[0-7]+         # Octal form
   | [0-9]+          # Decimal form
   | x[0-9a-fA-F]+   # Hexadecimal form
 )
 ;                   # Trailing semicolon
""", re.VERBOSE)


## 메타문자 Summary

**!**

맨 앞에 ! 를 쓰게 된다면, 모든 magic characters 는 특수문자로 처리된다. 


**|** 
- or 과 동일한 의미. 
- a|b 는 a 또는 b 라는 의미이다.

In [91]:
p = re.compile('Crow|Servo')
m = p.match('CrowHello')
print(m)

<re.Match object; span=(0, 4), match='Crow'>


**^**

- 문자열의 맨 처음과 일치함을 표시 
- re.Multiline 과 함께 사용시에 여러줄의 문자열인 경우 각 줄의 처음과 일치하게 된다.

In [94]:
p = re.compile('^Life')
m = p.match('Life is too short')
print(m)

<re.Match object; span=(0, 4), match='Life'>


**$**

- 문자열의 끝과 매치됨을 표시

In [95]:
print(re.search('short$', 'Life is too short'))

<re.Match object; span=(12, 17), match='short'>


In [97]:
print(re.search('short$', 'Life is too short, you need python'))

None


**\A**

- 문자열의 처음과 매치됨을 의미한다. ^ 메타 문자와 동일한 의미이지만 re.MULTILINE 옵션을 사용할 경우에는 다르게 해석된다. re.MULTILINE 옵션을 사용할 경우 ^은 각 줄의 문자열의 처음과 매치되지만 \A는 줄과 상관없이 전체 문자열의 처음하고만 매치된다.

**\Z**


- \Z는 문자열의 끝과 매치됨을 의미한다. 이것 역시 \A와 동일하게 re.MULTILINE 옵션을 사용할 경우 $ 메타 문자와는 달리 전체 문자열의 끝과 매치된다.



**\b**

- \b는 단어 구분자(Word boundary)이다. 보통 단어는 whitespace에 의해 구분된다.

In [99]:
p = re.compile(r'\bclass\b')
print(p.search('no class at all'))  

<re.Match object; span=(3, 8), match='class'>


In [100]:
print(p.search('the declassified algorithm'))

None


- 위의 경우 \b 를 양쪽에 붙였으므로 white space 로 구분된 class 의 경우에만 매치되는것을 알 수 있다.
- 즉 '밥' 이라는 글자를 매핑하고 싶다면, 이 경우는 밥샙, 밥주걱 등 밥이랑 관련 없는 글자가 매칭될 수 있으므로 유용한 기능이다.


**\B**

- \B 메타 문자는 \b 메타 문자와 반대의 경우이다. 즉 whitespace로 구분된 단어가 아닌 경우에만 매치된다.



In [101]:
p = re.compile(r'\Bclass\B')
print(p.search('no class at all'))  

None


In [102]:
print(p.search('the declassified algorithm'))

<re.Match object; span=(6, 11), match='class'>


## Grouping

- ABC 문자열이 계속해서 반복되는지 조사하는 정규식을 작성하고 싶다고 하자. 어떻게 해야할까? 지금까지 공부한 내용으로는 위 정규식을 작성할 수 없다. 이럴 때 필요한 것이 바로 그루핑(Grouping) 이다.
- 위 같은 상황을 재현하기 위해서는 (ABC)+ 로 써 주어야 한다.


In [103]:
p = re.compile('(ABC)+')
m = p.search('ABCABCABC OK?')
print(m)

<re.Match object; span=(0, 9), match='ABCABCABC'>


In [104]:
print(m.group())

ABCABCABC


### 일부 부분참조

- 사실 문자열을 다루다 보면 많은 경우 그 일부분만 쓰고싶은 경우가 대부분이다.
- 이런 경우 m.group(k) 와 함께 사용한다면 필요한 부분만 뽑아낼 수 있다.

In [124]:
# 이름 전화번호 형식의 정규식
# word + space + digit + - + digit + - + digit 형태
p = re.compile(r"\w+\s+\d+[-]\d+[-]\d+")
m = p.search("park 010-1234-1234")
print(m)

<re.Match object; span=(0, 18), match='park 010-1234-1234'>


In [131]:
# 이 때 group 을 해 놓은곳이 (\w+) 밖에 없기 때문에 park 만을 출력
# group(0) 은 전체 단어를 출력한다
p = re.compile(r"(\w+)\s+\d+[-]\d+[-]\d+")
m = p.search("park 010-1234-1234")
print(m.group(0))
print(m.group(1))

park 010-1234-1234
park


In [114]:
# r 을 스트링 앞에 붙이는 이유는 \n 과 같이 이런 경우를 제대로 expression 아려면 앞에 r 을 붙여야 한다.
print('this is \n a test')

this is 
 a test


In [115]:
print(r'this is \n a test')

this is \n a test


In [117]:
# word + @ + 모든문자 
m = re.search(r'(\w+)@(.+)','test@gmail.com')
print(m.group(1))
print(m.group(2))
print(m.group(0))

test
gmail.com
test@gmail.com


### 재참조

In [134]:
# 구분자 + 단어 + splace + 그룹과 동일한 단어(\1)
# 두번째 그룹을 참조하려면 \2 를 사용하면 된다.
p = re.compile(r'(\b\w+)\s+\1')

p.search('Paris in the the spring').group()

'the the'

### 이름 붙이기

정규식 안에 그룹이 무척 많아진다고 가정해 보자. 예를 들어 정규식 안에 그룹이 10개 이상만 되어도 매우 혼란스러울 것이다. 거기에 더해 정규식이 수정되면서 그룹이 추가, 삭제되면 그 그룹을 인덱스로 참조한 프로그램도 모두 변경해 주어야 하는 위험도 갖게 된다.

만약 그룹을 인덱스가 아닌 이름(Named Groups)으로 참조할 수 있다면 어떨까? 그렇다면 이런 문제에서 해방되지 않을까?

이러한 이유로 정규식은 그룹을 만들 때 그룹 이름을 지정할 수 있게 했다. 그 방법은 다음과 같다.



In [161]:
p = re.compile(r"\w+\s+\d+[-]\d+[-]\d+")
p = re.compile(r"(?P<name>\w+)\s+((\d+)[-]\d+[-]\d+)")
# 이 두개의 compile 은 같은것을 의미한다.
# 이 떄에 그룹에 이름을 붙임으로서 더욱 쉬운 접근이 가능해진다.

In [163]:
m = p.search("park 010-1234-1234")
print(m.group("name")) # 이와 같이 group 을 이름으로 불러오기가 가능

park


In [169]:
# 다음과 같이 재참조 또한 가능하다.
p = re.compile(r'(?P<word>\b\w+)\s+(?P=word)')
p.search('Paris in the the spring').group('word')

'the'

## 문자열 바꾸기(sub)

- sub 메소드를 사용하여 정규식과 매치되는 부분을 문자로 바꿀 수 있다.
- sub 메서드의 첫 번째 매개변수는 "바꿀 문자열(replacement)"이 되고, 두 번째 매개변수는 "대상 문자열"이 된다. 

In [158]:
p = re.compile('(blue|white|red)')
p.sub('야호', 'blue socks and red shoes')

'야호 socks and 야호 shoes'

- 딱 한 번만 바꾸고 싶은 경우도 있다. 이렇게 바꾸기 횟수를 제어하려면 다음과 같이 세 번째 매개변수로 count 값을 넘기면 된다.

In [160]:
p.sub('야호', 'blue socks and red shoes', count=1)

'야호 socks and red shoes'

# 정규식 Example

In [170]:
df = pd.DataFrame({'가격':['$500','$300','$250','$400','$200'],
                  '제품':['과자3개','핸드폰','농구공2개','축구공','과자2개']})
df

Unnamed: 0,가격,제품
0,$500,과자3개
1,$300,핸드폰
2,$250,농구공2개
3,$400,축구공
4,$200,과자2개


In [171]:
# 과자와 농구공을 둘다 포함하는 데이터 
df[df['제품'].str.contains('과자|농구공',regex = True)]

Unnamed: 0,가격,제품
0,$500,과자3개
2,$250,농구공2개
4,$200,과자2개


In [172]:
# 숫자가 들어있는 경우 출력
df[df['제품'].str.contains('\d',regex = True)]

Unnamed: 0,가격,제품
0,$500,과자3개
2,$250,농구공2개
4,$200,과자2개


In [3]:
regex = re.compile(r'\d')

In [None]:
df['가격']

- 전화번호에서 통신사와, 뒷자리 분리

In [26]:
text = "문의사항이 있으면 032-232-3245 으로 연락주시기 바랍니다."
regex = re.compile(r'(\d{3})-(\d{3}-\d{4})')
matchobj = regex.search(text)
areaCode = matchobj.group(1)
num = matchobj.group(2)
print(areaCode, num) 

032 232-3245


In [27]:
text = '전화는 010-1111-1111로 걸어주세요'
m = re.search('\d+-\d+-\d+', text)    
print(m)

<re.Match object; span=(4, 17), match='010-1111-1111'>


- 문자열에서 숫자만 분리

In [29]:
text = '전화는 010-1111-1111로 걸어주세요'
m = re.findall('\d+', text)    
print(m)

['010', '1111', '1111']


# Reference 
- 점프 투 파이썬
- 파이썬 코딩도장
- https://yganalyst.github.io/data_handling/memo_9/
- https://wikidocs.net/46744