In [1]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"
import numpy as np
import pandas as pd


## 7.3 문자열 다루기 
- 문자열 객체 메서드
- 정규표현식
- pandas의 벡터화된 문자열 다루기

### 7.3.1 문자열 객체 메서드 (p.298)

`split` : 문자열을 구분자를 기준으로 부분문자열의 리스트로 분리한다.

In [2]:
val = 'a,b,  guido' # Guido Van Rossum
val.split(',')      # , 를 기준으로 분리

['a', 'b', '  guido']

`strip` : 개행 문자를 포함한 공백 문자를 제거한다.  


In [3]:
pieces = [x.strip() for x in val.split(',')]    #comprehension
pieces

['a', 'b', 'guido']

`lstrip` : 시작부분에 있는 공백 문자만 제거 

`rstrip` : 마지막 부분에 있는 공백 문자만 제거

In [4]:
string = "     안 녕 하 세 요     "
string.strip(),len(string.strip())
string.lstrip(),len(string.lstrip())
string.rstrip(),len(string.rstrip())


('안 녕 하 세 요', 9)

('안 녕 하 세 요     ', 14)

('     안 녕 하 세 요', 14)

`join` : 문자열을 구분자로 하여 다른 문자열을 순서대로 이어붙인다.

In [5]:
first, second, third = pieces           # unpacking
first + '::' + second + '::' + third    # 더하기 연산

'a::b::guido'

In [6]:
'::'.join(pieces)          # ::를 구분자로 하여 순서대로 이어 붙인다!

'a::b::guido'

일치하는 부분문자열의 위치 찾는 방법
1. `in` : 위치는 찾지 못하지만 있는 지 없는 지 알 수 있다
2. `index` : 부분문자열의 첫 번째 글자의 위치를 반환한다. 없을 경우 -> ValueError
3. `find` : 첫번째 부분문자열의 첫번째 글자의 위치를 반환한다. 없을 경우 -> return -1
4. `rfind` : 마지막 부분문자열의 첫 번째 글자의 위치를 반환한다. 없을 경우 -> return -1
 

In [14]:
# val = 'a,b,  guido'
'guido' in val      # True
val.index(',')      # 1
val.find(',')       # 1
val.rfind(',')      # 3

True

1

1

3

In [15]:
val.find(':')       # return -1
val.index(':')      # ValueError  예외 발생

-1

ValueError: ignored

`count` : 특정 부분문자열이 몇 건 발견되었는지 반환한다.

In [9]:
# val = 'a,b,  guido'
val.count(',')

2

`replace` : 문자열을 다른 문자열로 치환한다. 

In [10]:
# val = 'a,b,  guido'
val.replace(',', '::')
val.replace(',', '')

'a::b::  guido'

'ab  guido'

### 7.3.2 정규표현식

regex : regular expression
1. 패턴 매칭
2. 치환
3. 분리  
 
[정규표현식 정리](https://hamait.tistory.com/342)

In [11]:
# regex : regular expression 
import re
text = "foo    bar\t baz  \tqux"
re.split('\s+', text)       # \s : 공백 문자,   + : 반복을 표현

['foo', 'bar', 'baz', 'qux']

In [12]:
regex = re.compile('\s+')   # 정규 표현식 컴파일하여 객체 생성 -> CPU 사용량을 아낄 수 있다!
regex.split(text)           # split 실행

['foo', 'bar', 'baz', 'qux']

`findall` : 문자열에서 겹치지않는 모든 발견된 패턴을 리스트로 반환한다.

In [13]:
regex.findall(text)

['    ', '\t ', '  \t']

`match` : 문자열의 시작점부터 패턴을 찾고 선택적으로 패턴 컴포넌트를 그룹으로 나눈다. 일치하는 경우 -> match 객체, 일치하지 않는 경우 -> None 반환  
`serarch` : 문자열에서 패턴과 일치하는 내용을 검색하고 match 객체를 반환한다. `match`와 다른점은 시작부터 일치하는 내용만 찾지 않고 어디든 일치하는 내용이 있다면 반환한다.

In [16]:
text = """Dave dave@google.com
Steve steve@gmail.com
Rob rob@gmail.com
Ryan ryan@yahoo.com
"""
 # [] : 문자 선택을 표현, A-Z : A부터 Z까지, 0-9 : 0부터 9까지, ._%+
pattern = r'[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,4}'     # r : raw


# re.IGNORECASE 는 정규 표현식이 대소문자를 가리지 않도록 한다
regex = re.compile(pattern, flags=re.IGNORECASE)

In [None]:
regex.findall(text)

['dave@google.com', 'steve@gmail.com', 'rob@gmail.com', 'ryan@yahoo.com']

In [None]:
m = regex.search(text)
m   # Match 객체 반환 
text[m.start():m.end()]     # Match 객체는 시작점과 끝점만 알려준다.

<re.Match object; span=(5, 20), match='dave@google.com'>

'dave@google.com'

In [None]:
print(regex.match(text))    #match는 문자열의 시작점부터 끝까지 모두 일치해야하기 때문에 None

None


In [None]:
text = """dave@google.com
steve@gmail.com
rob@gmail.com
ryan@yahoo.com
"""
print(regex.match(text))

<re.Match object; span=(0, 15), match='dave@google.com'>


`sub` : 문자열에서 일치하는 패턴(sub)을 주어진 문자열로 치환한다. 

In [None]:
print(regex.sub('REDACTED', text))  # 이메일 패턴을 전부 REDACTED로 변경

Dave REDACTED
Steve REDACTED
Rob REDACTED
Ryan REDACTED



In [None]:
# (사용자 이름)@(도메인 이름).(도메인 접미사)
pattern = r'([A-Z0-9._%+-]+)@([A-Z0-9.-]+)\.([A-Z]{2,4})'
regex = re.compile(pattern, flags=re.IGNORECASE)

In [None]:
m = regex.match('wesm@bright.net')
m.groups()              # 튜플 반환

('wesm', 'bright', 'net')

In [None]:
regex.findall(text)     # 튜플 반환

[('dave', 'google', 'com'),
 ('steve', 'gmail', 'com'),
 ('rob', 'gmail', 'com'),
 ('ryan', 'yahoo', 'com')]

In [None]:
print(regex.sub(r'Username: \1, Domain: \2, Suffix: \3', text)) # \1 : 첫번째로 찾은 그룹 ...

Username: dave, Domain: google, Suffix: com
Username: steve, Domain: gmail, Suffix: com
Username: rob, Domain: gmail, Suffix: com
Username: ryan, Domain: yahoo, Suffix: com



### 7.3.3pandas의 벡터화된 문자열 함수

In [17]:
data = {'Dave': 'dave@google.com', 'Steve': 'steve@gmail.com',
        'Rob': 'rob@gmail.com', 'Wes': np.nan}  # 누락된 데이터
data = pd.Series(data)
data
data.isnull()

Dave     dave@google.com
Steve    steve@gmail.com
Rob        rob@gmail.com
Wes                  NaN
dtype: object

Dave     False
Steve    False
Rob      False
Wes       True
dtype: bool

data.map을 사용해서 각 값에 적용(lambda 혹은 다른 함수를 넘겨서)할 수 있지만 이렇게 NaN값이 있을 때는 실패한다!!  
이럴때 str 속성을 이용한다.

In [18]:
data.map('My email is {}'.format)       # na_action='ignore'

Dave     My email is dave@google.com
Steve    My email is steve@gmail.com
Rob        My email is rob@gmail.com
Wes                  My email is nan
dtype: object

In [19]:
data.str.contains('gmail')

Dave     False
Steve     True
Rob       True
Wes        NaN
dtype: object

In [20]:
pattern
data.str.findall(pattern, flags=re.IGNORECASE)

'[A-Z0-9._%+-]+@[A-Z0-9.-]+\\.[A-Z]{2,4}'

Dave     [dave@google.com]
Steve    [steve@gmail.com]
Rob        [rob@gmail.com]
Wes                    NaN
dtype: object

In [30]:
matches = data.str.match(pattern, flags=re.IGNORECASE)
matches


Dave     True
Steve    True
Rob      True
Wes       NaN
dtype: object

In [31]:
matches.str.get(1)
matches.str[0]

AttributeError: ignored

In [32]:
data.str.get(1)
data.str[0]

Dave       a
Steve      t
Rob        o
Wes      NaN
dtype: object

Dave       d
Steve      s
Rob        r
Wes      NaN
dtype: object

In [23]:
data.str[:5]

Dave     dave@
Steve    steve
Rob      rob@g
Wes        NaN
dtype: object

## 7.4 마치며,,,,