In [1]:
##### 7.3 문자열 다루기 #####

In [2]:
##### 7.3.1 문자열 객체 메서드 #####

In [3]:
# 쉼표로 구분된 문자열 분리

val = 'a,b, guido'

In [4]:
val.split(',')

['a', 'b', ' guido']

In [5]:
# split 메서드는 공백문자를 제거하는 strip 메서드과 같이 사용되기도 함

pieces = [x.strip() for x in val.split(',')]

In [6]:
pieces

['a', 'b', 'guido']

In [7]:
# 더하기 연산을 이용해 :: 문자열과 합칠 수 있다.

first, second, third = pieces

In [8]:
first + '::' + second + '::' + third

'a::b::guido'

In [9]:
# 좀 더 쉬운 방법으로 리스트나 튜플을 ::문자열의 join 메서드로 전달하는 것이 있다.

'::'.join(pieces)

'a::b::guido'

In [10]:
# 일치하는 부분문자열의 위치를 찾는 방법 (in 예약어 사용)

'guido' in val

True

In [11]:
val.index(',')

1

In [13]:
# find와 index의 차이점은 index의 경우 문자열을 찾지 못하면 예외를 발생시키는데, find의 경우 -1을 반환한다.

val.find(':')

-1

In [14]:
val.index(':')

ValueError: substring not found

In [15]:
# 특정 부분문자열이 몇 건 발견되었는지 반환

val.count(',')

2

In [17]:
# 찾아낸 패턴을 다른 문자열로 치환
# 패턴을 삭제할 때도 사용

val.replace(',', '::')

'a::b:: guido'

In [18]:
val.replace(',', '')

'ab guido'

In [19]:
##### 7.3.2 정규표현식 #####

In [21]:
# 정규표현식은 텍스트에서 문자열 패턴을 찾는 방법을 제공한다.
# re모듈이 내장되어있어 문자열에 대한 정규 표현식을 처리한다.
# 크게 패턴매칭, 치환, 분리 세가지로 나눌 수 있다.

In [3]:
import re

In [6]:
# 하나 이상의 공백 문자를 의미하는 \s+ 를 이용해 문자열 분리

text = "foo bar\t baz \tqux"

In [7]:
re.split('\s+', text)

['foo', 'bar', 'baz', 'qux']

In [8]:
# 위 코드를 사용하면 정규 표현식이 컴파일된 후 split 메서드가 실행된다.

In [9]:
# re.compile로 직접 정규 표현식을 컴파일한 후 정규 표현식 객체를 재사용하는 것도 가능하다.
# 이렇게 하면 CPU 사용량을 아낄 수 있다.

regex = re.compile('\s+')

In [10]:
regex.split(text)

['foo', 'bar', 'baz', 'qux']

In [11]:
# 정규표현식에 매칭되는 모든 패턴의 목록을 얻고싶은 경우

regex.findall(text)

[' ', '\t ', ' \t']

In [12]:
# match와 search는 findall 메서드와 관련이 있다.
# findall은 문자열에서 일치하는 모든 부분 문자열을 찾아준다.
# search는 패턴과 일치하는 첫번째 존재를 반환한다.
# match는 더 엄격해서 문자열의 시작부분에서 일치하는 것만 찾아준다.

In [13]:
# 이메일 주소를 검사하는 정규 표현식을 살펴보자.

text = """Dave dave@google.com
Steve steve@gmail.com
Rob rob@gmail.com
Ryan ryan@yahoo.com
"""

In [14]:
pattern = r'[A-Z0-9,/_%+-]+@[A-Z0-9.-]+\.[A-Z]{2,4}'

In [15]:
# re.IGNORECASE는 정규표현식이 대소문자를 가리지않도록 한다.

regex = re.compile(pattern, flags=re.IGNORECASE)

In [16]:
regex.findall(text)

['dave@google.com', 'steve@gmail.com', 'rob@gmail.com', 'ryan@yahoo.com']

In [17]:
# search는 텍스트에서 첫 번째 이메일 주소만 찾아준다.
# match 객체는 정규표현 패턴이 문자열 내 위치하는 시작점과 끝점만 알려준다.

m = regex.search(text)

In [18]:
m

<re.Match object; span=(5, 20), match='dave@google.com'>

In [19]:
text[m.start():m.end()]

'dave@google.com'

In [20]:
# regex.match는 정규 표현 패턴이 문자열의 시작점부터 일치하는지 검사기 때문에 None을 반환한다.

print(regex.match(text))

None


In [22]:
# sub 메서드는 찾은 패턴을 주어진 문자열로 치환하여 새로운 문자열을 반환한다.

print(regex.sub('REDACTED', text))

Dave REDACTED
Steve REDACTED
Rob REDACTED
Ryan REDACTED



In [23]:
pattern = r'([A-Z0-9._%+-]+)@([A-Z0-9.-]+)\.([A-Z]{2,4})'

In [24]:
regex = re.compile(pattern, flags=re.IGNORECASE)

In [25]:
m = regex.match('wesm@bright.net')

In [26]:
m.groups()

('wesm', 'bright', 'net')

In [27]:
# 패턴에 그룹이 존재하면 findall 메서드는 튜플의 목록을 반환한다.

regex.findall(text)

[('dave', 'google', 'com'),
 ('steve', 'gmail', 'com'),
 ('rob', 'gmail', 'com'),
 ('ryan', 'yahoo', 'com')]

In [29]:
# \1 : 첫번째로 찾은 그룹
# \2 : 두번째로 찾은 그룹

print(regex.sub(r'Username: \1, Domain: \2, Suffix: \3', text))

Dave Username: dave, Domain: google, Suffix: com
Steve Username: steve, Domain: gmail, Suffix: com
Rob Username: rob, Domain: gmail, Suffix: com
Ryan Username: ryan, Domain: yahoo, Suffix: com



In [32]:
##### 7.3.3 pandas의 벡터화된 문자열 함수 #####

import numpy as np
import pandas as pd

In [33]:
data = {'Dave': 'dave@google.com', 'Steve': 'steve@gmail.com', 
       'Rob': 'rob@gmail.com', 'Wes': np.nan}

In [34]:
data = pd.Series(data)

In [35]:
data

Dave     dave@google.com
Steve    steve@gmail.com
Rob        rob@gmail.com
Wes                  NaN
dtype: object

In [36]:
data.isnull()

Dave     False
Steve    False
Rob      False
Wes       True
dtype: bool

In [37]:
# 문자열과 정규표현식 메서드는 data.map을 사용하는데 NA 값을 만나면 문제가 생긴다.
# 이를 해결하기위해 Series의 str 속성을 이용한다.
# str.contains를 이용해 각 이메일 주소가 gmail을 포함하고 있는지 검사할 수 있다.

data.str.contains('gmail')

Dave     False
Steve     True
Rob       True
Wes        NaN
dtype: object

In [38]:
# 정규표현식을 IGNORECASE같은 re옵션과 함께 사용하는 것도 가능하다.

pattern

'([A-Z0-9._%+-]+)@([A-Z0-9.-]+)\\.([A-Z]{2,4})'

In [39]:
data.str.findall(pattern, flags=re.IGNORECASE)

Dave     [(dave, google, com)]
Steve    [(steve, gmail, com)]
Rob        [(rob, gmail, com)]
Wes                        NaN
dtype: object

In [40]:
# 벡터화된 요소를 꺼내오는 방법

matches = data.str.match(pattern, flags=re.IGNORECASE)

In [47]:
matches

Dave     True
Steve    True
Rob      True
Wes       NaN
dtype: object

In [52]:
# 내재된 리스트의 원소에 접근 : 색인 넘기기
# get(i) : i번째 요소 반환

matches.str.get(1)

AttributeError: Can only use .str accessor with string values!

In [49]:
matches.str[0]

AttributeError: Can only use .str accessor with string values!

In [51]:
# 문자열 잘라내기

data.str[:5]

Dave     dave@
Steve    steve
Rob      rob@g
Wes        NaN
dtype: object