# 문자열 다루기

- 7.3.1 문자열 객체 메서드

In [2]:
import numpy as np
import pandas as pd

In [4]:
val = 'a, b, guido'
val.split(',')

['a', ' b', ' guido']

In [6]:
pieces = [x.strip() for x in val.split(',')]  # 공백 문자를 제가하는 strip 메서드와 조합해서 사용한다
pieces

['a', 'b', 'guido']

In [7]:
first, second, third = pieces

In [9]:
first + '::' + second + '::' + third 

'a::b::guido'

In [10]:
'::'.join(pieces)  # join메서드를 이용하는 것이 더 파이썬답다.

'a::b::guido'

In [11]:
'guido' in val

True

In [12]:
val.index(',')

1

In [13]:
val.find(':')

-1

In [14]:
val.index(':')  # index는 문자열으 발견하지 못하면 예외를 발생시키고, find 의 경우 -1을 반환한다.

ValueError: substring not found

In [16]:
val.count(',')

2

In [17]:
val.replace(',', '::')

'a:: b:: guido'

In [18]:
val.replace(',', '')

'a b guido'

- 7.3.2 정규 표현식

In [19]:
import re

In [20]:
text = "foo bar\t baz \tqux"

In [22]:
re.split('\s+', text) # 정규 표현식이 컴파일 되고 그 다음에 split 매서드가 실행됌

['foo', 'bar', 'baz', 'qux']

In [23]:
regex = re.compile('\s+')  # 정규 표현식을 컴파일 하고 객체를 재사용

In [24]:
regex.split(text)

['foo', 'bar', 'baz', 'qux']

In [25]:
regex.findall(text)  # 매칭되는 모든 패턴 목록을 알 수 있음

[' ', '\t ', ' \t']

In [28]:
text ="""Dave dave@google.com
Steve steve@gmail.com
Rob rob@gmail.com
Ryan ryan@yahoo.com
"""
pattern = r'[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,4}'

regex = re.compile(pattern, flags=re.IGNORECASE)  # re.IGNORECASE 정규 표현식이 대소문자를 가리지 않도록 하는 것

In [29]:
regex.findall(text)

['dave@google.com', 'steve@gmail.com', 'rob@gmail.com', 'ryan@yahoo.com']

In [30]:
m = regex.search(text)
m

<re.Match object; span=(5, 20), match='dave@google.com'>

In [31]:
text[m.start():m.end()]

'dave@google.com'

In [32]:
print(regex.match(text))

None


In [33]:
print(regex.sub('REDACTED', text))

Dave REDACTED
Steve REDACTED
Rob REDACTED
Ryan REDACTED



In [39]:
pattern1 = r'([A-Z0-9._%+-]+)@([A-Z0-9.-]+)\.([A-Z]{2,4})'

In [41]:
regex1 = re.compile(pattern1, flags=re.IGNORECASE)

In [42]:
m = regex1.match('wesm@bright.net')

In [45]:
m.groups()

('wesm', 'bright', 'net')

In [46]:
regex1.findall(text)

[('dave', 'google', 'com'),
 ('steve', 'gmail', 'com'),
 ('rob', 'gmail', 'com'),
 ('ryan', 'yahoo', 'com')]

- 7.3.3 pandas의 벡터화된 문자열 함수

In [47]:
data = {'Dave': 'dave@google.com', 'Steve': 'steve@gmail.com',
       'Rob': 'rob@gmail.com', 'Wes': np.nan}

In [48]:
data = pd.Series(data)

In [49]:
data

Dave     dave@google.com
Steve    steve@gmail.com
Rob        rob@gmail.com
Wes                  NaN
dtype: object

In [50]:
data.isnull()

Dave     False
Steve    False
Rob      False
Wes       True
dtype: bool

In [51]:
data.str.contains('gmail')  # str.contains 매서드를 이용해 문자열에 해당 내용이 담겼는지 확인할 수 있다.

Dave     False
Steve     True
Rob       True
Wes        NaN
dtype: object

In [52]:
pattern1

'([A-Z0-9._%+-]+)@([A-Z0-9.-]+)\\.([A-Z]{2,4})'

In [53]:
data.str.findall(pattern1, flags=re.IGNORECASE)

Dave     [(dave, google, com)]
Steve    [(steve, gmail, com)]
Rob        [(rob, gmail, com)]
Wes                        NaN
dtype: object

In [54]:
matches = data.str.match(pattern1, flags=re.IGNORECASE)
matches

Dave     True
Steve    True
Rob      True
Wes       NaN
dtype: object

In [62]:
data.str[:5]

Dave     dave@
Steve    steve
Rob      rob@g
Wes        NaN
dtype: object

In [64]:
matches.str.get(1)

AttributeError: Can only use .str accessor with string values!