## 1. 문자열 객체 메서드

In [1]:
import pandas as pd

In [2]:
# 쉼표로 구분된 문자열 분리
val='a,b, guido'
val.split(',') # split메서드를 이용해 분리

['a', 'b', ' guido']

In [3]:
# strip메서드와 조합해서 사용 strip()-공백문자(줄바꿈 문자)제거
pieces=[x.strip() for x in val.split(',')]
pieces

['a', 'b', 'guido']

In [4]:
# 분리된 문자열 합치기
first,second,third=pieces

In [5]:
# 더하기 연산을 사용해서 분리된 문자열과 합치기
first+'::'+second+'::'+third

'a::b::guido'

In [6]:
# join 메서드를 전달해서 리스트나 튜플을 문자열 '::'과 합치기
'::'.join(pieces)

'a::b::guido'

In [7]:
# 일치하는 부분문자열의 위치 찾기

# in 예약어 사용하기
'guido' in val

True

In [8]:
# index사용-문자열을 찾지 못하면 예외를 발생시킨다.
val.index(',')

1

In [9]:
# find사용-문자열을 찾지 못하면 -1반환
val.find(':')

-1

In [10]:
# 특정 부분문자열이 몇 건 발견되었는지 반환
val.count(',')

2

In [11]:
# 문자열 치환
val.replace(',','::')

'a::b:: guido'

## 2.정규 표현식

In [12]:
import re
text='foo bar\t baz \tqux'
re.split('\s+',text) # 공백 문자가 포함된 문자열을 나누기 (\s+: 하나이상의 공백문자)

# 정규표션식을 먼저 compile하고 그다음 split메서드 실행

['foo', 'bar', 'baz', 'qux']

In [13]:
# re.complile로 직접 정규 표현식을 컴파일하고 그렇게 얻은 정규 표현식 객체를 재사용
regex=re.compile('\s+')
regex.split(text)

['foo', 'bar', 'baz', 'qux']

In [14]:
# 정규 표현식에 매칭되는 모든 패턴의 목록 얻기
# findall메서드 사용
regex.findall(text)

[' ', '\t ', ' \t']

#### -findall,search,match
* findall:문자열에서 일치하는 모든 부분문자열을 찾아준다.
* search:패턴과 일치하는 첫 번째 존재를 반환
* match:문자열의 시작부분에서 일치하는 것만 찾아준다.

In [15]:
text="""Dave dave@google.com
Steve steve@gmail.com
Rob rob@gmail.com
Ryan ryan@yahoo.com
"""
pattern=r'[A-Z0~9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,4}'
regex=re.compile(pattern,flags=re.IGNORECASE) #정규표현식이 대소문자를 가리지 않는다.

In [16]:
# 전체 이메일 주소를 찾아준다.
regex.findall(text)

['dave@google.com', 'steve@gmail.com', 'rob@gmail.com', 'ryan@yahoo.com']

In [17]:
# 첫번째 이메일 주소만 찾아준다.
m=regex.search(text)
m
# match객체는 그 정규 표현 패턴이 문자열내에서 위치하는 시작점과 끝점만을 알려준다.

<re.Match object; span=(5, 20), match='dave@google.com'>

In [18]:
text[m.start():m.end()]

'dave@google.com'

In [19]:
print(regex.match(text))
# None 반환-match메서드는 정규표현 패턴이 문자열의 시작점에서부터 일치하는지 검사하기때문

None


In [20]:
# sub메서드
# 찾은 패넡을 주어진 문자열로 치환하여 새로운 문자열을 반환한다.
print(regex.sub('REDACTED',text))

Dave REDACTED
Steve REDACTED
Rob REDACTED
Ryan REDACTED



In [21]:
# 이메일 주소를 사용자이름, 도메인 이름, 도메인 접미사 세가지 컴포넌트로 나누기
pattern=r'([A-Z0~9._%+-]+)@([A-Z0-9.-]+)\.([A-Z]{2,4})'
regex=re.compile(pattern,flags=re.IGNORECASE)

In [22]:
# match객체를 이용하여 groups 메서드로 각 패턴 컴포넌트의 튜플을 얻을수 있다.
m=regex.match('wesm@bright.net')
m.groups()

('wesm', 'bright', 'net')

In [23]:
# 패턴에 그룹이 존재한다면 findall메서드는 튜플의 목록을 반환
regex.findall(text)

[('dave', 'google', 'com'),
 ('steve', 'gmail', 'com'),
 ('rob', 'gmail', 'com'),
 ('ryan', 'yahoo', 'com')]

In [24]:
# \1,\2와 같은 특수한 기호들을 사용해서 각 패턴 그룹에 접근하기
# \1-첫번째로 찾은 그룹 \2-두번째로 찾은 그룹
print(regex.sub(r'Username:\1, Domain:\2, Suffix:\3', text))

Dave Username:dave, Domain:google, Suffix:com
Steve Username:steve, Domain:gmail, Suffix:com
Rob Username:rob, Domain:gmail, Suffix:com
Ryan Username:ryan, Domain:yahoo, Suffix:com



## 3. pandas의 벡터화된 문자열 함수

In [25]:
import numpy as np

In [26]:
data={'Dave':'dave@google.com','Steve':'steve@gmail.com',
     'Rob':'rob@gmail.com','Wes':np.nan}
data=pd.Series(data)
data

Dave     dave@google.com
Steve    steve@gmail.com
Rob        rob@gmail.com
Wes                  NaN
dtype: object

In [27]:
data.isnull()

Dave     False
Steve    False
Rob      False
Wes       True
dtype: bool

In [28]:
# Na값을 건너뛰도록 하는 간결한 문자열 처리 메서드
data.str.contains('gmail') #이메일 주소가 'gmail'을 포함하고 있는지 확인

Dave     False
Steve     True
Rob       True
Wes        NaN
dtype: object

In [29]:
# 정규표현식 사용
pattern

'([A-Z0~9._%+-]+)@([A-Z0-9.-]+)\\.([A-Z]{2,4})'

In [30]:
data.str.findall(pattern,flags=re.IGNORECASE)

Dave     [(dave, google, com)]
Steve    [(steve, gmail, com)]
Rob        [(rob, gmail, com)]
Wes                        NaN
dtype: object

In [31]:
matches=data.str.match(pattern,flags=re.IGNORECASE)
matches

Dave     True
Steve    True
Rob      True
Wes       NaN
dtype: object

In [32]:
# index로 문자열 잘라내기
data.str[:5]

Dave     dave@
Steve    steve
Rob      rob@g
Wes        NaN
dtype: object