파이썬이 대중적 인기를 얻은 데는 문자열이나 텍스트 처리의 용이함이 한몫했다. 텍스트 연산은 대부분 문자열 객체의 내장 메서드를 통해 간단히 처리할 수 있다. 그렇지만 좀 더 복잡한 패턴 매칭이나 텍스트 조작은 정규표현식을 필요로 한다. pandas는 배열 데이터 전체에 쉽게 정규표현식을 적용하고 추가적으로 누락된 데이터를 편리하게 처리할 수 있는 기능을 포함하고 있다.

쉼표로 구분된 문자열은 `split`메서드를 이용하여 분리할 수 있다.

In [1]:
val = 'a,b, guido'

In [2]:
val.split(',')

['a', 'b', ' guido']

`split` 메서드는 종종 공백문자(줄바꿈 문자 포함)를 제거하는 `strip` 메서드와 조합해서 사용하기도 한다.

In [3]:
l = [x.strip() for x in val.split(',')]

In [4]:
l

['a', 'b', 'guido']

이렇게 분리된 문자열은 더하기 연산을 통해 '::' 문자열과 합칠 수도 있다.

In [8]:
frist, second, third = l

In [10]:
frist + '::' +second+'::'+third

'a::b::guido'

하지만 이 방법은 실용적이거나 범용적인 메서드는 아니다. 빠르고 좀더 파이썬스러운 방법은 리스트나 튜플을 '::' 문자열의 `join` 메서드에 전달하는 것이다.

In [11]:
'::'.join(l)

'a::b::guido'

일치하는 부분 문자열의 위치를 찾는 방법도 있다. `index` 나 `find`를 사용하는 것도 가능하지만 파이썬의 `in` 예약어를 사용하면 일치하는 부분 문자열을 쉽게 찾을 수 있다.

In [12]:
'guido' in val

True

In [14]:
val.index(',')

1

In [18]:
val.find(':')

-1

`find` 와 `index`의 차이점은 `index`의 경우 문자열을 찾지 못하면 예외를 발생시킨다는 점이다. `find`의 경우에는 -1을 반환한다.

In [20]:
val.index(':')

ValueError: substring not found

`count`는 특정 부분 문자열이 몇건 발견되었는지를 반환함

In [21]:
val.count(',')

2

`replace`는 찾아낸 패턴을 다른 문자열로 치환한다. 이 메서드는 대체할 문자열로 비어있는 문자열을 넘겨서 패턴을 삭제하기 위한 방법으로 자주 사용되기도 한다.

In [23]:
val.replace(',','::')

'a::b:: guido'

In [26]:
val.replace(',','')

'ab guido'

In [27]:
val.replace(',','').replace(' ','&')

'ab&guido'