### 벡터화된 문자열 연산
### Pandas 문자열 연산 소개
연산을 벡터화화면 데이터 배열에서 동작하는 구문이 단순해진다. 배열의 크기나 모양을 걱정할 필요 없이 하고자하는 연산이 무엇인지 신경만 쓰면 된다. Numpy에서는 문자열 배열에 간단하게 접근할 수 없어서 장황한 루프 구문을 사용해야 한다.

In [1]:
data = ['peter', 'Paul', 'MARY', 'gUIDO']
[s.capitalize() for s in data]

['Peter', 'Paul', 'Mary', 'Guido']

보통 이 정도로 충분할지 모르지만 누락된 값이 있다면 에러가 발생할 것이다. 예를 들어 보자 Pandas는 문자열을 담고 있는 Pandas Series와 인덱스 객체의 str 속성을 통해 벡터화된 문자열 연산은 수행하고 누락된 데이터를 올바르게 처리하기 위한 기능을 제공한다. 그렇다면 예를 들어 이 데이터로 Pandas Series를 생성했다고 가정하자

In [2]:
import pandas as pd
names = pd.Series(data)
names

0    peter
1     Paul
2     MARY
3    gUIDO
dtype: object

In [3]:
names.str.capitalize() # captitalize 첫글자만 대문자로 변환

0    Peter
1     Paul
2     Mary
3    Guido
dtype: object

### Pandas 문자열 메서드 목록

In [4]:
monte = pd.Series(['Graham Chapman', 'John Cleese', 'Terry Gilliam', 'Eric Idle', 'Terry Jones', 'Michael Palin'])

### 파이썬 문자열 매서드와 유사한 매서드
거의 모든 파이썬의 내장 문자열 매서드는 Pandas의 벡터화된 문자열 메서드에도 반영돼 있다. 다음은 파이썬의 문자열 메서드를 반영한 Pandas str매서드의 목록이다.  

|             |                  |                  |                  |
|-------------|------------------|------------------|------------------|
|``len()``    | ``lower()``      | ``translate()``  | ``islower()``    | 
|``ljust()``  | ``upper()``      | ``startswith()`` | ``isupper()``    | 
|``rjust()``  | ``find()``       | ``endswith()``   | ``isnumeric()``  | 
|``center()`` | ``rfind()``      | ``isalnum()``    | ``isdecimal()``  | 
|``zfill()``  | ``index()``      | ``isalpha()``    | ``split()``      | 
|``strip()``  | ``rindex()``     | ``isdigit()``    | ``rsplit()``     | 
|``rstrip()`` | ``capitalize()`` | ``isspace()``    | ``partition()``  | 
|``lstrip()`` |  ``swapcase()``  |  ``istitle()``   | ``rpartition()`` |

In [5]:
monte.str.lower()

0    graham chapman
1       john cleese
2     terry gilliam
3         eric idle
4       terry jones
5     michael palin
dtype: object

In [6]:
monte.str.len()

0    14
1    11
2    13
3     9
4    11
5    13
dtype: int64

In [7]:
monte.str.startswith('T')
# T로 시작안하면 False

0    False
1    False
2     True
3    False
4     True
5    False
dtype: bool

In [8]:
monte.str.split()

0    [Graham, Chapman]
1       [John, Cleese]
2     [Terry, Gilliam]
3         [Eric, Idle]
4       [Terry, Jones]
5     [Michael, Palin]
dtype: object

### 정규 표현식을 활용하는 메서드
문자열 요소의 내용을 검사하는데 정규 표현식을 활용하고 파이썬에서 기본적으로 제공하는 re모듈의 API 규칙을 일부 따르는 메서드도 있다.

| Method | 설명 |
|--------|-------------|
| ``match()`` | 각 요소에 ``re.match()``를 호출 부울 갑을 반환 |
| ``extract()`` | 각 요소에 ``re.match()``를 호출. 문자열로 매칭된 그룹을 반환|
| ``findall()`` | 각 요소에 ``re.findall()``을 호출 |
| ``replace()`` | 패턴이 발생한 곳을 다른 문자열로 대체 |
| ``contains()`` | 각 요소에 ``re.search()``를 호출, 부울 값을 반환 |
| ``count()`` | 패턴의 발생 건수를 집계 |
| ``split()``   | ``str.split()``과 동일하지만 정규 표현식을 취함 |
| ``rsplit()`` | ``str.rsplit()``과 동일하지만 정규 표현식을 취함 |

이 매서드를 사용하면 흥미로운 연산을 다양하게 수행할 수 있다. 예를 들어 각 요소의 시작 문자와 부터 있는 그룹을 요청해 각 요소로부터 이름 부분을 추출 할 수 있다.

In [9]:
monte.str.extract('([A-Za-z]+)')

Unnamed: 0,0
0,Graham
1,John
2,Terry
3,Eric
4,Terry
5,Michael


또는 문자열 시작(^)과 문자열 끝($)을 나타내는 정규 표현식을 사용해 자음으로 시작하고 끝나는 모든 이름을 찾는 것과 같은 더 복잡한 일을 할 수도 있다.

In [10]:
monte.str.findall(r'^[^AEIOU].*[^aeiou]$')

0    [Graham Chapman]
1                  []
2     [Terry Gilliam]
3                  []
4       [Terry Jones]
5     [Michael Palin]
dtype: object

### 기타 메서드

| Method | Description |
|--------|-------------|
| ``get()`` | 각 요소에 인덱스를 지정 |
| ``slice()`` | 각 요소에 슬라이스를 적용 |
| ``slice_replace()`` | 각 요소의 슬라이스를 전달된 값으로 대체 |
| ``cat()``      | 문자열을 연결 |
| ``repeat()`` | 값을 반복 |
| ``normalize()`` | 문자열의 유니코드 형태를 반환 |
| ``pad()`` | 문자열 왼쪽, 오른쪽, 또는 양쪽에 공백을 추가 |
| ``wrap()`` | 긴 문자열을 주어진 너비보다 짧은 길이의 여러 줄로 나눔 |
| ``join()`` | Series의 각 요소에 있는 문자열을 전달된 구분자와 결합 |
| ``get_dummies()`` | DtaFrame으로 가변수(dummy variable)를 추출 |

벡터화된 항목의 접근 및 슬라이싱 get()과 slice() 연산은 특히 각 배열에서 벡터화된 요소에 접근하게 해준다. 예로 str.slice(0,3)을 사용하면 각 배열의 첫 세문자와 슬라이스를 얻을 수 있다. 이 행위는 파이썬의 일반 인덱싱 구문으로도 수행할 수 있다. df.str.slic(0,3)은 df.str[0:3]과 동일하다.

In [11]:
monte.str[0:3]

0    Gra
1    Joh
2    Ter
3    Eri
4    Ter
5    Mic
dtype: object

df.str.get(i)와 df.str[i]를 통한 인덱싱은 유사하다. 이 get()과 slice()매서드를 이용하면 split()이 반환한 배열의 요소에 접근할 수도 있다. 예를 들어, 각 요소의 성을 추출하려면 split()과 get()을 결합하면 된다.

In [12]:
monte.str.split().str.get(-1)

0    Chapman
1     Cleese
2    Gilliam
3       Idle
4      Jones
5      Palin
dtype: object

지시 변수 별도의 설명이 약간 필요한 또 다른 메서드로 get_dummies() 매서드가 있다. 이 메서드는 데이터가 일종의 코딩된 지시자를 포함한 열을 가지고 있을때 유용하다. 데이터세트가 A="born in America," B="born in the United Kingdom," C="likes cheese," D="likes spam" 같이 코드 형태의 정보를 포함 할 수 있다.

In [13]:
full_monte = pd.DataFrame({'name': monte,
                           'info': ['B|C|D', 'B|D', 'A|C',
                                    'B|D', 'B|C', 'B|C|D']})
full_monte

Unnamed: 0,name,info
0,Graham Chapman,B|C|D
1,John Cleese,B|D
2,Terry Gilliam,A|C
3,Eric Idle,B|D
4,Terry Jones,B|C
5,Michael Palin,B|C|D


get_dummies()루틴을 사용하면 이 지시 변수를 DataFrame로 신속하게 나눌 수 있다. 이 연산을 기본 구성 요소로 하면 데이터를 정제할 때 끊임 없는 문자열 처리 절차를 구성할 수 있다.