## 文字列操作のベクトル化
### pandas文字列操作の基礎

In [1]:
import numpy as np
x = np.array([2, 3, 5, 7, 11, 13])
x * 2

array([ 4,  6, 10, 14, 22, 26])

In [2]:
# NumPyで文字列を操作するときにはループを使用しなければならない。
data = ['peter', 'Paul', 'MARY', 'gUIDO']
[s.capitalize() for s in data]

['Peter', 'Paul', 'Mary', 'Guido']

In [3]:
# 途中に欠損値があるとエラーになる
data = ['peter', 'Paul', None, 'MARY', 'gUIDO']
[s.capitalize() for s in data]

AttributeError: 'NoneType' object has no attribute 'capitalize'

文字列を含むSeriesオブジェクトまたはIndexオブジェクトのstr属性を通して、ベクトル化された文字列操作の機能と欠落データの適切な取り扱い機能の両方を、pandasは提供する。 

In [4]:
import pandas as pd
names = pd.Series(data)
names

0    peter
1     Paul
2     None
3     MARY
4    gUIDO
dtype: object

In [5]:
names.str.capitalize()

0    Peter
1     Paul
2     None
3     Mary
4    Guido
dtype: object

#### pandas文字列操作メソッドの一覧

In [6]:
monte = pd.Series(['Graham Chapman', 'John Cleese', 'Terry Gilliam',
                                  'Eric Idle', 'Terry Jones', 'Michael Palin'])

In [7]:
# 戻り値には様々なタイプがある
# 文字列のSeriesを返すもの
monte.str.lower()

0    graham chapman
1       john cleese
2     terry gilliam
3         eric idle
4       terry jones
5     michael palin
dtype: object

In [8]:
# 数値のSeriesを返すもの
monte.str.len()

0    14
1    11
2    13
3     9
4    11
5    13
dtype: int64

In [9]:
# ブール値を返すもの
monte.str.startswith('T')

0    False
1    False
2     True
3    False
4     True
5    False
dtype: bool

In [10]:
# リストや複合値を返すもの
monte.str.split()

0    [Graham, Chapman]
1       [John, Cleese]
2     [Terry, Gilliam]
3         [Eric, Idle]
4       [Terry, Jones]
5     [Michael, Palin]
dtype: object

#### 正規表現を使用するメソッド
|メソッド|概要|
|:--------------|:-------------------|
|match()|各要素に対して、re.match()を呼び出し、ブール値を返す|
|extract()|各要素に対して、re.match()を呼び出し、マッチした文字列を返す|
|findall()|各要素に対して、re.findall()を呼び出す|
|replace()|指定したパターンを別の文字列で置き換える|
|contains()|各要素に対してre.search()を呼び出し、ブール値を返す|
|split()|str.split()と等価、正規表現を指定できる|
|rsplit()|str.rsplit()と等価、正規表現を指定できる|

In [11]:
# 要素の先頭から連続した文字列を指定して、ファーストネームを抽出する
monte.str.extract('([A-Za-z]+)')

Unnamed: 0,0
0,Graham
1,John
2,Terry
3,Eric
4,Terry
5,Michael


#### その他のメソッド
|メソッド|概要|
|:---------|:----------|
|get()|インデクスを使用した各要素の取り出し|
|slice()|各要素のスライス|
|slice_replace()|各要素のスライスを指定した値で置換する|
|cat()|文字列の連結|
|repeat()|値の繰り返し|
|normalize()|文字列のUnicode表現を返す|
|pad()|文字列の左、右、または両側に空白を加える|
|wrap()|長い文字列を指定した長さ以下の行に分割する|
|join()|指定した区切り文字を加えて、各要素の文字を連結する|
|get_dummies()|ダミー変数をDataFrameとして取り出す|