# Pandas 문자열 연산 소개

In [1]:
import numpy as np
x=np.array([2,3,5,7,11,13])
x*2

array([ 4,  6, 10, 14, 22, 26])

In [2]:
#연산을 벡터화하면 데이터 배열에서 동작하는 구문이 단순해진다
#NumPy에서는 문자열 배열에 그렇게 간단히 접근할 수 없으므로 계속해서 장황한 루프 구문을 사용해야 한다
#누락된 값이 있을 경우 에러가 발생
data=['peter','Paul','MARY','gUIDO']
[s.capitalize() for s in data]

['Peter', 'Paul', 'Mary', 'Guido']

In [3]:
data=['peter','Paul',None,'MARY','gUIDO']

In [4]:
#Pandas는 문자열을 담고있는 Series와 Index 객체의 str속성을 통해 벡터화된 문자열 연산을 수행
import pandas as pd
names=pd.Series(data)
names

0    peter
1     Paul
2     None
3     MARY
4    gUIDO
dtype: object

In [5]:
#누락된 값은 건너뛰면서 모든 항목의 첫 글자를 대문자로 변경하는 메서드 호출
names.str.capitalize()

0    Peter
1     Paul
2     None
3     Mary
4    Guido
dtype: object

# Pandas 문자열 메서드 목록

In [6]:
monte=pd.Series(['Graham Chapman','John Cleese','Terry Gilliam',
                'Eric Idle','Terry Jones','Michael Palin'])

In [7]:
#파이썬 문자열 메서드와 유사한 메서드
monte.str.lower()

0    graham chapman
1       john cleese
2     terry gilliam
3         eric idle
4       terry jones
5     michael palin
dtype: object

In [8]:
#숫자를 반환
monte.str.len()

0    14
1    11
2    13
3     9
4    11
5    13
dtype: int64

In [9]:
#부울 값을 반환
monte.str.startswith('T')

0    False
1    False
2     True
3    False
4     True
5    False
dtype: bool

In [10]:
#각 요소에 대한 리스트나 다른 복합 값을 반환
monte.str.split()

0    [Graham, Chapman]
1       [John, Cleese]
2     [Terry, Gilliam]
3         [Eric, Idle]
4       [Terry, Jones]
5     [Michael, Palin]
dtype: object

In [11]:
#정규 표현식을 활용하는 메서드
#예를 들어, 각 요소의 시작 문자와 붙어 있는 그룹을 요청해 각 요소로부터 이름 부분을 추출
monte.str.extract('([A-Za-z]+)')

Unnamed: 0,0
0,Graham
1,John
2,Terry
3,Eric
4,Terry
5,Michael


In [12]:
#문자열 시작(^)과 문자열 끝($)을 나타내는 정규 표현식을 사용해 자음으로 시작하고 끝나는 모든 이름을 찾는다
monte.str.findall(r'^[^AEIOU].*[^aeiou]$')

0    [Graham Chapman]
1                  []
2     [Terry Gilliam]
3                  []
4       [Terry Jones]
5     [Michael Palin]
dtype: object

In [13]:
#기타 메서드
#벡터화된 항목의 접근 및 슬라이싱 get()과 slice() 연산
monte.str[0:3]

0    Gra
1    Joh
2    Ter
3    Eri
4    Ter
5    Mic
dtype: object

In [14]:
#get()과 slice() 메서드를 이용하면 split()이 반환한 배열의 요소에 접근 가능
#예를 들어, 각 요소의 성을 추출하려면 split()과 get()을 결합
monte.str.split().str.get(-1)

0    Chapman
1     Cleese
2    Gilliam
3       Idle
4      Jones
5      Palin
dtype: object

In [15]:
#지시변수 : 데이터가 일종의 코딩된 지시자를 포함한 열을 가지고 있을때 우용한 get_dummies() 메서드
full_monte=pd.DataFrame({'name':monte,
                        'info':['B|C|D','B|D','A|C',
                               'B|D','B|C','B|C|D']})
full_monte

Unnamed: 0,name,info
0,Graham Chapman,B|C|D
1,John Cleese,B|D
2,Terry Gilliam,A|C
3,Eric Idle,B|D
4,Terry Jones,B|C
5,Michael Palin,B|C|D


In [16]:
#get_dummies() 루틴을 이용하면 이 지시 변수를 DataFrame으로 신속하게 나눌 수 있다
full_monte['info'].str.get_dummies('|')

Unnamed: 0,A,B,C,D
0,0,1,1,1
1,0,1,0,1
2,1,0,1,0
3,0,1,0,1
4,0,1,1,0
5,0,1,1,1
