In [2]:
import numpy as np
import pandas as pd

In [3]:
# 사용할 문자열 데이터 만들기.
sr = pd.Series(['홍길동','이순신','김철수','김순이','이홍김'] )
sr.index=['aa','bb','cc','dd','ee']
sr

aa    홍길동
bb    이순신
cc    김철수
dd    김순이
ee    이홍김
dtype: object

In [8]:
# 데이터가 문잘열인 경우.
# 데이터가 문자열 시리즈 객체의 str속성을 이용.
# sr.index.str
sr.str

<pandas.core.strings.accessor.StringMethods at 0x2770e2ff908>

#### 문자열 Indexing slicing

In [9]:
# 성만 가져옴. 이름이 3자라고 가정할 경우 => 0, 1, 2 순서.
sr.str[0]   

aa    홍
bb    이
cc    김
dd    김
ee    이
dtype: object

In [8]:
# 0을 제외하고 끝까지 즉, 여기서는 이름을 가져옴.
sr.str[1:]  

aa    길동
bb    순신
cc    철수
dd    순이
ee    홍김
dtype: object

In [11]:
# 이름의 끝 글자만 가져옴.
sr.str[-1] 

aa    동
bb    신
cc    수
dd    이
ee    김
dtype: object

#### 정규 표현식 메타기호
- 참고 사이트 : https://wikidocs.net/4308  
    - .x : 임의의 한 문자의 자리수를 표현하며 문자열이 어떤 것(x)으로 끝난다는 것을 의미.
    - ^x : 문자열의 시작을 표현하며 x 문자로 시작됨을 의미.
    - x$ : 문자열의 종료를 표현하며 x 문자로 종료됨을 의미.
    - x* : 반복여부를 표현하며 x 문자가 0번 또는 그 이상 반복됨을 의미.
    - x+ : 반복을 표현하며 x 문자가 한번 이상 반복됨을 의미.
    - x? : 존재여부를 표현하며, x 문자가 존재할 수도, 존재하지 않을 수도 있음을 의미.
    - x{n} : 반복을 표현하며 x 문자가 n번 반복됨을 의미.
    - x{n,} : 반복을 표현하며 x 문자가 n번 이상 반복됨을 의미.
    - x{n,m} : 반복을 표현하며 x 문자가 최소 n번 이상 최대 m 번 이하로 반복됨을 의미.
    - [xy] : 문자의 집합 중 하나라도 해당되는 것을 반환.
    - [^xy] : x 및 y 를 제외한 문자를 의미.
    - (x) : 그룹을 표현하며 x 를 그룹으로 처리함을 의미.
    - (x)(y) : 그룹들의 집합을 표현하며 앞에서 부터 순서대로 번호를 부여하여 관리하고 x, y 는 각 그룹의 데이터로 관리됨.
    - x|y : or 를 표현하며 x 또는 y 문자가 존재함을 의미.
    - [x-z] : range를 표현하며 x ~ z 사이의 문자를 의미.
    - \ : ^, b, B, s, S, d, D, w, W, v, t 등의 문자가 붙음에 따라 여러 기능을 가짐.

In [13]:
# contains() : 조건에 해당되는 것만을 포함함.
# 특정 문자열이 들어 있는지에 따라 True, False로 반환.
sr.str.contains('김')    

aa    False
bb    False
cc     True
dd     True
ee     True
dtype: bool

In [10]:
# Boolean Indexing 적용하여 데이터 추출.
sr[ sr.str.contains('김') ]

cc    김철수
dd    김순이
ee    이홍김
dtype: object

In [11]:
# ^ : 특정문자로 시작.
sr.str.contains('^김')  

aa    False
bb    False
cc     True
dd     True
ee    False
dtype: bool

In [16]:
# $ : 특정문자로 끝남.
sr.str.contains('김$')  

aa    False
bb    False
cc    False
dd    False
ee     True
dtype: bool

In [17]:
# [] 문자의 집합중 하나 : 즉 홍 또는 이라는 글자를 다 True로 반환.
sr.str.contains('[홍이]')  

aa     True
bb     True
cc    False
dd     True
ee     True
dtype: bool

In [18]:
 # 홍순 또는 이순이라고 들어가는 있는 것을 반환.
sr.str.contains('[홍이]순') 

aa    False
bb     True
cc    False
dd    False
ee    False
dtype: bool

In [12]:
# 갈동 또는 순이 또는 이홍 이라고 들어가는 있는 것을 반환.
sr.str.contains('길동|순이|이홍')

aa     True
bb    False
cc    False
dd     True
ee     True
dtype: bool

In [27]:
# 문자열로 부여된 인덱스를 기준으로 'a'라고 부여된 것이 있다면 그 값을 반환.
sr[sr.index.str.contains('a')]

aa    홍길동
dtype: object

In [23]:
# replace() : 특정문자를 지정한 문자로 바꿈.
# sr = sr.str.replace('김', '황')
sr.str.replace('김', '황')

aa    홍길동
bb    이순신
cc    황철수
dd    황순이
ee    이홍황
dtype: object

In [24]:
# 김이라 시작하는 이름을 황으로 바꿈.
sr.str.replace('^김', '황')

aa    홍길동
bb    이순신
cc    황철수
dd    황순이
ee    이홍김
dtype: object

In [25]:
# 김철 또는 김이로 시작한다면 황으로 바꿈.
sr.str.replace('김[철이]', '황')

aa    홍길동
bb    이순신
cc     황수
dd    김순이
ee    이홍김
dtype: object